Statistik 2

Transcrição

Statistik 2

Statistik 2
JProf. Dr. Hajo Holzmann
Institut für Stochastik der Universität Karlsruhe (TH)
Wintersemester 2007/08
(Stand: 15. April 2008)
ii
INHALTSVERZEICHNIS
Inhaltsverzeichnis
1 Multivariate Normalverteilung und quadratische Formen
4
1.1
Zufallsvektoren und zufällige quadratische Formen . . . . . . . . . . . . . . .
4
1.2
Die multivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . .
5
1.3
Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.4
Aus der Normalverteilung abgeleitete Verteilungen . . . . . . . . . . . . . . .
9
1.5
Verteilung quadratischer Formen . . . . . . . . . . . . . . . . . . . . . . . . .
10
2 Lineare Regression
2.1
2.2
2.3
2.4
14
Lineare Regression und Modellbildung . . . . . . . . . . . . . . . . . . . . . .
14
2.1.1
Regression und das lineare Modell . . . . . . . . . . . . . . . . . . . .
14
2.1.2
Modellierung des Einflusses der Kovariablen . . . . . . . . . . . . . . .
15
Kleinste Quadrate Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.2.1
Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . .
18
2.2.2
Verteilungstheorie bei normalverteilten Fehlern . . . . . . . . . . . . .
22
2.2.3
Asymptotische Verteilungstheorie . . . . . . . . . . . . . . . . . . . . .
25
Andere Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.3.1
Mittlerer quadratischer Fehler und Ridge-Regression . . . . . . . . . .
29
2.3.2
Median - und Quantilregression . . . . . . . . . . . . . . . . . . . . . .
31
Modelldiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
2.4.1
Das Bestimmtheitsmaß R2 . . . . . . . . . . . . . . . . . . . . . . . . .
32
2.4.2
Residuen-Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
2.4.3
Weitere diagnostische Plots . . . . . . . . . . . . . . . . . . . . . . . .
34
2.4.4
Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
2.4.5
Ausreißer, Leverage- und Influenz-Punkte . . . . . . . . . . . . . . . .
36
INHALTSVERZEICHNIS
2.5
2.6
iii
Variablen-Selektion und Shrinkage Schätzung . . . . . . . . . . . . . . . . . .
40
2.5.1
Selektionsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
2.5.2
Test-basierte Methoden . . . . . . . . . . . . . . . . . . . . . . . . . .
41
2.5.3
Informationskriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
2.5.4
Shrinkage Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
2.5.5
Inferenz nach Modellwahl . . . . . . . . . . . . . . . . . . . . . . . . .
51
Verallgemeinerte kleineste Quadrate und Varianzschätzen . . . . . . . . . . .
55
2.6.1
Verallgemeinerte kleinste Quadrate . . . . . . . . . . . . . . . . . . . .
55
2.6.2
Varianzschätzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
3 Nichtlineare Regression
57
3.1
Modell und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
3.2
Nichtlineare kleinste Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . .
58
3.3
Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
3.4
Asymptotische Normalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
4 Logistische Regression
63
4.1
Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
4.2
Maximum Likelihood Schätzung . . . . . . . . . . . . . . . . . . . . . . . . .
63
4.3
Deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
4.4
Residuenanalyse und weitere Diagnostische Plots . . . . . . . . . . . . . . . .
66
4.5
Überdispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
5 Verallgemeinerte lineare Modelle (GLMs)
73
5.1
Dispersionsexponentialfamilien (DEFs) . . . . . . . . . . . . . . . . . . . . . .
73
5.2
Komponenten eines GLMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
5.3
Maximum Likelihood Schätzung und Testen in GLMs . . . . . . . . . . . . .
77
iv
INHALTSVERZEICHNIS
5.4
Modelldiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
5.5
Poisson-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
5.6
Gamma-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
5.7
Quasi-Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
6 Kategorielle Daten und kategorielle Regression
94
6.1
Fishers exakter Test auf Homogenität . . . . . . . . . . . . . . . . . . . . . .
94
6.2
Der χ2 -Test auf Homogenität . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
6.3
Fishers exakter Test auf Unabhängigkeit . . . . . . . . . . . . . . . . . . . . .
97
6.4
χ2 -Test auf Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
6.5
McNemars Test für gepaarte Stichproben . . . . . . . . . . . . . . . . . . . .
100
6.6
Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
102
6.7
Kategorielle Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
102
7 Lineare Gemischte Modelle
105
7.1
Longitudinal- und Cluster-Daten . . . . . . . . . . . . . . . . . . . . . . . . .
105
7.2
Das lineare gemischte Modell . . . . . . . . . . . . . . . . . . . . . . . . . . .
106
7.3
Schätzen und Vorhersagen im linearen gemischten Modell . . . . . . . . . . .
107
7.4
Verallgemeinerte lineare gemischte Modelle . . . . . . . . . . . . . . . . . . .
111
8 Nichtparametrische Dichteschätzung
113
8.1
Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
113
8.2
Kern-Dichte Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
115
8.3
Integrierter mittlerer quadratischer Fehler . . . . . . . . . . . . . . . . . . . .
117
8.4
Bandbreitenwahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
121
8.5
Modifikationen des Kern-Dichte Schätzers . . . . . . . . . . . . . . . . . . . .
126
8.6
Multivariate Kern-Dichte Schätzung . . . . . . . . . . . . . . . . . . . . . . .
128
9 Nichtparametrische Regression
132
9.1
Problemstellung und Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . .
132
9.2
Lineare Glätter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
133
9.3
Mittlerer quadratischer Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . .
135
9.4
Minimax-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
140
A Verzeichnis der Sätze
145
vi
INHALTSVERZEICHNIS
Literatur
1. Multivariate Normalverteilung
• Kotz, Samuel; Balakrishnan, N.; Johnson, Norman L. (2000) Continuous multivariate
distributions. Vol. 1. Models and applications. 2nd edn. Wiley-Interscience, New York.
• Johnson, Norman L.; Kotz, Samuel; Balakrishnan, N. (1995) Continuous univariate
distributions. Vol. 2. 2nd edn. John Wiley & Sons, Inc., New York.
• Ravishankar, N. und Dey, D. K. (2002) A first course in linear model theory, Chapman
& Hall, Kapitel 5.
2. Lineare Regressions
• Faraway, J. (2005) Linear Models with R. Chapman & Hall/CRC, Boca Raton, FL.
• Fahrmeier, L., Kneib, T. und Lang, S. (2007) Regression. Modelle, Methoden und Anwendungen. Springer, Berlin, Kapitel 3.
• Weisberg, S. (2005) Applied Linear Regression. 3. Auflage, John Wiley & Sons, Hoboken,
NJ.
• Ravishankar, N. und Dey, D. K. (2002) A first course in linear model theory.
• Searle, (1971) Linear Models. John Wiley & Sons, Inc., New York. Kapitel 3.
• Stapleton, J. H. (1995) Linear Statistical Methods. John Wiley & Sons, Inc., New York.
3. Nichtlineare Regression
• Myers, R.H., Montgomery, D.C., Vinig, G.G. (2002) Generalized Linear Models. John
Wiley & Sons. Kapitel 3.
• Seber, G.A.F., Wild, C.J. (2003) Nonlinear Regression. John Wiley & Sons.
4. Logistische Regression/ 5. Verallgemeinerte lineare Modelle
• Dobson, A.J. (2002) An Introduction to Generalized Linear Models (2 edn, 2002).
• Faraway, J. (2006) Extending the linear Model with R. Chapman & Hall/CRC, Boca
Raton, FL, Kapitel 2,3,6,7.
2
INHALTSVERZEICHNIS
• McCullagh, P. and Nelder, J.A. (1989) Generalized Linear Models, Vol. 37 of Mo- nographs on Statistics and Applied Probability (2 edn, 1989).
• Weisberg, S. (2005) Applied Linear Regression. 3. Auflage, John Wiley & Sons, Hoboken,
NJ, Kapitel 12.
• McCulloch, C.E., Searle, S.R. (2001) Generalized, Linear, and Mixed Models.
• Myers, R.H., Montgomery, D.C., Vinig, G.G. (2002) Generalized Linear Models. John
Wiley & Sons.
6. Kategorielle Daten und kategorielle Regression
Raton, FL, Kapitel 5
• Agresti, A. (2002) Categorical Data Analysis. 2nd edn. John Wiley & Sons
• Agresti, A. (1996) An Introduction to Categorical Data Analysis. John Wiley & Sons.
7. Gemischte Modelle und Longitudinale Daten
Raton, FL, Kapitel 9.
• Ravishankar, N. und Dey, D. K. (2002) A first course in linear model theory, Chapman
& Hall, Kapitel 10.
8. Nichtparametrische Dichteschätzung
• Wand, M. P.; Jones, M. C. (1995) Kernel smoothing. Chapman and Hall, Ltd., London.
• Silverman, B. W. (1986) Density estimation for statistics and data analysis. Chapman
& Hall, London.
9. Nichtparametrische Regression
• Wand, M. P.; Jones, M. C. (1995) Kernel smoothing. Chapman and Hall, Ltd., London,
Kapitel 5.
INHALTSVERZEICHNIS
3
• Fan, J.; Gijbels, I. (1996) Local polynomial modelling and its applications. Chapman &
Hall, London.
Theoretischer Hintergrund
• Shao, J. (2003) Mathematical statistics. 2nd edn. Springer-Verlag, New York, .
• van der Vaart, A. W. (1998) Asymptotic statistics. Cambridge University Press, Cambridge.
• Hogg, R.V., McKean, J.W., Craig, A.T.: Introduction to Mathematical Statistics. 6th
edn. Pearson Prentice Hall, 20051.
• Knight, K. (2000) Mathematical Statistics. Chapman & Hall, 20001.
• Pruscha, H. (1989) Angewandte Methoden der Mathematischen Statistik.
• Pruscha, H. (2000) Vorlesungen über Mathematische Statistik.
4
1
1
MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN
Multivariate Normalverteilung und quadratische Formen
1.1
Zufallsvektoren und zufällige quadratische Formen
Sei X = (X1 , . . . , Xn )T ∈ Rd ein d-variater Zufallsverktor, wobei Xi Zufallsvariable seinen.
Der Erwartungswertvektor von X ist definiert durch EX = (EX1 , . . . , EXn )T , falls die Erwartungswerte EXi existieren. Die Kovarianzmatrix von X ist gegeben durch
Cov X = Cov(Xi , Xj ) i,j=1,...,n ,
falls die Xi endliche Varianzen haben. Für einen Vektor a ∈ Rd gilt
Var(aT X) = aT Cov X a.
Da die Varianz auf der linken Seite stets nicht-negativ ist, folgt, dass die Kovarianzmatrix stets
positiv semidefinit ist. Weiter ist Cov X genau dann degeneriert, falls die Xi (als Abbildungen
auf dem zugrundeliegenden W-Raum) linear abhängig sind (fast sicher).
Satz 1.1 (lineare Transformationen)
Sei X ∈ Rn ein Zufallsvektor mit endlichem Erwartungswertvektor EX und endlicher Kovarianzmatrix Cov X. Für A ∈ Rm×n gilt dann
E(AX) = A EX,
Cov(AX) = A Cov X AT .
Der Beweis ist ein einfaches Nachrechnen. Allgemeiner definieren wir für Zufallsvektoren X ∈
Rd und Y ∈ Rq die Kovarianzmatrix
Cov(X, Y) = Cov(Xi , Yj ) i=1,...,d j=1,...,q ∈ Rd×q .
Falls X und Y unabhängig sind, so gilt (analog zu zwei Zufallsvariablen) Cov(X, Y) = 0.
Für einen Zufallsvektor X ∈ Rd und eine symmetrische Matrix A ∈ Rn×n betrachten wir die
zufällige quadratische Form XT AX, eine Zufallsvariable.
Satz 1.2 (Erwartungswert quadratischer Formen)
Sei X ∈ Rn ein Zufallsvektor mit EX = µ ∈ Rn , Cov X = Σ ∈ Rn×n , und sei A ∈ Rn×n
symmetrisch. Betrachte die quadratische Form Q = XT AX. Dann gilt
EQ = Spur(A · Σ) + µT Aµ
Beweis
Q=
n
X
aij Zi Zj , EZi Zj = Σij + µi µj
i,j=1
Somit
EQ =
n
X
i,j=1
aij (Σij + µi µj ) = µT Aµ +
n
X
aij Σij = µT Aµ + Spur(AΣ)
i,j=1
[Beachte: Sowohl A als auch Σ sind symmetrisch.]
1.2 Die multivariate Normalverteilung
1.2
5
Die multivariate Normalverteilung
Definition
Sei µ ∈ Rd und Σ ∈ Rd×d symmetrisch und positiv definit. Die multivariate Normalverteilung N (µ, Σ) ist gegeben durch die Dichte
1
1
T −1
f (x; µ, Σ) =
− (x − µ) Σ (x − µ) ,
1 exp
d
2
(2π) 2 |Σ| 2
wobei |Σ| = det Σ.
Für µ = 0 und Σ = Id spricht man von der d-variaten Standardnormalverteilung. Wir
prüfen kurz, dass f (x; µ, Σ) tatsächlich eine Dichte auf Rd definiert, also zu 1 integriert.
Für f (x; 0, Id ) ist dies klar, da es sich um eine d-fache Produktdichte von univariaten Dichten
der Standardnormalverteilung handelt. Den allgemeinen Fall führen wir hierauf durch Variablen Transformation zurück. Dazu betrachte die Spektralzerlegung von Σ. Es existieren eine
orthogonale Matrix Q und λ1 > 0, . . . , λd > 0 (die Eigenwerte von Σ, diese sind > 0, da Σ
positiv definit ist), so dass
Σ = Q diag(λ1 , . . . , λd ) QT .
Man definiert dann die Wurzel aus Σ durch
1
1
1
Σ 2 = Q diag(λ12 , . . . , λd2 ) QT ,
1
1
diese ist eindeutig bestimmt und es gilt Σ 2 · Σ 2 = Σ. Ausserdem gelten
−1
T
Σ−1 = Q diag(λ−1
1 , . . . , λd ) Q ,
1
Σ− 2
1
−1
−1
= (Σ 2 )−1 = Q diag(λ1 2 , . . . , λd 2 )QT .
R
Zur Berechnung von f (x; µ, Σ) dx führt man eine Variablentransformation y = Σ−1/2 (x−µ)
durch und erhält die d-variate Standardnormalverteilung.
Satz 1.3 (Lineare Transformation)
Sei X ∼ N (µ, Σ), µ ∈ Rd , p ≤ d, A ∈ Rp×d mit vollem Rang und b ∈ Rp . Dann ist Y = AX
verteilt nach Y ∼ N (Aµ + b, AΣAT ).
Beweis
Wir behandeln nur den Fall µ = 0, b = 0, die nötigen Translationen können leicht behandelt
werden.
Wir betrachten zunächst den Fall Σ = Id . Ist etwa AT = (v1 , . . . , vp ), vi ∈ Rd , so setze
V = span {v1 , . . . , vp } ⊂ Rd . Dann ist V ein p-dimensionaler Untervektorraum von Rd , und
wir können eine orthonormale Basis e1 , . . . , ed−p des orthogonalen Komplements V ⊥ wählen.
Setzte Ã, derart, dass ÃT = (v1 , . . . , vp , e1 , . . . , ep−d ) ∈ Rd×d . Dann hat Ã vollen Rang. Wir
betrachten nun W = ÃX. Dann ist W = (YT , ZT )T für geeignetes Z ∈ Rd . Zum Beweis
können wir also die Verteilung von W und dann die Randverteilung von Y berechnen. Eine
Variablentransformation liefert für die Dichte von W
1 T
1
T −1
exp − w (ÃÃ ) w .
fW (w) =
d
2
(2π) 2 |Ã|
6
1
Nach Konstruktion von Ã erhalten wir die Blockgestalt (Ir ist die r-dimensionale Einheitsmatrix)
T
AA
0
T
=: diag AAT , Id−p .
ÃÃ =
0
Id−p
Ausserdem ist
|Ã| = |ÃÃT |1/2 = |AAT |1/2 .
Setzen wir w = (yT , zT )T , so erhalten wir
1
1
1 T
1 T
T −1
fW (y, z) =
exp − y (AA ) y
exp − z z .
2
2
(2π)p/2 |AAT |1/2
(2π)(d−p)/2
Wir können nun z herausintegrieren (Standardnormalverteilung) und erhalten für Y die Dichte in gewünschter Form.
Den Fall für allgemeines Σ führt man nun leicht auf obigen Fall zurück. Dafür setzte X̃ =
Σ−1/2 X, dann ist X̃ ∼ N (0, Id ), und Y = AΣ1/2 X̃ ∼ N (0, AΣ1/2 Σ1/2 AT ) nach dem bereits
behandelten Fall, wie behauptet.
Momente
Ist X ∼ N (µ, Σ), so ist EX = µ, Cov X = Σ. Zum Beweis benutzen wir Satz
1.3. Zunächst bemerken wir, dass die Formeln für die d-variate Standardnormalverteilung
richtig sind (direkt aus der univariaten Normalverteilung). Ist Y ∼ N (0, Id ), so ist X =
Σ1/2 (Y + µ) ∼ N (µ, Σ). Mit Satz 1.1 folgt die Behauptung.
Marginalverteilungen und Unabhängigkeit Sei X ∼ N (µ, Σ), wobei X = (YT , ZT )T ,
Y ∈ Rr , Z ∈ Rd−r , für 1 ≤ r < d. Sei
µ1
Σ11 Σ12
µ=
,
Σ=
ΣT12 Σ22
µ2
mit µ1 ∈ Rr , µ2 ∈ Rd−r , Σ11 ∈ Rr×r , Σ22 ∈ R(d−r)×(d−r) , Σ12 ∈ Rr×(d−r) .
Satz 1.4
Es sind Y ∼ N (µ1 , Σ11 ), Z ∼ N (µ2 , Σ2 ), und Cov(Y, Z) = Σ12 . Weiter gilt
Y und Z unabhängig
⇔ Σ12 = 0.
Beweis
Für die Verteilung von Y verwende Satz 1.3 mit A = (Ir , 0) ∈ Rr×d , Y = AX, für Z
nutzte Z = BX, B = (0, Id−r ) ∈ R(d−r)×d . Für den zweiten Teil beachte zunächst, dass
unabhängige Zufallsvektoren Kovarianzmatrix 0 haben. Falls Σ12 =, so ist Σ = diag(Σ1 , Σ2 )
−1
T
T T
eine Blockmatrix mit inverser Σ−1 = diag(Σ−1
1 , Σ2 ), und die Dichte f (y, z) von (Y , Z )
berechnet sich leicht zur Produktdichte der beiden multivariaten Normalverteilungen, was die
Unabhängigkeit zeigt.
Satz 1.5
Sei X ∼ N (µ, Σ), µ ∈ Rd , p, q ≤ d, B ∈ Rp×d mit vollem Rang, C ∈ Rq×d mit vollem Rang.
Dann gilt:
BX und CX sind unabhängig ⇔ BΣC T = 0
1.3 Bedingte Verteilungen
7
Beweis
⇒“. Klar, da
”
Cov(BX, CX) = E(B(X − µ)(X − µ)T C T ) = BΣC T = 0
bei Unabhängigkeit.
⇐“.
”
Betrachte zunächst den Fall Σ = Id . Schreibe
T
T
C = c1 , . . . , cq , bi , cj ∈ Rd
B = b1 , . . . , bp ,
Dann: BΣC T = BC T = 0 ⇔ bTi cj = 0. Somit hat
A = b1 , . . . , bp , c1 , . . . , cq )T
vollen Rang und
BB T
BX
T
∼ N (Aµ, AA ) = N Aµ,
AX =
0
CX
0
CC T
da Σ = Id und BC T = 0. Also sind BX und CX unabhängig.
Zum allgemeinen Fall:
Weiter
1
1
2
1
1
1
1
1
2
2
BX = BΣ
| {z } Y, CX = |CΣ
{z } Y
=:B̃
1
2
1
Betrachte Y = Σ− 2 X mit Y ∼ N (Σ− 2 µ, Σ− 2 ΣΣ− 2 ) = N (Σ− 2 µ, Id ).
=:C̃
und B̃ C̃ T = BΣ (Σ )T C T = BΣC T . Somit BΣC T = 0 ⇔ B̃ C̃ T = 0 und B̃Y = BX und
C̃Y = CX nach obigem Fall unabhängig.
Relevante R Befehle. eigen (berechnet Eigenwerte und Vektoren einer Matrix), qr.solve
(berechnet Inverse einer Matrix). Die Library MASS enthält die Funktion mvrnorm (Erzeugung von multivariaten normalverteilten Zufallszahlen). Die Dichte muss per Hand berechnet
werden.
1.3
Bedingte Verteilungen
Wir wiederholen zunächst die bedingten Dichte bei Zufallsvektoren. Es sei X = (YT , ZT )T ∈
Rd mit Dichte f (y, z), Y ∈ Rr , Z ∈ Rd−r , dann hat Y|Z = z die Dichte
f (y|z) =
f (y, z)
.
f (z)
(1)
Im Folgenden sei wie oben X ∼ N (µ, Σ), wobei X = (YT , ZT )T , Y ∈ Rr , Z ∈ Rd−r , für
1 ≤ r < d. Sei
µ1
Σ11 Σ12
µ=
,
Σ=
ΣT12 Σ22
µ2
mit µ1 ∈ Rr , µ2 ∈ Rd−r , Σ11 ∈ Rr×r , Σ22 ∈ R(d−r)×(d−r) , Σ12 ∈ Rr×(d−r) .
8
1
Satz 1.6
Es ist Y|Z = z ∼ N (µY|Z=z , Σ1|2 ), wobei
µY|Z=z = µ1 − Σ12 Σ−1
2 (z − µ2 ),
Σ1|2 = Σ1 − Σ12 Σ−1
2 Σ21 .
Die Matrix Σ1|2 heisst das Schur Komplement, diese ist positiv definit, falls Σ positiv definit
ist.
Beweis
Nach (1) ist
f (y|z) =
exp(− 21 ((x − µ)T Σ−1 (x − µ) − (z − µ2 )T Σ−1
2 (z − µ2 )))
1
|Σ|
( |Σ
) 2 · (2π) 2
2|
.
Wir berechne Σ−1 in Blockform durch Spaltenumformungen 1 .
Σ1 Σ12
Σ21 Σ2
Σ1
Σ12
Σ−1
Σ
I2
21
2
Σ1|2
0
−1
Σ2 Σ21 I2
I1
0
−1
Σ2 Σ21 I2
I1 0
0 I2
Σ−1
2 ·2
↓
1 − Σ12 · 2
↓
Σ−1
1|2 · 1
↓
I1 0
0 I2
I1
0
0 Σ−1
2
2 − Σ−1
2 Σ21 · 1
↓
I1 −Σ12 Σ−1
2
0
Σ−1
2
−1
−1
Σ−1
1|2 −Σ1|2 Σ12 Σ2
0
Σ−1
2
!
−1
−Σ−1
Σ−1
1|2
1|2 Σ12 Σ2
−1
−1
−1
−1
−1
−Σ−1
2 Σ21 Σ1|2 Σ2 − Σ2 Σ21 Σ1|2 Σ12 Σ2
!
Somit ist
(x − µ)T Σ−1 (x − µ) − (z − µ2 )T Σ−1
2 (z − µ2 )
T
−1
−1
Σ
=
y − µ1 − Σ12 Σ−1
(z
−
µ
)
y
−
µ
−
Σ
Σ
(z
−
µ
)
12 2
2
1
2 .
2
1|2
−1
Wegen |Σ−1 | = |Σ−1
2 | · |Σ1|2 | folgt der Satz.
1
Gaußscher Algorithmus ((Σ|I) wird umgeformt zu (I|Σ−1 ))
1.4 Aus der Normalverteilung abgeleitete Verteilungen
Regression to the mean
Für
T
µ = (µ1 , µ2 ) ,
Σ=
σ12
ρσ1 σ2
ρσ1 σ2
σ22
9
−1 < ρ < 1,
,
sei (X, Y ) ∼ N (µ, Σ) bivariat normalverteilt. Dann gilt nach Satz 1.6 für die bedingte Verteilung
σ2
Y |X = x ∼ N µ2 + ρ (x − µ1 ), (1 − ρ2 )σ22 .
σ1
Insbesondere ist für
σ12 = σ22 = σ 2 ,
µ1 = µ2 = µ,
(2)
E(Y |X = x) = µ + ρ(x − µ) und somit für 0 < ρ < 1,
µ < E(Y |X = x) < x falls x > µ,
x < E(Y |X = x) < µ falls x < µ.
Selbst wenn also X und Y positiv korreliert sind, nähert sich im bedingten Mittel Y wieder
µ an. Analog gilt für die Änderung Y − X|X unter (2),
Y − X|X = x ∼ N (1 − ρ)(µ − x), (1 − ρ2 )σ 2 .
Also hat der Regressionskoeffizient von der Änderung Y − X (abhängige Variable) regressiert
auf X (Kovariable) negatives Vorzeichen auch bei positivem ρ.
1.4
Aus der Normalverteilung abgeleitete Verteilungen
Pd
2
2
a. Ist X ∼ N (µ, Id ), so hat XT X =
i=1 Xi die nichtzentrale χ -Verteilung mit d
1 T
2
Freiheitsgraden und Nichtzentralitätsparameter 2 µ µ. Schreibweise: χ (d; 21 µT µ).
In der Tat hängt die Dichte von X T X,
−λ
f (u) = e
1
1
∞
X
λ2k u 2 d+k−1 e− 2 u
,
k! 2 21 d+k Γ( 1 d + k)
k=0
2
1
λ = µT µ,
2
nur von λ und nicht von ganz µ ab. Für λ = 0 (bzw. µ = 0) ergibt sich die zentrale χ2 Verteilung mit d Freiheitsgraden, Bezeichnung χ2 (d), diese hat die Dichte (Beweis!)
fχ2 ,d (u) =
ud/2−1 e−u/2
.
2d/2 Γ(d/2)
(3)
Man kann zeigen, dass (3) auch für nicht ganzes d eine Dichte definiert, daher kann man die
Freiheitsgrade in (0, ∞) variieren lassen.
Weitere Notation:
χ2α (n) : Das α-Quantil der zentralen χ2 Verteilung mit n Freiheitsgraden (0 < α < 1).
χ2 (n)(x) : Wert der Verteilungsfunktion der zentralen χ2 Verteilung mit n Freiheitsgraden
bei x (x > 0).
Relevante R Befehle.
dchisq (Dichte), pchisq (Verteilungsfunktion), qchisq (Quantile) und
10
1
rchisq (Zufallszahlen).
Ist U1 ∼ χ2 (d1 ; λ), U2 ∼ χ2 (d2 ), U1 , U2 unabhängig, so hat
b.
V =
U1 /d1
∼ F (d1 , d2 ; λ)
U2 /d2
die nichtzentrale F-Verteilung mit Freiheitsgraden d1 und d2 und Nichtzentralitätsparameter λ. Für λ = 0 erhält man die zentrale F-Verteilung, diese hat die Dichte (Beweis)
2
Γ d1 +d
ud1 /2
2
d1d1 /2 dd22 /2
.
fF,d1 ,d2 (u) =
(d2 + d1 u)(d1 +d1 )/2
Γ d1 /2 Γ d2 /2
Weitere Notation:
Fα (n, m; λ) : Das α-Quantil der F Verteilung mit n und m Freiheitsgraden (0 < α < 1) und
Nichtzentralitätsparameter λ.
F (n, m; λ)(x) : Wert der Verteilungsfunktion der F Verteilung mit n Freiheitsgraden bei x
(x > 0) und Nichtzentralitätsparameter λ.
zahlen).
df (Dichte), pf (Verteilungsfunktion), qf (Quantile) und rf (Zufalls-
Ist X ∼ N (µ, 1), U ∼ χ2 (d), so hat
c.
X
V =p
U/d
die t-Verteilung mit d Freiheitsgraden und Nichtzentralitätsparameter µ, Bezeichnung t(n; µ).
Für µ = 0 erhält man die zentrale t-Verteilung, diese hat die Dichte (Beweis)
(d+1)/2
Γ d+1
2√
1 + u2 /d
.
ft,d (u) =
d
Γ 2
πd
Weitere Notation:
tα (n; µ) : Das α-Quantil der t Verteilung mit n und m Freiheitsgraden (0 < α < 1) und
Nichtzentralitätsparameter µ.
t(n; µ)(x) : Wert der Verteilungsfunktion der t Verteilung mit n Freiheitsgraden und Nichtzentralitätsparameter µ bei x (x > 0).
zahlen).
dt (Dichte), pt (Verteilungsfunktion), qt (Quantile) und rt (Zufalls-
Ist bei einer dieser Verteilung der Nichtzentralitätsparameter = 0, so lässt man diesen in der
Notation einfach weg.
1.5
Verteilung quadratischer Formen
Satz 1.7
Sei X ∼ N (µ, Σ), A ∈ Rd×d positiv semidefinit2 . Ist AΣ idempotent, d.h. (AΣ)2 = AΣ, so
gilt
1
XT AX ∼ χ2 (r(A), µT Aµ)
2
2
setzt Symmetrie voraus!
1.5 Verteilung quadratischer Formen
11
(r(A) ist der Rang von A)
Bemerkung
Es gilt auch die Rückrichtung.
Beweis
a. Zunächst sei wieder Σ = Id . Wegen A = A2 hat die Spektralzerlegung von A die Form
A = QT diag( 1, . . . , 1 , 0, . . . , 0)Q
| {z }
r(A) mal
mit orthogonaler Matrix Q. Somit
2
XT AX = XT QT diag(1, . . . , 1, 0, . . . , 0) QX = YT DY = Y12 + . . . + Yr(A)
|
{z
} |{z}
=:Y
=:D
wobei Y ∼ N ( Qµ , Id ). Somit gilt:
|{z}
=:v
XT AX ∼ χ2 (r(A),
1
1 2
2
(v1 + . . . + vr(A)
)) = χ2 (r(A), µT Aµ)
2|
2
{z
}
=vT Dv=µT Aµ
1
1
b. Allgemeiner Fall:
Ist X ∼ N (µ, Σ), so gilt Y = Σ− 2 X ∼ N (Σ− 2 µ, Id ) und XT AX =
1
1
YT Σ 2 AΣ 2 Y.
1
1
Es ist Σ 2 AΣ 2 idempotent, denn
1
1
1
1
1
1
1
1
1
1
Σ 2 AΣ 2 Σ 2 AΣ 2 = Σ− 2 ΣAΣAΣ 2 = Σ− 2 ΣAΣ 2 = Σ 2 AΣ 2 .
Nach (a) gilt somit
1
1
1
1
1
1
1
XT AX ∼ χ2 (r(Σ 2 AΣ 2 ), (Σ− 2 µ)T Σ 2 AΣ 2 (Σ− 2 µ))
2
1 T
2
= χ (r(A), µ µ).
2
1
da Σ 2 vollen Rang hat.
Beispiel 1.8
Es seine X1 , . . . , Xn unabhängig und N (µ, σ 2 ) verteilt. Als Schätzer für Erwartungswert und
Varianz betrachtet man
n
1X
X̄n =
Xi ,
n
i=1
n
Sn2
1 X
=
(Xi − X̄n )2 .
n−1
i=1
Offenbar ist X̄n ∼ N (µ, σ 2 /n). Wir zeigen
n−1 2
S ∼ χ2 (n − 1).
σ2 n
(4)
12
1
Dazu setze 1n = (1, . . . , 1)T ∈ Rn und Pn = In − n1 1n 1Tn (die Zentrierungsmatrix). Für
X = (X1 , . . . , Xn )T ist in der Tat Pn X = (X1 − X̄n , . . . , Xn − X̄n )T . Weiter Pn2 = Pn (Beweis),
also nach Satz 1.7
n−1 2
1 T
2
2 T
S
=
X
P
X
∼
χ
r(P
),
µ
1
P
1
/2
.
n
n
n
n
n
n
σ2
σ2
Da Pn2 = Pn und PnT = Pn , ist r(Pn ) = Spur Pn = n − 1. Ausserdem ist Pn 1n = 0. Dies zeigt
(4).
Satz 1.9 (Craig und Sakamoto)
Sei X ∼ N (µ, Σ).
a. Ist A ∈ Rd×d positiv semidefinit, B ∈ Rp×d , so gilt
BΣA = 0 ⇒ XT AX und BX sind unabhängig
b. Ist auch B ∈ Rd×d positiv semidefinit, so gilt
BΣA = 0 ⇒ XT AX und XT BX sind unabhängig
Bemerkung Es gilt jeweils auch die Rückrichtung (dies ist der schwerere, aber weniger
relevante Teil).
Beweis
a. Spektralzerlegung von A
A = Q diag(λ1 , . . . , λr(A) , 0, . . . , 0)QT
mit Q orthogonal, λi > 0.
Sei Q = (q1 , . . . , qd ), Q̃ = (q1 , . . . , qr(A) ) ∈ Rd×r(A) . Dann
1
1
2
)
A = Q̃DDQ̃T , D = diag(λ12 , . . . , λr(A)
Setze L := Q̃D, dann ist A = LLT . Weiter gilt
LT L = D Q̃T Q̃ D = D2
| {z }
=Ir(A)
ist invertierbar, also
BΣA = BΣLLT = 0 ⇒ BΣL(LT L)(LT L)−1 = BΣL = 0.
Nach Satz 1.5 sind somit die Vektoren BX und LT X unabhängig und somit auch BX
und XT LLT X = XT AX (ist Funktion von LT X).
b. Analog. (Zerlege A und B.)
1.5 Verteilung quadratischer Formen
Fortsetzung von Beispiel 4.
normalverteilten Xi unabhängig.
13
Da X̄n = 1Tn X/n und 1Tn Pn = 0, sind X̄n und Sn2 bei
Literatur
Discroll, M. F. (1999). An improved result relating quadratic forms and chi square distributions. Amer. Statist. 53, 273-275.
Discroll, M. F. and Grundberg, W. R. (1986). A history of the development of Craig’s theorem. Amer. Statist. 40, 65-69.
Discroll, M. F. and Krasnicka, B. (1995). An accessible proof of Craig’s theorem in the general
case. Amer. Statist. 49, 59-62.
14
2
2
LINEARE REGRESSION
Lineare Regression
2.1
2.1.1
Lineare Regression und Modellbildung
Regression und das lineare Modell
In der Regressionsanalyse geht es darum, den Einfluss einer Reihe von erklärenden Variablen x1 , . . . , xr , sogenannte Kovariablen, auf eine abhängige Variabe Y , die Zielvariable, zu
modellieren bzw. zu schätzen. Dieser Zusammenhang drückt sich in Form einer Funktion
y = f (x1 , . . . , xr ) aus. Nun wird aber nicht angenommen, dass diese Beziehung exakt gilt.
Vielmehr ist sie durch zufällige Störgrößen ǫ überlagert, d.h. es gilt
Y = f (x1 , . . . , xr ) + ǫ.
In der linearen Regressionsanalyse nimmt man an, dass der Einfluss der Kovariablen, zumindest nach geeignter Transformation dieser Variablen, in einer linearen From
Y = b0 + b1 x1 + . . . + br xr + ǫ.
Dabei ist ǫ eine Zufallsvariable (bzw. deren Realisierung) mit Erwartungswert Eǫ = 0 und
endlicher Varianz Var ǫ = σ 2 , und somit ist auch die Zilegröße Y eine Zufallsvariable (bzw.
deren Realisierung). Ziel ist dann die Schätzung der Parameter b0 , . . . , br . Diese fasst man
in einem Vektor zusammen. Wir schreiben β = (b0 , . . . , br ) ∈ Rp , also p = r + 1, und für
die Komponenten von β = (β1 , . . . , βp )T gilt dann βi = bi−1 . Weiter schreibt man x =
(1, x1 , . . . , xr )T ∈ Rp , so dass Y = xT β + ǫ.
Ziel ist nun in einem ersten Schritt die Schätzung der unbekannten Parameter des Modells,
insbesondere von β. Dazu nimmt man an, es werden Daten (Yi , xi,1 , . . . , xi,r ), i = 1, . . . , n,
beobachtet, so dass
Yi = xTi β + ǫi ,
xi = (1, xi,1 , . . . , xi,r )T .
Für die Fehler ǫi nimmt man dabei an, dass diese unabhängig oder zumindest unkorreliert
sind, also dass Cov(ǫi , ǫj ) =, i 6= j. Falls darüber hinaus die Varianzen σi2 = Var ǫi alle
gleich sind, also σ12 = . . . = σn2 , so sprich man von einer homoskedastsichen Fehlerstruktur,
ansonsten von einer heteroskedastischen Fehlerstruktur.
Die Analyse eines homoskedastischen linearen Regressionsmodells findet nun im Rahmen der
Theorie linearer Modelle statt. Dazu schreiben wir das Modell in Vektor- und Matrixform wie
folgt.
 
 
 T
ε1
Y1
x1
 .. 
 .. 
 .. 
n×p
n
,
ǫ =  .  ∈ Rn .
Y= . ∈R ,
X= . ∈R
Yn
xTn
εn
Es gilt dann Y = Xβ + ǫ. Für die Kovariablen nimmt man noch an, dass sie dergestalt
sind, dass die sogenannte Designmatrix X vollen Rang p hat. Der Achsenabschnitt wird
meistens, aber nicht immer in das lineare Regressionsmodell mit aufgenommen. Das lineare
Regressionsmodell fällt unter die folgende allgemeinere Definition.
2.1 Lineare Regression und Modellbildung
15
Definition 2.1
Das Modell
Y = Xβ + ǫ,
(5)
heißt lineares Modell, falls β ∈ Rp ein (konstanter, unbekannter) Parametervektor, X ∈ Rn×p
eine bekannte Matrix (Designmatrix), Y ein beobachter Zufallsvektor (Zielgrößen) und ǫ
ein nichtbeobachteter Zufallsvektor (Störgrößen) mit Eǫ = 0 und Cov ǫ = σ 2 In sind. Sind
darüber hinaus die Fehler normalverteilt, also ǫ ∼ N (0, σ 2 In ), dann spricht man von einem
linearen Modell mit normalverteilten Fehlern.
Wir werden in den folgenden Abschnitten alle Resultate im allgemeinen linearen Modell (5)
formulieren, aber wir denken dabei stets an ein homoskedastisches lineares Regressionsmodell. Lineare Modelle treten darüber hinaus insbesondere in dem verwandten Kontext der
Varianzanalyse auf.
2.1.2
Modellierung des Einflusses der Kovariablen
a. Einfluss einer metrischen Kovariable
Angenommen, neben der Zielvariable Y wird noch eine metrische Kovariable x beobachtet.
Das einfachste Modell ist nun die direkt lineare Regression von Y auf x, die einfache lineare
Regression
Y = b0 + b1 x + ε,
also xT = (1, x)T und β T = (b0 , b1 )T . Manchmal liegt ein linearer Zusammenhang auch erst
vor, nachdem x geeignet trasnformiert wurde, etwa zu x̃ = log(x) (falls x > 0) und dann
Y = b0 + b1 x̃ + ε, also xT = (1, x̃)T .
Man kann aus einer metrischen Kovariable auch mehrere metrische Kovariablen machen durch
Anwendung linear unabhängiger Funktionen f1 , . . . , fr , also
Y = b0 + b1 f1 (x) + . . . + br fr (x) + ε,
T
also x = 1, f1 (x), . . . , fr (x) . Beispiele sind die polynomiale Regression, bei der fi (x) = xi
gewählt wird, also
Y = b0 + b1 x + . . . + br xr + ǫ,
T
und x = 1, x, . . . , xr , oder auch für x ∈ [0, 1] die trigonometrische Regression, bei der
f2j−1 (x) = sin(2jπx) und f2j (x) = cos(2jπx), j = 1, . . . , q gewählt wird, also
q
X
Y = b0 +
(b2j−1 sin(2jπx) + b2j cos(2jπx)),
j=1
T
und x = 1, sin(2πx), cos(2πx)), sin(2qπx), cos(2qπx)) , β = (b0 , b1 , b2 , . . . , b2q )T , also p =
2q + 1.
b. Einfluss einer kategoriellen Kovariable
Bei kategoriellen Kovariablen unterscheidet man nominale Kovariablen, bei denen die Kategorien nicht geordnet sind (etwa Autotypen), und ordinale Kovariable, bei denen die Kategorien
16
2
LINEARE REGRESSION
in einer natürlichen Reihenfolge vorliegen (etwa Schulnoten).
Wir betrachten zunächst die Modellierung einer nominale Kovariablen mit den Kategorien
i = 1, . . . , I. Um nicht zu viele Parameter ins Modell aufzunehmen, damit also die Desigmatrix X noch vollen Rang hat, wählt man eine Referenzkategorie, z.B. i = 1, und für künstliche Kovariablen ein, deren Koeffizient den Unterschied zwischen der betrachteten Kategorie
i = 2, . . . , I und der Referenzkategorie beschreibt. Hier sind insbesondere zwei Kodierungen
üblich.
Kodierung durch Dummy Variablen
Wird die Kategorie x beobachtet und ist 1 die Referenzkategorie, so setze x = (1, 1x=2 , . . . , 1x=I )T ∈ RI , d.h. falls eine der Kategorien i = 2, . . . , I
vorliegt, kommt eine 1 hinzu, ansonsten gibt es nur den Achsenabschnitt. Im Koeffizientenvektor β = (β1 , . . . , βI )T beschreibt βi den Unterschied des Einflusses von Kategorie i ≥ 2
gegenüber der Referenzkategorie, und β1 + βi den Gesamteinfluss von Kategorie i ≥ 2.
Effektkodierung
Wird die Kategorie x beobachtet und ist 1 die Referenzkategorie, so setze
x = (1, 1x=2 − 1x=1 , . . . , 1x=I − 1x=1 )T ∈ RI .
Die Software R verwendet standardmäßig die Dummy Kodierung.
Handelt es sich bei x um eine ordinale Kovariable, so kann man versuchen, den geordeneten
Kategorien konkrete Zahlen (etwa den Schulnoten die Zahlen 1 − 6) zuzuordnen, und diese
dann wie eine metrische Kovariable zu benutzten. Dies hat den Vorteil, dass in dem Modell
wesentlich weniger Parameter (nur ein Parameter β für Kovariable x statt I − 1 Parameter)
verwendet werden müssen. Dabei müssen die zugeordneten Zahlen (insbesondere das Verhältnis von deren Abständen) aber sogfältig gewählt werden. Falls dies nicht adäquat möglich ist,
sollte die Kovariable lieber wie eine nominale Kovariable und mit der Dummay Kodierung
behandelt werden.
relevante R Befehle
kategorielle Kovariablen müssen bei der Funktion lm, die lineare Regression mit kleinsten Quadraten anpasst, als Faktor vorliegen. Dazu kann man den Typ mit
str erfahren, und gegebenenfall mit as.factor zu einem Faktor umwandeln.
c. Interaktionen
Interaktionen zwischen einer kategoriellen und einer stetigen Kovariable
Ist x eine kategorielle (nominale) Kovariable mit den Kategorien i = 1, . . . , I und t eine stetige
Kovariable, die direkt (linear) in die Zielgröße eingeht, so können die Kategorienausprägungen
von x auch den Koeffizienten von t beeinflussen. Dies nennt man Interaktionen, man setzt
dann bei Referenzkategorie 1 und Dummykodierung von x
T
x = 1, 1x=2 , . . . , 1x=I , t, 1x=2 t, . . . , 1x=I t .
Im Koeffizientenvektor β = (β1 , . . . , βI , βI+1 , . . . , β2I )T beschreibt dann βI+1 + β2I die Steigung von t bei Vorliegen von Kategorie i ≥ 2, und βI+1 die Steigung bei Vorliegen der
Referenzkategorie 1. Man muss dabei natürlich nicht alle Interaktionen in das Modell aufnehmen.
Falls sowohl stetige als auch kategorielle Kovariable auftreten, spricht man manchmal statt
von der Regressionsanalyse auch von der Kovarianzanalyse.
Interaktionen zwischen zwei kategoriellen Kovariablen
Ist x eine kategorielle (nominale) Kovariable mit den Kategorien i = 1, . . . , I und t eine kategorielle Kovariable mit Kategorien j = 1, . . . , J, so kann man Interaktionen für gemeinsames
2.1 Lineare Regression und Modellbildung
17
Vorliegen von x = i und t = j modellieren. Sind i = 1 und j = 1 die Referenzkategorien, so
bildet man in Dummy Kodierung
x = 1, 1x=2 , . . . , 1x=I , 1t=2 , . . . , 1t=J , 1x=2 1t=2 , . . . , 1x=2 1t=J , . . . , 1x=I 1t=J
T
∈ RIJ .
Die Terme 1x=i 1t=j , i = 2, . . . , I, j = 2, . . . , J, entsprechen dann den Interaktionen, diese sind
wieder als Abweichungen gegenüber den Haupteffekten 1x=i und 1t=j zu interpretieren.
Interaktionen zwischen zwei metrischen Kovariablen
Interaktionen zwischen zwei metrischen Kovriablen x und t müssen durch Aufnahme bestimmter gemeinsamer nichtlinearer Funktionen, etwa xt oder ex et , modelliert werden. Man
benutzt häufig gemeinsame Polynome niedrigen Grades.
In welcher Form metrische Kovariablen aufgenommen werden, und welche Interaktionen mit
kategoriellen oder anderen metrsichen Kovariablen aufgenommen werden, muss innerhalb der
Modellwahl und der Modelldiagnostik bestimmt werden. Wie nehmen zunächst an, dass ein
linearen Modell der Form (5) in seiner korrekten Form gegeben ist.
18
2
2.2
LINEARE REGRESSION
Kleinste Quadrate Schätzung
2.2.1
Methode der kleinsten Quadrate
Der bekannteste Schätzer von β im linearen Modell (5) ergibt sich
der
Pn aus der TMethode
2
2
kleinsten Quadrate. Wann wählt dabei β derart, dass kY −Xβk = i=1 (Yi −xi β) minimal
wird, also
β̂ = β̂ LS = argminβ∈Rp kY − Xβk2
Dabei stehet LS für least squares = kleinste Quadrate. Wir schreiben für die Komponenten
von β̂ LS explizit β̂ LS = (β̂1,LS , . . . , β̂p,LS ). Wir wollen β̂ LS in expliziter Form auf zwei Arten
herleiten.
Normalengleichungen.
Ableiten von kY − Xβk2 und gleich 0 setzten liefert
X T (Y − Xβ) = 0.
Dies nennt man auch die Normalengleichungen, diese sind eine notwendige Bedingung für ein
lokales Extremum. Da X vollen Rang p hat, ist X T X ∈ Rp×p invertierbar und man erhält
β̂ LS = β̂ = (X T X)−1 X T Y.
(6)
Dass β̂ LS das einzige lokale und somit globale Minimum von kY − Xβk2 ist, sieht man leicht
daran, dass die Hessische Matrix (Matrix der zweiten Ableitungen) gleich X T X und somit
positiv definit ist.
Geometrische Herleitung:
Ein β̂ minimiert die Funktion kY−Xβk2 genau dann, wenn
X β̂ die orthogonale Projektion von Y auf den von den Spaltenvektoren von X = [v1 , . . . , vp ],
vi ∈ Rn , erzeugten Unterraum V = span{v1 , . . . , vp } im Rn ist. In der Tat: Für jedes andere
β gilt nach Pythagoras:
kY − Xβk2 = k Y − X β̂ +X(β̂ − β)k2 = kY − X β̂k2 + kX(β̂ − β)k2 ≥ kY − X β̂k2
| {z }
⊥ v1 ,...,vp
Da X vollen Rang hat, sind v1 , . . . vp linear unabhängig und somit ist der Koeffizientenvektor
β̂ LS eindeutig bestimmt.
Um den Schätzer β̂ LS in der expliziten Form (6) zu erhalten, betrachten wir die Matrix
PX = X(X T X)−1 X T ∈ Rn×n (die sogenannte hat matrix). Es ist
PX : Rn → V
z 7→ PX z
die orthogonale Projektion auf V . Dazu zeigt man durch direkte Rechnung:
a. PX ist orthogonale Projektion: PX2 = PX , PXT = PX
b. PX lässt V invariant
c. PX Rn ⊂ V
Somit muss gelten:
X β̂ = PX Y = X(X T X)−1 X T Y.
Da X vollen Rang hat, ergibt sich wieder die Form (6).
2.2 Kleinste Quadrate Schätzung
19
Bemerkung
Erwartungswert und Varianz von Y im linearen Modell (5) hängen von den unbekannten Parametern (β, σ 2 ), ab, höhere Momente sogar von der unbekannten Verteilung der Störungen
ǫ. Daher müsste man diese bei Bildung von Erwartungswert und Varianz eigentlich mitschreiben, also etwa Eβ,σ2 (·) und Covβ,σ2 (·). Wir werden diese Parameter aber in der Notation im
allgemeinen unterdrücken, und einfach E und Cov schreiben.
Satz 2.2
Der kleinste Quadrate Schätzer β̂ LS im linearen Modell (5) ist unverfälscht, also E β̂ LS = β,
und es ist
Cov β̂ LS = σ 2 (X T X)−1 .
Beweis
Mit Satz 1.2 folgt
E β̂ LS = E(X T X)−1 X T Y
= E(X T X)−1 X T (Xβ + ǫ)
= E(X T X)−1 X T Xβ + E(X T X)−1 X T ǫ
= β + (X T X)−1 X T |{z}
Eǫ ,
=0
= β
Cov β̂ LS = Cov((X T X)−1 X T ( Xβ +ǫ))
|{z}
konst.
= Cov((X T X)−1 X T ǫ)
= (X T X)−1 X T σ 2 In X(X T X)−1
= σ 2 (X T X)−1
1/2
1/2
Man nennt σ (X T X)−1
und für einen Schätzer σ̂ 2 von σ 2 (s.u.) auch σ̂ (X T X)−1
den
ii
ii
Standardfehler von β̂i,LS .
Im Folgenden zeigen wir, dass β̂ LS der eindeutig bestimmte, lineare unverfälschte Schätzer
mit der kleinsten Varianz ist.
Satz 2.3 (Gauß-Markov-Aitken)
a. Sei S(Y) = AY, A ∈ Rp×n , ein linearer, unverfälschter Schätzer für β im linearen
Modell (5) (d.h. ES(Y) = β ∀β ∈ Rp ). Dann gilt
Cov(S(Y)) ≥ Cov(β̂ LS )
im Sinne, dass die Differenz Cov(S(Y)) − Cov(β̂ LS ) positiv semidefinit ist.
b. Ist A 6= (X T X)−1 X T , so existiert z = z(A) ∈ Rp , so dass
zT (Cov(S(Y)) − Cov(β̂ LS ))z > 0
Beweis
a. Aus der Unverfälschtheit folgt
!
ES(Y) = AXβ = β
∀β ∈ Rp ,
20
2
LINEARE REGRESSION
also AX = Ip . Damit und mit Satz 2.2 ist
Cov(β̂ LS ) = σ 2 (X T X)−1 = σ 2 AX(X T X)−1 X T AT = σ 2 APX AT ,
Cov(S(Y)) = Aσ 2 In AT = σ 2 AAT .
Damit erhält man
Cov(S(Y )) − Cov(β̂ LS ) = σ 2 A(In − PX )AT
Die Matrix (In − PX ) ist idempotent und symmetrisch: (In − PX )2 = (In − PX ) = (In − PX )T .
Somit:
σ 2 zT A(In − PX )AT z = σ 2 k(In − PX )AT zk2 ≥ 0.
b. Angenommen, (In − PX )AT zk2 = 0 ∀z ∈ Rp , und somit (In − PX )AT = 0. Sei AT =
(a1 , . . . , ap ), ai ∈ Rn , dann erhält man 3 : ai ∈ span(v1 , . . . , vp ), also AT = XM für eine
Matrix M ∈ Rp×p . Wegen AX = Ip folgt M T X T X = IP , also M T = (X T X)−1 ⇒ A =
(X T X)−1 X T .
Wegen Satz 2.3 heißt der Schätzer β̂ LS auch der beste lineare unverfälschte Schätzer (best
linear unbiased estimator, BLUE).
Bemerkung 2.4
1. Satz 2.3, b., impliziert, dass es für einen unverfälschten Schätzer S(Y) 6= β̂ LS ein z ∈ Rp
gibt, so dass gilt Var(zT S(Y)) > Var(zT β̂ LS ). (Schätzer für zT β)
2. Satz 2.3, a., folgt Cov(S(Y ) jj ≥ Cov β̂ LS jj für j = 1, . . . , p, und daher
Spur(Cov(S(Y ))) ≥ Spur(Cov(β̂ LS ))
Der kleinste Quadrate Schätzer β̂ LS als Maximum-Likelihood-Schätzer.
Ange2
nommen, im linearen Modell (5) sind die Fehler normalverteilt, also ǫ ∼ N (Xβ, σ In ) und
somit Y ∼ N (Xβ, σ 2 In ). Dann ist die Likelihood-Funktion gegeben durch
!
n
X
1
1
(Yi − xTi β)2 ,
Ln (β, σ 2 ) =
− 2
n exp
2σ
(2πσ 2 ) 2
i=1
und die log-Likelihood-Funktion durch
n
kY − Xβk2
Ln (β, σ 2 ) = log Ln (β, σ 2 ) = − log(2πσ 2 ) −
2
2σ 2
Damit Ln (β, σ 2 ) maximal wird, muss offenbar kY − Xβk2 minimal werden. Daher ist β̂ LS
gleich dem Maximum Likelihood Schätzer β̂ M L für β im linearen Modell mit normalverteilten
Fehlern.
Schätzen der Fehlervarianz σ 2 .
Zunächste einige Bezeichnungen:
Ŷ = X β̂ = Ŷ1 , . . . , Ŷn
3
T
ǫ̂ = Y − Ŷ
angepassten Werte (fitted values)
Residuen
ai ∈ Kern(In − PX ) = Bild(PX ); Eigenschaft von Projektionen (hier: PX )
21
Idee: Nutze Variation der ǫ̂ = (ε̂1 , . . . , ε̂n )T zum Schätzen von σ 2 . Schätze σ 2 durch
n
2
σ̂ 2 = σ̂LS
=
1 X 2
1
1
kY − Ŷk2 =
YT (I − PX )Y,
ε̂i =
n−p
n−p
n−p
i=1
wobei wir Ŷ = X β̂ = PX Y und (I − PX ) = (I − PX )2 = (I − PX )T genutzt haben.
Satz 2.5
2 erwartungstreu für σ 2 .
Im linearen Modell (5) ist σ̂LS
Beweis
Da EY = Xµ, Cov Y = σ 2 In , folgt mit Satz 1.2
E(YT (I − PX )Y) = µT X T (I − PX )X µ + Spur(σ 2 (I − PX )).
|
{z
}
=0
Es gilt:
Spur(In − PX ) = n − Spur(X(X T X)−1 · X T )
= n − Spur(X T · X(X T X)−1 )
= n − Spur Ip
= n − p.
Somit ist
2
=
E σ̂LS
1
E(YT (I − PX )Y) = σ 2 .
n−p
(7)
2
2
Übung
Der ML-Schätzer σ̂M
L für σ im linearen Modell mit normalverteilten Fehlern
ist gegeben durch n1 kY − X β̂ LS k2 .
Relevante R Befehle
lm führt eine kleinste Quadrate Schätzung im linearen Modell durch.
Auf ein dadurch erzeugtes Objekt kann man summary (Schätzwerte, Schätzer für σ 2 , Standardfehler und mehr), fitted.values (angepasste Werte), residuals (Residuen) anwenden.
22
2.2.2
2
LINEARE REGRESSION
Verteilungstheorie bei normalverteilten Fehlern
In diesem Abschnitt gehen wir auf die Verteilung der Schätzer sowie relevanter Teststatistiken
im linearen Modell (5) mit normalverteilten, homoskedastischen Fehlern, also ǫ ∼ N (0, σ 2 In ),
ein. Wir beginnen mit dem grundlegenden
Satz 2.6
Im linearen Modell Y = Xβ + ǫ, β ∈ Rp , mit normalverteilten, homoskedastischen Fehlern
ǫ ∼ N (0, σ 2 In ) gilt
n−p 2
β̂ LS ∼ N β, σ 2 (X T X)−1 ,
σ̂ ∼ χ2 (n − p),
σ2
und β̂ LS und σ̂ 2 sind unabhängig.
Beweis
Da Y ∼ N (Xβ, σ 2 In ), folgt aus β̂ LS = (X T X)−1 X T Y mit Satz 1.3 direkt die Behauptung
für β̂ LS . Weiter ist
1
σ̂ 2 = 2 YT (In − PX )Y.
σ
Da (In − PX )2 = In − PX (die orthogonale Projektion auf das orthogonale Komplement
des Spaltenraumes von X), ist Satz 1.7 anwendbar (die Division durch σ 2 standardisiert die
Y). Da (In − PX )X = 0, ist der Nichtzentralitätsparameter gleich 0. Weiter ist nach (7)
Spur(In − PX ) = n − p.
Es bleibt die Unabhängigkeit von β̂ LS und σ̂ 2 zu zeigen. Diese folgt direkt aus Satz 1.9, da
(In − PX )X = 0.
Konfidenzintervall für cT β.
cT β̂ LS
und
Für c ∈ Rp gilt nach Satz 2.6 und Satz 1.3
∼ N cT β, σ 2 cT (X T X)−1 c
cT β̂ LS − cT β
1
σ(cT (X T X)−1 c) 2
∼ N (0, 1).
Wegen der Unabhängigkeit von β̂ LS und σ̂ 2 (und somit auch von cT β̂ LS und σ̂ 2 ) folgt direkt
aus der Definition der t Verteilung
cT β̂ LS − cT β
1
σ̂ (cT (X T X)−1 c) 2
∼ t(n − p).
(8)
Konfidenzintervall für cT β zum Niveau α > 0:
T
1
1
c β̂ LS − σ̂(cT (X T X)−1 c) 2 t1− α2 (n − p); cT β̂ LS + σ̂(cT (X T X)−1 c) 2 t1− α2 (n − p) .
Insbesondere für Komponente βi (c = ei , i-te Einheitsvektor):
1
1
β̂LS,i − σ̂((X T X)−1 )ii2 t1− α2 (n − p); β̂LS,i + σ̂((X T X)−1 )ii2 t1− α2 (n − p) .
Aufgabe
Konfidenzintervall für σ 2 .
relevante R Befehle
confint liefert für ein Objekt aus lm die Konfidenzintervalle der
einzelnen Komponenten des KQ Schätzers.
23
Hypothesen Testen mit dem t Test Für c ∈ Rp und δ ∈ R betrachten wir die Hypothese
Hc,δ : cT β = δ.
Unter Gültigkeit der Hypothese Hc,δ gilt nach (8):
Tc,δ =
cT β̂ LS − δ
1
σ̂(cT (X T X)−1 c) 2
∼ t(n − p).
Man verwirft die zweiseitige Hypothese Hc,δ zum Niveau α > 0, falls Tc,δ < tα/2 (n − p) oder
falls Tc,δ > t1−α/2 (n − p). Der zweiseitige p-Wert ergibt sich als
2 t(n − p) (Tc,δ ),
Tc,δ < 0,
(9)
P =
2 1 − t(n − p) (Tc,δ ) , Tc,δ > 0.
Analog für einseitige Hypothesen. Wichtigster Spezialfall: c = ei , δ = 0. Dann Hi : βi = 0,
und
(β̂ LS )i
Ti =
.
1/2
σ̂((X T X)−1 )ii
relevante R Befehle
Hypothese Hi .
summary liefert für ein Objekt aus lm die zweiseitigen P-Werte für die
Vorhersageintervalle Ein Konfidenzintervall bezieht sich auf den Erwartungswert cT β
von cT β̂, wobei β̂ aus dem linearen Modell (5) berechnet wird.
Bei einem Vorhersageinterall (Prediction Interval) hingegen ist eine zusätzliche Kovariablenausprägung xn+1 erforderlich, bei der die abhängige Variable Yn+1 vorhergesagt werden soll.
Das Vorhersageintervall bezieht sich also nicht auf einen Parameter wie das Konfidenzintervall, sondern auf die Zufallsvariable Yn+1 .
Sei β̂ LS der KQ-Schätzer im linearen Modell (5). Als Vorhersage für Yn+1 bei xn+1 betrachten
man
Y Pred = xTn+1 β̂ LS .
Nach dem linearen Modell würde die Beobachtung Yn+1 entstehen durch
Yn+1 = xTn+1 β + εn+1 ,
wobei εn+1 und ǫ unabhängig sind. Somit
Y Pred − Yn+1 = xTn+1 (β̂ LS − β) + εn+1 ∼ N 0, σ 2 + σ 2 xTn+1 (X T X)−1 xn+1 ,
und nach Satz 2.6
Y Pred − Yn+1
1
σ̂(1 + xTn+1 (X T X)−1 xn+1 ) 2
∼ tn−p .
Als zweiseitigen Vorhersagebereich erhält man
Pred
1
1
Y
−σ̂(1+xTn+1 (X T X)−1 xn+1 ) 2 t1− α2 (n−p), Y Pred +σ̂(1+xTn+1 (X T X)−1 xn+1 ) 2 t1− α2 (n−p) .
24
2
LINEARE REGRESSION
Vergleich.
Das Vorhersageintervall für Yn+1 ist breiter als das Konfidenzintervall für
xTn+1 β, da der zusätzliche Fehler εn+1 in Yn+1 mit berücksichtigt werden muss.
relevante R Befehle
predict.lm anwenden auf Objekt aus lm und zusätzliche Kovariable.
Konfidenzbereich für Aβ
Satz 2.6 und Satz 1.3 ist
Die Matrix A ∈ Rq×p , 1 ≤ q ≤ p, habe vollen Rang. Nach
Aβ̂ LS ∼ N Aβ, σ 2 S ,
wobei S = A(X T X)−1 AT ∈ Rq×q vollen Rang hat. Nach Satz 1.7 ist dann
(A(β̂ LS − β))T
S −1
A(β̂ LS − β) ∼ χ2 (q).
σ2
Da nach Satz 2.6 σ̂ 2 und β̂ LS (und damit auch eine Funktion von β̂ LS ) unabhängig sind,
folgt aus der Definition der F Verteilung
(A(β̂ LS − β))T S −1 A(β̂ LS − β)
∼ F (q; n − p).
qσ̂ 2
(10)
Somit ergibt sich als (1-α)-Konfidenzbereich für Aβ:
n
o
(A(β̂ LS − β))T S −1 A(β̂ LS − β)
Aβ :
≤
F
(q;
n
−
p)
.
1−α
qσ̂ 2
Ein wichtiger Spezialfall ensteht, falls A eine Teilmatrix von Ip ist.
relevante R Befehle
Die library ellipse enthält den Befehl ellipse, welcher zweidimensionale Konfidenzellipsoide berechnet. Plotten einfach mit plot.
Testen allgemeiner linearer Hypothesen mit dem F-Test Man möchte manchmal
allgemeinere lineare Hypothesen, die nicht von der Form cT β = δ sind, testen.
Beispiele linearer Hypothesen.
a. H: β = 0 (alle βi = 0)
b. H: βi1 = . . . = βiq = 0, 1 ≤ i1 < . . . < iq ≤ p
c. H: β = β 0 , β 0 6= 0.
Allgemeine lineare Hypothese: Für A ∈ Rq×p , q ≤ p mit vollem Rang, m ∈ Rq betrachte
HA,m : Aβ = m.
Es gilt
Aβ̂ − m ∼ N Aβ − m, σ 2 S ,
25
wobei wiederum S = A(X T X)−1 AT ∈ Rq×q vollen Rang hat. Dann ist
(Aβ̂ − m)T
S −1
(Aβ̂ − m) ∼ χ2 (q, λ)
σ2
−1
wobei der Nichtzentralitätsparameter λ = 12 (Aβ − m)T Sσ2 (Aβ − m), und somit
FS =
(Aβ̂ − m)T S −1 (Aβ̂ − m)
∼ F (q, n − p, λ)
qσ̂
Unter der Hypothese HA,m gilt λ = 0. Daraus bestimmt man den zweiseitigen p-Wert für die
lineare Hypothese als P = 1 − F (q, n − p)(F S).
Aufgabe
Aβ = m.
Bestimme den kleinsten Quadrate Schätzer unter der linearen Nebenbedingung
relevante R Befehle
anova führt den F Test durch, dabei muss das Modell unter HA,m
mit geschätzt worden sein und als Argument übergeben werden. Falls kein zweites Modell
übergeben wird, führt anova die F-Tests dafür durch, ob bei kategorielle Kovariablen alle
Koeffizienten der Dummy Variablen = 0 sind, und gegebenenfalls auch für die Interaktionen.
2.2.3
Asymptotische Verteilungstheorie
In diesem Abschnitt zeigen wir, dass der kleinste Quadrate Schätzer im linearen Regressionsmodell unter geeigneten Bedingungen bei nicht-normalverteilten Fehlern zumindest asymptotisch normalverteilt ist. Dazu benötigen wir zunächst ein geeignetes Beobachtungsmodell, in
dem die Anzahl der Beobachtungen n wächst (n → ∞), die Zahl der Parameter p sowie der
Parametervektor β und σ 2 fest bleiben. Wir nehmen also an, dass für jedes n Beobachtungen
(Yi,n , xi,n ), i = 1, . . . , n, aus dem Modell
Yi,n = xTi,n β + ǫi,n
i = 1, . . . , n,
(11)
vorliegen, wobei ǫi,n identisch verteilt sind für alle i, n mit Eǫi,n = 0, Eǫ2i,n = σ 2 , und
ǫ1,n , . . . , ǫn,n unabhängig sind für alle n. Setze
Xn = (xT1,n , . . . , xTn,n )T ∈ Rn×p ,
Yn = (Y1,n , . . . , Yn,n ) ∈ Rn ,
ǫ = (ǫ1,n , . . . , ǫn,n )T ∈ Rn ,
wobei wir im Vektor ǫ die Abhängigkeit von n unterdrückt haben.
Annahme. Alle Komponenten der xj,n (für alle j, n) liegen in einer kompakter Menge K,
und es gelte
1 T
X Xn → Q ∈ Rp×p
(12)
n n
für eine positiv definite Matrix Q > 0.
Satz 2.7
In einer Folge von linearen Modellen (11) unter obigen Annahmen gilt für die Folge von
Schätzern β̂ LS,n und σn2 unter Annahme (12)
√
d
n(β̂ LS,n − β) → N (0, σ 2 Q−1 )
(13)
26
2
sowie
LINEARE REGRESSION
P
σ̂n2 → σ 2 .
d
Bemerkung a. Das Symbol → steht für Konvergenz in Verteilung, also im Falle einer Normalverteilung als Grenzverteilung für punktweise Konvergenz der entsprechenden Verteilungsfunktionen.
P
P
b. Das Symbol → steht für stochastische Konvergenz, also Zn → Z falls P (|Zn − Z| ≥ δ) → 0,
n → ∞, für alle δ > 0.
Zum Beweis von Satz 2.7
aus der Stochastik.
Wir benötigen folgende Resultate über Verteilungskonvergenz
ZGWS unter Lindeberg
Für jedes n ∈ N seien Zjn , j = 1, . . . , n unabhängige Zufalls2 < ∞.
variablen (nicht notwendig identisch verteilt) mit EZjn = 0, Var Znj = σjn
Pn
2 + . . . + σ 2 . Gilt ∀δ > 0 die Lindeberg-Bedingung
Es sei Sn = j=1 Zjn , ESn2 = s2n = σ1n
nn
n Z
1 X
|Zjn |2 dP → 0,
s2n
|Zjn |≥δsn
n → ∞,
j=1
so folgt
Sn d
→ N (0, 1) (n → ∞).
sn
Sei Zn ∈ Rd Zufallsvektor, EZn = 0, Cov Zn = Σ. Dann:
Cramer-Wold-Technik
d
d
Zn → N (0, Σ) ⇔ ∀a ∈ Rd gilt aT Zn → N (0, aT Σa)
Satz von Slutzky
d
P
Gilt Zn → N (0, Σ) und An → A ∈ Rd×p , A konstant, dann
d
An Zn → N (0, AΣAT ).
Beweis von Satz 2.7.
Es ist
√
1
1
n(β̂ LS,n − β) = ( XnT Xn )−1 √ XnT ǫ
} n
| n {z
→Q−1
Also genügt es nach dem Satz von Slutzky zu zeigen, dass
1
d
√ XnT ǫ → N (0, σ 2 Q)
n
Dazu zeige nach Cramer-Wold für a ∈ Rp beliebig (a 6= 0)
1
d
√ aT XnT ǫ → N (0, σ 2 at Qa)
n
Zunächst ist
27
1
σ2 T T
Var( √ aT XnT ǫ) =
a Xn Xn a ≥ η > 0
n
n
(14)
wegen Annahme (12) asymptotisch von 0 weg beschränkt (für n ≥ n0 ). Weiter gilt
n
aT XnT = (aT xn,1 , . . . , aT xn,n ),
X aT xn,i
1
√ aT XnT ǫ =
√ εi,n
n
n
i=1
Wegen Annahme (1) (kompakte Menge) gilt
sup |aT xn,i | = c < ∞
(15)
i,n
Überprüfe nun die Lindeberg-Bedingung des ZGWS mit Zjn =
σ2 T T
n a Xn Xn a.
√1 aT xj,n εj,n
n
und s2n =
Es gilt für δ > 0 (und n ≥ n0 ) wegen (14)
1
s2n
n Z
X
1 T
(a xj,n )2 ε2j,n dP
n
j=1
Z
n
X
1 T
1
2
|εj,n |2 dP → 0
(a xj,n )
≤ 2
δη √
η
n
|ε
|≥
n
j,n
c
j=1
|
{z
}
{z
}
|
→0
beschränkt wegen (15)
| √1n aT xj,n εj,n |≥δsn
Die Konvergenz des Integralterms ist unabhängig von j, n, da die ǫj,n identisch verteilt sind.
Dies zeigt (13).
Zur Konsistenz von σ̂n2 :
Rechenregeln für das Symbol OP .
Eine Folge Zn von d-dim. Zufallsvektoren (Zn ) ist
OP (1), falls für alle δ > 0 ein C > 0 existiert, so dass für alle n,
P (kZn kd ≥ C) ≤ δ,
wobei k · kd eine Norm auf Rd ist. Dies ist äquivalent zur Straffheit der Folge (Zn ) (vgl.
Stochastik). Für eine positive Zahlenfolge (cn ) ist nach Definition Zn = OP (cn ), falls Zn /cn =
OP (1). Dann gilt: ist Zn = OP (cn ), Wn = OP (dn ) (Wn Zufallsvektor im Rd , dn Zahlenfolge),
dann ist ZTn Wn = OP (cn dn ) (Übung).
Zum Beweis: Es ist
σ̂n2 =
ǫT ǫ
ǫT Xn (XnT Xn )−1 XnT ǫ
−
n−p
n−p
Wegen der oben gezeigten Konvergenz ist
√1 ǫT Xn
n
= OP (1). Somit
1
1
1
√ ǫT Xn ( XnT Xn )−1 √ XnT ǫ
n
n
n
= OP (1)O(1)OP (1)
ǫT Xn (XnT Xn )−1 XnT ǫ =
= OP (1)
28
2
LINEARE REGRESSION
Daher ist
σ̂ 2 =
=
ǫT ǫ
+ OP (n−1 )
n−p
n
n 1X 2
εi,n + OP (n−1 ).
n−pn
i=1
Die Behauptung folgt somit aus dem schwachen Gesetzt der großen Zahlen.
Folgerung.
Unter den Annahmen von Satz 2.7 gilt
(XnT Xn )(−1/2)
d
1
β̂ LS,n − β → N (0, Ip ).
σ̂n
(16)
Bemerkung 2.8
Man kann nun auf dem asymptotischen Verteilungsresultat (16) eine Theorie der statistischen
Inferenz im linearen Regressionsmodell (asymptotische Konfidenzintervalle, Tests, etc.) aufbauen. So ist etwa die t Statistik auf der linken Seite in (8) asymptotisch N (0, 1) verteilt,
und die F-Statistik auf der linken Seite in (10) ist asymptotisch verteilt wie qχ2 (q) (ohne die
Devision durch q asymptotisch χ2 (q), dann wird diese Statistik auch Wald-Statistik genannt.
Man verwendet aber meistens die exakte Verteilungstheorie unter normalverteilten Fehlern.
Dies hat mehrere wesentliche Gründe: a. Die Standard Statistik Software (etwa R) liefert
stets Ergebnisse, die auf der exakten Verteilungstheorie für normalverteilte Fehler basiert, b.
diese berücksichtigt auch explizit den statistischen Fehler beim Schätzen von σ 2 (also etwa t
Verteilung statt Normalverteilung), und ist daher häufig genauer, c. Messfehler sind häufig
approximativ normalverteilt (sie ergeben sich als Überlagerung vieler kleiner Ursachen) d. die
exakte Theorie ist auch robust gegenüber Abweichungen von der Normalverteilungsannahme.
Bemerkung
Die Asymptotik (16) gilt auch unter den wesentlich schwächeren Bedingungen:
(XnT Xn )−1 → 0
und
max xTi (XnT Xn )−1 xi → 0
1≤i≤n
( für n → ∞).
Literatur
Eicker, F. (1963). Asymptotic normality and consistency of the least squares estimators for
families of linear regressions. Ann. Math. Statist. 34, 447–456.
2.3 Andere Schätzverfahren
2.3
29
Andere Schätzverfahren
2.3.1
Mittlerer quadratischer Fehler und Ridge-Regression
Der kleinste Quadrate Schätzer β̂ LS ist zwar der beste lineare unverfälschte Schätzer, wir
werden im Folgenden aber zeigen, dass es (bzgl des mittleren quadratischen Fehlers) noch
bessere lineare, aber nicht unverfälschte Schätzer gibt.
Für einen Schätzer β̂ von β definiert man den mittlerer quadratischen Fehler (mean
squared error, MSE) durch
!
p
X
MSEβ (β̂) = Eβ kβ̂ − βk2 = E
(β̂i − βi )2
i=1
Es gilt:
Ekβ̂ − βk2 = Ekβ̂ − E β̂ + E β̂ − βk2
= Ekβ̂ − E β̂k2 + 2 Ehβ̂ − E β̂, E β̂ − βi +kE β̂ − βk2
|
{z
}
=0
2
2
= Ekβ̂ − E β̂k + kE β̂ − βk
da
Ehβ̂ − E β̂, E β̂ − βi =
Also
p
X
i=1
E((β̂i − E β̂i )(E β̂i − βi )) = 0.
Ekβ̂ − βk2 = Ekβ̂ − E β̂k2 + kE β̂ − βk2 .
{z
} |
{z
}
|
Varianz-Term“
”
Bias-Term“
”
Für unverfälschte Schätzer gilt: kE β̂ − βk2 = 0.
Für lineare Schätzer β̂ = AY, A ∈ Rp×n gilt:
Ekβ̂ − E β̂k2 = EkAǫk2 = E(ǫT AT Aǫ) = σ 2 Spur(AT A)
= σ 2 Spur(AAT ) = Spur(Cov β̂).
Somit sagt Gauß-Markov-Aitken (s. Bemerkung 2.4): β̂ LS ist linearer, unverfälschter Schätzer
mit kleinstem MSE .
Ziel
β̂ LS .
Konstruktion von linearen, nicht unverfälschten Schätzern mit kleinerem MSE als
Wir betrachten im Folgenden die Spektralzerlegung von X T X (existiert, da X T X positiv
definit, insbesondere symmetrisch), also
X T X = U diag(λ1 , . . . , λp )U T
30
2
LINEARE REGRESSION
mit U orthogonal, λi > 0. Damit berechnet man den MSE von β̂ LS als4 :
MSE(β̂ LS ) = σ 2 Spur(X T X)−1 = σ 2
p
X
λ−1
i .
i=1
Ridge-Regression Für α > 0 setze
β̂ α = (αIp + X T X)−1 X T Y.
Berechne Bias- und Varianzterm für β̂ α :
Ekβ̂ α − E β̂ α k2 = σ 2 Spur X(αIp + X T X)−2 X T
= σ 2 Spur X T X(αIp + X T X)−2
Spektralzerlegung
X T X(αIp + X T X)−2 = U diag
Somit:
2
2
Ekβ̂ α − E β̂ α k = σ ·
λp
λ1
UT
,
.
.
.
,
(α + λ1 )2
(α + λp )2
p
X
i=1
λi
=: Var(α)
(α + λi )2
Bemerkung
Dieser Varianz-Term ist stets kleiner als der Varianz-Term von β̂ LS . Er wird
kleiner für wachsendes α.
Bias(α) := kE β̂ α − βk2
=
=
=
k(αIp + X T X)−1 X T Xβ − βk2
λ
λp
1
− 1, . . . ,
− 1 · U T βk2
k diag
α + λ1
α + λp
p
2
X
α
(U T β)2i
(α + λi )2
i=1
Der Bias-Term wächst mit α.
Satz 2.9
Es existiert ein α > 0, so dass MSE(β̂ α ) < MSE(β̂ LS ).
Beweis
Es ist MSE(α) = Bias(α) + Var(α) sowie MSE(β̂ LS ) = MSE(0). Es genügt zu zeigen, dass
ein α0 > 0 existiert, so dass für 0 < α < α0 gilt
d
(MSE(α)) < 0.
dα
4
Beachte: Spur(AB) = Spur(BA), sofern die Matrixprodukte definiert sind
2.3 Andere Schätzverfahren
31
Es gilt:
MSE(α)′ = −σ 2
Also MSE(α)′ < 0, falls α <
p
X
i=1
p
X 2αλi
2λi
+
(U T β)2i
3
(α + λi )
(α + λi )3
σ2
.
maxi (U T β)2i
i=1
Interpretation: β̂ LS ist zwar bester linearer unverfälschter Schätzer, aber es gibt noch
bessere lineare (nicht unverfälschte) Schätzer. Konzept der Unverfälschtheit ist zu restriktiv.
Bemerkung: Der ridge Schätzer β̂ α hat gegenüber dem kleinste Quadrate Schätzer den
Nachteil, dass man zur Berechnung den Regularisierungsparameter α > 0 wählen muss. Insbesondere muss dieser Parameter auch wirklich geeignet gewählt werden, damit β̂ α bessere
MSE Eigenschaften als β̂ LS hat. Daher wird der ridge Schätzer in Praxis relativ selten verwendet. Häufigere Verwendung finden andere Schrinkage Schätzer wie das LASSO, s. Kapitel
2.5.4.
relevante R Befehle
Die library MASS enthält den Befehl lm.ridge. Dabei muss der RidgeParameter lambda manuell gewählt werden. Man beachte, dass die Matrix X standardisiert
wird, und der Ridge nicht auf den Koeffizienten des Intercept angewendet wird.
Literatur:
Hoerl, A.E. und Kennard, R.W.(1970). Ridge regression: Biased estimation for nonorthogonal
problems. Technometrics 12, 1970.
2.3.2
NOCH
Median - und Quantilregression
32
2
2.4
LINEARE REGRESSION
Modelldiagnostik
Ein wesentlicher Teil der Analyse besteht darin zu untersuchen, ob das lineare Regressionsmodell für die vorliegenden Daten angemessen ist. Fragen, die dabei geklärt werden sollten,
sind etwa: a. Sind die Fehler ǫi wirklich normalverteilt und haben gleiche Varianz? b. liegen
Ausreißer in den Daten vor? c. Gibt es Cluster (Gruppen) in der Population? d. welche Beobachtungen beeinflussen die Schätzung besonders stark? e. wieviel Streuung wird aus dem
Modell heraus erklärt? f. ist die Regressionsfunktion wirklich linear, sollte weitere Kovariable
berücksichtigt werden? In diesem Abschnitt lernen wir Methoden kennen, um diese Fragen
zu beantworten.
2.4.1
Das Bestimmtheitsmaß R2
Welcher Anteil der Streuung in den Daten wird durch das Modell erklärt?
Zugrunde liegt wieder das lineare Modell (5). Angenommen, die Designmatrix X = (1n , ∗),
1n = (1, . . . , 1)T ∈ Rn , enthält den Achsenabschnitt. Dann gilt:
Mit Ȳ =
1
n
Pn
i=1 Yi
(In − PX )1n = 0.
gilt5 :
n
X
(Yi − Ȳ )2
|i=1 {z
}
Gesamtstreuung
= kY − Ȳ 1n k2
= kY − Ŷ + Ŷ − Ȳ 1n k2
= kY − Ŷk2 + kŶ − Ȳ 1n k2 + 2 hY − Ŷ, Ŷ − Ȳ 1n i
|
{z
}
=0 (s.u.)
wobei Ŷ = X β̂ LS , und
Ŷ −Ȳ 1n i = YT (I − PX )PX Y − YT (I − PX )1n Ȳ = 0.
h Y
− Ŷ} , |{z}
| {z
|
{z
}
{z
}
|
=(I−PX )Y =PX Y
=0
=0
Streuungszerlegung
Es ist kŶ − Ȳ 1n k2 die aus dem Modell erklärte Streuung und
2
kY − Ŷ k die Reststreuung (Summe der quadrierten Residuen) ist, man hat also die Zerlegung
kY − Ȳ 1n k2 = kŶ − Ȳ 1n k2 + kY − Ŷk2
Bestimmtheitsmaß
R2 =
5
Erinnerung: Ŷ = X β̂ LS
kŶ − Ȳ 1n k2
,
kY − Ȳ 1n k2
0 ≤ R2 ≤ 1.
2.4 Modelldiagnostik
33
Je größer das Bestimmheitsmaß, desto größer der Anteil der aus dem Modell heraus erklärten
Streuung. Es gilt
Pn
2
kY − Ŷk2
i=1 (Ŷi − Ȳ )
P
R2 = 1 −
=
n
2
kY − Ȳ 1n k2
i=1 (Yi − Ȳ )
Bemerkung Ein Problem des R2 ist, dass es mit weiteren Kovaraiblen nur wachsen kann.
Daher betrachtet man auch das gewichtete (adjusted) R2 . Dabei ist
kY − Ŷk2 : n-p Freiheitsgrade“,
”
kY − Ȳ 1n k2 : n-1 Freiheitsgrade“.
”
Dann definiert man das gewichtete R2 (adjusted R2 ) durch
Ra2 = 1 −
kY − Ŷk2 /(n − p)
kY − Ȳ 1n k2 /(n − 1)
n − 1 kY − Ŷk2
n − p kY − Ȳ 1n k2
n−1
= 1−
(1 − R2 )
n−p
= 1−
relevante R Befehle
passte ra2 .
2.4.2
summary angewendet auf ein lm Objekt liefert das R2 und das ange-
Residuen-Analyse
Das wichtigstes Werkzeug der Diagnostik ist die Residuenanalyse.
a. Residuum ε̂i = Yi − Ŷi , ǫ̂ = (ǫ̂1 , . . . , ǫ̂n )T . ε̂ ∼ N (0, σ 2 (I − PX ))6 . Also
Var ε̂i = σ 2 (1 − (PX )ii ), Cov ε̂i ε̂j = −σ 2 (PX )ij
b. skalierte Residuen: ε̃i =
ε̂i
σ̂ .
c. studentisierte Residuen: ri =
ε̂i
1
σ̂(1−(PX )ii ) 2
Diagnostische Plots:
• predicted value gegen (skalierte, studentisierte) Residuen : plotte also (Ŷi , ε̂i ), i =
1, . . . , n.
• qq-Plots der Residuen gegen die Normalverteilung7
Hinweis:
Plots zu Beispielen mit Abweichungen folgen!
Aufgabe
Bei Vorliegen des Achsenabschnitts kann man schreiben:
1
(PX )ii = + (xi − x̄)T (X T X)−1 (xi − x̄)
n
6
7
Erinnerung: Ŷ = X β̂ = PX Y
Vergleichswerte sind Quantile der Normalverteilung
34
2
2.4.3
LINEARE REGRESSION
Weitere diagnostische Plots
a. Scatterplot Matrix: Matrix, die Scatterplots aller Variablen gegeneinander enthält. Diese
sollte stets zu Beginn betrachtet werden, um etwa Kolinearität zwischen Kovariablen
oder Cluster oder schiefe Verteilungen der Kovariablen (dann eventuell Transformation)
zu erkennen.
b. Added Variable Plots
Frage: Wieviel erklärt ein zusätzlicher Prädiktor? Sollte man diesen in das Modell aufnehmen?
X = [v1 . . . vp−1 |v], vi , v ∈ Rn
Y = Xβ + ε = v1 β 1 + . . . + vp−1 β p−1 + vβ p
Welcher Teil wird nicht schon durch X1 = [v1 . . . vp−1 ] erklärt?
(I − PX1 )Y = (I − PX1 )vβ + (I − PX1 )ε
→ Plotte (I − PX1 )Y (Residuen aus Regression Y auf X1 ) gegen (I − PX1 )v (Residuen
aus Regression v auf X1 ).
In der Tat gilt (Aufgabe):
kY − PX Y k2 +
(Y T (I − PX1 )v)2
= kY − PX1 Y k2
k(I − PX1 )vk2
c. Partial residuals plot
Wieder den Effekt von Prädiktor xi graphisch isolieren!
Plotte dazu (xij , ε̂j + β̂ i xij ), j = 1, . . . , n
und zugehörige Regression.
Beachte zur Motivation:
yj −
X
xlj β̂l = xij β̂i + ε̂j
l6=i
Hinweis:
Plots folgen!
2.4.4
Transformation
Manchmal müssen Kovariable und/oder die abhängige Variable transformiert werden, damit
ein lineares Regressionsmodell vorliegt.
Da wir den Kovariablen keine Verteilung zugrunde legen, kann man dort notwendige Transformationen nur aus graphischer Diagnostik (s.o.) erschließen. Dagegen kann man die Transformation der abhängigen Variable auch statistisch Schätzen. Im Folgenden betrachten wir
dazu die parametrische Familie der Box-Cox-Transformationen.
35
Transformation der abhängigen Variable: Box-Cox-Tramsformation
Die Familie der Box-Cox Transformationen stellt eine wichtige Klasse zur Transformation von
positiven abhängigen Variablen dar. Dabei wird die optimale Transformation mit Hilfe der
Maximum Likelihood Methode ermittelt.
Die Box-Cox-Transformationen haben folgende Form: Für y > 0
( λ
y −1
λ 6= 0
λ ,
fλ (y) =
log(y), λ = 0
Beachte dabei fλ (y) → f0 (y), (λ → 0)
(Beweis mit der l’Hopitalschen Regel).
Annahme: Für ein λ gilt:
fλ (Y) = Xβ + ǫ,
ǫ ∼ N (0, σ 2 In ),
T
fλ (Y) = fλ (Y1 ), . . . , fλ (Yn ) =: Z (komponentenweise transformiert). Dann gilt für t ∈ Rn :
P (Y ≤ t) = P (Y1 ≤ t1 , . . . , Yn ≤ tn ) = P (fλ−1 (Z) ≤ t) = P Z ≤ fλ (t) .
Bilden der partiellen Ableitungen ∂1 . . . ∂n liefert die Dichte fY von Y
fY (y; β, σ 2 , λ) =
Es ist
dfλ (y)
dy
n
(fλ (y) − Xβ)T (fλ (y) − Xβ) Y dfλ (yi )
1
exp(−
)
·
.
n
2σ 2
dyi
(2π) 2 σ n
i=1
= y λ−1 und somit gilt für die Log-Likelihood-Funktion:
Ln (β, σ 2 , λ) = log fY (Y; β, σ 2 , λ)
(17)
(fλ (Y) − Xβ)T (fλ (Y) − Xβ)
n
+ (λ − 1)
= − (log(2π) + log σ 2 ) −
2
2σ 2
n
Y
log Yi .
i=1
Schätze die Parameter (β, σ 2 , λ) gemeinsam mit Maximum Likelihood, also durch Maximieren
von (17).
Für festes λ erhält man
λ
β̂ M L = β̂ LS = (X T X)−1 X T fλ (Y),
1
2,λ
σ̂M
fλ (Y)T (In − PX )fλ (Y).
L =
n
Es ergibt sich für die Log-Likelihood in Abhängigkeit von λ:
n
Y
n
n
n
2,λ
Ln (λ) = − log σ̂M
log(Yi ).
log(2π) − + (λ − 1)
L−
2
2
2
i=1
λ̂
2,λ̂
Wähle λ̂ so, dass Ln (λ) maximal wird, und dann β̂ M L und σ̂M
L als ML Schätzer der anderen
Parameter.
36
2
LINEARE REGRESSION
Nun können mit dem Likelihood Quotienten Test Hypothesen der Form Hλ0 : λ = λ0 getestet
werden, da unter Hλ0 ,
d
2 Ln (λ̂) − Ln (λ0 ) → χ2 (1).
Insbesondere kann die Hypothese H1 : λ = 1, also das keine Transformation benötigt wird,
getestet werden. Durch Invertieren des LQ Tests erhält man ein Konfidenzintervall zum (asymptotischen) Niveau α > 0 für λ:
1
CI = {λ : Lmax (λ̂) − Lmax (λ) < χ21 (1 − α)}
2
Verwerfe H1 , d.h. transformiere, falls 1 ∈
/ CI.
relevante R Befehle
Die library MASS enthält die Funktion boxcox (wird angewendet auf
ein Objekt vom Typ lm). Beachte Option plotit.
Literatur
Box, G. E. P. and Cox, D. R. (1964). An analysis of transformations. (With discussion) J.
Roy. Statist. Soc. Ser. B 26, 211–252.
2.4.5
Ausreißer, Leverage- und Influenz-Punkte
Im Folgenden wird untersucht, welchen Einfluss auf die Schätzung die spezielle Komponente
(Yi , xi ) für ein festes i im linearen Modell (5) hat.
Zunächst etwas Notation und ein Lemma. Sei X ∈ Rn×p und X(i) ∈ R(n−1)×p die Matrix, die
entsteht, wenn in X die i-te Zeile weggelassen wird. Schreibe
 T
x1
 .. 
hii = xTi (X T X)−1 xi = (PX )ii .
X =  . ,
xTn
Lemma 2.10
Es gilt
T
(X(i)
X(i) )−1 = (X T X)−1 +
Beweis
T
A=X X=
(X T X)−1 xi xTi (X T X)−1
1 − hii
n
X
(18)
xj xTj .
j=1
Somit
T
X(i)
X(i) = A − xi xTi .
Multipliziere (18) von rechts mit A − xi xTi und erhalte die Einheitsmatrix I.
37
Schätzer ohne die Komponente (Yi , xi ). Dafür schreibe
T
T
β̂ (i) = (X(i)
X(i) )−1 X(i)
Y(i)
1
2
σ̂(i)
=
YT (In−1 − PX(i) )Y(i)
n − p − 1 (i)
Lemma 2.11
a.
β̂ (i) = β̂ −
(X T X)−1 xi ε̂i
1 − hii
b.
2
σ̂(i)
= σ̂ 2 · (
n − p − 1 −1
)
n − p − ri2
mit8
ri =
ε̂i
1
σ̂(1 − hii ) 2
Beweis
a. Nachrechnen mit (18) und
T
β̂ (i) = (X(i)
X(i) )−1 (X T Y − xi Yi )
b. Nachrechnen mit (18) und
2
T
(n − p − 1)σ̂(i)
= YT Y − Yi2 − ((YT X − Yi xTi )(X(i)
X(i) )−1 (X T Y − Yi xi )).
relevante R Befehle
2 für jedes i.
sowie σ̂(i)
influence angewendet auf ein lm Objekt berechnet die Schätzer β̂ (i)
Ausreißer-Test (Outlier-Test, R-student)
Ein Aussreißertest untersucht, ob eine spezielle abhängige Beobachtung Yi nicht dem Modell
folgt, also nicht in der Weise Yi = xTi β + ǫi entsteht, insbesondere einen anderen Erwartungswert als xTi β hat.
Die Vorhersage von Yi durch xi und die übrigen Daten ist Ỹi = xTi β̂ (i) .
Falls Yi kein Ausreißer ist, dann ist
E(Yi − Ỹi ) = 0.
Weiter ist (wie bei Vorhersageintervallen)
T
Var Ỹi = σ 2 xTi (X(i)
X(i) )−1 xi .
8
Erinnerung: ε̂i = Yi − Ŷi = Yi − (X β̂)i
38
2
LINEARE REGRESSION
Bilde t-Statistik ti (R-student Statistik):
ti =
Yi − Ỹi
1
T X )−1 x ) 2
σ̂(i) (1 + xTi (X(i)
i
(i)
.
Diese hat (bei normalverteilten Fehlern) eine tn−p−1 -Verteilung.9
Also: Falls |ti | > t1− α2 ,n−p−1 , dann Ausreißer!
Beachte: Falls verschiedene Beobachtungen daraufhin untersucht werden, ob sie ausreißer
sind, muß man das Niveau α adjustieren an die Anzahl der Tests, etwa α/m, falls man bei m
Beobachtungen testet!.
Die Statistik ti kann in einfacherer Weise berechnet werden mit Hilfe des folgenden
Lemma 2.12
T
xTi (X(i)
X(i) )−1 xi =
Beweis
Direkt aus Lemma 2.10.
hii
1 − hii
Mit Lemma 2.11, 2.12 und Yi − Ỹi = (1 +
t i = ri ·
hii
1−hii )ε̂i
zeigt man
n−p−1
n − p − ri2
1
2
,
wobei ri die studentisierten Residuen sind. Die ti werden auch gewichtete studentisierte Residuen oder Jackknife Residuen genannt.
relevante R Befehle
für all i.
rstudent berechnet für ein lm Objekt die Werte R-Student Statistik
Leverage-Punkte, Hat-Matrix
High Leverage Punkte sind ungewöhnliche Werte der Kovariable x, die die Modellanpassung
unter Umständen stark beeinflussen. Da Var ε̂i = σ 2 (1 − hii ), gilt, dass je größer hii , desto
kleiner Var ε̂i . Somit muss das i-te Residuum kleine Varianz haben, die Anpassung ist um Yi
herum eingeschränkt. Daher nennt man Kovariablen xi für große Werte hii der Hat Matrix
Leverage Punkte. “Groß” wird dabei in folgender Weise quantifiziert:
Es gilt
n
X
hii = Spur(PX ) = Spur(X(X T X)−1 X T )
i=1
= Spur((X T X)(X T X)−1 )
= Spur(Ip )
= p
9
vergleiche Abschnitt 1.3
39
Also ist ein typischer Wert hii von der Größe ≈
Richtlinie: Für hii > 2p
n ungewöhnlich.
p
n
Bemerkung Keine Theorie möglich ohne Details zur Verteilungsannahme der xi !
relevante R Befehle
hatvalues liefert die Diagonaleinträge hii eines lm Objektes.
Influenz-Punkte
Hier wird die Frage gestellt: Welchen zusätzlichen Effekt hat (Yi , xi ) (also das Beobachtungspaar) auf den Schätzer β̂ LS ?
Dazu betrachte Cook’s Abstand:
Di =
(β̂ (i) − β̂)T (X T X)(β̂ (i) − β̂) (∗) ri2 hii
=
.
pσ̂ 2
p 1 − hii
(∗): Lemma 2.11 und 2.12
Keine exakte Verteilungstheorie für Di !
Heuristische Regel: Für |Di | > 1 ist (Yi , xi ) influential“ (da 1 ≈ F0,5;p;n−p ), hat also großen
”
zusätzlichen Einfluss auf den Schätzer von β.
relevante R Befehle
cooks.distance berechnet diesen Abstand für jedes i.
Cook, R. D. (1979) Influential observations in linear regression. J. Amer. Statist. Assoc. 74,
169–174.
Cook, R. D. (1977) Detection of influential observation in linear regression. Technometrics
19, 15–18.
40
2
2.5
2.5.1
LINEARE REGRESSION
Variablen-Selektion und Shrinkage Schätzung
Selektionsmethoden
Wir betrachte wieder das lineare Modell (5), also
Y = b0 + b1 x1 + . . . + br xr + ε,
wobei p = r + 1.
Ziel: Wähle die relevanten Kovariablen xi , also diejenigen mit bi 6= 0, die also die abhängige
Variable in der Tat beeinflussen.
Dabei unterscheidet man folgende Modellstrukturen:
a. verschachtelte Modelle (nested Models)
Bei verschachtelten Modellen gibt es eine natürliche Ordnung der Kovariablen, etwa bei
der polynomiale Regression
Y = b0 + b1 x + . . . + br xr + ε.
Man schliesst dann alle Potenzen xi unterhalb eines zu wählenden Grades p ein. Somit
reduziert sich die Modellwahl auf die Wahl von p.
b. Allgemeine Modelle
Wähle eine beliebige Teilmenge {xi1 , . . . , xir } ⊂ {x1 , . . . xp } aus den Kovariablen aus.
Man behält aber typischer Weise (aber nicht immer) den Achsenabschnitt x0 = 1 im
Modell, und wählt nur innerhalb der anderen Kovariablen aus.
Modellwahl Strategien
1. Backward Elimination
Starte mit allen Kovariablen und eliminiere nach einem betimmtem Kriterium systematisch nacheinander Kovariablen, bis ein Modell erreicht wird, bei dem keine Kovariable
mehr das Kriterium erfüllt, bei dem diese noch eliminiert würde.
2. Forward Selection
Starte nur mit dem Achsenabschnitt x1 und nimm sukzessive nach einem bestimmten Kriterium Kovariablen hinzu, solange, bis das Kriterium von keiner verbleibenden
Kovariablen mehr erfüllt wird.
3. Stepwise Regression
eine Kombination aus den Verfahren 1. und 2., es sind verschiedene Ausgestaltungen
möglich.
4. All subset selection
Wähle unter allen möglichen 2p Teilmodellen (bzw 2p−1 , falls der Achsenabschnitt fest
im Modell integriert ist) dasjenige aus, welches nach einem bestimmten Kriterium optimal ist.
2.5 Variablen-Selektion und Shrinkage Schätzung
2.5.2
41
Test-basierte Methoden
Entscheide aufgrund sukzessiv durchgeführter t-Tests oder F-Tests, ob Kovariablen hinzugenommen bzw. verworfen werden.
Eliminiere sukzessive diejenige Kovariable mit dem größten p-Wert, solange dieser größer
als ein Schwellwert (häufig 0,05) ist.
t-Test: hier wird jeweils der t-Test daraufhin ausgeführt, ob ein Koeffizient einer Kovaraible des bereits reduzierten Modells gleich null ist. F-Test: hier wird im reduzierten
Modell eine weitere Kovariable ausgewählt, und eine F-Test gegen das volle Modell ausgeführt, d.h. es wird getestet, ob der Koeffiziten dieser ausgewählten Kovariable des
reduzierten Modells sowie alle Koeffizienten der bereits eliminierten Kovariablen gleich
Null sind.
Nimm sukzessive diejenige Kovariable mit dem kleinsten p-Wert hinzu, solange dieser
kleiner als 0,05 ist. Hier gibt es keinen Unterschied ziwschen t-Test und F-Test.
2.5.3
Informationskriterien
Informationskriterien (Information Criteria, ICs) sind Zahlen, die die Güte der Anpassung
des Modells relativ zu dessen Komplexität erfassen. Typischerweise gilt:
a. Je besser die Anpassung, desto kleiner das IC.
b. Je komplexer, desto größer das IC.
Wähle Modell mit möglichst kleinem IC.
Eliminiere Kovariable, so dass sich das IC am meisten verringert. Stoppe, falls es sich
bei keiner Elimination mehr verringert.
Nimm Kovariable hinzu, so dass sich das IC am meisten verringert. Stoppe, falls es sich
bei Hinzunahme einer Kovariable nicht mehr verringert.
3. Stepwise Regression
Nimm eine der Kovariablen, die aktuell dem Modell nicht angehört, hinzu, oder eliminiere eine der zugehörigen Kovariablen, so dass sich das IC am meisten verringert.
Stoppe, falls es sich nicht mehr verringert.
4. All subset selection
Wähle Modell aus allen Modellen mit dem kleinstem IC.
42
2
LINEARE REGRESSION
Akaike’s Informationskriterium
Betrachte das lineare Modell (M ) mit Design Matrix X = XM und normalverteilten Fehlern
(M ) :
Y = XM β + ǫ,
ǫ ∼ N (0, σ 2 In ).
Die Dichte von Y ist gegen durch
f (y|XM , β, σ 2 ) =
1
ky − XM βk2
).
exp(−
n
2σ 2
(2π) 2 σ n
Dies führt zur Log-Likelihood:
L(β, σ 2 ) = log f (Y|XM , β, σ 2 ) = −
kY − Xβk2 n
n
− log σ 2 − log(2π),
2σ 2
2
2
und man berechnet die Maximum Likelihood Schätzer (vgl. Sektion 2.2.1) als β̂ M L = β̂ LS =
1
2
T X )−1 X T Y und σ̂ 2
(XM
M
M
M L = n kY−XM β̂k . Somit ist der maximale Wert der Log-Likelihood
Funktion
n n
n
2
2
L(β̂, σ̂M
log σ̂M
log(2π).
(19)
L) = − −
L−
2
2
2
Man definiert nun Akaike’s Informationskriterium (AIC) wie folgt:
2
AIC(M ) = −2L(β̂, σ̂M
L ) + 2(dim β + 1),
2 ) die Güte der Anpassung des Modells (M ) und (dim β + 1) (die
dabei beschreibt L(β̂, σ̂M
L
Anzahl der Parameter, die +1 kommt vom Parameter σ 2 ) die Komplexität des Modells.
Man wählt nun ein Modell (M ), also diejenigen Kovariablen mit resultierender Design Matrix
XM , die zu kleinem AIC führen.
Vernachlässigt man die Konstanten, so kann man äquivalent zu AIC auch
2
AIC(M ) = n log σ̂M
L + 2(dim β + 1)
benutzen.
Motivation des AIC über den Kullbach-Leibler-Abstand
Wieso wird gerade der spezielle Strafterm 2(dim β + 1) benutzt? Insbesondere scheint die
Wahl der 2 zunächst willkürlich, diese lässt sich aber über den Kullback-Leibler (KL) Abstand
motivieren.
Das Modell (M ) ist gegeben durch Yi = xTi β + εi , εi ∼ N (0, σ 2 ). Angenommen, der wahre
Zusammenhang ist
(W )
Yi = ξ(xi ) + εi ,
somit ist bedingte Dichte g(yi |xi ) ∼ N (ξ(xi ), σ 2 )
Wir nehmen jetzt eine zufälliges Design an, also sind die xi zufällig, unabhängig, mit Dichte
h(x). Dann ist der KL-Abstand zwischen g(y|x) und f (y|x, β, σ 2 ) bedingt auf x:
Z
g(y|x)
2
KLx (g(y|x), f (y|x, β, σ )) = g(y|x) log
dy,
f (y|x, β, σ 2 )
und
KL =
Z
KLx h(x)dx.
43
Maximum Likelihood im Modell (M ) schätzt nun die Parameter β, σ 2 derart, dass der KLAbstand zum wahrem Modell (W ) minimal wird.
Wir zeigen im Folgenden in einem speziellen Fall: Mit dem AIC wählt man im Mittel dasjeniege Modell aus, bei dem bei geeigneter (maximum likelihood) Wahl der Parameter der KL
Abstand zum wahren Modell (W ) minimal wird. Dazu äquivalent ist:
Z Z
f
KL =
g(y|x) log f (y|x, β, σ 2 )dy h(x)dx.
f wird erwartungstreu geschätzt durch
KL
n
1
1X
Ln (β, σ 2 ) =
log f (Yi |xi , β, σ 2 ).
n
n
i=1
Für Modellwahl: Wähle Modell, welches im Mittel bei geeigneter (Maximum Likelihood) Wahl
der Parameter den kleinsten KL-Abstand zum wahren Modell (W ) hat, d.h. wähle Modell
(M ), so dass
Z Z
2
f
Rn = Eg,h
g(y|x) log f (y|x, β̂ M L , σ̂M
L )dy h(x)dx,
2
β̂ M L , σ̂M
L die ML Schätzer im Modell (M ), maximal wird. Dies ist nicht direkt möglich, denn
f
fn in zwei Schritten: Ersetze Integration in x
Rn muss geschätzt werden. Wir approximieren R
durch Summation:
Z
n
1X
2
Rn =
Eg g(y|xi ) log f (y|xi , β̂ M L , σ̂M
L )dy
n
i=1
Z n
1X
1
(y − xTi β̂)2
=
−
log
σ̂
−
log
2π
g(y|xi )dy
Eg
−
2
n
2
2σ̂M
L
i=1
1 X (ξ(xi ) − xTi β̂)2
σ2 1
Eg
log 2π −
+
2
2
2
n
2σ̂M
2σ̂M
L
L
i=1
n
= − log σ̂ −
Wegen (19) ist dann
Eg
1
n
2
Ln (β̂, σ̂M
L)
1
1 X (ξ(xi ) − xTi β̂)2
σ2 − Rn = − +
Eg (
+
1)
·
2
2 2n
σ2
σ̂M
L
i=1
n
Von jetzt an betrachten wir den Spezialfall, dass (M ) das wahre Modell enthält (eventuell
sind zu viele Kovariable enthalten). Dann ist ξ(xi ) = xTi β,
σ2
1
∼n· 2 ,
2
σ̂M L
χn−p
1
2
und σ̂M
L und β̂ LS sind unabhängig (s. Satz 2.6). Somit (benutze E χ2
n−p
=
1
n−p−2 ,
RENZ):
Eg
1
1 1
2
Ln (β̂, σ̂M
)
−
R
=
−
+
n
L
n
2 2
von
n+p
n }
| {z
1
E(εT PX ε)+1
n
·
n
p+1
=
n−p−2
n−p−2
REFE-
44
2
LINEARE REGRESSION
Wir haben somit einen Schätzer von Rn hergeleitet:
1
p+1
2
Ln (β̂, σ̂M
,
L) −
n
n−p−2
dieser gibt Anlass zur Definition des korrigierten (corrected) AIC, AICc ,
2
AICc = −2Ln (β̂, σ̂M
L) + 2
(p + 1)n
n−p−2
Für n groß im Verhältnis p ist dies nah am klassischen AIC.
relevante R Befehle
step mit der Option direction führt Modellwahl mit dem AIC aus.
Darüber hinaus drop1, add1.
Literatur:
Akaike, H. (1974), A new look at the statistical model identification. System identification
and time-series analysis. IEEE Trans. Automatic Control 19, 716–723.
Burnham, K. P. and Anderson, D. R. (2002), Model selection and multimodel inference. A
practical information-theoretic approach. 2nd edn, Springer-Verlag: New York.
Hurvich, C. M.; Tsai, C. L. (1989) Regression and time series model selection in small samples.
Biometrika 76, 297–307.
Claeskens, G. und Hjort, N. L. (2008) Model selection and model averaging. Cambridge
University Press
Bayessches Informationskriterium Eine zum AIC alternative Wahl ist das Bayessche
Informationskriterium BIC, bei dem die Komplixität des Modells mit zunehmender Stichprobengröße immer mehr bestraft wird,
2
BIC(M ) = −2Ln (β̂, σ̂M
L ) + log(n) (dim β + 1) log n.
Ziel ist wieder die Wahl eines Modells mit möglichst kleinem BIC(M ).
Motivation
Das BIC ergibt sich als asymptotische Version eines maximalen a-posteriori
Ansatzes, wobei die a-priori-Verteilung von der Form
X
αM µM
(20)
M
ist. Dabei wird die Summe über alle mögliche Modelle M gebildet, αM ist die Wahrscheinlichkeit für die Auswahl des Modells M, und µM ist eine stetige, lokal von 0 weg beschränkte
Verteilung auf den Parametern von M.
Eine Maximm a-posteriori Modellwahl würde wie folgt erfolgen: Wähle (M ) so, dass P (M |Y)
maximal, also derart, dass
die a-posteriori Wahrscheinlichkeit des Modells, gegeben die Daten, maximal wird. Nach Bayes
gilt
P (Y|M ) · P (M ) prop.
P (M |Y) =
≈ P (Y|M ) · P (M )
P (Y)
45
(da P (Y) nicht von M abhängt).
Es ist P (M ) = αM , P (Y|M ) ∼ N (XM β M , σ 2 IM ). Also wähle M , so dass
Z
(Y − XM β M )T (Y − XM β M )
1
)dµM (β M , σ 2 ).
L(M ) = αM
exp(−
n
2σ 2
(2π) 2 σ n
(21)
maximal wird. Es kann nun gezeigt werden, dass für jede a-priori Verteilung der Form (20)
das optimale Modell für das Kriterium (21) asymptotisch das Modell mit maximalem BIC
ist.
relevante R Befehle
AIC und nicht BIC).
step mit der Option direction und k wird gleich log n gesetzt (sonst
Literatur:
Schwarz, G. (1978), Estimating the dimension of a model. Ann. Statist. 6, 461–464.
Vergleich von AIC und BIC
Zunächst bemerkt man, dass für n ≥ 8 der Strafterm im BIC größer ist als der im AIC, daher
wählt das AIC tendenziell ein größeres Modell aus als das BIC, wobei sich dieser Effekt mit
zunehmender Stichprobengröße verschärft.
Man kann nun folendes zeigen:
BIC ist konsistent: Falls ein festes Teilmodell zugrunde liegt, wählt BIC dies in vielen Fällen
(etwa genesteten Situationen) asymptotisch mit Wahrscheinlichkeit 1 aus.
AIC wählt in dieser Situation mit positiver Wahrscheinlichkeit auch größere Modelle aus.
Philosophie des AIC: Für größeres n (Anzahl der Beobachtungen) dürfen komplexere Modelle
angepasst werden, so dass das wahre zugrundeliegende Modell möglichst gut (in KulbackLeibler Abstand) approximiert wird.
Für AIC und BIC gilt: AIC und BIC haben als absolute Zahlen keine Bedeutung, sondern
nur relativ zum Vergleich verschiedener Modelle. Werden die Daten transformiert, dürfen
AIC und BIC der ursprünglichen Modelle und der Modelle für die transformierten Daten
nicht miteinander verglichen werden.
Mallow’s Cp
(M )
Wir betrachten das lineare Regressionsmodell
Y = Xβ + ǫ = X1 β 1 + X2 β 2 + ǫ,
X1 ∈ Rn×p , X2 ∈ Rn×(q−p)
sowie das Teilmodell
(S)
Y = X1 β + ǫ.
Die Varianz wird im vollen Modell (M ) geschätzt durch
σ̂ 2 =
kY − X β̂ LS k2
n−q
46
2
LINEARE REGRESSION
Das Modellwahlkriterium “Mallows’ Cp ” berechnet sich dann als
S
kY − X1 β̂ 1,LS k2
Cp =
− n + 2p,
σ̂ 2
S
wobei β̂ 1,LS der KQ Schätzer im Teilmodell (S) ist. Komponenten von Cp :
S
• kY − X1 β̂ 1,LS k2 (Residuell sum of squares, RSS): Qualität der Anpassung des restringierten Modells (S); je größer X1 , desto kleiner RSS.
• +2q: Komplexität des restringierten Modells (S).
• σ̂ 2 , n: zum Standardisieren, damit absolute Größe von Cp Interpretation hat.
Man wählt nun typischer Weise das Teilmodell Y = X1 β 1 + ǫ des vollen Modells (M) mit
möglichst kleinem Cp .
Motivation des Cp . Das Cp schätzt den Average Mean Square Error of Prediction (AMSEP), welcher definiert ist durch
AMSEP(S) =
1
1 X
S
E(Ŷi − EYi )2 = 2 EkX1 β̂ 1,LS − Xβk2 .
σ2
σ
i
Zur Berechnung des AMSEP(S) setze MX1 = In − PX1 (idempotent) und
λ=
Dann ist
β T2 X2T MX1 X2 β 2
.
σ2
S
β̂ 1,LS = β 1 + (X1T X1 )−1 X1T X2 β 2 + (X1T X1 )−1 X1T ǫ
(der LS Schätzer im Modell (S) hat einen Bias, falls dieses nicht korrekt ist), und
S
X1 β̂ 1,LS − Xβ = PX1 ǫ + PX1 X2 β 2 − X2 β 2 .
|
{z
}
=−MX1 X2 β2
Es ergibt sich
AMSEP(S) =
1
(EǫT PX1 ǫ + β T2 X2T MX1 X2 β 2 ) = p + λ.
σ2
(22)
Natürlich ist der AMSEP(S) unbekannt (da β unbekannt).
Wir zeigen nun: Cp schätzt AMSEP.
Es ist
PX − PX1 = MX1 X2 (X2T MX1 X2 )−1 X2T MX1 =: Q.
(orthogonale Projektion auf orthogonales Komplement der Spaltenvektoren von X1 im von
den Spaltenvektoren von X erzeugten Raum), und somit
(In − PX1 )Y = (In − PX )Y + QY.
47
Außerdem ist (In − PX ) · Q = 0 (da Q innerhalb von Spaltenraum von X). Es ergibt sich
kY − X β̂ LS k2 + YT QY
− n + 2p
σ̂ 2
YT QY
= (n − q) · (1 +
) − n + 2p
kY − X β̂ LS k2
(YT QY)/(q − p)
·(q − p) + 2p − q
=
2
σ̂
|
{z
}
Cp =
∼F (q−p,n−q, 21 λ)
Beachte für diese Rechnung die Sätze 1.7 und 1.9 und β T X T QXβ/σ 2 = λ. Für W ∼ F (q −
p, n − q, 21 λ) gilt (Johnson, Kotz, Balakrishnan 1995)
EW =
Somit
ECp =
(n − q)(q − p + λ)
(q − p)(n − q − 2)
n−q
n→∞
(q − p + λ) + 2p − q → p + λ
n−q−2
Man könnte nun auch ein korrigiertes (dann erwartungstreues) Mallows’ Cp wie folgt definieren:
(n − q − 2) (YT QY)
Cpc =
+ 2p − q.
n − q)
σ̂ 2
(dies wird aber üblicher Weise nicht verwendet.)
Bemerkungen
1. Das Cp ist zwar asymptotisch erwartungstreu für den AMSEP, aber nicht konsistent,
da die Varianz von Cp nicht gegen 0 konvergiert.
2. Das Modell mit minimalem AMSEP muss nicht unbedingt das minimale korrekte Modell
sein, es kann auch ein zu kleines Modell sein, falls λ < 1, vgl. (22). Daher wird machmal
etwas wage empfohlen, das Modell mit möglichst kleinem Cp , das aber nicht zuviel
größer als p sein sollte, zu wählen. Dies führt dann zu sogenannten Cp Plots. Angesichts
der Inkonsistenz des Cp erscheint eine solche Anweisung auch etwas willkürlich, daher
wählt man gewöhnlich einfach das Modell mit kleinstem Cp .
3. Ein Vorteil des Cp gegenüber AIC und BIC ist, dass die absoluten Zahlenwerte (als
Schätzwerte für den AMSEP) eine Bedeutung haben. Daher kann man mit dem Cp
auch Modelle für transformierte und nicht transformierte Daten vergleichen.
relevante R Befehle
step hat die Option scale, dies muss man für das Cp gleich dem im
vollen Modell geschätzten σ setzten.
Literatur:
Mallows, C. L. (1973), Some comments on Cp . Technometrics 15, 661–675
48
2
LINEARE REGRESSION
Cross Validation und Press-Statistic Die Press Statistik ist gegeben durch
Press =
n
X
i=1
(Yi − Ỹi )
wobei Ỹi = xTi β̂ (i) . Es gilt nach Lemma 2.11 Yi − Ỹi =
Press =
n
X
i=1
(
ε̂i
1−hii .
Daher kann man schreiben
ε̂i
)2
1 − hii
Man wählt nun das Modell mit minimalem Press.
Literatur
Allen, David M. (1974) The relationship between variable selection and data augmentation
and a method for prediction. Technometrics 16, 125–127.
Allen, David M. (1971) Mean Square Error of Prediction as a Criterion for Selecting Variables.
Technometrics 13, 469-475
2.5.4
Shrinkage Schätzer
Shrinkage Schätzer verkleinern tendenziell in einer gewissen Weise die sich aus der LS Schätzung
ergebenden Werte, sind also typischer Weise (nicht immer) im Absolutbetrag kleiner als die
Einträge von β̂ LS Dies hat vor allem zwei Zwecke: a. Verringerung der Varianz der Schätzung,
und b. falls Koeffzienten exakt auf 0 verkleinert werden können, liefert solch ein Shrinkage
Schätzer automatisch eine Modellwahl. Solche Schrinkage Schätzer wollen wir im Folgenden
kennenlernen. Wir beginnen jedoch zunächst mit der bereits bekannten
Ridge-Regression Für den Ridge Parameter α > 0 erhält man den Ridge Schätzer wie
folgt:
β̂ α = (αI + X T X)−1 X T Y
Aufgabe:
β̂ α = argminβ (kY − Xβk2n + αkβk2p )
Wieso fällt β̂ α in die Klasse der Shrinkage Schätzer? Dazu betrachte den Fall eines orthogonalen Designs, X T X = Ip . Dann ist β̂ = X T Y und
β̂ α =
β̂
1+α
• Koeffizienten werden im Absolutbetrag kleiner. (dies gilt aber nicht unbedingt bei nichtorthogonalem Design)
• Aber: Kein Koeffizient wird auf 0 reduziert.
49
Im Falle eines orthogonalen Designs gilt folgendes:
Es existiert ein t = t(α) > 0, so dass β̂ α Lösung des folgenden Optimierungsproblems ist:
minimiere kY − Xβk2n
,
unter Nebenbedingung
kβk2p ≤ t.
(23)
Der Beweis ergibt sich direkt aus einem Lagrange Ansatz für Extrema unter Nebenbedingungen.
Das Lasso (Tibshirani 1996)
Las
LASSO steht für: least absolute shrinkage and selection operator. Der LASSO Schätzer β̂ t
ist die Lösung des folgenden Optimierungsproblems. Für t > 0 fest (ein Regularisierungsparameter)
p
X
2
|βk | ≤ t.
(24)
minimiere kY − Xβkn
mit Nebenbedingung
k=1
Bemerkung
a. Das Minimierungsproblem (24) ist analog zu dem (23) für den Ridge Schätzer,
b. Das LASSO kann Koeffizienten auf exakt 0 schätzen. Man hat also Modellwahl und
Schätzung in einem Schritt.
c. Für die explizite Berechnung:
Reformuliere als quadratisches Minimierungsproblem mit den 2p Nebenbedingungen
±β1 ± . . . ± βp ≤ t
d. Es gilt: kY − Xβk2n = kY − X β̂ LS k2n + kX(β̂ LS − β)k2n . Also ist (24) äquivalent zu:
T
T
minimiere (β − β̂ LS ) X X(β − β̂ LS )
mit Nebenbedingung
p
X
k=1
|βk | ≤ t.
• Man nimmt stets an, dass die Kovariablen auf Norm 1 standardisiert sind.
Lasso für p = 2
Hier ist
T
X X=
1 γ
,
γ 1
β̂ LS = (β10 , β20 )T
Minimiere (β1 − β10 )2 + (β2 − β20 )2 + 2γ(β1 − β10 )(β2 − β20 ). Dabei sind die Höhenlinien Ellipsen.
Für p = 2 gilt stets (hier o.E. β̂LS > 0):
β̂jLas = (β̂LS,j − γ)+
wobei γ bestimmt durch β̂1Las + β̂2Las = t.
a, a > 0
a+ =
0, sonst
(25)
50
2
oder explizit
t
β 0 − β20 +
β̂1Las = ( + 1
) ,
2
2
LINEARE REGRESSION
t
β 0 − β20 +
β̂2Las = ( − 1
)
2
2
Argument über Hauptachsentransformation der Ellipse. Erhalte (β̄10 , β̄20 ), suche Projektion
von (β̄10 , β̄20 ) auf transformierte Raute bezüglich des euklidischen Abstands. Nach Drehung
liegt die Raute wieder auf den Koordinatenachsen. BILDER!!!
Nun nutze folgenden Satz über Projektionen auf konvexe Mengen: Ist K konvex, dann ist y
Projektion von x0 auf K falls
hx0 − y, x − yi ≤ 0 ∀x ∈ K,
der Winkel also stets flach ist. Somit liegt Projektion auf Streckensegment S. Dort auflösen
ergibt eine quadratische Funktion, deren Lösung liegt entweder beim Minimum oder auf dem
Rand der Strecke. Ein Lagrange-Ansatz für das uneingeschränktes Maximum auf der Geraden
entlang der Strecke S liefert
(1, 1) = λ · (2(β1 − β10 ) + 2γ(β2 − β20 ), 2(β2 − β20 ) + 2γ(β1 − β10 ))
Löse auf und bekomme explizite Form.
Für p ≥ 3 gilt die Form (25) im allgemeinen nicht mehr, nur noch im orthogonalen Design.
Gilt X T X = Ip , dann existiert ein γ = γ(t), so dass
β̂jLas = sign(β̂LS,j )(|β̂LS,j | − γ)+
Für ein nicht orthogonales Design können die Koeffizienten das Vorzeichen wechseln.
relevante R Befehle
berechnet.
Die library lasso2 enthält die Funktion l1ce, die den Lasso Schätzer
Literatur
Tibshirani, R. (1996) Regression shrinkage and selection via the lasso. J. Roy. Statist. Soc.
Ser. B 58, 267–288.
Nonnegative Garrote (Breiman 1995)
Sei β̂ = β̂ LS der LS-Schätzer. Wähle nun cj so, dass
X
k
(Yk −
X
cj β̂j,LS xjk )2
j
P
minimal wird unter der Nebenbedingung cj ≥ 0 und j cj ≤ s für ein s > 0.
Dann ist der Garotte Schätzer
Gar = c β̂
β̂s,j
j j,LS .
Im orthogonalen Design erhält man
cj = 1 −
λ2 +
2
β̂j,LS
,
51
P
wobei λ aus s und j cj = s bestimmt wird. Also im orthogonalen Design ähnlich wie das
LASSO, ansonsten können aber erhebliche Abweichungen auftreten.
Literatur
Breiman, L. (1995) Better subset regression using the nonnegative garrote. Technometrics 37,
373–384.
2.5.5
Inferenz nach Modellwahl
Beobachtung
Der Modellwahlschritt hat Auswirkungen auf die folgende Verteilung des Schätzers im schließlich gewählten Modell.
Resultate
Wenn aus denselben Daten das Modell gewählt wird und anschließend die Parameter geschätzt
werden, verlieren die bisher hergeleiteten Verteilungsresultate ihre Gültigkeit. Der resultierende Schätzer kann bezüglich MSE sehr schlechte Eigenschaften haben und auch nicht normalverteilt sein.
Illustration an einem einfachen Beispiel
Wir betrachten ein lineares Regressionsmodell mit zwei Kovariablen und normalverteilten
Fehlern mit bekannter Varianz von 1, und ein Teilmodell mit nur einer Kovariable
Yi = xi1 β1 + xi2 β2 + εi ,
(M ) ,
Yi = xi1 β1 + εi
(R)
,
wobei εi ∼ N (0, 1)
Annahme: Fpr die Modellmatrix X = (xi,1 , xi,2 )i=1,...,n ∈ Rn×2 gilt
X T X −1
n
Es gilt:
√
n(β̂
M
=
− β) ∼ N (0, Σ), wobei β̂
σ12
̺σ1 σ2
̺σ1 σ2
σ22
M
→Σ>0
= (β̂1M , β̂2M )T der LS-Schätzer im großen Modell
(M) ist. Wähle zwischen (M) und (R). Unter H0 : β2 = 0 ist
ein Modellwahlverfahren basierend auf dem Gauß-Test.
√
nβ̂2
σ2
∼ N (0, 1). Daher betrachte
Modellwahlverfahren
Falls
√
nβ̂2
≤ cn ,
Tn = |
|
> cn ,
σ2
wähle (R)
wähle (M)
Satz 2.13
Falls cn → ∞ so, dass √cnn → 0, dann ist das obige Modellwahlverfahren konsistent, d.h. mit
einer gegen 1 konvergierenden Wahrscheinlichkeit wird das richtige Modell gewählt.
52
2
LINEARE REGRESSION
Beweis
Angenommen, (R) ist richtig, also β2 = 0. Dann:
P (wähle (R)) = P (Tn ≤ cn ) = Φ(cn ) − Φ(−cn ) → 1, da cn → ∞
(Φ Verteilungsfunktion der Standardnormalverteilung)
Angenommen, (M) ist richtig, also β2 6= 0.
O.E. β2 > 0. Dann:
√
√
√
√
nβ̂2
n(β̂2 − β2 )
nβ2
nβ2
P (wähle (R)) ≥ P (
> cn ) = P (
> cn −
) = 1 − Φ(cn −
)→1
σ2
σ2
σ2
σ
|
{z 2 }
→−∞
da
cn
√
n
→ 0 und σ2 von 0 weg beschränkt bleibt.
post
, ergibt sich nun als
Der Schätzer von β1 nach Modellwahl, β̂1
post
β̂1
=
β̂1M , Tn > c,
β̂1R , Tn ≤ cn
Wegen der Konsistenz der Modellwahlprozedur gilt:
für festes β2 6= 0 :
für β2 = 0 :
post
6= β̂1M ) → 0
P (β̂1
post
P (β̂1
6= β̂1R ) → 0
Also ist konsistente Modellwahl scheinbar kein Problem. Aber man kann zeigen: Es gibt eine
Umgebung U von 0, so dass für beliebig (hinreichend) großes n stets ein β1 ∈ U existiert,
post
so dass der Abstand der Verteilungen L(β1
) und L(β̂1M ) groß ist, welches auch zu großen
mittleren quadratischen Fehlern und Konfidenzintervallen mit realer Überdeckungswarscheinpost
lichkeit, die gegen 0 konvergiert, führt. Wir illustieren dies, indem wir die Dichte von β̂1
berechnen und für einige Parameter Werte plotten.
Satz 2.14
√
post
Die Zufallsvariable n(β̂1
− β1 ) hat die Dichte
√
t + √n σ1 ̺β2 c − √nβ /σ −cn − nβ2 /σ2 2
2
n
σ2
−Φ
· Φ
fP ost (t) =
1 φ
1
σ1
σ1
σ1 (1 − ̺2 ) 2
σ1 (1 − ̺2 ) 2
√
√
̺
̺
β
β
n 2 + t − cn n σ22 + σ1 t + cn
1
t σ2
σ1
+ φ( ) 1 − Φ(
+Φ
,
1
1
σ1 σ1
(1 − ̺2 ) 2
(1 − ̺2 ) 2
1
wobei φ die Dichte und Φ die Verteilungsfunktion der N (0, 1) Verteilung ist.
BILDER!!! WEIT WEG VON DER NORMALVERTEILUNG!
53
Beweis (von Satz 2.14)
Es ist
P
√
post
n(β̂1
− β1 ) ≤ t
√
√
P Tn ≤ cn , n(β̂1R − β1 ) ≤ t + P Tn > cn , n(β̂1M − β1 ) ≤ t
=
=: A1 (t) + A2 (t).
Die Dichte erhält man dann durch Ableiten nach t.
Betrachte zunächst A2 (t):
√
√
√
√
P Tn > cn , n(β̂1M − β1 ) ≤ t = P n(β̂2 − β2 ) ≥ σ2 cn − nβ2 , n(β̂1M − β1 ) ≤ t
√
√
√
+ P n(β̂2 − β2 ) ≤ −σ2 cn − nβ2 , n(β̂1M − β1 ) ≤ t
= A21 (t) + A22 (t)
Sei φ(x, y, Σ) die Dichte von N (0, Σ), φ(y|x, Σ) die bedingte Dichte von y|x bei (x, y) ∼
N (0, Σ) und φ(t) die Dichte von N (0, 1). Dann:
Z t Z ∞
Z t Z ∞
1
φ(x, y, Σ)dy dx =
φ(y|x, Σ) φ(x/σ1 )dy dx.
A21 (t) =
√
√
σ
1
−∞ σ2 cn − nβ2
−∞ σ2 cn − nβ2
Ableiten nach t liefert
1
φ(t/σ1 )
=
σ1
A′21 (t)
Z
∞
√
φ(y|t, Σ)
σ2 cn − nβ2
1
dy
σ1
und es ist φ(y|t, Σ) die Dichte von N (̺ σσ12 t, (1 − ̺2 )σ22 ). Also
A′21 (t)
=
=
√
σ2 cn − nβ2 − ̺ σσ12 t 1
φ(tσ1 ) 1 − Φ
1
σ1
(1 − ̺2 ) 2 σ2
√ n β2 + ̺ t − cn 1
σ2
σ1
.
φ(tσ1 )Φ
1
σ1
(1 − ̺2 ) 2
(26)
Analog berechnet man
A′22 (t)
√ β2
n σ2 + σ̺1 t + cn 1
=
φ(tσ1 ) 1 − Φ
.
1
σ1
(1 − ̺2 ) 2
(27)
Jetzt berechne A1 (t):
A1 (t) = P − σ2 cn −
√
nβ2 ≤
√
n(β̂2M − β2 ) ≤ σ2 cn −
√
√
nβ2 , n(β̂1R − β1 ) ≤ t
Man benötigt also die gemeinsame Verteilung von (β̂1R , β̂2M ). Dazu verwenden wir die Invertierungsformel
−1
1
c −b
a b
=
b c
ac − b2 −b a
Für X = (v1 , v2 ) liefert dies
XT X =
T
v1 v1 v1T v2
.
v1T v2 v2T v2
54
2
Somit:
1
Σ/n = T
T
v1 v1 v2 v2 − (v1T v2 )2
und auch
1
n
LINEARE REGRESSION
v2T v2 −v1T v2
−v1T v2 v1T v1
T
1
−σ1 σ2 ̺
σ22
v1 v1 v1T v2
= 2 2
σ12
v1T v2 v2T v2
σ1 σ2 (1 − ̺2 ) −σ1 σ2 ̺
Nun ist β̂1R = v1T Y/v1T v1 , also
E β̂1R = β1 +
v1T v2
σ1
β2 = β1 − ̺β2 ,
T
σ2
v1 v1
Weiter berechnet sich β̂2M explizit aus β̂
β̂2M =
und natürlich E β̂2M = β2 , Var
√
M
Var
√
n(β̂1R − β1 =
n
v1T v1
=
σ12 (1
1
.
− ̺2 )
= (X T X)−1 X T Y als
−v1T v2 v1T Y + v1T v1 v2T Y
v1T v1 v2T v2 − (v1T v2 )2
n(β̂2M − β2 ) = σ22 , und es gilt
Cov(β̂1R , β̂2M ) =
−v1T v2 v1T v1 + v1T v1 v2T v1
= 0.
v1T v1 v2T v2 − (v1T v2 )2
Da außerdem (β̂1R , β̂2M ) gemeinsam normalverteilt sind (als lineare Transformation von normalverteilten Zufallsvariablen), sind diese auch unabhänig. Somit:
√
√
√
√
A1 (t) = P n(β̂1R − β1 ) ≤ t · P − σ2 cn − nβ2 ≤ n(β̂2M − β2 ) ≤ σ2 cn − nβ2 ,
und
A′1 (t)
√
t + √n σ1 ̺β2 σ c − √nβ −σ2 cn − nβ2 2
2 n
σ2
−Φ
.
=
· Φ
1 φ
1
σ1 σ2
σ1 σ2
σ1 (1 − ̺2 ) 2
σ1 (1 − ̺2 ) 2
1
Daraus und aus Gleichungen (26) und (27) erhält man das Resultat des Satzes.
Literatur
Pötscher, B. M. und Leeb, H. (2008) Sparse Estimators and the Oracle Property, or the Return of Hodges’ Estimator. Journal of Econometrics 142, 201-211.
Pötscher, B. M. und Leeb, H. (2005) Model Selection and Inference: Facts and Fiction. Econometric Theory 21 2005, 29-59.
Wallace, T. D. und Ashar, V. G. (1972) Sequential methods in model selection. Review of
Economics and Statistics 54, 172–178.
2.6 Verallgemeinerte kleineste Quadrate und Varianzschätzen
2.6
2.6.1
55
Verallgemeinerte kleineste Quadrate und Varianzschätzen
Verallgemeinerte kleinste Quadrate
Im linearen Modell (5) habe wir vorausgesetzt, dass die Fehler ǫ unkorreliert mit gleicher
Varianz σ 2 sind. Diese Annahme lassen wir nun fallen und erlauben eine allgemeine Kovarianzstruktur der Fehler. Wir betrachten also das lineare Modell mit allgemeiner Fehlerstruktur
Y = Xβ + ǫ,
Eǫ = 0,
Cov ǫ = Σ,
(28)
mit einer positiv definiter Kovarianzmatrix Σ > 0 für die Fehler ǫ. Man überführt nun das
lineare Modell (28) mit allgemeiner Fehlerstruktur in ein Modell mit Σ = In . Dazu setze
1
1
1
1
Ỹ = Σ− 2 Y, X̃ = Σ− 2 X, ǫ̃ = Σ− 2 ǫ. Dann ergibt (28) mit Σ− 2 multipliziert:
Ỹ = X̃β + ǫ̃,
1
(29)
1
wobei Cov ǫ̃ = Σ− 2 ΣΣ− 2 = In . Weiter gilt: Genau dann ist S(Y) = AY ein linearer
unverfälschter Schätzer im Modell (28), wenn S̃(Ỹ) = AΣ1/2 Ỹ ein linearer unverfäschter
Schätzer im Modell (29) ist. Somit kann man die Resultate im linearen Modell mit unkorrelierten, homoskedastischen Fehler übertragen auf das lineare Modell mit allgemeiner Fehlerstruktur. Wir fassen die wesentlichen Ergebnisse zusammen.
Satz 2.15
Im lineare Modell mit allgemeiner Fehlerstruktur (28) ist der beste lineare, unverfälschte
Schätzer für β (also der mit kleinster Kovarianzmatrix) gegeben durch
β̂ GLS = (X̄ T X̄)−1 X̄ T Ỹ = (X T Σ−1 X)−1 X T Σ−1 Y,
(30)
dieser hat die Kovarianzmatrix
Cov β̂ GLS = (X T ΣX)−1 ,
und ist bestimmt als Lösung des verallgemeinerten kleinste Quadrate Problems
β̂ GLS = argminβ (Y − Xβ)T Σ−1 (Y − Xβ).
Der Schätzer β̂ GLS heißt der verallgemeinerte Kleinste-Quadrate-Schätzer (generalized least
squares estimator, GLS). Im Modell (28) heißt der Schätzer β̂ OLS = (X T X)−1 X T Y der
gewöhnliche kleinste Quadrate Schätzer (ordinary least squares, OLS). Dieser ist auch hier
unverfälscht und unter allgemeinen Bedingungen konsistent (s. Eicker 1963), hat aber die
größere Kovarianzmatrix Cov β̂ OLS = (X T X)−1 X T ΣX(X T X)−1 . Wir beachten, dass für die
Berechnung von β̂ GLS die Matrix Σ bekannt sein muss.
Falls Σ = diag(w1 , . . . , wn ), wi > 0, eine Diagonalmatrix ist, spricht man von dem gewichteten
Kleinste-Quadrate-Schätzer, Notation β̂ W LS (weighted least squares).
Aufgabe
β̂ GLS als ML-Schätzer, falls der Fehler ǫ ∼ N (0, Σ) verteilt ist.
relevante R Befehle Der Befehl lm hat die Option weights, mit der eine gewichtete kleinste
Quadrate Schätzung ausgeführt werden kann.
56
2.6.2
2
LINEARE REGRESSION
Varianzschätzen
Wir wollen nun sehen, wie man in dem Modell (28) die allgemeine Kovarianzstruktur der
Fehler schätzen kann. Das Schätzen der Fehlerstruktur ist aus zwei Gründen von Interesse.
Zum einen wird es benötigt, um den gewichteten kleinste Quadrate Schätzer (30) und dessen
Kovarianzmatrix zu berechnen. Weiter kann auch die Varianzstruktur (Stichwort Volatilität)
neben der Erwartungswertstruktur Xβ an sich von Interesse sein.
Zum Schätzen benötigt man Annahmen an die Matrix Σ. Wir betrachten den Fall unkorrelierter Fehler, also Σ = diag(σ12 , . . . , σn2 ). Zum Schätzen der Varianzen wird hier ein parametrisches Modell angenommen. Ein normales lineares Modell ist aber nicht geeignet, da die
Varianzen positiv sein müssen. Beispiele für parametrische Modelle für die Varianzen sind
σi2 = σ 2 |xTi β|ϑ ,
ϑ > 0,
σ > 0,
dabei ist σi2 proportional zur Potenz des Erwartungswertes |xTi β|, oder
σi2 = σ 2 exp(xTi ϑ)
wobei ϑ ∈ Rp ein Parametervektor ist.
Ein allgemeines Modell hat die Form:
σi2 = σ 2 f (xi , β, ϑ)
Damit können die Varianzen von dem Parameter β abhängen, die den Erwartungswert bestimmen, sowie von zusätzlichen Parametern ϑ. Die Funktion f muss positiv sein und wird
als bekannt angenommen, nur die Parameter sind unbekannt.
Wir berschreiben nun eine Möglichkeit zur Schätzung von β und ϑ durch sukzessive (nichtlineare) kleinste Quadrate.
1. Schätze β durch gewöhnliche kleinste Quadrate β̂ LS , bilde die Residuen ε̂i = Yi − xTi β̂ LS .
2. Schätze ϑ, σ 2 durch Minimieren von
n
X
i=1
(ε̂i − σ 2 f (xi , β̂ LS , ϑ))2 .
Dies ist ein Beispiel für eine nichtlineare kleinste Quadrate Schätzung, auf die wir im nächsten
Kapitel näher eingehen werden. Wir erhalten auf diese Weise konsistente Schätzer ϑ̂, σ̂ 2 .
3. Nun kann man die Schätzungen noch weiter verbessern und die geschätzten Varianzen
σ̂i2 = σ̂ 2 f (xi , β̂ GLS , ϑ̂) benutzten und den gewichteten Kleinste-Quadrate-Schätzer β̂ W LS für
β berechnen.
4. Bilde unter Benutzung des gesichteten kleinsten Quadrate Schätzers neue Residuen und
schätze ϑ, σ 2 neu.
Diesen Prozess kann man iterieren. Es gibt hier zur Konvergenzanalyse und alternativen Verfahren eine umfangreiche Literatur. Siehe etwa
Literatur
Carroll, R. J. und Ruppert, D. (1988). Transformation and weighting in regression. Chapman
and Hall, New York.
57
3
Nichtlineare Regression
In diesem Abschnitt betrachten wir Regressionsmodelle, in denen die Parameter nichtlinear
in den funktionalen Zusammenhang eingehen. Man beachte, dass auch bei nur linearen Parametern nichtlineare Effekte (etwa Polynome, Splines oder trigonometrische Funktionen) in
den Kovariablen modelliert werden können. Daher sollten nichtlineare Modelle nur dann verwendet werden, wenn sich dies aus dem sachwissenschaftlichen Zusammenhang ergibt. Eine
wichtige Klasse von nichtlinearen Regressionmodellen entstehen aus Wachstumsmodellen in
der Biologie.
Bei nichtlinearen Regressionsmodellen ist der (nichtlineare) kleinste Quadrate Schätzer auch
bei normalverteilten Fehlern nur noch asymptotisch normalverteilt. Daher muss die Inferenz
(Konfidenzintervalle, Tests) auf den asymptotischen Approximation aufgebaut werden.
3.1
Modell und Beispiele
Modell:
Beobachtungen (Yi , xi ), i = 1, . . . , n, aus dem Modell
Yi = f (xi , β 0 ) + εi ,
i = 1, . . . , n,
(31)
wobei
Yi abhängige Variable
f: bekannte Funktion
β 0 : unbekannter Parameter ∈ Θ ⊂ Rq
xi : Kovariablen, xi ∈ Rp
εi : unabhängig, identisch verteilter Fehler mit Eεi = 0, Var εi = σ 2 , (bzw. εi ∼ N (0, σ 2 )).
Diese sind auf einem W-raum Ω definiert.
Beispiele:
1. Lineare Regression
f (xi , β) = xTi β
2. Michaelis-Mentes Modell
f (x, β1 , β2 ) =
β1 x
β2 + x
allgemeiner:
f (x, β1 , β2 , β3 ) =
β2 + β1 x
β3 + x
58
3 NICHTLINEARE REGRESSION
3. logistisches Wachstumsmodell
f (x, β1 , β2 , β3 ) =
β1
1 + β2 exp(−β3 x)
Meist ist also x = x eine univariate metrische Kovariable. Beachte, dass bei nichtlinearer
Modellierung keine Tranformation der Kovariablen nötig ist, diese kann mit in die Funktion
aufgenommen werden.
3.2
Nichtlineare kleinste Quadrate
Mit β 0 bezeichnen wir im Folgenden den wahren Wert von β in Modell (31). Ein NLS-Schätzer
(nichtlineare kleinste Quadrate, nonlinear least squares) β̂ N LS minimiert
n
Qn (β) =
1X
(Yi − f (xi , β))2
n
i=1
Bemerkung
a. Der NLS-Schätzer muss nicht eindeutig sein.
b.
1
n
kann in der Praxis weggelassen werden.
c. Der NLS-Schätzer ist ML-Schätzer für normalverteilte Fehler.
Praktische Berechnung von β̂ N LS .
Falls Differenzierbarkeit von f (·, ·) in β vorausgesetzt wird, kann das Newton Verfahren auf
die Gleichung
n
2 X
∂β Qn (β) = −
Yi − f (xi , β) ∂β f (xi , β) = 0.
n
i=1
Eine einfacheres iteratives Verfahren besteht darin, zunächst zu linearisiren und dann iterativ
lineare kleinste Quadrate anzuwenden wie folgt: Für eine Näherung β n an β̂ N LS , linearisiere
Yi ≈ f (xi , β n ) +
∂f
(xi , β n )T (β − β n ) + εi
∂β
Schätze β − β n durch lineare kleinste Quadrate mit abhängiger Variable ȳi,n = Yi − f (xi , β n )
∂f
(xi , β n ) also
und Kovariable x̄i,n = ∂β
αn = (X̄nT X̄n )−1 X̄nT Ȳn ,
wobei X̄n zeilenweise aus den x̄i,n gebildet wird. Dan erhalte eine neue Näherung β n+1 mit
β n+1 = αn + β n .
Man kann für dieses Verfahren auch einen Satz über Konvergenz beweisen.
Schätzer für die Varianz σ 2 .
Für einen NLS-Schätzer β̂ N LS setzte
σ̂ 2 = Qn (β̂ N LS ).
3.3 Konsistenz
3.3
59
Konsistenz
Um die Konsistenz des NLS Schätzers zu zeigen, benötigen wir folgende Annahmen.
Der Wertebereich Θ von β ist kompakt und konvex, und f (xi , ·) ist
Annahme (A):
stetig.
Offenbar existiert unter Annahme (A) ein (meßbarer) NLS-Schätzer.
Es gilt gleichmäßig in α, β ∈ Θ
Annahme (B):
n
1X
(f (xi , β)f (xi , α)) → K(α, β).
n
i=1
Weiter habe Q(β, β 0 ) = K(β, β) + K(β 0 , β 0 ) − 2K(β, β 0 ) als Funktion von β ein eindeutiges
Minimum (Nullstelle) in β 0 .
Offenbar gilt unter Annahme (B) gleichmäßig in β
n
1X
(f (xi , β) − f (xi , β 0 ))2 → Q(β, β 0 ).
n
i=1
und das Grenzkriterium Q(·, β 0 ) ist stetig (wegen gleichmäßiger Konvergenz).
Satz 3.1
Unter den Annahmen (A) und (B) sind β̂ N LS und σ̂ 2 stark konsistent, d.h.
σ̂ 2 → σ 2 f.s.
β̂ N LS → β 0 f.s.,
Wir zeigen zunächst folgendes Lemma.
Lemma 3.2
Unter Annahmen (A) und (B) gilt für fast alle ω ∈ Ω
n
1X
εk (ω) f (xk , β 0 ) − f (xk , β) → 0
n
k=1
gleichmäßig in β ∈ Θ.
Beweis (von Lemma 3.2)
Punktweise fast sichere Konvergenz für festes β folgt mit Annahme (B) aus dem starken
Gesetzt der großen Zahlen (REFERENZ), da
Var(εk f (xk , β 0 ) − f (xk , β)) = (f (xk , β 0 ) − f (xk , β))2 .
Zur Gleichmäßigkeit:
n
|
Für α, β ∈ Θ gilt
1X
εk (f (xk , β) − f (xk , β 0 ))|
n
k=1
CSU
≤
n
|
1X
εk (f (xk , α) − f (xk , β 0 ))|
n
k=1
n
n
1
1 X
1X
2
ε2k ·
(f (xk , β) − f (xk , α))2
(32)
+
n
n
k=1
k=1
60
3 NICHTLINEARE REGRESSION
Da
n
1X
(f (xk , α) − f (xk , β))2 → K(α, α) + K(β, β) − 2K(α, β)
n
k=1
gleichmäßig und K(·, ·) stetig auf Θ × Θ (kompakt), gilt:
Für alle δ > 0 existieren endlich viele α1 , . . . , αq ∈ Θ und ein n0 , so dass für alle β ∈ Θ ein
1 ≤ i ≤ q existiert mit
n
1X
(f (xk , αi ) − f (xk , β))2 ≤ δ.
n
k=1
Mit (32) und punktweiser fast sicherer Konvergenz an den Stellen αi folgt dann die Behauptung.
Nach Lemma 3.2 und Annahmen (A) und (B) gilt für fast alle ω ∈ Ω gleichmäßig in β
n
Qn (β)(ω)
=
n
n
k=1
k=1
1X 2
2X
1X
(f (xk , β 0 ) − f (xk , β))2 +
εk (ω) +
εk (ω)(f (xk , β 0 ) − f (xk , β))
n
n
n
k=1
→ Q(β, β 0 ) + σ
2
(33)
N LS
Fixiere ω ∈ Ω, so dass (33) gilt. Setzte β̂ n (ω) = β n , σ̂n2 (ω) = σn2 und zeige β n → β 0 ,
σn2 → σ. Da Θ kompakt ist, genügt es für β n → β 0 zu zeigen, dass jeder Häufungspunkt von
(β n ) gleich β 0 ist.
Sei also β ′ ein Häufungspunkt von β n , also etwa β nk → β ′ , k → ∞. Dann ist
|Qnk (β nk )(ω)−(Q(β ′ , β 0 )+σ 2 )| ≤ |Qnk (β nk )(ω)−(Q(β nk , β 0 )+σ 2 )|+|Q(β nk , β 0 )−Q(β ′ , β 0 )| → 0,
wobei der erste Term wegen der gleichmäßigen Konvergenz in (33) gegen 0 konvergiert, und
der zweite wegen der Stetigkeit von Q(·, β 0 ). Also haben wir
Qnk (β nk )(ω) → Q(β ′ , β 0 ) + σ 2 ,
k→∞
(34)
Weiter gilt, da β n NLS Schätzer,
N LS
Qnk (β nk , ω) ≤ Qnk (β 0 , ω) =
nk
1 X
ε2i (ω)
nk
i=1
Für k → ∞ erhält man mit (34):
Q(β ′ , β 0 ) + σ 2 ≤ σ 2
Da Q(β ′ , β 0 ) > 0 für β ′ 6= β 0 (Annahme (B)) folgt β ′ = β 0 .
Analog zu (34) gilt dann für fast alle ω:
N LS
Qn (β̂ n
(ω))(ω) → Q(β 0 , β 0 ) +σ 2 = σ 2
| {z }
=0
also σ̂ 2 → σ 2 fast sicher.
3.4 Asymptotische Normalität
61
relevante R Befehle
nls berechnet einen nichtlinearen kleinste Quadrate Schätzer. Dabei
muss ein Startvektor (Option start) für β angegeben werden. Auf ein Objekt vom Typ nls
kann die summary Funktion angewendet werden. Diese enthält dann auch den Schätzer für
σ2.
Literatur:
Jennrich, R. I. (1969) Asymptotic properties of non-linear least squares estimators. Ann.
Math. Statist. 40, 633–643.
3.4
Asymptotische Normalität
Für die asymptotische Normalität des NLS Schätzers benötigen noch folgende Annahme
T
d
d d
Annahme (C):
Die Ableitungen dβ
f (xi , β) = gi (β) (Vektor im Rq ), dβ
dβ f (xi , β) =
q×q
Hi (β) (Matrix aus R ) existieren, und für alle Kombinationen f (xi , β)·(gi (β))j , (gi (β))j (gi (β))l ,
f (xi , β) · (Hi (β))jk , (gi (β))j (Hi (β))kl , und (Hi (β))kl (Hi (β))k′ l′ existieren die gleichmäßigen
Limiten (in (α, β) ∈ Θ × Θ) der Form (für alle Kombinationen)
n
1X
f (xi , α)(gi (β))j .
n
i=1
Insbesondere gilt gleichmäßig in β ∈ Θ
n
1X
An (β) =
gi (β)gi (β)T → A(β)(∈ Rq×q ).
n
i=1
Lemma 3.3
Unter den Annahmen (A), (B) und (C) gilt
n
1 X
d
√
εi gi (β) → N (0, σ 2 A(β))
n
i=1
Dies Lemma wir mit dem zentralen Grenzwertsatz von Lindeberg und dem Cramer-Wold
Lemma bewiesen.
Satz 3.4
Es gelten Annahmen (A), (B), (C), β 0 ∈ int Θ und A(β 0 ) sei invertierbar. Dann
√
N LS
n(β̂ n
d
− β 0 ) → N (0, σ 2 A(β 0 )−1 ).
(35)
Beweis
Nach dem mehrdimensionalen Zwischenwertsatz der Differentialrechnung gilt
N LS
0 = ∂β Qn (β̂ n
N LS
) = ∂β Qn (β 0 ) + WN (β̂ n
− β 0 ),
(36)
wobei
Wn =
Z
0
Es ist
1
N LS
− β 0 ) dt.
∂β ∂βT Qn β 0 + t(β̂ n
n
∂β Qn (β) =
n
2X
(Yi − f (xi , β))gi (β)
n
also
∂β Qn (β 0 ) =
i=1
Weiter
∂β ∂βT Qn (β) =
2X
εi gi (β 0 ).
n
i=1
n
2 X
(Yi − f (xi , β))Hi (β) − (gi (β)gi (β)T ) .
n
i=1
Somit gilt nach Annahme (C)
f.s.
∂β ∂βT Qn (β 0 ) → −2A(β 0 ),
sowie wegen der Konsistenz von β̂ N LS
Wn − ∂β ∂βT Qn (β 0 ) → 0 f.s.
Somit ergibt sich aus (36) und Lemma 3.3
√
N LS
n(β̂ n
−1 √
d
n∂β Qn (β 0 )/2 → N (0, σ 2 A(β 0 )−1 )
− β 0 ) = − Wn /2
Referenz
Jennrich, R. I. (1969) Asymptotic properties of non-linear least squares estimators. Ann.
Math. Statist. 40, 633–643.
Asymptotische Konfidenzintervalle und Hypothesentests
Die asymptotische Normalität in (35) kann zur Konstruktion von Konfidenzintervallen für
die Koeffizienten von β sowie zu Konstruktion von Tests linearer Hypothesen an β genutzt
P
N LS
N LS
werden. Dabei wird die Matrix A(β 0 ) durch n1 ni=1 gi (β̂ n )gi (β̂ n )T geschätzt. Danach
geht man vor wie in Bemerkung 2.8 zur entsprechenden asymptotischen Konstruktion in der
linearen Regression.
relevante R Befehle
Die Funktion summary, angewendet auf ein nls Objekt, liefert die
P-Werte, ob die entsprechenden Koeffizinten 0 sind. Die Funktion confint berechnet Konfidenzintervalle für die βk . Mit der Funktion anova können lineare Hypothesen an β getestet
werden, wobei das Modell unter der linearen Restriktion mit geschätzt werden muss.
Weitere Bemerkungen
Eine Residuenanalyse (residuals und fitted.values auf das nls Objekt anwenden) wird
ebenso wie im linearen Regressionsmodell durchgeführt. Da das Modell gewöhnlich durch den
wissenschaftlichen Zusammenhang vorgegeben sein sollte, sind die Themen Modellwahl und
Variablenselektion nur von geringem Interesse in der nichtlinearen Regression. Eine Ausnahme
ist aber die Schätzung der Varianzfunktion (s. Abschnitt 2.6.2). Dort führt man gewöhnlich
sukzessive Tests durch.
63
4
4.1
Logistische Regression
Modell
Wir betrachten Regression auf bionomial-verteilte Daten. Dabei liegen also unabhängige
binomial-verteilte abhängige Daten vor, Yi ∼ B(ni , pi ), i = 1, . . . , n,
n i yi
P (Yi = yi ) =
p (1 − pi )ni −yi ,
yi i
sowie Kovariabeln xi,1 , . . . , xi,r , i = 1, . . . , n. Man geht nun davon aus, dass die Kovariablen
die Erfolgswahrscheinlichkeit pi beeinflussen, also pi = p(xi ). Genauer soll pi von einem linearen Prädiktor ηi = bxTi β abhängen, wobei β ∈ Rp ein unbekannter Parametervektor ist
(es ist wie bei der linearen Regression p = r + 1 und bxi = (1, xi,1 , . . . , xi,r )T )). Die direkte
Wahl pi = ηi = bxTi β ist aber ungeeignet, da ja so nicht sichergestellt wird, dass 0 < pi < 1.
Man wählt daher eine streng monoton wachsende, stetige Link-Funktion g : (0, 1) → R, so
dass ηi = g(pi ) bzw. pi = h(ηi ) mit h = g −1 . Die Funktion h ist also eine streng-monoton
wachsende, stetige Verteilungsfunktion.
Beispiele für Linkfunktionen
η
p
e
a. Logit-Link
g(p) = log( 1−p
); h(η) = 1+e
η . Diese Wahl führt zum sogenannten logistischen Regressionsmodell, welches wir im Folgenden weiter untersuchen wollen.
b. Probit-Link
g(p) = Φ−1 (p), wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet. Dies ist das Probit Modell.
c. Komplementäre Log-log-Regression g(p) = log(− log(1 − p)), dies ist das diskrete CoxModell
Wir fassen also nochmal die Definition des logitischen Regressionsmodells zusammen. Es liegen
unabhängige Beobachtungen (Yi , bxi ), i = 1, . . . , n, vor, wobei die Yi ∼ B(ni , pi ) binomialverteilt sind. Der Parameter ni ist bekannt, dagegen hängt pi von den Kovariablen bxi ∈ Rp ab
über die Beziehung
exp(bxTi β)
pi = p(bxi ) =
1 − exp(bxTi β)
für einen unbekannten Parametervektor β ∈ Rp . Für die Kodierung der Kovariablen, also die
konkrete Wahl des Vektors bxTi ist Abschhnitt 2.1.2 zu beachten.
4.2
Maximum Likelihood Schätzung
Für feste Linkfunktion kann der Parameter β durch die Maximum Likelihood Methode
geschätzt werden. Dazu betrachtet man die Log-Likelihood-Funktion:
L(β) =
n
X
i=1
Yi log h(xTi β)
+ (ni − Yi ) log(1 −
h(xTi β))
+
n
X
i=1
ni
log
,
Yi
64
4 LOGISTISCHE REGRESSION
wobei der letzte Summand nicht von β abhängt und somit vernachlässigt werden kann. Ein
Maximum Likelihood Schätzer ist dann gegeben durch
β̂M L = argmaxβ∈Rp L(β)
Wir betrachten im Folgenden speziell das logistische Regressionsmodell. Dann ist
Llogit (β) =
=
n X
i=1
n
X
t
Yi log
ebxi β
bxT
i β
1+e
Yi (bxTi β)
i=1
−
n
X
T
+ (ni − Yi ) log 1 −
ebxi β
bxT
i β
1+e
+ const.
T
ni log(1 + ebxi β ) + const.
i=1
Als notwendige Bedingung für ein Maximum ergibt sich die Score-Gleichung
X ∂
ebxi β !
S(β) =
= 0.
Llogit (β) =
bxi Yi − ni
bxT
∂β
i β
i=1
}
| 1 +{ze
n
T
=E(Yi |bxi )
Es ist offenbar E(S(β)) = 0. Für die Matrix der zweiten Ableitungen (Hessische Matrix)
erhält man
T
n
X
∂
ebxi β
T
H(β) =
.
S(β) = −
bxi bxi ni
T
∂β T
(1 + ebxi β )2
i=1
|
{z
}
=p(bxi )(1−p(bxi ))
Somit hat diese folgende Eigenschaften
a. H(β) hängt nicht von Daten Yi ab.
b. H(β) ist negativ definit für alle β ∈ Rp , falls die Designmatrix
 T
x1
 .. 
X =  .  ∈ Rn×p
xTn
vollen Rang hat. (Nachweis!)
Satz 4.1
Der Parameterraum Θ ⊂ Rp der möglichen Werte von β sei konvex. Falls die Designmatrix
X vollen Rang hat, hat Llogit (β) im logistischen Regressionsmodell höchstens ein Maximum,
d.h. β̂ M L ist, falls existent, eindeutig bestimmt.
Beweis
H(β) negativ definit ∀β ∈ Rp ⇒ Llogit (β) konkav ⇒ auf konvexer Menge höchstens ein
Maximum.
Beispiel 4.2 (MLE braucht finit nicht zu existieren)
Es sei ni = 1, und die Kovariablen bxi seien derart, dass β ∗ ∈ Rp existiert mit
bxTi β ∗ > 0,
falls Yi = 1,
bxTi β ∗ < 0,
falls Yi = 0.
4.3 Deviance
65
Dann ist
∗
L(β ) =
n
X
(bxTi β ∗
i=1
yi =1
∗
bxT
i β
− log(1 + e
)) −
n
X
T
∗
log(1 + ebxi β ).
i=1
yi =0
Für α → ∞ gilt dann L(αβ ∗ ) → 0 (nutze dazu log(1 + ex ) ≈ x für x groß). Andererseits ist
stets
n
Y
p(bxi )yi (1 − pi (bxi ))1−yi < 1
L(β) =
i=1
uns somit L(β) < 0. Daher kann es kein Maximum geben.
Man kann aber zeigen, dass unter geeigneten Bedingungen die Wahrscheinlichkeit dafür, dass
der Maximum Likelihood Schätzer β M L existiert, gegen 1 konvergiert, und dass dieser asymptotisch normalverteilt ist. Wir zeigen dies im Abschnitt 5.3 über verallgemeinerte lineare
Modelle.
relevante R Befehle
Die Funktion glm mit Option family=binomial passt ein logistisches
Regressionsmodell an. Entweder man wählt die Matrix (Yi , ni −Yi ), i = 1, . . . , n als abhängige
Variable in formula, oder man wählt Yi /ni als abhängige Variable in formula, und übergibt
die ni an die Option weights. Ein Probit-Modell wird mit der Option
family=binomial(link="probit") erzeugt. Auf ein glm Objekt können die Funktionen
summary, und fitted.values (angepasste Werte), angewendet werden.
4.3
Deviance
Wir wiederholen zunächst das Prinzip des Likelihood Quotienten Tests (LRT, Likelihood
Ratio Test). Angenommen, man hat zwei parametrische Modelle:
L: großes Modell mit l freien Parametern und maximaler Likelihood LL ,
S: kleines Teilmodell von L mit s freien Parametern und maximaler Likelihood LS .
Dann ist die Likelihood Quotienten Statistik gegeben durch
T = 2 log
LL
.
LS
Falls das Teilmodell S bereits den wahren Parameter enthält, und falls zusätzliche Regulad
ritätsbedingungen erfüllt sind, gilt T → χ2 (l − s). Man verwirft das Teilmodell mit asymptotischen Niveau α > 0, falls T ≥ χ2α (l − s). Die Deviance ist nun definiert als Likelihood
Quotienten Statistik für das angepasste logistische Regressionsmodell gegen das sogenannte saturierte Modell, wobei im saturierten Modell jeder Parameter pi als freier Parameter
behandelt wird und durch p̂i = nYii geschätzt wird. Also explizit
D =2·
n X
Yi log
i=1
p̂i
h(xTi β̂)
+ (ni − Yi ) log(
1 − p̂i
1 − h(xTi β̂)
) .
Mit Ŷi = ni h(xTi β̂), den angepassten Werten (fitted values) kann man auch schreiben
D =2·
n X
i=1
Yi log
Yi Ŷi
+ (ni − Yi ) log
ni − Yi ni − Ŷi
.
66
d
Falls das logistische Regressionsmodell korrekt ist, gilt für festes n und für ni → ∞ D →
χ2 (n − p).
Bemerkungen
a. Für ni = 1 (Bernoulli-Daten) kann die Deviance nicht benutzt werden (WIESO).
d
b. Die Asymptotik D → χ2 (n − p) gilt nicht für ni fest und n → ∞!
Die Deviance kann auch genutzt werden, um zwei ineinander geschachtelte logistische Regressionsmodelle miteinander zu vergleichen. Dazu seien
L: das große logistische Regressionsmodell mit β ∈ Rl ,
S: das klein Teilmodell von L mit β ∈ Rs , s < l.
Dann kann die Likelihood Quotienten Statistik von Modell S gegen Modell L durch Differenzbildung der zugehörigen Deviances DS − DL , auch Partial Deviance Test genannt, berechnen.
Falls S korrekt ist, gilt
d
DS − DL → χ2l−s ,
falls ni → ∞ oder auch n → ∞. Beachte dabei, dass die gesättigten Terme wegfallen, weshalb
auch Asymptotik mit n → ∞ gilt.
relevante R Befehle
Die summary Funktion enthält die Deviance. Der Partial Deviance Test
für lineare Hypothesen wird mit anova durchgeführt. Hierbei wird entweder das reduzierte
Modell mitübergeben, oder es werden Tests auf Relevanz der HAupteffekte und Interaktionen
durchgeführt.
4.4
Residuenanalyse und weitere Diagnostische Plots
NOCH ÜBERARBEITEN!
Residuenanalyse
T
µ̂i = ni p̂i ,
p̂i =
exi β̂M L,n
T
1 + exi β̂M L,n
.
Rohe Residuen (Raw residuals)
ri = Yi − ni p̂i .
Diese sind ungeeignet für Residuenanalyse, da die Varianz von Yi und somit von ri von µi
abhängt. Somit haben die ri keine approximativ konstante Varianz.
Pearsonsche Residuen
riP =
Yi − ni p̂i
1
(ni p̂i (1 − p̂i )) 2
.
Diese sind grundsätzlich geeignet für die Residuenanalyse. Allerdings sind sie häufig finit nicht
gut approximativ normalverteilt, sonder schief verteilt. Nur benutzen für große ni , insbesondere nicht benutzbar für ni = 1.)
Transformierte Residuen Varianz-stabilisierende Residuen:
p
√
(arcsin( Yi /ni ) − arcsin(p̂i )) · 2 ni ,
4.4 Residuenanalyse und weitere Diagnostische Plots
67
hier ist T die Arcsin-Transformation.
Anscombe:
T ( nYii ) − T (p̂i ) √
1
6
ni ,
T (z) =
(p̂i (1 − p̂i ))
Für T sind numerische Approximationen verfügbar.
Z
0
z
1
(t(1 − t))− 3 dt.
Deviance-Residuum: Die Deviance Residuen sind also Wurzeln aus Beitrag der i-ten Beobachtung zur Deviance.
Mit µ̂i = ni p̂i haben
ni − Yi 12
riD = sign(Yi /ni − p̂i ) 2(Yi log(Yi /µ̂i ) + (ni − Yi ) log
.
)
ni − µ̂i
wobei

 1, x > 0
0, x = 0
sign(x) =

−1, x < 0
Im Allgemeinen wird die Benutzung der Deviance Residune empfohlen, die ähnliche Eigenschaften zu den Anscombe Residuen haben (vgl REFERENZ).
1. Einfluß einer Kovariable
a. dichotom
Datenbeispiel Babyfood“
”
Krank
Nicht krank
Junge
p(0)
1-p(0)
empirisch:
Mädchen
p(1)
1-p(1)
Krank
Nicht krank
Odds:
O(i) =
Junge
a
c
p(i)
1 − p(i)
(lace eines Erfolgs zu dem eines Mißerfolgs)
Empirisch:
Ô(0) =
a
a+c
c
a+c
=
b
a
, Ô(1) =
c
d
Odds Ratio: (???)
Or =
Ô(0)
O(0)
Logistisches Regressionsmodell:
log(
p(i)
) = β 0 + β 1 i, i = 0, 1
1 − p(i)
Somit: eβ0 = O(0), eβ0 +β1 = O(1)
eβ1 = Or
Auch für empirische Odds-Ratios und ML-Schätzer für die β i .
Mädchen
b
d
68
b. nomiale Kovariable
Beispiel Food“ (Babyfood)
”
J Kategorien, dann
logit(p(j)) = β 0 + β 1 I1 (j) + . . . + β J−1 IJ−1 (j), j = 1, . . . , J
wobei
Ij (i) =
Also:
1, i = j
0, sonst
j = 1, . . . , J − 1
logit p(J) = β 0 , logit p(j) = β 0 + β j
(damit Matrix X vollen Rang hat!)
Wieder Zusammenhang zu den empirischen logits!
c. ordinale Kovariable
Beispiel Bliss Daten“
”
Linearität der empirischen Logits prüfen → ???
Logits:
yi
p̂(i)
yi
ni
log(
) = log(
)
yi ) = log(
1 − p̂(i)
1 − ni
n i − yi
Empirische logits:
log(
yi + 12
)
ni − yi + 21
d. quantitative Kovariable
Auch empirische Logits plotten.
2. Einfluß mehrerer Kovariablen
Beispiel 4.3
Lineares Modell, eine Kovariable stetig, eine Kovariable dichotom
abhängig: Einkommen; dichotom: Geschlecht; stetig: Alter
Untersuche (Modell mit Haupteffekten):
Yi = β 0 + β 1 xi,A + β 2 xi,S + εi
(1)
Bedeutet konkret:
Für Männer (xi,S = 1): Yi = β 0 + β 2 + β 1 xi,A
Für Frauen (xi,S = 0): Yi = β 0 + β 1 xi,A
Also: gleiche Steigung, ungleiche Intercepts
Falls aber der Zusammenhang so ist, dass ungleiche Steigung und ungleiche Intercepts, dann
Interaktion.
Erweitere Modell (1) zu:
Yi = β 0 + β 1 xi,A + β 2 xi,S + β 3 xi,A · xi,S + εi
4.5 Überdispersion
69
Dann für Männer (xi,S = 1): Yi = β 0 + β 2 + xi,A (β 1 + β 3 ) + εi
Für Frauen (xi,S = 0): Yi = β 0 + β 1 xi,A + εi
Analog, falls zweite Kovariable nicht dichotom, sondern polytom (nominal) ist, oder wenn
beide Kovariablen nomial (auch dichotom) sind.
Im logistischen Regressionsmodell plottet man nicht Yi , sondern empirische Logits, um Interaktionen zu entdecken.
Beispiel: Babyfood, troutegg
4.5
Überdispersion
Im logistischen Regressionsmodell gilt mit log pi /(1 − pi ) = xTi β
EYi = ni · pi ,
Var Yi = ni pi (1 − pi ) = EYi · (1 −
EYi
)
ni
Somit ist die Varianz Var Yi durch den Erwartungswert EYi bereits bestimmt. Man spricht
nun von Überdispersion (Overdispersion) gegenüber dem logistischen Regressionsmodell, falls
i
die Varianz der Yi größer ist als EYi · (1 − EY
ni ).
Formale Gründe für Überdispersion
a. Korrelation zwischen den binären Responses
Yi =
ni
X
Rij
mit
Rij =
j=1
Es ist
Var Yi =
ni
X
1
0
Var Rij +
j=1
Erfolg
,
Mißerfolg
X
P (Rij = 1) = pi
Cov(Rij , Rik ),
j6=k
Für die erste Summe erhält man ni pi (1 − pi ). Sind die binären Responses Rij korrelliert, so
ist der zweite Summand ungleich 0. Falls etwa Cov(Rij , Rik ) = δ ∀j 6= k, i, dann
Var Yi = ni pi (1 − pi ) + pi (1 − pi )δni (ni − 1)
= ni pi (1 − pi ) · (1 + δ(ni − 1)).
Inhaltlich
Korrelation entsteht durch Klustereffekte, falls Mitglieder einer Gruppe sich nicht unabhängig
verhalten, etwa Mitglieder einer Familie, Firma, oder zeitlicher Verlauf bei einem Patienten
in der Medizin.
b. Variabilität in Erfolgswahrscheinlichkeiten
Hier nimmt man an, dass die Erfolgswahrscheinlichkeiten pi selbst Realisierungen von unbeobachteten Zufallsvariablen sind. Genauer modelliert man Yi |ϑi ∼ B(ni , ϑi ), wobei ϑi (latente,
also nicht beobachtete) Zufallsvariable auf (0, 1) sind mit Eϑi = pi und Var ϑi = φpi (1−pi ) für
70
ein φ > 0 (spezielle Parametrisierung der Varianz, keine Einschränkung). Für die bedingten
Momente erhält man
E(Yi |ϑi ) = ni ϑi ,
Var(Yi |ϑi ) = ni ϑi (1 − ϑi )
Für die unbedingten Momente: EY = Eϑ (E(Y |ϑ)) = Eϑ (n · ϑ) = n · p, sowie
Var Y
= Eϑ (Var(Y |ϑ)) + Varϑ (E(Y |ϑ))
= Eϑ (n · ϑ(1 − ϑ)) + Varϑ (n · ϑ)
= n · (p − φp(1 − p) − p2 ) + n2 φp(1 − p)
= np(1 − p) · (1 + (n − 1)φ)
Man erhält also die gleiche Struktur wie bei konstanter Korrelation.
Ist in der Tat
ni
X
Yi =
Rij ,
Rij |ϑi ∼ B(ϑi ) unabhängig
j=1
so ist Cov(Rij , Rik ) = φ.
[Aufgabe! Benutze
Cov(Rj , Rk ) = Eϑ (Cov(Rj , Rk |ϑ)) + Covϑ (E(Rj |ϑ), E(Rk |ϑ))
]
Wie erkennt man Überdispersion?
Wir untersuchen dieses Problem zunächst für unabhängig, identisch verteilte (u.i.v.) Zufallsvariablen. Dazu seien Y1 , . . . , Yn u.i.v., vermute, dass jedes Yi ∼ B(m, p) (jeweils gleiche Sample
Size).
Dann vergleiche empirische Varianz
S2 =
1 X
(Yj − Ȳ )2
n−1
j
Ȳ
mit Varianz geschätzt über den Erwartungswert in einer Binomialverteilung: S̃ 2 = Ȳ (1 − m
)
2
2
(beachte, dass Ȳ schätzt m · p) durch Quotientenbildung T = (n − 1) S /S̃ . Dies ergibt die
sogenannte Pearsonsche Chi-Quadrat Statistik.
Wir betrachten nun allgemeiner unabhängige 0 ≤ Yi ≤ ni , und wollen die Varianzstruktur
von Yi ∼ B(ni , p) überprüfen. Dazu schätzen wir p durch
1
p̂ = Pn
n
X
i=1 ni i=1
(beachte
Pn
i=1 Yi
Yi
P
∼ B( ni=1 ni , p)) und bilden die Pearsonsche χ2 -Statistik
T =
n
X
(Yj − nj p̂)2
nj p̂(1 − p̂)
j=1
4.5 Überdispersion
71
T ist für festes n und ni → ∞ asymptotisch verteilt nach χ2n−1 . Falls also der p-Wert P =
1 − χ2 (n − 1)(T ) ≤ α, dann liegt mit Niveau α > 0 Überdispersion vor.
Wir betrachten nun wieder das logistische Regressionsmodell, und schätzen β mit MaximumLikelihood. Mit dem ML-Schätzer β̂ M L setze
T
p̂i =
exi β̂M L
T
1 + exi β̂M L
.
Dann vergleiche (Yi − ni p̂i )2 mit ni p̂i (1 − p̂i ) durch Bildung der Pearsonschen χ2 -Statistik
T =
n
X
(Yi − ni p̂i )2
i=1
ni p̂i (1 − p̂i )
,
d
wobei wiederum für festes n und ni → ∞ gilt: T → χ2n−p , wobei p = dim β.
Weiter kann man zeigen, dass eine Varianzstruktur der Form φpi (1−pi ) mit φ > 1 zu größerer
Deviance führt (für ni groß genug). Daher ist große Deviance (mehr als die degrees of freedom)
ein Indiz für Überdispersion.
Bevor man Überdispersion durch Modifikation des Modells mit aufnimmt, sollten andere
mögliche Ursachen für großes T und große Deviance ausgeschlossen werden:
• fehlende Kovariable / Interaktionen
• ni klein
• Ausreißer
• eventuell nichtlineare Effekte
• falsche Linkfunktion
Diese Ursachen sind durch Modelldiagnostik, insbesondere Residuenanalyse, auszuschließen.
Folgen von Überdispersion: Die Standardfehler der ML-Schätzer sind deutlich größer,
werden also bei Nichtbeachtung der Überdispersionsstruktur unterschätzt, wodurch die statistische Inferenz, also Konfidenzintervalle nd Tests, ungültig werden.
Modellierung bzw. Schätzung von Überdispersion
a. Quasilikelihood (s. Kapitel 4).
b. Hinzunahme zufälliger Effekte (s. Kapitel 6).
c. Das Beta-Binomial Modell
Dabei nutzen wir das Entstehen von Überdispersion durch Variabilität in den Erfolgswahrscheinlichkeiten, und wählen als Verteilung der Erfolgswahrscheinlichkeiten eine Beta Verteilung, also ϑi ∼ Beta(ai , bi ), wobei
f (ϑi ) =
1
ϑai −1 (1 − ϑi )bi −1 , ai , bi > 0
B(ai , bi ) i
und
B(a, b) =
Z
1
0
die Beta-Funktion bezeichnet. Somit
Eϑi =
ai
=: pi ,
ai + bi
Var ϑi =
xa−1 (1 − x)b−1 dx
(ai +
ai bi
2
bi ) (ai + bi
+ 1)
= pi (1 − pi )
1
.
ai + bi
Damit die Dichte von ϑi unimodal und am Rand = 0 ist, muss ai , bi > 1 gelten, welches
Var ϑi ≤
pi (1 − pi )
3
impliziert. Parametrisiere nun über (β, φ), wobei
also
log pi /(1 − pi ) = xTi β,
bi =
φ=
(1 − φ)(1 − pi )
,
φ
1
,
ai + bi + 1
ai =
pi =
ai
ai + bi
pi (1 − φ)
.
φ
Schätze (β, φ) als argmax der marginalen Likelihood-Funktion
L(β, φ) =
n Z
Y
1
f (Yi |ϑi )f (ϑi )dϑi
i=1 0
n Z 1
Y
ni Yi
1
ϑi (1 − ϑi )ni −Yi
=
ϑiai −1 (1 − ϑi )bi −1 dϑi
Y
B(a
,
b
)
i
i i
i=1 0
n
Y ni B(Yi + ai , ni − Yi + bi )
=
B(ai , bi )
Yi
i=1
Bemerkung: Die Überdispersionsstrukur in a. und c. unterscheidet sich, da der Faktor in
der Varianz in c. von ni abhängt, in a. dagegen nicht. Es ist je nach Situation zu entscheiden,
welches Modell zu bevorzugen ist.
relevante R Befehle
Die library aod enthält die Funktion betabin zum Anpassen eines
Beta-binomial Modells. Die Syntax ist ähnlich wie bei glm, als abhängige Variable wird die
Matrix (Yi , ni − Yi ) übergeben. Man kann auch den Überdispersionsparameter φ durch eine
Formel bestimmten, also von Kovariablen abhängen lassen. Das obige Modell entsteht durch
random~1. Auf das entstehende Objekt kann die Funktion summary angewendet werden.
73
5
Verallgemeinerte lineare Modelle (GLMs)
Verallgemeinerte lineare Modelle werden genutzt, falls die abhängige Variable Yi nicht normalverteilt ist wie im klassischen linearen Modell mit normalverteilten Fehlern, sondern falls
diese einer anderen parametrischen Familie aus der Klasse der sogenannten Dispersionsexponentialfamilien folgt. In der Praxis ist dies besonders relevant, falls die abhängige Variable
eine Zählvariable oder aber eine dichotome (kategoriell mit zwei Kategorien) Variable ist.
Im ersten Fall kann man ein Poisson Regressionsmodell wählen, im zweiten ein logistisches
Regressionsmodell. Weitere Beispiele sind Regression auf Gamma-verteilte Zufallsvariablen
sowie auf invers-Gauss verteilte Zufallsvariablen.
5.1
Dispersionsexponentialfamilien (DEFs)
Sei µ ein dominierendes, σ-endliches Maß auf R.
Definition 5.1
Eine Familie von Dichten auf R bezüglich µ der Form
y · ϑ − b(ϑ)
+ c(y, ϕ) ,
f (y; ϑ, ϕ) = exp
ϕ
y ∈ R,
mit bekannten Funktionen b(·) und c(·) (ϑ ∈ Θ ⊂ R, ϕ ∈ Φ ⊂ (0, ∞)) heißt Dispersionsexponentialfamilie (DEF).
Bemerkung
Bei der DEF handelt es sich um ein verwandtes, aber nicht identisches Konzept der Exponentialfamilien aus Statistik 1.
Beispiel 5.2
1. Normalverteilung
f (y; µ, σ 2 ) = √
yµ − 1 µ2
(y − µ)2 1
y2
1
2
2
−
−
log(2πσ
)
,
=
exp
exp −
2σ 2
σ2
2σ 2 2
2πσ
2
y
− 21 log(2πϕ) und somit eine DEF
also ϑ = µ, ϕ = σ 2 , b(µ) = 21 µ2 , c(y, ϕ) = − 2ϕ
(dominierendes Maß dµ(x) = dx: Lebesgue-Maß auf R).
2. Binomialverteilung (für festes n)
n y
p
n
n−y
f (y; p, n) =
p (1 − p)
= exp y log(
) + n log(1 − p) + log
.
y
1−p
y
p
), ϕ = 1, b(ϑ) =
Für festes n also Dispersionsexponentialfamilie mit ϑ = log( 1−p
−n log(1 − p) = n log(1 + eϑ ), c(y) = log ny (bezüglich µ: Zählmaß auf {0, 1, . . . , n}).
3. Poisson-Verteilung
Für λ > 0
f (y; λ) = e−λ
λy
= exp(y log λ − λ − log y!)
y!
also mit ϑ = log λ, ϕ = 1, b(ϑ) = eϑ , c(y) = log y! Dispersionsexponentialfamilie
bezüglich Zählmaß auf N0 .
74
5
VERALLGEMEINERTE LINEARE MODELLE (GLMS)
4. Gamma-Verteilung
Für r, λ > 0: Dichte bezüglich Lebesgue-Maß µ auf (0, ∞), also für y > 0
1 r r−1 −λy
λ y e
Γ(r)
λ
λ = exp r − y + log( ) + r log r − log Γ(r) + (r − 1) log y ,
r
r
f (y; r, λ) =
mit ϑ = − λr , ϕ = r−1 , b(ϑ) = − log(−ϑ), c(y, ϕ) = −ϕ−1 log ϕ − log Γ(ϕ−1 ) + (ϕ−1 −
1) log y.
5. Inverse Gauß-Verteilung
Dichte bezüglich Lebesgue-Maß µ auf (0, ∞), also für y > 0
σ 2 (y − µ)2 σ
p
exp −
2µ2 y
2πy 3
2 σ2 σ2
1
3
1
+ log σ − log(2π) − log y ,
= exp (− 2 y + ) −
µ
µ 2
2y
2
2
√
ϑ = − µ12 , ϕ = σ22 , b(ϑ) = −2 −ϑ, c ergibt sich, für y, µ, σ > 0.
f (y, µ, σ) =
Log-Likelihood für DEFs
l(y; ϑ, ϕ) = log f (y; ϑ, ϕ) =
yϑ − b(ϑ)
− c(y, ϕ)
ϕ
Annahmen
A
d
dϑ
Z
∂2
∂2ϑ
Z
f (y; ϑ, ϕ)dy =
Z
d
f (y; ϑ, ϕ)dy
dϑ
f (y; ϑ, ϕ)dy =
Z
∂2
f (y; ϑ, ϕ)dy
∂2ϑ
∀ϑ, ϕ
B
Lemma 5.3
Sei Y ∼ f (y; ϑ, ϕ) verteilt nach DEF. Dann
a. Unter Annahme A:
Eϑ
∂l
(Y ; ϑ, ϕ) = 0.
∂ϑ
b. Unter den Annahmen A und B:
Eϑ
i
h ∂l
∂2l
2
(Y
;
ϑ,
ϕ)
=
−E
)
(Y
;
ϑ,
ϕ)
.
(
ϑ
∂2ϑ
∂ϑ
∀ϑ, ϕ
5.1 Dispersionsexponentialfamilien (DEFs)
Beweis
∂l
=
Zu a. ∂ϑ
∂f
∂ϑ
· f1 , somit
∂l
Eϑ (Y ; ϑ, ϕ) =
∂ϑ
Zu b.
Z
75
∂f
A ∂
(y; ϑ, ϕ)dy =
∂ϑ
∂ϑ
Benutze
∂ ∂f 1
∂2l
=
(
· )=
2
∂ ϑ
∂ϑ ∂ϑ f
∂2f
∂2ϑ
Z
f (y; ϑ, ϕ)dy = 0
|
{z
}
=1 also konstant
∂f 2
)
· f − ( ∂ϑ
2
f
2
und Eϑ ∂∂ 2 ϑf (Y ; ϑ, ϕ) = 0 nach Annahme B.
Bemerkung. Lemma 5.3 gilt stets für differenzierbare parametrische Familien, die die Annahmen A und B erfüllen. (Also nicht nur für DEFs.)
Lemma 5.4
Angenommen, für die DEF f (y, ϑ, ϕ) gelten die Annahmen A und B. Dann ist für Y ∼
f (y, ϑ, ϕ):
a. Eϑ (Y ) = b′ (ϑ) =: µ(ϑ),
b. Varϑ Y = ϕ · b′′ (ϑ).
Beweis
a. Benutze
∂l
Y − b′ (ϑ)
(Y ; ϑ, ϕ) =
∂ϑ
ϕ
Bilde Eϑ (·) und verwende Lemma 5.3.
b. Es gilt
b′′ (ϑ)
∂2l
=
−
∂2ϑ
ϕ
Mit Lemma 5.3 folgt dann
∂l
Eϑ Y 2 − 2b′ (ϑ)Eϑ Y + (b′ (ϑ))2
∂2l
b′′ (ϑ)
= −Eϑ 2 (Y ; ϑ, ϕ) = Eϑ (( )2 ) =
.
ϕ
∂ ϑ
∂ϑ
ϕ2
Somit:
2
ϕb′′ (ϑ) = Eϑ Y 2 − b′ (ϑ) = Varϑ Y.
Beispiel (Fortsetzung von 5.2)
a. Normalverteilung b′ (ϑ) = ϑ (ϑ = µ); b′′ (ϑ) = 1, somit Varϑ Y = ϕ
b. Binomialverteilung
b′ (ϑ) = n ·
eϑ
= np,
1 + eϑ
b′′ (ϑ) = n
eϑ
= np(1 − p).
(1 + eϑ )2
76
5
c. Poisson-Verteilung
b′ (ϑ) = eϑ = λ,
b′′ (ϑ) = eϑ = λ.
d. Gamma-Verteilung
b′ (ϑ) = −
r
1
= ,
ϑ
λ
b′′ (ϑ) =
1
r2
=
ϑ2
λ2
e. Inverse Gauß-Verteilung
b′ (ϑ) = √
Also Var Y =
5.2
1
= µ,
−ϑ
3
1
µ3
b′′ (ϑ) = (−ϑ)− 2 =
2
2
µ3
.
σ2
Komponenten eines GLMs
a. Zufallskomponente Y , Verteilung aus Dispersionsexponentialfamilie
Eϑ Y = µ(ϑ) = b′ (ϑ).
b. Systematische Komponente
Linearer Prädiktor η = xT β, wobei x ∈ Rp Kovariablen, β ∈ Rp unbekannter Parameter
c. Linkfunktion η = g(µ), g : I → R streng monoton wachsend. Die Linkfunktion g wird
als bekannt vorausgesetzt. Setzte weiter u = (g ◦ µ)−1 , so dass ϑ = u(η).
Im Folgenden sei stets (Yi , xi )i=1,...,n unabhängige Stichprobe aus GLM. Der Kovariablenvektor x ist geeignet kodiert nach Abschnitt 2.1.2, und entält insbesondere den Achsenabschnitt.
Wir nehmen stets an, dass die Designmatrix X = (x1 , . . . , xn )T ∈ Rn×p vollen Rang habe.
Definition 5.5 (kanonische Linkfunktion)
Gilt g(µ) = ϑ, also g = (b′ )−1 = µ−1 bzw. u = id, so heisst g kanonische Linkfunktion. Dann
ist ϑ = Xβ.
Beispiel 5.6 (Beispiele für Linkfunktionen)
a. Normalverteilung
Die kanonische Linkfunktion ist g(µ) = µ, darüber hinaus gibt es weitere Linkfunktionen, etwa die Box-Cox-Transformationen
( λ
µ −1
λ , λ 6= 0,
gλ (µ) =
log µ, λ = 0.
b. Binomialverteilung
Die kanonische
Linkfunktion ist die logistische Linkfunktion g(µ) = log (µ/n)/(1 −
µ/n) . Weitere Linkfunktionen: Probit-Link, Log-log Link.
c. Poisson-Verteilung
1
kanonische Linkfunktion g(µ) = log µ, darüber hinaus g(µ) = µ, g(µ) = µ 2
5.3 Maximum Likelihood Schätzung und Testen in GLMs
77
d. Gamma-Verteilung kanonische Linkfunktion g(µ) = − µ1 , darüber hinaus g(µ) = log(µ),
g(µ) = µ.
e. Inverse Gauß-Verteilung kanonische Linkfunktion g(µ) = − µ12 .
Einschub über suffiziente Statistiken (vgl. Statistik 1)
Sei Z = (Z1 , . . . , Zn ) Zufallsvektor mit Dichte f (z, k), z ∈ Rn , k Parameter. Dann heißt eine
Statistik suffizient für k, falls eine Version des bedingten Erwartungswertes E(Z|T (Z) = t)
existiert, die unabhängig von k ist.
Faktorisierungslemma
T (Z) ist suffizient für k genau dann, wenn
f (z, k) = L(T (z), k) · H(z).
Satz 5.7
Für (Yi , xi )i=1,...,n aus GLM mit kanonischer Linkfunktion ist
T
T (Y) = T1 (Y), . . . , Tp (Y) ,
Tj (Y) =
n
X
xij Yi ,
i=1
suffizient für β (die Kovariablen xi sind dabei fest, nicht zufällig).
Beweis
Die gemeinsame Dichte von (Y1 , . . . , Yn ) ist
n
X
yi ϑi − b(ϑi )
f (y1 , . . . , yn , β) = exp
+ c(yi , ϕ)
ϕ
i=1
P
n
n y xT β − b(xT β) X
i
i=1 i i
· exp
c(yi , ϕ)
= exp
ϕ
i=1
= L(T (y), β) · H(y),
wobei im vorletzten Schritt ausgenutzt wurde, dass für die kanonische Linkfunktion ϑi = xTi β
ist.
5.3
Maximum Likelihood Schätzung und Testen in GLMs
In diesem Abschnitt betrachten wir die Schätzung des Parameter Vektors β durch Maximum
Likelihood, sowie das Schätzen des Parameters ϕ und die Konstruktion von Hypothesentests.
Gegeben seien (Yi , xi )i=1,...,n unabhängig aus GLM, also Yi ∼DEF(ϑi , ϕ), Eϑi (Yi ) = µ(ϑi ) =
b′ (ϑi ), ηi = xTi β, ηi = g(µ(ϑi )). Wir setzten wieder u = (g ◦ µ)−1 , so dass ϑi = u(xTi β). Bei
Wahl der kanonischen Linkfunktion gilt g = µ−1 , also u = id.
Log-Likelihood-Funktion
n
X
Yi u(xTi β) − b u(xTi β)
Ln (β, ϕ) =
− C,
ϕ
i=1
78
5
C ist nicht abhängig von dem Parameter β.
Score-Vektor
sn (β, ϕ) =
n
X
u′ (xTi β)
∂
Ln (β, ϕ) =
xi yi − b′ (u(xTi β))
∂β
ϕ
(∈ Rp ),
i=1
Fisher-Information
Fn (β, ϕ) = Cov sn (β, ϕ) =
n
X
(u′ (xT β))2
i
ϕ
i=1
(b′′ Varianzfunktion der DEF)
xi xTi b′′ u(xTi β) ,
Hessische Matrix
Hn (β, ϕ) =
=
∂ ∂
Ln (β, ϕ)
∂β ∂β T
n
X
u′′ (xT β) · xi xT i
i
i=1
ϕ
Yi − b
′
(u(xTi β))
= Rn (β, ϕ) − Fn (β, ϕ)
−
n
X
u′ (xT β)xi xT i
i
ϕ
i=1
b′′ u(xTi β) · u′ (xTi β) .
Maximum Likelihood Schätzer
(Θ ⊂ Rp konvex)
β̂ M L,n = argmaxβ∈Θ Ln (β, ϕ)
Beachte: β̂ M L,n hängt nicht vom Dispersionsparameter ϕ ab (dies ergibt sich direkt aus der
Form von Ln (β, ϕ)).
Lemma 5.8
Es ist EHn (β, ϕ) = −Fn (β, ϕ). Bei Verwendung der kanonischen Linkfunktion, also für u =
id, gilt sogar Hn (β, ϕ) = −Fn (β, ϕ). (die zweite Ableitung hängt dann nicht von Daten Yi
ab.)
Im Folgenden wollen wir uns mit Existenz, Eindeutigkeit und asymptotischer Verteilung von
β̂ M L,n bei Verwendung der kanonischen Linkfunktion beschäftigen. Wir schreiben in Beweisen
stets Ln (β) statt Ln (β, ϕ) etc., da der ML-Schätzer für β nicht von ϕ abhängt (allerdings
hängt seine asymptotische Verteilung von ϕ ab).
Sei also stets g = µ−1 bzw. u = id. Dann:
Ln (β, ϕ) =
sn (β, ϕ) =
n
X
Yi xT β − b(xT β)
i
i
i=1
ϕ
n
X
Yi xi − b′ (xT β)xi
i
i=1
ϕ
Fn (β, ϕ) = −Hn (β, ϕ) =
− c,
=
n
X
xi
i=1
n
X
b′′ (xT β)
i
i=1
ϕ
ϕ
Yi − b′ (xTi β) ,
xi xTi .
79
Annahme 1
Für positiv definite Grenzmatrizen Σ(β) (β ∈ Θ) gilt gleichmäßig in β:
1
Σ(β)
Fn (β, ϕ) →
.
n
ϕ
Satz 5.9
In einem GLM mit kanonischer Linkfunktion und konvexem Parameterraum Θ existiert höchstens ein MLE β̂ M L,n . Unter Annahme 1 ist β̂ M L,n stark konsistent,
β̂ M L,n → β 0
f.s.
Beweis
Es ist Hn (β) = −Fn (β) und Fn (β) ist positiv definit, also Hn (β) negativ definit. Somit ist
Ln (·) konkav auf der konvexen Menge Θ, hat also höchstens ein lokales Maximum, insbesondere höchstens ein Maximum.
Wir zeigen jetzt: Für fast alle ω ∈ Ω (zugrundeliegender Wahrscheinlichkeitsraum) gilt:
∀ε > 0 ∃n1 = n1 (ω) : Ln (β)(ω) − L(β 0 )(ω) < 0
für kβ − β 0 k < ε, n ≥ n1 .
(37)
(37) impliziert, dass in Bε (β 0 ) = {β : kβ − β 0 k < ε} ein lokales, also das globale Maximum
liegt. Bilde den Schnitt über rationale ε > 0 und erhalte dann für f.a. ω ∈ Ω:
∀ε > 0∃n1 = n1 (ω, ε) : β̂ M L,n ∈ Bε (β 0 ), n ≥ n1 ,
also die starke Konsistenz.
Zu (37): Betrachte die Taylor-Entwicklung
1
Ln (β) − Ln (β 0 ) = ε · sn (β 0 )λ + ε2 λT Fn (β ξ )λ,
2
λ=
β − β0
ε
Für kβ − β 0 k = ε gilt λT λ = 1. Es genügt also zu zeigen: Für f.a. ω ∃n1 = n1 (ω), so dass
T
ε λ Fn (β ξ )λ
sn (β 0 )(ω) · λ
<
n
2
n
Nach starkem Gesetz gilt
sn (β0 )
n
∀n ≥ n1 .
(38)
→ 0 f.s., und da kλk = 1, gilt auch
sn (β 0 )
λ → 0 f.s., gleichmäßig in λ.
n
λT Fn (βξ )λ
n
Wegen Annahme 1 ist darüber hinaus
beschränkt. Dies zeigt (37) und somit (38).
für n ≥ n1 gleichmäßig in λ von 0 weg
Bemerkung
Für Existenz und Eindeutigkeit des ML Schätzers bei Wahl einer nicht kanonischen Linkfunktion siehe Wedderburn (1976, Biometrika).
80
5
Satz 5.10
Unter den Voraussetzungen von Satz 5.9 gilt:
√
d
n(β̂ M L,n − β 0 ) → N (0, ϕ · [Σ(β 0 )]−1 )
bzw.
1
(39)
d
[Fn (β̂ M L,n , ϕ)] 2 (β̂ M L,n − β 0 ) → N (0, I)
(40)
Bemerkung
Obwohl der ML-Schätzer β̂ M L,n nicht von dem Dispersionsparameter ϕ abhängt, hängt seine
asymptotische Verteilung davon ab, also muss zur Berechnung von Standardfehlern von β̂ M L,n
auch der Parameter ϕ geschätzt werden. (s.u.)
Lemma 5.11
Unter den Voraussetzungen von Satz 5.9 gilt:
1
d
[Fn (β 0 , ϕ)]− 2 sn (β 0 , ϕ) → N (0, I),
(41)
Σ(β ) 1
d
0
√ sn (β 0 , ϕ) → N 0,
.
ϕ
n
(42)
bzw.
Beweis
Offenbar folgt (41) aus (42) und Annahme 1.
Zum Beweis von (42) verwenden wir das Lemma von Cramer-Wold, sowie den Stetigkeitssatz für momentenerzeugende Funktionen (dieser besagt, dass schwache Konvergenz aus der
punktweisen Konvergenz der momentenerzeugenden Funktionen folgt) und zeigen:
∀λ ∈ Rp , λT λ = 1, sowie t ∈ R gilt
− 1
t2
Eβ0 exp tλT Fn (β 0 , ϕ) 2 sn (β 0 , ϕ) → exp( ).
2
(43)
(Also: die momentenerzeugende Funktion konvergiert gegen diejenige einer Standardnormalverteilung.)
Dazu: Fixiere t ∈ R, λ ∈ Rp , λT λ = 1, setze Fn = Fn (β 0 ), sn = sn (β 0 ).
− 12
β n = β 0 + tλT Fn
(nicht zufällig).
1
Offenbar ist β n − β 0 = O(n− 2 ) nach Annahme 1.
Betrachte die Taylor-Entwicklung
Ln (β n ) = L(β 0 ) + (β n − β 0 ) · sn
Hn =−Fn
−
1
(β − β 0 )T Fn (β̃ n )(β n − β 0 ),
2 n
− 12
wobei β̃ n (eine Zufallsvariable) zwischen β n und β 0 . Mit β n − β 0 = tλT Fn
exp(λT Vn (β̃ n )λ
t2
−1
)Ln (β n ) = exp(tλT Fn 2 sn )Ln (β 0 ),
2
erhalte
(44)
81
−1
−1
wobei Vn (β̃ n ) = Fn 2 Fn (β̃ n )Fn 2 , und Ln = exp(Ln ) bezeichne die Likelihood.
Integriere (44) bezüglich des dominierenden Maßes für die Likelihoodfunktion über die yi .
Dann ergibt sich
t2
−1
Eβn (exp(λT Vn (β̃ n )λ )) = Eβ0 (exp(tλT Fn 2 sn ))
(45)
2
Beachte dabei: Wegen Annahme 1 und da die Zufallsvariable β̃ n zwischen β n und β 0 liegt,
gilt |Vn (β̃ n ) − I| → 0, gleichmäßig für alle ω ∈ Ω. Daher existiert die linke Seite in (45) und
es ist
t2
t2
| exp(λT Vn (β̃ n )λ ) − exp( )| ≤ ε,
n ≥ n1 ,
2
2
gleichmäßig für alle ω ∈ Ω, also der Index n1 nicht zufällig. Setzte dies in (45) ein und erhalte
(44), also die Behauptung.
Nach dem Mittelwertsatz für vektorwertige Funktionen gilt mit
Z 1
Fn (β̂ M L,n + t(β 0 − β̂ M L,n ), ϕ)dt
Gn =
0
(die Integration wird komponentenweise ausgeführt)
sn (β 0 ) = sn (β̂ M L,n )T −Gn (β 0 − β̂ M L,n ).
{z
}
|
=0
Nach Annahme 1 gilt Gn /n → Σ(β 0 )/n. Somit
√
n(β̂ M L,n − β 0 ) =
Die Behauptung folgt nun mit Lemma 44.
G −1 s (β )
n
n
√ 0 .
n
n
Schätzen von ϕ
Falls in der DEF der Parameter φ mehrere Werte annehmen kann (etwa bei Gamma - oder
Inverser Gauß-Verteilung), muss dieser auch geschätzt werden. Es gilt
Var Yi = ϕb′′ (ϑi ), ϑ̂i = u(xTi β̂ M L,n )
Somit benutzt man zur Schätzung
n
ϕ̂ =
1 X (Yi − b′ (ϑ̂i ))2
n−p
b′′ (ϑ̂i )
i=1
Man nennt die Statistik
T =
n
X
(Yi − b′ (ϑ̂i ))2
i=1
auch Pearsonsche χ2 -Statistik.
b′′ (ϑ̂i )
Testen linearer Hypothesen
Angenommen, wir wollen die lineare Hypothese H : Aβ = m mit A ∈ Rq×p (voller Rang),
m ∈ Rq testen.
82
5
1. Likelihood Quotienten Statistik
lq = 2(Ln (β̂ M L,n , ϕ̂) − Ln (β̂ M L,R , ϕ̂)),
wobei β̂ M L,R der ML-Schätzer unter der Hypothese H ist.
2. Wald Statistik
W = (Aβ̂ M L,n − m)T (AF −1 (β̂ M L,n , ϕ̂)AT )−1 (Aβ̂ M L,n − m)
3. Score Statistik
Sc = sT (β̂ M L,R )F −1 (β̂ M L,R , ϕ̂)s(β̂ M L,R )
Satz 5.12
Unter den Annahmen von Satz 5.9 und für konsistentes ϕ̂ sind die Teststatistiken lq, W und
Sc unter H asymptotisch χ2p−q verteilt.
Der Beweis erfolgt mit Hilfe von Satz 5.10 und Lemma 5.11, in Analogie zum Fall für u.i.v.
Daten, vgl. Pruscha (1989).
Numerische Berechnung des ML Schätzers β̂ M L,n
Wir betrachten nun wieder den Fall allgemeiner (nicht unbedingt kanonischer) Linkfunktionen. Der ML Schätzer β̂ M L,n wird berechnet als Nullstelle des Score-Vektors:
sn (β̂ M L,n ) = 0
Beachte, dass diese Gleichung ebenfalls nicht von ϕ abhängt.
Newton-Verfahren
Sei β k eine Näherung an β̂ M L,n . Dann setzte
β k+1 = β k − (Hn (β k ))−1 sn (β k )
(ϕ fällt wieder heraus!), und erhalte β k+1 als neue Näherung.
Im Allgemeinen hängt die Hessische Matrix Hn von den Daten Yi ab, daher benutzt man
häufig den Erwartungswert EHn = −Fn . Dies ergibt die Fisher-Scoring Methode.
Fisher-Scoring-Methode
β k+1 = β k + (Fn (β k ))−1 sn (β k )
(46)
Beachte: Bei kanonischer Linkfunktion sind Newton-Verfahren und Fisher-Scoring Methode
identisch.
Man kann (46) auch umschreiben in Form eines (iterativen) gewichteten kleinste Quadrate
Schätzers. Es ist
n
X
(u′ (xTi β))2
xi xTi b′′ (u(xTi β))
F (β, ϕ) =
ϕ
i=1
83
Mit u = (g ◦ µ)−1 , (g ◦ µ)′ = g ′ ◦ µ · µ′ , µ′ = b′′ (da µ = b′ ) und µ ◦ u = g folgt
u′ =
g′
1
,
◦ µ ◦ u · b′′ ◦ u
also
Fn (β k , ϕ) =
n
X
u′ (xTi β k )
x xT = X T Wk X,
′ (g(xT β )) i i
g
i k
i=1
u′ (xT β )
u′ (xTn β k ) 1 k
.
Wk = diag ′
,
.
.
.
,
g ′ (g(xTn β k ))
g (g(xT1 β k ))
Analog erhält man
n
X
u′ (xTi β k )
′
T
x
·
Y
−
b
(u(x
β
))
· g ′ (g(xTi β k )) = X T Wk Z.
sn (β k , ϕ) =
i
i
i k
′ (g(xT β ))
g
i k
|
{z
}
i=1
=:Zi
Somit schreibe (46) als
X T Wk Xβ k+1 = X T Wk Xβ k + X T Wk Z = X T Wk (Xβ k + Z)
{z
}
|
=:V
und
β k+1 = (X T W X)−1 X T Wk V.
Analogie zu gewichteten kleinsten Quadraten: Response V, Kovariablen X, Gewichte Wk . Da
die Gewichte (und auch die responses) vom Iterationsschritt k abhängen, spricht man vom
IWLS-Algorithmus (iterated weighted least squares).
relevante R Befehle
Die Funktion glm passt verallgemeinerte lineare Modelle an. Dabei
wird die DEF über family eingestellt, dort kann auch noch die Linkfunktion geändert werden.
Die Standardfehler der Schätzer erhält man mit dem Befehl summary.
5.4
Modelldiagnostik
Deviance.
Die Deviance dient zum Vergleich des angepassten Modells mit dem sogenannten saturierten Modell, bei dem für jede Beobachtung Yi ein Parameter geschätzt wird,
insgesamt also n Parameter.
Log-Likelihood:
Ln (ϑ1 , . . . , ϑn , ϕ) =
n X
Yi ϑi − b(ϑi )
i=1
ϕ
− c(Yi , ϕ)
Falls jedes ϑi freier Parameter ist, erhält man im saturierten Modell
Yi = b′ (ϑ̃i ) = µ̃i und ϑ̃i = µ−1 (Yi ).
Setze für das geschätzte GLM ϑ̂i = u(xTi β̂ M L ). Dann ist die LR-Statistik gegen das saturierte
Modell (ϑ̃ = (ϑ̃1 , . . . , ϑ̃n ), ϑ̂ = (ϑ̂1 , . . . , ϑ̂n )):
n
X
Dev(ϑ̃, ϑ̂)
Yi (ϑ̃i − ϑ̂i ) − b(ϑ̃i ) + b(ϑ̂i )
=
2 Ln (ϑ̃, ϕ) − Ln (ϑ̂, ϕ) = 2
ϕ
ϕ
i=1
84
5
Die Deviance ist nun definiert durch
Dev = 2
n
X
i=1
Yi (ϑ̃i − ϑ̂i ) − b(ϑ̃i ) + b(ϑ̂i ) ,
die Deviance ist nach Definition unabhängig von ϕ.
Häufig approximiert man die Verteilung von Dev(ϑ̃, ϑ̂) durch ϕ · χ2n−p , wobei p die Dimension
des geschätzten Parameters β bezeichnet. Wie aber bereits aus der logistischen Regresion
bekannt, gilt dies nur eingeschränkt, insbesondere nicht für n → ∞.
Die Deviance kann auch benutzt werden zum Vergleich zweier ineinander geschachtelter Modelle. Der resultierende Test heißt auch partial deviance test.
Modelle
M1 : Kovariable xi,1 ∈ Rq (kleines Modell)
M2 : Kovariable (xTi,1 , xTi,2 )T ∈ Rp (großes Modell)
Dann gilt
d
M2
2
1
Dev(ϑ̃, ϑ̂M
M L ) − Dev(ϑ̃, ϑ̂M L ) → ϕχp−q
(n → ∞)
falls das kleinere Teilmodell M1 korrekt ist. Der partia Deviance test ist also einfach der LQT
von M2 gegen M1 . Falls ϕ nicht bekannt ist, wird dies geschätzt und die Statistik reskaliert.
relevante R Befehle Der partial deviance test kann mit anova ausgeführt werden.
Residuenanalyse
Wie bei der linearen Regression ist ein wichtiges Mittel zur Modellüberprüfung bei GLMs die
Residuenanalyse. Ziele sind dabei insbesondere das Erkennen a. von Ausreißern b. von nichtlinearen Effekten und fehlenden Kovariablen sowie c. die Konstruktion von Goodness-of-Fit
Statistiken.
Residuen sollen bei Gültigkeit des Modells approximativ normalverteilt sein. Bei GLMs bedeutet dies, dass bei der Verwendung von Residuen mit besonderer Sorgfalt vorgegangen
werden muss.
Wir betrachten zur Illustration im Folgenden nochmals das logistische Regressionsmodell (hier
mit LogistR bezeichnet. Hier ist Residuenanalyse nur sinnvoll für große Wiederholungszahlen
ni .
Setzte
T
′
µ̂i = b (ϑ̂i ) = b
′
(u(xTi β̂ M L,n )),
bei LogistR
µ̂i = ni p̂i ,
p̂i =
exi β̂M L,n
T
1 + exi β̂M L,n
.
Rohe Residuen (Raw residuals)
ri = Yi − µ̂i
bei LogistR
ri = Yi − ni p̂i .
Diese sind ungeeignet für Residuenanalyse (außer im linearen Regressionsmodell), da die
Varianz von Yi und somit von ri von µi abhängt. Somit haben die ri keine approximativ
konstante Varianz.
85
Pearsonsche Resduen
Yi − µ̂i
riP = q
,
T
′′
b (u(xi β̂ M L,n ))
riP =
bei LogistR
Yi − ni p̂i
1
(ni p̂i (1 − p̂i )) 2
.
Diese sind grundsätzlich geeignet für die Residuenanalyse. Allerdings sind sie häufig finit nicht
gut approximativ normalverteilt, sonder schief verteilt. (Etwa für LogistR: Nur benutzen für
große ni , insbesondere nicht benutzbar für ni = 1.)
Transformierte Residuen
riT =
T (Yi ) − Eϑ̂i T (Yi )
1
(Varϑ̂i T (Yi )) 2
,
wobei T eine geeignete Transformation bezeichnet.
Falls die asymptotische Schiefe korrigiert werden soll, wird die sogenannte Anscombe Transformation verwendet, welches zu Anscombe Residuen führt.
Falls die asymptotische Varianz konstant gemacht werden soll (d.h. unabhängig von ϑ), wähle
T als varianz-stabilisierende Transformation und erhalte varianz-stabilisierende Residuen.
Die Transformation T muss also in Abhängigkeit der speziellen DEF gewählt werden.
Für LogistR
Varianz-stabilisierende Residuen:
p
√
(arcsin( Yi /ni ) − arcsin(p̂i )) · 2 ni ,
hier ist T die Arcsin-Transformation.
Anscombe:
T ( nYii ) − T (p̂i ) √
1
6
ni ,
T (z) =
(p̂i (1 − p̂i ))
Für T sind numerische Aprooximationen verfügbar.
Z
0
z
1
(t(1 − t))− 3 dt.
Deviance-Residuum:
wobei
1
riD = sign(ϑ̃i − ϑ̂i ) · 2 Yi (ϑ̃i − ϑ̂i ) − b(ϑ̃i ) + b(ϑ̂i ) Big) 2

 1, x > 0
0, x = 0
sign(x) =

−1, x < 0
Die Deviance Residuen sind also Wurzeln aus Beitrag der i-ten Beobachtung zur Deviance.
Für LogistR: µ̂i = ni p̂i , dann
ni − Yi 12
riD = sign(Yi /ni − p̂i ) 2(Yi log(Yi /µ̂i ) + (ni − Yi ) log
.
)
ni − µ̂i
Im Allgemeinen wird die Benutzung der Deviance Residune empfohlen, die ähnliche Eigenschaften zu den Anscombe Residuen haben (vgl Pierce and Schafer 1986, Journal of the
American Statistical Society Vol. 81).
relevante R Befehle Mit dem Befehl residuals können die Residuen aus einem von glm erzeugten Objekt gelesen werden. Möglich sind die Optionen type="deviance" und
type="pearson".
86
5.5
5
Poisson-Regression
Falls die Zielvariable Yi eine Zählvariable ist, also Werte in N0 hat, ist das Standard Regressionsmodell die Poisson-Regression. Ein typisches Beispiel ist die Modellierung der Anzahl von
Verischerungsschäden von Versicherungsnehmern mit bestimmten Kovariablen Ausprägungen.
Modell
µi = λi
(Yi , xi )i=1,...,n , Yi ∼ Poi(λi ) Dispersionsexponentialfamilie mit b(ϑi ) = exp(ϑi ) =
Für die Linkfunktion g gilt g(µi ) = xTi β, also g(eϑi ) = xTi β. Mit u = (g ◦ exp)−1 gilt
ϑi = u(xTi β) und u = id falls g = log, die kanonische Linkfunktion.
Setze λi = λi (β) = exp(u(xTi β)).
Y
Q
λ i
Likelihood: Ln (β) = ni=1 e−λi Yii ! .
P
Log-Likelihood: Ln (β) = ni=1 (−λi + Yi log λi ) + const.
P
Score: sn (β) = ni=1 u′ (xTi β) · xi (Yi − λi ).
P
Fisher-Information: Fn (β) = ni=1 (u′ (xTi β))2 xi xTi · λi .
Deviance: Im saturierten Modell schätze λi durch Yi . Setze weiter λ̂i = λi (β̂ M L,n ), β̂ M L,n
Maximum-Likelihood-Schätzer. Dann
Dev = 2
n X
i=1
Pearsonsche χ2 -Statistik. T =
Pn
i=1
Yi log(Yi /λ̂i ) − Yi + λ̂i
(Yi −λ̂i )2
.
λ̂i
In der Tat gilt im Poisson-Regressionsmodell
Var Yi = λi , also deutet großer Wert von T bzw. von D auf Überdispersion hin.
Residuen
Pearson Residuen:
p
riP = (Yi − λ̂i )/ λ̂i .
1
1
Varianzstabilisierende Residuen: riT = 2 Yi 2 − λ̂i2 .
2
2
1
Anscombe Residuen: riT = Yi 3 − λ̂i3 λ̂i6 · 32 .
Deviance-Residuum:
1
riD = sign(Yi − λ̂i )(Yi log Yi − (Yi − λ̂i )) 2 .
λ̂i
relevante R Befehle
In glm die Option family = poisson wählen. Als Linkfunktion kann
man neben dem Log-Link (default) wählen link="identity" oder link="sqrt".
Modellerweiterung
Das Poisson Regressionsmodell kann erweitert werden auf den Fall, wenn die Anzahl der Ereignisse bei bestimmten Kovariablenausprägungen in unterschiedlichen Zeiträumen beobachtet
wird. Sei also Yi die Anzahl der Ereignisse bei Kovariablen xi im Zeitraum ti , es werden also
(Yi , xi , ti ) beobachtet. Als Beispiel sei Yi die Anzahl der Schäden eines Versicherungsnehmers
mit Charakteristiken xi im Zeitraum ti . Das Modell lautet dann
Yi ∼ Poi ti · exp(u(xTi β)) ,
5.5 Poisson-Regression
87
der Parameter λi = EYi , ist also proportional zum Zeitraum ti . Somit hat man
λi = log(ti ) + u(xTi β).
(47)
Der additive Term log ti heißt dann offset im Modell. Maximum-Likelihood Schätzugn und
Residuenanalyse erfolgen ganz analog zum gewöhnlichen Poisson Regressionsmodell, man
muss nur λi durch (47) spezifizieren.
relevante R Befehle
Man setzt als Option in glm für offset gleich log(ti ).
Modellierung von Überdispersion
Man spricht von Überdispersion gegenüber dem Poisson-GLM, falls
Var Yi > EYi .
Dies kann erkannt werden durch große Deviance oder Pearsonsche χ2 -Statistik, falls also Dev
oder T erheblich größer als n − p sind.
Eine Modellierung kann wie bei der logistischen Regression über Quasilikelihood oder auch
über latente Variablen erfolgen.
Wir stellen im Folgenden ein latentes Variablenmodell mit Gamma-verteilten λs vor, welches
zum negativ binomial verteilten Regressionsmodell führt.
Sei Zi eine latente (nicht beobachtete) Variable, so dass Yi |Zi ∼ Poi(Zi ), EZi = λi . Dann
gilt:
EYi = EZ (E(Yi |Zi )) = EZ (Zi ) = λi ,
Var Yi = VarZ (E(Yi |Zi )) + EZi (Var(Yi |Zi ))
= VarZ (Zi ) + EZ (Zi ) = λi + Var Zi > λi ,
falls Var Zi > 0. Durch spezielle Wahl von Zi bekommt man unterschiedliche Überdispersionsstrukturen.
Sei nun speziell Zi Gamma-verteilt mit Dichte
f (z; r, s) =
Dann EZi =
ri
si
1 r r−1
s z
exp(−zs)
Γ(r)
(r, s > 0, z > 0).
= λi . Für die Varianz kann man zwei Parametrisierungen wählen:
Modell 1: Var Zi =
ri
s2i
= λ2i · ϕ, also ϕ =
Modell 2: Var Zi = λi · ϕ, ϕ =
1
ri .
1
si .
Dies ergibt in der Tat zwei unterschiedliche Modelle, da auf λi (β) = exp u(xTi β) Regression
gemacht wird, aber auf ϕ nicht.
Das Modell 1 mit Var Zi = λ2i ϕ (ϕ = r1i ) führt zu
Var Yi = λi + λ2i ϕ,
die Varianz ist also eine quadratische Funktion des Erwartungswerts.
88
5
Das Modell 2 mit Var Zi = λi ϕ (ϕ =
1
si )
führt dagegen zu
Var Yi = λi (1 + ϕ)
dies ist dieselbe Varianzstruktur wie bei Quasipoisson (s. Abschnitt 5.7).
Man verwendet daher in diesem Kontext Modell 1 (statt Modell 2 wird Quasipoisson gewählt).
Zum Schätzen der Parameter berechnet man die marginale, also unbedingte Verteilung von
Yi :
Z ∞
f (y, Y |Z = z) · fZ (z)dz
P (Y = y) =
0
Z ∞
z y 1 r r−1
e−z
=
s z
exp(−zs)dz
y! Γ(r)
0
Z ∞
sr
1
=
e−w wy+r−1 dw
y!Γ(r) (s + 1)r+y 0
Γ(y + r) s r 1 y
=
y!Γ(r) s + 1
s+1
R∞
wobei Γ(a) = 0 e−t ta−1 dt die Gamma Funktion bezeichnet. Im Modell 1 erhalte also:
P (Yi = y) =
Γ(y + ϕ1 ) y!Γ( ϕ1 )
1 ϕ1 λi ϕ y
λi ϕ + 1
1 + λi ϕ
(48)
wobei λi = λi (β) = exp(u(xTi β)) (bei kanonischem Link u = id). Dies ist das negative
binomiale Regressionsmodell. Zur Parameterschätzung bilde nun mit Hilfe von (48) die LogLikelihood-Funktion und maximiere über (β, ϕ).
relevante R Befehle
Die library aod enhält die Funktion negbin, und die library MASS
die Funktion glm.nb, beide passen ein negativ-binomiales Regressionsmodell an. Bei negbin
kann man auch auf den Parameter ϕ Regression machen, das obige Modell erhält man durch
random~1. Es stehen summary und anova.negbin Methoden zur Verfügung.
5.6
Gamma-Regression
Wir erinnern kurz an die Darstellung der Gamma-Verteilung als DEF. Die Dichte bzgl. des
Lebesgue Maßes auf (0, ∞) für Parameter r, λ > 0 ist gegeben durch
1 r r−1 −λy
λ y e
Γ(r)
λ λ
= exp r − y + log( ) + r log r − log Γ(r) + (r − 1) log y
r
r
f (y; r, λ) =
also ϑ = − λr , ϕ = r−1 , b(ϑ) = − log(−ϑ). Der Erwartungswert b′ (ϑ) = − ϑ1 = λr =: µ > 0
2
ist dabei stets positiv, und die Varianzfunktion lautet b′′ (ϑ) = ϑ12 = λr 2 , also Var Y = λr2 =
µ2 · ϕ. Die kanonische Linkfunktion ist g(µ) = − µ1 (also − xT1 β = µi ). Hier ist Positivität
i
5.6 Gamma-Regression
89
des Erwartungswertes nur unter Einschränkungen an β gegeben, die kanonische Linkfunktion
wird daher selten verwendet.
Häufig benutzt man den log-Link: g(µ) = log µ.
Falls über den Erwartungswert parametrisiert wird, gilt für die Log-Likelihood von Y :
(− µy − log µ)
l(y; µ, ϕ) =
ϕ
+ c(y, ϕ)
Somit erhält man im Gamma GLM:
Log-Likelihood-Funktion: Ln (β, ϕ) =
Score: sn (β, ϕ) =
1
ϕ
Pn
µ′i (xT
i β)
i=1 (µi (xT β))2 xi
i
Fisher-Information: Fn (β, ϕ) =
Deviance:
Residuen
Pearson Residuen:
Deviance Residuen:
T =
T
n−p .
riP =
Pn
i=1
−
Yi
µi (xT
i β)
Yi − µ(xTi β) .
i=1
µ̂i
i=1
Schätzen von ϕ: ϕ̂ =
Pn
i=1
n X
Yi − µ̂i
Dev = 2
Pearsonsche χ2 -Statistik:
1
ϕ
Pn − log µi (xTi β) + c(y, ϕ).
2
(µ′i (xT
i β))
xi xTi .
µ2i (xT
β)
i
− log(
(Yi −µ̂i )2
.
µ̂2i
Yi ) ,
µ̂i
µ̂i = µ(xTi β̂ M L ).
Yi −µ̂i
µ̂i .
1
i
riD = sign(Yi − µ̂i )( Yiµ̂−µ̂
− log( µ̂Yii )) 2 .
i
relevante R Befehle
Option family=gamma bei glm. Default ist der inverse Link, daher
muss noch family=gamma(link="log") gesetzt werden.
Wann wird Gamma-Regression verwendet?
Gamma Regression wird allgemein bei positiven Zielgröße Yi eingesetzt. Wir betrachten im
Folgenden das multiplikative Modell
Yi = exp xTi β (1 + εi ),
εi > −1.
(49)
Dann ist
EYi = exp xTi β ,
also
εi =
Yi − EYi
.
EYi
Damit Var εi = σ 2 konstant ist, muss gelten:
Var Yi /(EYi )2 = σ 2 = const.
Also benötigt man für Yi eine Verteilung mit konstantem Variationskoeffizienten Var Yi /(EYi )2 ,
bzw.
EYi = µi ,
Var Yi = σ 2 µ2i
(50)
90
5
Eine solche Verteilung ist die Gamma-Verteilung.
Angenommen, Yi habe die Erwartungswert- und Varianzstruktur (50). Setze Zi = log(Yi ).
Es gilt approximativ:
Zi ≈ log(µi ) +
1
1
(Yi − µi ) − 2 (Yi − µi )2
µi
2µi
In heuristischer Argumentation bilde nun den Erwartungswert:
EZi ≈ log µi −
1 2 2
σ2
σ µi ≈ log µi −
2µi
2
Aus (49) ergibt sich natürlich auch ein lineares Modell auf der log-Skala:
log Yi = xTi β + ε′i ,
wobei
Eε′i = E(log(1 +
ε′i = log(1 + εi ),
Yi − EYi
σ2
)) = E(log Yi ) − log EYi ≈ − .
EYi
2
2
Somit ergibt sich im linearen Modell ein Schätzwert von β 0 − σ2 für den Achsenabschnitt. Man
kann zeigen, dass Var ε′i ≈ σ 2 , also könnte man lineares Modell auf log-Skala verwenden, und
die Schätzung für den Koeffizienten des Achsenabschnitts entsprechend korrigieren. Jedoch
ist es häufig besser, auf der ursprünglichen Skala mit Gamma-Regression und log-Link zu
arbeiten.
Gamma-Regression mit Gewichten Angenommen, für die Kovariablenausprägung xi
wird eine Gesamtschadenshöhe Yi , die sich aus ni Schäden zusammensetzt, beobachtet. Es
liegen als unabhängige Daten (Yi , xi , ni ), i = 1, . . . , n, vor. Wir interessieren uns nun für die
Durchschnittsschadenhöhe:
Yia = Yi /ni .
Angenommen, der Gesamtschaden Yi setzt sich als Summe der ni unabhängigen identisch
verteilten (für gleiches xi ) Einzelschäden zusammen, also für
PYij : Höhe des j-ten Schadens in
Gruppe i haben wir Yij , j = 1, . . . , ni sind u.i.v., und Yi = j Yij .
Falls Yij ∼ Gamma(µi , ϕ), also EYij = µi , Var Yij = µ2i · ϕ, Yij unabhängig, j = 1, . . . , ni ,
dann gilt
Yi ∼ Gamma(ni µi , ni ϕ),
Yia ∼ Gamma(µi , ϕ/ni ).
Dies ist im ML-Ansatz zu berücksichtigen. Man muss maximieren
Ln (β) =
Schätzer von ϕ:
n
X
i=1
ni −
Yi
T
−
log
µ
(x
β)
.
i
i
µi (xTi β)
n
1 X (Yi − µ̂i )2
ϕ̂ =
ni
n−p
µ̂2i
i=1
5.7 Quasi-Likelihood
relevante R Befehle
Setzte im glm Aufruf die Option weights gleich den ni .
Residuen
Pearsonsche Residuen:
Deviance Residuen:
5.7
91
riP =
riD =
√
√
i
ni Yiµ̂−µ̂
.
i
1
2
Yi
i
−
log(
)
ni sign(Yi − µ̂i ) Yiµ̂−µ̂
.
µ̂i
i
Quasi-Likelihood
Motivation
Bei einigen DEFs, insbesondere den für Anwendungen wichtigen Familien der Binomialverteilung sowie der Poissonverteilung, ist keine zusätzliche Modellierung der Dispersionsstruktur
über den Parameter ϕ möglich. Man möchte daher diese Familien gerne erweitern. Es stellt
sich aber heraus, dass eine explizite Konstruktion solcher Verteilungen (mit den gleichen diskreten Werten wie die entsprechenden Binomial - und Poissonverteilungen) innerhalb der
Klasse der DEFs nicht möglich ist (Jorgensen 1987, JRSSB).
Angenommen, Yi sei verteilt nach einer DEF, also
Yi ∼ exp
so dass
ϑ y − b(ϑ )
i
i
+ c(y, ϕ) ,
ϕ
EYi = b′ (ϑi ) = µi ,
Var Yi = b′′ (ϑi ) · ϕ =: V (µi ) · ϕ.
wobei V = b′′ ◦ (b′ )−1 , und ϕ den (möglicher Weise konstanten) Dispersionsparameter bezeichnet. Auf µi wird typischer Weise Regression gemacht, also
µi = µ(β, xi )
(bei GLMs: g(µi ) = xTi β).
(51)
Im obigen Modell hängt also die Varianzstruktur nur vom Erwartungswert und von ϕ ab.
Bei einigen Exponentialfamilien, insbesondere Poisson-Verteilung und Binomialverteilung, ist
ϕ = 1 konstant, es ist somit keine zusätzliche Modellierung der Dispersionsstruktur möglich.
Ziel
Ohne explizite Konstruktion einer Wahrscheinlichkeitsverteilung (Likelihood) und nur unter
Benutzung der Momentengleichungen
EYi = µi ,
Var Yi = ϕV (µi )
(52)
sollen die Parameter (β, ϕ) mit variablen ϕ geschätzt werden. Dabei wird µi durch Regression
wie in (51) bestimmt.
Definition 5.13
Für eine Zufallsvariable Y mit der Momentenstruktur (3) heißt eine Funktion l(y, µ) mit
y−µ
∂l
(y, µ) =
∂µ
V (µ)
eine Quasi-Likelihood Funktion.
(53)
92
5
Es ist dann also
l(y, µ) =
Z
µ
y−t
dt + A(y)
V (t)
Lemma 5.14
Unter geeigneten Differenzierbarkeitsbedingungen gilt für Quasi-Likelihood Funktionen (µi
durch Regression wie in (51))
a.
b.
c.
d.
∂l
(Yi , µi )) = 0
∂µ
∂l
(Yi , µi )) = 0
E(
∂β j
E(
∂2l
1
∂l
(Yi , µi ))2 ) = −E( 2 (Yi , µi )) =
∂µ
∂ µ
V (µi )
2
∂l
∂l
∂ l
1 ∂µi ∂µi
E(
(Yi , µi )
(Yi , µi )) = −E(
(Yi , µi )) =
∂β j
∂β k
∂β j ∂β k
V (µi ) ∂β j ∂β k
E((
Die erhält man durch einfache Rechnungen mit der definierenden Gleichung (53). Somit hat
die Ableitung einer Quasi-Likelihood hat Eigenschaften wie der Score-Vektor in GLMs.
Quasi-ML-Schätzung
Für unabhäbgige Beobachtungen (Y1 , x1 ), . . . , (Yn , xn ) sei nun β̂ QM L ein argmax von
n
X
i=1
bzw. Nullstelle von
sn (β) =
Mit
l(Yi , µ(xTi β)) = Ln (β),
n
X
Yi − µ(xTi β) ∂
·
µ(xTi β).
T β)
∂β
V
µ(x
i
i=1
Fn (β) = Cov sn (β) = ϕ
n
X
1
∂
∂
µi (xTi β) T µi (xTi β)
T
V (µi (xi β)) ∂β j
∂β
i=1
gilt unter geeigneten Bedingungen:
1
d
[Fn (β)]− 2 sn (β) → N (0, ϕ),
1
d
[Fn (β)] 2 (β̂ QM L − β) → N (0, ϕ).
Der Dispersionsparameter ϕ wird geschätzt durch
ϕ̂ =
n
1 X (Yi − µi (xTi β̂ QM L ))2
n−p
V (µi (xTi β̂ QM L ))
i=1
wobei p die Dimension von β bezeichnet.
Für das Testen linearer Hypothesen Aβ = m, A ∈ Rq×p , m ∈ Rq , gelten Analoga zu LQT:
R
qlq = 2(Ln (β̂ QM L ) − Ln (β̂ QM L )) ·
1 L 2
→ χp−q
ϕ̂
5.7 Quasi-Likelihood
93
R
wobei β̂ QM L Quasi-ML-Schätzer unter der lineare Hypothese H ist, sowie Analoga zum WaldTest:
1
L
qW = (Aβ̂ QM L − m)T (A(F (β̂ QM L ))−1 AT )−1 (Aβ̂ QM L − m) → χ2p−q
ϕ̂
Beispiel 5.15
a. Quasi-Binomiale Regression. Die Ausgangssituation ist ähnlich wie bei der logistischen
Regression. Es liegen also ganzzahlige Daten Yi mit Werten zwischen 0 und ni vor. Man
setzt dann V (µi ) = µi (1 − µi /ni ), wobei µi durch Regression wie in (51) (gegebenenfalls
mit logistischer Linkfuntion) gegeben ist. Man erhält dann die gleichen Schätzwerte für β
wie mit gewöhnlicher logistischer Regression, aber durch Einbeziehung von ϕ ändern sich die
Standardfehler, d.h. Überdispersion wird berücksichtigt.
b. Quasi-Poisson Regression. Ähnlich verhält es sich mit Poisson Regression, hier setzt man
V (µi ) = µi in obigem Ansatz.
c. Nichtlineare kleinste Quadrate. Auch die nichtlineare kleinste Quadrate Schätzung im
nichtlinearen Regressionsmodell (beachte die allgemeine Form von µ(xi , β) in (51)) kann mit
Quasi-likelihood behandelt werden, man setzt V (µ) = σ 2 = const.
relevante R Befehle
Im glm Aufruf setzte family=quasibinomial oder family=quasipoisson.
94
6
6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION
Kategorielle Daten und kategorielle Regression
In diesem Abschnitt betrachten wir kategorielle Daten. MEHR TEXT.
6.1
Fishers exakter Test auf Homogenität
Fishers exakter Test auf Homogenität dient dazu, die Erfolgswahrscheinlichkeiten zweier unabhängiger binomialverteilter Zufallsvariablen miteinander zu vergleichen. Hat man etwa zwei
Patientengruppen, bei denen eine bestimmte Krankheit mit Medikament A in Gruppe 1 und
Medikament B in Gruppe 2 behandelt wird, und jeweils untersucht wird, ob der Patient geheilt wurde, so kann man die Erfolgswahrscheinlichkeiten für Heilung durch Medikament A
mit der von Medikament B vergleichen.
Gegeben seien also X ∼ B(n, pX ), Y ∼ B(m, pY ), wobei X, Y unabhängig sind. Werden
X = x, Y = y beobachtet, dann fasst man diese Ergebnisse in einer 4-Felder-Tafel (2 ×2
Kontingenztafel) zusammen:
0
1
X
Y
P
=n+m−x−y
n−x
m−y
P
=x+y
x
y
P
P
P
=n
=m
=n+m
Die Hypothese der Homogenität lautet
H : pX = pY = p.
Unter H gilt
P (X = x, Y = y|X + Y = x + y) =
=
y
m−y
px (1 − p)n−x m
y p (1 − p)
n+m x+y
(1 − p)n+m−x−y
x+y p
n m
n
x
x y
n+m
x+y
.
(54)
Dies ist die Verteilung der hypergeometrischen Verteilung H(x + y, n, m).
Erinnerung: Angenommen, es werden aus einer Urne mit n roten und m schwarzen Kugeln
x + y Kugeln gezogen, und N bezeichne die Zahl der roten gezogenen Kugeln, also 0 ≤ N ≤
min{n, x + y}). Dann ist N ∼ H(x + y, n, m) hypergeometrisch verteilt, also
P (N = k) =
n
k
m
x+y−k
n+m
x+y
(k = 0, . . . , min{n, x + y}).
Bei extremen Beobachtungen von x bzw. y gemäß der Verteilung (54) wird man die Hypothese
H verwerfen. Dies geschieht etwa, falls der P-Wert kleiner als das gewünschte Niveau α > 0 ist.
6.2 Der χ2 -Test auf Homogenität
95
Berechnung der P-Werte
Für die einseitige Alternative K : pX > pY :
min{n,x+y}
X
PW =
P (N = k)
k=x
Für die zweiseitige Alternative K : pX 6= pY :
y
Man schätzt zunächst p̂X = nx und p̂Y = m
. Ist etwa p̂X > p̂Y , so bilde
min{n,x+y}
P̃ =
X
P (N = k)
k=x
und
imax = max{i :
i
X
k=0
Dann:
P W = P̃ +
P (N = k) < P̃ }
iX
max
P (N = k).
k=0
Für p̂X < p̂Y verfahre analog.
Bemerkung: Fishers Test ist ein bedingter Test, bei dem die Verteilung (54) der Teststatistik X = x bedingt auf die Beobachtungen X + Y = x + y berechnet wird. Somit hängt der
Verwerfungsbereich zu einem Niveau α > 0 von x + y ab.
relevante R Befehle
Die Funktion fisher.test führt Fisher’s exakten Test durch. Als
Argument wird die 2 × 2 Kontingenztafel übergeben. Auf die hypergeometrische Verteilung
kann mit dhyper (Dichte bzgl. Zählmaß), phyper (Verteilungsfunktion), qhyper (Quantile)
und rhyper (Zufallszahlen) zugegriffen werden.
6.2
Der χ2 -Test auf Homogenität
Wir erinnern zunächst an die
Multinomialverteilung. Angenommen, als Ergebnis eines Versuchs sei genau eines
P von I
verschiedenen Ereignissen A1 , . . . , AI möglich mit Wahrscheinlichkeiten π1 , . . . , πI ( πi = 1,
πi > 0, i = 1, . . . , I). Wird dieser
P Versuch n-mal durchgeführt, so ist die Wahrscheinlichkeit
für n1 mal A1 , . . ., nI mal AI ( ni = n) gegeben durch
n
π n1 · . . . · πInI ,
P (N1 = n1 , . . . , NI = nI ) =
n1 , . . . , nI 1
wobei Ni die Zufallsvariable bezeichnet, die die Anzahl der Ereignisse Ai zählt und
n
n!
=
n1 , . . . , nI
n1 ! · . . . · nI !
96
den Multinomialkoeffizient ist. Bezeichnung: N = (N1 , . . . , NI ) ∼ M (n, π), π = (π1 , . . . , πI )T .
Es ist (nachrechnen!)
Cov N = n diag(π1 , . . . , πI ) − ππ T .
EN = nπ,
Die Matrix Cov N ist degeneriert (der Vektor 1I = (1, . . . , 1)T ∈ RI ist Eigenvektor zum
Eigenwert 0). Dies ist nicht verwunderlich, da sich ja NI = n−N1 −. . .−NI−1 deterministisch
aus den anderen Beobachtungen berechnen lässt.
Um im Folgenden das Auftreten degenerierter Normalverteilungen zu verhindern, betrachten
wir nur die ersten I − 1 Einträge von N.
Setze π̃ = (π1 , . . . , πI−1 )T , Σ = diag(π1 , . . . , πI−1 ) − π̃π̃ T (dies ist die obere (I − 1) × (I − 1)
Teilmatrix von Cov N und hat vollen Rang I − 1, Beweis!), und
π̂i = Ni /n,
π̂ = (π̂1 , . . . , π̂I−1 ).
Da N gleich der Summe von n unabhängigen, M (1, π)-verteilten Zufallsvektoren ist, gilt nach
dem multivariaten ZGWS
√
d
n(π̂ − π̃) → N (0, Σ)
(55)
Dies dient als Grundlage für einen χ2 -Test für die einfache Hypothese
X
H : π = p für festes p = (p1 , . . . , pI )T , pi > 0,
pi = 1.
i
Als Teststatistik verwendet man
Xn2 =
I
X
(Ni − n · pi )2
npi
i=1
=n·
I
X
1
(π̂i − pi )2 ,
pi
i=1
diese heißt auch Pearsonsche χ2 -Statistik.
Satz 6.1
d
Unter H gilt Xn2 → χ2I−1 für n → ∞.
Beweis
Wir können schreiben
Xn2 = ZTn AZn ,
Zn =
√
wobei
A = diag(1/p1 , . . . 1/pI−1 ) +
n π̂ − (p1 , . . . , pI−1 )T ,
1
1I−1 1TI−1 ∈ R(I−1)×(I−1) .
pI
Die Matrix A ist (als Summe einer positiv definiten und einer positiv semidefiniten Matrix)
positiv definit. Mit (55) und dem Stetigkeitssatz für schwache Konvergenz folgt
d
Xn2 → ZT AZ,
Z ∼ N (0, Σ).
Um die Verteilung von ZT AZ zu berechnen, möchten wir Satz 1.9 anwenden, und müssen dazu
noch zeigen: (ΣA)2 = ΣA. Eine direkt Rechnung liefert ΣA = II−1 , die (I − 1)-dimensionale
Einheitsmatrix. Somit folgt die Behauptung.
6.3 Fishers exakter Test auf Unabhängigkeit
97
Allgemeine 2d-Kontingenztafeln
Seien nun X1 , . . . , XJ unabhängig multinomial verteilt, mit I gleichen möglichen Ausgängen,
Xj ∼ M (n·j , π j ),
j = 1, . . . , J,
π j = (π1j , . . . , πIj )T .
Ist für Xj der Vektor (n1j , . . . , nIj ) beobachtet, so ordnen wir diese in einer I × J Kontingenztafel an:
Vektoren
P
1
2 ···
j ···
J
1 n11 n12
n1j
n1J n1·
2 n21 n22
n2j
n2J n2·
..
.
Kategorien
i ni1 ni2
nij
niJ ni·
..
.
I nI1 nI2
P
n·1 n·2
nIj
n·j
nIJ
n·J
nI·
n··
Wir möchten nun die Hypothese der Homogenität testen
Hhom : π 1 = . . . = π J =: p.
Unter Hhom bezeichnet also p = (p1 , . . . , pI )T den gemeinsamen (unbekannten) Wahrscheinn
lichkeitsvektor. Man schätzt π̂ij = nij
sowie unter Hhom p̂i = nni··· . Bilde nun die χ2 -Statistik
·j
I
J
I
J X
X
(nij − n·j · p̂i )2 X X (π̂ij − p̂i )2
n·j
=
X =
n·j · p̂i
p̂i
2
j=1 i=1
j=1 i=1
Satz 6.2
Unter Hhom und für pi > 0, i = 1, . . . , I gilt für n·j → ∞, j = 1, . . . , J
d
X 2 → χ2(I−1)(J−1) .
Für einen Beweis siehe Shao (2003, p. 439).
Bemerkung Man kann natürlich auch nur die Homogenität in einzelnen Kategorien testen,
indem man die übrigen Kategorien zu einer neuen Kategorie zusammen fasst.
relevante R Befehle
Der χ2 Test kann mit chisq.test durchgeführt werden. Dabei können
entweder zwei Stichproben verglichen werden, oder auch ein Sample mit gegebenen Zellwahrscheinlichkeiten (statt y übergebe in p die Zellwahrscheinlichkeiten). Für die Multinomialverteilung liefern rmultinom Zufallszahlen und dmultinom die Dichte.
6.3
Fishers exakter Test auf Unabhängigkeit
Angenommen, an n Versuchseinheiten werden zwei Merkmale, ein X-Merkmal mit Ausprägungen A1 , A2 sowie ein Y-Merkmal mit Ausprägungen B1 , B2 beobachtet. Es soll nun unteruscht
98
werden, ob X-Merkmal und Y-Merkmal unabhängig voneinander sind.
Formal beobachten wir gepaarte Zufallsvariablen (X1 , Y1 ), . . . , (Xn , Yn ), die als Vektoren unabhängig und identisch verteilt sind. Die Xi und Yi haben Werte in {1, 2}, wobei Xi die
Merkmalsausprägung des X-Merkmals für die i-te Versuchseinheit bestimmt, und Yi die Merkmalsausprägung des Y-Merkmals. Setzte nun
Nij =
n
X
1i (Xl )1j (Yl ),
i, j = 1, 2.
l=1
Sind Nij = nij beobachtet, so fasst man diese in einer 2 × 2 Kontingenztafel zusammen.
Y
1
2
1 n11 n12 n1·
X
.
2 n21 n22 n2·
n·1 n·2 n··
Dem gegenüber steht die Tabelle der zugrundeliegenden Wahrscheinlichkeiten,
Y
1
2
1 p11
p12
X
2 n21
n22
pY 1 − pY
pX
,
1 − pX
pij = P (X1 = i, Y1 = j).
Die Hypothese, dass die Merkmale X und Y unabhängig voneinander sind, lässt sich nun wie
folgt formalisieren.
H : Xi und Yi unabhängig,
oder äquivalent H : p11 = pX pY .
Wir betrachten nun die bedingte Wahrscheinlichkeit
P (N11 = k |N1· = n1· , N·1 = n·1 )
P
P
P
P ( ni=1 11 (Xi )11 (Yi ) = k, ni=1 11 (Xi ) = n1· , ni=1 11 (Yi ) = n·1 )
P
P
=
P ( ni=1 11 (Xi ) = n1· , ni=1 11 (Yi ) = n·1 )
Unter H gilt wegen der Unabhängigkeit von Xi , Yi und da die Xi unabhängig und identisch
verteilt sind:
P
n
X
1A1 (Xi )1B1 (Yi ) = k,
i=1
n·1
X
=P
i=1
n
X
1A1 (Xi ) = n1· ,
i=1
1A1 (Xi ) = k,
n
X
i=1
1A1 (Xi ) = n1·
n
X
i=1
1B1 (Yi ) = n·1
n
X
· P(
1B1 (Yi ) = n·1 )
i=1
6.4 χ2 -Test auf Unabhängigkeit
99
Somit gilt unter H:
P (N11 = k|N1· = n1· , N·1 = n·1 ) =
=
=
=
P
P ·1
1A1 (Xi ) = k, ni=1 1A1 (Xi ) = n1· )
P ( ni=1
Pn
P ( i=1 1A1 (Xi ) = n1· )
P
Pn·1
P ( i=1 1A1 (Xi ) = k)P ( ni=n·1 +1 1A1 (Xi ) = n1· − k)
P
P ( ni=1 1A1 (Xi ) = n1· )
n·1 k
n·1 −k n−n·1 pn1· −k (1 − p )n+k−n1· −n·1
p
(1
−
p
)
X
X
X
k
nn1·1· −k X
n
n−n
1·
n1· pX (1 − pX )
n·1 n−n·1
k
n1· −k
n
n1·
Also ist N11 , bedingt auf N1· = n1· , N·1 = n·1 , unter H hypergeometrisch H(n1· , n·1 , n − n·1 )verteilt, und man verwirft H bei extremen Ereignissen von N11 unter dieser Verteilung. Beachte, dass sich die gleiche Verteilung wie bei Fishers exaktem Test auf Homogenität ergibt.
Der P-Wert in obigem Test ist dann auch einfach der zweiseitige P-Wert wie bei Fishers exaktem Test auf Homogenität.
Bemerkung: Da die Merkmale X und Y symmetrisch sind, sollte dies auch für die Teststatistik gelten. Dies ist der Fall, da gilt.
H(n1· , n·1 , n − n·1 ) = H(n·1 , n1· , n − n1· ).
Somit ist auch in Fishers exaktem Test auf Homogenität die Anordnung egal, was dort inhaltlich weniger offensichtlich ist.
relevante R Befehle Wie bei Fishers exaktem Test auf Homogenität kann die Funktion fisher.test
verwendet werden.
6.4
χ2 -Test auf Unabhängigkeit
Für mehr als zwei Merkmalsausprägungen kann man, analog zum χ2 Test auf Homogenität,
einen χ2 Test auf Unabhängigkeit konstruieren. Angenommen, an n Versuchseinheiten werden zwei Merkmale, ein X-Merkmal mit Ausprägungen 1, . . . , I sowie ein Y-Merkmal mit
Ausprägungen 1, . . . , J, beobachtet. Es soll wieder unteruscht werden, ob X-Merkmal und
Y-Merkmal unabhängig voneinander sind.
Beobachte Zk = (Xk , Yk ) unabhängig und identisch verteilt, Xk ∈ {1, . . . , I}, Yk ∈ {1, . . . , J},
Nij =
n
X
k=1
1i (Xk )1j (Yk ),
i = 1, . . . , I, j = 1, . . . , J.
100
Für beobachtete Nij = nij bildet man wiederum die Kontingenztafel
Y
1
2 ···
1 n11 n12
2 n21 n22
X .
..
..
..
.
.
I nI1 nI2
n·1 n·2
J
n1J
n2J
..
.
n1·
n2·
..
.
nIJ
n·J
nI·
n··
sowie die zugehörige Tafel der Wahrscheinlichkeiten
Y
1
2 ···
1 p11 p12
2 p21 p22
X .
..
..
..
.
.
I pI1 pI2
p·1 p·2
J
p1J
p2J
..
.
pIJ
p·J
p1·
p2·
.. ,
.
P (X1 = i, Y1 = j) = pij .
pI·
Man möchte nun die Hypothese testen
H : Xk und Yk sind unabhängig
(k = 1, . . . , n)
oder äquivalent H : pij = pi· p·j , i = 1, . . . , I, j = 1, . . . , J. Setzte
p̂ij =
nij
,
n··
p̂i· =
ni·
,
n··
p̂·j =
n·j
.
n··
Zum Testen von H betrachtet man die Pearsonsche χ2 -Statistik
I
J
I X
J
X
(nij − n·j ni· /n)2 X X (p̂ij − p̂i· p̂·j )2
=
.
X =
n·j ni· /n
p̂·j p̂i·
2
i=1 j=1
i=1 j=1
Bemerkung: Dies ist formal dieselbe Statistik wie für den χ2 -Test auf Homogenität, bei dem
man somit ebenfalls nicht auf die Anordnung in Zeilen und Spalten achten muss. Man kann
zeigen (s. Shao 2003)
Satz 6.3
Ist pij > 0, i = 1, . . . , I, j = 1, . . . , J, dann gilt unter der Hypothese H der Unabhängigkeit
d
X 2 → χ2(I−1)(J−1) für n → ∞.
6.5
McNemars Test für gepaarte Stichproben
Bei gepaarten Stichproben, also der Situation, die bei Fishers exatem Test auf Unabhängigkeit
vorliegt, kann man auch daran interessiert sein, ob die Randverteilungen gleich sind. Wird
6.5 McNemars Test für gepaarte Stichproben
101
etwa ein Merkmal X mit Ausprägungen 1, 2 zu aufeinanderfolgenden Zeitpunkten T = 1, 2
beobachtet, so kann man dara interessiert sein, ob die Wahrscheinlichkeitsverteilung für X zu
beiden Zeitpunkten gleich ist (obwohl sie natrülich voneinander abhängen).
Formal beobachten wir u.i.v. Zufallsvektoren X1 = (X11 , X12 ), . . . , Xn = (Xn1 , Xn2 ), wobei
Xij ∈ {1, 2}, und bilden die Kontingenztafel
Xi1
Xi2
1
2
1 n11 n12 n1·
2 n21 n22 n2·
n·1 n·2 n
sowie die Tafel der Wahrscheinlichkeiten
Xi1
Xi2
1
2
1 p11 p12 p1·
2 p21 p22 p2·
p·1 p·2
Hypothese: Die Randverteilungen zu beiden Zeitpunkten, also die Verteilungen von Xi1 und
Xi2 , sind gleich, oder äquivalent
H : p·1 = p1·
welches sich zu H : p21 = p12 reduziert. Unter H gilt:
P ((X11 , X12 ) = (1, 2)|(X11 , X12 ) ∈ {(1, 2), (2, 1)}) =
Daher gilt für
Nij =
n
X
p12
H 1
=
p21 + p12
2
1i (Xk1 )1j (Xk2 ), i, j = 1, 2
k=1
unter H die bedingte Wahrscheinlichkeitsverteilung
N12 |N12 + N21 = n12 + n21 ∼ B(n12 + n21 , 1/2).
Man verwirft nun die Hypothese H für extreme Werte von N12 unter dieser bedingten Wahrscheinlichkeitsverteilung.
P-Werte
P-Wert gegen einseitige Alternative K : p12 > p21 :
n12
+n21 X
n12 + n21
PW =
1/2n12 +n21 .
n12
k=n12
Zweiseitig: Ist n12 ≥ n21 , so ist
PW = 2 ·
n12
+n21 X
k=n12
n12 + n21
1/2n12 +n21
n12
102
ansonsten vertausche die Rollen.
relevante R Befehle Die Funktion mcnemar.test führt den McNemar test aus, aber berechnet
nur P-Werte basierend auf einer asymptotischen Approximation. Daher sollte man den exakten P-Wert direkt mit pbinom (der Verteilungsfunktion der Binomialverteilung) berechnen.
6.6
Ergänzungen
In den Übungen: Mosaicplot (mosaicplot), Assoziationsplot (assocplot), die library vcd zur
Visualisierung von kategoriellen Daten.
Weitere Theorie: Bei 2 × k Kontingenztafeln: prop.test (äquivalent zum χ2 Test), auch
multiples Testen mit pairwise.prop.test. Die Funktion binom.test zur Durchfühung eines
exakten Tests für das p der Binomialverteilung, und zur Berechnung der Pearson Clopper
Grenzen. Testen auf Binomialverteilung, negative Binomialverteilung und Poisson Verteilung
mit dem χ2 Test für zusammengesetzte Hypothesen, Funktion goodfit der library vcd.
6.7
Kategorielle Regression
Wir wenden uns nun wieder der Regression zu, wobei wir annehmen, dass die abhängige
Zielvariable Y kategoriell mit I Kategorien ist. Für I = 2 führt uns dies zurück zur logistischen
Regression.
Im Folgenden liegen unabhängige Beobachtungen (Yk , xk ), k = 1, . . . , n, vor, wobei
 
 
Yk1
πk1
I
X
 .. 
 .. 
Yk ∼ M (nk , πk ), Yk =  .  , π k =  .  ,
πki = 1.
i=1
YkI
πkI
(56)
und xk ∈ Rp geeignet kodierte Kovariablen und den Achsenabschnitt enthält. Man modelliert
πki = πi (xk ) als Funktion der xi .
Wegen (56) genügt es, πki = πi (xk ) zu spezifizieren und zu schätzen für i = 1, . . . , I − 1. Dann
heißt Kategorie I Referenzkategorie.
Mehrkategorielle Logit-Modelle
Für nominale, also nicht geordnete Kategorien, werden häufig mehrkategorielle Logit-Modelle
verwendet. Setze ηki = xTk β i , β i ∈ Rp , sowie
πki =
und für die Referenzkategorie:
1+
eηki
PI−1
l=1
eηkl
, i = 1, . . . , I − 1,
πkI = 1 − πk1 − . . . − πk,(I−1) =
1+
1
PI−1
l=1
(57)
eηlk
.
6.7 Kategorielle Regression
103
Erweiterung. Neben den kategorienspezifischen Parametern β i können globale Parameter γ (für alle Kategorien i = 1, . . . , I − 1 gleich) zugelassen werden. Dazu sei wk ein qdimensionaler Teilvektor von xk , γ ∈ Rq . Setze weiter ηki = xTk β i + wkT γ sowie πki wie in
(57). Dann
πki
log
= ηki ,
πkI
und exp(ηki ) beschreibt das relative Risiko von Kategorie i zu Kategorie I.
Interpretation. Mehrkategorielle Logit Modelle für I > 2 sind vorsichtig zu interpreteren.
Insbesondere bedeutet ein positiv geschätzer Koeffizient β ir > 0 nicht unbedingt, dass ein
Anstieg von der r-ten Komponenten der Kovariablen einen Anstieg von π·,i zur Folge hat,
sondern nur einen Anstieg des relativen Risikos im Vergleich zu Referenzkategorie. Falls es
etwa β jr > β ir gibt, kann ein Anstieg der r-ten Kovariable sogar eine Verringerung von π·,i
zur Folge haben.
Das (erweiterte) Modell lässt sich in Matrixschreibweise zusammenfassen. Der Parameter
Vektor ist gegeben durch
β = (β T1 , . . . , β TI−1 , γ T )T ∈ Rp·(I−1)+q ,
und der lineare Prädiktor durch
ηk = (ηk1 , . . . , ηk,I−1 )T = Xk β,
 T
xk

Xk = 
..
.
xTk

wkT
..  ∈ R(I−1)×(p·(I−1)+q) .
. 
wkT
Die Schätzung des Parameter Vektors β erfolgt wiederum über Maximum Likelihood. Die log
Likelihood ist
Ln (β) =
f (Yk |πk ) =
n
X
k=1
log f (Yk |π k )
(58)
nk
Yk(I−1)
Yk1
πk1
· . . . · πk(I−1)
· (1 − πk1 − . . . − πk(I−1) )YkI
Yk1 , . . . , YkI
wobei π k wie in (57) vom lineare Prädiktor und damit von β abhängt.
Score Vektor sn (β) =
∂
∂β Ln (β),
Fisher-Information Fn (β) = Cov(sn (β)).
Unter Regularitätsannahmen gelten asymptotische Normalität des ML Schätzers
1
Fn (β̂ M L ) 2 (β̂ M L − β) → N (0, I),
sowie die asymptotischen χ2 -Approximationen an den Likelihood Quotienten Test und den
Wald Test.
relevante R Befehle
Die library nnet enthält die Funktion multinom, mit der ein kategorielles Regressionsmodell geschätzt werden kann. Die Anpassung erfolgt ähnlich wie bei
glm und family=binomial, inbesondere können die nk über Weights übergeben werden. Die
Funktion logLik extrahiert den Wert der maximierten Log-Likelihood. Mit anova können
LQTs durchgeführt werden.
Kommulatives oder Schwellenwert-Modell
Das mehrkategorielle Logit Modell kann sehr allgemein verwendet werden, hat jedoch Nachteile, da es viele Parameter besitzt und diese darüber hinaus schwer, da nur über das relative
Risiko zur Referenz Kategorie, zu interpretieren sind.
Falls die Zielvariable Yk ordinal ist mit geordneten Kategorien 1, . . . , I, kann man dies bei
der Modellierung berücksichtigen.
Im Schwellenwert-Modell wird die ordinale Zielvariable als Diskretisierung einer latenten,
stetigen Zielvariable modelliert, wobei die Diskretisierung mitgeschätzt wird. Seien also zur
Beobachtung Yk
β ∈ Rp ,
Ukl = xTk β + εkl , l = 1, . . . , nk ,
zugrundeliegende latente Variablen, wobei εk ∼ F eine stetige Verteilungsfunktion hat, etwa
a. F ∼ N (0, 1) → probit-Modell
ex
b. F (x) ≈ 1+e
x → Logit-Modell
x
c. F (x) = 1 − e−e Extremwertverteilung → gruppiertes Cox-Modell.
Man modelliert dann
Yk =
nk
X
1ϑi−1 <Ukl <ϑi ,
l=1
für feste (unbekannte) ϑ1 < . . . < ϑI−1 , ϑ0 = −∞, ϑI = ∞. Es gilt also
πki = F (ϑi + xTk β) − F (ϑi−1 + xTk β) = F (ηki ) − F (ηk,i−1 ),
i = 1, . . . , I,
wobei ηki = ϑi + xTk β einen linearen Prädiktor bezeichnet. Der unbekannte Parametervektor
besteht also aus β = (β 1 , . . . , β p , ϑi , . . . , ϑK−1 ). Das Schätzen von β erfolgt wieder über ML
wie in (58).
relevante R Befehle
Die library MASS enthält die Funktion ployr, mit der ein Schwellenwert Regressionsmodell für ordinale Daten angepasst werden kann.
105
7
Lineare Gemischte Modelle
Gemischte Modelle enthalten nicht nur die bisher betrachteten festen Effekte β, die für jede
Beobachtung gleich sind, sondern darüber hinaus noch zufällige Effekte γ i , welche Realisierungen von Zufallsvariablen sind und sich somit für jede Beobachtung unterscheiden können.
Zufällige Effekte werden (im Regressionskontext) eingesetzt, falls man davon ausgeht, dass
nicht alle relevanten Kovariablen bzw. Einflussgrößen auf die Zielvaraiable beobachtet werden
können. Häufig handelt es sich dabei um viele nicht beobachtete Einflussgrößen mit jeweils
nur geringem Einfluss. Daher modelliert man diese dann häufig als einen zufälligen normalverteilten Effekt.
Gemischte Modelle treten im Regressionskontext insbesondere bei Longitudinal- oder Clusterdaten auf, auf die wir zunächst eingehen, bevor wir zum allgemeinen linearen gemischten
Modell kommen. Abschliessend werden auch noch kurz auf verallgemeinerte lineare gemischte
Modelle eingehen.
7.1
Longitudinal- und Cluster-Daten
a. Cluster-Daten
Ein Cluster ist eine Primäreinheit, etwa eine Klinik, Familie. Man beobachtet nun eine Anzahl
m an Clustern, und für jedes Cluster i hat man Daten
(Yi1 , xi1 ), . . . , (Yini , xini ),
i = 1, . . . , m,
wobei Yij ∈ R die reellwertige Zielvariable bezeichnet, und xij ∈ Rp ein Vektor von geeignet
kodoerten Kovariablen (inklusive Achsenabschnitt) ist.
b. Longitudinal-Daten
Ein analoges Beobachtungsschema tritt für longitudinale Daten auf. Hier werden i Individuen,
i = 1, . . . , m beobachtet. Für jedes Individuum i hat man Beobachtungen
(Yi1 , xi1 ), . . . , (Yi,ni , xi,ni )
zu Zeitpunkten ti1 < . . . < tini . Die Zeitpunkte tij sind dabei typischerweise Teil der Kovariablen xij .
Man möchte nun wiederum Yij über einen linearen Prädiktor xTij β erklären. Dabei ist aber
davon auszugehen, dass die Zielgröße nicht nur durch die xij , sondern durch weitere, Clusterbzw. individuenspezifischen Effekte beeinflusst werden. Da man die Individuen/Cluster zufällig
aus einer Gesamtpopulation ausgewählt hat, modelliert man diese zusätzlichen Effekte als
zufällige Effekte. Dies führt zu folgendem Modell
106
7 LINEARE GEMISCHTE MODELLE
Modell
Die Beobachtungen (Yij , xij ), i = 1, . . . , m, j = 1, . . . , ni , folgen dem Modell
T
Yij = xTij β + wij
γ i + εij ,
wobei wij ein q-dimensionaler Teilvektor von xij ist, εij ein zufälliger, nicht beobachteter
Fehler, β ∈ Rp die systematischen (festen) Effekte bezeichnet und γ i q-dimensionale, zufällige
Effekte sind, die wir als N (0, D)-verteilt annehmen (D ∈ Rq×q ), und welche unabhängig für
i = 1, . . . , m sind. Weiter nehmen wir an, dass die Fehler εi und die zufälligen Effekte γ l
unabhängig sind für alle 1 ≤ i, l ≤ m.
Für die Fehler ǫi nehmen wir ebenfalls eine Normalverteilung an, also εi ∼ N (0, Σi ), und
unabhängig für i = 1, . . . , m. Falls εi ∼ N (0, σ 2 Ini ), dann sind die Fehler auch unabhängig
und identisch verteilt für j = 1, . . . , ni . Dies ist zwar für Cluster - und Longitudinal-Daten
häufig nicht erfüllt. Dennoch ist die zeitliche bzw. clusterspezifische Abhängigkeitsstruktur
gegenüber der durch die zufälligen Effekte verursachten Abhängigkeitsstruktur (γ i verursacht
bereits Abhängigkeiten für j = 1, . . . , ni ) vernachlässigbar, so dass man die Fehler einfach als
u.i.v. modelliert. Alternativ wäre ein einfaches parametrisches Modell für abhängige Fehler
etwa
Cov(εij , εik ) = σ 2 exp(−φ|tij − tik |),
(59)
man hat also zwei Parameter (σ 2 , φ), die die Σi beschreiben.
Man fasst lineare Longitudinal - und Clustermodelle in Matrixschreibweise zusammen.
Setze


 T 
 T 


xi1
wi1
Yi1
εi1








Yi =  ...  , Xi =  ...  ∈ Rni ×p , Wi =  ...  ∈ Rni ×q , ǫi =  ...  ∈ Rni ,
Yini
xTini
T
win
i
εini
dann ist
Yi = xi β + wi γ i + ǫi .
Man
P kann auch noch die Modelle für alle i zusammenfassen. Dazu setzte W = diag(w1 , . . . , wm ) ∈
R ni ×m·q ,
 
 
 
 
Y1
x1
γ1
ε1
P
P
P
 .. 
 .. 
 .. 
 .. 
ni
ni ×p
q·m
Y= . ∈R
, X= . ∈R
, γ =  .  ∈ R , ǫ =  .  ∈ R ni .
Ym
xm
γm
εm
Dann ist
Y = Xβ + W γ + ǫ,
wobei unter den obigen Verteilungsannahmen gilt γ ∼ N (0, G), ε ∼ N (0, R), γ, ǫ sind unabhängig, und R = diag(Σ1 , . . . , Σm ), G = diag(D, . . . , D).
7.2
Das lineare gemischte Modell
Definition 7.1
Das lineare gemischte Modell (LMM) ist gegeben durch
Y = Xβ + W γ + ǫ
(60)
7.3 Schätzen und Vorhersagen im linearen gemischten Modell
wobei
107
γ
G 0
∼ N 0,
,
ǫ
0 R
und X ∈ Rn×p , W ∈ Rn×q (beobachtete) Designmatrizen sind, Y ∈ Rn (beobachtete)
abhängige Variable, β fixe Effekte, γ zufällige Effekte, ǫ Fehler.
Neben longitudinalen und Cluster Regressionsmodellen treten gemischte Modelle insbesondere
bei der Varianzanalyse mit zufälligen und festen Effekten auf.
Man kann das LMM schreiben als
a. Zweistufiges hierarchisches Modell:
Y|γ ∼ N (Xβ + W γ, R),
γ ∼ N (0, G)
(61)
ǫ∗ ∼ N (0, R + W GW T ).
(62)
b. Marginales Modell
Y = Xβ + ǫ∗ ,
Das zweistufige hierarchische Modell bestimmt das LMM eindeutig. Dagegen bestimmt das
marginale Modell (62) dieses nicht unbedingt eindeutig, da die zufälligen Effekte sich nicht
spezifizieren lassen.
7.3
Schätzen und Vorhersagen im linearen gemischten Modell
Wir betrachten das gemischte lineare Modell (60). Unsere primären Ziele sind dabei das
a. Schätzen der fixen Effekte β
b. Schätzen der unbekannten Parameter in der Kovarianzstruktur der zufälligen Effekte und
Fehler, also in G und R
Darüber hinaus betrachtet man noch
c. Vorhersagen der zufälligen Effekte γ.
Zunächst betrachten wir a. und c. bei bekannter Kovarianzstruktur, und erweitern dies in
einem zweiten Schritt um die Schätzung b.
Bekannte Kovarianzstruktur
Wir nehmen in diesem Abschnitt an, dass die Kovarianzmatrizen G und R im LMM bekannt
sind.
Schätzung der festen Effekte
Ausgehend vom marginalen Modell (62) setze V =
R + W GW T (diese Matrix ist vollständig bekannt), dann ist Y ∼ N (Xβ, V ). Man schätze β
nun über verallgemeinerte kleinste Quadrate (GLS) durch
β̃ GLS = (X T V −1 X)−1 X T V −1 Y
(63)
108
Vorhersage der zufälligen Effekte
Da γ eine Zufallsvariable und kein Parameter ist,
spricht man hier von vorhersagen und nicht von schätzen. Da
Cov(Y, γ) = Cov(Xβ + W γ + ǫ, γ) = Cov(W γ, γ) = W G
gilt
Y
Xβ
V
WG
∼N
,
.
γ
0
(W G)T
G
Somit erhält man für den bedingten Erwartungswert nach Satz 1.6
E(γ|V ) = GW T V −1 (Y − Xβ).
Durch Einsetzten von β̃ GLS erhält man als Vorhersage von γ
γ̃ = GW T V −1 (Y − X β̃ GLS )
Aufgabe
(64)
Erhalte Formel (64) als besten linearen Prädiktor für γ.
Mixed Model Equations Man kann den Schätzer (63) und den Prädiktor (64) auch auf
andere Weise erhalten. Die gemeinsame Dichte im LMM ist nach Darstellung (61) im hierarchischen Modell
p(Y, γ; β) = p(Y|γ; β) · p(γ),
somit
1
1
log p(Y, γ; β) = − (Y − Xβ − W γ)T R−1 (Y − Xβ − W γ) − (γ T G−1 γ) + const.,
2
2
wobei const. nicht von (β, γ) abhängt.
(65)
Man behandelt nun nun (β̃, γ̃) gleich und wählt als Schätzer/Prädiktor das Argmax von (65).
Ableiten und Null setzen führt auf die Mixed Model Equations
!
X T R−1 (Xβ + W γ − Y) = 0,
!
W T R−1 (Xβ + W γ − Y) + G−1 γ = 0.
Gemeinsame Verteilung von (β̃ GLS , γ̃). Diese berechnet sich zu
0 A B β̃ GLS − β
∼N
,
0
BT C
γ̃ − γ
wobei A = Cov(β̃ GLS ) = (X T V −1 X)−1 , und mit Cov(β̃ GLS , γ̃) = 0
B = Cov(β̃ GLS , γ̃ − γ)
= − Cov(β̃ GLS , γ)
= −E((X T V −1 X)−1 X T V −1 (W γ + ε) · γ T )
= −(X T V −1 X)−1 X T V −1 W G,
C = Cov(γ̃ − γ)
= Cov(γ) + Cov(γ̃) − 2 Cov(γ, γ̃)
= G + GW T V −1 V − X(X T V −1 X)−1 X T V −1 W G
−2 · E GW T V −1(W γ − X β̃) · γ T
= G − GW T V −1 W G + GW T V −1 X(X T V −1 X)−1 X T V −1 W G.
(66)
7.3 Schätzen und Vorhersagen im linearen gemischten Modell
109
Beachte, dass die Verteilung von γ̃ in (66) um γ (auch eine Zufallsvariable) und nicht um den
Erwartungswert 0 berechnet wird.
Schätzung der Kovarianzstruktur
In diesem Abschnitt befassen wir uns mit der Schätzung der unbekannten Parameter in der
Kovarianzstruktur, also in den Matrizen R und G. Wir erinnern uns, dass im Longitudinal/ Clusterdaten Modell diese von der Form R = diag(Σ1 , . . . , Σm ), G = diag(D, . . . , D), sind.
Dabei sind häufig die Σi Diagonalmatrizen oder haben die einfache Gestalt, die durch (59)
bestimmt wird. Insgesammt sind R und G also über wenige Parameter festgelegt. Diese fassen
wir im Folgenden in einem Parametervektor ϑ zusammen, d.h. R = R(ϑ), G = G(ϑ) und
somit V (ϑ) = W G(ϑ)W T + R(ϑ). Wir betrachten zur Schätzung zwei Ansätze.
a. Ausgangspunkt ist das marginale Modell (62), also Y ∼ N (Xβ, V (ϑ)). Die Log-Likelihood
in Abhängigkeit von den Parametern (β, ϑ) ist gegeben durch
1
L(β, ϑ) = − (log |V (ϑ)| + (Y − Xβ)T V (ϑ)−1 (Y − Xβ)).
(67)
2
Man möchte nun (β, ϑ) als argmax von (67) wählen. Zunächst maximiert man (67) für festes
ϑ bezüglich β und erhält als eindeutige Lösung
β̃(ϑ) = (X T V (ϑ)−1 X)−1 X T V (ϑ)−1 Y
Dann setzt man β̃(ϑ) in (67) ein und erhält die Profile Log-Likelihood
T
1
Lp (ϑ) = L β̃(ϑ), ϑ = − log |V (ϑ)| + Y − X β̃(ϑ) V (ϑ)−1 Y − X β̃(ϑ) .
2
Erhalte ML-Schätzer ϑ̂M L als argmax von Lp .
b. Hier schätze ϑ als argmax der marginalen Likelihood
Z
p(Y; β, ϑ)dβ ,
LR (ϑ) = log
wobei man sich von diesem Ansatz besser Bias-Eigenschaften verspricht.
Lemma 7.2
Es ist
1
LR (ϑ) = Lp (ϑ) − log |X T V (ϑ)−1 X|
2
Beweis
Es ist
1
1
T
−1
p(Y; β, ϑ) =
exp
−
(Y
−
Xβ)
V
(ϑ)
(Y
−
Xβ)
1
n
2
(2π) 2 |V (ϑ)| 2
1
1 T
−1
=
exp
−
Y
V
(ϑ)
Y
1
n
2
(2π) 2 |V (ϑ)| 2
1
T
· exp − β − β̃(ϑ) X T V (ϑ)−1 X β − β̃(ϑ)
(∗)
2
1
· exp − β̃(ϑ)T X T V (ϑ)−1 X β̃(ϑ)
2
110
Beachte, dass der zweite Faktor (∗) auf der rechten Seite bis auf fehlenden Normierungsfaktor
−1
eine multivariaten Normalverteilung in β mit Erwartung β̃(ϑ) und Covarianz X T V (ϑ)−1 X
ist. Daher ergibt sich
Z
1
p(Y; β, ϑ)dβ =
|X T V (ϑ)−1 X| 2
(2π)
n−p
2
1
|V (ϑ)|− 2
1
exp − YT V (ϑ)−1 Y − β̃(ϑ)T X T V (ϑ)−1 X β̃(ϑ) .
2
T
Nun beachte noch, dass der Term in exp sich schreiben lässt als − Y − X β̃(ϑ) V (ϑ)−1 Y −
X β̃(ϑ) /2.
Man verwendet nun das argmax von LR (ϑ) als Schätzer, dieser heißt auch restringierter
ML-Schätzer, Bezeichnung ϑ̂REM L .
Für ϑ̂ = ϑ̂M L oder ϑ̂ = ϑ̂REM L erhält man Schätzer
R̂ = R(ϑ̂), Ĝ = G(ϑ̂), V̂ = V (ϑ̂).
KONSISTENZ!!! REFERENZ!!!
Schätzung und Vorhersage der fixen und zufälligen Effekte und Hypothesentests
Für Schätzer R̂ und Ĝ bilde V̂ = R̂ + W ĜW T und die Schätzer
β̂ = (X T V̂ −1 X)−1 X T V̂ Y,
γ̂ = ĜW T V̂ −1 (Y − X β̂),
und approximiere die Verteilung
0
Â
β̂ − β
≈N
,
0
γ̂ − γ
B̂ T
B̂
Ĉ
,
(68)
wobei sich die Matrizen Â, B̂ und Ĉ durch Einsetzten der Schätzer R̂, Ĝ und V̂ in die
Ausdrücke in (66) ergeben. REFERENZ FÜR ASYMPTOTIK!!! Die Approximation (68)
kann genutzt werden, um
a. Konfidenzintervalle für β
b. Vorhersageintervalle für γ
c. gemeinsame Konfidenz- / Vorhersageintervalle
zu konstruieren.
Das Testen linearer Hypothesen U β = m kann durch den Likelihood Quotienten Test
(LQT) oder den Wald-Test
T = (U β̂ − m)T (U T ÂU )−1 (U β̂ − m)
erfogen, wobei man die Verteilung basierend auf (68) durch eine geeignete χ2 -Verteilung
approximiert. Für den LQT muss allerdings der Maximum Likelihood Schätzer (und nicht
der restringierte ML Schätzer) ϑM L gewählt werden. Der LQT ist prizipiell auch zum Testen
von Hypothesen an ϑ geeignet. Hierbei muss man jedoch sorgfältig vorgehen und prüfen, ob
7.4 Verallgemeinerte lineare gemischte Modelle
111
die notwendigen Regularitätsbedingungen erfüllt sind. So gilt die χ2 Approximation nicht,
falls ϑ auf dem Rand liegt. Dies ist bei Hypothesen an ϑ häufig der Fall, etwa in folgenden
Beispiel.
Beispiel.
Sei
Yij = β 1 + β 2 xij + γ 0i + εij ,
i = 1, . . . , m,
j = 1, . . . , n.
wobei εij ∼ N (0, σ 2 ), γ 0i ∼ N (0, τ02 ) und diese unabhängig seien. Von besonderem Interesse wäre die Hypothese H : τ02 = 0, d.h. die Überprüfung, ob überhaupt zufällige Effekte
vorliegen. Diese kann jedoch nicht ohne weiteres mit dem LQT (bzw. der gewöhnlichen χ2
Approximation) getestet werden.
relevante R Befehle
Die library lme4 enthält die Funktion lmer zum Anpassen von linearen (und auch verallgemeinerten linearen) gemischten Modellen. Der zufällige Effekt wird
spezifiziert durch (KOEFFIZIENT|GRUPPIERUNG), wobei der Achsenabschnitt als Koeffizient
mit einbezogen wird. Es steht dann auch die anova Funktion zum Testen bereit. Alternativ
kann die Funktion lme aus der library nlme verwendet werden. Hier werden zufällige Effekte
über die Option random = ~ KOEF|GRUPPE spezifiziert.
7.4
Verallgemeinerte lineare gemischte Modelle
Auch im Kontext von verallgemeinerten linearen Modellen können neben festen auch zufällige Effekte berücksichtigt werden. Die Modellbildung ist ganz analog zum LMM, aber die
Schätzung ist technisch wesentlich schwieriger. Wir gehen daher nur auf die Grundzüge ein.
Modell für Longitudinal- und Cluster-Daten Wir betrachten zunächst Modelle für longitudinale oder Clusterdaten, bei denen die abhängige Variable eine Dispersionsexponentialfamilie (DEF) als Verteilung hat. Es liegen also Beobachtungen (Yij , xij ), i = 1, . . . , m,
j = 1, . . . , ni , vor, wobei
a. Für jedes i sind Yij |γ i , j = 1, . . . , ni unabhängig und verteilt nach einer DEF.
b. Die zufälligen Effekte γ i sind unabhängig und identisch normalverteilt, γ i ∼ N (0, D),
i = 1, . . . , m.
c. Der bedingte Erwartungswert E(Yij |γ i ) hängt mit dem linearen Prädiktor ηij = xTij β +
T γ über die streng monoton wachsende Linkfunktion g in folgender Weise zusammen:
wij
i
E(Yij |γ i ) = g −1 (ηij ).
Dabei ist wij ein Teilvektor von xij , und β bezeichnet die festen Effekte.
Die wichtigsten Spezialfälle sind gemischte logistische Modelle und gemischte Poisson Modelle.
a. Yij |γ j Bernoulli-verteilt, g logit-Link, also
log
P (Yij = 1|γ i )
T
= xTij β + wij
γ i.
P (Yij = 0|γ i )
112
b. Yij |γ i ∼ Poi(λij ), g log-Link, also
T
log λij = xTij β + wij
γ i.
Ähnlich wie bei LMMs kann man diese Modelle in folgender Definition zusammenfassen. Man
kann dieses Modell wieder zusammenfassen zu folgender allgemeiner Definition.
Definition des verallgemeinerten linearen gemischten Modells (GLMM) Beobachtet
werden abhängige Zufallsvariable Y = (Y1 , . . . , Yn )T und Designmatrizen
 T
 T
x1
w1
 .. 
 .. 
n×p
X= . ∈R
,
W =  .  ∈ Rn×q .
xTn
wnT
Für feste Effekte β ∈ Rp und γ ∈ Rq (nicht beobachtete) zufällige Effekte bilde linearen
Prädiktor
η = Xβ + W γ.
Falls a Yi |γ sind unabhängig und verteilt nach DEF,
b.Für µi = E(Yi |γ) gilt g(µi ) = xTi β + wiT γ = ηi ,
c. Die zufälligen Effekte sind normalverteilt, γ ∼ N (0, G),
dann folgen (Y, X, W ) einem verallgemeinerten linearen gemischten Modell (GLMM).
Bemerkung
1. Die Annahme der bedingten Unabhängigkeit Yi |γ entspricht im LMM unabhängigen Fehlern εi , also einer Diagonalmatrix R. Weitergehende Abhängigkeiten sind im GLMM Kontext
schwer zu modellieren, und häufig neben den zufälligen Effekten vernachlässigbar.
2. Im Gegensatz zum LMM kann die marginale Verteilung von Y bzw. Yi ,
Z
f (Yi ) = f (Yi |γ) · f (γ)dγ,
f (γ) Dichte von N (0, G),
in einem GLMM nur selten explizit berechnet werden.
Momentenstruktur im GLMM
Im GLMM gilt
T
EYi = E(E(Yi |γ)) = Eµi = E(g −1 (xTij β + wij
γ)),
T
Var Yi = Var(E(Yi |γ)) + E(Var(Yi |γ)) = Var(g −1 (xTij β + wij
γ)) + E(ϕ · V (µi )),
wobei V = b′′ ◦ (b′ )−1 (und b in der DEF definiert ist). Wegen Cov(Yi , Yj |γ) = 0, i 6= j, ist
weiter
Cov(Yi , Yj ) = Cov(E(Yi |γ), E(Yj |γ)) + E(Cov(Yi , Yj |γ)) = Cov(µi , µj ).
Schätzen im GLMM
113
Wir nehmen wieder an, die Kovarianzmatrix G der zufälligen Effekte sei über einen Parameter
ϑ bestimmt, G = G(ϑ). Dann sind die Ziele im GLMM das Schätzen der Parameter (β, ϑ)
sowie die Vorhersage von der zufälligen Effekte γ.
Ansätze
a. Zur Schätzung von (β, ϑ) kann das marginale Modell
Z
L(β, ϑ) = f (Y|β, γ) · f (γ|ϑ)dγ
(69)
benutzt werden, wobei f (γ|ϑ) die Dichte von N (0, G(ϑ)) ist, und wegen der bedingten Unabhängigkeit
n
Y
f (Yi |β, γ)
f (Y|β, γ) =
i=1
gilt. Man schätze dann (β, ϑ) als argmax von (70).
Man muss aber das Integral in (70) numerisch auswerten, welches bei mehrdimensionalen
zufälligen Effekten sehr schwer wird. Dieser Zugang ist daher nur bei wenigen zufälligen
Effekten (meistens nur univariates γ) geeignet.
b. Man kann auch (β, ϑ) schätzen und γ Vorhersagen in einem gemeinsamen Schritt durch
maximieren von
L(γ; β, ϑ) = f (Y|γ; β) · f (γ|ϑ).
Logarithmieren liefert
1
Lpen (β, γ, ϑ) = L(β, γ) − γ T G(ϑ)γ + const,
2
(70)
wobei L(β, γ) die log-Likelihood Funktion der DEF ist, etwa für Poisson
L(β, γ) =
n
X
(Yi log λi − λi ),
log λi = ηi = xTi β + wiT γ.
i=1
Man schätzt/vorhersagt dann (β, γ, ϑ) als argmax von (70). Dazu wird häufig so vorgegangen,
dass (70) für festes ϑ in (β, γ) maximiert wird und ϑ durch eine Approximation von (70),
etwa Laplace Approximation, vereinfacht geschätzt wird.
relevante R Befehle
Bei der Funktion lmer (library lme4) können auch verallgemeinerte
lineare gemischte Modelle geschätzt werden, wobei die DEF über family wie in glm spezifiziert
wird.
8
8.1
Nichtparametrische Dichteschätzung
Problemstellung
Gegeben seien unabhängige, identisch verteilte reellwertige Beobachtungen X1 , . . . , Xn mit
Verteilungsfunktion F (x) = P (X1 ≤ x). Angenommen, die Xi haben eine Dichte f (x)
114
8
NICHTPARAMETRISCHE DICHTESCHÄTZUNG
bezüglich des Lebesque-Maßes dx, also
µ(A) = P (X1 ∈ A) =
Z
f (x)dx,
A Borel-meßbar,
A
und dann
F (x) =
Z
x
f (t)dt.
−∞
Sowohl die Verteilungsfunktion F (x) als auch die Dichte f (x) bestimmen eindeutig die Verteilung µ der Xi , sie tragen also die gleiche Information. Die Verteilungsfunktion kann man
leicht durch die empirische Verteilungsfunktion
n
F̂n (x) =
1X
1(−∞,x] (Xk )
n
k=1
schätzen. Dennoch ist man oft eher an Schätzungen der Dichte als an Schätzungen der Verteilungsfunktion interessiert. Zum einen trägt f (x) erheblich mehr visuelle Information als
die Verteilungsfunktion, Schätzung von f hat also als Hauptziel die deskriptive Analyse der
Verteilung der Xi . Darüber hinaus liegt ein geschätztes f weiteren statistische Verfahren,
etwa Anpassungstests, zugrunde.
Die Schätzung von f kann auf verschiedene Arten geschehen.
a. parametrisch. Man nimmt an, dass f (x) ∈ {f (x, ϑ)|ϑ ∈ Θ ⊂ Rn } aus einer endlichdimensionalen parametrischen Familie stammt (d.h. Θ ist endlich-dimensional). Zunächst
schätzt man den unbekannten Parameter ϑ, etwa mit Hilfe der Maximum-Likelihood Methode, und erhält ϑ̂. In einem zweiten Schritt bildet man f (·, ϑ̂) als Schätzung für f .
Als Vorteile dieses Ansatzes sind zu nennen: Man hat ein einfaches, leicht zu interpretierendes
Modell (d.h. man muss nur endlich viele Parameter interpretieren), und man erhält eine sehr
effiziente Schätzung, falls das parametrische Modell korrekt ist, d.h. falls es tatsächlich den
Daten zugrunde liegt.
Falls dies jedoch nicht der Fall ist (wovon bei realen Daten stets auszugehen ist), erhält man
eine inkonsistente Schätzung. Man kann häufig zeigen, dass auch falls f (x) 6∈ {f (x, ϑ)|ϑ ∈
Θ ⊂ Rn } der ML Schätzer ϑ̂ gegen einen wohldefinierten Parameter und somit der Funktionenschätzer f (·, ϑ̂) gegen eine Dichte f ∗ , die beste Approximation in f (x, ϑ) an f bezüglich
des Kulback Leibler Abstandes, konvergiert. Dennoch stellt sich die Frage, ob man mit der
Approximation f ∗ an f zufrieden ist.
b. nichtparametrisch Alternativ kann man f nichtparametrisch, also ohne endlichdimensionale parametrische Restriktionen und nur unter gewissen Glattheitsannahmen (etwa f ∈ C 1 )
schätzen. Man hat dann eine erheblich flexiblere Schätzung, die wesentlich mehr Dichten konsistent schätzt. Diese Schätzung ist jedoch weniger effizient, die wahre Dichte f wird nur bei
großen Datenmenge gut geschätzt. Auch die nichtparametrische Schätzung schätzt nicht “alle” Dichten, schon gar nicht in der Praxis für endliche Stichproben, korrekt oder approximativ
korrekt. Aber sie dient häufig als erster Schritt einer Datenanalyse, und wird zur Auswahl der
parametrischen Familie, in der die Dichte in einem zweiten Schritt geschätzt wird, genutzt.
Zwischen nichtparametrischer und parametrischer Schätzung steht noch die sogenannte semiparametrische Schätzung, auf die wir hier aber nicht weiter eingehen wollen.
8.2 Kern-Dichte Schätzung
115
relevante R Befehle Die Funktion ecdf berechnet die empirische Verteilungsfunktion (ein
Objekt vom Typ stepfun, welches mit plot.stepfun geplottet werden kann (oder direkt
mit plot.ecdf).
8.2
Kern-Dichte Schätzung
Wir wiederholen zunächst noch einige Eingenschaften der Faltung auf R.
a. Für f, g ∈ L1 ist diese definiert durch
Z
f (x − y)g(y)dy.
(f ∗ g)(x) =
R
b. Ist µ σ-endliches Maß auf R und f (x − ·) ∈∈ L1 (µ) für x ∈ R, dann
Z
f (x − t)dµ(t).
(f ∗ µ)(x) =
R
Ist insbesondere dµ(x) = g(x)dx absolut stetig bzgl. des Lebeques Maßes, dann ist (f ∗g)(x) =
(f ∗ µ)(x).
R
Sei nun K ∈ L1 , K = 1 ein Kern. Für h > 0 setze
Kh (x) = K(x/h)/h.
Dann gilt für g ∈ L1 und h → 0 die Konvergenz Kh ∗ g − g → 0 in L1 . Unter zusätzlichen
Annahmen gilt die Konvergenz auch punktweise oder in L2 .
Wir betrachten nun wieder X1 , . . . , Xn u.i.v. mit Dichte f , und es sei µ die Wahrscheinlichkeitsverteilung der Xi , also dµ(x) = f (x)dx. Dann gilt (in L1 )
Kh ∗ µ = Kh ∗ f → f (h → 0).
(71)
Weiter kann µ geschätzt werden durch das empirische Maß
n
1X
δ Xk ,
µ̂n =
n
δx (A) =
k=1
1, x ∈ A
0, sonst
Um einen Schätzer von f zu erhalten, ersetze in (71) die Verteilung µ durch die empirische
Verteilung µ̂. Dies ergibt
fˆn (x; h) = Kh ∗ µ̂n
n
1 X x − Xk =
K
nh
h
k=1
den Kern-Dichte Schätzer für f mit Kern K und Bandbreite h > 0. Durch Integration
erhält man einen geglätteten Schätzer für die Verteilungsfunktion:
F̂n (x; h) =
n
1 X x − Xk L
,
n
h
k=1
L(x) =
Z
x
K(t)dt.
−∞
116
8
Eigenschaften des Kern-Dichte Schätzers
Erwartungswert
1
E fˆn (x; h) =
h
Z
Varianz
1 1
Var fˆn (x; h) = ( 2
n h
Z
K2
x − t
h
K
x − t
h
f (t)dt = (Kh ∗ f )(x).
f (t)dt − (Kh ∗ f )2 (x)) =
1 2
(K ∗ f − (Kh ∗ f )2 )(x). (72)
n h
Wie üblich kann man den mittleren quadratischer Fehler (MSE) zerlegen in BIAS2 und Varianz
MSE(fˆn (x; h)) = E(fˆn (x, h) − f (x))2 = E(fˆ − E fˆ)2 (x) + (E fˆ − f )2 (x).
Um die Konsistenz des Kern-Dichte Schätzers sowie eine Konvergenzrate herzuleiten, machen
wir die folgenden Annahmen.
Annahmen
A. f ∈ C 2 (R) mit beschränkter 2. Ableitung
B. Der Kern K ist eine beschränkte, symmetrische Wahrscheinlichkeitsdichte mit kompaktem
Träger in ⊂ [−M, M ] für ein M > 0.
C. Die Bandbreite h = hn erfüllt hn → 0 und nhn → ∞.
Lemma 8.1
Unter den Annahmen A, B und C gilt für den BIAS von fˆn (x; h)
E fˆn (x; h) − f (x) = f ′′ (x)
Beweis
Es ist
E fˆn (x; h) =
Z
h2
2
Z
z 2 K(z)dz + O(h2 ).
f (x − t)K(t/h)/h dt =
Z
(73)
f (x − hz)K(z)dz.
Wegen Annahme B. genügt es, für z ∈ [−M, M ] die Taylorentwicklung
1
f (x − hz) = f (x) − hzf ′ (x) + h2 z 2 f ′′ (ξ)
2
1
= f (x) − hzf ′ (x) + h2 z 2 f ′′ (x) + h2 C(x, z)
2
(74)
zu betrachten. Hier ist ξ = ξx,z ∈ x + [−hM, hM ], C(x, z) = 21 z 2 (f ′′ (ξ) − f ′′ (x)) = O(1)
gleichmäßig in z ∈ [−M, M ], da nach Annahme A f ′′ stetig in x und ξ ∈ x + [−hM, hM ].
Integration von (74) mit K liefert (73).
Lemma 8.2
Unter den Annahmen A, B und C gilt für die Varianz von fˆn (x; h)
Var fˆn (x; h) =
1
nh
Z
K 2 (z)dz · f (x) + O(
1
)
nh
8.3 Integrierter mittlerer quadratischer Fehler
117
Beweis
Für z ∈ [−M, M ] ist f (x − hz) − f (x) = −hzf ′ (ξ), also
f (x − hz) = f (x) + O(h).
Somit
Kh2
Z
1
∗ f (x) =
h
1
f (x − hz)K (z)dz = f (x)
h
2
Die Behauptung folgt dann mit (2).
Z
K 2 (z)dz + O(h)
Aus Lemma 8.1 und 8.2 erhält man
Satz 8.3
Unter den Annahmen A, B und C gilt für den mittleren quadratischen Fehler von fˆn (x; h)
4Z
h
MSE(fˆn (x, h)) = (f ′′ (x))2
4
2
z K(z)dz
2
1
+ f (x)
nh
Z
K 2 (z)dz+O(h4 )+O (nh)−1
(75)
Der Kern-Dichte Schätzer fˆn (x; h) ist also konsistent in der Klasse der C2 Dichten. Für geeignete Wahl von h erhält man auch eine Konvergenzrate.
Korollar 8.4
1
Unter den Annahmen A, B und C gilt für h ≈ n− 5
4
MSE(fˆn (x, h)) = O(n− 5 ).
Man kann zeigen, dass dies auch die optimale Konvergenzrate in der Klasse der bei x zweimal
stetig differenzierbaren Dichten ist, wobei die zweite Ableitung durch eine feste Konstante
beschränkt sein muss. Die Konvergenzrate ist also langsamer als das n−1 im parametrischen
Fall.
relevante R Befehle Die Funktion density berechnet den Kern Dichte Schätzer, der direkt
mit plot geplottet werden kann. Für Optionen siehe nächster Abschnitt.
8.3
Integrierter mittlerer quadratischer Fehler
Der mittlere integrierte quadratische Fehler (MISE) des Schätzers fˆn (x; h) ist definiert durch
Z
Z
2
2
ˆ
ˆ
E f (x, h) − f (x) dx = E
fˆ(x, h) − f (x) dx.
MISE(f (·, h)) =
R
R
Der MISE berücksichtig den quadratischen Fehler von fˆn (x; h) nicht nur an einem Punkt x,
sondern auf ganz R. Daher ist der MISE zur Untersuchung der globalen Eigenschaften von
fˆn (x; h) gut geeignet. Wir benötigen zur Behandlung des MISE noch eine weitere
Annahme D. Es sind f, f ′′ ∈ L2 , und |f ′′ | wird schliesslich monoton.
118
8
Wenn man die Darstellung (75) naiv integriert, erhält man also
1
MISE(fˆ(·, h)) =
4
Z
′′
2
4
f (x) dx h
Z
2
z K(z)dz
2
1
+
nh
Z
K 2 (z)dz + O(h4 ) + O(
1
).
nh
Hierbei muss man jedoch aufpassen, da die Restterme in (75) von der Stelle x abhängen.
Unter der Annahme D ist jedoch die Inegration zulässig. Wir geben dafür das Argument für
den integrierten quadratischen Bias, und benutzten die Notation des Beweises von Lemma
8.1.
Sei ǫ > 0, wir müssen h0 > 0 genügend klein finden, so dass für h ≤ h0 gilt:
Z
C(x, z)2 dx < ǫ.
(76)
R
R
Wegen Annahme D kann man A > 0 wählen, so dass |x|>A C(x, z)2 dx < ǫ/2. Da weiter f ′′
auf einem kompakten Intervall gleichmäßig stetig ist, kann man h0 so klein wählen, dass
1/2
|C(x, z)| < ǫ/(4A)
,
|ξ − x| < hM, x ∈ [−A, A].
Es ergibt sich (76).
Wenn man die Restterme unberücksichtigt lässt, erhält man den asymptotischen MISE
Z
1 4 2
ν0 (K)
ˆ
AMISE(f (·, h)) = h µ2 (K)
f ′′ (x)2 dx +
,
(77)
4
nh
wobei
ν0 (K) =
Z
2
K (z)dz,
µ2 (K) =
Z
z 2 K(z)dz.
Durch Ableiten von AMISE(fˆ(·, h)) nach h und Null setzen erhält man die AMISE-optimale
Bandbreite
1
ν0 (K)
5
R
hopt =
,
(78)
nµ22 (K) f ′′ (x)2 dx
sowie den minimalen AMISE
5 4
min AMISE(fˆ(·, h)) = n− 5 µ2 (K)2 ν04 (K)
h>0
4
Z
f ′′ (x)2 dx
1
5
.
(79)
Die Bandbreite hopt hängt von dem unbekannten f durch die zweite Ableitung f ′′ ab, und
kann daher nicht direkt benutzt werden. Im nächsten Abschnitt werden wir uns mit der
praktischen Bandbreitenwahl beschäftigen.
Kernwahl
Für die optimale Bandbreite
R ′′ 2 hopt hängt der minimale AMISE in (79) noch von der Wahl
des Kerns sowie von f (x) dx ab. Um den AMISE möglichst klein zu machen, sollte K so
gewählt werden, dass
1
C(K) := µ2 (K)2 ν04 (K) 5
minimal wird. Zunächst bemerken wir, dass C(K) nicht von der Skalierung des Kerns K
abhängt. Für eine Skalenfamilie Kδ (x) = K(x/δ)/δ von Kernen gilt
ν0 (Kδ ) = R(K)/δ,
µ2 (Kδ ) = δ 2 µ2 (K),
8.3 Integrierter mittlerer quadratischer Fehler
119
und somit C(K) = C(Kδ ).
Man kann nun den Kern (bzw. einen Repräsentaten der Skalenfamilie) mit minimalem C(K)
explizit angeben. Dies ist der sogenannte Epanechnikov-Kern
3
K ∗ (x) = (1 − x2 )1|x|<1 ,
4
vgl. etwa REFERENZ! Weitere häufig benutzte Kerne sind
K(x) = (1 − |x|)1|x|<1
K(x) =
Dreieckskern,
x2 )2 1|x|<1
(1 −
25 B(3, 3)
K(x) = φ(x)
1
K(x) = 1|x|<1
2
Biweight Kern,
Normalverteilungskern,
Rechteckskern.
Für den Normalverteilungskern K(x) = φ(x) ist Annahme B eines kompakten Trägers nicht
erfüllt. Dennoch kann man zeigen, dass Satz 8.3 sowie die asymptotische Formel für den minimalen MISE (79) auch für diesen Kern gelten (REFERENZ!). Die folgende Tabelle vergleicht
die Kernkonstante C(K) mit der des optimalen Epanechnikov Kerns.
Kern
Epanechnikov
Dreieckskern
Biweight
Normalverteilungskern
Rechteckskern
C(K ∗ )/C(K)
1
0,986
0,994
0,951
0,930
Die Kernwahl hat also sowohl theoretisch als auch praktisch relativ wenig Einfluss auf die
Güte der Dichteschätzung. Der Dichte Schätzer ist aber nur so glatt wie der gewählte Kern.
Am häufigsten benutzt man den Normalverteilungskern.
Wir gehen noch kurz auf den Zusammenhang zwischen Histogramm und Kern-Dichte Schätzer
mit dem Rechteckskern ein. Für eine Unterteilung a0 < a1 < . . . < ad , für die alle Daten in
(a0 , ad ) liegen, setzte
ns = #{k : Xk ∈ (as−1 , as ]},
s = 1, . . . , d.
Das Histogramm ist nun der Dichte Schätzer
fnHist (x) =
d
X
ns
s=1
n
·
1
1
(x).
as − as−1 (as−1 ,as ]
Der Kern-Dichte-Schätzer mit Rechteckskern berechnet sich dagegen zu
n
#{k : Xk ∈ (x − h, x + h)} 1
1 X
1(−h,h) (x − Xk ) =
·
.
fˆn (x; h) =
2nh
n
2h
k=1
120
8
Die Form ist zunächst recht ähnlich zu der eines Histogramms, aber bei dem Kern-Dichte
Schätzer wird keine feste Zerlegung des Intervalles betrachtet, sondern diese variieren mit x.
Man kan zeigen (REFERENZ), dass der Histogramm Schätzer fnHist (x) nur eine Konvergenzrate von n−2/3 erreichen kann, während fˆn (x, h) für zweimal differenzierbares f die schnellere
Rate von n−4/5 erreicht.
Wie schwer ist es, f zu schätzen?
R
Der minimale AMISE in (79) hängt auch von der zu schätzenden Dichte f über f ′′ (x)2 dx
ab. Man kann nun untersuchen, wie schwer es ist, eine bestimmte Dichte mit dem Kern-Dichte
Schätzer zu schätzen, indem man
R diese Größe weiter untersucht.
Zunächst bemerken wir, dass f ′′ (x)2 dx von der Skalierung abhängt. Für fδ (x) = f (x/δ)/δ
ist
Z
Z
1
′′
2
fδ (y) dy = 5 f ′′ (x)2 dx.
δ
Ein Vergleich ist aber nur für ein skaleninvariantes Maß sinnvoll. Ein mögliches skaleninvariantes Maß ist etwa
Z
1
4
5
D(f ) = σ (f ) f ′′ (x)2 dx ,
(80)
wobei
2
σ (f ) =
Z
2
(x −
Z
xf (x)dx)2 dx.
Dann ist in der Tat D(f ) = D(fa ). Die Wahl von σ 2 (f ) in (80) ist aber relativ willkürlich.
Man kann die Dichte mit minimalem D(f ) auch explizit angeben (s. REFERENZ). Diese ist
f ∗ (x) =
35
(1 − x2 )3 1|x|<1 .
32
Wie schwer es ist, eine Dichte zu schätzen, kann nun in Relation zu f ∗ betrachtet werden.
Dichte
Beta(4,4)
Normal
4
1
4
1
2 N (−1, 9 ) + 2 N (1, 9 )
Gamma(3)
Lognormal
D(f ∗ )/D(f )
1
0,908
0,536
0,327
0,053
Die Lognormalverteilung dient daher häufig als Beispiel für eine besonders schwer zu schätzende Dichte.
relevante R Befehle
Als Option von density kann kernel gesetzt werden
(z.B. kernel="epanechnikov"). Default ist der Gauß Kern. Mit hist erhält man ein Histogramm.
8.4 Bandbreitenwahl
8.4
121
Bandbreitenwahl
Der Kern-Dichte Schätzer hängt sensitiv von der Wahl der Bandbreite h ab. In der Praxis
betrachtet man den Schätzer fˆn (x; h) häufig für verschiedene Bandbreiten. Grob gesprochen
kann man sagen: Ist h zu klein, so wird der Schätzer stark oszillieren, ist dagegen h zu groß
gewählt, ist der Schätzer zu glatt bzw. flach.
Man versucht auch, geeignete Werte der Bandbreite aus den Daten zu schätzen. Meist ist
dabei dass Ziel, die MISE optimale Bandbreite oder auch die AMISE optimale Bandbreite
hopt in (78) zu schätzen. Manchmal ist dies aber auch nicht unbedingt wünschenswert, etwa bei
der Konstruktion von Konfidenzntervallen für f (x) sowie für bestimmte deskriptive Zwecke.
Wir beginnen mit Verfahren zur Schätzung der MISE/AMISE optimalen Bandbreite.
a. Referenz zur Normalverteilung (normal reference)
Hier wählt man hopt optimal für ein normalverteiltes f . Ist f Dichte von N (µ, σ 2 ), dann ist
(Beweis)
Z
3
f ′′ (x)2 dx =
.
1
8π 2 σ 5
Somit ist
8π 12 ν (K) 1
5
0
hopt,norm =
σ.
3n(µ2 (K))2
Schätze hopt,norm durch
ĥN R
8π 12 ν (K) 1
5
0
σ̂,
=
2
3n(µ2 (K))
wobei σ̂ ein Schätzer der Standardabweichung ist. Natürlich ist hopt,norm nur für normalverteiltes f optimal. Da die Dichte der Normalverteilung sehr glatt ist, wird ansonsten hopt,norm
tendenziell größer sein als hopt für eine andere Dichte. Man kann daher hopt, normal als ersten
Richtwert benutzen, und dann h noch schrittweise verkleinern.
b. Least squares cross-validation
Bei diesem Verfahren versucht man, direkt eine MISE-optimale Bandbreite zu wählen. Dazu
entwickelt man
Z
Z
Z
2
ˆ
ˆ
ˆ
MISE f (·, h) = E f (x, h) dx − 2E f (x, h)f (x)dx + f 2 (x)dx.
Um also MISE(fˆ(·, h)) bezüglich der Bandbreite h zu minimieren, genügt es also,
Z
Z
Z
2
2
ˆ
ˆ
MISE f (·; h) − f (x)dx = E f (x; h) dx − 2E fˆ(x; h)f (x)dx
zu minimieren. Die rechte Seite von (81) wird erwartungstreu geschätzt durch
Z
n
2Xˆ
f−i (Xi ; h),
LSCV(h) = fˆ(x, h)2 dx −
n
i=1
wobei
fˆ−i (x; h) =
1 X
Kh (x − Xj ).
n−1
j6=i
(81)
122
8
Hierzu beachte, dass
E
Z
fˆn (x; h)f (x)dx =
Z
EKh (x − X1 )f (x)dx
Z Z
=
Kh (x − y)f (x)f (y)dx dy
= EKh (X1 − X2 )
Dies ist aber offensichtlich der Erwartungswert von fˆ−i (Xi ; h). Man wählt nun
ĥLSCV = argminh>0 LSCV(h).
Das Wort Cross-Validierung bezieht sich auf die Verwendung der Schätzer fˆ−i (Xi ; h), die ohne
die i-te Beobachtung berechnet werden, und dann an dieser Stelle ausgewertet werden.
Der Bandbreiten Schätzer ĥLSCV hat eine sehr hohe Variabilität, und wird daher eher selten
verwendet.
c. Biased cross-validation
Hier
R ′′ soll2 die AMISE-optimale Bandbreite geschätzt werden. Man betrachtet (77), und ersetzt
f (x) dx durch einen Schätzer, der auch die Bandbreite h verwendet. Dazu entwickele
Z
Z
Z
1 X
1 X
fˆ′′ (x, h)2 dx = 2
(Kh )′′ (x − Xi )(Kh )′′ (x − Xj )dx + 2
((Kh )′′ (x − Xi ))2 dx
n
n
i
i6=j
Nun ist
Z
((Kh )′′ (x − Xi ))2 dx =
1
h5
Z
(K ′′ )2 (x)dx
unabhängig von Xi und man verwendet als Schätzer von
R
f ′′ (x)2 dx
1
′′ , h) = R(fˆ′′ (·, h)) −
^
R(K ′′ )
R(f
nh5
Als Zielkriterium erhält man
BCV(h) =
R(K) h4
′′ , h)
^
+ µ2 (k)2 R(f
nh
4
und als Bandbreiten Schätzer
ĥBCV = argminh>0 BCV(h).
Der Schätzer ĥBCV hat zwar eine geringere Varianz als ĥLSCV , überschätzt aber die optimale
Bandbreite häufig (hat also einen positiven Bias).
d. Weitere Bandbreitenverfahren
Es gibt eine Vielzahl von weiteren Bandbreitenwahlverfahren, die etwa mit den Stichworten
“direct Plug-in” oder “solve-the-equation” verbunden werden. Man kann Bandbreitenwahlverfahren auch theoretisch untersuchen, und Konvergenzraten gegen die optimale Bandbreite
studieren. Für weitere Information siehe etwa Wand und Jones (1996).
8.4 Bandbreitenwahl
123
relevante R Befehle
Die Bandbreite wird bei density durch bw=.. gesetzt. Dabei sind
folgende Möglichkeiten implementiert: bw="nrd0" und bw="nrd" (Varianten von normal reference), bw="ucd" und bw="bcd" (unbiased und biased cross validation), bw="SJ-ste" und
bw="SJ-dpi" (solve-the-equation und direct plug in). Die Bandbreiten können auch separat
berechnet werden über die Funktionen bw.nrd, bw.nrd0, bw.ucv, bw.bcv, bw.SJ mit den
Optionen method="ste" und method="dpi".
Konstruktion von Konfidenzintervallen
Es ist nicht immer wünschenswert, die MISE / AMISE-optimale Bandbreite zu benutzen bzw.
zu schätzen. Zur Illustration betrachten wir die Konstruktion von Konfidenzintervallen für
f (x).
Satz 8.5
Unter den Annahmen A, B und C gilt
Beweis
Schreibe
d
1
(nh) 2 fˆn (x; h) − E fˆn (x; h) → N (0, f (x)
Z
K 2 (z)dz)
n
1X
(Zk,n − EZk,n ),
fˆn (x; h) − E fˆn (x; h) =
n
k=1
wobei Zk,n = Kh (x − Xk ) unabhängig und identisch verteilt sind (1 ≤ k ≤ n) für jedes n.
Somit genügt es, die Lyapunov-Bedingung zu prüfen: Für ein δ > 0 gilt
E|Z1,n − EZ1,n |2+δ
δ
δ
n 2 (Var Z1,n )1+ 2
→ 0, n → ∞
Zunächste ist nach Lemma 8.2
Var Z1,n
f (x)
≈
h
Z
K 2 (z)dz.
Für das unzentrierte Moment gilt
E|Z1,n |2+δ =
=
≈
1
h2+δ
1
Z
Z
|K(
x − y 2+δ
)| f (y)dy
h
K(y)2+δ f (x − hy)dy
h1+δ
Z
1
f
(x)
K(y)2+δ dy,
h1+δ
R
wobei K(y)2+δ dy < ∞, da K beschränkt ist und kompaktem Träger hat. Weiter gilt nach
der Minkowski-Ungleichung
1
1
(E|Z1,n − EZ1,n |2+δ ) 2+δ ≤ (E|Z1,n |2+δ ) 2+δ + E|Z1,n |
und nach Hölder
1
E|Z1,n | ≤ (E|Z1,n |2+δ ) 2+δ ,
124
8
also
E|Z1,n − EZ1,n |2+δ ≤ 22+δ E|Z1,n |2+δ .
Daher ist
E|Z1,n − EZ1,n |2+δ
δ
2
1+ 2δ
n (Var Z1,n )
= O(
1
h1+δ
δ
·
h1+ 2
n
δ
2
δ
) = O (hn)− 2 ,
welches mit Annahme C die Lyapounov Bedingung zeigt.
Man kann Satz 8.5 nutzen, um Konfidenzintervalle für E fˆn (x; h) zu konstruieren. Ist q1−α/2
das 1 − α/2 Quantil der Standardnormalverteilung, so ergibt sich
q
q
h
fˆn (x; h) ν0 (K)q1−α/2
fˆn (x; h) ν0 (K)q1−α/2 i
√
√
fˆn (x; h) −
, fˆn (x; h) +
(82)
nh
nh
als asymptotisches Konfidenzintervall für E fˆn (x; h). Bei der Berechnung der Kernkonstante
ν0 (K) in (82) ist darauf zu achten, dass man den richtig skalierten Kern Kδ der entsprechenden
Skalenfamilie (der zur Bandbreite H gehört) wählt. Für den Standardnormalverteilungskern
√
(dieser wird bei density verwendet) ergibt sich z.B. ν0 (K) = 1/(2 π).
Möchte man Konfidenzintervalle für f (x) konstruieren, so muss man noch den Bias E fˆn (x; h)−
f (x) beachten. Hier hat man drei Möglichkeiten.
a. Man ignoriert den Bias, und konstruiert nur ein Konfidenzintervall für Kh ∗ f (x).
1
b. Undersmoothing
Man wählt h → 0 derart, dass (nh) 2 E fˆ(x; h) − f (x) → 0. Da
1
|E fˆ(x; h) − f (x)| ≈ h2 , muss man h = o(n− 5 ) wählen, also mit kleinere Rate als die optimale
Bandbreite hopt . Dies nennt man unterglätten, hier ist es jedoch in der Praxis sehr schwierig,
das richtige Maß an Unterglättung zu finden.
c. Explizite Bias-Korrektur Man schätzt f ′′ (x) und somit den ersten Term f ′′ (x)h2 µ2 (K)
in der Entwicklung des Bias in Lemma 8.1, und subtrahiert, d.h. betrachtet
1
1
(nh) 2 fˆn (x; h) − f (x) − fˆ′′ (x; h̃)h2 µ2 (K))
2
Nach Bias-Korrektur kann in der Theorie hopt verwendet werden. Das Problem ist jedoch, dass
die Schätzung von f ′′ sehr schwierig ist, und eine eigene Bandbreitenwahl erfordert. Somit ist
dies Verfahren für die Praxis wenig geeignet.
Anzahl der Moden
Eine Mode einer Dichte oder allgemeiner einer Funktion ist einfach ein lokales Maximum. Offenbar nimmt tendenziell die Anzahl der Moden von fˆn (·; h) für wachsendes h ab, der Schätzer
wird immer glatter und weniger “hügelig”. In der Tat kann man fˆn (·; h) mit verschiedenen
Bandbreiten auch zum Studium der Anzahl der Moden von f verwenden.
Wir gehen etwas allgemeiner vor. Ein Schätzer für die j-te Ableitung von f ist gegeben durch
fˆn(j) (x; h) =
n
1 X (j) x − Xj
K (
)
nhj+1
h
k=1
(83)
8.4 Bandbreitenwahl
Setze
125
vj (h, I) := #{Moden von fˆn(j) (·, h) in I}, I ⊂ R,
vj (h) := vj (h, R)
Für den Normalverteilungskern ist der oben beobachtete tendenzielle monoton fallende Zusammenhang zwischen Bandbreite h und Anzahl der Moden von fˆn (·; h) exakt vorhanden.
Satz 8.6
Sei K = φ in (83) der Normalverteilungskern. Dann gilt vj (h) < ∞ ∀h > 0, j = 0, 1, 2, . . .,
und vj (·) ist monoton fallend und rechtsseitig stetig.
Beweis
(j+1)
Sei µj+1 (h) = #{Vorzeichenwechsel von fˆn
(·; h)}. Es ist φ(j+1) (x) = (−1)j+1 Hj+1 (x)φ(x),
j+1
wobei Hj+1 (x) = x
+ . . . das (wahrscheinlichkeitstheoretische) (j+1)-te Hermite-Polynom
ist, also
n
x − X x − X 1 X
k
k
(j+1)
ˆ
H
fn
(x; h) =
φ
.
j+1
j+1
nh
h
h
k=1
(j+1)
Somit gilt (−x)j+1 fˆn
(x; h) > 0 für |x| groß. Daraus folgt, dass
vj (h) =
µj+1 (h)
,
2
(84)
(j+1)
und das alle Vorzeichenwechsel von fˆn
(x; h) in einem kompakten Intervall liegen. Nun
(j+1)
ist fˆn
(z; h) offenbar als Funktion von z ∈ C holomorph in ganz C. Nullstellen (und somit
Vorzeichenwechsel) können sich somit nach dem Identitätssatz der Funktionentheorie nirgends
(j+1)
(j+1)
häufen, da sonst fˆn
≡ 0. Also kann fˆn
nur endlich viele Nullstellen und somit auch
Vorzeichenwechsel in einem kompaktem Intervall haben, also µj+1 (h) < ∞, und wegen (84)
auch vj (h) < ∞.
Wegen (84) genügt es, die Monotonie und rechtseitige Stetigkeit für µj+1 (h) zu zeigen. Dazu
(j+1)
betrachte wir die Fourier-Transformation (charakteristische Funktion) von fˆn
(·, h), die
sich zu
Z
(j+1)
ˆ
fˆn(j+1) (x; h)eitx dx = φ(ht)(−it)j+1 · ecn (t)
(·; h) (t) =
F fn
R
berechnet, wobei
n
ecn (t) =
1 X itXk
e
n
k=1
die empirische charakteristische Funktion bezeichnet. Somit ist für h2 > h1 > 0:
F fˆn(j+1) (·, h2 ) (t) = ecn (t) · φ(h2 t) · (−it)j+1
1
Daher ist
= ecn (t) · (−it)j+1 · φ(h1 t) · φ((h22 − h21 ) 2 t)
1 = F fˆn(j+1) (·, h1 ) (t) · φ (h22 − h21 ) 2 t
1
fˆn(j+1) (x; h2 ) = (fˆn(j+1) (·, h1 ) ∗ φ ·; (h22 − h21 ) 2 (x),
126
8
wobei φ(x; σ) die Dichte von N (0, σ 2 ) ist. Da diese total positiv ist, folgt, dass die Faltung
1
mit φ ·; (h22 − h21 ) 2 die Anzahl der Vorzeichenwechsel µj+1 (h) reduziert. Somit ist µj+1 (h)
monoton fallend in h.
Es bleibt die rechtsseitige Stetigkeit zu zeigen. Wir betrachten etwa gerades j, und es seien
(j+1)
(j+1)
a1 < b1 < . . . < ar < br , so dass fn
(ai , h0 ) < 0, fn
(bi , h0 ) > 0, also dass jeweils ein
(j+1)
Vorzeichenwechsel zwischen diesen Punkten liege. Wegen der Stetigkeit von fn
(ai , ·) bzw.
(j+1)
fn
(bi , ·) gilt dies auch für h ∈ (h0 , h0 + ε). Daher gilt
lim µj+1 (h) ≥ µj+1 (h0 ).
h↓h0
Da µj+1 (h) aber monoton fallend ist, muss hier Gleichheit stehen, welches die rechtsseitige
Stetigkeit ergibt.
Satz 8.6 zeigt, dass für den Normalverteilungskern die sogenannte k-kritische Bandbreite
hkrit (k) = inf{h : fˆn (·; h) hat k (oder weniger) Moden}
wohldefiniert ist. Die Untersuchung des Dichte Schätzers für verschiedene kritische Bandbreiten
k = 1, 2, 3, . . . ,
fˆn ·; hkrit (k) ,
ist ein gutes deskriptives Tool, um eine Vorstellung von der Anzahl und der Struktur der Moden von f zu bekommen. Man kann die kritischen Bandbreiten hkrit (k) auch zur Konstruktion
eines formalen Tests auf die Anzahl der Moden nutzen, s. Silverman (1981).
8.5
Modifikationen des Kern-Dichte Schätzers
Manchmal sind Modifikationen des einfachen Kern-Dichte Schätzers nötig, um die Schätzung
konsistent zu machen oder zu verbessern. Wir betrachten einige solche Situationen.
a. Randkorrektur
Bisher hatten wir angenommen, dass f um x herum zweimal stetig differenzierbar ist. Nun
betrachten wir den Fall, dass x ein Randpunkt des Trägers von f ist.
Wir nehmen dazu speziell an, dass f (x) = 0 für x < 0, f (x) > 0 für x ≥ 0 und f ist zweimal
stetig rechtseitig differenzierbar in 0. Der symmetrische Kern K habe Träger in [−1, 1]. Dann
ist für die Kern-Dichte Schätzung
E fˆn (x; h) = Kh ∗ f (x) =
Z
R
K(z)f (x − hz)dz =
Z
min(x/h,1)
−1
K(z)f (x − hz)dz
Für x = 0 ist speziell
Kh ∗ f (0) =
Z
0
1
K(z)f (0 − hz)dz = f (0) + O(h),
2
−1
8.5 Modifikationen des Kern-Dichte Schätzers
127
die Schätzung ist also asymptotisch bei 0 verzerrt und unterschätzt f (0).
Man betrachtet nun allgemeiner einen Randpunkt (genauer: Folge von Randpunkten) xn =
α · h, wobei 0 ≤ α < 1. Dann
Z α
K(z)f (xn − hz)dz
Kh ∗ f (xn ) =
−1
1
= f (xn ) · µ0,α (K) − hf ′ (xn )µ1,α (K) + h2 f ′′ (xn )µ2,α (K) + O(h2 ),
2
wobei
µi,α (K) =
Z
α
z i K(z)dz.
−1
Da für α < 1 in der Regel µ0,α (K) < 1, hat der Schätzer bei einer Folge von Randpunkten
einen asymptotischen Bias. Man hat verschiedene Möglichkeiten, diesen zu korrigieren.
1. Renormalisierung. Für xn = α · h, 0 ≤ α < 1, renormalisiere den Schätzer
f˜n (xn , h) =
1
nµ0,α (K)
n
X
k=1
Kh (x − Xk )
Dann gilt
E f˜n (xn , h) − f (xn ) = −hf ′ (xn )
µ1,α (K)
+ O(h2 )
µ0,α (K)
Man erhält also eine konsistente Schätzung. Da aber µ1,α (K) 6= 0, hat der Bias Ordnung O(h)
und nicht O(h2 ), wie im Fall von inneren Punkten.
2. Randkern. Für xn = α · h, 0 ≤ α < 1, benutze den von α abhängigen Randkern
Kα (u) = tα (u)K(u)1[−1,α) (u)
bei der Konstruktion von fˆn (xn ; h). Dabei erfülle die Funktion tα (u)
Z α
Z α
ntα (n)K(n)dn = 0
tα (n)K(n)dn = 1,
(85)
−1
−1
In diesem Fall ergibt sich für den Bias wie gewünscht
Z α
1 2 ′′
u2 tα (u)K(u)du + o(h2 ),
Kα,h ∗ f (xn ) − f (xn ) = h f (xn )
2
−1
also ein Fehler der Ordnung O(h2 ). Für die Wahl der Funktion tα (n) hat man viele Möglichkeiten. Eine besonders einfache ist ein linearer Ansatz tα (n) = aα + nbα . Setzt man diese
Form in (85) ein und integriert aus, erhält man ein lineares Gleichungssystem in aα , bα
aα =
µ2,α
,
µ2,α µ0,α − µ21,α
bα = −
µ1,α
.
µ2,α µ0,α − µ21,α
b. Transformation
Angenommen, gegeben seien X1 , . . . , Xn ∼ f , aber die Dichte f sei schwer zu schätzen (etwa
128
8
die Lognormalverteilung). Dann kann man Yi = T (Xi ) setzten, wobei T eine streng monotone
Transformation ist (etwa logarithmieren). Dann gilt für die Dichte g der Yi
f (x) = g(T (x)) · T ′ (x).
(86)
Dies ergibt sich direkt aus P (X1 ≤ x) = P (T −1 (Y1 ) ≤ x) = P (Y1 ≤ T (x)) und Ableiten.
Man berechnet nun den Kern-Dichte Schätzer der Yi , und wendet dann (86) an, um folgenden
Schätzer für f zu erhalten
n
1X
Kh (T (x) − T (Xk )) · T ′ (x).
fˆnT (x; h) =
n
k=1
c. lokale und variable Bandbreitenwahl. Man kann auch die Bandbreite im Kern-Dichte
Schätzer a. lokal, also in Abhängigkeit von x, oder b. variabel, also in Abhängigkeit der
Beobachtung Xi , wählen. Wir wollen hierauf nicht genauer eingehen und verweisen auf Wand
and Jones (1996).
8.6
Multivariate Kern-Dichte Schätzung
Dichte Schätzung wird besonders zur deskriptiven Analyse univariater Verteilungen genutzt.
Man kann aber auch Dichte von d-variaten Zufallsvektoren mit Hilfe der Kern-Dichte Schätzung
schätzen. Hier ist besonders der Fall bivariate Fall (d = 2) interessant, für d ≥ 3 ist es häufig
schwierig, die Schätzergebnisse zu interpretieren.
T
Gegeben seien Xi = X11 , . . . , Xid
i = 1, . . . , n, unabhängige und identisch verteilte Zufallsvektoren im Rd mit Dichte f , also
Z
f (x)dx,
A ⊂ Rd
messbar.
P (X1 ∈ A) =
A
R
Für einen d-variaten Kern K : Rd → R, also K ∈ L1 , K(x)dx = 1, sowie eine symmetrisch
positiv definite Bandbreitenmatrix H ∈ Rd×d setzt man
KH (x) =
1
K H −1 (x) .
|H|
Dann ist der d-variate Kern-Dichte Schätzer mit Kern K und Bandbreitenmatirx H definiert
duch
n
1X
ˆ
KH (x − Xk ).
fn (x; H) =
n
k=1
Häufig konstruiert
man den Kern K mit Hilfe eines zugrundeliegenden univariaten Kerns
R
L : R → R ( L = 1). Es gibt mehrere Möglichkeiten:
Q
a. Produktkern: K(x) = dk=1 L(xk ), x = (x1 , . . . , xd )T .
1
b. Rotationsinvarianter Kern K(x) = CL,d L((xT x) 2 ), wobei CL,d eine Normierungskonstante
8.6 Multivariate Kern-Dichte Schätzung
129
ist.
Der am häufigsten verwendete multivariate Kern ist der Normalverteilungskern, der sowohl
ein Produktkern als auch ein rotationsinvarianter Kern ist:
1
1
− xT x .
K(x) =
d exp
2
(2π) 2
Auch bei der Wahl der Bandbreitenmatrix beschränkt man sich häufig auf eine einfache
Diagonalgestalt H = diag(h1 , . . . , hd ), für die sich
fˆn (x; H) =
n
1
Q
j
hj
n
X
K
k=1
x − X
xd − Xkd 1
k1
,...,
h1
hd
als Schätzer ergibt, oder sogar H = h · Id , wobei sich der Schätzer zu
n
1 X x − Xk fˆn (x; H) =
K
nhd
h
k=1
reduziert.
Wir wollen nun den mittleren quadratischen Fehler für einen multivariaten Kern-Dichte
Schätzer untersuchen. Zunächst erinnern wir dabei an die
Multivariate Taylorsche Formel:
ist für z → 0
Sei g : Rd → R zweimal stetig partiell differenzierbar, dann
1
g(x + z) = g(x) + grad(g)(x) · z + zT H(g)z + o(zT z),
2
wobei
grad(g)(x) =
Annahmen:
∂
∂
g(x), . . . ,
g(x) ,
∂x1
∂xd
H(g)(x) =
∂ ∂
.
g(x)
∂xj ∂xk
j,k=1,...,d
a. Die Dichte f ist zweimal stetig differenzierbar in x ∈ Rd .
b. Für die Bandbreitenmatrix gilt H = Hn → 0, n · |H| → ∞, sowie
λmax (Hn )
≤ C,
λmin (Hn )
wobei λmax (H) und λmin (H) den größten und kleinsten Eigenwert von H bezeichnen.
R
c. Der Kern K : Rd → [0, ∞) ist nicht-negativ, hat kompakten Träger, es gelten K = 1
sowie
Z
Z
zK(z)dz = 0,
zzT K(z)dz = µ2 (K)Id .
Die zweite obige Bedingung lautet ausgeschrieben
Z
zi2 K(z)dz = µ2 (K), i = 1, . . . , d,
Z
zi zj K(z)dz = 0, i 6= j.
130
8
Satz 8.7
Unter den Annahmen a., b. und c. gilt für den mittleren quadratischen Fehler des d-variaten
Kern-Dichte Schätzers
2 2
1
1
1
MSE(fˆn (x; H)) = µ22 (K) Spur H 2 H(f )(x) +
ν0 (K)f (x)+o Spur(H 2 ) +o(
).
4
n|H|
n|H|
Beweis
Wir berechnen Bias und Varianz des Schätzers. Für den Bias erhält man mit der Taylorschen
Formel
Z
ˆ
E fn (x; H) =
KH (x − y)f (y)dy
Z
=
K(z)f (x − hz)dz
Z
1
=
K(z) f (x) − grad(f )(x) · Hz + zT HH(f )(x)Hz + o(zT H 2 z) dz
2
Z
Z
1
T
K(z) Spur zz HH(f )(x)H dz + o Spur
K(z)zzT H 2 dz
= f (x) +
2
Z
1
= f (x) + Spur
K(z)zzT dzHH(f )(x)H + o(Spur H 2 )
2
1
= f (x) + Spur µ2 (K)IHH(f )(x)H + o(Spur H 2 )
2
1
= f (x) + µ2 (K) Spur H 2 H(f )(x) + o(Spur H 2 ),
2
wobei wir in der zweiten Gleichheit die Substitution z = H −1 (x − y) verwendet haben, und
die Linearität des Spur-Operator ausgenutzt haben. Für die Varianz ergibt sich
Z
1
2
ˆ
KH
(x − y)f (y)dy − O(1)
Var fn (x; H) =
n
Z
1 1
=
K 2 (z)f (x − Hz)dz + O(1)
n |H|
ν0 (K)f (x)
1 + o(1) .
=
n|H|
Aus Satz 8.7 kann man auch eine Rate für den MSE herleiten. Unter Annahme b. ist
λmax (Hn ) = O λmin (Hn ) , daher hat man
MSE(fˆn (x; H)) = O(λ4min +
1
).
nλdmin
1
Für λmin ≈ n− 4+d erhält man die Rate
4
MSE(fˆn (x; H)) = O(n− 4+d ).
(87)
Man kann zeigen, dass dies auch die optimale Rate (über eine Klasse von zweimal differenzierbaren Dichten) ist. Offenbar wird diese konvergenzrate mit wachsendem d langsamer. Dies
8.6 Multivariate Kern-Dichte Schätzung
131
ist bei parametrischen Schätzproblemen nicht der Fall, dort behält man eine n−1 Rate (allerdings werden die Schätzung dennoch schwerer, was sich in größeren Konstanten äußert). Man
spricht daher auch in (87) von dem Fluch der Dimension (curse of dimensionality).
Für weitere Informationen zur multivariaten Dichte Schätzung (Bandbreitenwahl, Kernwahl,
MISE) verweisen wir auf Wand und Jones (1996).
relevante R Befehle
Die library MASS enthält die Funktion kde2d, die zweidimensionale
Dichtenschätzungen durchführt. Es wird der bivariate Normalverteilungskern verwendet, und
die Bandbreite ist eine Diagonalmatrix. Dabei ist darauf zu achten, dass der Kern anders
skaliert ist als in density mit bw (nämlich wie dort mit der Option width). Daher müssen
auch andere komponentenweisen Bandbreiten verwendet werden (etwa width.SJ(DATEN),
mit den beiden Möglichkeiten für method). Die geschätzte Dichte kann geplottet werden mit
persp, oder interaktiv in der library rgl durch persp3d.
132
9
9.1
9 NICHTPARAMETRISCHE REGRESSION
Nichtparametrische Regression
Problemstellung und Modelle
Die nichtparametrische Regression steht zur linearen und nichtlinearen Regression wie die
nichtparametrische Dichteschätzung zur parametrischen Dichteschätzung. Wir betrachten also
(Yi , xi )i=1,...,n unabhängig, wobei Yi ∈ R die abhängige Variable und xi ∈ R eine univariate
Kovariable sind.
Bei der einfachen linearen Regression modelliert man
Yi = β0 + β1 xi + εi ,
wobei Eεi = 0. Somit ist EYi = β0 +β1 xi eine lineare Funktion der Kovariable xi . Allgemeiner
können auch endlich viele feste Basisfunktionen betrachtet werden, etwa Polynome p-ten
Grades. Dies ergibt
Yi = β0 + β1 xi + . . . + βp xp + εi ,
und dann ist EYi = β0 + β1 xi + . . . + βp xp eine Linearkombination dieser endlich vielen
festen Basisfunktionen, und ist daher bis auf endlich viele Parameter bestimmt. Auch bei der
nichtlinearen Regression liegen endlich viele Parameter zugrunde, nur dass diese nichtlinear
in die Abhängigkeit des Erwartungswertes EYi eingehen.
Wir möchten nun einen Zusammenhang der Form
Yi = m(xi ) + εi ,
Eεi = 0,
schätzen, wobei m eine glatte, aber ansonsten nicht weiter spezifizierte Funktion ist, die also
nicht nur bis auf endlich viele Parameter bestimmt ist.
Von einem praktischen Gesichtspunkt her ist nichtparametrische Regression vor allem für univariaten Prädiktor xi nützlich, für multivariate Prädiktoren ergeben sich ähnliche Probleme
wie bei multivariater Dichte Schätzung.
Wir betrachten folgende nichtparametrische Regressionsmodelle.
a. Festes Design.
Man hat unabhängige Beobachtungen (Yi , xi )i=1,...,n , wobei xi ∈ R feste
Designpunkte sind, und es liegt ein Zusammenhang
1
Yi = m(xi ) + v 2 (xi ) · εi
(88)
zugrunde, wobei ε1 , . . . , εn unabhängig und identisch verteilt sind mit Eε1 = 0 und Var ε1 = 1.
Für die Regressionsfunktion m gilt m ∈ C 1 , und für die Varianzfunktion v gilt v > 0 und
v ∈ C 1.
EYi = m(xi ), Var Yi = v(xi )
Falls v(xi ) = σ 2 heißt das Modell homoskedastisch, sonst heteroskedastisch.
b. Zufälliges Design.
Hier hat man unabhängige und identisch verteilte Beobachtungen
(Yi , Xi )i=1,...,n nach dem Modell
1
Yi = m(Xi ) + v 2 (Xi ) · εi ,
(89)
9.2 Lineare Glätter
133
wobei ε1 , . . . , εn unabhängig und identisch verteilt sind mit Eε1 = 0 und Var ε1 = 1, und die
X1 , . . . , Xn unabhängig und identisch verteilt und unabhängig von den εj sind. Dann ist
E(Y1 |X1 = x) = m(x),
Var(Y1 |X1 = x) = v(x),
m heißt wieder Regressionsfunktion und v Varianzfunktion.
Wir werden uns im Folgenden mit der Schätzung der Regressionsfunktion m im zufälligen
Design beschäftigen.
9.2
Lineare Glätter
Definition 9.1
Ein Schätzer m̂n (x) für m(x) im nichtparametrischen Regressionsmodell (89) mit zufälligem
Design heißt linearer Glätter (linear smoother), falls
m̂n (x) =
n
X
Wk (x, X1 , . . . , Xn )Yk ,
k=1
wobei die Gewichte Wk (x, X1 , . . . , Xn ), k = 1, . . . , n nicht von den Y1 , . . . , Yn abhängen.
Die Definition des lineare Glätters überträgt sich auf das feste Design (88), indem man einfach
Xi durch xi ersetzt.
Wir betrachten einige Beispiele
R für lineare Glätter, die auf Kern-Glättung basieren. Dazu sei
K ein symmetrischer Kern ( K = 1) und h > 0 eine Bandbreite.
a. Nadaraya-Watson Schätzer.
Dieser ist definiert durch
1 Pn
k=1 Yk Kh (x − Xk )
NW
n
m̂n (x, h) =
,
fˆn (x, h)
(90)
und ist somit ein linearer Glätter mit Gewichten
k
K( x−X
h )
Wk (x) = Pn
j=1 K(
x−Xj
h )
Die Form (90) ist motiviert über die Formel
E(Y1 |X1 = x) =
R
yfY X (y, x)dy
.
fX (x)
(91)
Man erhält (90), indem man fX und fXY durch Kern-Dichte Schätzer mit Kern K bzw.
Produktkern basierend auf K ersetzt und in (91) im Zähler die Integration mit dem geschätzen
fˆXY ausführt.
b. Gasser-Müller Schätzer
Man ordnet die Design-Punkte X(1) < X(2) < . . . < X(n)
der Größe nach an. Die zu X(i) gehörige Beobachtung in den Yk ’s wird mit Y[i] bezeichnet,
134
d.h. X(i) , Y[i] , i = 1, . . . , n, sind gerade die Paare (Xi , Yi ). Setzte nun für
Z δk
Kh (x − t)dt,
Wk (x, X1 , . . . , Xn ) =
δk−1
wobei
1
δk = (X(k) + X(k+1) ),
k = 1, . . . , n − 1,
2
und δ0 = −∞ sowie δn = ∞. Der Gasser-Müller Schätzer ist dann gegeben durch
GM
m̂
(x; h) =
n
X
Y[k] Wk (x, X1 , . . . , Xn ).
k=1
c. Lokale Polynom-Schätzer
Die Idee beim lokalen Polynomschätzer ist, lokal um x
ein Polynom p-ten Grades an die Regressionsfunktion m anzupassen, wobei die Lokalisierung
durch Kern-Gewichte erfolgt. Für einen Grad p ≥ 0 setze
T
β̂(x; p, h) = β̂0 (x; p, h), . . . , β̂p (x; p, h) ,
so dass
β̂(x, p, h) = argminβ∈Rp+1
n
X
k=1
2
Kh (Xk − x) Yk − β0 − β1 (Xk − x) − . . . − βp (Xk − x)p .
Der Vektor β̂(x; p, h) berechnet sich nach der Formel für den gewichteten kleinste Quadrate
Schätzer zu
β̂(x, p, h) = (XxT Wx (h)Xx )−1 XxT Wx (h)Y,
wobei
Xx

1 X1 − x · · ·
 ..
..
= .
.
1 Xn − x · · ·
Wx (h) =

(X1 − x)p

..
,
.
(Xn − x)p
diag(Kh (X1 − x), . . . , Kh (Xn − x)).
Beachte, dass Xx vollen Rang hat (als Teilmatrix der Vandermonde Matrix), falls die Xi alle
verschieden sind. Man erhält nun den lokalen Polynom Schätzer von m der Ordnung p (mit
Kern K und Bandbreite h) als
m̂n (x; p, h) = β̂0 (x; p, h).
(92)
Dies ist ein linearer Glätter, wobei die Gewichte in der erster Zeile von (XxT Wx (h)Xx )−1 XxT Wx (h)
stehen. Man erhält auch noch Schätzungen der j-ten Ableitung von m (j ≤ p durch
m̂kn (x; p, h) = β̂k (x; p, h) · k!.
Wir betrachten zwei Spezialfälle in (92). Der lokal-konstante Schätzer (p = 0) ist einfach
wieder der Nadaraya-Watson Schätzer. Für p = 1 erhält man den lokal-linearen Schätzer.
Dieser hat explizit folgende Gestalt. Es ist
n
X
s (x, h) s1,n (x, h)
(Xk − x)j Kh (Xk − x).
XxT Wx (h)Xx = 0,n
,
wobei sj,n (x, h) =
s1,n (x, h) s2,n (x, h)
k=1
9.3 Mittlerer quadratischer Fehler
135
Dann ist
(XxT Wx (h)Xx )−1
1
=
s2,n (x, h)s0,n (x, h) − s21,n (x, h)
s2,n (x, h) −s1,n (x, h)
−s1,n (x, h) s0,n (x, h)
und
n
X
s2,n (x, h) − s1,n (x, h)(Xk − x)
Kh (Xk − x)Yk .
m̂n (x, 1, h) =
s2,n (x, h)s0,n (x, h) − s21,n (x, h)
k=1
Der lokal-lineare Schätzer ist der am häufigsten verwendete Schätzer für m. Er ist noch
hinreichend einfach und hat bessere statistische Eigenschaften als etwa der Nadaraya-Watson
Schätzer oder der Gasser-Müller Schätzer, wie wir im Folgenden sehen werden.
Wir erwähnen noch, dass sich alle Schätzer auch auf das feste Design anwenden lassen, indem
man einfach Xi durch xi ersetzt.
relevante R Befehle
Die Funktion ksmooth berechnet den Nadaraya-Watson Regressionsschätzer. Die library KernSmooth enthält die Funktion locpoly zur Berechnung des lokalen Polynom Schätzers. Die Bandbreite kann mit dpill für den lokal-linearen Schätzer mit
Gaußschen Kern geschätzt werden.
9.3
Mittlerer quadratischer Fehler
In diesem Abschnitt wenden wir uns dem mittleren quadratischen Fehler (MSE) der obigen
Schätzer, insbesondere des lokal-linearen Schätzers, im zufälligen Design zu. Wir betrachten
dabei den bedingten MSE, gegeben die Designpunkte. Dieser ist für einen Schätzer m̂n (x) an
der Stelle x0 definiert durch
2
M SE m̂n (x)|X1 , . . . , Xn = E m̂n (x) − m(x) |X1 , . . . , Xn .
Zunächst betrachten wir den MSE an einem inneren Punkt, und machen die
Annahmen
a. Der Kern K ist symmetrisch, ≥ 0 und hat kompakter Träger in [−1, 1].
b. Die Dichte f der Xi ist stetig bei x und f (x) > 0.
c. Die Varianzfunktion σ 2 (·) ist stetig in x.
d. Die Regressionsfunktion m ist zweimal stetig differenzierbar in x.
e. Für die Bandbreite gilt h → 0, nh → ∞.
Wir führen die folgende vereinfachende Bezeichnungsweise für Kernkonstanten ein:
µj =
Z
j
x K(x)dx,
νj =
Z
y j K 2 (y)dy.
(93)
136
Satz 9.2
Unter den Annahmen a.-e. gilt für den mittleren quadratischen Fehler des lokal-linearen
Schätzers
Z
σ 2 (x) ν0
M SE(m̂(x; 1, h)|X1 , . . . , Xn ) =
K 2 (y)dy + op (nh−1 )
f (x) nh
2
′′
4 m (x)
µ22 + op (h4 ).
+h
4
Der erste Term entspricht dabei der asymptotischen Varianz, der zweite dem asymptotischen
quadrierten Bias. Wir beginnen mit einigen Vorbereitungen. Setzte
s0,n (x, h) s1,n (x, h)
T
Sn (x, h) = Xx Wx (h)Xx =
.
s1,n (x, h) s2,n (x, h)
Dann ist
E β̂(x; 1, h)|X1 , . . . , Xn
=
Cov(β̂(x; 1, h)|X1 , . . . , Xn ) =
wobei
−1 T
Xx Wx (h)m,
Sn (x, h)
−1
−1 T
Sn (x, h)
Xx Wx (h)ΣWx (h)Xx Sn (x, h) ,
m = m(X1 ), . . . , m(Xn ) ,
(94)
Σ = diag(σ 2 (X1 ), . . . , σ 2 (Xn )).
Lemma 9.3
Unter den Vorraussetzungen des Satzes gilt
Beweis
Es ist
sj,n (x, h) = n · f (x)hj µj 1 + op (1) .
Z
(y − x)j Kh (y − x)/h f (y)dy
Z
j
= nh
sj K(s)f (x + hs)ds
Esj,n (x, h) = n
= nhj µj f (x)(1 + o(1)),
und
Var sj,n (x, h) ≤ nE (X1 − x)2j Kh2 (X1 − x)
Z
= n (y − x)2j Kh2 (y − x)f (y)dy
= O(nh2j−1 )
Somit
1
sj,n (x, h) = Esj,n (h) + Op (Var sj,n (h)) 2
= nhj µj f (x) · 1 + o(1) + op ((nh)−1/2 ),
und mit Benutzung von Annahme e. die Behauptung.
137
Beweis von Satz 9.2 Aus dem Lemma folgt
µ0 µ1
Sn (x, h) = nf (x) · H
H 1 + pp (1) ,
µ1 µ2
H = diag(1, h).
Dann ist auch (Beweis!)
Sn−1 (x, h)
−1
1
−1 µ0 µ1
H −1 1 + op (1) .
H
=
µ1 µ2
nf (x)
(95)
Wir betrachten zunächst die bedingte Kovarianz in (94). Es ist
∗
s (x, h) s∗1,n (x, h)
XxT Wx (h)ΣWx (h)Xx = ∗0,n
=: Sn∗ (x, h)
s1,n (x, h) s∗2,n (x, h)
wobei
s∗j,n (x, h)
=
n
X
i=1
Kh2 (Xi − x)σ 2 (Xi )(Xi − x)j .
Mit einer Rechnung wie in Lemma 9.3 kann man zeigen
s∗j,n (x, h) = nhj−1 f (x)σ 2 (x)νj 1 + op (1) ,
wobei die Kern Konstanten νj in (93) definiert sind, und somit
n 2
ν0 ν1
∗
Sn (x, h) = σ (x)f (x)H
H 1 + op (1) .
ν
ν
h
1
2
Hieraus und aus (95) erhält man
σ 2 (x) 1 −1 µ0 µ1 −1 v0 v1
µ0 µ1
H −1 1+op (1)
H
Cov β̂(x; 1, h)|X1 , . . . , Xn =
µ1 µ2
v1 v 2
µ1 µ2
f (x) nh
Somit ist (µ0 = 1, µ1 = 0)
Var m̂(x; 1, h)|X1 , . . . , Xn
σ 2 (x) ν0
=
f (x) nh
Z
K 2 (y)dy 1 + op (1) .
T
Als nächstes betrachten wir den Bias. Setze β(x) = m(x), m′ (x) . Dann ist
E β̂(x; 1, h) − β(x)|X1 , . . . , Xn = Sn−1 (x, h) XxT Wx (h) m − Xx β(x) .
Die Einträge von Wx (h) sind nur für Xi ∈ [x − h, x + h] ungleich Null. Für solche Xi ist
m′′ (x)
1
1 + op (1) ,
m(Xi ) − m(x) − (Xi − x)m′ (x) = (Xi − x)2 m′′ (ξi ) = (Xi − x)2
2
2
wobei oP (1) unabhängig von dem Index i ist. Daher ist
XxT Wx (h)(m − Xx β) = nf (x)h2
m′′ (x)
µ2
1 + op (1) ,
·H
µ3
2
138
und somit
′′
2 m (x)
E β̂(x; 1, h) − β(x)|X1 , . . . , Xn = h
Insbesondere
2
·H
−1
−1 µ2
µ0 µ1
1 + op (1) .
µ3
µ1 µ2
m′′ (x)
Bias m̂(x; 1, h)|X1 , . . . , Xn = h2
µ2 1 + op (1) .
2
Dies beendet den Beweis.
Der Beweis kann übertragen werden auf den Schätzer mkn (x; p, h) der k-ten Ableitung. Dabei
hängt die Formel für den Bias aber davon ab, on die Differenz zwischen Grad des lokalen
Polynomschätzers und zu schätzender Ableitung ungerade ist (wie oben) oder gerade ist (wie
unten für den Nadaraya-Watson Schätzer. (s. Fan und Gijbels 1996)
Bemerkung. Wir geben noch die Ergebnisse für asymptotische Varianz und asymptotischen Bias für den Nadaraya-Watson Schätzer und den Gasser-Müller Schätzer im zufälligen
Design an.
a. Für den Nadaraya-Watson Schätzer
σ 2 (x) ν0
1 + op (1) ,
f (x) nh
2m′ (x)f ′ (x) h2 µ2
m′′ (x) +
Bias m̂N W (x, h)|X1 , . . . , Xn =
1 + op (1) .
f (x)
2
Var m̂N W (x, h)|X1 , . . . , Xn
=
b. Für den Gasser-Müller Schätzer
Var m̂GM (x, h)|X1 , . . . , Xn
Bias m̂GM (x, h)|X1 , . . . , Xn
=
=
3 σ 2 (x) ν0
·
1 + op (1) ,
2 f (x) nh
(m′′ (x)µ2 2
h 1 + op (1) .
2
Man erkennt also, dass der Nadaraya-Watson Schätzer asymptotisch die gleiche Varianz wie
der lokal-lineare Schätzer hat, aber dass sein Bias einen zusätzlichen Term enthält, der von
der Design Dichte f abhängt.
Dagegen hat der Gasser-Müller Schätzer asymptotisch den gleichen Bias wie der lokal-lineare
Schätzer, aber seine Varianz ist asymptotisch um den Faktor 3/2 größer.
Bemerkung. Wir gehen noch kurz auf das Verhalten bei festem Design ein. Seien etwa
0 < x1 < . . . < xn < 1 mit einer zweimal stetig differenzierbaren Designdichte f , d.h.
xi =
Z
i/n
f (t) dt.
0
Die Resultate für den lokal-linearen Schätzer und den Nadaraya-Watson Schätzer bleiben
dann gültig, man muss nur die Dichte der Xi durch die Designdichte ersetzten, und die oP
durch o. Bei der Varainz des Gasser-Müller Schätzers verschwindet dagegen der Faktor 3/2,
d.h. Bias und Varianz an einem inneren Punkt sind im festen Design asymptotisch gleich
denen des lokal-linearen Schätzers.
139
Verhalten am Rand
Nun betrachten wir den MSE an einem Randpunkt. Dazu ersetzten wir die Annahmen b.-d.
durch
Annahmen
b.’ Die Dichte f der Xi habe Träger in [0, ∞), es sei f (0) > 0, f sei auf [0, ∞) stetig und
zweimal differenzierbar.
c.’ Die Varianzfunktion σ 2 (·) ist rechtsseitig stetig in 0.
d. Die Regressionsfunktion m ist zweimal rechtsseitig stetig differenzierbar in 0.
Wir betrachten nun einen Randpunkt der Form xn = α · h, 0 ≤ α < 1, und führen die
Kernkonstanten
Z 1
Z 1
z l K 2 (z)dz
(96)
z l K(z)dz,
vl,α =
µl,α =
−α
ein. Dann gilt für den lokal-linearen Schätzer
−α
Satz 9.4
Unter den Annahmen a., b.’-d.’,e. gilt für den mittleren quadratischen Fehler des lokal-linearen
Schätzers an dem Randpunkt xn
M SE(m̂(xn ; 1, h)|X1 , . . . , Xn ) =
σ 2 (0) µ22,α v0,α − 2µ1,α µ2,α v1,α + µ21,α v2,α
nhf (0)
(µ0,α µ2,α − µ21,α )2
m′′ (0) µ2 − µ1,α µ3,α 2
2,α
+h4
2 µ0,α µ2,α − µ21,α
+op (nh−1 ) + op (h4 ).
Wiederum enspricht der erste Term dabei der asymptotischen Varianz und der zweite dem
asymptotischen quadrierten Bias. Der lokal-lineare Schätzer macht also eine automatische
Randkorrektur, man erhält die gleichen Raten wie für einen inneren Punkt, nur mit veränderten Konstanten.
Beweis
Der Beweis von Satz 9.4 verläuft analog zu dem von Satz 9.2, man muss nur die Kernkonstanten µj und νj durch die Randkernkonstanten (96) ersetzten. Wir skizzieren die wesentlichen
Schritte. Es ist
Z
1
y − xn Esj,n (xn , h) = n (y − xn )j Kh
f (y)dy
h
h
Z 1
= nhj
z j K(z)f (hz + xn )dz
−α
= nhj µj,α f (0) 1 + o(1) ,
und auch
sj,n (xn , h) = nhj µj,α f (0) 1 + oP (1) .
140
Ähnlich ist
Somit erhält man
s∗j,n (xn , h) = nhj−1 f (0)σ 2 (0)vj,α 1 + oP (1) .
Cov β̂(xn ; 1, h) | X1 , . . . , Xn
Insbesondere ist
Var m̂n (xn ; 1, h)|X1 , . . . , Xn
σ 2 (0)
1
µ2,α −µ1,α
−1
=
H
−µ1,α µ0,α
nhf (0) (µ0,α µ2,α − µ21,α )2
v
v
µ2,α −µ1,α
· 0,α 1,α
H −1 1 + oP (1)
v1,α v2,α
−µ1,α µ0,α
σ 2 (0) µ22,α v0,α − 2µ1,α µ2,α v1,α + µ21,α v2,α
1
+
o
(1)
.
=
P
nhf (0)
(µ0,α µ2,α − µ21,α )2
Um den asymptotischen Bias zu berechnen, zeigt man zunächst, dass
m′′ (0)
µ2,α
1 + oP (1) .
XxT Wx (h)(m − Xx β) = nf (0)h2
·H
µ3,α
2
Dann erhält man
′′
2 m (0)
Bias(β̂(xn ; 1, h)|X1 , . . . , Xn ) = h
2
·H
Daher
Bias(m̂(xn ; 1, h)|X1 , . . . , Xn ) = h2
−1
−1 µ2,α
µ0,α µ1,α
1 + oP (1) .
µ3,α
µ1,α µ2,α
m′′ (0) µ22,α − µ1,α µ3,α
1 + oP (1) .
2
2 µ0,α µ2,α − µ1,α
Bemerkung
a. Für Nadaraya-Watson gelten
W
Var m̂N
(x; h)|X1 , . . . , Xn
n
W
Bias m̂N
(x; h)|X1 , . . . , Xn
n
=
σ 2 (0) 1 v0,α
1 + oP (1) ,
2
f (0) nh µ0,α
= O(h).
Der Nadaraya-Watson Schätzer ist also am Rand auch asymptotisch konsistent, hat aber eine
langsamere Rate als der lokal-lineare Schätzer. Allerdings ist die Konstante in der Varianz
des Nadaraya-Watson Schätzers tendenziell kleiner als diejenige des lokal-linearen Schätzers,
welches für endliche Stichproben einen merklichen effekt hat.
b. Man kann zeigen, dass der Gasser-Müller Schätzer (ähnlich wie eine Kern-Dichte Schätzer
ohne Randkorrektur) am Rand asymptotisch verzerrt ist.
9.4
Minimax-Schätzung
Um die Qualität eines Schätzers zu messen, betrachtet man seine Konvergenzeigenschaften
gleichmäßig über bestimmte Funktionenklassen. Um optimale Schätzer über solche Funktionenklassen zu bestimmen, muss man diese maximale Risiko über eine Klasse von Schätzern
9.4 Minimax-Schätzung
141
minimieren. Wir betrachten eine Klasse von zweimal stetig differenzierbaren Funktionen, und
minimieren das zugehörige Risiko über die Klasse der linearen Glätter. Dies führt auf das
sogenannte lineare minimax Risiko.
Wir betrachten die nichtparametrische Regressionsmodell mit zufälligem Design
Yi = m(Xi ) + σ(Xi )εi ,
wobei die Dichte der Xi , f , sowie die Varianzfunktion σ 2 festgehalten werden, und m über
die Funktionenklasse
|z − x0 |2 .
C2 (x0 ) = m : m(z) − m(x0 ) + m′ (x0 )(z − x0 ) ≤ C
2
für einen festen Punkt x0 ∈ R variiert. Wir nehmen weiter an, dass
a. f stetig ist und f (x0 ) > 0,
b. σ(·) in x0 stetig ist.
Somit betrachten wir das lineare Minimax-Risiko in einem inneren Punkt. Dieses ist für einen
linearen Glätter m̂n (x) der Form
m̂n (x) =
n
X
Wk (x, X1 , . . . , Xn )Yk
k=1
definiert durch
RL n, C2 (x0 ) =
Satz 9.5
Es ist
inf
sup E
m̂n linear m∈C2 (x0 )
2
m̂n (x0 ) − m(x0 ) |X1 , . . . , Xn .
√
3 − 1 Cσ 2 (x0 ) 45
RL (n, C2 ) = 15 5
1 + op (1) ,
4
nf (x0 )
und für den lokal linearen Schätzer m̂(x0 ; 1, h) mit Bandbreite
15σ 2 (x ) 1
5
0
h=
f (x0 )C 2 n
(97)
und dem Epanechnikov-Kern K gilt:
2
sup E m̂n (x0 ; 1, h) − m(x0 ) |X1 , . . . , Xn = RL (n, C2 ) 1 + op (1) .
m∈C2
Der lokal-lineare Schätzer mit Epanechnikov Kern und optimaler Bandbreite erreicht also
asymptotisch das lineare Minimax Risiko.
Beweis
Satz 97 besagt für den lokal-linearen Schätzer
E
m′′ (x )h2 µ2
2
1 v0 σ 2 (x0 ) 0
2
m̂n (x0 ; 1, h) − m(x0 ) |X1 , . . . , Xn =
1 + op (1) .
+
4
nh f (x0 )
142
Für den Epanechnikov Kern berechnen sich die Kern-Konstanten zu µ2 = 81 , v0 = 53 . Da in
C2 (x0 ) die Ableitung m′′ (x0 ) ≤ C, ergibt sich mit der speziellen Wahl von h in (97) ergibt
sich
√
3 − 1 Cσ 2 (x0 ) 4
2
(98)
sup E((m̂n (x0 , 1, h) − m(x0 )) |X1 , . . . , Xn ) = 15 5 (
) 5 1 + op (1)
4
nf (x0 )
m∈C2
Für Details zu diesem Argument siehe Fan (1995). Es genügt nun offenbar zu zeigen, dass die
rechte Seite von (98) eine asymptotische untere Schranke für das lineare Minimax Risiko ist.
Nun betrachten wir einen allgemeinen linearen Glätter. Man zerlegt das Risiko in quadrierten
Bias und Varianz
n
X
2
2
=
Wj (x0 , X1 , . . . , Xn )m(Xj ) − m(x0 )
E m̂n (x0 ) − m(x0 ) |X1 , . . . , Xn
+
j=1
n
X
Wj2 (x0 , X1 , . . . , Xn )σ 2 (Xj )
(99)
j=1
Um das Risiko in (99) von unten über alle linearen Schätzer zu beschränken, benutzten wir
Lemma 9.6
Seien a, c ∈ Rn , ci > 0, b ∈ R. Dann ist
T
2
minn ((w a − b) +
w∈R
n
X
ci wi2 ) =
i=1
und das Minimum wird angenommen durch
wj =
Beweis des Lemmas.
1+
b2
P 2
1 + j (aj /cj )
aj
b
2
i (ai /ci ) cj
P
√
Durch wi → wi / ci reduziere auf
√
minn ((wT ã − b)2 + wT w), ãi = ai / ci
w∈R
Weiter sei Q orthogonal so, dass Qã = ãT ã · e1 . Durch w → Qw gehe über zu
minn (wT ãT ãe1 − b)2 + wT w .
w∈R
Dann offenbar korrekt, da
((ãT ã)2 + 1)w12 − 2bãT ãw1 + b2 → min
ergibt
w1 =
b(ãT ã)
.
1 + (ãT ã)2
Wir setzten nun den Beweis des Satzes fort. Wenn wir das Lemma auf (99) anwenden, ergibt
sich, dass für eine Funktion m ∈ C2 (x0 ) und für alle linearen Glätter m̂n
E((m̂n (x0 ) − m(x0 ))2 |X1 , . . . , Xn ) ≥
1+
m2 (x0 )
2
2
j=1 m (Xj )/σ (Xj )
Pn
(100)
9.4 Minimax-Schätzung
143
Da im linearen Minimax-Risiko das supremum über alle Funktionen m ∈ C2 (x0 ) gebildet
wird, erhält man eine untere Abschätzung, wenn man in (100) spezielle, von n abhängige
(y)
Funktionen m einsetzt. Wähle speziell m(y) = mn = 21 b2n (1 − C(y − x0 )2 /bn )+ . Dann ist
mn ∈ C2 (x0 ), und daher nach (100)
2
RL (n, C2 (x0 )) ≥
min E m̂n (x0 ) − mn (x0 ) |X1 , . . . , Xn
m̂n linear
m2n (x0 )
Pn
≥
(101)
1 + j=1 m2n (Xj )/σ 2 (Xj )
Für bn = o(1) ergibt sich
E
m2n (X1 )
σ 2 (X1 )
=
=
=
=
Weiter ist
b4n
4
Z
Z
n
X
m2 (Xj )
j=1
√
1/ c
(1 − Cz 2 )2
f (x0 + bn z)dz
√
2
−1/ c σ (x0 + bn z)
Z √
b5n f (x0 ) 1/ c
(1 − Cz 2 )2 dz 1 + o(1)
√
2
4 σ (x0 ) −1/ c
4 5 f (x0 ) 1
√ 1 + o(1)
bn 2
15 σ (x0 ) c
b5n
4
Var
Somit
[(1 − C(y − x0 )/b2n )+ ]2
f (y)dy
σ 2 (y)
σ 2 (Xj )
m2n (X1 )
= O(b8n )
σ 2 (X1 )
=n
4 5 f (x0 ) 1
√ 1 + oP (1)
bn 2
15 σ (x0 ) c
und mit (101) und der Wahl von mn erhalte
RL (n, C2 ) ≥
1+
b4n
4
f (x0 ) 1
4
5
√
15 nbn σ 2 (x0 ) c
1 + oP (1) .
Maximiere die linke Seite über bn und erhalte mit
√
15 cσ 2 (x0 ) 1
bn = (
)5
nf (x0 )
die Abschätzung
√
3 − 1 cσ 2 (x0 ) 4
RL (n, C2 ) ≥ 15 5 (
) 5 1 + oP (1) .
4
nf (x0 )
(102)
Da für den lokalen Polynomschätzer in (98) Gleichheit steht und
2
RL (n, C2 (x0 )) ≤ max E m̂n (x0 , 1, h) − m(x0 ) |X1 , . . . , Xn ,
m∈C2 (x0 )
folgt Gleichheit in (102) und die Behauptung des Satzes.
144
Definition 9.7
Für einen linearen Glätter m̂n definiert man die lineare Effizienz durch
5
RL (n, C2 )
4
.
eff L (m̂n ) =
2
supm∈C2 (x0 ) E (m̂n (x0 ) − m(x0 )) |X1 , . . . , Xn
Wir geben noch die lineare Effizienz (ohne 1 + oP (1) Faktor) der obigen Schätzer an.
Kern
Epanechnikov
Normal
lokal-linear
1
0,9512
Gasser-Müller
2/3
0,6341
Nadaraya-Watson
0
0
Wir bemerken, dass sich die Effizienz von 0 bei dem Nadaraya-Watson Schätzer durch den
zusätzlichen Term im Bias ergibt, welche die erste Ableitung m′ (x0 ) beinhaltet, die in C2 (x0 )
beliebig groß werden kann.
Abschließende Bemerkungen
Themen wie Bandbreitenwahl, Kernwahl und Bandbreitenwahl und Konfidenzintervalle können ähnlich wie für Dichteschätzung behandelt werden.
Wir verweisen dafür auf die Literatur.
145
A
Verzeichnis der Sätze
1.1
lineare Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.2
Erwartungswert quadratischer Formen . . . . . . . . . . . . . . . . . . . . . . . .
4
1.3
Lineare Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.6
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
1.9
Craig und Sakamoto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.3
Gauß-Markov-Aitken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.6
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
2.7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.9
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
2.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
2.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
3.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
3.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
4.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
5.7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
5.9
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
5.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
5.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
146
A VERZEICHNIS DER SÄTZE
6.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
6.2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
6.3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
100
8.3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
117
8.5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
123
8.6
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
125
8.7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
130
9.2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
136
9.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
139
9.5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
141

Statistik 2

Transcrição

Documentos relacionados

Steckrüben-Schaum-Süppchen mit Enten-Wan-Tan

Ausschreibung Nightflight 2016

Robuste Helmert- Transformation

Variationsansätze zur Bewegungsschätzung

Krankheitsbild und Behandlungsmethoden bei

Logistic Regression 1.1 Introduction

PDF / 33 kB - Forschungszentrum Jülich

Bestimmung der Regressionsgeraden

Gottes Wirken in meinem Leben

Nachklausur zur Vorlesung Lineare Algebra I