Statistik 2

Transcrição

Statistik 2
Statistik 2
JProf. Dr. Hajo Holzmann
Institut für Stochastik der Universität Karlsruhe (TH)
Wintersemester 2007/08
(Stand: 15. April 2008)
ii
INHALTSVERZEICHNIS
Inhaltsverzeichnis
1 Multivariate Normalverteilung und quadratische Formen
4
1.1
Zufallsvektoren und zufällige quadratische Formen . . . . . . . . . . . . . . .
4
1.2
Die multivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . .
5
1.3
Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.4
Aus der Normalverteilung abgeleitete Verteilungen . . . . . . . . . . . . . . .
9
1.5
Verteilung quadratischer Formen . . . . . . . . . . . . . . . . . . . . . . . . .
10
2 Lineare Regression
2.1
2.2
2.3
2.4
14
Lineare Regression und Modellbildung . . . . . . . . . . . . . . . . . . . . . .
14
2.1.1
Regression und das lineare Modell . . . . . . . . . . . . . . . . . . . .
14
2.1.2
Modellierung des Einflusses der Kovariablen . . . . . . . . . . . . . . .
15
Kleinste Quadrate Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.2.1
Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . .
18
2.2.2
Verteilungstheorie bei normalverteilten Fehlern . . . . . . . . . . . . .
22
2.2.3
Asymptotische Verteilungstheorie . . . . . . . . . . . . . . . . . . . . .
25
Andere Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.3.1
Mittlerer quadratischer Fehler und Ridge-Regression . . . . . . . . . .
29
2.3.2
Median - und Quantilregression . . . . . . . . . . . . . . . . . . . . . .
31
Modelldiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
2.4.1
Das Bestimmtheitsmaß R2 . . . . . . . . . . . . . . . . . . . . . . . . .
32
2.4.2
Residuen-Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
2.4.3
Weitere diagnostische Plots . . . . . . . . . . . . . . . . . . . . . . . .
34
2.4.4
Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
2.4.5
Ausreißer, Leverage- und Influenz-Punkte . . . . . . . . . . . . . . . .
36
INHALTSVERZEICHNIS
2.5
2.6
iii
Variablen-Selektion und Shrinkage Schätzung . . . . . . . . . . . . . . . . . .
40
2.5.1
Selektionsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
2.5.2
Test-basierte Methoden . . . . . . . . . . . . . . . . . . . . . . . . . .
41
2.5.3
Informationskriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
2.5.4
Shrinkage Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
2.5.5
Inferenz nach Modellwahl . . . . . . . . . . . . . . . . . . . . . . . . .
51
Verallgemeinerte kleineste Quadrate und Varianzschätzen . . . . . . . . . . .
55
2.6.1
Verallgemeinerte kleinste Quadrate . . . . . . . . . . . . . . . . . . . .
55
2.6.2
Varianzschätzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
3 Nichtlineare Regression
57
3.1
Modell und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
3.2
Nichtlineare kleinste Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . .
58
3.3
Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
3.4
Asymptotische Normalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
4 Logistische Regression
63
4.1
Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
4.2
Maximum Likelihood Schätzung . . . . . . . . . . . . . . . . . . . . . . . . .
63
4.3
Deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
4.4
Residuenanalyse und weitere Diagnostische Plots . . . . . . . . . . . . . . . .
66
4.5
Überdispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
5 Verallgemeinerte lineare Modelle (GLMs)
73
5.1
Dispersionsexponentialfamilien (DEFs) . . . . . . . . . . . . . . . . . . . . . .
73
5.2
Komponenten eines GLMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
5.3
Maximum Likelihood Schätzung und Testen in GLMs . . . . . . . . . . . . .
77
iv
INHALTSVERZEICHNIS
5.4
Modelldiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
5.5
Poisson-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
5.6
Gamma-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
5.7
Quasi-Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
6 Kategorielle Daten und kategorielle Regression
94
6.1
Fishers exakter Test auf Homogenität . . . . . . . . . . . . . . . . . . . . . .
94
6.2
Der χ2 -Test auf Homogenität . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
6.3
Fishers exakter Test auf Unabhängigkeit . . . . . . . . . . . . . . . . . . . . .
97
6.4
χ2 -Test auf Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
6.5
McNemars Test für gepaarte Stichproben . . . . . . . . . . . . . . . . . . . .
100
6.6
Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
102
6.7
Kategorielle Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
102
7 Lineare Gemischte Modelle
105
7.1
Longitudinal- und Cluster-Daten . . . . . . . . . . . . . . . . . . . . . . . . .
105
7.2
Das lineare gemischte Modell . . . . . . . . . . . . . . . . . . . . . . . . . . .
106
7.3
Schätzen und Vorhersagen im linearen gemischten Modell . . . . . . . . . . .
107
7.4
Verallgemeinerte lineare gemischte Modelle . . . . . . . . . . . . . . . . . . .
111
8 Nichtparametrische Dichteschätzung
113
8.1
Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
113
8.2
Kern-Dichte Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
115
8.3
Integrierter mittlerer quadratischer Fehler . . . . . . . . . . . . . . . . . . . .
117
8.4
Bandbreitenwahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
121
8.5
Modifikationen des Kern-Dichte Schätzers . . . . . . . . . . . . . . . . . . . .
126
8.6
Multivariate Kern-Dichte Schätzung . . . . . . . . . . . . . . . . . . . . . . .
128
9 Nichtparametrische Regression
132
9.1
Problemstellung und Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . .
132
9.2
Lineare Glätter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
133
9.3
Mittlerer quadratischer Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . .
135
9.4
Minimax-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
140
A Verzeichnis der Sätze
145
vi
INHALTSVERZEICHNIS
Literatur
1. Multivariate Normalverteilung
• Kotz, Samuel; Balakrishnan, N.; Johnson, Norman L. (2000) Continuous multivariate
distributions. Vol. 1. Models and applications. 2nd edn. Wiley-Interscience, New York.
• Johnson, Norman L.; Kotz, Samuel; Balakrishnan, N. (1995) Continuous univariate
distributions. Vol. 2. 2nd edn. John Wiley & Sons, Inc., New York.
• Ravishankar, N. und Dey, D. K. (2002) A first course in linear model theory, Chapman
& Hall, Kapitel 5.
2. Lineare Regressions
• Faraway, J. (2005) Linear Models with R. Chapman & Hall/CRC, Boca Raton, FL.
• Fahrmeier, L., Kneib, T. und Lang, S. (2007) Regression. Modelle, Methoden und Anwendungen. Springer, Berlin, Kapitel 3.
• Weisberg, S. (2005) Applied Linear Regression. 3. Auflage, John Wiley & Sons, Hoboken,
NJ.
• Ravishankar, N. und Dey, D. K. (2002) A first course in linear model theory.
• Searle, (1971) Linear Models. John Wiley & Sons, Inc., New York. Kapitel 3.
• Stapleton, J. H. (1995) Linear Statistical Methods. John Wiley & Sons, Inc., New York.
3. Nichtlineare Regression
• Myers, R.H., Montgomery, D.C., Vinig, G.G. (2002) Generalized Linear Models. John
Wiley & Sons. Kapitel 3.
• Seber, G.A.F., Wild, C.J. (2003) Nonlinear Regression. John Wiley & Sons.
4. Logistische Regression/ 5. Verallgemeinerte lineare Modelle
• Dobson, A.J. (2002) An Introduction to Generalized Linear Models (2 edn, 2002).
• Fahrmeier, L., Kneib, T. und Lang, S. (2007) Regression. Modelle, Methoden und Anwendungen. Springer, Berlin, Kapitel 4.
• Faraway, J. (2006) Extending the linear Model with R. Chapman & Hall/CRC, Boca
Raton, FL, Kapitel 2,3,6,7.
2
INHALTSVERZEICHNIS
• McCullagh, P. and Nelder, J.A. (1989) Generalized Linear Models, Vol. 37 of Mo- nographs on Statistics and Applied Probability (2 edn, 1989).
• Weisberg, S. (2005) Applied Linear Regression. 3. Auflage, John Wiley & Sons, Hoboken,
NJ, Kapitel 12.
• McCulloch, C.E., Searle, S.R. (2001) Generalized, Linear, and Mixed Models.
• Myers, R.H., Montgomery, D.C., Vinig, G.G. (2002) Generalized Linear Models. John
Wiley & Sons.
6. Kategorielle Daten und kategorielle Regression
• Fahrmeier, L., Kneib, T. und Lang, S. (2007) Regression. Modelle, Methoden und Anwendungen. Springer, Berlin, Kapitel 5.
• Faraway, J. (2005) Extending the linear Model with R. Chapman & Hall/CRC, Boca
Raton, FL, Kapitel 5
• Agresti, A. (2002) Categorical Data Analysis. 2nd edn. John Wiley & Sons
• Agresti, A. (1996) An Introduction to Categorical Data Analysis. John Wiley & Sons.
7. Gemischte Modelle und Longitudinale Daten
• Fahrmeier, L., Kneib, T. und Lang, S. (2007) Regression. Modelle, Methoden und Anwendungen. Springer, Berlin, Kapitel 6.
• Faraway, J. (2005) Extending the linear Model with R. Chapman & Hall/CRC, Boca
Raton, FL, Kapitel 9.
• Ravishankar, N. und Dey, D. K. (2002) A first course in linear model theory, Chapman
& Hall, Kapitel 10.
8. Nichtparametrische Dichteschätzung
• Wand, M. P.; Jones, M. C. (1995) Kernel smoothing. Chapman and Hall, Ltd., London.
• Silverman, B. W. (1986) Density estimation for statistics and data analysis. Chapman
& Hall, London.
9. Nichtparametrische Regression
• Wand, M. P.; Jones, M. C. (1995) Kernel smoothing. Chapman and Hall, Ltd., London,
Kapitel 5.
INHALTSVERZEICHNIS
3
• Fan, J.; Gijbels, I. (1996) Local polynomial modelling and its applications. Chapman &
Hall, London.
Theoretischer Hintergrund
• Shao, J. (2003) Mathematical statistics. 2nd edn. Springer-Verlag, New York, .
• van der Vaart, A. W. (1998) Asymptotic statistics. Cambridge University Press, Cambridge.
• Hogg, R.V., McKean, J.W., Craig, A.T.: Introduction to Mathematical Statistics. 6th
edn. Pearson Prentice Hall, 20051.
• Knight, K. (2000) Mathematical Statistics. Chapman & Hall, 20001.
• Pruscha, H. (1989) Angewandte Methoden der Mathematischen Statistik.
• Pruscha, H. (2000) Vorlesungen über Mathematische Statistik.
4
1
1
MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN
Multivariate Normalverteilung und quadratische Formen
1.1
Zufallsvektoren und zufällige quadratische Formen
Sei X = (X1 , . . . , Xn )T ∈ Rd ein d-variater Zufallsverktor, wobei Xi Zufallsvariable seinen.
Der Erwartungswertvektor von X ist definiert durch EX = (EX1 , . . . , EXn )T , falls die Erwartungswerte EXi existieren. Die Kovarianzmatrix von X ist gegeben durch
Cov X = Cov(Xi , Xj ) i,j=1,...,n ,
falls die Xi endliche Varianzen haben. Für einen Vektor a ∈ Rd gilt
Var(aT X) = aT Cov X a.
Da die Varianz auf der linken Seite stets nicht-negativ ist, folgt, dass die Kovarianzmatrix stets
positiv semidefinit ist. Weiter ist Cov X genau dann degeneriert, falls die Xi (als Abbildungen
auf dem zugrundeliegenden W-Raum) linear abhängig sind (fast sicher).
Satz 1.1 (lineare Transformationen)
Sei X ∈ Rn ein Zufallsvektor mit endlichem Erwartungswertvektor EX und endlicher Kovarianzmatrix Cov X. Für A ∈ Rm×n gilt dann
E(AX) = A EX,
Cov(AX) = A Cov X AT .
Der Beweis ist ein einfaches Nachrechnen. Allgemeiner definieren wir für Zufallsvektoren X ∈
Rd und Y ∈ Rq die Kovarianzmatrix
Cov(X, Y) = Cov(Xi , Yj ) i=1,...,d j=1,...,q ∈ Rd×q .
Falls X und Y unabhängig sind, so gilt (analog zu zwei Zufallsvariablen) Cov(X, Y) = 0.
Für einen Zufallsvektor X ∈ Rd und eine symmetrische Matrix A ∈ Rn×n betrachten wir die
zufällige quadratische Form XT AX, eine Zufallsvariable.
Satz 1.2 (Erwartungswert quadratischer Formen)
Sei X ∈ Rn ein Zufallsvektor mit EX = µ ∈ Rn , Cov X = Σ ∈ Rn×n , und sei A ∈ Rn×n
symmetrisch. Betrachte die quadratische Form Q = XT AX. Dann gilt
EQ = Spur(A · Σ) + µT Aµ
Beweis
Q=
n
X
aij Zi Zj , EZi Zj = Σij + µi µj
i,j=1
Somit
EQ =
n
X
i,j=1
aij (Σij + µi µj ) = µT Aµ +
n
X
aij Σij = µT Aµ + Spur(AΣ)
i,j=1
[Beachte: Sowohl A als auch Σ sind symmetrisch.]
1.2 Die multivariate Normalverteilung
1.2
5
Die multivariate Normalverteilung
Definition
Sei µ ∈ Rd und Σ ∈ Rd×d symmetrisch und positiv definit. Die multivariate Normalverteilung N (µ, Σ) ist gegeben durch die Dichte
1
1
T −1
f (x; µ, Σ) =
− (x − µ) Σ (x − µ) ,
1 exp
d
2
(2π) 2 |Σ| 2
wobei |Σ| = det Σ.
Für µ = 0 und Σ = Id spricht man von der d-variaten Standardnormalverteilung. Wir
prüfen kurz, dass f (x; µ, Σ) tatsächlich eine Dichte auf Rd definiert, also zu 1 integriert.
Für f (x; 0, Id ) ist dies klar, da es sich um eine d-fache Produktdichte von univariaten Dichten
der Standardnormalverteilung handelt. Den allgemeinen Fall führen wir hierauf durch Variablen Transformation zurück. Dazu betrachte die Spektralzerlegung von Σ. Es existieren eine
orthogonale Matrix Q und λ1 > 0, . . . , λd > 0 (die Eigenwerte von Σ, diese sind > 0, da Σ
positiv definit ist), so dass
Σ = Q diag(λ1 , . . . , λd ) QT .
Man definiert dann die Wurzel aus Σ durch
1
1
1
Σ 2 = Q diag(λ12 , . . . , λd2 ) QT ,
1
1
diese ist eindeutig bestimmt und es gilt Σ 2 · Σ 2 = Σ. Ausserdem gelten
−1
T
Σ−1 = Q diag(λ−1
1 , . . . , λd ) Q ,
1
Σ− 2
1
−1
−1
= (Σ 2 )−1 = Q diag(λ1 2 , . . . , λd 2 )QT .
R
Zur Berechnung von f (x; µ, Σ) dx führt man eine Variablentransformation y = Σ−1/2 (x−µ)
durch und erhält die d-variate Standardnormalverteilung.
Satz 1.3 (Lineare Transformation)
Sei X ∼ N (µ, Σ), µ ∈ Rd , p ≤ d, A ∈ Rp×d mit vollem Rang und b ∈ Rp . Dann ist Y = AX
verteilt nach Y ∼ N (Aµ + b, AΣAT ).
Beweis
Wir behandeln nur den Fall µ = 0, b = 0, die nötigen Translationen können leicht behandelt
werden.
Wir betrachten zunächst den Fall Σ = Id . Ist etwa AT = (v1 , . . . , vp ), vi ∈ Rd , so setze
V = span {v1 , . . . , vp } ⊂ Rd . Dann ist V ein p-dimensionaler Untervektorraum von Rd , und
wir können eine orthonormale Basis e1 , . . . , ed−p des orthogonalen Komplements V ⊥ wählen.
Setzte Ã, derart, dass ÃT = (v1 , . . . , vp , e1 , . . . , ep−d ) ∈ Rd×d . Dann hat à vollen Rang. Wir
betrachten nun W = ÃX. Dann ist W = (YT , ZT )T für geeignetes Z ∈ Rd . Zum Beweis
können wir also die Verteilung von W und dann die Randverteilung von Y berechnen. Eine
Variablentransformation liefert für die Dichte von W
1 T
1
T −1
exp − w (ÃÃ ) w .
fW (w) =
d
2
(2π) 2 |Ã|
6
1
MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN
Nach Konstruktion von à erhalten wir die Blockgestalt (Ir ist die r-dimensionale Einheitsmatrix)
T
AA
0
T
=: diag AAT , Id−p .
ÃÃ =
0
Id−p
Ausserdem ist
|Ã| = |ÃÃT |1/2 = |AAT |1/2 .
Setzen wir w = (yT , zT )T , so erhalten wir
1
1
1 T
1 T
T −1
fW (y, z) =
exp − y (AA ) y
exp − z z .
2
2
(2π)p/2 |AAT |1/2
(2π)(d−p)/2
Wir können nun z herausintegrieren (Standardnormalverteilung) und erhalten für Y die Dichte in gewünschter Form.
Den Fall für allgemeines Σ führt man nun leicht auf obigen Fall zurück. Dafür setzte X̃ =
Σ−1/2 X, dann ist X̃ ∼ N (0, Id ), und Y = AΣ1/2 X̃ ∼ N (0, AΣ1/2 Σ1/2 AT ) nach dem bereits
behandelten Fall, wie behauptet.
Momente
Ist X ∼ N (µ, Σ), so ist EX = µ, Cov X = Σ. Zum Beweis benutzen wir Satz
1.3. Zunächst bemerken wir, dass die Formeln für die d-variate Standardnormalverteilung
richtig sind (direkt aus der univariaten Normalverteilung). Ist Y ∼ N (0, Id ), so ist X =
Σ1/2 (Y + µ) ∼ N (µ, Σ). Mit Satz 1.1 folgt die Behauptung.
Marginalverteilungen und Unabhängigkeit Sei X ∼ N (µ, Σ), wobei X = (YT , ZT )T ,
Y ∈ Rr , Z ∈ Rd−r , für 1 ≤ r < d. Sei
µ1
Σ11 Σ12
µ=
,
Σ=
ΣT12 Σ22
µ2
mit µ1 ∈ Rr , µ2 ∈ Rd−r , Σ11 ∈ Rr×r , Σ22 ∈ R(d−r)×(d−r) , Σ12 ∈ Rr×(d−r) .
Satz 1.4
Es sind Y ∼ N (µ1 , Σ11 ), Z ∼ N (µ2 , Σ2 ), und Cov(Y, Z) = Σ12 . Weiter gilt
Y und Z unabhängig
⇔ Σ12 = 0.
Beweis
Für die Verteilung von Y verwende Satz 1.3 mit A = (Ir , 0) ∈ Rr×d , Y = AX, für Z
nutzte Z = BX, B = (0, Id−r ) ∈ R(d−r)×d . Für den zweiten Teil beachte zunächst, dass
unabhängige Zufallsvektoren Kovarianzmatrix 0 haben. Falls Σ12 =, so ist Σ = diag(Σ1 , Σ2 )
−1
T
T T
eine Blockmatrix mit inverser Σ−1 = diag(Σ−1
1 , Σ2 ), und die Dichte f (y, z) von (Y , Z )
berechnet sich leicht zur Produktdichte der beiden multivariaten Normalverteilungen, was die
Unabhängigkeit zeigt.
Satz 1.5
Sei X ∼ N (µ, Σ), µ ∈ Rd , p, q ≤ d, B ∈ Rp×d mit vollem Rang, C ∈ Rq×d mit vollem Rang.
Dann gilt:
BX und CX sind unabhängig ⇔ BΣC T = 0
1.3 Bedingte Verteilungen
7
Beweis
⇒“. Klar, da
”
Cov(BX, CX) = E(B(X − µ)(X − µ)T C T ) = BΣC T = 0
bei Unabhängigkeit.
⇐“.
”
Betrachte zunächst den Fall Σ = Id . Schreibe
T
T
C = c1 , . . . , cq , bi , cj ∈ Rd
B = b1 , . . . , bp ,
Dann: BΣC T = BC T = 0 ⇔ bTi cj = 0. Somit hat
A = b1 , . . . , bp , c1 , . . . , cq )T
vollen Rang und
BB T
BX
T
∼ N (Aµ, AA ) = N Aµ,
AX =
0
CX
0
CC T
da Σ = Id und BC T = 0. Also sind BX und CX unabhängig.
Zum allgemeinen Fall:
Weiter
1
1
2
1
1
1
1
1
2
2
BX = BΣ
| {z } Y, CX = |CΣ
{z } Y
=:B̃
1
2
1
Betrachte Y = Σ− 2 X mit Y ∼ N (Σ− 2 µ, Σ− 2 ΣΣ− 2 ) = N (Σ− 2 µ, Id ).
=:C̃
und B̃ C̃ T = BΣ (Σ )T C T = BΣC T . Somit BΣC T = 0 ⇔ B̃ C̃ T = 0 und B̃Y = BX und
C̃Y = CX nach obigem Fall unabhängig.
Relevante R Befehle. eigen (berechnet Eigenwerte und Vektoren einer Matrix), qr.solve
(berechnet Inverse einer Matrix). Die Library MASS enthält die Funktion mvrnorm (Erzeugung von multivariaten normalverteilten Zufallszahlen). Die Dichte muss per Hand berechnet
werden.
1.3
Bedingte Verteilungen
Wir wiederholen zunächst die bedingten Dichte bei Zufallsvektoren. Es sei X = (YT , ZT )T ∈
Rd mit Dichte f (y, z), Y ∈ Rr , Z ∈ Rd−r , dann hat Y|Z = z die Dichte
f (y|z) =
f (y, z)
.
f (z)
(1)
Im Folgenden sei wie oben X ∼ N (µ, Σ), wobei X = (YT , ZT )T , Y ∈ Rr , Z ∈ Rd−r , für
1 ≤ r < d. Sei
µ1
Σ11 Σ12
µ=
,
Σ=
ΣT12 Σ22
µ2
mit µ1 ∈ Rr , µ2 ∈ Rd−r , Σ11 ∈ Rr×r , Σ22 ∈ R(d−r)×(d−r) , Σ12 ∈ Rr×(d−r) .
8
1
MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN
Satz 1.6
Es ist Y|Z = z ∼ N (µY|Z=z , Σ1|2 ), wobei
µY|Z=z = µ1 − Σ12 Σ−1
2 (z − µ2 ),
Σ1|2 = Σ1 − Σ12 Σ−1
2 Σ21 .
Die Matrix Σ1|2 heisst das Schur Komplement, diese ist positiv definit, falls Σ positiv definit
ist.
Beweis
Nach (1) ist
f (y|z) =
exp(− 21 ((x − µ)T Σ−1 (x − µ) − (z − µ2 )T Σ−1
2 (z − µ2 )))
1
|Σ|
( |Σ
) 2 · (2π) 2
2|
.
Wir berechne Σ−1 in Blockform durch Spaltenumformungen 1 .
Σ1 Σ12
Σ21 Σ2
Σ1
Σ12
Σ−1
Σ
I2
21
2
Σ1|2
0
−1
Σ2 Σ21 I2
I1
0
−1
Σ2 Σ21 I2
I1 0
0 I2
Σ−1
2 ·2
↓
1 − Σ12 · 2
↓
Σ−1
1|2 · 1
↓
I1 0
0 I2
I1
0
0 Σ−1
2
2 − Σ−1
2 Σ21 · 1
↓
I1 −Σ12 Σ−1
2
0
Σ−1
2
−1
−1
Σ−1
1|2 −Σ1|2 Σ12 Σ2
0
Σ−1
2
!
−1
−Σ−1
Σ−1
1|2
1|2 Σ12 Σ2
−1
−1
−1
−1
−1
−Σ−1
2 Σ21 Σ1|2 Σ2 − Σ2 Σ21 Σ1|2 Σ12 Σ2
!
Somit ist
(x − µ)T Σ−1 (x − µ) − (z − µ2 )T Σ−1
2 (z − µ2 )
T
−1
−1
Σ
=
y − µ1 − Σ12 Σ−1
(z
−
µ
)
y
−
µ
−
Σ
Σ
(z
−
µ
)
12 2
2
1
2 .
2
1|2
−1
Wegen |Σ−1 | = |Σ−1
2 | · |Σ1|2 | folgt der Satz.
1
Gaußscher Algorithmus ((Σ|I) wird umgeformt zu (I|Σ−1 ))
1.4 Aus der Normalverteilung abgeleitete Verteilungen
Regression to the mean
Für
T
µ = (µ1 , µ2 ) ,
Σ=
σ12
ρσ1 σ2
ρσ1 σ2
σ22
9
−1 < ρ < 1,
,
sei (X, Y ) ∼ N (µ, Σ) bivariat normalverteilt. Dann gilt nach Satz 1.6 für die bedingte Verteilung
σ2
Y |X = x ∼ N µ2 + ρ (x − µ1 ), (1 − ρ2 )σ22 .
σ1
Insbesondere ist für
σ12 = σ22 = σ 2 ,
µ1 = µ2 = µ,
(2)
E(Y |X = x) = µ + ρ(x − µ) und somit für 0 < ρ < 1,
µ < E(Y |X = x) < x falls x > µ,
x < E(Y |X = x) < µ falls x < µ.
Selbst wenn also X und Y positiv korreliert sind, nähert sich im bedingten Mittel Y wieder
µ an. Analog gilt für die Änderung Y − X|X unter (2),
Y − X|X = x ∼ N (1 − ρ)(µ − x), (1 − ρ2 )σ 2 .
Also hat der Regressionskoeffizient von der Änderung Y − X (abhängige Variable) regressiert
auf X (Kovariable) negatives Vorzeichen auch bei positivem ρ.
1.4
Aus der Normalverteilung abgeleitete Verteilungen
Pd
2
2
a. Ist X ∼ N (µ, Id ), so hat XT X =
i=1 Xi die nichtzentrale χ -Verteilung mit d
1 T
2
Freiheitsgraden und Nichtzentralitätsparameter 2 µ µ. Schreibweise: χ (d; 21 µT µ).
In der Tat hängt die Dichte von X T X,
−λ
f (u) = e
1
1
∞
X
λ2k u 2 d+k−1 e− 2 u
,
k! 2 21 d+k Γ( 1 d + k)
k=0
2
1
λ = µT µ,
2
nur von λ und nicht von ganz µ ab. Für λ = 0 (bzw. µ = 0) ergibt sich die zentrale χ2 Verteilung mit d Freiheitsgraden, Bezeichnung χ2 (d), diese hat die Dichte (Beweis!)
fχ2 ,d (u) =
ud/2−1 e−u/2
.
2d/2 Γ(d/2)
(3)
Man kann zeigen, dass (3) auch für nicht ganzes d eine Dichte definiert, daher kann man die
Freiheitsgrade in (0, ∞) variieren lassen.
Weitere Notation:
χ2α (n) : Das α-Quantil der zentralen χ2 Verteilung mit n Freiheitsgraden (0 < α < 1).
χ2 (n)(x) : Wert der Verteilungsfunktion der zentralen χ2 Verteilung mit n Freiheitsgraden
bei x (x > 0).
Relevante R Befehle.
dchisq (Dichte), pchisq (Verteilungsfunktion), qchisq (Quantile) und
10
1
MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN
rchisq (Zufallszahlen).
Ist U1 ∼ χ2 (d1 ; λ), U2 ∼ χ2 (d2 ), U1 , U2 unabhängig, so hat
b.
V =
U1 /d1
∼ F (d1 , d2 ; λ)
U2 /d2
die nichtzentrale F-Verteilung mit Freiheitsgraden d1 und d2 und Nichtzentralitätsparameter λ. Für λ = 0 erhält man die zentrale F-Verteilung, diese hat die Dichte (Beweis)
2
Γ d1 +d
ud1 /2
2
d1d1 /2 dd22 /2
.
fF,d1 ,d2 (u) =
(d2 + d1 u)(d1 +d1 )/2
Γ d1 /2 Γ d2 /2
Weitere Notation:
Fα (n, m; λ) : Das α-Quantil der F Verteilung mit n und m Freiheitsgraden (0 < α < 1) und
Nichtzentralitätsparameter λ.
F (n, m; λ)(x) : Wert der Verteilungsfunktion der F Verteilung mit n Freiheitsgraden bei x
(x > 0) und Nichtzentralitätsparameter λ.
Relevante R Befehle.
zahlen).
df (Dichte), pf (Verteilungsfunktion), qf (Quantile) und rf (Zufalls-
Ist X ∼ N (µ, 1), U ∼ χ2 (d), so hat
c.
X
V =p
U/d
die t-Verteilung mit d Freiheitsgraden und Nichtzentralitätsparameter µ, Bezeichnung t(n; µ).
Für µ = 0 erhält man die zentrale t-Verteilung, diese hat die Dichte (Beweis)
(d+1)/2
Γ d+1
2√
1 + u2 /d
.
ft,d (u) =
d
Γ 2
πd
Weitere Notation:
tα (n; µ) : Das α-Quantil der t Verteilung mit n und m Freiheitsgraden (0 < α < 1) und
Nichtzentralitätsparameter µ.
t(n; µ)(x) : Wert der Verteilungsfunktion der t Verteilung mit n Freiheitsgraden und Nichtzentralitätsparameter µ bei x (x > 0).
Relevante R Befehle.
zahlen).
dt (Dichte), pt (Verteilungsfunktion), qt (Quantile) und rt (Zufalls-
Ist bei einer dieser Verteilung der Nichtzentralitätsparameter = 0, so lässt man diesen in der
Notation einfach weg.
1.5
Verteilung quadratischer Formen
Satz 1.7
Sei X ∼ N (µ, Σ), A ∈ Rd×d positiv semidefinit2 . Ist AΣ idempotent, d.h. (AΣ)2 = AΣ, so
gilt
1
XT AX ∼ χ2 (r(A), µT Aµ)
2
2
setzt Symmetrie voraus!
1.5 Verteilung quadratischer Formen
11
(r(A) ist der Rang von A)
Bemerkung
Es gilt auch die Rückrichtung.
Beweis
a. Zunächst sei wieder Σ = Id . Wegen A = A2 hat die Spektralzerlegung von A die Form
A = QT diag( 1, . . . , 1 , 0, . . . , 0)Q
| {z }
r(A) mal
mit orthogonaler Matrix Q. Somit
2
XT AX = XT QT diag(1, . . . , 1, 0, . . . , 0) QX = YT DY = Y12 + . . . + Yr(A)
|
{z
} |{z}
=:Y
=:D
wobei Y ∼ N ( Qµ , Id ). Somit gilt:
|{z}
=:v
XT AX ∼ χ2 (r(A),
1
1 2
2
(v1 + . . . + vr(A)
)) = χ2 (r(A), µT Aµ)
2|
2
{z
}
=vT Dv=µT Aµ
1
1
b. Allgemeiner Fall:
Ist X ∼ N (µ, Σ), so gilt Y = Σ− 2 X ∼ N (Σ− 2 µ, Id ) und XT AX =
1
1
YT Σ 2 AΣ 2 Y.
1
1
Es ist Σ 2 AΣ 2 idempotent, denn
1
1
1
1
1
1
1
1
1
1
Σ 2 AΣ 2 Σ 2 AΣ 2 = Σ− 2 ΣAΣAΣ 2 = Σ− 2 ΣAΣ 2 = Σ 2 AΣ 2 .
Nach (a) gilt somit
1
1
1
1
1
1
1
XT AX ∼ χ2 (r(Σ 2 AΣ 2 ), (Σ− 2 µ)T Σ 2 AΣ 2 (Σ− 2 µ))
2
1 T
2
= χ (r(A), µ µ).
2
1
da Σ 2 vollen Rang hat.
Beispiel 1.8
Es seine X1 , . . . , Xn unabhängig und N (µ, σ 2 ) verteilt. Als Schätzer für Erwartungswert und
Varianz betrachtet man
n
1X
X̄n =
Xi ,
n
i=1
n
Sn2
1 X
=
(Xi − X̄n )2 .
n−1
i=1
Offenbar ist X̄n ∼ N (µ, σ 2 /n). Wir zeigen
n−1 2
S ∼ χ2 (n − 1).
σ2 n
(4)
12
1
MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN
Dazu setze 1n = (1, . . . , 1)T ∈ Rn und Pn = In − n1 1n 1Tn (die Zentrierungsmatrix). Für
X = (X1 , . . . , Xn )T ist in der Tat Pn X = (X1 − X̄n , . . . , Xn − X̄n )T . Weiter Pn2 = Pn (Beweis),
also nach Satz 1.7
n−1 2
1 T
2
2 T
S
=
X
P
X
∼
χ
r(P
),
µ
1
P
1
/2
.
n
n
n
n
n
n
σ2
σ2
Da Pn2 = Pn und PnT = Pn , ist r(Pn ) = Spur Pn = n − 1. Ausserdem ist Pn 1n = 0. Dies zeigt
(4).
Satz 1.9 (Craig und Sakamoto)
Sei X ∼ N (µ, Σ).
a. Ist A ∈ Rd×d positiv semidefinit, B ∈ Rp×d , so gilt
BΣA = 0 ⇒ XT AX und BX sind unabhängig
b. Ist auch B ∈ Rd×d positiv semidefinit, so gilt
BΣA = 0 ⇒ XT AX und XT BX sind unabhängig
Bemerkung Es gilt jeweils auch die Rückrichtung (dies ist der schwerere, aber weniger
relevante Teil).
Beweis
a. Spektralzerlegung von A
A = Q diag(λ1 , . . . , λr(A) , 0, . . . , 0)QT
mit Q orthogonal, λi > 0.
Sei Q = (q1 , . . . , qd ), Q̃ = (q1 , . . . , qr(A) ) ∈ Rd×r(A) . Dann
1
1
2
)
A = Q̃DDQ̃T , D = diag(λ12 , . . . , λr(A)
Setze L := Q̃D, dann ist A = LLT . Weiter gilt
LT L = D Q̃T Q̃ D = D2
| {z }
=Ir(A)
ist invertierbar, also
BΣA = BΣLLT = 0 ⇒ BΣL(LT L)(LT L)−1 = BΣL = 0.
Nach Satz 1.5 sind somit die Vektoren BX und LT X unabhängig und somit auch BX
und XT LLT X = XT AX (ist Funktion von LT X).
b. Analog. (Zerlege A und B.)
1.5 Verteilung quadratischer Formen
Fortsetzung von Beispiel 4.
normalverteilten Xi unabhängig.
13
Da X̄n = 1Tn X/n und 1Tn Pn = 0, sind X̄n und Sn2 bei
Literatur
Discroll, M. F. (1999). An improved result relating quadratic forms and chi square distributions. Amer. Statist. 53, 273-275.
Discroll, M. F. and Grundberg, W. R. (1986). A history of the development of Craig’s theorem. Amer. Statist. 40, 65-69.
Discroll, M. F. and Krasnicka, B. (1995). An accessible proof of Craig’s theorem in the general
case. Amer. Statist. 49, 59-62.
14
2
2
LINEARE REGRESSION
Lineare Regression
2.1
2.1.1
Lineare Regression und Modellbildung
Regression und das lineare Modell
In der Regressionsanalyse geht es darum, den Einfluss einer Reihe von erklärenden Variablen x1 , . . . , xr , sogenannte Kovariablen, auf eine abhängige Variabe Y , die Zielvariable, zu
modellieren bzw. zu schätzen. Dieser Zusammenhang drückt sich in Form einer Funktion
y = f (x1 , . . . , xr ) aus. Nun wird aber nicht angenommen, dass diese Beziehung exakt gilt.
Vielmehr ist sie durch zufällige Störgrößen ǫ überlagert, d.h. es gilt
Y = f (x1 , . . . , xr ) + ǫ.
In der linearen Regressionsanalyse nimmt man an, dass der Einfluss der Kovariablen, zumindest nach geeignter Transformation dieser Variablen, in einer linearen From
Y = b0 + b1 x1 + . . . + br xr + ǫ.
Dabei ist ǫ eine Zufallsvariable (bzw. deren Realisierung) mit Erwartungswert Eǫ = 0 und
endlicher Varianz Var ǫ = σ 2 , und somit ist auch die Zilegröße Y eine Zufallsvariable (bzw.
deren Realisierung). Ziel ist dann die Schätzung der Parameter b0 , . . . , br . Diese fasst man
in einem Vektor zusammen. Wir schreiben β = (b0 , . . . , br ) ∈ Rp , also p = r + 1, und für
die Komponenten von β = (β1 , . . . , βp )T gilt dann βi = bi−1 . Weiter schreibt man x =
(1, x1 , . . . , xr )T ∈ Rp , so dass Y = xT β + ǫ.
Ziel ist nun in einem ersten Schritt die Schätzung der unbekannten Parameter des Modells,
insbesondere von β. Dazu nimmt man an, es werden Daten (Yi , xi,1 , . . . , xi,r ), i = 1, . . . , n,
beobachtet, so dass
Yi = xTi β + ǫi ,
xi = (1, xi,1 , . . . , xi,r )T .
Für die Fehler ǫi nimmt man dabei an, dass diese unabhängig oder zumindest unkorreliert
sind, also dass Cov(ǫi , ǫj ) =, i 6= j. Falls darüber hinaus die Varianzen σi2 = Var ǫi alle
gleich sind, also σ12 = . . . = σn2 , so sprich man von einer homoskedastsichen Fehlerstruktur,
ansonsten von einer heteroskedastischen Fehlerstruktur.
Die Analyse eines homoskedastischen linearen Regressionsmodells findet nun im Rahmen der
Theorie linearer Modelle statt. Dazu schreiben wir das Modell in Vektor- und Matrixform wie
folgt.
 
 
 T
ε1
Y1
x1
 .. 
 .. 
 .. 
n×p
n
,
ǫ =  .  ∈ Rn .
Y= . ∈R ,
X= . ∈R
Yn
xTn
εn
Es gilt dann Y = Xβ + ǫ. Für die Kovariablen nimmt man noch an, dass sie dergestalt
sind, dass die sogenannte Designmatrix X vollen Rang p hat. Der Achsenabschnitt wird
meistens, aber nicht immer in das lineare Regressionsmodell mit aufgenommen. Das lineare
Regressionsmodell fällt unter die folgende allgemeinere Definition.
2.1 Lineare Regression und Modellbildung
15
Definition 2.1
Das Modell
Y = Xβ + ǫ,
(5)
heißt lineares Modell, falls β ∈ Rp ein (konstanter, unbekannter) Parametervektor, X ∈ Rn×p
eine bekannte Matrix (Designmatrix), Y ein beobachter Zufallsvektor (Zielgrößen) und ǫ
ein nichtbeobachteter Zufallsvektor (Störgrößen) mit Eǫ = 0 und Cov ǫ = σ 2 In sind. Sind
darüber hinaus die Fehler normalverteilt, also ǫ ∼ N (0, σ 2 In ), dann spricht man von einem
linearen Modell mit normalverteilten Fehlern.
Wir werden in den folgenden Abschnitten alle Resultate im allgemeinen linearen Modell (5)
formulieren, aber wir denken dabei stets an ein homoskedastisches lineares Regressionsmodell. Lineare Modelle treten darüber hinaus insbesondere in dem verwandten Kontext der
Varianzanalyse auf.
2.1.2
Modellierung des Einflusses der Kovariablen
a. Einfluss einer metrischen Kovariable
Angenommen, neben der Zielvariable Y wird noch eine metrische Kovariable x beobachtet.
Das einfachste Modell ist nun die direkt lineare Regression von Y auf x, die einfache lineare
Regression
Y = b0 + b1 x + ε,
also xT = (1, x)T und β T = (b0 , b1 )T . Manchmal liegt ein linearer Zusammenhang auch erst
vor, nachdem x geeignet trasnformiert wurde, etwa zu x̃ = log(x) (falls x > 0) und dann
Y = b0 + b1 x̃ + ε, also xT = (1, x̃)T .
Man kann aus einer metrischen Kovariable auch mehrere metrische Kovariablen machen durch
Anwendung linear unabhängiger Funktionen f1 , . . . , fr , also
Y = b0 + b1 f1 (x) + . . . + br fr (x) + ε,
T
also x = 1, f1 (x), . . . , fr (x) . Beispiele sind die polynomiale Regression, bei der fi (x) = xi
gewählt wird, also
Y = b0 + b1 x + . . . + br xr + ǫ,
T
und x = 1, x, . . . , xr , oder auch für x ∈ [0, 1] die trigonometrische Regression, bei der
f2j−1 (x) = sin(2jπx) und f2j (x) = cos(2jπx), j = 1, . . . , q gewählt wird, also
q
X
Y = b0 +
(b2j−1 sin(2jπx) + b2j cos(2jπx)),
j=1
T
und x = 1, sin(2πx), cos(2πx)), sin(2qπx), cos(2qπx)) , β = (b0 , b1 , b2 , . . . , b2q )T , also p =
2q + 1.
b. Einfluss einer kategoriellen Kovariable
Bei kategoriellen Kovariablen unterscheidet man nominale Kovariablen, bei denen die Kategorien nicht geordnet sind (etwa Autotypen), und ordinale Kovariable, bei denen die Kategorien
16
2
LINEARE REGRESSION
in einer natürlichen Reihenfolge vorliegen (etwa Schulnoten).
Wir betrachten zunächst die Modellierung einer nominale Kovariablen mit den Kategorien
i = 1, . . . , I. Um nicht zu viele Parameter ins Modell aufzunehmen, damit also die Desigmatrix X noch vollen Rang hat, wählt man eine Referenzkategorie, z.B. i = 1, und für künstliche Kovariablen ein, deren Koeffizient den Unterschied zwischen der betrachteten Kategorie
i = 2, . . . , I und der Referenzkategorie beschreibt. Hier sind insbesondere zwei Kodierungen
üblich.
Kodierung durch Dummy Variablen
Wird die Kategorie x beobachtet und ist 1 die Referenzkategorie, so setze x = (1, 1x=2 , . . . , 1x=I )T ∈ RI , d.h. falls eine der Kategorien i = 2, . . . , I
vorliegt, kommt eine 1 hinzu, ansonsten gibt es nur den Achsenabschnitt. Im Koeffizientenvektor β = (β1 , . . . , βI )T beschreibt βi den Unterschied des Einflusses von Kategorie i ≥ 2
gegenüber der Referenzkategorie, und β1 + βi den Gesamteinfluss von Kategorie i ≥ 2.
Effektkodierung
Wird die Kategorie x beobachtet und ist 1 die Referenzkategorie, so setze
x = (1, 1x=2 − 1x=1 , . . . , 1x=I − 1x=1 )T ∈ RI .
Die Software R verwendet standardmäßig die Dummy Kodierung.
Handelt es sich bei x um eine ordinale Kovariable, so kann man versuchen, den geordeneten
Kategorien konkrete Zahlen (etwa den Schulnoten die Zahlen 1 − 6) zuzuordnen, und diese
dann wie eine metrische Kovariable zu benutzten. Dies hat den Vorteil, dass in dem Modell
wesentlich weniger Parameter (nur ein Parameter β für Kovariable x statt I − 1 Parameter)
verwendet werden müssen. Dabei müssen die zugeordneten Zahlen (insbesondere das Verhältnis von deren Abständen) aber sogfältig gewählt werden. Falls dies nicht adäquat möglich ist,
sollte die Kovariable lieber wie eine nominale Kovariable und mit der Dummay Kodierung
behandelt werden.
relevante R Befehle
kategorielle Kovariablen müssen bei der Funktion lm, die lineare Regression mit kleinsten Quadraten anpasst, als Faktor vorliegen. Dazu kann man den Typ mit
str erfahren, und gegebenenfall mit as.factor zu einem Faktor umwandeln.
c. Interaktionen
Interaktionen zwischen einer kategoriellen und einer stetigen Kovariable
Ist x eine kategorielle (nominale) Kovariable mit den Kategorien i = 1, . . . , I und t eine stetige
Kovariable, die direkt (linear) in die Zielgröße eingeht, so können die Kategorienausprägungen
von x auch den Koeffizienten von t beeinflussen. Dies nennt man Interaktionen, man setzt
dann bei Referenzkategorie 1 und Dummykodierung von x
T
x = 1, 1x=2 , . . . , 1x=I , t, 1x=2 t, . . . , 1x=I t .
Im Koeffizientenvektor β = (β1 , . . . , βI , βI+1 , . . . , β2I )T beschreibt dann βI+1 + β2I die Steigung von t bei Vorliegen von Kategorie i ≥ 2, und βI+1 die Steigung bei Vorliegen der
Referenzkategorie 1. Man muss dabei natürlich nicht alle Interaktionen in das Modell aufnehmen.
Falls sowohl stetige als auch kategorielle Kovariable auftreten, spricht man manchmal statt
von der Regressionsanalyse auch von der Kovarianzanalyse.
Interaktionen zwischen zwei kategoriellen Kovariablen
Ist x eine kategorielle (nominale) Kovariable mit den Kategorien i = 1, . . . , I und t eine kategorielle Kovariable mit Kategorien j = 1, . . . , J, so kann man Interaktionen für gemeinsames
2.1 Lineare Regression und Modellbildung
17
Vorliegen von x = i und t = j modellieren. Sind i = 1 und j = 1 die Referenzkategorien, so
bildet man in Dummy Kodierung
x = 1, 1x=2 , . . . , 1x=I , 1t=2 , . . . , 1t=J , 1x=2 1t=2 , . . . , 1x=2 1t=J , . . . , 1x=I 1t=J
T
∈ RIJ .
Die Terme 1x=i 1t=j , i = 2, . . . , I, j = 2, . . . , J, entsprechen dann den Interaktionen, diese sind
wieder als Abweichungen gegenüber den Haupteffekten 1x=i und 1t=j zu interpretieren.
Interaktionen zwischen zwei metrischen Kovariablen
Interaktionen zwischen zwei metrischen Kovriablen x und t müssen durch Aufnahme bestimmter gemeinsamer nichtlinearer Funktionen, etwa xt oder ex et , modelliert werden. Man
benutzt häufig gemeinsame Polynome niedrigen Grades.
In welcher Form metrische Kovariablen aufgenommen werden, und welche Interaktionen mit
kategoriellen oder anderen metrsichen Kovariablen aufgenommen werden, muss innerhalb der
Modellwahl und der Modelldiagnostik bestimmt werden. Wie nehmen zunächst an, dass ein
linearen Modell der Form (5) in seiner korrekten Form gegeben ist.
18
2
2.2
LINEARE REGRESSION
Kleinste Quadrate Schätzung
2.2.1
Methode der kleinsten Quadrate
Der bekannteste Schätzer von β im linearen Modell (5) ergibt sich
der
Pn aus der TMethode
2
2
kleinsten Quadrate. Wann wählt dabei β derart, dass kY −Xβk = i=1 (Yi −xi β) minimal
wird, also
β̂ = β̂ LS = argminβ∈Rp kY − Xβk2
Dabei stehet LS für least squares = kleinste Quadrate. Wir schreiben für die Komponenten
von β̂ LS explizit β̂ LS = (β̂1,LS , . . . , β̂p,LS ). Wir wollen β̂ LS in expliziter Form auf zwei Arten
herleiten.
Normalengleichungen.
Ableiten von kY − Xβk2 und gleich 0 setzten liefert
X T (Y − Xβ) = 0.
Dies nennt man auch die Normalengleichungen, diese sind eine notwendige Bedingung für ein
lokales Extremum. Da X vollen Rang p hat, ist X T X ∈ Rp×p invertierbar und man erhält
β̂ LS = β̂ = (X T X)−1 X T Y.
(6)
Dass β̂ LS das einzige lokale und somit globale Minimum von kY − Xβk2 ist, sieht man leicht
daran, dass die Hessische Matrix (Matrix der zweiten Ableitungen) gleich X T X und somit
positiv definit ist.
Geometrische Herleitung:
Ein β̂ minimiert die Funktion kY−Xβk2 genau dann, wenn
X β̂ die orthogonale Projektion von Y auf den von den Spaltenvektoren von X = [v1 , . . . , vp ],
vi ∈ Rn , erzeugten Unterraum V = span{v1 , . . . , vp } im Rn ist. In der Tat: Für jedes andere
β gilt nach Pythagoras:
kY − Xβk2 = k Y − X β̂ +X(β̂ − β)k2 = kY − X β̂k2 + kX(β̂ − β)k2 ≥ kY − X β̂k2
| {z }
⊥ v1 ,...,vp
Da X vollen Rang hat, sind v1 , . . . vp linear unabhängig und somit ist der Koeffizientenvektor
β̂ LS eindeutig bestimmt.
Um den Schätzer β̂ LS in der expliziten Form (6) zu erhalten, betrachten wir die Matrix
PX = X(X T X)−1 X T ∈ Rn×n (die sogenannte hat matrix). Es ist
PX : Rn → V
z 7→ PX z
die orthogonale Projektion auf V . Dazu zeigt man durch direkte Rechnung:
a. PX ist orthogonale Projektion: PX2 = PX , PXT = PX
b. PX lässt V invariant
c. PX Rn ⊂ V
Somit muss gelten:
X β̂ = PX Y = X(X T X)−1 X T Y.
Da X vollen Rang hat, ergibt sich wieder die Form (6).
2.2 Kleinste Quadrate Schätzung
19
Bemerkung
Erwartungswert und Varianz von Y im linearen Modell (5) hängen von den unbekannten Parametern (β, σ 2 ), ab, höhere Momente sogar von der unbekannten Verteilung der Störungen
ǫ. Daher müsste man diese bei Bildung von Erwartungswert und Varianz eigentlich mitschreiben, also etwa Eβ,σ2 (·) und Covβ,σ2 (·). Wir werden diese Parameter aber in der Notation im
allgemeinen unterdrücken, und einfach E und Cov schreiben.
Satz 2.2
Der kleinste Quadrate Schätzer β̂ LS im linearen Modell (5) ist unverfälscht, also E β̂ LS = β,
und es ist
Cov β̂ LS = σ 2 (X T X)−1 .
Beweis
Mit Satz 1.2 folgt
E β̂ LS = E(X T X)−1 X T Y
= E(X T X)−1 X T (Xβ + ǫ)
= E(X T X)−1 X T Xβ + E(X T X)−1 X T ǫ
= β + (X T X)−1 X T |{z}
Eǫ ,
=0
= β
Cov β̂ LS = Cov((X T X)−1 X T ( Xβ +ǫ))
|{z}
konst.
= Cov((X T X)−1 X T ǫ)
= (X T X)−1 X T σ 2 In X(X T X)−1
= σ 2 (X T X)−1
1/2
1/2
Man nennt σ (X T X)−1
und für einen Schätzer σ̂ 2 von σ 2 (s.u.) auch σ̂ (X T X)−1
den
ii
ii
Standardfehler von β̂i,LS .
Im Folgenden zeigen wir, dass β̂ LS der eindeutig bestimmte, lineare unverfälschte Schätzer
mit der kleinsten Varianz ist.
Satz 2.3 (Gauß-Markov-Aitken)
a. Sei S(Y) = AY, A ∈ Rp×n , ein linearer, unverfälschter Schätzer für β im linearen
Modell (5) (d.h. ES(Y) = β ∀β ∈ Rp ). Dann gilt
Cov(S(Y)) ≥ Cov(β̂ LS )
im Sinne, dass die Differenz Cov(S(Y)) − Cov(β̂ LS ) positiv semidefinit ist.
b. Ist A 6= (X T X)−1 X T , so existiert z = z(A) ∈ Rp , so dass
zT (Cov(S(Y)) − Cov(β̂ LS ))z > 0
Beweis
a. Aus der Unverfälschtheit folgt
!
ES(Y) = AXβ = β
∀β ∈ Rp ,
20
2
LINEARE REGRESSION
also AX = Ip . Damit und mit Satz 2.2 ist
Cov(β̂ LS ) = σ 2 (X T X)−1 = σ 2 AX(X T X)−1 X T AT = σ 2 APX AT ,
Cov(S(Y)) = Aσ 2 In AT = σ 2 AAT .
Damit erhält man
Cov(S(Y )) − Cov(β̂ LS ) = σ 2 A(In − PX )AT
Die Matrix (In − PX ) ist idempotent und symmetrisch: (In − PX )2 = (In − PX ) = (In − PX )T .
Somit:
σ 2 zT A(In − PX )AT z = σ 2 k(In − PX )AT zk2 ≥ 0.
b. Angenommen, (In − PX )AT zk2 = 0 ∀z ∈ Rp , und somit (In − PX )AT = 0. Sei AT =
(a1 , . . . , ap ), ai ∈ Rn , dann erhält man 3 : ai ∈ span(v1 , . . . , vp ), also AT = XM für eine
Matrix M ∈ Rp×p . Wegen AX = Ip folgt M T X T X = IP , also M T = (X T X)−1 ⇒ A =
(X T X)−1 X T .
Wegen Satz 2.3 heißt der Schätzer β̂ LS auch der beste lineare unverfälschte Schätzer (best
linear unbiased estimator, BLUE).
Bemerkung 2.4
1. Satz 2.3, b., impliziert, dass es für einen unverfälschten Schätzer S(Y) 6= β̂ LS ein z ∈ Rp
gibt, so dass gilt Var(zT S(Y)) > Var(zT β̂ LS ). (Schätzer für zT β)
2. Satz 2.3, a., folgt Cov(S(Y ) jj ≥ Cov β̂ LS jj für j = 1, . . . , p, und daher
Spur(Cov(S(Y ))) ≥ Spur(Cov(β̂ LS ))
Der kleinste Quadrate Schätzer β̂ LS als Maximum-Likelihood-Schätzer.
Ange2
nommen, im linearen Modell (5) sind die Fehler normalverteilt, also ǫ ∼ N (Xβ, σ In ) und
somit Y ∼ N (Xβ, σ 2 In ). Dann ist die Likelihood-Funktion gegeben durch
!
n
X
1
1
(Yi − xTi β)2 ,
Ln (β, σ 2 ) =
− 2
n exp
2σ
(2πσ 2 ) 2
i=1
und die log-Likelihood-Funktion durch
n
kY − Xβk2
Ln (β, σ 2 ) = log Ln (β, σ 2 ) = − log(2πσ 2 ) −
2
2σ 2
Damit Ln (β, σ 2 ) maximal wird, muss offenbar kY − Xβk2 minimal werden. Daher ist β̂ LS
gleich dem Maximum Likelihood Schätzer β̂ M L für β im linearen Modell mit normalverteilten
Fehlern.
Schätzen der Fehlervarianz σ 2 .
Zunächste einige Bezeichnungen:
Ŷ = X β̂ = Ŷ1 , . . . , Ŷn
3
T
ǫ̂ = Y − Ŷ
angepassten Werte (fitted values)
Residuen
ai ∈ Kern(In − PX ) = Bild(PX ); Eigenschaft von Projektionen (hier: PX )
2.2 Kleinste Quadrate Schätzung
21
Idee: Nutze Variation der ǫ̂ = (ε̂1 , . . . , ε̂n )T zum Schätzen von σ 2 . Schätze σ 2 durch
n
2
σ̂ 2 = σ̂LS
=
1 X 2
1
1
kY − Ŷk2 =
YT (I − PX )Y,
ε̂i =
n−p
n−p
n−p
i=1
wobei wir Ŷ = X β̂ = PX Y und (I − PX ) = (I − PX )2 = (I − PX )T genutzt haben.
Satz 2.5
2 erwartungstreu für σ 2 .
Im linearen Modell (5) ist σ̂LS
Beweis
Da EY = Xµ, Cov Y = σ 2 In , folgt mit Satz 1.2
E(YT (I − PX )Y) = µT X T (I − PX )X µ + Spur(σ 2 (I − PX )).
|
{z
}
=0
Es gilt:
Spur(In − PX ) = n − Spur(X(X T X)−1 · X T )
= n − Spur(X T · X(X T X)−1 )
= n − Spur Ip
= n − p.
Somit ist
2
=
E σ̂LS
1
E(YT (I − PX )Y) = σ 2 .
n−p
(7)
2
2
Übung
Der ML-Schätzer σ̂M
L für σ im linearen Modell mit normalverteilten Fehlern
ist gegeben durch n1 kY − X β̂ LS k2 .
Relevante R Befehle
lm führt eine kleinste Quadrate Schätzung im linearen Modell durch.
Auf ein dadurch erzeugtes Objekt kann man summary (Schätzwerte, Schätzer für σ 2 , Standardfehler und mehr), fitted.values (angepasste Werte), residuals (Residuen) anwenden.
22
2.2.2
2
LINEARE REGRESSION
Verteilungstheorie bei normalverteilten Fehlern
In diesem Abschnitt gehen wir auf die Verteilung der Schätzer sowie relevanter Teststatistiken
im linearen Modell (5) mit normalverteilten, homoskedastischen Fehlern, also ǫ ∼ N (0, σ 2 In ),
ein. Wir beginnen mit dem grundlegenden
Satz 2.6
Im linearen Modell Y = Xβ + ǫ, β ∈ Rp , mit normalverteilten, homoskedastischen Fehlern
ǫ ∼ N (0, σ 2 In ) gilt
n−p 2
β̂ LS ∼ N β, σ 2 (X T X)−1 ,
σ̂ ∼ χ2 (n − p),
σ2
und β̂ LS und σ̂ 2 sind unabhängig.
Beweis
Da Y ∼ N (Xβ, σ 2 In ), folgt aus β̂ LS = (X T X)−1 X T Y mit Satz 1.3 direkt die Behauptung
für β̂ LS . Weiter ist
1
σ̂ 2 = 2 YT (In − PX )Y.
σ
Da (In − PX )2 = In − PX (die orthogonale Projektion auf das orthogonale Komplement
des Spaltenraumes von X), ist Satz 1.7 anwendbar (die Division durch σ 2 standardisiert die
Y). Da (In − PX )X = 0, ist der Nichtzentralitätsparameter gleich 0. Weiter ist nach (7)
Spur(In − PX ) = n − p.
Es bleibt die Unabhängigkeit von β̂ LS und σ̂ 2 zu zeigen. Diese folgt direkt aus Satz 1.9, da
(In − PX )X = 0.
Konfidenzintervall für cT β.
cT β̂ LS
und
Für c ∈ Rp gilt nach Satz 2.6 und Satz 1.3
∼ N cT β, σ 2 cT (X T X)−1 c
cT β̂ LS − cT β
1
σ(cT (X T X)−1 c) 2
∼ N (0, 1).
Wegen der Unabhängigkeit von β̂ LS und σ̂ 2 (und somit auch von cT β̂ LS und σ̂ 2 ) folgt direkt
aus der Definition der t Verteilung
cT β̂ LS − cT β
1
σ̂ (cT (X T X)−1 c) 2
∼ t(n − p).
(8)
Konfidenzintervall für cT β zum Niveau α > 0:
T
1
1
c β̂ LS − σ̂(cT (X T X)−1 c) 2 t1− α2 (n − p); cT β̂ LS + σ̂(cT (X T X)−1 c) 2 t1− α2 (n − p) .
Insbesondere für Komponente βi (c = ei , i-te Einheitsvektor):
1
1
β̂LS,i − σ̂((X T X)−1 )ii2 t1− α2 (n − p); β̂LS,i + σ̂((X T X)−1 )ii2 t1− α2 (n − p) .
Aufgabe
Konfidenzintervall für σ 2 .
relevante R Befehle
confint liefert für ein Objekt aus lm die Konfidenzintervalle der
einzelnen Komponenten des KQ Schätzers.
2.2 Kleinste Quadrate Schätzung
23
Hypothesen Testen mit dem t Test Für c ∈ Rp und δ ∈ R betrachten wir die Hypothese
Hc,δ : cT β = δ.
Unter Gültigkeit der Hypothese Hc,δ gilt nach (8):
Tc,δ =
cT β̂ LS − δ
1
σ̂(cT (X T X)−1 c) 2
∼ t(n − p).
Man verwirft die zweiseitige Hypothese Hc,δ zum Niveau α > 0, falls Tc,δ < tα/2 (n − p) oder
falls Tc,δ > t1−α/2 (n − p). Der zweiseitige p-Wert ergibt sich als
2 t(n − p) (Tc,δ ),
Tc,δ < 0,
(9)
P =
2 1 − t(n − p) (Tc,δ ) , Tc,δ > 0.
Analog für einseitige Hypothesen. Wichtigster Spezialfall: c = ei , δ = 0. Dann Hi : βi = 0,
und
(β̂ LS )i
Ti =
.
1/2
σ̂((X T X)−1 )ii
relevante R Befehle
Hypothese Hi .
summary liefert für ein Objekt aus lm die zweiseitigen P-Werte für die
Vorhersageintervalle Ein Konfidenzintervall bezieht sich auf den Erwartungswert cT β
von cT β̂, wobei β̂ aus dem linearen Modell (5) berechnet wird.
Bei einem Vorhersageinterall (Prediction Interval) hingegen ist eine zusätzliche Kovariablenausprägung xn+1 erforderlich, bei der die abhängige Variable Yn+1 vorhergesagt werden soll.
Das Vorhersageintervall bezieht sich also nicht auf einen Parameter wie das Konfidenzintervall, sondern auf die Zufallsvariable Yn+1 .
Sei β̂ LS der KQ-Schätzer im linearen Modell (5). Als Vorhersage für Yn+1 bei xn+1 betrachten
man
Y Pred = xTn+1 β̂ LS .
Nach dem linearen Modell würde die Beobachtung Yn+1 entstehen durch
Yn+1 = xTn+1 β + εn+1 ,
wobei εn+1 und ǫ unabhängig sind. Somit
Y Pred − Yn+1 = xTn+1 (β̂ LS − β) + εn+1 ∼ N 0, σ 2 + σ 2 xTn+1 (X T X)−1 xn+1 ,
und nach Satz 2.6
Y Pred − Yn+1
1
σ̂(1 + xTn+1 (X T X)−1 xn+1 ) 2
∼ tn−p .
Als zweiseitigen Vorhersagebereich erhält man
Pred
1
1
Y
−σ̂(1+xTn+1 (X T X)−1 xn+1 ) 2 t1− α2 (n−p), Y Pred +σ̂(1+xTn+1 (X T X)−1 xn+1 ) 2 t1− α2 (n−p) .
24
2
LINEARE REGRESSION
Vergleich.
Das Vorhersageintervall für Yn+1 ist breiter als das Konfidenzintervall für
xTn+1 β, da der zusätzliche Fehler εn+1 in Yn+1 mit berücksichtigt werden muss.
relevante R Befehle
predict.lm anwenden auf Objekt aus lm und zusätzliche Kovariable.
Konfidenzbereich für Aβ
Satz 2.6 und Satz 1.3 ist
Die Matrix A ∈ Rq×p , 1 ≤ q ≤ p, habe vollen Rang. Nach
Aβ̂ LS ∼ N Aβ, σ 2 S ,
wobei S = A(X T X)−1 AT ∈ Rq×q vollen Rang hat. Nach Satz 1.7 ist dann
(A(β̂ LS − β))T
S −1
A(β̂ LS − β) ∼ χ2 (q).
σ2
Da nach Satz 2.6 σ̂ 2 und β̂ LS (und damit auch eine Funktion von β̂ LS ) unabhängig sind,
folgt aus der Definition der F Verteilung
(A(β̂ LS − β))T S −1 A(β̂ LS − β)
∼ F (q; n − p).
qσ̂ 2
(10)
Somit ergibt sich als (1-α)-Konfidenzbereich für Aβ:
n
o
(A(β̂ LS − β))T S −1 A(β̂ LS − β)
Aβ :
≤
F
(q;
n
−
p)
.
1−α
qσ̂ 2
Ein wichtiger Spezialfall ensteht, falls A eine Teilmatrix von Ip ist.
relevante R Befehle
Die library ellipse enthält den Befehl ellipse, welcher zweidimensionale Konfidenzellipsoide berechnet. Plotten einfach mit plot.
Testen allgemeiner linearer Hypothesen mit dem F-Test Man möchte manchmal
allgemeinere lineare Hypothesen, die nicht von der Form cT β = δ sind, testen.
Beispiele linearer Hypothesen.
a. H: β = 0 (alle βi = 0)
b. H: βi1 = . . . = βiq = 0, 1 ≤ i1 < . . . < iq ≤ p
c. H: β = β 0 , β 0 6= 0.
Allgemeine lineare Hypothese: Für A ∈ Rq×p , q ≤ p mit vollem Rang, m ∈ Rq betrachte
HA,m : Aβ = m.
Es gilt
Aβ̂ − m ∼ N Aβ − m, σ 2 S ,
2.2 Kleinste Quadrate Schätzung
25
wobei wiederum S = A(X T X)−1 AT ∈ Rq×q vollen Rang hat. Dann ist
(Aβ̂ − m)T
S −1
(Aβ̂ − m) ∼ χ2 (q, λ)
σ2
−1
wobei der Nichtzentralitätsparameter λ = 12 (Aβ − m)T Sσ2 (Aβ − m), und somit
FS =
(Aβ̂ − m)T S −1 (Aβ̂ − m)
∼ F (q, n − p, λ)
qσ̂
Unter der Hypothese HA,m gilt λ = 0. Daraus bestimmt man den zweiseitigen p-Wert für die
lineare Hypothese als P = 1 − F (q, n − p)(F S).
Aufgabe
Aβ = m.
Bestimme den kleinsten Quadrate Schätzer unter der linearen Nebenbedingung
relevante R Befehle
anova führt den F Test durch, dabei muss das Modell unter HA,m
mit geschätzt worden sein und als Argument übergeben werden. Falls kein zweites Modell
übergeben wird, führt anova die F-Tests dafür durch, ob bei kategorielle Kovariablen alle
Koeffizienten der Dummy Variablen = 0 sind, und gegebenenfalls auch für die Interaktionen.
2.2.3
Asymptotische Verteilungstheorie
In diesem Abschnitt zeigen wir, dass der kleinste Quadrate Schätzer im linearen Regressionsmodell unter geeigneten Bedingungen bei nicht-normalverteilten Fehlern zumindest asymptotisch normalverteilt ist. Dazu benötigen wir zunächst ein geeignetes Beobachtungsmodell, in
dem die Anzahl der Beobachtungen n wächst (n → ∞), die Zahl der Parameter p sowie der
Parametervektor β und σ 2 fest bleiben. Wir nehmen also an, dass für jedes n Beobachtungen
(Yi,n , xi,n ), i = 1, . . . , n, aus dem Modell
Yi,n = xTi,n β + ǫi,n
i = 1, . . . , n,
(11)
vorliegen, wobei ǫi,n identisch verteilt sind für alle i, n mit Eǫi,n = 0, Eǫ2i,n = σ 2 , und
ǫ1,n , . . . , ǫn,n unabhängig sind für alle n. Setze
Xn = (xT1,n , . . . , xTn,n )T ∈ Rn×p ,
Yn = (Y1,n , . . . , Yn,n ) ∈ Rn ,
ǫ = (ǫ1,n , . . . , ǫn,n )T ∈ Rn ,
wobei wir im Vektor ǫ die Abhängigkeit von n unterdrückt haben.
Annahme. Alle Komponenten der xj,n (für alle j, n) liegen in einer kompakter Menge K,
und es gelte
1 T
X Xn → Q ∈ Rp×p
(12)
n n
für eine positiv definite Matrix Q > 0.
Satz 2.7
In einer Folge von linearen Modellen (11) unter obigen Annahmen gilt für die Folge von
Schätzern β̂ LS,n und σn2 unter Annahme (12)
√
d
n(β̂ LS,n − β) → N (0, σ 2 Q−1 )
(13)
26
2
sowie
LINEARE REGRESSION
P
σ̂n2 → σ 2 .
d
Bemerkung a. Das Symbol → steht für Konvergenz in Verteilung, also im Falle einer Normalverteilung als Grenzverteilung für punktweise Konvergenz der entsprechenden Verteilungsfunktionen.
P
P
b. Das Symbol → steht für stochastische Konvergenz, also Zn → Z falls P (|Zn − Z| ≥ δ) → 0,
n → ∞, für alle δ > 0.
Zum Beweis von Satz 2.7
aus der Stochastik.
Wir benötigen folgende Resultate über Verteilungskonvergenz
ZGWS unter Lindeberg
Für jedes n ∈ N seien Zjn , j = 1, . . . , n unabhängige Zufalls2 < ∞.
variablen (nicht notwendig identisch verteilt) mit EZjn = 0, Var Znj = σjn
Pn
2 + . . . + σ 2 . Gilt ∀δ > 0 die Lindeberg-Bedingung
Es sei Sn = j=1 Zjn , ESn2 = s2n = σ1n
nn
n Z
1 X
|Zjn |2 dP → 0,
s2n
|Zjn |≥δsn
n → ∞,
j=1
so folgt
Sn d
→ N (0, 1) (n → ∞).
sn
Sei Zn ∈ Rd Zufallsvektor, EZn = 0, Cov Zn = Σ. Dann:
Cramer-Wold-Technik
d
d
Zn → N (0, Σ) ⇔ ∀a ∈ Rd gilt aT Zn → N (0, aT Σa)
Satz von Slutzky
d
P
Gilt Zn → N (0, Σ) und An → A ∈ Rd×p , A konstant, dann
d
An Zn → N (0, AΣAT ).
Beweis von Satz 2.7.
Es ist
√
1
1
n(β̂ LS,n − β) = ( XnT Xn )−1 √ XnT ǫ
} n
| n {z
→Q−1
Also genügt es nach dem Satz von Slutzky zu zeigen, dass
1
d
√ XnT ǫ → N (0, σ 2 Q)
n
Dazu zeige nach Cramer-Wold für a ∈ Rp beliebig (a 6= 0)
1
d
√ aT XnT ǫ → N (0, σ 2 at Qa)
n
2.2 Kleinste Quadrate Schätzung
Zunächst ist
27
1
σ2 T T
Var( √ aT XnT ǫ) =
a Xn Xn a ≥ η > 0
n
n
(14)
wegen Annahme (12) asymptotisch von 0 weg beschränkt (für n ≥ n0 ). Weiter gilt
n
aT XnT = (aT xn,1 , . . . , aT xn,n ),
X aT xn,i
1
√ aT XnT ǫ =
√ εi,n
n
n
i=1
Wegen Annahme (1) (kompakte Menge) gilt
sup |aT xn,i | = c < ∞
(15)
i,n
Überprüfe nun die Lindeberg-Bedingung des ZGWS mit Zjn =
σ2 T T
n a Xn Xn a.
√1 aT xj,n εj,n
n
und s2n =
Es gilt für δ > 0 (und n ≥ n0 ) wegen (14)
1
s2n
n Z
X
1 T
(a xj,n )2 ε2j,n dP
n
j=1
Z
n
X
1 T
1
2
|εj,n |2 dP → 0
(a xj,n )
≤ 2
δη √
η
n
|ε
|≥
n
j,n
c
j=1
|
{z
}
{z
}
|
→0
beschränkt wegen (15)
| √1n aT xj,n εj,n |≥δsn
Die Konvergenz des Integralterms ist unabhängig von j, n, da die ǫj,n identisch verteilt sind.
Dies zeigt (13).
Zur Konsistenz von σ̂n2 :
Rechenregeln für das Symbol OP .
Eine Folge Zn von d-dim. Zufallsvektoren (Zn ) ist
OP (1), falls für alle δ > 0 ein C > 0 existiert, so dass für alle n,
P (kZn kd ≥ C) ≤ δ,
wobei k · kd eine Norm auf Rd ist. Dies ist äquivalent zur Straffheit der Folge (Zn ) (vgl.
Stochastik). Für eine positive Zahlenfolge (cn ) ist nach Definition Zn = OP (cn ), falls Zn /cn =
OP (1). Dann gilt: ist Zn = OP (cn ), Wn = OP (dn ) (Wn Zufallsvektor im Rd , dn Zahlenfolge),
dann ist ZTn Wn = OP (cn dn ) (Übung).
Zum Beweis: Es ist
σ̂n2 =
ǫT ǫ
ǫT Xn (XnT Xn )−1 XnT ǫ
−
n−p
n−p
Wegen der oben gezeigten Konvergenz ist
√1 ǫT Xn
n
= OP (1). Somit
1
1
1
√ ǫT Xn ( XnT Xn )−1 √ XnT ǫ
n
n
n
= OP (1)O(1)OP (1)
ǫT Xn (XnT Xn )−1 XnT ǫ =
= OP (1)
28
2
LINEARE REGRESSION
Daher ist
σ̂ 2 =
=
ǫT ǫ
+ OP (n−1 )
n−p
n
n 1X 2
εi,n + OP (n−1 ).
n−pn
i=1
Die Behauptung folgt somit aus dem schwachen Gesetzt der großen Zahlen.
Folgerung.
Unter den Annahmen von Satz 2.7 gilt
(XnT Xn )(−1/2)
d
1
β̂ LS,n − β → N (0, Ip ).
σ̂n
(16)
Bemerkung 2.8
Man kann nun auf dem asymptotischen Verteilungsresultat (16) eine Theorie der statistischen
Inferenz im linearen Regressionsmodell (asymptotische Konfidenzintervalle, Tests, etc.) aufbauen. So ist etwa die t Statistik auf der linken Seite in (8) asymptotisch N (0, 1) verteilt,
und die F-Statistik auf der linken Seite in (10) ist asymptotisch verteilt wie qχ2 (q) (ohne die
Devision durch q asymptotisch χ2 (q), dann wird diese Statistik auch Wald-Statistik genannt.
Man verwendet aber meistens die exakte Verteilungstheorie unter normalverteilten Fehlern.
Dies hat mehrere wesentliche Gründe: a. Die Standard Statistik Software (etwa R) liefert
stets Ergebnisse, die auf der exakten Verteilungstheorie für normalverteilte Fehler basiert, b.
diese berücksichtigt auch explizit den statistischen Fehler beim Schätzen von σ 2 (also etwa t
Verteilung statt Normalverteilung), und ist daher häufig genauer, c. Messfehler sind häufig
approximativ normalverteilt (sie ergeben sich als Überlagerung vieler kleiner Ursachen) d. die
exakte Theorie ist auch robust gegenüber Abweichungen von der Normalverteilungsannahme.
Bemerkung
Die Asymptotik (16) gilt auch unter den wesentlich schwächeren Bedingungen:
(XnT Xn )−1 → 0
und
max xTi (XnT Xn )−1 xi → 0
1≤i≤n
( für n → ∞).
Literatur
Eicker, F. (1963). Asymptotic normality and consistency of the least squares estimators for
families of linear regressions. Ann. Math. Statist. 34, 447–456.
2.3 Andere Schätzverfahren
2.3
29
Andere Schätzverfahren
2.3.1
Mittlerer quadratischer Fehler und Ridge-Regression
Der kleinste Quadrate Schätzer β̂ LS ist zwar der beste lineare unverfälschte Schätzer, wir
werden im Folgenden aber zeigen, dass es (bzgl des mittleren quadratischen Fehlers) noch
bessere lineare, aber nicht unverfälschte Schätzer gibt.
Für einen Schätzer β̂ von β definiert man den mittlerer quadratischen Fehler (mean
squared error, MSE) durch
!
p
X
MSEβ (β̂) = Eβ kβ̂ − βk2 = E
(β̂i − βi )2
i=1
Es gilt:
Ekβ̂ − βk2 = Ekβ̂ − E β̂ + E β̂ − βk2
= Ekβ̂ − E β̂k2 + 2 Ehβ̂ − E β̂, E β̂ − βi +kE β̂ − βk2
|
{z
}
=0
2
2
= Ekβ̂ − E β̂k + kE β̂ − βk
da
Ehβ̂ − E β̂, E β̂ − βi =
Also
p
X
i=1
E((β̂i − E β̂i )(E β̂i − βi )) = 0.
Ekβ̂ − βk2 = Ekβ̂ − E β̂k2 + kE β̂ − βk2 .
{z
} |
{z
}
|
Varianz-Term“
”
Bias-Term“
”
Für unverfälschte Schätzer gilt: kE β̂ − βk2 = 0.
Für lineare Schätzer β̂ = AY, A ∈ Rp×n gilt:
Ekβ̂ − E β̂k2 = EkAǫk2 = E(ǫT AT Aǫ) = σ 2 Spur(AT A)
= σ 2 Spur(AAT ) = Spur(Cov β̂).
Somit sagt Gauß-Markov-Aitken (s. Bemerkung 2.4): β̂ LS ist linearer, unverfälschter Schätzer
mit kleinstem MSE .
Ziel
β̂ LS .
Konstruktion von linearen, nicht unverfälschten Schätzern mit kleinerem MSE als
Wir betrachten im Folgenden die Spektralzerlegung von X T X (existiert, da X T X positiv
definit, insbesondere symmetrisch), also
X T X = U diag(λ1 , . . . , λp )U T
30
2
LINEARE REGRESSION
mit U orthogonal, λi > 0. Damit berechnet man den MSE von β̂ LS als4 :
MSE(β̂ LS ) = σ 2 Spur(X T X)−1 = σ 2
p
X
λ−1
i .
i=1
Ridge-Regression Für α > 0 setze
β̂ α = (αIp + X T X)−1 X T Y.
Berechne Bias- und Varianzterm für β̂ α :
Ekβ̂ α − E β̂ α k2 = σ 2 Spur X(αIp + X T X)−2 X T
= σ 2 Spur X T X(αIp + X T X)−2
Spektralzerlegung
X T X(αIp + X T X)−2 = U diag
Somit:
2
2
Ekβ̂ α − E β̂ α k = σ ·
λp
λ1
UT
,
.
.
.
,
(α + λ1 )2
(α + λp )2
p
X
i=1
λi
=: Var(α)
(α + λi )2
Bemerkung
Dieser Varianz-Term ist stets kleiner als der Varianz-Term von β̂ LS . Er wird
kleiner für wachsendes α.
Bias(α) := kE β̂ α − βk2
=
=
=
k(αIp + X T X)−1 X T Xβ − βk2
λ
λp
1
− 1, . . . ,
− 1 · U T βk2
k diag
α + λ1
α + λp
p
2
X
α
(U T β)2i
(α + λi )2
i=1
Der Bias-Term wächst mit α.
Satz 2.9
Es existiert ein α > 0, so dass MSE(β̂ α ) < MSE(β̂ LS ).
Beweis
Es ist MSE(α) = Bias(α) + Var(α) sowie MSE(β̂ LS ) = MSE(0). Es genügt zu zeigen, dass
ein α0 > 0 existiert, so dass für 0 < α < α0 gilt
d
(MSE(α)) < 0.
dα
4
Beachte: Spur(AB) = Spur(BA), sofern die Matrixprodukte definiert sind
2.3 Andere Schätzverfahren
31
Es gilt:
MSE(α)′ = −σ 2
Also MSE(α)′ < 0, falls α <
p
X
i=1
p
X 2αλi
2λi
+
(U T β)2i
3
(α + λi )
(α + λi )3
σ2
.
maxi (U T β)2i
i=1
Interpretation: β̂ LS ist zwar bester linearer unverfälschter Schätzer, aber es gibt noch
bessere lineare (nicht unverfälschte) Schätzer. Konzept der Unverfälschtheit ist zu restriktiv.
Bemerkung: Der ridge Schätzer β̂ α hat gegenüber dem kleinste Quadrate Schätzer den
Nachteil, dass man zur Berechnung den Regularisierungsparameter α > 0 wählen muss. Insbesondere muss dieser Parameter auch wirklich geeignet gewählt werden, damit β̂ α bessere
MSE Eigenschaften als β̂ LS hat. Daher wird der ridge Schätzer in Praxis relativ selten verwendet. Häufigere Verwendung finden andere Schrinkage Schätzer wie das LASSO, s. Kapitel
2.5.4.
relevante R Befehle
Die library MASS enthält den Befehl lm.ridge. Dabei muss der RidgeParameter lambda manuell gewählt werden. Man beachte, dass die Matrix X standardisiert
wird, und der Ridge nicht auf den Koeffizienten des Intercept angewendet wird.
Literatur:
Hoerl, A.E. und Kennard, R.W.(1970). Ridge regression: Biased estimation for nonorthogonal
problems. Technometrics 12, 1970.
2.3.2
NOCH
Median - und Quantilregression
32
2
2.4
LINEARE REGRESSION
Modelldiagnostik
Ein wesentlicher Teil der Analyse besteht darin zu untersuchen, ob das lineare Regressionsmodell für die vorliegenden Daten angemessen ist. Fragen, die dabei geklärt werden sollten,
sind etwa: a. Sind die Fehler ǫi wirklich normalverteilt und haben gleiche Varianz? b. liegen
Ausreißer in den Daten vor? c. Gibt es Cluster (Gruppen) in der Population? d. welche Beobachtungen beeinflussen die Schätzung besonders stark? e. wieviel Streuung wird aus dem
Modell heraus erklärt? f. ist die Regressionsfunktion wirklich linear, sollte weitere Kovariable
berücksichtigt werden? In diesem Abschnitt lernen wir Methoden kennen, um diese Fragen
zu beantworten.
2.4.1
Das Bestimmtheitsmaß R2
Welcher Anteil der Streuung in den Daten wird durch das Modell erklärt?
Zugrunde liegt wieder das lineare Modell (5). Angenommen, die Designmatrix X = (1n , ∗),
1n = (1, . . . , 1)T ∈ Rn , enthält den Achsenabschnitt. Dann gilt:
Mit Ȳ =
1
n
Pn
i=1 Yi
(In − PX )1n = 0.
gilt5 :
n
X
(Yi − Ȳ )2
|i=1 {z
}
Gesamtstreuung
= kY − Ȳ 1n k2
= kY − Ŷ + Ŷ − Ȳ 1n k2
= kY − Ŷk2 + kŶ − Ȳ 1n k2 + 2 hY − Ŷ, Ŷ − Ȳ 1n i
|
{z
}
=0 (s.u.)
wobei Ŷ = X β̂ LS , und
Ŷ −Ȳ 1n i = YT (I − PX )PX Y − YT (I − PX )1n Ȳ = 0.
h Y
− Ŷ} , |{z}
| {z
|
{z
}
{z
}
|
=(I−PX )Y =PX Y
=0
=0
Streuungszerlegung
Es ist kŶ − Ȳ 1n k2 die aus dem Modell erklärte Streuung und
2
kY − Ŷ k die Reststreuung (Summe der quadrierten Residuen) ist, man hat also die Zerlegung
kY − Ȳ 1n k2 = kŶ − Ȳ 1n k2 + kY − Ŷk2
Bestimmtheitsmaß
R2 =
5
Erinnerung: Ŷ = X β̂ LS
kŶ − Ȳ 1n k2
,
kY − Ȳ 1n k2
0 ≤ R2 ≤ 1.
2.4 Modelldiagnostik
33
Je größer das Bestimmheitsmaß, desto größer der Anteil der aus dem Modell heraus erklärten
Streuung. Es gilt
Pn
2
kY − Ŷk2
i=1 (Ŷi − Ȳ )
P
R2 = 1 −
=
n
2
kY − Ȳ 1n k2
i=1 (Yi − Ȳ )
Bemerkung Ein Problem des R2 ist, dass es mit weiteren Kovaraiblen nur wachsen kann.
Daher betrachtet man auch das gewichtete (adjusted) R2 . Dabei ist
kY − Ŷk2 : n-p Freiheitsgrade“,
”
kY − Ȳ 1n k2 : n-1 Freiheitsgrade“.
”
Dann definiert man das gewichtete R2 (adjusted R2 ) durch
Ra2 = 1 −
kY − Ŷk2 /(n − p)
kY − Ȳ 1n k2 /(n − 1)
n − 1 kY − Ŷk2
n − p kY − Ȳ 1n k2
n−1
= 1−
(1 − R2 )
n−p
= 1−
relevante R Befehle
passte ra2 .
2.4.2
summary angewendet auf ein lm Objekt liefert das R2 und das ange-
Residuen-Analyse
Das wichtigstes Werkzeug der Diagnostik ist die Residuenanalyse.
a. Residuum ε̂i = Yi − Ŷi , ǫ̂ = (ǫ̂1 , . . . , ǫ̂n )T . ε̂ ∼ N (0, σ 2 (I − PX ))6 . Also
Var ε̂i = σ 2 (1 − (PX )ii ), Cov ε̂i ε̂j = −σ 2 (PX )ij
b. skalierte Residuen: ε̃i =
ε̂i
σ̂ .
c. studentisierte Residuen: ri =
ε̂i
1
σ̂(1−(PX )ii ) 2
Diagnostische Plots:
• predicted value gegen (skalierte, studentisierte) Residuen : plotte also (Ŷi , ε̂i ), i =
1, . . . , n.
• qq-Plots der Residuen gegen die Normalverteilung7
Hinweis:
Plots zu Beispielen mit Abweichungen folgen!
Aufgabe
Bei Vorliegen des Achsenabschnitts kann man schreiben:
1
(PX )ii = + (xi − x̄)T (X T X)−1 (xi − x̄)
n
6
7
Erinnerung: Ŷ = X β̂ = PX Y
Vergleichswerte sind Quantile der Normalverteilung
34
2
2.4.3
LINEARE REGRESSION
Weitere diagnostische Plots
a. Scatterplot Matrix: Matrix, die Scatterplots aller Variablen gegeneinander enthält. Diese
sollte stets zu Beginn betrachtet werden, um etwa Kolinearität zwischen Kovariablen
oder Cluster oder schiefe Verteilungen der Kovariablen (dann eventuell Transformation)
zu erkennen.
b. Added Variable Plots
Frage: Wieviel erklärt ein zusätzlicher Prädiktor? Sollte man diesen in das Modell aufnehmen?
X = [v1 . . . vp−1 |v], vi , v ∈ Rn
Y = Xβ + ε = v1 β 1 + . . . + vp−1 β p−1 + vβ p
Welcher Teil wird nicht schon durch X1 = [v1 . . . vp−1 ] erklärt?
(I − PX1 )Y = (I − PX1 )vβ + (I − PX1 )ε
→ Plotte (I − PX1 )Y (Residuen aus Regression Y auf X1 ) gegen (I − PX1 )v (Residuen
aus Regression v auf X1 ).
In der Tat gilt (Aufgabe):
kY − PX Y k2 +
(Y T (I − PX1 )v)2
= kY − PX1 Y k2
k(I − PX1 )vk2
c. Partial residuals plot
Wieder den Effekt von Prädiktor xi graphisch isolieren!
Plotte dazu (xij , ε̂j + β̂ i xij ), j = 1, . . . , n
und zugehörige Regression.
Beachte zur Motivation:
yj −
X
xlj β̂l = xij β̂i + ε̂j
l6=i
Hinweis:
Plots folgen!
2.4.4
Transformation
Manchmal müssen Kovariable und/oder die abhängige Variable transformiert werden, damit
ein lineares Regressionsmodell vorliegt.
Da wir den Kovariablen keine Verteilung zugrunde legen, kann man dort notwendige Transformationen nur aus graphischer Diagnostik (s.o.) erschließen. Dagegen kann man die Transformation der abhängigen Variable auch statistisch Schätzen. Im Folgenden betrachten wir
dazu die parametrische Familie der Box-Cox-Transformationen.
2.4 Modelldiagnostik
35
Transformation der abhängigen Variable: Box-Cox-Tramsformation
Die Familie der Box-Cox Transformationen stellt eine wichtige Klasse zur Transformation von
positiven abhängigen Variablen dar. Dabei wird die optimale Transformation mit Hilfe der
Maximum Likelihood Methode ermittelt.
Die Box-Cox-Transformationen haben folgende Form: Für y > 0
( λ
y −1
λ 6= 0
λ ,
fλ (y) =
log(y), λ = 0
Beachte dabei fλ (y) → f0 (y), (λ → 0)
(Beweis mit der l’Hopitalschen Regel).
Annahme: Für ein λ gilt:
fλ (Y) = Xβ + ǫ,
ǫ ∼ N (0, σ 2 In ),
T
fλ (Y) = fλ (Y1 ), . . . , fλ (Yn ) =: Z (komponentenweise transformiert). Dann gilt für t ∈ Rn :
P (Y ≤ t) = P (Y1 ≤ t1 , . . . , Yn ≤ tn ) = P (fλ−1 (Z) ≤ t) = P Z ≤ fλ (t) .
Bilden der partiellen Ableitungen ∂1 . . . ∂n liefert die Dichte fY von Y
fY (y; β, σ 2 , λ) =
Es ist
dfλ (y)
dy
n
(fλ (y) − Xβ)T (fλ (y) − Xβ) Y dfλ (yi )
1
exp(−
)
·
.
n
2σ 2
dyi
(2π) 2 σ n
i=1
= y λ−1 und somit gilt für die Log-Likelihood-Funktion:
Ln (β, σ 2 , λ) = log fY (Y; β, σ 2 , λ)
(17)
(fλ (Y) − Xβ)T (fλ (Y) − Xβ)
n
+ (λ − 1)
= − (log(2π) + log σ 2 ) −
2
2σ 2
n
Y
log Yi .
i=1
Schätze die Parameter (β, σ 2 , λ) gemeinsam mit Maximum Likelihood, also durch Maximieren
von (17).
Für festes λ erhält man
λ
β̂ M L = β̂ LS = (X T X)−1 X T fλ (Y),
1
2,λ
σ̂M
fλ (Y)T (In − PX )fλ (Y).
L =
n
Es ergibt sich für die Log-Likelihood in Abhängigkeit von λ:
n
Y
n
n
n
2,λ
Ln (λ) = − log σ̂M
log(Yi ).
log(2π) − + (λ − 1)
L−
2
2
2
i=1
λ̂
2,λ̂
Wähle λ̂ so, dass Ln (λ) maximal wird, und dann β̂ M L und σ̂M
L als ML Schätzer der anderen
Parameter.
36
2
LINEARE REGRESSION
Nun können mit dem Likelihood Quotienten Test Hypothesen der Form Hλ0 : λ = λ0 getestet
werden, da unter Hλ0 ,
d
2 Ln (λ̂) − Ln (λ0 ) → χ2 (1).
Insbesondere kann die Hypothese H1 : λ = 1, also das keine Transformation benötigt wird,
getestet werden. Durch Invertieren des LQ Tests erhält man ein Konfidenzintervall zum (asymptotischen) Niveau α > 0 für λ:
1
CI = {λ : Lmax (λ̂) − Lmax (λ) < χ21 (1 − α)}
2
Verwerfe H1 , d.h. transformiere, falls 1 ∈
/ CI.
relevante R Befehle
Die library MASS enthält die Funktion boxcox (wird angewendet auf
ein Objekt vom Typ lm). Beachte Option plotit.
Literatur
Box, G. E. P. and Cox, D. R. (1964). An analysis of transformations. (With discussion) J.
Roy. Statist. Soc. Ser. B 26, 211–252.
2.4.5
Ausreißer, Leverage- und Influenz-Punkte
Im Folgenden wird untersucht, welchen Einfluss auf die Schätzung die spezielle Komponente
(Yi , xi ) für ein festes i im linearen Modell (5) hat.
Zunächst etwas Notation und ein Lemma. Sei X ∈ Rn×p und X(i) ∈ R(n−1)×p die Matrix, die
entsteht, wenn in X die i-te Zeile weggelassen wird. Schreibe
 T
x1
 .. 
hii = xTi (X T X)−1 xi = (PX )ii .
X =  . ,
xTn
Lemma 2.10
Es gilt
T
(X(i)
X(i) )−1 = (X T X)−1 +
Beweis
T
A=X X=
(X T X)−1 xi xTi (X T X)−1
1 − hii
n
X
(18)
xj xTj .
j=1
Somit
T
X(i)
X(i) = A − xi xTi .
Multipliziere (18) von rechts mit A − xi xTi und erhalte die Einheitsmatrix I.
2.4 Modelldiagnostik
37
Schätzer ohne die Komponente (Yi , xi ). Dafür schreibe
T
T
β̂ (i) = (X(i)
X(i) )−1 X(i)
Y(i)
1
2
σ̂(i)
=
YT (In−1 − PX(i) )Y(i)
n − p − 1 (i)
Lemma 2.11
a.
β̂ (i) = β̂ −
(X T X)−1 xi ε̂i
1 − hii
b.
2
σ̂(i)
= σ̂ 2 · (
n − p − 1 −1
)
n − p − ri2
mit8
ri =
ε̂i
1
σ̂(1 − hii ) 2
Beweis
a. Nachrechnen mit (18) und
T
β̂ (i) = (X(i)
X(i) )−1 (X T Y − xi Yi )
b. Nachrechnen mit (18) und
2
T
(n − p − 1)σ̂(i)
= YT Y − Yi2 − ((YT X − Yi xTi )(X(i)
X(i) )−1 (X T Y − Yi xi )).
relevante R Befehle
2 für jedes i.
sowie σ̂(i)
influence angewendet auf ein lm Objekt berechnet die Schätzer β̂ (i)
Ausreißer-Test (Outlier-Test, R-student)
Ein Aussreißertest untersucht, ob eine spezielle abhängige Beobachtung Yi nicht dem Modell
folgt, also nicht in der Weise Yi = xTi β + ǫi entsteht, insbesondere einen anderen Erwartungswert als xTi β hat.
Die Vorhersage von Yi durch xi und die übrigen Daten ist Ỹi = xTi β̂ (i) .
Falls Yi kein Ausreißer ist, dann ist
E(Yi − Ỹi ) = 0.
Weiter ist (wie bei Vorhersageintervallen)
T
Var Ỹi = σ 2 xTi (X(i)
X(i) )−1 xi .
8
Erinnerung: ε̂i = Yi − Ŷi = Yi − (X β̂)i
38
2
LINEARE REGRESSION
Bilde t-Statistik ti (R-student Statistik):
ti =
Yi − Ỹi
1
T X )−1 x ) 2
σ̂(i) (1 + xTi (X(i)
i
(i)
.
Diese hat (bei normalverteilten Fehlern) eine tn−p−1 -Verteilung.9
Also: Falls |ti | > t1− α2 ,n−p−1 , dann Ausreißer!
Beachte: Falls verschiedene Beobachtungen daraufhin untersucht werden, ob sie ausreißer
sind, muß man das Niveau α adjustieren an die Anzahl der Tests, etwa α/m, falls man bei m
Beobachtungen testet!.
Die Statistik ti kann in einfacherer Weise berechnet werden mit Hilfe des folgenden
Lemma 2.12
T
xTi (X(i)
X(i) )−1 xi =
Beweis
Direkt aus Lemma 2.10.
hii
1 − hii
Mit Lemma 2.11, 2.12 und Yi − Ỹi = (1 +
t i = ri ·
hii
1−hii )ε̂i
zeigt man
n−p−1
n − p − ri2
1
2
,
wobei ri die studentisierten Residuen sind. Die ti werden auch gewichtete studentisierte Residuen oder Jackknife Residuen genannt.
relevante R Befehle
für all i.
rstudent berechnet für ein lm Objekt die Werte R-Student Statistik
Leverage-Punkte, Hat-Matrix
High Leverage Punkte sind ungewöhnliche Werte der Kovariable x, die die Modellanpassung
unter Umständen stark beeinflussen. Da Var ε̂i = σ 2 (1 − hii ), gilt, dass je größer hii , desto
kleiner Var ε̂i . Somit muss das i-te Residuum kleine Varianz haben, die Anpassung ist um Yi
herum eingeschränkt. Daher nennt man Kovariablen xi für große Werte hii der Hat Matrix
Leverage Punkte. “Groß” wird dabei in folgender Weise quantifiziert:
Es gilt
n
X
hii = Spur(PX ) = Spur(X(X T X)−1 X T )
i=1
= Spur((X T X)(X T X)−1 )
= Spur(Ip )
= p
9
vergleiche Abschnitt 1.3
2.4 Modelldiagnostik
39
Also ist ein typischer Wert hii von der Größe ≈
Richtlinie: Für hii > 2p
n ungewöhnlich.
p
n
Bemerkung Keine Theorie möglich ohne Details zur Verteilungsannahme der xi !
relevante R Befehle
hatvalues liefert die Diagonaleinträge hii eines lm Objektes.
Influenz-Punkte
Hier wird die Frage gestellt: Welchen zusätzlichen Effekt hat (Yi , xi ) (also das Beobachtungspaar) auf den Schätzer β̂ LS ?
Dazu betrachte Cook’s Abstand:
Di =
(β̂ (i) − β̂)T (X T X)(β̂ (i) − β̂) (∗) ri2 hii
=
.
pσ̂ 2
p 1 − hii
(∗): Lemma 2.11 und 2.12
Keine exakte Verteilungstheorie für Di !
Heuristische Regel: Für |Di | > 1 ist (Yi , xi ) influential“ (da 1 ≈ F0,5;p;n−p ), hat also großen
”
zusätzlichen Einfluss auf den Schätzer von β.
relevante R Befehle
cooks.distance berechnet diesen Abstand für jedes i.
Cook, R. D. (1979) Influential observations in linear regression. J. Amer. Statist. Assoc. 74,
169–174.
Cook, R. D. (1977) Detection of influential observation in linear regression. Technometrics
19, 15–18.
40
2
2.5
2.5.1
LINEARE REGRESSION
Variablen-Selektion und Shrinkage Schätzung
Selektionsmethoden
Wir betrachte wieder das lineare Modell (5), also
Y = b0 + b1 x1 + . . . + br xr + ε,
wobei p = r + 1.
Ziel: Wähle die relevanten Kovariablen xi , also diejenigen mit bi 6= 0, die also die abhängige
Variable in der Tat beeinflussen.
Dabei unterscheidet man folgende Modellstrukturen:
a. verschachtelte Modelle (nested Models)
Bei verschachtelten Modellen gibt es eine natürliche Ordnung der Kovariablen, etwa bei
der polynomiale Regression
Y = b0 + b1 x + . . . + br xr + ε.
Man schliesst dann alle Potenzen xi unterhalb eines zu wählenden Grades p ein. Somit
reduziert sich die Modellwahl auf die Wahl von p.
b. Allgemeine Modelle
Wähle eine beliebige Teilmenge {xi1 , . . . , xir } ⊂ {x1 , . . . xp } aus den Kovariablen aus.
Man behält aber typischer Weise (aber nicht immer) den Achsenabschnitt x0 = 1 im
Modell, und wählt nur innerhalb der anderen Kovariablen aus.
Modellwahl Strategien
1. Backward Elimination
Starte mit allen Kovariablen und eliminiere nach einem betimmtem Kriterium systematisch nacheinander Kovariablen, bis ein Modell erreicht wird, bei dem keine Kovariable
mehr das Kriterium erfüllt, bei dem diese noch eliminiert würde.
2. Forward Selection
Starte nur mit dem Achsenabschnitt x1 und nimm sukzessive nach einem bestimmten Kriterium Kovariablen hinzu, solange, bis das Kriterium von keiner verbleibenden
Kovariablen mehr erfüllt wird.
3. Stepwise Regression
eine Kombination aus den Verfahren 1. und 2., es sind verschiedene Ausgestaltungen
möglich.
4. All subset selection
Wähle unter allen möglichen 2p Teilmodellen (bzw 2p−1 , falls der Achsenabschnitt fest
im Modell integriert ist) dasjenige aus, welches nach einem bestimmten Kriterium optimal ist.
2.5 Variablen-Selektion und Shrinkage Schätzung
2.5.2
41
Test-basierte Methoden
Entscheide aufgrund sukzessiv durchgeführter t-Tests oder F-Tests, ob Kovariablen hinzugenommen bzw. verworfen werden.
1. Backward Elimination
Eliminiere sukzessive diejenige Kovariable mit dem größten p-Wert, solange dieser größer
als ein Schwellwert (häufig 0,05) ist.
t-Test: hier wird jeweils der t-Test daraufhin ausgeführt, ob ein Koeffizient einer Kovaraible des bereits reduzierten Modells gleich null ist. F-Test: hier wird im reduzierten
Modell eine weitere Kovariable ausgewählt, und eine F-Test gegen das volle Modell ausgeführt, d.h. es wird getestet, ob der Koeffiziten dieser ausgewählten Kovariable des
reduzierten Modells sowie alle Koeffizienten der bereits eliminierten Kovariablen gleich
Null sind.
2. Forward Selection
Nimm sukzessive diejenige Kovariable mit dem kleinsten p-Wert hinzu, solange dieser
kleiner als 0,05 ist. Hier gibt es keinen Unterschied ziwschen t-Test und F-Test.
2.5.3
Informationskriterien
Informationskriterien (Information Criteria, ICs) sind Zahlen, die die Güte der Anpassung
des Modells relativ zu dessen Komplexität erfassen. Typischerweise gilt:
a. Je besser die Anpassung, desto kleiner das IC.
b. Je komplexer, desto größer das IC.
Wähle Modell mit möglichst kleinem IC.
1. Backward Elimination
Eliminiere Kovariable, so dass sich das IC am meisten verringert. Stoppe, falls es sich
bei keiner Elimination mehr verringert.
2. Forward Selection
Nimm Kovariable hinzu, so dass sich das IC am meisten verringert. Stoppe, falls es sich
bei Hinzunahme einer Kovariable nicht mehr verringert.
3. Stepwise Regression
Nimm eine der Kovariablen, die aktuell dem Modell nicht angehört, hinzu, oder eliminiere eine der zugehörigen Kovariablen, so dass sich das IC am meisten verringert.
Stoppe, falls es sich nicht mehr verringert.
4. All subset selection
Wähle Modell aus allen Modellen mit dem kleinstem IC.
42
2
LINEARE REGRESSION
Akaike’s Informationskriterium
Betrachte das lineare Modell (M ) mit Design Matrix X = XM und normalverteilten Fehlern
(M ) :
Y = XM β + ǫ,
ǫ ∼ N (0, σ 2 In ).
Die Dichte von Y ist gegen durch
f (y|XM , β, σ 2 ) =
1
ky − XM βk2
).
exp(−
n
2σ 2
(2π) 2 σ n
Dies führt zur Log-Likelihood:
L(β, σ 2 ) = log f (Y|XM , β, σ 2 ) = −
kY − Xβk2 n
n
− log σ 2 − log(2π),
2σ 2
2
2
und man berechnet die Maximum Likelihood Schätzer (vgl. Sektion 2.2.1) als β̂ M L = β̂ LS =
1
2
T X )−1 X T Y und σ̂ 2
(XM
M
M
M L = n kY−XM β̂k . Somit ist der maximale Wert der Log-Likelihood
Funktion
n n
n
2
2
L(β̂, σ̂M
log σ̂M
log(2π).
(19)
L) = − −
L−
2
2
2
Man definiert nun Akaike’s Informationskriterium (AIC) wie folgt:
2
AIC(M ) = −2L(β̂, σ̂M
L ) + 2(dim β + 1),
2 ) die Güte der Anpassung des Modells (M ) und (dim β + 1) (die
dabei beschreibt L(β̂, σ̂M
L
Anzahl der Parameter, die +1 kommt vom Parameter σ 2 ) die Komplexität des Modells.
Man wählt nun ein Modell (M ), also diejenigen Kovariablen mit resultierender Design Matrix
XM , die zu kleinem AIC führen.
Vernachlässigt man die Konstanten, so kann man äquivalent zu AIC auch
2
AIC(M ) = n log σ̂M
L + 2(dim β + 1)
benutzen.
Motivation des AIC über den Kullbach-Leibler-Abstand
Wieso wird gerade der spezielle Strafterm 2(dim β + 1) benutzt? Insbesondere scheint die
Wahl der 2 zunächst willkürlich, diese lässt sich aber über den Kullback-Leibler (KL) Abstand
motivieren.
Das Modell (M ) ist gegeben durch Yi = xTi β + εi , εi ∼ N (0, σ 2 ). Angenommen, der wahre
Zusammenhang ist
(W )
Yi = ξ(xi ) + εi ,
somit ist bedingte Dichte g(yi |xi ) ∼ N (ξ(xi ), σ 2 )
Wir nehmen jetzt eine zufälliges Design an, also sind die xi zufällig, unabhängig, mit Dichte
h(x). Dann ist der KL-Abstand zwischen g(y|x) und f (y|x, β, σ 2 ) bedingt auf x:
Z
g(y|x)
2
KLx (g(y|x), f (y|x, β, σ )) = g(y|x) log
dy,
f (y|x, β, σ 2 )
und
KL =
Z
KLx h(x)dx.
2.5 Variablen-Selektion und Shrinkage Schätzung
43
Maximum Likelihood im Modell (M ) schätzt nun die Parameter β, σ 2 derart, dass der KLAbstand zum wahrem Modell (W ) minimal wird.
Wir zeigen im Folgenden in einem speziellen Fall: Mit dem AIC wählt man im Mittel dasjeniege Modell aus, bei dem bei geeigneter (maximum likelihood) Wahl der Parameter der KL
Abstand zum wahren Modell (W ) minimal wird. Dazu äquivalent ist:
Z Z
f
KL =
g(y|x) log f (y|x, β, σ 2 )dy h(x)dx.
f wird erwartungstreu geschätzt durch
KL
n
1
1X
Ln (β, σ 2 ) =
log f (Yi |xi , β, σ 2 ).
n
n
i=1
Für Modellwahl: Wähle Modell, welches im Mittel bei geeigneter (Maximum Likelihood) Wahl
der Parameter den kleinsten KL-Abstand zum wahren Modell (W ) hat, d.h. wähle Modell
(M ), so dass
Z Z
2
f
Rn = Eg,h
g(y|x) log f (y|x, β̂ M L , σ̂M
L )dy h(x)dx,
2
β̂ M L , σ̂M
L die ML Schätzer im Modell (M ), maximal wird. Dies ist nicht direkt möglich, denn
f
fn in zwei Schritten: Ersetze Integration in x
Rn muss geschätzt werden. Wir approximieren R
durch Summation:
Z
n
1X
2
Rn =
Eg g(y|xi ) log f (y|xi , β̂ M L , σ̂M
L )dy
n
i=1
Z n
1X
1
(y − xTi β̂)2
=
−
log
σ̂
−
log
2π
g(y|xi )dy
Eg
−
2
n
2
2σ̂M
L
i=1
1 X (ξ(xi ) − xTi β̂)2
σ2 1
Eg
log 2π −
+
2
2
2
n
2σ̂M
2σ̂M
L
L
i=1
n
= − log σ̂ −
Wegen (19) ist dann
Eg
1
n
2
Ln (β̂, σ̂M
L)
1
1 X (ξ(xi ) − xTi β̂)2
σ2 − Rn = − +
Eg (
+
1)
·
2
2 2n
σ2
σ̂M
L
i=1
n
Von jetzt an betrachten wir den Spezialfall, dass (M ) das wahre Modell enthält (eventuell
sind zu viele Kovariable enthalten). Dann ist ξ(xi ) = xTi β,
σ2
1
∼n· 2 ,
2
σ̂M L
χn−p
1
2
und σ̂M
L und β̂ LS sind unabhängig (s. Satz 2.6). Somit (benutze E χ2
n−p
=
1
n−p−2 ,
RENZ):
Eg
1
1 1
2
Ln (β̂, σ̂M
)
−
R
=
−
+
n
L
n
2 2
von
n+p
n }
| {z
1
E(εT PX ε)+1
n
·
n
p+1
=
n−p−2
n−p−2
REFE-
44
2
LINEARE REGRESSION
Wir haben somit einen Schätzer von Rn hergeleitet:
1
p+1
2
Ln (β̂, σ̂M
,
L) −
n
n−p−2
dieser gibt Anlass zur Definition des korrigierten (corrected) AIC, AICc ,
2
AICc = −2Ln (β̂, σ̂M
L) + 2
(p + 1)n
n−p−2
Für n groß im Verhältnis p ist dies nah am klassischen AIC.
relevante R Befehle
step mit der Option direction führt Modellwahl mit dem AIC aus.
Darüber hinaus drop1, add1.
Literatur:
Akaike, H. (1974), A new look at the statistical model identification. System identification
and time-series analysis. IEEE Trans. Automatic Control 19, 716–723.
Burnham, K. P. and Anderson, D. R. (2002), Model selection and multimodel inference. A
practical information-theoretic approach. 2nd edn, Springer-Verlag: New York.
Hurvich, C. M.; Tsai, C. L. (1989) Regression and time series model selection in small samples.
Biometrika 76, 297–307.
Claeskens, G. und Hjort, N. L. (2008) Model selection and model averaging. Cambridge
University Press
Bayessches Informationskriterium Eine zum AIC alternative Wahl ist das Bayessche
Informationskriterium BIC, bei dem die Komplixität des Modells mit zunehmender Stichprobengröße immer mehr bestraft wird,
2
BIC(M ) = −2Ln (β̂, σ̂M
L ) + log(n) (dim β + 1) log n.
Ziel ist wieder die Wahl eines Modells mit möglichst kleinem BIC(M ).
Motivation
Das BIC ergibt sich als asymptotische Version eines maximalen a-posteriori
Ansatzes, wobei die a-priori-Verteilung von der Form
X
αM µM
(20)
M
ist. Dabei wird die Summe über alle mögliche Modelle M gebildet, αM ist die Wahrscheinlichkeit für die Auswahl des Modells M, und µM ist eine stetige, lokal von 0 weg beschränkte
Verteilung auf den Parametern von M.
Eine Maximm a-posteriori Modellwahl würde wie folgt erfolgen: Wähle (M ) so, dass P (M |Y)
maximal, also derart, dass
die a-posteriori Wahrscheinlichkeit des Modells, gegeben die Daten, maximal wird. Nach Bayes
gilt
P (Y|M ) · P (M ) prop.
P (M |Y) =
≈ P (Y|M ) · P (M )
P (Y)
2.5 Variablen-Selektion und Shrinkage Schätzung
45
(da P (Y) nicht von M abhängt).
Es ist P (M ) = αM , P (Y|M ) ∼ N (XM β M , σ 2 IM ). Also wähle M , so dass
Z
(Y − XM β M )T (Y − XM β M )
1
)dµM (β M , σ 2 ).
L(M ) = αM
exp(−
n
2σ 2
(2π) 2 σ n
(21)
maximal wird. Es kann nun gezeigt werden, dass für jede a-priori Verteilung der Form (20)
das optimale Modell für das Kriterium (21) asymptotisch das Modell mit maximalem BIC
ist.
relevante R Befehle
AIC und nicht BIC).
step mit der Option direction und k wird gleich log n gesetzt (sonst
Literatur:
Schwarz, G. (1978), Estimating the dimension of a model. Ann. Statist. 6, 461–464.
Vergleich von AIC und BIC
Zunächst bemerkt man, dass für n ≥ 8 der Strafterm im BIC größer ist als der im AIC, daher
wählt das AIC tendenziell ein größeres Modell aus als das BIC, wobei sich dieser Effekt mit
zunehmender Stichprobengröße verschärft.
Man kann nun folendes zeigen:
BIC ist konsistent: Falls ein festes Teilmodell zugrunde liegt, wählt BIC dies in vielen Fällen
(etwa genesteten Situationen) asymptotisch mit Wahrscheinlichkeit 1 aus.
AIC wählt in dieser Situation mit positiver Wahrscheinlichkeit auch größere Modelle aus.
Philosophie des AIC: Für größeres n (Anzahl der Beobachtungen) dürfen komplexere Modelle
angepasst werden, so dass das wahre zugrundeliegende Modell möglichst gut (in KulbackLeibler Abstand) approximiert wird.
Für AIC und BIC gilt: AIC und BIC haben als absolute Zahlen keine Bedeutung, sondern
nur relativ zum Vergleich verschiedener Modelle. Werden die Daten transformiert, dürfen
AIC und BIC der ursprünglichen Modelle und der Modelle für die transformierten Daten
nicht miteinander verglichen werden.
Mallow’s Cp
(M )
Wir betrachten das lineare Regressionsmodell
Y = Xβ + ǫ = X1 β 1 + X2 β 2 + ǫ,
X1 ∈ Rn×p , X2 ∈ Rn×(q−p)
sowie das Teilmodell
(S)
Y = X1 β + ǫ.
Die Varianz wird im vollen Modell (M ) geschätzt durch
σ̂ 2 =
kY − X β̂ LS k2
n−q
46
2
LINEARE REGRESSION
Das Modellwahlkriterium “Mallows’ Cp ” berechnet sich dann als
S
kY − X1 β̂ 1,LS k2
Cp =
− n + 2p,
σ̂ 2
S
wobei β̂ 1,LS der KQ Schätzer im Teilmodell (S) ist. Komponenten von Cp :
S
• kY − X1 β̂ 1,LS k2 (Residuell sum of squares, RSS): Qualität der Anpassung des restringierten Modells (S); je größer X1 , desto kleiner RSS.
• +2q: Komplexität des restringierten Modells (S).
• σ̂ 2 , n: zum Standardisieren, damit absolute Größe von Cp Interpretation hat.
Man wählt nun typischer Weise das Teilmodell Y = X1 β 1 + ǫ des vollen Modells (M) mit
möglichst kleinem Cp .
Motivation des Cp . Das Cp schätzt den Average Mean Square Error of Prediction (AMSEP), welcher definiert ist durch
AMSEP(S) =
1
1 X
S
E(Ŷi − EYi )2 = 2 EkX1 β̂ 1,LS − Xβk2 .
σ2
σ
i
Zur Berechnung des AMSEP(S) setze MX1 = In − PX1 (idempotent) und
λ=
Dann ist
β T2 X2T MX1 X2 β 2
.
σ2
S
β̂ 1,LS = β 1 + (X1T X1 )−1 X1T X2 β 2 + (X1T X1 )−1 X1T ǫ
(der LS Schätzer im Modell (S) hat einen Bias, falls dieses nicht korrekt ist), und
S
X1 β̂ 1,LS − Xβ = PX1 ǫ + PX1 X2 β 2 − X2 β 2 .
|
{z
}
=−MX1 X2 β2
Es ergibt sich
AMSEP(S) =
1
(EǫT PX1 ǫ + β T2 X2T MX1 X2 β 2 ) = p + λ.
σ2
(22)
Natürlich ist der AMSEP(S) unbekannt (da β unbekannt).
Wir zeigen nun: Cp schätzt AMSEP.
Es ist
PX − PX1 = MX1 X2 (X2T MX1 X2 )−1 X2T MX1 =: Q.
(orthogonale Projektion auf orthogonales Komplement der Spaltenvektoren von X1 im von
den Spaltenvektoren von X erzeugten Raum), und somit
(In − PX1 )Y = (In − PX )Y + QY.
2.5 Variablen-Selektion und Shrinkage Schätzung
47
Außerdem ist (In − PX ) · Q = 0 (da Q innerhalb von Spaltenraum von X). Es ergibt sich
kY − X β̂ LS k2 + YT QY
− n + 2p
σ̂ 2
YT QY
= (n − q) · (1 +
) − n + 2p
kY − X β̂ LS k2
(YT QY)/(q − p)
·(q − p) + 2p − q
=
2
σ̂
|
{z
}
Cp =
∼F (q−p,n−q, 21 λ)
Beachte für diese Rechnung die Sätze 1.7 und 1.9 und β T X T QXβ/σ 2 = λ. Für W ∼ F (q −
p, n − q, 21 λ) gilt (Johnson, Kotz, Balakrishnan 1995)
EW =
Somit
ECp =
(n − q)(q − p + λ)
(q − p)(n − q − 2)
n−q
n→∞
(q − p + λ) + 2p − q → p + λ
n−q−2
Man könnte nun auch ein korrigiertes (dann erwartungstreues) Mallows’ Cp wie folgt definieren:
(n − q − 2) (YT QY)
Cpc =
+ 2p − q.
n − q)
σ̂ 2
(dies wird aber üblicher Weise nicht verwendet.)
Bemerkungen
1. Das Cp ist zwar asymptotisch erwartungstreu für den AMSEP, aber nicht konsistent,
da die Varianz von Cp nicht gegen 0 konvergiert.
2. Das Modell mit minimalem AMSEP muss nicht unbedingt das minimale korrekte Modell
sein, es kann auch ein zu kleines Modell sein, falls λ < 1, vgl. (22). Daher wird machmal
etwas wage empfohlen, das Modell mit möglichst kleinem Cp , das aber nicht zuviel
größer als p sein sollte, zu wählen. Dies führt dann zu sogenannten Cp Plots. Angesichts
der Inkonsistenz des Cp erscheint eine solche Anweisung auch etwas willkürlich, daher
wählt man gewöhnlich einfach das Modell mit kleinstem Cp .
3. Ein Vorteil des Cp gegenüber AIC und BIC ist, dass die absoluten Zahlenwerte (als
Schätzwerte für den AMSEP) eine Bedeutung haben. Daher kann man mit dem Cp
auch Modelle für transformierte und nicht transformierte Daten vergleichen.
relevante R Befehle
step hat die Option scale, dies muss man für das Cp gleich dem im
vollen Modell geschätzten σ setzten.
Literatur:
Mallows, C. L. (1973), Some comments on Cp . Technometrics 15, 661–675
48
2
LINEARE REGRESSION
Cross Validation und Press-Statistic Die Press Statistik ist gegeben durch
Press =
n
X
i=1
(Yi − Ỹi )
wobei Ỹi = xTi β̂ (i) . Es gilt nach Lemma 2.11 Yi − Ỹi =
Press =
n
X
i=1
(
ε̂i
1−hii .
Daher kann man schreiben
ε̂i
)2
1 − hii
Man wählt nun das Modell mit minimalem Press.
Literatur
Allen, David M. (1974) The relationship between variable selection and data augmentation
and a method for prediction. Technometrics 16, 125–127.
Allen, David M. (1971) Mean Square Error of Prediction as a Criterion for Selecting Variables.
Technometrics 13, 469-475
2.5.4
Shrinkage Schätzer
Shrinkage Schätzer verkleinern tendenziell in einer gewissen Weise die sich aus der LS Schätzung
ergebenden Werte, sind also typischer Weise (nicht immer) im Absolutbetrag kleiner als die
Einträge von β̂ LS Dies hat vor allem zwei Zwecke: a. Verringerung der Varianz der Schätzung,
und b. falls Koeffzienten exakt auf 0 verkleinert werden können, liefert solch ein Shrinkage
Schätzer automatisch eine Modellwahl. Solche Schrinkage Schätzer wollen wir im Folgenden
kennenlernen. Wir beginnen jedoch zunächst mit der bereits bekannten
Ridge-Regression Für den Ridge Parameter α > 0 erhält man den Ridge Schätzer wie
folgt:
β̂ α = (αI + X T X)−1 X T Y
Aufgabe:
β̂ α = argminβ (kY − Xβk2n + αkβk2p )
Wieso fällt β̂ α in die Klasse der Shrinkage Schätzer? Dazu betrachte den Fall eines orthogonalen Designs, X T X = Ip . Dann ist β̂ = X T Y und
β̂ α =
β̂
1+α
• Koeffizienten werden im Absolutbetrag kleiner. (dies gilt aber nicht unbedingt bei nichtorthogonalem Design)
• Aber: Kein Koeffizient wird auf 0 reduziert.
2.5 Variablen-Selektion und Shrinkage Schätzung
49
Im Falle eines orthogonalen Designs gilt folgendes:
Es existiert ein t = t(α) > 0, so dass β̂ α Lösung des folgenden Optimierungsproblems ist:
minimiere kY − Xβk2n
,
unter Nebenbedingung
kβk2p ≤ t.
(23)
Der Beweis ergibt sich direkt aus einem Lagrange Ansatz für Extrema unter Nebenbedingungen.
Das Lasso (Tibshirani 1996)
Las
LASSO steht für: least absolute shrinkage and selection operator. Der LASSO Schätzer β̂ t
ist die Lösung des folgenden Optimierungsproblems. Für t > 0 fest (ein Regularisierungsparameter)
p
X
2
|βk | ≤ t.
(24)
minimiere kY − Xβkn
mit Nebenbedingung
k=1
Bemerkung
a. Das Minimierungsproblem (24) ist analog zu dem (23) für den Ridge Schätzer,
b. Das LASSO kann Koeffizienten auf exakt 0 schätzen. Man hat also Modellwahl und
Schätzung in einem Schritt.
c. Für die explizite Berechnung:
Reformuliere als quadratisches Minimierungsproblem mit den 2p Nebenbedingungen
±β1 ± . . . ± βp ≤ t
d. Es gilt: kY − Xβk2n = kY − X β̂ LS k2n + kX(β̂ LS − β)k2n . Also ist (24) äquivalent zu:
T
T
minimiere (β − β̂ LS ) X X(β − β̂ LS )
mit Nebenbedingung
p
X
k=1
|βk | ≤ t.
• Man nimmt stets an, dass die Kovariablen auf Norm 1 standardisiert sind.
Lasso für p = 2
Hier ist
T
X X=
1 γ
,
γ 1
β̂ LS = (β10 , β20 )T
Minimiere (β1 − β10 )2 + (β2 − β20 )2 + 2γ(β1 − β10 )(β2 − β20 ). Dabei sind die Höhenlinien Ellipsen.
Für p = 2 gilt stets (hier o.E. β̂LS > 0):
β̂jLas = (β̂LS,j − γ)+
wobei γ bestimmt durch β̂1Las + β̂2Las = t.
a, a > 0
a+ =
0, sonst
(25)
50
2
oder explizit
t
β 0 − β20 +
β̂1Las = ( + 1
) ,
2
2
LINEARE REGRESSION
t
β 0 − β20 +
β̂2Las = ( − 1
)
2
2
Argument über Hauptachsentransformation der Ellipse. Erhalte (β̄10 , β̄20 ), suche Projektion
von (β̄10 , β̄20 ) auf transformierte Raute bezüglich des euklidischen Abstands. Nach Drehung
liegt die Raute wieder auf den Koordinatenachsen. BILDER!!!
Nun nutze folgenden Satz über Projektionen auf konvexe Mengen: Ist K konvex, dann ist y
Projektion von x0 auf K falls
hx0 − y, x − yi ≤ 0 ∀x ∈ K,
der Winkel also stets flach ist. Somit liegt Projektion auf Streckensegment S. Dort auflösen
ergibt eine quadratische Funktion, deren Lösung liegt entweder beim Minimum oder auf dem
Rand der Strecke. Ein Lagrange-Ansatz für das uneingeschränktes Maximum auf der Geraden
entlang der Strecke S liefert
(1, 1) = λ · (2(β1 − β10 ) + 2γ(β2 − β20 ), 2(β2 − β20 ) + 2γ(β1 − β10 ))
Löse auf und bekomme explizite Form.
Für p ≥ 3 gilt die Form (25) im allgemeinen nicht mehr, nur noch im orthogonalen Design.
Gilt X T X = Ip , dann existiert ein γ = γ(t), so dass
β̂jLas = sign(β̂LS,j )(|β̂LS,j | − γ)+
Für ein nicht orthogonales Design können die Koeffizienten das Vorzeichen wechseln.
relevante R Befehle
berechnet.
Die library lasso2 enthält die Funktion l1ce, die den Lasso Schätzer
Literatur
Tibshirani, R. (1996) Regression shrinkage and selection via the lasso. J. Roy. Statist. Soc.
Ser. B 58, 267–288.
Nonnegative Garrote (Breiman 1995)
Sei β̂ = β̂ LS der LS-Schätzer. Wähle nun cj so, dass
X
k
(Yk −
X
cj β̂j,LS xjk )2
j
P
minimal wird unter der Nebenbedingung cj ≥ 0 und j cj ≤ s für ein s > 0.
Dann ist der Garotte Schätzer
Gar = c β̂
β̂s,j
j j,LS .
Im orthogonalen Design erhält man
cj = 1 −
λ2 +
2
β̂j,LS
,
2.5 Variablen-Selektion und Shrinkage Schätzung
51
P
wobei λ aus s und j cj = s bestimmt wird. Also im orthogonalen Design ähnlich wie das
LASSO, ansonsten können aber erhebliche Abweichungen auftreten.
Literatur
Breiman, L. (1995) Better subset regression using the nonnegative garrote. Technometrics 37,
373–384.
2.5.5
Inferenz nach Modellwahl
Beobachtung
Der Modellwahlschritt hat Auswirkungen auf die folgende Verteilung des Schätzers im schließlich gewählten Modell.
Resultate
Wenn aus denselben Daten das Modell gewählt wird und anschließend die Parameter geschätzt
werden, verlieren die bisher hergeleiteten Verteilungsresultate ihre Gültigkeit. Der resultierende Schätzer kann bezüglich MSE sehr schlechte Eigenschaften haben und auch nicht normalverteilt sein.
Illustration an einem einfachen Beispiel
Wir betrachten ein lineares Regressionsmodell mit zwei Kovariablen und normalverteilten
Fehlern mit bekannter Varianz von 1, und ein Teilmodell mit nur einer Kovariable
Yi = xi1 β1 + xi2 β2 + εi ,
(M ) ,
Yi = xi1 β1 + εi
(R)
,
wobei εi ∼ N (0, 1)
Annahme: Fpr die Modellmatrix X = (xi,1 , xi,2 )i=1,...,n ∈ Rn×2 gilt
X T X −1
n
Es gilt:
√
n(β̂
M
=
− β) ∼ N (0, Σ), wobei β̂
σ12
̺σ1 σ2
̺σ1 σ2
σ22
M
→Σ>0
= (β̂1M , β̂2M )T der LS-Schätzer im großen Modell
(M) ist. Wähle zwischen (M) und (R). Unter H0 : β2 = 0 ist
ein Modellwahlverfahren basierend auf dem Gauß-Test.
√
nβ̂2
σ2
∼ N (0, 1). Daher betrachte
Modellwahlverfahren
Falls
√
nβ̂2
≤ cn ,
Tn = |
|
> cn ,
σ2
wähle (R)
wähle (M)
Satz 2.13
Falls cn → ∞ so, dass √cnn → 0, dann ist das obige Modellwahlverfahren konsistent, d.h. mit
einer gegen 1 konvergierenden Wahrscheinlichkeit wird das richtige Modell gewählt.
52
2
LINEARE REGRESSION
Beweis
Angenommen, (R) ist richtig, also β2 = 0. Dann:
P (wähle (R)) = P (Tn ≤ cn ) = Φ(cn ) − Φ(−cn ) → 1, da cn → ∞
(Φ Verteilungsfunktion der Standardnormalverteilung)
Angenommen, (M) ist richtig, also β2 6= 0.
O.E. β2 > 0. Dann:
√
√
√
√
nβ̂2
n(β̂2 − β2 )
nβ2
nβ2
P (wähle (R)) ≥ P (
> cn ) = P (
> cn −
) = 1 − Φ(cn −
)→1
σ2
σ2
σ2
σ
|
{z 2 }
→−∞
da
cn
√
n
→ 0 und σ2 von 0 weg beschränkt bleibt.
post
, ergibt sich nun als
Der Schätzer von β1 nach Modellwahl, β̂1
post
β̂1
=
β̂1M , Tn > c,
β̂1R , Tn ≤ cn
Wegen der Konsistenz der Modellwahlprozedur gilt:
für festes β2 6= 0 :
für β2 = 0 :
post
6= β̂1M ) → 0
P (β̂1
post
P (β̂1
6= β̂1R ) → 0
Also ist konsistente Modellwahl scheinbar kein Problem. Aber man kann zeigen: Es gibt eine
Umgebung U von 0, so dass für beliebig (hinreichend) großes n stets ein β1 ∈ U existiert,
post
so dass der Abstand der Verteilungen L(β1
) und L(β̂1M ) groß ist, welches auch zu großen
mittleren quadratischen Fehlern und Konfidenzintervallen mit realer Überdeckungswarscheinpost
lichkeit, die gegen 0 konvergiert, führt. Wir illustieren dies, indem wir die Dichte von β̂1
berechnen und für einige Parameter Werte plotten.
Satz 2.14
√
post
Die Zufallsvariable n(β̂1
− β1 ) hat die Dichte
√
t + √n σ1 ̺β2 c − √nβ /σ −cn − nβ2 /σ2 2
2
n
σ2
−Φ
· Φ
fP ost (t) =
1 φ
1
σ1
σ1
σ1 (1 − ̺2 ) 2
σ1 (1 − ̺2 ) 2
√
√
̺
̺
β
β
n 2 + t − cn n σ22 + σ1 t + cn
1
t σ2
σ1
+ φ( ) 1 − Φ(
+Φ
,
1
1
σ1 σ1
(1 − ̺2 ) 2
(1 − ̺2 ) 2
1
wobei φ die Dichte und Φ die Verteilungsfunktion der N (0, 1) Verteilung ist.
BILDER!!! WEIT WEG VON DER NORMALVERTEILUNG!
2.5 Variablen-Selektion und Shrinkage Schätzung
53
Beweis (von Satz 2.14)
Es ist
P
√
post
n(β̂1
− β1 ) ≤ t
√
√
P Tn ≤ cn , n(β̂1R − β1 ) ≤ t + P Tn > cn , n(β̂1M − β1 ) ≤ t
=
=: A1 (t) + A2 (t).
Die Dichte erhält man dann durch Ableiten nach t.
Betrachte zunächst A2 (t):
√
√
√
√
P Tn > cn , n(β̂1M − β1 ) ≤ t = P n(β̂2 − β2 ) ≥ σ2 cn − nβ2 , n(β̂1M − β1 ) ≤ t
√
√
√
+ P n(β̂2 − β2 ) ≤ −σ2 cn − nβ2 , n(β̂1M − β1 ) ≤ t
= A21 (t) + A22 (t)
Sei φ(x, y, Σ) die Dichte von N (0, Σ), φ(y|x, Σ) die bedingte Dichte von y|x bei (x, y) ∼
N (0, Σ) und φ(t) die Dichte von N (0, 1). Dann:
Z t Z ∞
Z t Z ∞
1
φ(x, y, Σ)dy dx =
φ(y|x, Σ) φ(x/σ1 )dy dx.
A21 (t) =
√
√
σ
1
−∞ σ2 cn − nβ2
−∞ σ2 cn − nβ2
Ableiten nach t liefert
1
φ(t/σ1 )
=
σ1
A′21 (t)
Z
∞
√
φ(y|t, Σ)
σ2 cn − nβ2
1
dy
σ1
und es ist φ(y|t, Σ) die Dichte von N (̺ σσ12 t, (1 − ̺2 )σ22 ). Also
A′21 (t)
=
=
√
σ2 cn − nβ2 − ̺ σσ12 t 1
φ(tσ1 ) 1 − Φ
1
σ1
(1 − ̺2 ) 2 σ2
√ n β2 + ̺ t − cn 1
σ2
σ1
.
φ(tσ1 )Φ
1
σ1
(1 − ̺2 ) 2
(26)
Analog berechnet man
A′22 (t)
√ β2
n σ2 + σ̺1 t + cn 1
=
φ(tσ1 ) 1 − Φ
.
1
σ1
(1 − ̺2 ) 2
(27)
Jetzt berechne A1 (t):
A1 (t) = P − σ2 cn −
√
nβ2 ≤
√
n(β̂2M − β2 ) ≤ σ2 cn −
√
√
nβ2 , n(β̂1R − β1 ) ≤ t
Man benötigt also die gemeinsame Verteilung von (β̂1R , β̂2M ). Dazu verwenden wir die Invertierungsformel
−1
1
c −b
a b
=
b c
ac − b2 −b a
Für X = (v1 , v2 ) liefert dies
XT X =
T
v1 v1 v1T v2
.
v1T v2 v2T v2
54
2
Somit:
1
Σ/n = T
T
v1 v1 v2 v2 − (v1T v2 )2
und auch
1
n
LINEARE REGRESSION
v2T v2 −v1T v2
−v1T v2 v1T v1
T
1
−σ1 σ2 ̺
σ22
v1 v1 v1T v2
= 2 2
σ12
v1T v2 v2T v2
σ1 σ2 (1 − ̺2 ) −σ1 σ2 ̺
Nun ist β̂1R = v1T Y/v1T v1 , also
E β̂1R = β1 +
v1T v2
σ1
β2 = β1 − ̺β2 ,
T
σ2
v1 v1
Weiter berechnet sich β̂2M explizit aus β̂
β̂2M =
und natürlich E β̂2M = β2 , Var
√
M
Var
√
n(β̂1R − β1 =
n
v1T v1
=
σ12 (1
1
.
− ̺2 )
= (X T X)−1 X T Y als
−v1T v2 v1T Y + v1T v1 v2T Y
v1T v1 v2T v2 − (v1T v2 )2
n(β̂2M − β2 ) = σ22 , und es gilt
Cov(β̂1R , β̂2M ) =
−v1T v2 v1T v1 + v1T v1 v2T v1
= 0.
v1T v1 v2T v2 − (v1T v2 )2
Da außerdem (β̂1R , β̂2M ) gemeinsam normalverteilt sind (als lineare Transformation von normalverteilten Zufallsvariablen), sind diese auch unabhänig. Somit:
√
√
√
√
A1 (t) = P n(β̂1R − β1 ) ≤ t · P − σ2 cn − nβ2 ≤ n(β̂2M − β2 ) ≤ σ2 cn − nβ2 ,
und
A′1 (t)
√
t + √n σ1 ̺β2 σ c − √nβ −σ2 cn − nβ2 2
2 n
σ2
−Φ
.
=
· Φ
1 φ
1
σ1 σ2
σ1 σ2
σ1 (1 − ̺2 ) 2
σ1 (1 − ̺2 ) 2
1
Daraus und aus Gleichungen (26) und (27) erhält man das Resultat des Satzes.
Literatur
Pötscher, B. M. und Leeb, H. (2008) Sparse Estimators and the Oracle Property, or the Return of Hodges’ Estimator. Journal of Econometrics 142, 201-211.
Pötscher, B. M. und Leeb, H. (2005) Model Selection and Inference: Facts and Fiction. Econometric Theory 21 2005, 29-59.
Wallace, T. D. und Ashar, V. G. (1972) Sequential methods in model selection. Review of
Economics and Statistics 54, 172–178.
2.6 Verallgemeinerte kleineste Quadrate und Varianzschätzen
2.6
2.6.1
55
Verallgemeinerte kleineste Quadrate und Varianzschätzen
Verallgemeinerte kleinste Quadrate
Im linearen Modell (5) habe wir vorausgesetzt, dass die Fehler ǫ unkorreliert mit gleicher
Varianz σ 2 sind. Diese Annahme lassen wir nun fallen und erlauben eine allgemeine Kovarianzstruktur der Fehler. Wir betrachten also das lineare Modell mit allgemeiner Fehlerstruktur
Y = Xβ + ǫ,
Eǫ = 0,
Cov ǫ = Σ,
(28)
mit einer positiv definiter Kovarianzmatrix Σ > 0 für die Fehler ǫ. Man überführt nun das
lineare Modell (28) mit allgemeiner Fehlerstruktur in ein Modell mit Σ = In . Dazu setze
1
1
1
1
Ỹ = Σ− 2 Y, X̃ = Σ− 2 X, ǫ̃ = Σ− 2 ǫ. Dann ergibt (28) mit Σ− 2 multipliziert:
Ỹ = X̃β + ǫ̃,
1
(29)
1
wobei Cov ǫ̃ = Σ− 2 ΣΣ− 2 = In . Weiter gilt: Genau dann ist S(Y) = AY ein linearer
unverfälschter Schätzer im Modell (28), wenn S̃(Ỹ) = AΣ1/2 Ỹ ein linearer unverfäschter
Schätzer im Modell (29) ist. Somit kann man die Resultate im linearen Modell mit unkorrelierten, homoskedastischen Fehler übertragen auf das lineare Modell mit allgemeiner Fehlerstruktur. Wir fassen die wesentlichen Ergebnisse zusammen.
Satz 2.15
Im lineare Modell mit allgemeiner Fehlerstruktur (28) ist der beste lineare, unverfälschte
Schätzer für β (also der mit kleinster Kovarianzmatrix) gegeben durch
β̂ GLS = (X̄ T X̄)−1 X̄ T Ỹ = (X T Σ−1 X)−1 X T Σ−1 Y,
(30)
dieser hat die Kovarianzmatrix
Cov β̂ GLS = (X T ΣX)−1 ,
und ist bestimmt als Lösung des verallgemeinerten kleinste Quadrate Problems
β̂ GLS = argminβ (Y − Xβ)T Σ−1 (Y − Xβ).
Der Schätzer β̂ GLS heißt der verallgemeinerte Kleinste-Quadrate-Schätzer (generalized least
squares estimator, GLS). Im Modell (28) heißt der Schätzer β̂ OLS = (X T X)−1 X T Y der
gewöhnliche kleinste Quadrate Schätzer (ordinary least squares, OLS). Dieser ist auch hier
unverfälscht und unter allgemeinen Bedingungen konsistent (s. Eicker 1963), hat aber die
größere Kovarianzmatrix Cov β̂ OLS = (X T X)−1 X T ΣX(X T X)−1 . Wir beachten, dass für die
Berechnung von β̂ GLS die Matrix Σ bekannt sein muss.
Falls Σ = diag(w1 , . . . , wn ), wi > 0, eine Diagonalmatrix ist, spricht man von dem gewichteten
Kleinste-Quadrate-Schätzer, Notation β̂ W LS (weighted least squares).
Aufgabe
β̂ GLS als ML-Schätzer, falls der Fehler ǫ ∼ N (0, Σ) verteilt ist.
relevante R Befehle Der Befehl lm hat die Option weights, mit der eine gewichtete kleinste
Quadrate Schätzung ausgeführt werden kann.
56
2.6.2
2
LINEARE REGRESSION
Varianzschätzen
Wir wollen nun sehen, wie man in dem Modell (28) die allgemeine Kovarianzstruktur der
Fehler schätzen kann. Das Schätzen der Fehlerstruktur ist aus zwei Gründen von Interesse.
Zum einen wird es benötigt, um den gewichteten kleinste Quadrate Schätzer (30) und dessen
Kovarianzmatrix zu berechnen. Weiter kann auch die Varianzstruktur (Stichwort Volatilität)
neben der Erwartungswertstruktur Xβ an sich von Interesse sein.
Zum Schätzen benötigt man Annahmen an die Matrix Σ. Wir betrachten den Fall unkorrelierter Fehler, also Σ = diag(σ12 , . . . , σn2 ). Zum Schätzen der Varianzen wird hier ein parametrisches Modell angenommen. Ein normales lineares Modell ist aber nicht geeignet, da die
Varianzen positiv sein müssen. Beispiele für parametrische Modelle für die Varianzen sind
σi2 = σ 2 |xTi β|ϑ ,
ϑ > 0,
σ > 0,
dabei ist σi2 proportional zur Potenz des Erwartungswertes |xTi β|, oder
σi2 = σ 2 exp(xTi ϑ)
wobei ϑ ∈ Rp ein Parametervektor ist.
Ein allgemeines Modell hat die Form:
σi2 = σ 2 f (xi , β, ϑ)
Damit können die Varianzen von dem Parameter β abhängen, die den Erwartungswert bestimmen, sowie von zusätzlichen Parametern ϑ. Die Funktion f muss positiv sein und wird
als bekannt angenommen, nur die Parameter sind unbekannt.
Wir berschreiben nun eine Möglichkeit zur Schätzung von β und ϑ durch sukzessive (nichtlineare) kleinste Quadrate.
1. Schätze β durch gewöhnliche kleinste Quadrate β̂ LS , bilde die Residuen ε̂i = Yi − xTi β̂ LS .
2. Schätze ϑ, σ 2 durch Minimieren von
n
X
i=1
(ε̂i − σ 2 f (xi , β̂ LS , ϑ))2 .
Dies ist ein Beispiel für eine nichtlineare kleinste Quadrate Schätzung, auf die wir im nächsten
Kapitel näher eingehen werden. Wir erhalten auf diese Weise konsistente Schätzer ϑ̂, σ̂ 2 .
3. Nun kann man die Schätzungen noch weiter verbessern und die geschätzten Varianzen
σ̂i2 = σ̂ 2 f (xi , β̂ GLS , ϑ̂) benutzten und den gewichteten Kleinste-Quadrate-Schätzer β̂ W LS für
β berechnen.
4. Bilde unter Benutzung des gesichteten kleinsten Quadrate Schätzers neue Residuen und
schätze ϑ, σ 2 neu.
Diesen Prozess kann man iterieren. Es gibt hier zur Konvergenzanalyse und alternativen Verfahren eine umfangreiche Literatur. Siehe etwa
Literatur
Carroll, R. J. und Ruppert, D. (1988). Transformation and weighting in regression. Chapman
and Hall, New York.
57
3
Nichtlineare Regression
In diesem Abschnitt betrachten wir Regressionsmodelle, in denen die Parameter nichtlinear
in den funktionalen Zusammenhang eingehen. Man beachte, dass auch bei nur linearen Parametern nichtlineare Effekte (etwa Polynome, Splines oder trigonometrische Funktionen) in
den Kovariablen modelliert werden können. Daher sollten nichtlineare Modelle nur dann verwendet werden, wenn sich dies aus dem sachwissenschaftlichen Zusammenhang ergibt. Eine
wichtige Klasse von nichtlinearen Regressionmodellen entstehen aus Wachstumsmodellen in
der Biologie.
Bei nichtlinearen Regressionsmodellen ist der (nichtlineare) kleinste Quadrate Schätzer auch
bei normalverteilten Fehlern nur noch asymptotisch normalverteilt. Daher muss die Inferenz
(Konfidenzintervalle, Tests) auf den asymptotischen Approximation aufgebaut werden.
3.1
Modell und Beispiele
Modell:
Beobachtungen (Yi , xi ), i = 1, . . . , n, aus dem Modell
Yi = f (xi , β 0 ) + εi ,
i = 1, . . . , n,
(31)
wobei
Yi abhängige Variable
f: bekannte Funktion
β 0 : unbekannter Parameter ∈ Θ ⊂ Rq
xi : Kovariablen, xi ∈ Rp
εi : unabhängig, identisch verteilter Fehler mit Eεi = 0, Var εi = σ 2 , (bzw. εi ∼ N (0, σ 2 )).
Diese sind auf einem W-raum Ω definiert.
Beispiele:
1. Lineare Regression
f (xi , β) = xTi β
2. Michaelis-Mentes Modell
f (x, β1 , β2 ) =
β1 x
β2 + x
allgemeiner:
f (x, β1 , β2 , β3 ) =
β2 + β1 x
β3 + x
58
3 NICHTLINEARE REGRESSION
3. logistisches Wachstumsmodell
f (x, β1 , β2 , β3 ) =
β1
1 + β2 exp(−β3 x)
Meist ist also x = x eine univariate metrische Kovariable. Beachte, dass bei nichtlinearer
Modellierung keine Tranformation der Kovariablen nötig ist, diese kann mit in die Funktion
aufgenommen werden.
3.2
Nichtlineare kleinste Quadrate
Mit β 0 bezeichnen wir im Folgenden den wahren Wert von β in Modell (31). Ein NLS-Schätzer
(nichtlineare kleinste Quadrate, nonlinear least squares) β̂ N LS minimiert
n
Qn (β) =
1X
(Yi − f (xi , β))2
n
i=1
Bemerkung
a. Der NLS-Schätzer muss nicht eindeutig sein.
b.
1
n
kann in der Praxis weggelassen werden.
c. Der NLS-Schätzer ist ML-Schätzer für normalverteilte Fehler.
Praktische Berechnung von β̂ N LS .
Falls Differenzierbarkeit von f (·, ·) in β vorausgesetzt wird, kann das Newton Verfahren auf
die Gleichung
n
2 X
∂β Qn (β) = −
Yi − f (xi , β) ∂β f (xi , β) = 0.
n
i=1
Eine einfacheres iteratives Verfahren besteht darin, zunächst zu linearisiren und dann iterativ
lineare kleinste Quadrate anzuwenden wie folgt: Für eine Näherung β n an β̂ N LS , linearisiere
Yi ≈ f (xi , β n ) +
∂f
(xi , β n )T (β − β n ) + εi
∂β
Schätze β − β n durch lineare kleinste Quadrate mit abhängiger Variable ȳi,n = Yi − f (xi , β n )
∂f
(xi , β n ) also
und Kovariable x̄i,n = ∂β
αn = (X̄nT X̄n )−1 X̄nT Ȳn ,
wobei X̄n zeilenweise aus den x̄i,n gebildet wird. Dan erhalte eine neue Näherung β n+1 mit
β n+1 = αn + β n .
Man kann für dieses Verfahren auch einen Satz über Konvergenz beweisen.
Schätzer für die Varianz σ 2 .
Für einen NLS-Schätzer β̂ N LS setzte
σ̂ 2 = Qn (β̂ N LS ).
3.3 Konsistenz
3.3
59
Konsistenz
Um die Konsistenz des NLS Schätzers zu zeigen, benötigen wir folgende Annahmen.
Der Wertebereich Θ von β ist kompakt und konvex, und f (xi , ·) ist
Annahme (A):
stetig.
Offenbar existiert unter Annahme (A) ein (meßbarer) NLS-Schätzer.
Es gilt gleichmäßig in α, β ∈ Θ
Annahme (B):
n
1X
(f (xi , β)f (xi , α)) → K(α, β).
n
i=1
Weiter habe Q(β, β 0 ) = K(β, β) + K(β 0 , β 0 ) − 2K(β, β 0 ) als Funktion von β ein eindeutiges
Minimum (Nullstelle) in β 0 .
Offenbar gilt unter Annahme (B) gleichmäßig in β
n
1X
(f (xi , β) − f (xi , β 0 ))2 → Q(β, β 0 ).
n
i=1
und das Grenzkriterium Q(·, β 0 ) ist stetig (wegen gleichmäßiger Konvergenz).
Satz 3.1
Unter den Annahmen (A) und (B) sind β̂ N LS und σ̂ 2 stark konsistent, d.h.
σ̂ 2 → σ 2 f.s.
β̂ N LS → β 0 f.s.,
Wir zeigen zunächst folgendes Lemma.
Lemma 3.2
Unter Annahmen (A) und (B) gilt für fast alle ω ∈ Ω
n
1X
εk (ω) f (xk , β 0 ) − f (xk , β) → 0
n
k=1
gleichmäßig in β ∈ Θ.
Beweis (von Lemma 3.2)
Punktweise fast sichere Konvergenz für festes β folgt mit Annahme (B) aus dem starken
Gesetzt der großen Zahlen (REFERENZ), da
Var(εk f (xk , β 0 ) − f (xk , β)) = (f (xk , β 0 ) − f (xk , β))2 .
Zur Gleichmäßigkeit:
n
|
Für α, β ∈ Θ gilt
1X
εk (f (xk , β) − f (xk , β 0 ))|
n
k=1
CSU
≤
n
|
1X
εk (f (xk , α) − f (xk , β 0 ))|
n
k=1
n
n
1
1 X
1X
2
ε2k ·
(f (xk , β) − f (xk , α))2
(32)
+
n
n
k=1
k=1
60
3 NICHTLINEARE REGRESSION
Da
n
1X
(f (xk , α) − f (xk , β))2 → K(α, α) + K(β, β) − 2K(α, β)
n
k=1
gleichmäßig und K(·, ·) stetig auf Θ × Θ (kompakt), gilt:
Für alle δ > 0 existieren endlich viele α1 , . . . , αq ∈ Θ und ein n0 , so dass für alle β ∈ Θ ein
1 ≤ i ≤ q existiert mit
n
1X
(f (xk , αi ) − f (xk , β))2 ≤ δ.
n
k=1
Mit (32) und punktweiser fast sicherer Konvergenz an den Stellen αi folgt dann die Behauptung.
Beweis (von Satz 3.1)
Nach Lemma 3.2 und Annahmen (A) und (B) gilt für fast alle ω ∈ Ω gleichmäßig in β
n
Qn (β)(ω)
=
n
n
k=1
k=1
1X 2
2X
1X
(f (xk , β 0 ) − f (xk , β))2 +
εk (ω) +
εk (ω)(f (xk , β 0 ) − f (xk , β))
n
n
n
k=1
→ Q(β, β 0 ) + σ
2
(33)
N LS
Fixiere ω ∈ Ω, so dass (33) gilt. Setzte β̂ n (ω) = β n , σ̂n2 (ω) = σn2 und zeige β n → β 0 ,
σn2 → σ. Da Θ kompakt ist, genügt es für β n → β 0 zu zeigen, dass jeder Häufungspunkt von
(β n ) gleich β 0 ist.
Sei also β ′ ein Häufungspunkt von β n , also etwa β nk → β ′ , k → ∞. Dann ist
|Qnk (β nk )(ω)−(Q(β ′ , β 0 )+σ 2 )| ≤ |Qnk (β nk )(ω)−(Q(β nk , β 0 )+σ 2 )|+|Q(β nk , β 0 )−Q(β ′ , β 0 )| → 0,
wobei der erste Term wegen der gleichmäßigen Konvergenz in (33) gegen 0 konvergiert, und
der zweite wegen der Stetigkeit von Q(·, β 0 ). Also haben wir
Qnk (β nk )(ω) → Q(β ′ , β 0 ) + σ 2 ,
k→∞
(34)
Weiter gilt, da β n NLS Schätzer,
N LS
Qnk (β nk , ω) ≤ Qnk (β 0 , ω) =
nk
1 X
ε2i (ω)
nk
i=1
Für k → ∞ erhält man mit (34):
Q(β ′ , β 0 ) + σ 2 ≤ σ 2
Da Q(β ′ , β 0 ) > 0 für β ′ 6= β 0 (Annahme (B)) folgt β ′ = β 0 .
Analog zu (34) gilt dann für fast alle ω:
N LS
Qn (β̂ n
(ω))(ω) → Q(β 0 , β 0 ) +σ 2 = σ 2
| {z }
=0
also σ̂ 2 → σ 2 fast sicher.
3.4 Asymptotische Normalität
61
relevante R Befehle
nls berechnet einen nichtlinearen kleinste Quadrate Schätzer. Dabei
muss ein Startvektor (Option start) für β angegeben werden. Auf ein Objekt vom Typ nls
kann die summary Funktion angewendet werden. Diese enthält dann auch den Schätzer für
σ2.
Literatur:
Jennrich, R. I. (1969) Asymptotic properties of non-linear least squares estimators. Ann.
Math. Statist. 40, 633–643.
3.4
Asymptotische Normalität
Für die asymptotische Normalität des NLS Schätzers benötigen noch folgende Annahme
T
d
d d
Annahme (C):
Die Ableitungen dβ
f (xi , β) = gi (β) (Vektor im Rq ), dβ
dβ f (xi , β) =
q×q
Hi (β) (Matrix aus R ) existieren, und für alle Kombinationen f (xi , β)·(gi (β))j , (gi (β))j (gi (β))l ,
f (xi , β) · (Hi (β))jk , (gi (β))j (Hi (β))kl , und (Hi (β))kl (Hi (β))k′ l′ existieren die gleichmäßigen
Limiten (in (α, β) ∈ Θ × Θ) der Form (für alle Kombinationen)
n
1X
f (xi , α)(gi (β))j .
n
i=1
Insbesondere gilt gleichmäßig in β ∈ Θ
n
1X
An (β) =
gi (β)gi (β)T → A(β)(∈ Rq×q ).
n
i=1
Lemma 3.3
Unter den Annahmen (A), (B) und (C) gilt
n
1 X
d
√
εi gi (β) → N (0, σ 2 A(β))
n
i=1
Dies Lemma wir mit dem zentralen Grenzwertsatz von Lindeberg und dem Cramer-Wold
Lemma bewiesen.
Satz 3.4
Es gelten Annahmen (A), (B), (C), β 0 ∈ int Θ und A(β 0 ) sei invertierbar. Dann
√
N LS
n(β̂ n
d
− β 0 ) → N (0, σ 2 A(β 0 )−1 ).
(35)
Beweis
Nach dem mehrdimensionalen Zwischenwertsatz der Differentialrechnung gilt
N LS
0 = ∂β Qn (β̂ n
N LS
) = ∂β Qn (β 0 ) + WN (β̂ n
− β 0 ),
(36)
wobei
Wn =
Z
0
Es ist
1
N LS
− β 0 ) dt.
∂β ∂βT Qn β 0 + t(β̂ n
n
∂β Qn (β) =
n
2X
(Yi − f (xi , β))gi (β)
n
also
∂β Qn (β 0 ) =
i=1
Weiter
∂β ∂βT Qn (β) =
2X
εi gi (β 0 ).
n
i=1
n
2 X
(Yi − f (xi , β))Hi (β) − (gi (β)gi (β)T ) .
n
i=1
Somit gilt nach Annahme (C)
f.s.
∂β ∂βT Qn (β 0 ) → −2A(β 0 ),
sowie wegen der Konsistenz von β̂ N LS
Wn − ∂β ∂βT Qn (β 0 ) → 0 f.s.
Somit ergibt sich aus (36) und Lemma 3.3
√
N LS
n(β̂ n
−1 √
d
n∂β Qn (β 0 )/2 → N (0, σ 2 A(β 0 )−1 )
− β 0 ) = − Wn /2
Referenz
Jennrich, R. I. (1969) Asymptotic properties of non-linear least squares estimators. Ann.
Math. Statist. 40, 633–643.
Asymptotische Konfidenzintervalle und Hypothesentests
Die asymptotische Normalität in (35) kann zur Konstruktion von Konfidenzintervallen für
die Koeffizienten von β sowie zu Konstruktion von Tests linearer Hypothesen an β genutzt
P
N LS
N LS
werden. Dabei wird die Matrix A(β 0 ) durch n1 ni=1 gi (β̂ n )gi (β̂ n )T geschätzt. Danach
geht man vor wie in Bemerkung 2.8 zur entsprechenden asymptotischen Konstruktion in der
linearen Regression.
relevante R Befehle
Die Funktion summary, angewendet auf ein nls Objekt, liefert die
P-Werte, ob die entsprechenden Koeffizinten 0 sind. Die Funktion confint berechnet Konfidenzintervalle für die βk . Mit der Funktion anova können lineare Hypothesen an β getestet
werden, wobei das Modell unter der linearen Restriktion mit geschätzt werden muss.
Weitere Bemerkungen
Eine Residuenanalyse (residuals und fitted.values auf das nls Objekt anwenden) wird
ebenso wie im linearen Regressionsmodell durchgeführt. Da das Modell gewöhnlich durch den
wissenschaftlichen Zusammenhang vorgegeben sein sollte, sind die Themen Modellwahl und
Variablenselektion nur von geringem Interesse in der nichtlinearen Regression. Eine Ausnahme
ist aber die Schätzung der Varianzfunktion (s. Abschnitt 2.6.2). Dort führt man gewöhnlich
sukzessive Tests durch.
63
4
4.1
Logistische Regression
Modell
Wir betrachten Regression auf bionomial-verteilte Daten. Dabei liegen also unabhängige
binomial-verteilte abhängige Daten vor, Yi ∼ B(ni , pi ), i = 1, . . . , n,
n i yi
P (Yi = yi ) =
p (1 − pi )ni −yi ,
yi i
sowie Kovariabeln xi,1 , . . . , xi,r , i = 1, . . . , n. Man geht nun davon aus, dass die Kovariablen
die Erfolgswahrscheinlichkeit pi beeinflussen, also pi = p(xi ). Genauer soll pi von einem linearen Prädiktor ηi = bxTi β abhängen, wobei β ∈ Rp ein unbekannter Parametervektor ist
(es ist wie bei der linearen Regression p = r + 1 und bxi = (1, xi,1 , . . . , xi,r )T )). Die direkte
Wahl pi = ηi = bxTi β ist aber ungeeignet, da ja so nicht sichergestellt wird, dass 0 < pi < 1.
Man wählt daher eine streng monoton wachsende, stetige Link-Funktion g : (0, 1) → R, so
dass ηi = g(pi ) bzw. pi = h(ηi ) mit h = g −1 . Die Funktion h ist also eine streng-monoton
wachsende, stetige Verteilungsfunktion.
Beispiele für Linkfunktionen
η
p
e
a. Logit-Link
g(p) = log( 1−p
); h(η) = 1+e
η . Diese Wahl führt zum sogenannten logistischen Regressionsmodell, welches wir im Folgenden weiter untersuchen wollen.
b. Probit-Link
g(p) = Φ−1 (p), wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet. Dies ist das Probit Modell.
c. Komplementäre Log-log-Regression g(p) = log(− log(1 − p)), dies ist das diskrete CoxModell
Wir fassen also nochmal die Definition des logitischen Regressionsmodells zusammen. Es liegen
unabhängige Beobachtungen (Yi , bxi ), i = 1, . . . , n, vor, wobei die Yi ∼ B(ni , pi ) binomialverteilt sind. Der Parameter ni ist bekannt, dagegen hängt pi von den Kovariablen bxi ∈ Rp ab
über die Beziehung
exp(bxTi β)
pi = p(bxi ) =
1 − exp(bxTi β)
für einen unbekannten Parametervektor β ∈ Rp . Für die Kodierung der Kovariablen, also die
konkrete Wahl des Vektors bxTi ist Abschhnitt 2.1.2 zu beachten.
4.2
Maximum Likelihood Schätzung
Für feste Linkfunktion kann der Parameter β durch die Maximum Likelihood Methode
geschätzt werden. Dazu betrachtet man die Log-Likelihood-Funktion:
L(β) =
n
X
i=1
Yi log h(xTi β)
+ (ni − Yi ) log(1 −
h(xTi β))
+
n
X
i=1
ni
log
,
Yi
64
4 LOGISTISCHE REGRESSION
wobei der letzte Summand nicht von β abhängt und somit vernachlässigt werden kann. Ein
Maximum Likelihood Schätzer ist dann gegeben durch
β̂M L = argmaxβ∈Rp L(β)
Wir betrachten im Folgenden speziell das logistische Regressionsmodell. Dann ist
Llogit (β) =
=
n X
i=1
n
X
t
Yi log
ebxi β
bxT
i β
1+e
Yi (bxTi β)
i=1
−
n
X
T
+ (ni − Yi ) log 1 −
ebxi β
bxT
i β
1+e
+ const.
T
ni log(1 + ebxi β ) + const.
i=1
Als notwendige Bedingung für ein Maximum ergibt sich die Score-Gleichung
X ∂
ebxi β !
S(β) =
= 0.
Llogit (β) =
bxi Yi − ni
bxT
∂β
i β
i=1
}
| 1 +{ze
n
T
=E(Yi |bxi )
Es ist offenbar E(S(β)) = 0. Für die Matrix der zweiten Ableitungen (Hessische Matrix)
erhält man
T
n
X
∂
ebxi β
T
H(β) =
.
S(β) = −
bxi bxi ni
T
∂β T
(1 + ebxi β )2
i=1
|
{z
}
=p(bxi )(1−p(bxi ))
Somit hat diese folgende Eigenschaften
a. H(β) hängt nicht von Daten Yi ab.
b. H(β) ist negativ definit für alle β ∈ Rp , falls die Designmatrix
 T
x1
 .. 
X =  .  ∈ Rn×p
xTn
vollen Rang hat. (Nachweis!)
Satz 4.1
Der Parameterraum Θ ⊂ Rp der möglichen Werte von β sei konvex. Falls die Designmatrix
X vollen Rang hat, hat Llogit (β) im logistischen Regressionsmodell höchstens ein Maximum,
d.h. β̂ M L ist, falls existent, eindeutig bestimmt.
Beweis
H(β) negativ definit ∀β ∈ Rp ⇒ Llogit (β) konkav ⇒ auf konvexer Menge höchstens ein
Maximum.
Beispiel 4.2 (MLE braucht finit nicht zu existieren)
Es sei ni = 1, und die Kovariablen bxi seien derart, dass β ∗ ∈ Rp existiert mit
bxTi β ∗ > 0,
falls Yi = 1,
bxTi β ∗ < 0,
falls Yi = 0.
4.3 Deviance
65
Dann ist
∗
L(β ) =
n
X
(bxTi β ∗
i=1
yi =1
∗
bxT
i β
− log(1 + e
)) −
n
X
T
∗
log(1 + ebxi β ).
i=1
yi =0
Für α → ∞ gilt dann L(αβ ∗ ) → 0 (nutze dazu log(1 + ex ) ≈ x für x groß). Andererseits ist
stets
n
Y
p(bxi )yi (1 − pi (bxi ))1−yi < 1
L(β) =
i=1
uns somit L(β) < 0. Daher kann es kein Maximum geben.
Man kann aber zeigen, dass unter geeigneten Bedingungen die Wahrscheinlichkeit dafür, dass
der Maximum Likelihood Schätzer β M L existiert, gegen 1 konvergiert, und dass dieser asymptotisch normalverteilt ist. Wir zeigen dies im Abschnitt 5.3 über verallgemeinerte lineare
Modelle.
relevante R Befehle
Die Funktion glm mit Option family=binomial passt ein logistisches
Regressionsmodell an. Entweder man wählt die Matrix (Yi , ni −Yi ), i = 1, . . . , n als abhängige
Variable in formula, oder man wählt Yi /ni als abhängige Variable in formula, und übergibt
die ni an die Option weights. Ein Probit-Modell wird mit der Option
family=binomial(link="probit") erzeugt. Auf ein glm Objekt können die Funktionen
summary, und fitted.values (angepasste Werte), angewendet werden.
4.3
Deviance
Wir wiederholen zunächst das Prinzip des Likelihood Quotienten Tests (LRT, Likelihood
Ratio Test). Angenommen, man hat zwei parametrische Modelle:
L: großes Modell mit l freien Parametern und maximaler Likelihood LL ,
S: kleines Teilmodell von L mit s freien Parametern und maximaler Likelihood LS .
Dann ist die Likelihood Quotienten Statistik gegeben durch
T = 2 log
LL
.
LS
Falls das Teilmodell S bereits den wahren Parameter enthält, und falls zusätzliche Regulad
ritätsbedingungen erfüllt sind, gilt T → χ2 (l − s). Man verwirft das Teilmodell mit asymptotischen Niveau α > 0, falls T ≥ χ2α (l − s). Die Deviance ist nun definiert als Likelihood
Quotienten Statistik für das angepasste logistische Regressionsmodell gegen das sogenannte saturierte Modell, wobei im saturierten Modell jeder Parameter pi als freier Parameter
behandelt wird und durch p̂i = nYii geschätzt wird. Also explizit
D =2·
n X
Yi log
i=1
p̂i
h(xTi β̂)
+ (ni − Yi ) log(
1 − p̂i
1 − h(xTi β̂)
) .
Mit Ŷi = ni h(xTi β̂), den angepassten Werten (fitted values) kann man auch schreiben
D =2·
n X
i=1
Yi log
Yi Ŷi
+ (ni − Yi ) log
ni − Yi ni − Ŷi
.
66
4 LOGISTISCHE REGRESSION
d
Falls das logistische Regressionsmodell korrekt ist, gilt für festes n und für ni → ∞ D →
χ2 (n − p).
Bemerkungen
a. Für ni = 1 (Bernoulli-Daten) kann die Deviance nicht benutzt werden (WIESO).
d
b. Die Asymptotik D → χ2 (n − p) gilt nicht für ni fest und n → ∞!
Die Deviance kann auch genutzt werden, um zwei ineinander geschachtelte logistische Regressionsmodelle miteinander zu vergleichen. Dazu seien
L: das große logistische Regressionsmodell mit β ∈ Rl ,
S: das klein Teilmodell von L mit β ∈ Rs , s < l.
Dann kann die Likelihood Quotienten Statistik von Modell S gegen Modell L durch Differenzbildung der zugehörigen Deviances DS − DL , auch Partial Deviance Test genannt, berechnen.
Falls S korrekt ist, gilt
d
DS − DL → χ2l−s ,
falls ni → ∞ oder auch n → ∞. Beachte dabei, dass die gesättigten Terme wegfallen, weshalb
auch Asymptotik mit n → ∞ gilt.
relevante R Befehle
Die summary Funktion enthält die Deviance. Der Partial Deviance Test
für lineare Hypothesen wird mit anova durchgeführt. Hierbei wird entweder das reduzierte
Modell mitübergeben, oder es werden Tests auf Relevanz der HAupteffekte und Interaktionen
durchgeführt.
4.4
Residuenanalyse und weitere Diagnostische Plots
NOCH ÜBERARBEITEN!
Residuenanalyse
T
µ̂i = ni p̂i ,
p̂i =
exi β̂M L,n
T
1 + exi β̂M L,n
.
Rohe Residuen (Raw residuals)
ri = Yi − ni p̂i .
Diese sind ungeeignet für Residuenanalyse, da die Varianz von Yi und somit von ri von µi
abhängt. Somit haben die ri keine approximativ konstante Varianz.
Pearsonsche Residuen
riP =
Yi − ni p̂i
1
(ni p̂i (1 − p̂i )) 2
.
Diese sind grundsätzlich geeignet für die Residuenanalyse. Allerdings sind sie häufig finit nicht
gut approximativ normalverteilt, sonder schief verteilt. Nur benutzen für große ni , insbesondere nicht benutzbar für ni = 1.)
Transformierte Residuen Varianz-stabilisierende Residuen:
p
√
(arcsin( Yi /ni ) − arcsin(p̂i )) · 2 ni ,
4.4 Residuenanalyse und weitere Diagnostische Plots
67
hier ist T die Arcsin-Transformation.
Anscombe:
T ( nYii ) − T (p̂i ) √
1
6
ni ,
T (z) =
(p̂i (1 − p̂i ))
Für T sind numerische Approximationen verfügbar.
Z
0
z
1
(t(1 − t))− 3 dt.
Deviance-Residuum: Die Deviance Residuen sind also Wurzeln aus Beitrag der i-ten Beobachtung zur Deviance.
Mit µ̂i = ni p̂i haben
ni − Yi 12
riD = sign(Yi /ni − p̂i ) 2(Yi log(Yi /µ̂i ) + (ni − Yi ) log
.
)
ni − µ̂i
wobei

 1, x > 0
0, x = 0
sign(x) =

−1, x < 0
Im Allgemeinen wird die Benutzung der Deviance Residune empfohlen, die ähnliche Eigenschaften zu den Anscombe Residuen haben (vgl REFERENZ).
1. Einfluß einer Kovariable
a. dichotom
Datenbeispiel Babyfood“
”
Krank
Nicht krank
Junge
p(0)
1-p(0)
empirisch:
Mädchen
p(1)
1-p(1)
Krank
Nicht krank
Odds:
O(i) =
Junge
a
c
p(i)
1 − p(i)
(lace eines Erfolgs zu dem eines Mißerfolgs)
Empirisch:
Ô(0) =
a
a+c
c
a+c
=
b
a
, Ô(1) =
c
d
Odds Ratio: (???)
Or =
Ô(0)
O(0)
Logistisches Regressionsmodell:
log(
p(i)
) = β 0 + β 1 i, i = 0, 1
1 − p(i)
Somit: eβ0 = O(0), eβ0 +β1 = O(1)
eβ1 = Or
Auch für empirische Odds-Ratios und ML-Schätzer für die β i .
Mädchen
b
d
68
4 LOGISTISCHE REGRESSION
b. nomiale Kovariable
Beispiel Food“ (Babyfood)
”
J Kategorien, dann
logit(p(j)) = β 0 + β 1 I1 (j) + . . . + β J−1 IJ−1 (j), j = 1, . . . , J
wobei
Ij (i) =
Also:
1, i = j
0, sonst
j = 1, . . . , J − 1
logit p(J) = β 0 , logit p(j) = β 0 + β j
(damit Matrix X vollen Rang hat!)
Wieder Zusammenhang zu den empirischen logits!
c. ordinale Kovariable
Beispiel Bliss Daten“
”
Linearität der empirischen Logits prüfen → ???
Logits:
yi
p̂(i)
yi
ni
log(
) = log(
)
yi ) = log(
1 − p̂(i)
1 − ni
n i − yi
Empirische logits:
log(
yi + 12
)
ni − yi + 21
d. quantitative Kovariable
Auch empirische Logits plotten.
2. Einfluß mehrerer Kovariablen
Beispiel 4.3
Lineares Modell, eine Kovariable stetig, eine Kovariable dichotom
abhängig: Einkommen; dichotom: Geschlecht; stetig: Alter
Untersuche (Modell mit Haupteffekten):
Yi = β 0 + β 1 xi,A + β 2 xi,S + εi
(1)
Bedeutet konkret:
Für Männer (xi,S = 1): Yi = β 0 + β 2 + β 1 xi,A
Für Frauen (xi,S = 0): Yi = β 0 + β 1 xi,A
Also: gleiche Steigung, ungleiche Intercepts
Falls aber der Zusammenhang so ist, dass ungleiche Steigung und ungleiche Intercepts, dann
Interaktion.
Erweitere Modell (1) zu:
Yi = β 0 + β 1 xi,A + β 2 xi,S + β 3 xi,A · xi,S + εi
4.5 Überdispersion
69
Dann für Männer (xi,S = 1): Yi = β 0 + β 2 + xi,A (β 1 + β 3 ) + εi
Für Frauen (xi,S = 0): Yi = β 0 + β 1 xi,A + εi
Analog, falls zweite Kovariable nicht dichotom, sondern polytom (nominal) ist, oder wenn
beide Kovariablen nomial (auch dichotom) sind.
Im logistischen Regressionsmodell plottet man nicht Yi , sondern empirische Logits, um Interaktionen zu entdecken.
Beispiel: Babyfood, troutegg
4.5
Überdispersion
Im logistischen Regressionsmodell gilt mit log pi /(1 − pi ) = xTi β
EYi = ni · pi ,
Var Yi = ni pi (1 − pi ) = EYi · (1 −
EYi
)
ni
Somit ist die Varianz Var Yi durch den Erwartungswert EYi bereits bestimmt. Man spricht
nun von Überdispersion (Overdispersion) gegenüber dem logistischen Regressionsmodell, falls
i
die Varianz der Yi größer ist als EYi · (1 − EY
ni ).
Formale Gründe für Überdispersion
a. Korrelation zwischen den binären Responses
Yi =
ni
X
Rij
mit
Rij =
j=1
Es ist
Var Yi =
ni
X
1
0
Var Rij +
j=1
Erfolg
,
Mißerfolg
X
P (Rij = 1) = pi
Cov(Rij , Rik ),
j6=k
Für die erste Summe erhält man ni pi (1 − pi ). Sind die binären Responses Rij korrelliert, so
ist der zweite Summand ungleich 0. Falls etwa Cov(Rij , Rik ) = δ ∀j 6= k, i, dann
Var Yi = ni pi (1 − pi ) + pi (1 − pi )δni (ni − 1)
= ni pi (1 − pi ) · (1 + δ(ni − 1)).
Inhaltlich
Korrelation entsteht durch Klustereffekte, falls Mitglieder einer Gruppe sich nicht unabhängig
verhalten, etwa Mitglieder einer Familie, Firma, oder zeitlicher Verlauf bei einem Patienten
in der Medizin.
b. Variabilität in Erfolgswahrscheinlichkeiten
Hier nimmt man an, dass die Erfolgswahrscheinlichkeiten pi selbst Realisierungen von unbeobachteten Zufallsvariablen sind. Genauer modelliert man Yi |ϑi ∼ B(ni , ϑi ), wobei ϑi (latente,
also nicht beobachtete) Zufallsvariable auf (0, 1) sind mit Eϑi = pi und Var ϑi = φpi (1−pi ) für
70
4 LOGISTISCHE REGRESSION
ein φ > 0 (spezielle Parametrisierung der Varianz, keine Einschränkung). Für die bedingten
Momente erhält man
E(Yi |ϑi ) = ni ϑi ,
Var(Yi |ϑi ) = ni ϑi (1 − ϑi )
Für die unbedingten Momente: EY = Eϑ (E(Y |ϑ)) = Eϑ (n · ϑ) = n · p, sowie
Var Y
= Eϑ (Var(Y |ϑ)) + Varϑ (E(Y |ϑ))
= Eϑ (n · ϑ(1 − ϑ)) + Varϑ (n · ϑ)
= n · (p − φp(1 − p) − p2 ) + n2 φp(1 − p)
= np(1 − p) · (1 + (n − 1)φ)
Man erhält also die gleiche Struktur wie bei konstanter Korrelation.
Ist in der Tat
ni
X
Yi =
Rij ,
Rij |ϑi ∼ B(ϑi ) unabhängig
j=1
so ist Cov(Rij , Rik ) = φ.
[Aufgabe! Benutze
Cov(Rj , Rk ) = Eϑ (Cov(Rj , Rk |ϑ)) + Covϑ (E(Rj |ϑ), E(Rk |ϑ))
]
Wie erkennt man Überdispersion?
Wir untersuchen dieses Problem zunächst für unabhängig, identisch verteilte (u.i.v.) Zufallsvariablen. Dazu seien Y1 , . . . , Yn u.i.v., vermute, dass jedes Yi ∼ B(m, p) (jeweils gleiche Sample
Size).
Dann vergleiche empirische Varianz
S2 =
1 X
(Yj − Ȳ )2
n−1
j
Ȳ
mit Varianz geschätzt über den Erwartungswert in einer Binomialverteilung: S̃ 2 = Ȳ (1 − m
)
2
2
(beachte, dass Ȳ schätzt m · p) durch Quotientenbildung T = (n − 1) S /S̃ . Dies ergibt die
sogenannte Pearsonsche Chi-Quadrat Statistik.
Wir betrachten nun allgemeiner unabhängige 0 ≤ Yi ≤ ni , und wollen die Varianzstruktur
von Yi ∼ B(ni , p) überprüfen. Dazu schätzen wir p durch
1
p̂ = Pn
n
X
i=1 ni i=1
(beachte
Pn
i=1 Yi
Yi
P
∼ B( ni=1 ni , p)) und bilden die Pearsonsche χ2 -Statistik
T =
n
X
(Yj − nj p̂)2
nj p̂(1 − p̂)
j=1
4.5 Überdispersion
71
T ist für festes n und ni → ∞ asymptotisch verteilt nach χ2n−1 . Falls also der p-Wert P =
1 − χ2 (n − 1)(T ) ≤ α, dann liegt mit Niveau α > 0 Überdispersion vor.
Wir betrachten nun wieder das logistische Regressionsmodell, und schätzen β mit MaximumLikelihood. Mit dem ML-Schätzer β̂ M L setze
T
p̂i =
exi β̂M L
T
1 + exi β̂M L
.
Dann vergleiche (Yi − ni p̂i )2 mit ni p̂i (1 − p̂i ) durch Bildung der Pearsonschen χ2 -Statistik
T =
n
X
(Yi − ni p̂i )2
i=1
ni p̂i (1 − p̂i )
,
d
wobei wiederum für festes n und ni → ∞ gilt: T → χ2n−p , wobei p = dim β.
Weiter kann man zeigen, dass eine Varianzstruktur der Form φpi (1−pi ) mit φ > 1 zu größerer
Deviance führt (für ni groß genug). Daher ist große Deviance (mehr als die degrees of freedom)
ein Indiz für Überdispersion.
Bevor man Überdispersion durch Modifikation des Modells mit aufnimmt, sollten andere
mögliche Ursachen für großes T und große Deviance ausgeschlossen werden:
• fehlende Kovariable / Interaktionen
• ni klein
• Ausreißer
• eventuell nichtlineare Effekte
• falsche Linkfunktion
Diese Ursachen sind durch Modelldiagnostik, insbesondere Residuenanalyse, auszuschließen.
Folgen von Überdispersion: Die Standardfehler der ML-Schätzer sind deutlich größer,
werden also bei Nichtbeachtung der Überdispersionsstruktur unterschätzt, wodurch die statistische Inferenz, also Konfidenzintervalle nd Tests, ungültig werden.
Modellierung bzw. Schätzung von Überdispersion
a. Quasilikelihood (s. Kapitel 4).
b. Hinzunahme zufälliger Effekte (s. Kapitel 6).
c. Das Beta-Binomial Modell
Dabei nutzen wir das Entstehen von Überdispersion durch Variabilität in den Erfolgswahrscheinlichkeiten, und wählen als Verteilung der Erfolgswahrscheinlichkeiten eine Beta Verteilung, also ϑi ∼ Beta(ai , bi ), wobei
f (ϑi ) =
1
ϑai −1 (1 − ϑi )bi −1 , ai , bi > 0
B(ai , bi ) i
und
B(a, b) =
Z
1
0
die Beta-Funktion bezeichnet. Somit
Eϑi =
ai
=: pi ,
ai + bi
Var ϑi =
xa−1 (1 − x)b−1 dx
(ai +
ai bi
2
bi ) (ai + bi
+ 1)
= pi (1 − pi )
1
.
ai + bi
Damit die Dichte von ϑi unimodal und am Rand = 0 ist, muss ai , bi > 1 gelten, welches
Var ϑi ≤
pi (1 − pi )
3
impliziert. Parametrisiere nun über (β, φ), wobei
also
log pi /(1 − pi ) = xTi β,
bi =
φ=
(1 − φ)(1 − pi )
,
φ
1
,
ai + bi + 1
ai =
pi =
ai
ai + bi
pi (1 − φ)
.
φ
Schätze (β, φ) als argmax der marginalen Likelihood-Funktion
L(β, φ) =
n Z
Y
1
f (Yi |ϑi )f (ϑi )dϑi
i=1 0
n Z 1
Y
ni Yi
1
ϑi (1 − ϑi )ni −Yi
=
ϑiai −1 (1 − ϑi )bi −1 dϑi
Y
B(a
,
b
)
i
i i
i=1 0
n
Y ni B(Yi + ai , ni − Yi + bi )
=
B(ai , bi )
Yi
i=1
Bemerkung: Die Überdispersionsstrukur in a. und c. unterscheidet sich, da der Faktor in
der Varianz in c. von ni abhängt, in a. dagegen nicht. Es ist je nach Situation zu entscheiden,
welches Modell zu bevorzugen ist.
relevante R Befehle
Die library aod enthält die Funktion betabin zum Anpassen eines
Beta-binomial Modells. Die Syntax ist ähnlich wie bei glm, als abhängige Variable wird die
Matrix (Yi , ni − Yi ) übergeben. Man kann auch den Überdispersionsparameter φ durch eine
Formel bestimmten, also von Kovariablen abhängen lassen. Das obige Modell entsteht durch
random~1. Auf das entstehende Objekt kann die Funktion summary angewendet werden.
73
5
Verallgemeinerte lineare Modelle (GLMs)
Verallgemeinerte lineare Modelle werden genutzt, falls die abhängige Variable Yi nicht normalverteilt ist wie im klassischen linearen Modell mit normalverteilten Fehlern, sondern falls
diese einer anderen parametrischen Familie aus der Klasse der sogenannten Dispersionsexponentialfamilien folgt. In der Praxis ist dies besonders relevant, falls die abhängige Variable
eine Zählvariable oder aber eine dichotome (kategoriell mit zwei Kategorien) Variable ist.
Im ersten Fall kann man ein Poisson Regressionsmodell wählen, im zweiten ein logistisches
Regressionsmodell. Weitere Beispiele sind Regression auf Gamma-verteilte Zufallsvariablen
sowie auf invers-Gauss verteilte Zufallsvariablen.
5.1
Dispersionsexponentialfamilien (DEFs)
Sei µ ein dominierendes, σ-endliches Maß auf R.
Definition 5.1
Eine Familie von Dichten auf R bezüglich µ der Form
y · ϑ − b(ϑ)
+ c(y, ϕ) ,
f (y; ϑ, ϕ) = exp
ϕ
y ∈ R,
mit bekannten Funktionen b(·) und c(·) (ϑ ∈ Θ ⊂ R, ϕ ∈ Φ ⊂ (0, ∞)) heißt Dispersionsexponentialfamilie (DEF).
Bemerkung
Bei der DEF handelt es sich um ein verwandtes, aber nicht identisches Konzept der Exponentialfamilien aus Statistik 1.
Beispiel 5.2
1. Normalverteilung
f (y; µ, σ 2 ) = √
yµ − 1 µ2
(y − µ)2 1
y2
1
2
2
−
−
log(2πσ
)
,
=
exp
exp −
2σ 2
σ2
2σ 2 2
2πσ
2
y
− 21 log(2πϕ) und somit eine DEF
also ϑ = µ, ϕ = σ 2 , b(µ) = 21 µ2 , c(y, ϕ) = − 2ϕ
(dominierendes Maß dµ(x) = dx: Lebesgue-Maß auf R).
2. Binomialverteilung (für festes n)
n y
p
n
n−y
f (y; p, n) =
p (1 − p)
= exp y log(
) + n log(1 − p) + log
.
y
1−p
y
p
), ϕ = 1, b(ϑ) =
Für festes n also Dispersionsexponentialfamilie mit ϑ = log( 1−p
−n log(1 − p) = n log(1 + eϑ ), c(y) = log ny (bezüglich µ: Zählmaß auf {0, 1, . . . , n}).
3. Poisson-Verteilung
Für λ > 0
f (y; λ) = e−λ
λy
= exp(y log λ − λ − log y!)
y!
also mit ϑ = log λ, ϕ = 1, b(ϑ) = eϑ , c(y) = log y! Dispersionsexponentialfamilie
bezüglich Zählmaß auf N0 .
74
5
VERALLGEMEINERTE LINEARE MODELLE (GLMS)
4. Gamma-Verteilung
Für r, λ > 0: Dichte bezüglich Lebesgue-Maß µ auf (0, ∞), also für y > 0
1 r r−1 −λy
λ y e
Γ(r)
λ
λ = exp r − y + log( ) + r log r − log Γ(r) + (r − 1) log y ,
r
r
f (y; r, λ) =
mit ϑ = − λr , ϕ = r−1 , b(ϑ) = − log(−ϑ), c(y, ϕ) = −ϕ−1 log ϕ − log Γ(ϕ−1 ) + (ϕ−1 −
1) log y.
5. Inverse Gauß-Verteilung
Dichte bezüglich Lebesgue-Maß µ auf (0, ∞), also für y > 0
σ 2 (y − µ)2 σ
p
exp −
2µ2 y
2πy 3
2 σ2 σ2
1
3
1
+ log σ − log(2π) − log y ,
= exp (− 2 y + ) −
µ
µ 2
2y
2
2
√
ϑ = − µ12 , ϕ = σ22 , b(ϑ) = −2 −ϑ, c ergibt sich, für y, µ, σ > 0.
f (y, µ, σ) =
Log-Likelihood für DEFs
l(y; ϑ, ϕ) = log f (y; ϑ, ϕ) =
yϑ − b(ϑ)
− c(y, ϕ)
ϕ
Annahmen
A
d
dϑ
Z
∂2
∂2ϑ
Z
f (y; ϑ, ϕ)dy =
Z
d
f (y; ϑ, ϕ)dy
dϑ
f (y; ϑ, ϕ)dy =
Z
∂2
f (y; ϑ, ϕ)dy
∂2ϑ
∀ϑ, ϕ
B
Lemma 5.3
Sei Y ∼ f (y; ϑ, ϕ) verteilt nach DEF. Dann
a. Unter Annahme A:
Eϑ
∂l
(Y ; ϑ, ϕ) = 0.
∂ϑ
b. Unter den Annahmen A und B:
Eϑ
i
h ∂l
∂2l
2
(Y
;
ϑ,
ϕ)
=
−E
)
(Y
;
ϑ,
ϕ)
.
(
ϑ
∂2ϑ
∂ϑ
∀ϑ, ϕ
5.1 Dispersionsexponentialfamilien (DEFs)
Beweis
∂l
=
Zu a. ∂ϑ
∂f
∂ϑ
· f1 , somit
∂l
Eϑ (Y ; ϑ, ϕ) =
∂ϑ
Zu b.
Z
75
∂f
A ∂
(y; ϑ, ϕ)dy =
∂ϑ
∂ϑ
Benutze
∂ ∂f 1
∂2l
=
(
· )=
2
∂ ϑ
∂ϑ ∂ϑ f
∂2f
∂2ϑ
Z
f (y; ϑ, ϕ)dy = 0
|
{z
}
=1 also konstant
∂f 2
)
· f − ( ∂ϑ
2
f
2
und Eϑ ∂∂ 2 ϑf (Y ; ϑ, ϕ) = 0 nach Annahme B.
Bemerkung. Lemma 5.3 gilt stets für differenzierbare parametrische Familien, die die Annahmen A und B erfüllen. (Also nicht nur für DEFs.)
Lemma 5.4
Angenommen, für die DEF f (y, ϑ, ϕ) gelten die Annahmen A und B. Dann ist für Y ∼
f (y, ϑ, ϕ):
a. Eϑ (Y ) = b′ (ϑ) =: µ(ϑ),
b. Varϑ Y = ϕ · b′′ (ϑ).
Beweis
a. Benutze
∂l
Y − b′ (ϑ)
(Y ; ϑ, ϕ) =
∂ϑ
ϕ
Bilde Eϑ (·) und verwende Lemma 5.3.
b. Es gilt
b′′ (ϑ)
∂2l
=
−
∂2ϑ
ϕ
Mit Lemma 5.3 folgt dann
∂l
Eϑ Y 2 − 2b′ (ϑ)Eϑ Y + (b′ (ϑ))2
∂2l
b′′ (ϑ)
= −Eϑ 2 (Y ; ϑ, ϕ) = Eϑ (( )2 ) =
.
ϕ
∂ ϑ
∂ϑ
ϕ2
Somit:
2
ϕb′′ (ϑ) = Eϑ Y 2 − b′ (ϑ) = Varϑ Y.
Beispiel (Fortsetzung von 5.2)
a. Normalverteilung b′ (ϑ) = ϑ (ϑ = µ); b′′ (ϑ) = 1, somit Varϑ Y = ϕ
b. Binomialverteilung
b′ (ϑ) = n ·
eϑ
= np,
1 + eϑ
b′′ (ϑ) = n
eϑ
= np(1 − p).
(1 + eϑ )2
76
5
VERALLGEMEINERTE LINEARE MODELLE (GLMS)
c. Poisson-Verteilung
b′ (ϑ) = eϑ = λ,
b′′ (ϑ) = eϑ = λ.
d. Gamma-Verteilung
b′ (ϑ) = −
r
1
= ,
ϑ
λ
b′′ (ϑ) =
1
r2
=
ϑ2
λ2
e. Inverse Gauß-Verteilung
b′ (ϑ) = √
Also Var Y =
5.2
1
= µ,
−ϑ
3
1
µ3
b′′ (ϑ) = (−ϑ)− 2 =
2
2
µ3
.
σ2
Komponenten eines GLMs
a. Zufallskomponente Y , Verteilung aus Dispersionsexponentialfamilie
Eϑ Y = µ(ϑ) = b′ (ϑ).
b. Systematische Komponente
Linearer Prädiktor η = xT β, wobei x ∈ Rp Kovariablen, β ∈ Rp unbekannter Parameter
c. Linkfunktion η = g(µ), g : I → R streng monoton wachsend. Die Linkfunktion g wird
als bekannt vorausgesetzt. Setzte weiter u = (g ◦ µ)−1 , so dass ϑ = u(η).
Im Folgenden sei stets (Yi , xi )i=1,...,n unabhängige Stichprobe aus GLM. Der Kovariablenvektor x ist geeignet kodiert nach Abschnitt 2.1.2, und entält insbesondere den Achsenabschnitt.
Wir nehmen stets an, dass die Designmatrix X = (x1 , . . . , xn )T ∈ Rn×p vollen Rang habe.
Definition 5.5 (kanonische Linkfunktion)
Gilt g(µ) = ϑ, also g = (b′ )−1 = µ−1 bzw. u = id, so heisst g kanonische Linkfunktion. Dann
ist ϑ = Xβ.
Beispiel 5.6 (Beispiele für Linkfunktionen)
a. Normalverteilung
Die kanonische Linkfunktion ist g(µ) = µ, darüber hinaus gibt es weitere Linkfunktionen, etwa die Box-Cox-Transformationen
( λ
µ −1
λ , λ 6= 0,
gλ (µ) =
log µ, λ = 0.
b. Binomialverteilung
Die kanonische
Linkfunktion ist die logistische Linkfunktion g(µ) = log (µ/n)/(1 −
µ/n) . Weitere Linkfunktionen: Probit-Link, Log-log Link.
c. Poisson-Verteilung
1
kanonische Linkfunktion g(µ) = log µ, darüber hinaus g(µ) = µ, g(µ) = µ 2
5.3 Maximum Likelihood Schätzung und Testen in GLMs
77
d. Gamma-Verteilung kanonische Linkfunktion g(µ) = − µ1 , darüber hinaus g(µ) = log(µ),
g(µ) = µ.
e. Inverse Gauß-Verteilung kanonische Linkfunktion g(µ) = − µ12 .
Einschub über suffiziente Statistiken (vgl. Statistik 1)
Sei Z = (Z1 , . . . , Zn ) Zufallsvektor mit Dichte f (z, k), z ∈ Rn , k Parameter. Dann heißt eine
Statistik suffizient für k, falls eine Version des bedingten Erwartungswertes E(Z|T (Z) = t)
existiert, die unabhängig von k ist.
Faktorisierungslemma
T (Z) ist suffizient für k genau dann, wenn
f (z, k) = L(T (z), k) · H(z).
Satz 5.7
Für (Yi , xi )i=1,...,n aus GLM mit kanonischer Linkfunktion ist
T
T (Y) = T1 (Y), . . . , Tp (Y) ,
Tj (Y) =
n
X
xij Yi ,
i=1
suffizient für β (die Kovariablen xi sind dabei fest, nicht zufällig).
Beweis
Die gemeinsame Dichte von (Y1 , . . . , Yn ) ist
n
X
yi ϑi − b(ϑi )
f (y1 , . . . , yn , β) = exp
+ c(yi , ϕ)
ϕ
i=1
P
n
n y xT β − b(xT β) X
i
i=1 i i
· exp
c(yi , ϕ)
= exp
ϕ
i=1
= L(T (y), β) · H(y),
wobei im vorletzten Schritt ausgenutzt wurde, dass für die kanonische Linkfunktion ϑi = xTi β
ist.
5.3
Maximum Likelihood Schätzung und Testen in GLMs
In diesem Abschnitt betrachten wir die Schätzung des Parameter Vektors β durch Maximum
Likelihood, sowie das Schätzen des Parameters ϕ und die Konstruktion von Hypothesentests.
Gegeben seien (Yi , xi )i=1,...,n unabhängig aus GLM, also Yi ∼DEF(ϑi , ϕ), Eϑi (Yi ) = µ(ϑi ) =
b′ (ϑi ), ηi = xTi β, ηi = g(µ(ϑi )). Wir setzten wieder u = (g ◦ µ)−1 , so dass ϑi = u(xTi β). Bei
Wahl der kanonischen Linkfunktion gilt g = µ−1 , also u = id.
Log-Likelihood-Funktion
n
X
Yi u(xTi β) − b u(xTi β)
Ln (β, ϕ) =
− C,
ϕ
i=1
78
5
VERALLGEMEINERTE LINEARE MODELLE (GLMS)
C ist nicht abhängig von dem Parameter β.
Score-Vektor
sn (β, ϕ) =
n
X
u′ (xTi β)
∂
Ln (β, ϕ) =
xi yi − b′ (u(xTi β))
∂β
ϕ
(∈ Rp ),
i=1
Fisher-Information
Fn (β, ϕ) = Cov sn (β, ϕ) =
n
X
(u′ (xT β))2
i
ϕ
i=1
(b′′ Varianzfunktion der DEF)
xi xTi b′′ u(xTi β) ,
Hessische Matrix
Hn (β, ϕ) =
=
∂ ∂
Ln (β, ϕ)
∂β ∂β T
n
X
u′′ (xT β) · xi xT i
i
i=1
ϕ
Yi − b
′
(u(xTi β))
= Rn (β, ϕ) − Fn (β, ϕ)
−
n
X
u′ (xT β)xi xT i
i
ϕ
i=1
b′′ u(xTi β) · u′ (xTi β) .
Maximum Likelihood Schätzer
(Θ ⊂ Rp konvex)
β̂ M L,n = argmaxβ∈Θ Ln (β, ϕ)
Beachte: β̂ M L,n hängt nicht vom Dispersionsparameter ϕ ab (dies ergibt sich direkt aus der
Form von Ln (β, ϕ)).
Lemma 5.8
Es ist EHn (β, ϕ) = −Fn (β, ϕ). Bei Verwendung der kanonischen Linkfunktion, also für u =
id, gilt sogar Hn (β, ϕ) = −Fn (β, ϕ). (die zweite Ableitung hängt dann nicht von Daten Yi
ab.)
Im Folgenden wollen wir uns mit Existenz, Eindeutigkeit und asymptotischer Verteilung von
β̂ M L,n bei Verwendung der kanonischen Linkfunktion beschäftigen. Wir schreiben in Beweisen
stets Ln (β) statt Ln (β, ϕ) etc., da der ML-Schätzer für β nicht von ϕ abhängt (allerdings
hängt seine asymptotische Verteilung von ϕ ab).
Sei also stets g = µ−1 bzw. u = id. Dann:
Ln (β, ϕ) =
sn (β, ϕ) =
n
X
Yi xT β − b(xT β)
i
i
i=1
ϕ
n
X
Yi xi − b′ (xT β)xi
i
i=1
ϕ
Fn (β, ϕ) = −Hn (β, ϕ) =
− c,
=
n
X
xi
i=1
n
X
b′′ (xT β)
i
i=1
ϕ
ϕ
Yi − b′ (xTi β) ,
xi xTi .
5.3 Maximum Likelihood Schätzung und Testen in GLMs
79
Annahme 1
Für positiv definite Grenzmatrizen Σ(β) (β ∈ Θ) gilt gleichmäßig in β:
1
Σ(β)
Fn (β, ϕ) →
.
n
ϕ
Satz 5.9
In einem GLM mit kanonischer Linkfunktion und konvexem Parameterraum Θ existiert höchstens ein MLE β̂ M L,n . Unter Annahme 1 ist β̂ M L,n stark konsistent,
β̂ M L,n → β 0
f.s.
Beweis
Es ist Hn (β) = −Fn (β) und Fn (β) ist positiv definit, also Hn (β) negativ definit. Somit ist
Ln (·) konkav auf der konvexen Menge Θ, hat also höchstens ein lokales Maximum, insbesondere höchstens ein Maximum.
Wir zeigen jetzt: Für fast alle ω ∈ Ω (zugrundeliegender Wahrscheinlichkeitsraum) gilt:
∀ε > 0 ∃n1 = n1 (ω) : Ln (β)(ω) − L(β 0 )(ω) < 0
für kβ − β 0 k < ε, n ≥ n1 .
(37)
(37) impliziert, dass in Bε (β 0 ) = {β : kβ − β 0 k < ε} ein lokales, also das globale Maximum
liegt. Bilde den Schnitt über rationale ε > 0 und erhalte dann für f.a. ω ∈ Ω:
∀ε > 0∃n1 = n1 (ω, ε) : β̂ M L,n ∈ Bε (β 0 ), n ≥ n1 ,
also die starke Konsistenz.
Zu (37): Betrachte die Taylor-Entwicklung
1
Ln (β) − Ln (β 0 ) = ε · sn (β 0 )λ + ε2 λT Fn (β ξ )λ,
2
λ=
β − β0
ε
Für kβ − β 0 k = ε gilt λT λ = 1. Es genügt also zu zeigen: Für f.a. ω ∃n1 = n1 (ω), so dass
T
ε λ Fn (β ξ )λ
sn (β 0 )(ω) · λ
<
n
2
n
Nach starkem Gesetz gilt
sn (β0 )
n
∀n ≥ n1 .
(38)
→ 0 f.s., und da kλk = 1, gilt auch
sn (β 0 )
λ → 0 f.s., gleichmäßig in λ.
n
λT Fn (βξ )λ
n
Wegen Annahme 1 ist darüber hinaus
beschränkt. Dies zeigt (37) und somit (38).
für n ≥ n1 gleichmäßig in λ von 0 weg
Bemerkung
Für Existenz und Eindeutigkeit des ML Schätzers bei Wahl einer nicht kanonischen Linkfunktion siehe Wedderburn (1976, Biometrika).
80
5
VERALLGEMEINERTE LINEARE MODELLE (GLMS)
Satz 5.10
Unter den Voraussetzungen von Satz 5.9 gilt:
√
d
n(β̂ M L,n − β 0 ) → N (0, ϕ · [Σ(β 0 )]−1 )
bzw.
1
(39)
d
[Fn (β̂ M L,n , ϕ)] 2 (β̂ M L,n − β 0 ) → N (0, I)
(40)
Bemerkung
Obwohl der ML-Schätzer β̂ M L,n nicht von dem Dispersionsparameter ϕ abhängt, hängt seine
asymptotische Verteilung davon ab, also muss zur Berechnung von Standardfehlern von β̂ M L,n
auch der Parameter ϕ geschätzt werden. (s.u.)
Lemma 5.11
Unter den Voraussetzungen von Satz 5.9 gilt:
1
d
[Fn (β 0 , ϕ)]− 2 sn (β 0 , ϕ) → N (0, I),
(41)
Σ(β ) 1
d
0
√ sn (β 0 , ϕ) → N 0,
.
ϕ
n
(42)
bzw.
Beweis
Offenbar folgt (41) aus (42) und Annahme 1.
Zum Beweis von (42) verwenden wir das Lemma von Cramer-Wold, sowie den Stetigkeitssatz für momentenerzeugende Funktionen (dieser besagt, dass schwache Konvergenz aus der
punktweisen Konvergenz der momentenerzeugenden Funktionen folgt) und zeigen:
∀λ ∈ Rp , λT λ = 1, sowie t ∈ R gilt
− 1
t2
Eβ0 exp tλT Fn (β 0 , ϕ) 2 sn (β 0 , ϕ) → exp( ).
2
(43)
(Also: die momentenerzeugende Funktion konvergiert gegen diejenige einer Standardnormalverteilung.)
Dazu: Fixiere t ∈ R, λ ∈ Rp , λT λ = 1, setze Fn = Fn (β 0 ), sn = sn (β 0 ).
− 12
β n = β 0 + tλT Fn
(nicht zufällig).
1
Offenbar ist β n − β 0 = O(n− 2 ) nach Annahme 1.
Betrachte die Taylor-Entwicklung
Ln (β n ) = L(β 0 ) + (β n − β 0 ) · sn
Hn =−Fn
−
1
(β − β 0 )T Fn (β̃ n )(β n − β 0 ),
2 n
− 12
wobei β̃ n (eine Zufallsvariable) zwischen β n und β 0 . Mit β n − β 0 = tλT Fn
exp(λT Vn (β̃ n )λ
t2
−1
)Ln (β n ) = exp(tλT Fn 2 sn )Ln (β 0 ),
2
erhalte
(44)
5.3 Maximum Likelihood Schätzung und Testen in GLMs
81
−1
−1
wobei Vn (β̃ n ) = Fn 2 Fn (β̃ n )Fn 2 , und Ln = exp(Ln ) bezeichne die Likelihood.
Integriere (44) bezüglich des dominierenden Maßes für die Likelihoodfunktion über die yi .
Dann ergibt sich
t2
−1
Eβn (exp(λT Vn (β̃ n )λ )) = Eβ0 (exp(tλT Fn 2 sn ))
(45)
2
Beachte dabei: Wegen Annahme 1 und da die Zufallsvariable β̃ n zwischen β n und β 0 liegt,
gilt |Vn (β̃ n ) − I| → 0, gleichmäßig für alle ω ∈ Ω. Daher existiert die linke Seite in (45) und
es ist
t2
t2
| exp(λT Vn (β̃ n )λ ) − exp( )| ≤ ε,
n ≥ n1 ,
2
2
gleichmäßig für alle ω ∈ Ω, also der Index n1 nicht zufällig. Setzte dies in (45) ein und erhalte
(44), also die Behauptung.
Beweis (von Satz 5.10)
Nach dem Mittelwertsatz für vektorwertige Funktionen gilt mit
Z 1
Fn (β̂ M L,n + t(β 0 − β̂ M L,n ), ϕ)dt
Gn =
0
(die Integration wird komponentenweise ausgeführt)
sn (β 0 ) = sn (β̂ M L,n )T −Gn (β 0 − β̂ M L,n ).
{z
}
|
=0
Nach Annahme 1 gilt Gn /n → Σ(β 0 )/n. Somit
√
n(β̂ M L,n − β 0 ) =
Die Behauptung folgt nun mit Lemma 44.
G −1 s (β )
n
n
√ 0 .
n
n
Schätzen von ϕ
Falls in der DEF der Parameter φ mehrere Werte annehmen kann (etwa bei Gamma - oder
Inverser Gauß-Verteilung), muss dieser auch geschätzt werden. Es gilt
Var Yi = ϕb′′ (ϑi ), ϑ̂i = u(xTi β̂ M L,n )
Somit benutzt man zur Schätzung
n
ϕ̂ =
1 X (Yi − b′ (ϑ̂i ))2
n−p
b′′ (ϑ̂i )
i=1
Man nennt die Statistik
T =
n
X
(Yi − b′ (ϑ̂i ))2
i=1
auch Pearsonsche χ2 -Statistik.
b′′ (ϑ̂i )
Testen linearer Hypothesen
Angenommen, wir wollen die lineare Hypothese H : Aβ = m mit A ∈ Rq×p (voller Rang),
m ∈ Rq testen.
82
5
VERALLGEMEINERTE LINEARE MODELLE (GLMS)
1. Likelihood Quotienten Statistik
lq = 2(Ln (β̂ M L,n , ϕ̂) − Ln (β̂ M L,R , ϕ̂)),
wobei β̂ M L,R der ML-Schätzer unter der Hypothese H ist.
2. Wald Statistik
W = (Aβ̂ M L,n − m)T (AF −1 (β̂ M L,n , ϕ̂)AT )−1 (Aβ̂ M L,n − m)
3. Score Statistik
Sc = sT (β̂ M L,R )F −1 (β̂ M L,R , ϕ̂)s(β̂ M L,R )
Satz 5.12
Unter den Annahmen von Satz 5.9 und für konsistentes ϕ̂ sind die Teststatistiken lq, W und
Sc unter H asymptotisch χ2p−q verteilt.
Der Beweis erfolgt mit Hilfe von Satz 5.10 und Lemma 5.11, in Analogie zum Fall für u.i.v.
Daten, vgl. Pruscha (1989).
Numerische Berechnung des ML Schätzers β̂ M L,n
Wir betrachten nun wieder den Fall allgemeiner (nicht unbedingt kanonischer) Linkfunktionen. Der ML Schätzer β̂ M L,n wird berechnet als Nullstelle des Score-Vektors:
sn (β̂ M L,n ) = 0
Beachte, dass diese Gleichung ebenfalls nicht von ϕ abhängt.
Newton-Verfahren
Sei β k eine Näherung an β̂ M L,n . Dann setzte
β k+1 = β k − (Hn (β k ))−1 sn (β k )
(ϕ fällt wieder heraus!), und erhalte β k+1 als neue Näherung.
Im Allgemeinen hängt die Hessische Matrix Hn von den Daten Yi ab, daher benutzt man
häufig den Erwartungswert EHn = −Fn . Dies ergibt die Fisher-Scoring Methode.
Fisher-Scoring-Methode
β k+1 = β k + (Fn (β k ))−1 sn (β k )
(46)
Beachte: Bei kanonischer Linkfunktion sind Newton-Verfahren und Fisher-Scoring Methode
identisch.
Man kann (46) auch umschreiben in Form eines (iterativen) gewichteten kleinste Quadrate
Schätzers. Es ist
n
X
(u′ (xTi β))2
xi xTi b′′ (u(xTi β))
F (β, ϕ) =
ϕ
i=1
5.4 Modelldiagnostik
83
Mit u = (g ◦ µ)−1 , (g ◦ µ)′ = g ′ ◦ µ · µ′ , µ′ = b′′ (da µ = b′ ) und µ ◦ u = g folgt
u′ =
g′
1
,
◦ µ ◦ u · b′′ ◦ u
also
Fn (β k , ϕ) =
n
X
u′ (xTi β k )
x xT = X T Wk X,
′ (g(xT β )) i i
g
i k
i=1
u′ (xT β )
u′ (xTn β k ) 1 k
.
Wk = diag ′
,
.
.
.
,
g ′ (g(xTn β k ))
g (g(xT1 β k ))
Analog erhält man
n
X
u′ (xTi β k )
′
T
x
·
Y
−
b
(u(x
β
))
· g ′ (g(xTi β k )) = X T Wk Z.
sn (β k , ϕ) =
i
i
i k
′ (g(xT β ))
g
i k
|
{z
}
i=1
=:Zi
Somit schreibe (46) als
X T Wk Xβ k+1 = X T Wk Xβ k + X T Wk Z = X T Wk (Xβ k + Z)
{z
}
|
=:V
und
β k+1 = (X T W X)−1 X T Wk V.
Analogie zu gewichteten kleinsten Quadraten: Response V, Kovariablen X, Gewichte Wk . Da
die Gewichte (und auch die responses) vom Iterationsschritt k abhängen, spricht man vom
IWLS-Algorithmus (iterated weighted least squares).
relevante R Befehle
Die Funktion glm passt verallgemeinerte lineare Modelle an. Dabei
wird die DEF über family eingestellt, dort kann auch noch die Linkfunktion geändert werden.
Die Standardfehler der Schätzer erhält man mit dem Befehl summary.
5.4
Modelldiagnostik
Deviance.
Die Deviance dient zum Vergleich des angepassten Modells mit dem sogenannten saturierten Modell, bei dem für jede Beobachtung Yi ein Parameter geschätzt wird,
insgesamt also n Parameter.
Log-Likelihood:
Ln (ϑ1 , . . . , ϑn , ϕ) =
n X
Yi ϑi − b(ϑi )
i=1
ϕ
− c(Yi , ϕ)
Falls jedes ϑi freier Parameter ist, erhält man im saturierten Modell
Yi = b′ (ϑ̃i ) = µ̃i und ϑ̃i = µ−1 (Yi ).
Setze für das geschätzte GLM ϑ̂i = u(xTi β̂ M L ). Dann ist die LR-Statistik gegen das saturierte
Modell (ϑ̃ = (ϑ̃1 , . . . , ϑ̃n ), ϑ̂ = (ϑ̂1 , . . . , ϑ̂n )):
n
X
Dev(ϑ̃, ϑ̂)
Yi (ϑ̃i − ϑ̂i ) − b(ϑ̃i ) + b(ϑ̂i )
=
2 Ln (ϑ̃, ϕ) − Ln (ϑ̂, ϕ) = 2
ϕ
ϕ
i=1
84
5
VERALLGEMEINERTE LINEARE MODELLE (GLMS)
Die Deviance ist nun definiert durch
Dev = 2
n
X
i=1
Yi (ϑ̃i − ϑ̂i ) − b(ϑ̃i ) + b(ϑ̂i ) ,
die Deviance ist nach Definition unabhängig von ϕ.
Häufig approximiert man die Verteilung von Dev(ϑ̃, ϑ̂) durch ϕ · χ2n−p , wobei p die Dimension
des geschätzten Parameters β bezeichnet. Wie aber bereits aus der logistischen Regresion
bekannt, gilt dies nur eingeschränkt, insbesondere nicht für n → ∞.
Die Deviance kann auch benutzt werden zum Vergleich zweier ineinander geschachtelter Modelle. Der resultierende Test heißt auch partial deviance test.
Modelle
M1 : Kovariable xi,1 ∈ Rq (kleines Modell)
M2 : Kovariable (xTi,1 , xTi,2 )T ∈ Rp (großes Modell)
Dann gilt
d
M2
2
1
Dev(ϑ̃, ϑ̂M
M L ) − Dev(ϑ̃, ϑ̂M L ) → ϕχp−q
(n → ∞)
falls das kleinere Teilmodell M1 korrekt ist. Der partia Deviance test ist also einfach der LQT
von M2 gegen M1 . Falls ϕ nicht bekannt ist, wird dies geschätzt und die Statistik reskaliert.
relevante R Befehle Der partial deviance test kann mit anova ausgeführt werden.
Residuenanalyse
Wie bei der linearen Regression ist ein wichtiges Mittel zur Modellüberprüfung bei GLMs die
Residuenanalyse. Ziele sind dabei insbesondere das Erkennen a. von Ausreißern b. von nichtlinearen Effekten und fehlenden Kovariablen sowie c. die Konstruktion von Goodness-of-Fit
Statistiken.
Residuen sollen bei Gültigkeit des Modells approximativ normalverteilt sein. Bei GLMs bedeutet dies, dass bei der Verwendung von Residuen mit besonderer Sorgfalt vorgegangen
werden muss.
Wir betrachten zur Illustration im Folgenden nochmals das logistische Regressionsmodell (hier
mit LogistR bezeichnet. Hier ist Residuenanalyse nur sinnvoll für große Wiederholungszahlen
ni .
Setzte
T
′
µ̂i = b (ϑ̂i ) = b
′
(u(xTi β̂ M L,n )),
bei LogistR
µ̂i = ni p̂i ,
p̂i =
exi β̂M L,n
T
1 + exi β̂M L,n
.
Rohe Residuen (Raw residuals)
ri = Yi − µ̂i
bei LogistR
ri = Yi − ni p̂i .
Diese sind ungeeignet für Residuenanalyse (außer im linearen Regressionsmodell), da die
Varianz von Yi und somit von ri von µi abhängt. Somit haben die ri keine approximativ
konstante Varianz.
5.4 Modelldiagnostik
85
Pearsonsche Resduen
Yi − µ̂i
riP = q
,
T
′′
b (u(xi β̂ M L,n ))
riP =
bei LogistR
Yi − ni p̂i
1
(ni p̂i (1 − p̂i )) 2
.
Diese sind grundsätzlich geeignet für die Residuenanalyse. Allerdings sind sie häufig finit nicht
gut approximativ normalverteilt, sonder schief verteilt. (Etwa für LogistR: Nur benutzen für
große ni , insbesondere nicht benutzbar für ni = 1.)
Transformierte Residuen
riT =
T (Yi ) − Eϑ̂i T (Yi )
1
(Varϑ̂i T (Yi )) 2
,
wobei T eine geeignete Transformation bezeichnet.
Falls die asymptotische Schiefe korrigiert werden soll, wird die sogenannte Anscombe Transformation verwendet, welches zu Anscombe Residuen führt.
Falls die asymptotische Varianz konstant gemacht werden soll (d.h. unabhängig von ϑ), wähle
T als varianz-stabilisierende Transformation und erhalte varianz-stabilisierende Residuen.
Die Transformation T muss also in Abhängigkeit der speziellen DEF gewählt werden.
Für LogistR
Varianz-stabilisierende Residuen:
p
√
(arcsin( Yi /ni ) − arcsin(p̂i )) · 2 ni ,
hier ist T die Arcsin-Transformation.
Anscombe:
T ( nYii ) − T (p̂i ) √
1
6
ni ,
T (z) =
(p̂i (1 − p̂i ))
Für T sind numerische Aprooximationen verfügbar.
Z
0
z
1
(t(1 − t))− 3 dt.
Deviance-Residuum:
wobei
1
riD = sign(ϑ̃i − ϑ̂i ) · 2 Yi (ϑ̃i − ϑ̂i ) − b(ϑ̃i ) + b(ϑ̂i ) Big) 2

 1, x > 0
0, x = 0
sign(x) =

−1, x < 0
Die Deviance Residuen sind also Wurzeln aus Beitrag der i-ten Beobachtung zur Deviance.
Für LogistR: µ̂i = ni p̂i , dann
ni − Yi 12
riD = sign(Yi /ni − p̂i ) 2(Yi log(Yi /µ̂i ) + (ni − Yi ) log
.
)
ni − µ̂i
Im Allgemeinen wird die Benutzung der Deviance Residune empfohlen, die ähnliche Eigenschaften zu den Anscombe Residuen haben (vgl Pierce and Schafer 1986, Journal of the
American Statistical Society Vol. 81).
relevante R Befehle Mit dem Befehl residuals können die Residuen aus einem von glm erzeugten Objekt gelesen werden. Möglich sind die Optionen type="deviance" und
type="pearson".
86
5.5
5
VERALLGEMEINERTE LINEARE MODELLE (GLMS)
Poisson-Regression
Falls die Zielvariable Yi eine Zählvariable ist, also Werte in N0 hat, ist das Standard Regressionsmodell die Poisson-Regression. Ein typisches Beispiel ist die Modellierung der Anzahl von
Verischerungsschäden von Versicherungsnehmern mit bestimmten Kovariablen Ausprägungen.
Modell
µi = λi
(Yi , xi )i=1,...,n , Yi ∼ Poi(λi ) Dispersionsexponentialfamilie mit b(ϑi ) = exp(ϑi ) =
Für die Linkfunktion g gilt g(µi ) = xTi β, also g(eϑi ) = xTi β. Mit u = (g ◦ exp)−1 gilt
ϑi = u(xTi β) und u = id falls g = log, die kanonische Linkfunktion.
Setze λi = λi (β) = exp(u(xTi β)).
Y
Q
λ i
Likelihood: Ln (β) = ni=1 e−λi Yii ! .
P
Log-Likelihood: Ln (β) = ni=1 (−λi + Yi log λi ) + const.
P
Score: sn (β) = ni=1 u′ (xTi β) · xi (Yi − λi ).
P
Fisher-Information: Fn (β) = ni=1 (u′ (xTi β))2 xi xTi · λi .
Deviance: Im saturierten Modell schätze λi durch Yi . Setze weiter λ̂i = λi (β̂ M L,n ), β̂ M L,n
Maximum-Likelihood-Schätzer. Dann
Dev = 2
n X
i=1
Pearsonsche χ2 -Statistik. T =
Pn
i=1
Yi log(Yi /λ̂i ) − Yi + λ̂i
(Yi −λ̂i )2
.
λ̂i
In der Tat gilt im Poisson-Regressionsmodell
Var Yi = λi , also deutet großer Wert von T bzw. von D auf Überdispersion hin.
Residuen
Pearson Residuen:
p
riP = (Yi − λ̂i )/ λ̂i .
1
1
Varianzstabilisierende Residuen: riT = 2 Yi 2 − λ̂i2 .
2
2
1
Anscombe Residuen: riT = Yi 3 − λ̂i3 λ̂i6 · 32 .
Deviance-Residuum:
1
riD = sign(Yi − λ̂i )(Yi log Yi − (Yi − λ̂i )) 2 .
λ̂i
relevante R Befehle
In glm die Option family = poisson wählen. Als Linkfunktion kann
man neben dem Log-Link (default) wählen link="identity" oder link="sqrt".
Modellerweiterung
Das Poisson Regressionsmodell kann erweitert werden auf den Fall, wenn die Anzahl der Ereignisse bei bestimmten Kovariablenausprägungen in unterschiedlichen Zeiträumen beobachtet
wird. Sei also Yi die Anzahl der Ereignisse bei Kovariablen xi im Zeitraum ti , es werden also
(Yi , xi , ti ) beobachtet. Als Beispiel sei Yi die Anzahl der Schäden eines Versicherungsnehmers
mit Charakteristiken xi im Zeitraum ti . Das Modell lautet dann
Yi ∼ Poi ti · exp(u(xTi β)) ,
5.5 Poisson-Regression
87
der Parameter λi = EYi , ist also proportional zum Zeitraum ti . Somit hat man
λi = log(ti ) + u(xTi β).
(47)
Der additive Term log ti heißt dann offset im Modell. Maximum-Likelihood Schätzugn und
Residuenanalyse erfolgen ganz analog zum gewöhnlichen Poisson Regressionsmodell, man
muss nur λi durch (47) spezifizieren.
relevante R Befehle
Man setzt als Option in glm für offset gleich log(ti ).
Modellierung von Überdispersion
Man spricht von Überdispersion gegenüber dem Poisson-GLM, falls
Var Yi > EYi .
Dies kann erkannt werden durch große Deviance oder Pearsonsche χ2 -Statistik, falls also Dev
oder T erheblich größer als n − p sind.
Eine Modellierung kann wie bei der logistischen Regression über Quasilikelihood oder auch
über latente Variablen erfolgen.
Wir stellen im Folgenden ein latentes Variablenmodell mit Gamma-verteilten λs vor, welches
zum negativ binomial verteilten Regressionsmodell führt.
Sei Zi eine latente (nicht beobachtete) Variable, so dass Yi |Zi ∼ Poi(Zi ), EZi = λi . Dann
gilt:
EYi = EZ (E(Yi |Zi )) = EZ (Zi ) = λi ,
Var Yi = VarZ (E(Yi |Zi )) + EZi (Var(Yi |Zi ))
= VarZ (Zi ) + EZ (Zi ) = λi + Var Zi > λi ,
falls Var Zi > 0. Durch spezielle Wahl von Zi bekommt man unterschiedliche Überdispersionsstrukturen.
Sei nun speziell Zi Gamma-verteilt mit Dichte
f (z; r, s) =
Dann EZi =
ri
si
1 r r−1
s z
exp(−zs)
Γ(r)
(r, s > 0, z > 0).
= λi . Für die Varianz kann man zwei Parametrisierungen wählen:
Modell 1: Var Zi =
ri
s2i
= λ2i · ϕ, also ϕ =
Modell 2: Var Zi = λi · ϕ, ϕ =
1
ri .
1
si .
Dies ergibt in der Tat zwei unterschiedliche Modelle, da auf λi (β) = exp u(xTi β) Regression
gemacht wird, aber auf ϕ nicht.
Das Modell 1 mit Var Zi = λ2i ϕ (ϕ = r1i ) führt zu
Var Yi = λi + λ2i ϕ,
die Varianz ist also eine quadratische Funktion des Erwartungswerts.
88
5
VERALLGEMEINERTE LINEARE MODELLE (GLMS)
Das Modell 2 mit Var Zi = λi ϕ (ϕ =
1
si )
führt dagegen zu
Var Yi = λi (1 + ϕ)
dies ist dieselbe Varianzstruktur wie bei Quasipoisson (s. Abschnitt 5.7).
Man verwendet daher in diesem Kontext Modell 1 (statt Modell 2 wird Quasipoisson gewählt).
Zum Schätzen der Parameter berechnet man die marginale, also unbedingte Verteilung von
Yi :
Z ∞
f (y, Y |Z = z) · fZ (z)dz
P (Y = y) =
0
Z ∞
z y 1 r r−1
e−z
=
s z
exp(−zs)dz
y! Γ(r)
0
Z ∞
sr
1
=
e−w wy+r−1 dw
y!Γ(r) (s + 1)r+y 0
Γ(y + r) s r 1 y
=
y!Γ(r) s + 1
s+1
R∞
wobei Γ(a) = 0 e−t ta−1 dt die Gamma Funktion bezeichnet. Im Modell 1 erhalte also:
P (Yi = y) =
Γ(y + ϕ1 ) y!Γ( ϕ1 )
1 ϕ1 λi ϕ y
λi ϕ + 1
1 + λi ϕ
(48)
wobei λi = λi (β) = exp(u(xTi β)) (bei kanonischem Link u = id). Dies ist das negative
binomiale Regressionsmodell. Zur Parameterschätzung bilde nun mit Hilfe von (48) die LogLikelihood-Funktion und maximiere über (β, ϕ).
relevante R Befehle
Die library aod enhält die Funktion negbin, und die library MASS
die Funktion glm.nb, beide passen ein negativ-binomiales Regressionsmodell an. Bei negbin
kann man auch auf den Parameter ϕ Regression machen, das obige Modell erhält man durch
random~1. Es stehen summary und anova.negbin Methoden zur Verfügung.
5.6
Gamma-Regression
Wir erinnern kurz an die Darstellung der Gamma-Verteilung als DEF. Die Dichte bzgl. des
Lebesgue Maßes auf (0, ∞) für Parameter r, λ > 0 ist gegeben durch
1 r r−1 −λy
λ y e
Γ(r)
λ λ
= exp r − y + log( ) + r log r − log Γ(r) + (r − 1) log y
r
r
f (y; r, λ) =
also ϑ = − λr , ϕ = r−1 , b(ϑ) = − log(−ϑ). Der Erwartungswert b′ (ϑ) = − ϑ1 = λr =: µ > 0
2
ist dabei stets positiv, und die Varianzfunktion lautet b′′ (ϑ) = ϑ12 = λr 2 , also Var Y = λr2 =
µ2 · ϕ. Die kanonische Linkfunktion ist g(µ) = − µ1 (also − xT1 β = µi ). Hier ist Positivität
i
5.6 Gamma-Regression
89
des Erwartungswertes nur unter Einschränkungen an β gegeben, die kanonische Linkfunktion
wird daher selten verwendet.
Häufig benutzt man den log-Link: g(µ) = log µ.
Falls über den Erwartungswert parametrisiert wird, gilt für die Log-Likelihood von Y :
(− µy − log µ)
l(y; µ, ϕ) =
ϕ
+ c(y, ϕ)
Somit erhält man im Gamma GLM:
Log-Likelihood-Funktion: Ln (β, ϕ) =
Score: sn (β, ϕ) =
1
ϕ
Pn
µ′i (xT
i β)
i=1 (µi (xT β))2 xi
i
Fisher-Information: Fn (β, ϕ) =
Deviance:
Residuen
Pearson Residuen:
Deviance Residuen:
T =
T
n−p .
riP =
Pn
i=1
−
Yi
µi (xT
i β)
Yi − µ(xTi β) .
i=1
µ̂i
i=1
Schätzen von ϕ: ϕ̂ =
Pn
i=1
n X
Yi − µ̂i
Dev = 2
Pearsonsche χ2 -Statistik:
1
ϕ
Pn − log µi (xTi β) + c(y, ϕ).
2
(µ′i (xT
i β))
xi xTi .
µ2i (xT
β)
i
− log(
(Yi −µ̂i )2
.
µ̂2i
Yi ) ,
µ̂i
µ̂i = µ(xTi β̂ M L ).
Yi −µ̂i
µ̂i .
1
i
riD = sign(Yi − µ̂i )( Yiµ̂−µ̂
− log( µ̂Yii )) 2 .
i
relevante R Befehle
Option family=gamma bei glm. Default ist der inverse Link, daher
muss noch family=gamma(link="log") gesetzt werden.
Wann wird Gamma-Regression verwendet?
Gamma Regression wird allgemein bei positiven Zielgröße Yi eingesetzt. Wir betrachten im
Folgenden das multiplikative Modell
Yi = exp xTi β (1 + εi ),
εi > −1.
(49)
Dann ist
EYi = exp xTi β ,
also
εi =
Yi − EYi
.
EYi
Damit Var εi = σ 2 konstant ist, muss gelten:
Var Yi /(EYi )2 = σ 2 = const.
Also benötigt man für Yi eine Verteilung mit konstantem Variationskoeffizienten Var Yi /(EYi )2 ,
bzw.
EYi = µi ,
Var Yi = σ 2 µ2i
(50)
90
5
VERALLGEMEINERTE LINEARE MODELLE (GLMS)
Eine solche Verteilung ist die Gamma-Verteilung.
Angenommen, Yi habe die Erwartungswert- und Varianzstruktur (50). Setze Zi = log(Yi ).
Es gilt approximativ:
Zi ≈ log(µi ) +
1
1
(Yi − µi ) − 2 (Yi − µi )2
µi
2µi
In heuristischer Argumentation bilde nun den Erwartungswert:
EZi ≈ log µi −
1 2 2
σ2
σ µi ≈ log µi −
2µi
2
Aus (49) ergibt sich natürlich auch ein lineares Modell auf der log-Skala:
log Yi = xTi β + ε′i ,
wobei
Eε′i = E(log(1 +
ε′i = log(1 + εi ),
Yi − EYi
σ2
)) = E(log Yi ) − log EYi ≈ − .
EYi
2
2
Somit ergibt sich im linearen Modell ein Schätzwert von β 0 − σ2 für den Achsenabschnitt. Man
kann zeigen, dass Var ε′i ≈ σ 2 , also könnte man lineares Modell auf log-Skala verwenden, und
die Schätzung für den Koeffizienten des Achsenabschnitts entsprechend korrigieren. Jedoch
ist es häufig besser, auf der ursprünglichen Skala mit Gamma-Regression und log-Link zu
arbeiten.
Gamma-Regression mit Gewichten Angenommen, für die Kovariablenausprägung xi
wird eine Gesamtschadenshöhe Yi , die sich aus ni Schäden zusammensetzt, beobachtet. Es
liegen als unabhängige Daten (Yi , xi , ni ), i = 1, . . . , n, vor. Wir interessieren uns nun für die
Durchschnittsschadenhöhe:
Yia = Yi /ni .
Angenommen, der Gesamtschaden Yi setzt sich als Summe der ni unabhängigen identisch
verteilten (für gleiches xi ) Einzelschäden zusammen, also für
PYij : Höhe des j-ten Schadens in
Gruppe i haben wir Yij , j = 1, . . . , ni sind u.i.v., und Yi = j Yij .
Falls Yij ∼ Gamma(µi , ϕ), also EYij = µi , Var Yij = µ2i · ϕ, Yij unabhängig, j = 1, . . . , ni ,
dann gilt
Yi ∼ Gamma(ni µi , ni ϕ),
Yia ∼ Gamma(µi , ϕ/ni ).
Dies ist im ML-Ansatz zu berücksichtigen. Man muss maximieren
Ln (β) =
Schätzer von ϕ:
n
X
i=1
ni −
Yi
T
−
log
µ
(x
β)
.
i
i
µi (xTi β)
n
1 X (Yi − µ̂i )2
ϕ̂ =
ni
n−p
µ̂2i
i=1
5.7 Quasi-Likelihood
relevante R Befehle
Setzte im glm Aufruf die Option weights gleich den ni .
Residuen
Pearsonsche Residuen:
Deviance Residuen:
5.7
91
riP =
riD =
√
√
i
ni Yiµ̂−µ̂
.
i
1
2
Yi
i
−
log(
)
ni sign(Yi − µ̂i ) Yiµ̂−µ̂
.
µ̂i
i
Quasi-Likelihood
Motivation
Bei einigen DEFs, insbesondere den für Anwendungen wichtigen Familien der Binomialverteilung sowie der Poissonverteilung, ist keine zusätzliche Modellierung der Dispersionsstruktur
über den Parameter ϕ möglich. Man möchte daher diese Familien gerne erweitern. Es stellt
sich aber heraus, dass eine explizite Konstruktion solcher Verteilungen (mit den gleichen diskreten Werten wie die entsprechenden Binomial - und Poissonverteilungen) innerhalb der
Klasse der DEFs nicht möglich ist (Jorgensen 1987, JRSSB).
Angenommen, Yi sei verteilt nach einer DEF, also
Yi ∼ exp
so dass
ϑ y − b(ϑ )
i
i
+ c(y, ϕ) ,
ϕ
EYi = b′ (ϑi ) = µi ,
Var Yi = b′′ (ϑi ) · ϕ =: V (µi ) · ϕ.
wobei V = b′′ ◦ (b′ )−1 , und ϕ den (möglicher Weise konstanten) Dispersionsparameter bezeichnet. Auf µi wird typischer Weise Regression gemacht, also
µi = µ(β, xi )
(bei GLMs: g(µi ) = xTi β).
(51)
Im obigen Modell hängt also die Varianzstruktur nur vom Erwartungswert und von ϕ ab.
Bei einigen Exponentialfamilien, insbesondere Poisson-Verteilung und Binomialverteilung, ist
ϕ = 1 konstant, es ist somit keine zusätzliche Modellierung der Dispersionsstruktur möglich.
Ziel
Ohne explizite Konstruktion einer Wahrscheinlichkeitsverteilung (Likelihood) und nur unter
Benutzung der Momentengleichungen
EYi = µi ,
Var Yi = ϕV (µi )
(52)
sollen die Parameter (β, ϕ) mit variablen ϕ geschätzt werden. Dabei wird µi durch Regression
wie in (51) bestimmt.
Definition 5.13
Für eine Zufallsvariable Y mit der Momentenstruktur (3) heißt eine Funktion l(y, µ) mit
y−µ
∂l
(y, µ) =
∂µ
V (µ)
eine Quasi-Likelihood Funktion.
(53)
92
5
VERALLGEMEINERTE LINEARE MODELLE (GLMS)
Es ist dann also
l(y, µ) =
Z
µ
y−t
dt + A(y)
V (t)
Lemma 5.14
Unter geeigneten Differenzierbarkeitsbedingungen gilt für Quasi-Likelihood Funktionen (µi
durch Regression wie in (51))
a.
b.
c.
d.
∂l
(Yi , µi )) = 0
∂µ
∂l
(Yi , µi )) = 0
E(
∂β j
E(
∂2l
1
∂l
(Yi , µi ))2 ) = −E( 2 (Yi , µi )) =
∂µ
∂ µ
V (µi )
2
∂l
∂l
∂ l
1 ∂µi ∂µi
E(
(Yi , µi )
(Yi , µi )) = −E(
(Yi , µi )) =
∂β j
∂β k
∂β j ∂β k
V (µi ) ∂β j ∂β k
E((
Die erhält man durch einfache Rechnungen mit der definierenden Gleichung (53). Somit hat
die Ableitung einer Quasi-Likelihood hat Eigenschaften wie der Score-Vektor in GLMs.
Quasi-ML-Schätzung
Für unabhäbgige Beobachtungen (Y1 , x1 ), . . . , (Yn , xn ) sei nun β̂ QM L ein argmax von
n
X
i=1
bzw. Nullstelle von
sn (β) =
Mit
l(Yi , µ(xTi β)) = Ln (β),
n
X
Yi − µ(xTi β) ∂
·
µ(xTi β).
T β)
∂β
V
µ(x
i
i=1
Fn (β) = Cov sn (β) = ϕ
n
X
1
∂
∂
µi (xTi β) T µi (xTi β)
T
V (µi (xi β)) ∂β j
∂β
i=1
gilt unter geeigneten Bedingungen:
1
d
[Fn (β)]− 2 sn (β) → N (0, ϕ),
1
d
[Fn (β)] 2 (β̂ QM L − β) → N (0, ϕ).
Der Dispersionsparameter ϕ wird geschätzt durch
ϕ̂ =
n
1 X (Yi − µi (xTi β̂ QM L ))2
n−p
V (µi (xTi β̂ QM L ))
i=1
wobei p die Dimension von β bezeichnet.
Für das Testen linearer Hypothesen Aβ = m, A ∈ Rq×p , m ∈ Rq , gelten Analoga zu LQT:
R
qlq = 2(Ln (β̂ QM L ) − Ln (β̂ QM L )) ·
1 L 2
→ χp−q
ϕ̂
5.7 Quasi-Likelihood
93
R
wobei β̂ QM L Quasi-ML-Schätzer unter der lineare Hypothese H ist, sowie Analoga zum WaldTest:
1
L
qW = (Aβ̂ QM L − m)T (A(F (β̂ QM L ))−1 AT )−1 (Aβ̂ QM L − m) → χ2p−q
ϕ̂
Beispiel 5.15
a. Quasi-Binomiale Regression. Die Ausgangssituation ist ähnlich wie bei der logistischen
Regression. Es liegen also ganzzahlige Daten Yi mit Werten zwischen 0 und ni vor. Man
setzt dann V (µi ) = µi (1 − µi /ni ), wobei µi durch Regression wie in (51) (gegebenenfalls
mit logistischer Linkfuntion) gegeben ist. Man erhält dann die gleichen Schätzwerte für β
wie mit gewöhnlicher logistischer Regression, aber durch Einbeziehung von ϕ ändern sich die
Standardfehler, d.h. Überdispersion wird berücksichtigt.
b. Quasi-Poisson Regression. Ähnlich verhält es sich mit Poisson Regression, hier setzt man
V (µi ) = µi in obigem Ansatz.
c. Nichtlineare kleinste Quadrate. Auch die nichtlineare kleinste Quadrate Schätzung im
nichtlinearen Regressionsmodell (beachte die allgemeine Form von µ(xi , β) in (51)) kann mit
Quasi-likelihood behandelt werden, man setzt V (µ) = σ 2 = const.
relevante R Befehle
Im glm Aufruf setzte family=quasibinomial oder family=quasipoisson.
94
6
6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION
Kategorielle Daten und kategorielle Regression
In diesem Abschnitt betrachten wir kategorielle Daten. MEHR TEXT.
6.1
Fishers exakter Test auf Homogenität
Fishers exakter Test auf Homogenität dient dazu, die Erfolgswahrscheinlichkeiten zweier unabhängiger binomialverteilter Zufallsvariablen miteinander zu vergleichen. Hat man etwa zwei
Patientengruppen, bei denen eine bestimmte Krankheit mit Medikament A in Gruppe 1 und
Medikament B in Gruppe 2 behandelt wird, und jeweils untersucht wird, ob der Patient geheilt wurde, so kann man die Erfolgswahrscheinlichkeiten für Heilung durch Medikament A
mit der von Medikament B vergleichen.
Gegeben seien also X ∼ B(n, pX ), Y ∼ B(m, pY ), wobei X, Y unabhängig sind. Werden
X = x, Y = y beobachtet, dann fasst man diese Ergebnisse in einer 4-Felder-Tafel (2 ×2
Kontingenztafel) zusammen:
0
1
X
Y
P
=n+m−x−y
n−x
m−y
P
=x+y
x
y
P
P
P
=n
=m
=n+m
Die Hypothese der Homogenität lautet
H : pX = pY = p.
Unter H gilt
P (X = x, Y = y|X + Y = x + y) =
=
y
m−y
px (1 − p)n−x m
y p (1 − p)
n+m x+y
(1 − p)n+m−x−y
x+y p
n m
n
x
x y
n+m
x+y
.
(54)
Dies ist die Verteilung der hypergeometrischen Verteilung H(x + y, n, m).
Erinnerung: Angenommen, es werden aus einer Urne mit n roten und m schwarzen Kugeln
x + y Kugeln gezogen, und N bezeichne die Zahl der roten gezogenen Kugeln, also 0 ≤ N ≤
min{n, x + y}). Dann ist N ∼ H(x + y, n, m) hypergeometrisch verteilt, also
P (N = k) =
n
k
m
x+y−k
n+m
x+y
(k = 0, . . . , min{n, x + y}).
Bei extremen Beobachtungen von x bzw. y gemäß der Verteilung (54) wird man die Hypothese
H verwerfen. Dies geschieht etwa, falls der P-Wert kleiner als das gewünschte Niveau α > 0 ist.
6.2 Der χ2 -Test auf Homogenität
95
Berechnung der P-Werte
Für die einseitige Alternative K : pX > pY :
min{n,x+y}
X
PW =
P (N = k)
k=x
Für die zweiseitige Alternative K : pX 6= pY :
y
Man schätzt zunächst p̂X = nx und p̂Y = m
. Ist etwa p̂X > p̂Y , so bilde
min{n,x+y}
P̃ =
X
P (N = k)
k=x
und
imax = max{i :
i
X
k=0
Dann:
P W = P̃ +
P (N = k) < P̃ }
iX
max
P (N = k).
k=0
Für p̂X < p̂Y verfahre analog.
Bemerkung: Fishers Test ist ein bedingter Test, bei dem die Verteilung (54) der Teststatistik X = x bedingt auf die Beobachtungen X + Y = x + y berechnet wird. Somit hängt der
Verwerfungsbereich zu einem Niveau α > 0 von x + y ab.
relevante R Befehle
Die Funktion fisher.test führt Fisher’s exakten Test durch. Als
Argument wird die 2 × 2 Kontingenztafel übergeben. Auf die hypergeometrische Verteilung
kann mit dhyper (Dichte bzgl. Zählmaß), phyper (Verteilungsfunktion), qhyper (Quantile)
und rhyper (Zufallszahlen) zugegriffen werden.
6.2
Der χ2 -Test auf Homogenität
Wir erinnern zunächst an die
Multinomialverteilung. Angenommen, als Ergebnis eines Versuchs sei genau eines
P von I
verschiedenen Ereignissen A1 , . . . , AI möglich mit Wahrscheinlichkeiten π1 , . . . , πI ( πi = 1,
πi > 0, i = 1, . . . , I). Wird dieser
P Versuch n-mal durchgeführt, so ist die Wahrscheinlichkeit
für n1 mal A1 , . . ., nI mal AI ( ni = n) gegeben durch
n
π n1 · . . . · πInI ,
P (N1 = n1 , . . . , NI = nI ) =
n1 , . . . , nI 1
wobei Ni die Zufallsvariable bezeichnet, die die Anzahl der Ereignisse Ai zählt und
n
n!
=
n1 , . . . , nI
n1 ! · . . . · nI !
96
6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION
den Multinomialkoeffizient ist. Bezeichnung: N = (N1 , . . . , NI ) ∼ M (n, π), π = (π1 , . . . , πI )T .
Es ist (nachrechnen!)
Cov N = n diag(π1 , . . . , πI ) − ππ T .
EN = nπ,
Die Matrix Cov N ist degeneriert (der Vektor 1I = (1, . . . , 1)T ∈ RI ist Eigenvektor zum
Eigenwert 0). Dies ist nicht verwunderlich, da sich ja NI = n−N1 −. . .−NI−1 deterministisch
aus den anderen Beobachtungen berechnen lässt.
Um im Folgenden das Auftreten degenerierter Normalverteilungen zu verhindern, betrachten
wir nur die ersten I − 1 Einträge von N.
Setze π̃ = (π1 , . . . , πI−1 )T , Σ = diag(π1 , . . . , πI−1 ) − π̃π̃ T (dies ist die obere (I − 1) × (I − 1)
Teilmatrix von Cov N und hat vollen Rang I − 1, Beweis!), und
π̂i = Ni /n,
π̂ = (π̂1 , . . . , π̂I−1 ).
Da N gleich der Summe von n unabhängigen, M (1, π)-verteilten Zufallsvektoren ist, gilt nach
dem multivariaten ZGWS
√
d
n(π̂ − π̃) → N (0, Σ)
(55)
Dies dient als Grundlage für einen χ2 -Test für die einfache Hypothese
X
H : π = p für festes p = (p1 , . . . , pI )T , pi > 0,
pi = 1.
i
Als Teststatistik verwendet man
Xn2 =
I
X
(Ni − n · pi )2
npi
i=1
=n·
I
X
1
(π̂i − pi )2 ,
pi
i=1
diese heißt auch Pearsonsche χ2 -Statistik.
Satz 6.1
d
Unter H gilt Xn2 → χ2I−1 für n → ∞.
Beweis
Wir können schreiben
Xn2 = ZTn AZn ,
Zn =
√
wobei
A = diag(1/p1 , . . . 1/pI−1 ) +
n π̂ − (p1 , . . . , pI−1 )T ,
1
1I−1 1TI−1 ∈ R(I−1)×(I−1) .
pI
Die Matrix A ist (als Summe einer positiv definiten und einer positiv semidefiniten Matrix)
positiv definit. Mit (55) und dem Stetigkeitssatz für schwache Konvergenz folgt
d
Xn2 → ZT AZ,
Z ∼ N (0, Σ).
Um die Verteilung von ZT AZ zu berechnen, möchten wir Satz 1.9 anwenden, und müssen dazu
noch zeigen: (ΣA)2 = ΣA. Eine direkt Rechnung liefert ΣA = II−1 , die (I − 1)-dimensionale
Einheitsmatrix. Somit folgt die Behauptung.
6.3 Fishers exakter Test auf Unabhängigkeit
97
Allgemeine 2d-Kontingenztafeln
Seien nun X1 , . . . , XJ unabhängig multinomial verteilt, mit I gleichen möglichen Ausgängen,
Xj ∼ M (n·j , π j ),
j = 1, . . . , J,
π j = (π1j , . . . , πIj )T .
Ist für Xj der Vektor (n1j , . . . , nIj ) beobachtet, so ordnen wir diese in einer I × J Kontingenztafel an:
Vektoren
P
1
2 ···
j ···
J
1 n11 n12
n1j
n1J n1·
2 n21 n22
n2j
n2J n2·
..
.
Kategorien
i ni1 ni2
nij
niJ ni·
..
.
I nI1 nI2
P
n·1 n·2
nIj
n·j
nIJ
n·J
nI·
n··
Wir möchten nun die Hypothese der Homogenität testen
Hhom : π 1 = . . . = π J =: p.
Unter Hhom bezeichnet also p = (p1 , . . . , pI )T den gemeinsamen (unbekannten) Wahrscheinn
lichkeitsvektor. Man schätzt π̂ij = nij
sowie unter Hhom p̂i = nni··· . Bilde nun die χ2 -Statistik
·j
I
J
I
J X
X
(nij − n·j · p̂i )2 X X (π̂ij − p̂i )2
n·j
=
X =
n·j · p̂i
p̂i
2
j=1 i=1
j=1 i=1
Satz 6.2
Unter Hhom und für pi > 0, i = 1, . . . , I gilt für n·j → ∞, j = 1, . . . , J
d
X 2 → χ2(I−1)(J−1) .
Für einen Beweis siehe Shao (2003, p. 439).
Bemerkung Man kann natürlich auch nur die Homogenität in einzelnen Kategorien testen,
indem man die übrigen Kategorien zu einer neuen Kategorie zusammen fasst.
relevante R Befehle
Der χ2 Test kann mit chisq.test durchgeführt werden. Dabei können
entweder zwei Stichproben verglichen werden, oder auch ein Sample mit gegebenen Zellwahrscheinlichkeiten (statt y übergebe in p die Zellwahrscheinlichkeiten). Für die Multinomialverteilung liefern rmultinom Zufallszahlen und dmultinom die Dichte.
6.3
Fishers exakter Test auf Unabhängigkeit
Angenommen, an n Versuchseinheiten werden zwei Merkmale, ein X-Merkmal mit Ausprägungen A1 , A2 sowie ein Y-Merkmal mit Ausprägungen B1 , B2 beobachtet. Es soll nun unteruscht
98
6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION
werden, ob X-Merkmal und Y-Merkmal unabhängig voneinander sind.
Formal beobachten wir gepaarte Zufallsvariablen (X1 , Y1 ), . . . , (Xn , Yn ), die als Vektoren unabhängig und identisch verteilt sind. Die Xi und Yi haben Werte in {1, 2}, wobei Xi die
Merkmalsausprägung des X-Merkmals für die i-te Versuchseinheit bestimmt, und Yi die Merkmalsausprägung des Y-Merkmals. Setzte nun
Nij =
n
X
1i (Xl )1j (Yl ),
i, j = 1, 2.
l=1
Sind Nij = nij beobachtet, so fasst man diese in einer 2 × 2 Kontingenztafel zusammen.
Y
1
2
1 n11 n12 n1·
X
.
2 n21 n22 n2·
n·1 n·2 n··
Dem gegenüber steht die Tabelle der zugrundeliegenden Wahrscheinlichkeiten,
Y
1
2
1 p11
p12
X
2 n21
n22
pY 1 − pY
pX
,
1 − pX
pij = P (X1 = i, Y1 = j).
Die Hypothese, dass die Merkmale X und Y unabhängig voneinander sind, lässt sich nun wie
folgt formalisieren.
H : Xi und Yi unabhängig,
oder äquivalent H : p11 = pX pY .
Wir betrachten nun die bedingte Wahrscheinlichkeit
P (N11 = k |N1· = n1· , N·1 = n·1 )
P
P
P
P ( ni=1 11 (Xi )11 (Yi ) = k, ni=1 11 (Xi ) = n1· , ni=1 11 (Yi ) = n·1 )
P
P
=
P ( ni=1 11 (Xi ) = n1· , ni=1 11 (Yi ) = n·1 )
Unter H gilt wegen der Unabhängigkeit von Xi , Yi und da die Xi unabhängig und identisch
verteilt sind:
P
n
X
1A1 (Xi )1B1 (Yi ) = k,
i=1
n·1
X
=P
i=1
n
X
1A1 (Xi ) = n1· ,
i=1
1A1 (Xi ) = k,
n
X
i=1
1A1 (Xi ) = n1·
n
X
i=1
1B1 (Yi ) = n·1
n
X
· P(
1B1 (Yi ) = n·1 )
i=1
6.4 χ2 -Test auf Unabhängigkeit
99
Somit gilt unter H:
P (N11 = k|N1· = n1· , N·1 = n·1 ) =
=
=
=
P
P ·1
1A1 (Xi ) = k, ni=1 1A1 (Xi ) = n1· )
P ( ni=1
Pn
P ( i=1 1A1 (Xi ) = n1· )
P
Pn·1
P ( i=1 1A1 (Xi ) = k)P ( ni=n·1 +1 1A1 (Xi ) = n1· − k)
P
P ( ni=1 1A1 (Xi ) = n1· )
n·1 k
n·1 −k n−n·1 pn1· −k (1 − p )n+k−n1· −n·1
p
(1
−
p
)
X
X
X
k
nn1·1· −k X
n
n−n
1·
n1· pX (1 − pX )
n·1 n−n·1
k
n1· −k
n
n1·
Also ist N11 , bedingt auf N1· = n1· , N·1 = n·1 , unter H hypergeometrisch H(n1· , n·1 , n − n·1 )verteilt, und man verwirft H bei extremen Ereignissen von N11 unter dieser Verteilung. Beachte, dass sich die gleiche Verteilung wie bei Fishers exaktem Test auf Homogenität ergibt.
Der P-Wert in obigem Test ist dann auch einfach der zweiseitige P-Wert wie bei Fishers exaktem Test auf Homogenität.
Bemerkung: Da die Merkmale X und Y symmetrisch sind, sollte dies auch für die Teststatistik gelten. Dies ist der Fall, da gilt.
H(n1· , n·1 , n − n·1 ) = H(n·1 , n1· , n − n1· ).
Somit ist auch in Fishers exaktem Test auf Homogenität die Anordnung egal, was dort inhaltlich weniger offensichtlich ist.
relevante R Befehle Wie bei Fishers exaktem Test auf Homogenität kann die Funktion fisher.test
verwendet werden.
6.4
χ2 -Test auf Unabhängigkeit
Für mehr als zwei Merkmalsausprägungen kann man, analog zum χ2 Test auf Homogenität,
einen χ2 Test auf Unabhängigkeit konstruieren. Angenommen, an n Versuchseinheiten werden zwei Merkmale, ein X-Merkmal mit Ausprägungen 1, . . . , I sowie ein Y-Merkmal mit
Ausprägungen 1, . . . , J, beobachtet. Es soll wieder unteruscht werden, ob X-Merkmal und
Y-Merkmal unabhängig voneinander sind.
Beobachte Zk = (Xk , Yk ) unabhängig und identisch verteilt, Xk ∈ {1, . . . , I}, Yk ∈ {1, . . . , J},
Nij =
n
X
k=1
1i (Xk )1j (Yk ),
i = 1, . . . , I, j = 1, . . . , J.
100
6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION
Für beobachtete Nij = nij bildet man wiederum die Kontingenztafel
Y
1
2 ···
1 n11 n12
2 n21 n22
X .
..
..
..
.
.
I nI1 nI2
n·1 n·2
J
n1J
n2J
..
.
n1·
n2·
..
.
nIJ
n·J
nI·
n··
sowie die zugehörige Tafel der Wahrscheinlichkeiten
Y
1
2 ···
1 p11 p12
2 p21 p22
X .
..
..
..
.
.
I pI1 pI2
p·1 p·2
J
p1J
p2J
..
.
pIJ
p·J
p1·
p2·
.. ,
.
P (X1 = i, Y1 = j) = pij .
pI·
Man möchte nun die Hypothese testen
H : Xk und Yk sind unabhängig
(k = 1, . . . , n)
oder äquivalent H : pij = pi· p·j , i = 1, . . . , I, j = 1, . . . , J. Setzte
p̂ij =
nij
,
n··
p̂i· =
ni·
,
n··
p̂·j =
n·j
.
n··
Zum Testen von H betrachtet man die Pearsonsche χ2 -Statistik
I
J
I X
J
X
(nij − n·j ni· /n)2 X X (p̂ij − p̂i· p̂·j )2
=
.
X =
n·j ni· /n
p̂·j p̂i·
2
i=1 j=1
i=1 j=1
Bemerkung: Dies ist formal dieselbe Statistik wie für den χ2 -Test auf Homogenität, bei dem
man somit ebenfalls nicht auf die Anordnung in Zeilen und Spalten achten muss. Man kann
zeigen (s. Shao 2003)
Satz 6.3
Ist pij > 0, i = 1, . . . , I, j = 1, . . . , J, dann gilt unter der Hypothese H der Unabhängigkeit
d
X 2 → χ2(I−1)(J−1) für n → ∞.
6.5
McNemars Test für gepaarte Stichproben
Bei gepaarten Stichproben, also der Situation, die bei Fishers exatem Test auf Unabhängigkeit
vorliegt, kann man auch daran interessiert sein, ob die Randverteilungen gleich sind. Wird
6.5 McNemars Test für gepaarte Stichproben
101
etwa ein Merkmal X mit Ausprägungen 1, 2 zu aufeinanderfolgenden Zeitpunkten T = 1, 2
beobachtet, so kann man dara interessiert sein, ob die Wahrscheinlichkeitsverteilung für X zu
beiden Zeitpunkten gleich ist (obwohl sie natrülich voneinander abhängen).
Formal beobachten wir u.i.v. Zufallsvektoren X1 = (X11 , X12 ), . . . , Xn = (Xn1 , Xn2 ), wobei
Xij ∈ {1, 2}, und bilden die Kontingenztafel
Xi1
Xi2
1
2
1 n11 n12 n1·
2 n21 n22 n2·
n·1 n·2 n
sowie die Tafel der Wahrscheinlichkeiten
Xi1
Xi2
1
2
1 p11 p12 p1·
2 p21 p22 p2·
p·1 p·2
Hypothese: Die Randverteilungen zu beiden Zeitpunkten, also die Verteilungen von Xi1 und
Xi2 , sind gleich, oder äquivalent
H : p·1 = p1·
welches sich zu H : p21 = p12 reduziert. Unter H gilt:
P ((X11 , X12 ) = (1, 2)|(X11 , X12 ) ∈ {(1, 2), (2, 1)}) =
Daher gilt für
Nij =
n
X
p12
H 1
=
p21 + p12
2
1i (Xk1 )1j (Xk2 ), i, j = 1, 2
k=1
unter H die bedingte Wahrscheinlichkeitsverteilung
N12 |N12 + N21 = n12 + n21 ∼ B(n12 + n21 , 1/2).
Man verwirft nun die Hypothese H für extreme Werte von N12 unter dieser bedingten Wahrscheinlichkeitsverteilung.
P-Werte
P-Wert gegen einseitige Alternative K : p12 > p21 :
n12
+n21 X
n12 + n21
PW =
1/2n12 +n21 .
n12
k=n12
Zweiseitig: Ist n12 ≥ n21 , so ist
PW = 2 ·
n12
+n21 X
k=n12
n12 + n21
1/2n12 +n21
n12
102
6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION
ansonsten vertausche die Rollen.
relevante R Befehle Die Funktion mcnemar.test führt den McNemar test aus, aber berechnet
nur P-Werte basierend auf einer asymptotischen Approximation. Daher sollte man den exakten P-Wert direkt mit pbinom (der Verteilungsfunktion der Binomialverteilung) berechnen.
6.6
Ergänzungen
In den Übungen: Mosaicplot (mosaicplot), Assoziationsplot (assocplot), die library vcd zur
Visualisierung von kategoriellen Daten.
Weitere Theorie: Bei 2 × k Kontingenztafeln: prop.test (äquivalent zum χ2 Test), auch
multiples Testen mit pairwise.prop.test. Die Funktion binom.test zur Durchfühung eines
exakten Tests für das p der Binomialverteilung, und zur Berechnung der Pearson Clopper
Grenzen. Testen auf Binomialverteilung, negative Binomialverteilung und Poisson Verteilung
mit dem χ2 Test für zusammengesetzte Hypothesen, Funktion goodfit der library vcd.
6.7
Kategorielle Regression
Wir wenden uns nun wieder der Regression zu, wobei wir annehmen, dass die abhängige
Zielvariable Y kategoriell mit I Kategorien ist. Für I = 2 führt uns dies zurück zur logistischen
Regression.
Im Folgenden liegen unabhängige Beobachtungen (Yk , xk ), k = 1, . . . , n, vor, wobei
 
 
Yk1
πk1
I
X
 .. 
 .. 
Yk ∼ M (nk , πk ), Yk =  .  , π k =  .  ,
πki = 1.
i=1
YkI
πkI
(56)
und xk ∈ Rp geeignet kodierte Kovariablen und den Achsenabschnitt enthält. Man modelliert
πki = πi (xk ) als Funktion der xi .
Wegen (56) genügt es, πki = πi (xk ) zu spezifizieren und zu schätzen für i = 1, . . . , I − 1. Dann
heißt Kategorie I Referenzkategorie.
Mehrkategorielle Logit-Modelle
Für nominale, also nicht geordnete Kategorien, werden häufig mehrkategorielle Logit-Modelle
verwendet. Setze ηki = xTk β i , β i ∈ Rp , sowie
πki =
und für die Referenzkategorie:
1+
eηki
PI−1
l=1
eηkl
, i = 1, . . . , I − 1,
πkI = 1 − πk1 − . . . − πk,(I−1) =
1+
1
PI−1
l=1
(57)
eηlk
.
6.7 Kategorielle Regression
103
Erweiterung. Neben den kategorienspezifischen Parametern β i können globale Parameter γ (für alle Kategorien i = 1, . . . , I − 1 gleich) zugelassen werden. Dazu sei wk ein qdimensionaler Teilvektor von xk , γ ∈ Rq . Setze weiter ηki = xTk β i + wkT γ sowie πki wie in
(57). Dann
πki
log
= ηki ,
πkI
und exp(ηki ) beschreibt das relative Risiko von Kategorie i zu Kategorie I.
Interpretation. Mehrkategorielle Logit Modelle für I > 2 sind vorsichtig zu interpreteren.
Insbesondere bedeutet ein positiv geschätzer Koeffizient β ir > 0 nicht unbedingt, dass ein
Anstieg von der r-ten Komponenten der Kovariablen einen Anstieg von π·,i zur Folge hat,
sondern nur einen Anstieg des relativen Risikos im Vergleich zu Referenzkategorie. Falls es
etwa β jr > β ir gibt, kann ein Anstieg der r-ten Kovariable sogar eine Verringerung von π·,i
zur Folge haben.
Das (erweiterte) Modell lässt sich in Matrixschreibweise zusammenfassen. Der Parameter
Vektor ist gegeben durch
β = (β T1 , . . . , β TI−1 , γ T )T ∈ Rp·(I−1)+q ,
und der lineare Prädiktor durch
ηk = (ηk1 , . . . , ηk,I−1 )T = Xk β,
 T
xk

Xk = 
..
.
xTk

wkT
..  ∈ R(I−1)×(p·(I−1)+q) .
. 
wkT
Die Schätzung des Parameter Vektors β erfolgt wiederum über Maximum Likelihood. Die log
Likelihood ist
Ln (β) =
f (Yk |πk ) =
n
X
k=1
log f (Yk |π k )
(58)
nk
Yk(I−1)
Yk1
πk1
· . . . · πk(I−1)
· (1 − πk1 − . . . − πk(I−1) )YkI
Yk1 , . . . , YkI
wobei π k wie in (57) vom lineare Prädiktor und damit von β abhängt.
Score Vektor sn (β) =
∂
∂β Ln (β),
Fisher-Information Fn (β) = Cov(sn (β)).
Unter Regularitätsannahmen gelten asymptotische Normalität des ML Schätzers
1
Fn (β̂ M L ) 2 (β̂ M L − β) → N (0, I),
sowie die asymptotischen χ2 -Approximationen an den Likelihood Quotienten Test und den
Wald Test.
relevante R Befehle
Die library nnet enthält die Funktion multinom, mit der ein kategorielles Regressionsmodell geschätzt werden kann. Die Anpassung erfolgt ähnlich wie bei
glm und family=binomial, inbesondere können die nk über Weights übergeben werden. Die
Funktion logLik extrahiert den Wert der maximierten Log-Likelihood. Mit anova können
LQTs durchgeführt werden.
Kommulatives oder Schwellenwert-Modell
Das mehrkategorielle Logit Modell kann sehr allgemein verwendet werden, hat jedoch Nachteile, da es viele Parameter besitzt und diese darüber hinaus schwer, da nur über das relative
Risiko zur Referenz Kategorie, zu interpretieren sind.
Falls die Zielvariable Yk ordinal ist mit geordneten Kategorien 1, . . . , I, kann man dies bei
der Modellierung berücksichtigen.
Im Schwellenwert-Modell wird die ordinale Zielvariable als Diskretisierung einer latenten,
stetigen Zielvariable modelliert, wobei die Diskretisierung mitgeschätzt wird. Seien also zur
Beobachtung Yk
β ∈ Rp ,
Ukl = xTk β + εkl , l = 1, . . . , nk ,
zugrundeliegende latente Variablen, wobei εk ∼ F eine stetige Verteilungsfunktion hat, etwa
a. F ∼ N (0, 1) → probit-Modell
ex
b. F (x) ≈ 1+e
x → Logit-Modell
x
c. F (x) = 1 − e−e Extremwertverteilung → gruppiertes Cox-Modell.
Man modelliert dann
Yk =
nk
X
1ϑi−1 <Ukl <ϑi ,
l=1
für feste (unbekannte) ϑ1 < . . . < ϑI−1 , ϑ0 = −∞, ϑI = ∞. Es gilt also
πki = F (ϑi + xTk β) − F (ϑi−1 + xTk β) = F (ηki ) − F (ηk,i−1 ),
i = 1, . . . , I,
wobei ηki = ϑi + xTk β einen linearen Prädiktor bezeichnet. Der unbekannte Parametervektor
besteht also aus β = (β 1 , . . . , β p , ϑi , . . . , ϑK−1 ). Das Schätzen von β erfolgt wieder über ML
wie in (58).
relevante R Befehle
Die library MASS enthält die Funktion ployr, mit der ein Schwellenwert Regressionsmodell für ordinale Daten angepasst werden kann.
105
7
Lineare Gemischte Modelle
Gemischte Modelle enthalten nicht nur die bisher betrachteten festen Effekte β, die für jede
Beobachtung gleich sind, sondern darüber hinaus noch zufällige Effekte γ i , welche Realisierungen von Zufallsvariablen sind und sich somit für jede Beobachtung unterscheiden können.
Zufällige Effekte werden (im Regressionskontext) eingesetzt, falls man davon ausgeht, dass
nicht alle relevanten Kovariablen bzw. Einflussgrößen auf die Zielvaraiable beobachtet werden
können. Häufig handelt es sich dabei um viele nicht beobachtete Einflussgrößen mit jeweils
nur geringem Einfluss. Daher modelliert man diese dann häufig als einen zufälligen normalverteilten Effekt.
Gemischte Modelle treten im Regressionskontext insbesondere bei Longitudinal- oder Clusterdaten auf, auf die wir zunächst eingehen, bevor wir zum allgemeinen linearen gemischten
Modell kommen. Abschliessend werden auch noch kurz auf verallgemeinerte lineare gemischte
Modelle eingehen.
7.1
Longitudinal- und Cluster-Daten
a. Cluster-Daten
Ein Cluster ist eine Primäreinheit, etwa eine Klinik, Familie. Man beobachtet nun eine Anzahl
m an Clustern, und für jedes Cluster i hat man Daten
(Yi1 , xi1 ), . . . , (Yini , xini ),
i = 1, . . . , m,
wobei Yij ∈ R die reellwertige Zielvariable bezeichnet, und xij ∈ Rp ein Vektor von geeignet
kodoerten Kovariablen (inklusive Achsenabschnitt) ist.
b. Longitudinal-Daten
Ein analoges Beobachtungsschema tritt für longitudinale Daten auf. Hier werden i Individuen,
i = 1, . . . , m beobachtet. Für jedes Individuum i hat man Beobachtungen
(Yi1 , xi1 ), . . . , (Yi,ni , xi,ni )
zu Zeitpunkten ti1 < . . . < tini . Die Zeitpunkte tij sind dabei typischerweise Teil der Kovariablen xij .
Man möchte nun wiederum Yij über einen linearen Prädiktor xTij β erklären. Dabei ist aber
davon auszugehen, dass die Zielgröße nicht nur durch die xij , sondern durch weitere, Clusterbzw. individuenspezifischen Effekte beeinflusst werden. Da man die Individuen/Cluster zufällig
aus einer Gesamtpopulation ausgewählt hat, modelliert man diese zusätzlichen Effekte als
zufällige Effekte. Dies führt zu folgendem Modell
106
7 LINEARE GEMISCHTE MODELLE
Modell
Die Beobachtungen (Yij , xij ), i = 1, . . . , m, j = 1, . . . , ni , folgen dem Modell
T
Yij = xTij β + wij
γ i + εij ,
wobei wij ein q-dimensionaler Teilvektor von xij ist, εij ein zufälliger, nicht beobachteter
Fehler, β ∈ Rp die systematischen (festen) Effekte bezeichnet und γ i q-dimensionale, zufällige
Effekte sind, die wir als N (0, D)-verteilt annehmen (D ∈ Rq×q ), und welche unabhängig für
i = 1, . . . , m sind. Weiter nehmen wir an, dass die Fehler εi und die zufälligen Effekte γ l
unabhängig sind für alle 1 ≤ i, l ≤ m.
Für die Fehler ǫi nehmen wir ebenfalls eine Normalverteilung an, also εi ∼ N (0, Σi ), und
unabhängig für i = 1, . . . , m. Falls εi ∼ N (0, σ 2 Ini ), dann sind die Fehler auch unabhängig
und identisch verteilt für j = 1, . . . , ni . Dies ist zwar für Cluster - und Longitudinal-Daten
häufig nicht erfüllt. Dennoch ist die zeitliche bzw. clusterspezifische Abhängigkeitsstruktur
gegenüber der durch die zufälligen Effekte verursachten Abhängigkeitsstruktur (γ i verursacht
bereits Abhängigkeiten für j = 1, . . . , ni ) vernachlässigbar, so dass man die Fehler einfach als
u.i.v. modelliert. Alternativ wäre ein einfaches parametrisches Modell für abhängige Fehler
etwa
Cov(εij , εik ) = σ 2 exp(−φ|tij − tik |),
(59)
man hat also zwei Parameter (σ 2 , φ), die die Σi beschreiben.
Man fasst lineare Longitudinal - und Clustermodelle in Matrixschreibweise zusammen.
Setze


 T 
 T 


xi1
wi1
Yi1
εi1








Yi =  ...  , Xi =  ...  ∈ Rni ×p , Wi =  ...  ∈ Rni ×q , ǫi =  ...  ∈ Rni ,
Yini
xTini
T
win
i
εini
dann ist
Yi = xi β + wi γ i + ǫi .
Man
P kann auch noch die Modelle für alle i zusammenfassen. Dazu setzte W = diag(w1 , . . . , wm ) ∈
R ni ×m·q ,
 
 
 
 
Y1
x1
γ1
ε1
P
P
P
 .. 
 .. 
 .. 
 .. 
ni
ni ×p
q·m
Y= . ∈R
, X= . ∈R
, γ =  .  ∈ R , ǫ =  .  ∈ R ni .
Ym
xm
γm
εm
Dann ist
Y = Xβ + W γ + ǫ,
wobei unter den obigen Verteilungsannahmen gilt γ ∼ N (0, G), ε ∼ N (0, R), γ, ǫ sind unabhängig, und R = diag(Σ1 , . . . , Σm ), G = diag(D, . . . , D).
7.2
Das lineare gemischte Modell
Definition 7.1
Das lineare gemischte Modell (LMM) ist gegeben durch
Y = Xβ + W γ + ǫ
(60)
7.3 Schätzen und Vorhersagen im linearen gemischten Modell
wobei
107
γ
G 0
∼ N 0,
,
ǫ
0 R
und X ∈ Rn×p , W ∈ Rn×q (beobachtete) Designmatrizen sind, Y ∈ Rn (beobachtete)
abhängige Variable, β fixe Effekte, γ zufällige Effekte, ǫ Fehler.
Neben longitudinalen und Cluster Regressionsmodellen treten gemischte Modelle insbesondere
bei der Varianzanalyse mit zufälligen und festen Effekten auf.
Man kann das LMM schreiben als
a. Zweistufiges hierarchisches Modell:
Y|γ ∼ N (Xβ + W γ, R),
γ ∼ N (0, G)
(61)
ǫ∗ ∼ N (0, R + W GW T ).
(62)
b. Marginales Modell
Y = Xβ + ǫ∗ ,
Das zweistufige hierarchische Modell bestimmt das LMM eindeutig. Dagegen bestimmt das
marginale Modell (62) dieses nicht unbedingt eindeutig, da die zufälligen Effekte sich nicht
spezifizieren lassen.
7.3
Schätzen und Vorhersagen im linearen gemischten Modell
Wir betrachten das gemischte lineare Modell (60). Unsere primären Ziele sind dabei das
a. Schätzen der fixen Effekte β
b. Schätzen der unbekannten Parameter in der Kovarianzstruktur der zufälligen Effekte und
Fehler, also in G und R
Darüber hinaus betrachtet man noch
c. Vorhersagen der zufälligen Effekte γ.
Zunächst betrachten wir a. und c. bei bekannter Kovarianzstruktur, und erweitern dies in
einem zweiten Schritt um die Schätzung b.
Bekannte Kovarianzstruktur
Wir nehmen in diesem Abschnitt an, dass die Kovarianzmatrizen G und R im LMM bekannt
sind.
Schätzung der festen Effekte
Ausgehend vom marginalen Modell (62) setze V =
R + W GW T (diese Matrix ist vollständig bekannt), dann ist Y ∼ N (Xβ, V ). Man schätze β
nun über verallgemeinerte kleinste Quadrate (GLS) durch
β̃ GLS = (X T V −1 X)−1 X T V −1 Y
(63)
108
7 LINEARE GEMISCHTE MODELLE
Vorhersage der zufälligen Effekte
Da γ eine Zufallsvariable und kein Parameter ist,
spricht man hier von vorhersagen und nicht von schätzen. Da
Cov(Y, γ) = Cov(Xβ + W γ + ǫ, γ) = Cov(W γ, γ) = W G
gilt
Y
Xβ
V
WG
∼N
,
.
γ
0
(W G)T
G
Somit erhält man für den bedingten Erwartungswert nach Satz 1.6
E(γ|V ) = GW T V −1 (Y − Xβ).
Durch Einsetzten von β̃ GLS erhält man als Vorhersage von γ
γ̃ = GW T V −1 (Y − X β̃ GLS )
Aufgabe
(64)
Erhalte Formel (64) als besten linearen Prädiktor für γ.
Mixed Model Equations Man kann den Schätzer (63) und den Prädiktor (64) auch auf
andere Weise erhalten. Die gemeinsame Dichte im LMM ist nach Darstellung (61) im hierarchischen Modell
p(Y, γ; β) = p(Y|γ; β) · p(γ),
somit
1
1
log p(Y, γ; β) = − (Y − Xβ − W γ)T R−1 (Y − Xβ − W γ) − (γ T G−1 γ) + const.,
2
2
wobei const. nicht von (β, γ) abhängt.
(65)
Man behandelt nun nun (β̃, γ̃) gleich und wählt als Schätzer/Prädiktor das Argmax von (65).
Ableiten und Null setzen führt auf die Mixed Model Equations
!
X T R−1 (Xβ + W γ − Y) = 0,
!
W T R−1 (Xβ + W γ − Y) + G−1 γ = 0.
Gemeinsame Verteilung von (β̃ GLS , γ̃). Diese berechnet sich zu
0 A B β̃ GLS − β
∼N
,
0
BT C
γ̃ − γ
wobei A = Cov(β̃ GLS ) = (X T V −1 X)−1 , und mit Cov(β̃ GLS , γ̃) = 0
B = Cov(β̃ GLS , γ̃ − γ)
= − Cov(β̃ GLS , γ)
= −E((X T V −1 X)−1 X T V −1 (W γ + ε) · γ T )
= −(X T V −1 X)−1 X T V −1 W G,
C = Cov(γ̃ − γ)
= Cov(γ) + Cov(γ̃) − 2 Cov(γ, γ̃)
= G + GW T V −1 V − X(X T V −1 X)−1 X T V −1 W G
−2 · E GW T V −1(W γ − X β̃) · γ T
= G − GW T V −1 W G + GW T V −1 X(X T V −1 X)−1 X T V −1 W G.
(66)
7.3 Schätzen und Vorhersagen im linearen gemischten Modell
109
Beachte, dass die Verteilung von γ̃ in (66) um γ (auch eine Zufallsvariable) und nicht um den
Erwartungswert 0 berechnet wird.
Schätzung der Kovarianzstruktur
In diesem Abschnitt befassen wir uns mit der Schätzung der unbekannten Parameter in der
Kovarianzstruktur, also in den Matrizen R und G. Wir erinnern uns, dass im Longitudinal/ Clusterdaten Modell diese von der Form R = diag(Σ1 , . . . , Σm ), G = diag(D, . . . , D), sind.
Dabei sind häufig die Σi Diagonalmatrizen oder haben die einfache Gestalt, die durch (59)
bestimmt wird. Insgesammt sind R und G also über wenige Parameter festgelegt. Diese fassen
wir im Folgenden in einem Parametervektor ϑ zusammen, d.h. R = R(ϑ), G = G(ϑ) und
somit V (ϑ) = W G(ϑ)W T + R(ϑ). Wir betrachten zur Schätzung zwei Ansätze.
a. Ausgangspunkt ist das marginale Modell (62), also Y ∼ N (Xβ, V (ϑ)). Die Log-Likelihood
in Abhängigkeit von den Parametern (β, ϑ) ist gegeben durch
1
L(β, ϑ) = − (log |V (ϑ)| + (Y − Xβ)T V (ϑ)−1 (Y − Xβ)).
(67)
2
Man möchte nun (β, ϑ) als argmax von (67) wählen. Zunächst maximiert man (67) für festes
ϑ bezüglich β und erhält als eindeutige Lösung
β̃(ϑ) = (X T V (ϑ)−1 X)−1 X T V (ϑ)−1 Y
Dann setzt man β̃(ϑ) in (67) ein und erhält die Profile Log-Likelihood
T
1
Lp (ϑ) = L β̃(ϑ), ϑ = − log |V (ϑ)| + Y − X β̃(ϑ) V (ϑ)−1 Y − X β̃(ϑ) .
2
Erhalte ML-Schätzer ϑ̂M L als argmax von Lp .
b. Hier schätze ϑ als argmax der marginalen Likelihood
Z
p(Y; β, ϑ)dβ ,
LR (ϑ) = log
wobei man sich von diesem Ansatz besser Bias-Eigenschaften verspricht.
Lemma 7.2
Es ist
1
LR (ϑ) = Lp (ϑ) − log |X T V (ϑ)−1 X|
2
Beweis
Es ist
1
1
T
−1
p(Y; β, ϑ) =
exp
−
(Y
−
Xβ)
V
(ϑ)
(Y
−
Xβ)
1
n
2
(2π) 2 |V (ϑ)| 2
1
1 T
−1
=
exp
−
Y
V
(ϑ)
Y
1
n
2
(2π) 2 |V (ϑ)| 2
1
T
· exp − β − β̃(ϑ) X T V (ϑ)−1 X β − β̃(ϑ)
(∗)
2
1
· exp − β̃(ϑ)T X T V (ϑ)−1 X β̃(ϑ)
2
110
7 LINEARE GEMISCHTE MODELLE
Beachte, dass der zweite Faktor (∗) auf der rechten Seite bis auf fehlenden Normierungsfaktor
−1
eine multivariaten Normalverteilung in β mit Erwartung β̃(ϑ) und Covarianz X T V (ϑ)−1 X
ist. Daher ergibt sich
Z
1
p(Y; β, ϑ)dβ =
|X T V (ϑ)−1 X| 2
(2π)
n−p
2
1
|V (ϑ)|− 2
1
exp − YT V (ϑ)−1 Y − β̃(ϑ)T X T V (ϑ)−1 X β̃(ϑ) .
2
T
Nun beachte noch, dass der Term in exp sich schreiben lässt als − Y − X β̃(ϑ) V (ϑ)−1 Y −
X β̃(ϑ) /2.
Man verwendet nun das argmax von LR (ϑ) als Schätzer, dieser heißt auch restringierter
ML-Schätzer, Bezeichnung ϑ̂REM L .
Für ϑ̂ = ϑ̂M L oder ϑ̂ = ϑ̂REM L erhält man Schätzer
R̂ = R(ϑ̂), Ĝ = G(ϑ̂), V̂ = V (ϑ̂).
KONSISTENZ!!! REFERENZ!!!
Schätzung und Vorhersage der fixen und zufälligen Effekte und Hypothesentests
Für Schätzer R̂ und Ĝ bilde V̂ = R̂ + W ĜW T und die Schätzer
β̂ = (X T V̂ −1 X)−1 X T V̂ Y,
γ̂ = ĜW T V̂ −1 (Y − X β̂),
und approximiere die Verteilung
0
Â
β̂ − β
≈N
,
0
γ̂ − γ
B̂ T
B̂
Ĉ
,
(68)
wobei sich die Matrizen Â, B̂ und Ĉ durch Einsetzten der Schätzer R̂, Ĝ und V̂ in die
Ausdrücke in (66) ergeben. REFERENZ FÜR ASYMPTOTIK!!! Die Approximation (68)
kann genutzt werden, um
a. Konfidenzintervalle für β
b. Vorhersageintervalle für γ
c. gemeinsame Konfidenz- / Vorhersageintervalle
zu konstruieren.
Das Testen linearer Hypothesen U β = m kann durch den Likelihood Quotienten Test
(LQT) oder den Wald-Test
T = (U β̂ − m)T (U T ÂU )−1 (U β̂ − m)
erfogen, wobei man die Verteilung basierend auf (68) durch eine geeignete χ2 -Verteilung
approximiert. Für den LQT muss allerdings der Maximum Likelihood Schätzer (und nicht
der restringierte ML Schätzer) ϑM L gewählt werden. Der LQT ist prizipiell auch zum Testen
von Hypothesen an ϑ geeignet. Hierbei muss man jedoch sorgfältig vorgehen und prüfen, ob
7.4 Verallgemeinerte lineare gemischte Modelle
111
die notwendigen Regularitätsbedingungen erfüllt sind. So gilt die χ2 Approximation nicht,
falls ϑ auf dem Rand liegt. Dies ist bei Hypothesen an ϑ häufig der Fall, etwa in folgenden
Beispiel.
Beispiel.
Sei
Yij = β 1 + β 2 xij + γ 0i + εij ,
i = 1, . . . , m,
j = 1, . . . , n.
wobei εij ∼ N (0, σ 2 ), γ 0i ∼ N (0, τ02 ) und diese unabhängig seien. Von besonderem Interesse wäre die Hypothese H : τ02 = 0, d.h. die Überprüfung, ob überhaupt zufällige Effekte
vorliegen. Diese kann jedoch nicht ohne weiteres mit dem LQT (bzw. der gewöhnlichen χ2
Approximation) getestet werden.
relevante R Befehle
Die library lme4 enthält die Funktion lmer zum Anpassen von linearen (und auch verallgemeinerten linearen) gemischten Modellen. Der zufällige Effekt wird
spezifiziert durch (KOEFFIZIENT|GRUPPIERUNG), wobei der Achsenabschnitt als Koeffizient
mit einbezogen wird. Es steht dann auch die anova Funktion zum Testen bereit. Alternativ
kann die Funktion lme aus der library nlme verwendet werden. Hier werden zufällige Effekte
über die Option random = ~ KOEF|GRUPPE spezifiziert.
7.4
Verallgemeinerte lineare gemischte Modelle
Auch im Kontext von verallgemeinerten linearen Modellen können neben festen auch zufällige Effekte berücksichtigt werden. Die Modellbildung ist ganz analog zum LMM, aber die
Schätzung ist technisch wesentlich schwieriger. Wir gehen daher nur auf die Grundzüge ein.
Modell für Longitudinal- und Cluster-Daten Wir betrachten zunächst Modelle für longitudinale oder Clusterdaten, bei denen die abhängige Variable eine Dispersionsexponentialfamilie (DEF) als Verteilung hat. Es liegen also Beobachtungen (Yij , xij ), i = 1, . . . , m,
j = 1, . . . , ni , vor, wobei
a. Für jedes i sind Yij |γ i , j = 1, . . . , ni unabhängig und verteilt nach einer DEF.
b. Die zufälligen Effekte γ i sind unabhängig und identisch normalverteilt, γ i ∼ N (0, D),
i = 1, . . . , m.
c. Der bedingte Erwartungswert E(Yij |γ i ) hängt mit dem linearen Prädiktor ηij = xTij β +
T γ über die streng monoton wachsende Linkfunktion g in folgender Weise zusammen:
wij
i
E(Yij |γ i ) = g −1 (ηij ).
Dabei ist wij ein Teilvektor von xij , und β bezeichnet die festen Effekte.
Die wichtigsten Spezialfälle sind gemischte logistische Modelle und gemischte Poisson Modelle.
a. Yij |γ j Bernoulli-verteilt, g logit-Link, also
log
P (Yij = 1|γ i )
T
= xTij β + wij
γ i.
P (Yij = 0|γ i )
112
7 LINEARE GEMISCHTE MODELLE
b. Yij |γ i ∼ Poi(λij ), g log-Link, also
T
log λij = xTij β + wij
γ i.
Ähnlich wie bei LMMs kann man diese Modelle in folgender Definition zusammenfassen. Man
kann dieses Modell wieder zusammenfassen zu folgender allgemeiner Definition.
Definition des verallgemeinerten linearen gemischten Modells (GLMM) Beobachtet
werden abhängige Zufallsvariable Y = (Y1 , . . . , Yn )T und Designmatrizen
 T
 T
x1
w1
 .. 
 .. 
n×p
X= . ∈R
,
W =  .  ∈ Rn×q .
xTn
wnT
Für feste Effekte β ∈ Rp und γ ∈ Rq (nicht beobachtete) zufällige Effekte bilde linearen
Prädiktor
η = Xβ + W γ.
Falls a Yi |γ sind unabhängig und verteilt nach DEF,
b.Für µi = E(Yi |γ) gilt g(µi ) = xTi β + wiT γ = ηi ,
c. Die zufälligen Effekte sind normalverteilt, γ ∼ N (0, G),
dann folgen (Y, X, W ) einem verallgemeinerten linearen gemischten Modell (GLMM).
Bemerkung
1. Die Annahme der bedingten Unabhängigkeit Yi |γ entspricht im LMM unabhängigen Fehlern εi , also einer Diagonalmatrix R. Weitergehende Abhängigkeiten sind im GLMM Kontext
schwer zu modellieren, und häufig neben den zufälligen Effekten vernachlässigbar.
2. Im Gegensatz zum LMM kann die marginale Verteilung von Y bzw. Yi ,
Z
f (Yi ) = f (Yi |γ) · f (γ)dγ,
f (γ) Dichte von N (0, G),
in einem GLMM nur selten explizit berechnet werden.
Momentenstruktur im GLMM
Im GLMM gilt
T
EYi = E(E(Yi |γ)) = Eµi = E(g −1 (xTij β + wij
γ)),
T
Var Yi = Var(E(Yi |γ)) + E(Var(Yi |γ)) = Var(g −1 (xTij β + wij
γ)) + E(ϕ · V (µi )),
wobei V = b′′ ◦ (b′ )−1 (und b in der DEF definiert ist). Wegen Cov(Yi , Yj |γ) = 0, i 6= j, ist
weiter
Cov(Yi , Yj ) = Cov(E(Yi |γ), E(Yj |γ)) + E(Cov(Yi , Yj |γ)) = Cov(µi , µj ).
Schätzen im GLMM
113
Wir nehmen wieder an, die Kovarianzmatrix G der zufälligen Effekte sei über einen Parameter
ϑ bestimmt, G = G(ϑ). Dann sind die Ziele im GLMM das Schätzen der Parameter (β, ϑ)
sowie die Vorhersage von der zufälligen Effekte γ.
Ansätze
a. Zur Schätzung von (β, ϑ) kann das marginale Modell
Z
L(β, ϑ) = f (Y|β, γ) · f (γ|ϑ)dγ
(69)
benutzt werden, wobei f (γ|ϑ) die Dichte von N (0, G(ϑ)) ist, und wegen der bedingten Unabhängigkeit
n
Y
f (Yi |β, γ)
f (Y|β, γ) =
i=1
gilt. Man schätze dann (β, ϑ) als argmax von (70).
Man muss aber das Integral in (70) numerisch auswerten, welches bei mehrdimensionalen
zufälligen Effekten sehr schwer wird. Dieser Zugang ist daher nur bei wenigen zufälligen
Effekten (meistens nur univariates γ) geeignet.
b. Man kann auch (β, ϑ) schätzen und γ Vorhersagen in einem gemeinsamen Schritt durch
maximieren von
L(γ; β, ϑ) = f (Y|γ; β) · f (γ|ϑ).
Logarithmieren liefert
1
Lpen (β, γ, ϑ) = L(β, γ) − γ T G(ϑ)γ + const,
2
(70)
wobei L(β, γ) die log-Likelihood Funktion der DEF ist, etwa für Poisson
L(β, γ) =
n
X
(Yi log λi − λi ),
log λi = ηi = xTi β + wiT γ.
i=1
Man schätzt/vorhersagt dann (β, γ, ϑ) als argmax von (70). Dazu wird häufig so vorgegangen,
dass (70) für festes ϑ in (β, γ) maximiert wird und ϑ durch eine Approximation von (70),
etwa Laplace Approximation, vereinfacht geschätzt wird.
relevante R Befehle
Bei der Funktion lmer (library lme4) können auch verallgemeinerte
lineare gemischte Modelle geschätzt werden, wobei die DEF über family wie in glm spezifiziert
wird.
8
8.1
Nichtparametrische Dichteschätzung
Problemstellung
Gegeben seien unabhängige, identisch verteilte reellwertige Beobachtungen X1 , . . . , Xn mit
Verteilungsfunktion F (x) = P (X1 ≤ x). Angenommen, die Xi haben eine Dichte f (x)
114
8
NICHTPARAMETRISCHE DICHTESCHÄTZUNG
bezüglich des Lebesque-Maßes dx, also
µ(A) = P (X1 ∈ A) =
Z
f (x)dx,
A Borel-meßbar,
A
und dann
F (x) =
Z
x
f (t)dt.
−∞
Sowohl die Verteilungsfunktion F (x) als auch die Dichte f (x) bestimmen eindeutig die Verteilung µ der Xi , sie tragen also die gleiche Information. Die Verteilungsfunktion kann man
leicht durch die empirische Verteilungsfunktion
n
F̂n (x) =
1X
1(−∞,x] (Xk )
n
k=1
schätzen. Dennoch ist man oft eher an Schätzungen der Dichte als an Schätzungen der Verteilungsfunktion interessiert. Zum einen trägt f (x) erheblich mehr visuelle Information als
die Verteilungsfunktion, Schätzung von f hat also als Hauptziel die deskriptive Analyse der
Verteilung der Xi . Darüber hinaus liegt ein geschätztes f weiteren statistische Verfahren,
etwa Anpassungstests, zugrunde.
Die Schätzung von f kann auf verschiedene Arten geschehen.
a. parametrisch. Man nimmt an, dass f (x) ∈ {f (x, ϑ)|ϑ ∈ Θ ⊂ Rn } aus einer endlichdimensionalen parametrischen Familie stammt (d.h. Θ ist endlich-dimensional). Zunächst
schätzt man den unbekannten Parameter ϑ, etwa mit Hilfe der Maximum-Likelihood Methode, und erhält ϑ̂. In einem zweiten Schritt bildet man f (·, ϑ̂) als Schätzung für f .
Als Vorteile dieses Ansatzes sind zu nennen: Man hat ein einfaches, leicht zu interpretierendes
Modell (d.h. man muss nur endlich viele Parameter interpretieren), und man erhält eine sehr
effiziente Schätzung, falls das parametrische Modell korrekt ist, d.h. falls es tatsächlich den
Daten zugrunde liegt.
Falls dies jedoch nicht der Fall ist (wovon bei realen Daten stets auszugehen ist), erhält man
eine inkonsistente Schätzung. Man kann häufig zeigen, dass auch falls f (x) 6∈ {f (x, ϑ)|ϑ ∈
Θ ⊂ Rn } der ML Schätzer ϑ̂ gegen einen wohldefinierten Parameter und somit der Funktionenschätzer f (·, ϑ̂) gegen eine Dichte f ∗ , die beste Approximation in f (x, ϑ) an f bezüglich
des Kulback Leibler Abstandes, konvergiert. Dennoch stellt sich die Frage, ob man mit der
Approximation f ∗ an f zufrieden ist.
b. nichtparametrisch Alternativ kann man f nichtparametrisch, also ohne endlichdimensionale parametrische Restriktionen und nur unter gewissen Glattheitsannahmen (etwa f ∈ C 1 )
schätzen. Man hat dann eine erheblich flexiblere Schätzung, die wesentlich mehr Dichten konsistent schätzt. Diese Schätzung ist jedoch weniger effizient, die wahre Dichte f wird nur bei
großen Datenmenge gut geschätzt. Auch die nichtparametrische Schätzung schätzt nicht “alle” Dichten, schon gar nicht in der Praxis für endliche Stichproben, korrekt oder approximativ
korrekt. Aber sie dient häufig als erster Schritt einer Datenanalyse, und wird zur Auswahl der
parametrischen Familie, in der die Dichte in einem zweiten Schritt geschätzt wird, genutzt.
Zwischen nichtparametrischer und parametrischer Schätzung steht noch die sogenannte semiparametrische Schätzung, auf die wir hier aber nicht weiter eingehen wollen.
8.2 Kern-Dichte Schätzung
115
relevante R Befehle Die Funktion ecdf berechnet die empirische Verteilungsfunktion (ein
Objekt vom Typ stepfun, welches mit plot.stepfun geplottet werden kann (oder direkt
mit plot.ecdf).
8.2
Kern-Dichte Schätzung
Wir wiederholen zunächst noch einige Eingenschaften der Faltung auf R.
a. Für f, g ∈ L1 ist diese definiert durch
Z
f (x − y)g(y)dy.
(f ∗ g)(x) =
R
b. Ist µ σ-endliches Maß auf R und f (x − ·) ∈∈ L1 (µ) für x ∈ R, dann
Z
f (x − t)dµ(t).
(f ∗ µ)(x) =
R
Ist insbesondere dµ(x) = g(x)dx absolut stetig bzgl. des Lebeques Maßes, dann ist (f ∗g)(x) =
(f ∗ µ)(x).
R
Sei nun K ∈ L1 , K = 1 ein Kern. Für h > 0 setze
Kh (x) = K(x/h)/h.
Dann gilt für g ∈ L1 und h → 0 die Konvergenz Kh ∗ g − g → 0 in L1 . Unter zusätzlichen
Annahmen gilt die Konvergenz auch punktweise oder in L2 .
Wir betrachten nun wieder X1 , . . . , Xn u.i.v. mit Dichte f , und es sei µ die Wahrscheinlichkeitsverteilung der Xi , also dµ(x) = f (x)dx. Dann gilt (in L1 )
Kh ∗ µ = Kh ∗ f → f (h → 0).
(71)
Weiter kann µ geschätzt werden durch das empirische Maß
n
1X
δ Xk ,
µ̂n =
n
δx (A) =
k=1
1, x ∈ A
0, sonst
Um einen Schätzer von f zu erhalten, ersetze in (71) die Verteilung µ durch die empirische
Verteilung µ̂. Dies ergibt
fˆn (x; h) = Kh ∗ µ̂n
n
1 X x − Xk =
K
nh
h
k=1
den Kern-Dichte Schätzer für f mit Kern K und Bandbreite h > 0. Durch Integration
erhält man einen geglätteten Schätzer für die Verteilungsfunktion:
F̂n (x; h) =
n
1 X x − Xk L
,
n
h
k=1
L(x) =
Z
x
K(t)dt.
−∞
116
8
NICHTPARAMETRISCHE DICHTESCHÄTZUNG
Eigenschaften des Kern-Dichte Schätzers
Erwartungswert
1
E fˆn (x; h) =
h
Z
Varianz
1 1
Var fˆn (x; h) = ( 2
n h
Z
K2
x − t
h
K
x − t
h
f (t)dt = (Kh ∗ f )(x).
f (t)dt − (Kh ∗ f )2 (x)) =
1 2
(K ∗ f − (Kh ∗ f )2 )(x). (72)
n h
Wie üblich kann man den mittleren quadratischer Fehler (MSE) zerlegen in BIAS2 und Varianz
MSE(fˆn (x; h)) = E(fˆn (x, h) − f (x))2 = E(fˆ − E fˆ)2 (x) + (E fˆ − f )2 (x).
Um die Konsistenz des Kern-Dichte Schätzers sowie eine Konvergenzrate herzuleiten, machen
wir die folgenden Annahmen.
Annahmen
A. f ∈ C 2 (R) mit beschränkter 2. Ableitung
B. Der Kern K ist eine beschränkte, symmetrische Wahrscheinlichkeitsdichte mit kompaktem
Träger in ⊂ [−M, M ] für ein M > 0.
C. Die Bandbreite h = hn erfüllt hn → 0 und nhn → ∞.
Lemma 8.1
Unter den Annahmen A, B und C gilt für den BIAS von fˆn (x; h)
E fˆn (x; h) − f (x) = f ′′ (x)
Beweis
Es ist
E fˆn (x; h) =
Z
h2
2
Z
z 2 K(z)dz + O(h2 ).
f (x − t)K(t/h)/h dt =
Z
(73)
f (x − hz)K(z)dz.
Wegen Annahme B. genügt es, für z ∈ [−M, M ] die Taylorentwicklung
1
f (x − hz) = f (x) − hzf ′ (x) + h2 z 2 f ′′ (ξ)
2
1
= f (x) − hzf ′ (x) + h2 z 2 f ′′ (x) + h2 C(x, z)
2
(74)
zu betrachten. Hier ist ξ = ξx,z ∈ x + [−hM, hM ], C(x, z) = 21 z 2 (f ′′ (ξ) − f ′′ (x)) = O(1)
gleichmäßig in z ∈ [−M, M ], da nach Annahme A f ′′ stetig in x und ξ ∈ x + [−hM, hM ].
Integration von (74) mit K liefert (73).
Lemma 8.2
Unter den Annahmen A, B und C gilt für die Varianz von fˆn (x; h)
Var fˆn (x; h) =
1
nh
Z
K 2 (z)dz · f (x) + O(
1
)
nh
8.3 Integrierter mittlerer quadratischer Fehler
117
Beweis
Für z ∈ [−M, M ] ist f (x − hz) − f (x) = −hzf ′ (ξ), also
f (x − hz) = f (x) + O(h).
Somit
Kh2
Z
1
∗ f (x) =
h
1
f (x − hz)K (z)dz = f (x)
h
2
Die Behauptung folgt dann mit (2).
Z
K 2 (z)dz + O(h)
Aus Lemma 8.1 und 8.2 erhält man
Satz 8.3
Unter den Annahmen A, B und C gilt für den mittleren quadratischen Fehler von fˆn (x; h)
4Z
h
MSE(fˆn (x, h)) = (f ′′ (x))2
4
2
z K(z)dz
2
1
+ f (x)
nh
Z
K 2 (z)dz+O(h4 )+O (nh)−1
(75)
Der Kern-Dichte Schätzer fˆn (x; h) ist also konsistent in der Klasse der C2 Dichten. Für geeignete Wahl von h erhält man auch eine Konvergenzrate.
Korollar 8.4
1
Unter den Annahmen A, B und C gilt für h ≈ n− 5
4
MSE(fˆn (x, h)) = O(n− 5 ).
Man kann zeigen, dass dies auch die optimale Konvergenzrate in der Klasse der bei x zweimal
stetig differenzierbaren Dichten ist, wobei die zweite Ableitung durch eine feste Konstante
beschränkt sein muss. Die Konvergenzrate ist also langsamer als das n−1 im parametrischen
Fall.
relevante R Befehle Die Funktion density berechnet den Kern Dichte Schätzer, der direkt
mit plot geplottet werden kann. Für Optionen siehe nächster Abschnitt.
8.3
Integrierter mittlerer quadratischer Fehler
Der mittlere integrierte quadratische Fehler (MISE) des Schätzers fˆn (x; h) ist definiert durch
Z
Z
2
2
ˆ
ˆ
E f (x, h) − f (x) dx = E
fˆ(x, h) − f (x) dx.
MISE(f (·, h)) =
R
R
Der MISE berücksichtig den quadratischen Fehler von fˆn (x; h) nicht nur an einem Punkt x,
sondern auf ganz R. Daher ist der MISE zur Untersuchung der globalen Eigenschaften von
fˆn (x; h) gut geeignet. Wir benötigen zur Behandlung des MISE noch eine weitere
Annahme D. Es sind f, f ′′ ∈ L2 , und |f ′′ | wird schliesslich monoton.
118
8
NICHTPARAMETRISCHE DICHTESCHÄTZUNG
Wenn man die Darstellung (75) naiv integriert, erhält man also
1
MISE(fˆ(·, h)) =
4
Z
′′
2
4
f (x) dx h
Z
2
z K(z)dz
2
1
+
nh
Z
K 2 (z)dz + O(h4 ) + O(
1
).
nh
Hierbei muss man jedoch aufpassen, da die Restterme in (75) von der Stelle x abhängen.
Unter der Annahme D ist jedoch die Inegration zulässig. Wir geben dafür das Argument für
den integrierten quadratischen Bias, und benutzten die Notation des Beweises von Lemma
8.1.
Sei ǫ > 0, wir müssen h0 > 0 genügend klein finden, so dass für h ≤ h0 gilt:
Z
C(x, z)2 dx < ǫ.
(76)
R
R
Wegen Annahme D kann man A > 0 wählen, so dass |x|>A C(x, z)2 dx < ǫ/2. Da weiter f ′′
auf einem kompakten Intervall gleichmäßig stetig ist, kann man h0 so klein wählen, dass
1/2
|C(x, z)| < ǫ/(4A)
,
|ξ − x| < hM, x ∈ [−A, A].
Es ergibt sich (76).
Wenn man die Restterme unberücksichtigt lässt, erhält man den asymptotischen MISE
Z
1 4 2
ν0 (K)
ˆ
AMISE(f (·, h)) = h µ2 (K)
f ′′ (x)2 dx +
,
(77)
4
nh
wobei
ν0 (K) =
Z
2
K (z)dz,
µ2 (K) =
Z
z 2 K(z)dz.
Durch Ableiten von AMISE(fˆ(·, h)) nach h und Null setzen erhält man die AMISE-optimale
Bandbreite
1
ν0 (K)
5
R
hopt =
,
(78)
nµ22 (K) f ′′ (x)2 dx
sowie den minimalen AMISE
5 4
min AMISE(fˆ(·, h)) = n− 5 µ2 (K)2 ν04 (K)
h>0
4
Z
f ′′ (x)2 dx
1
5
.
(79)
Die Bandbreite hopt hängt von dem unbekannten f durch die zweite Ableitung f ′′ ab, und
kann daher nicht direkt benutzt werden. Im nächsten Abschnitt werden wir uns mit der
praktischen Bandbreitenwahl beschäftigen.
Kernwahl
Für die optimale Bandbreite
R ′′ 2 hopt hängt der minimale AMISE in (79) noch von der Wahl
des Kerns sowie von f (x) dx ab. Um den AMISE möglichst klein zu machen, sollte K so
gewählt werden, dass
1
C(K) := µ2 (K)2 ν04 (K) 5
minimal wird. Zunächst bemerken wir, dass C(K) nicht von der Skalierung des Kerns K
abhängt. Für eine Skalenfamilie Kδ (x) = K(x/δ)/δ von Kernen gilt
ν0 (Kδ ) = R(K)/δ,
µ2 (Kδ ) = δ 2 µ2 (K),
8.3 Integrierter mittlerer quadratischer Fehler
119
und somit C(K) = C(Kδ ).
Man kann nun den Kern (bzw. einen Repräsentaten der Skalenfamilie) mit minimalem C(K)
explizit angeben. Dies ist der sogenannte Epanechnikov-Kern
3
K ∗ (x) = (1 − x2 )1|x|<1 ,
4
vgl. etwa REFERENZ! Weitere häufig benutzte Kerne sind
K(x) = (1 − |x|)1|x|<1
K(x) =
Dreieckskern,
x2 )2 1|x|<1
(1 −
25 B(3, 3)
K(x) = φ(x)
1
K(x) = 1|x|<1
2
Biweight Kern,
Normalverteilungskern,
Rechteckskern.
Für den Normalverteilungskern K(x) = φ(x) ist Annahme B eines kompakten Trägers nicht
erfüllt. Dennoch kann man zeigen, dass Satz 8.3 sowie die asymptotische Formel für den minimalen MISE (79) auch für diesen Kern gelten (REFERENZ!). Die folgende Tabelle vergleicht
die Kernkonstante C(K) mit der des optimalen Epanechnikov Kerns.
Kern
Epanechnikov
Dreieckskern
Biweight
Normalverteilungskern
Rechteckskern
C(K ∗ )/C(K)
1
0,986
0,994
0,951
0,930
Die Kernwahl hat also sowohl theoretisch als auch praktisch relativ wenig Einfluss auf die
Güte der Dichteschätzung. Der Dichte Schätzer ist aber nur so glatt wie der gewählte Kern.
Am häufigsten benutzt man den Normalverteilungskern.
Wir gehen noch kurz auf den Zusammenhang zwischen Histogramm und Kern-Dichte Schätzer
mit dem Rechteckskern ein. Für eine Unterteilung a0 < a1 < . . . < ad , für die alle Daten in
(a0 , ad ) liegen, setzte
ns = #{k : Xk ∈ (as−1 , as ]},
s = 1, . . . , d.
Das Histogramm ist nun der Dichte Schätzer
fnHist (x) =
d
X
ns
s=1
n
·
1
1
(x).
as − as−1 (as−1 ,as ]
Der Kern-Dichte-Schätzer mit Rechteckskern berechnet sich dagegen zu
n
#{k : Xk ∈ (x − h, x + h)} 1
1 X
1(−h,h) (x − Xk ) =
·
.
fˆn (x; h) =
2nh
n
2h
k=1
120
8
NICHTPARAMETRISCHE DICHTESCHÄTZUNG
Die Form ist zunächst recht ähnlich zu der eines Histogramms, aber bei dem Kern-Dichte
Schätzer wird keine feste Zerlegung des Intervalles betrachtet, sondern diese variieren mit x.
Man kan zeigen (REFERENZ), dass der Histogramm Schätzer fnHist (x) nur eine Konvergenzrate von n−2/3 erreichen kann, während fˆn (x, h) für zweimal differenzierbares f die schnellere
Rate von n−4/5 erreicht.
Wie schwer ist es, f zu schätzen?
R
Der minimale AMISE in (79) hängt auch von der zu schätzenden Dichte f über f ′′ (x)2 dx
ab. Man kann nun untersuchen, wie schwer es ist, eine bestimmte Dichte mit dem Kern-Dichte
Schätzer zu schätzen, indem man
R diese Größe weiter untersucht.
Zunächst bemerken wir, dass f ′′ (x)2 dx von der Skalierung abhängt. Für fδ (x) = f (x/δ)/δ
ist
Z
Z
1
′′
2
fδ (y) dy = 5 f ′′ (x)2 dx.
δ
Ein Vergleich ist aber nur für ein skaleninvariantes Maß sinnvoll. Ein mögliches skaleninvariantes Maß ist etwa
Z
1
4
5
D(f ) = σ (f ) f ′′ (x)2 dx ,
(80)
wobei
2
σ (f ) =
Z
2
(x −
Z
xf (x)dx)2 dx.
Dann ist in der Tat D(f ) = D(fa ). Die Wahl von σ 2 (f ) in (80) ist aber relativ willkürlich.
Man kann die Dichte mit minimalem D(f ) auch explizit angeben (s. REFERENZ). Diese ist
f ∗ (x) =
35
(1 − x2 )3 1|x|<1 .
32
Wie schwer es ist, eine Dichte zu schätzen, kann nun in Relation zu f ∗ betrachtet werden.
Dichte
Beta(4,4)
Normal
4
1
4
1
2 N (−1, 9 ) + 2 N (1, 9 )
Gamma(3)
Lognormal
D(f ∗ )/D(f )
1
0,908
0,536
0,327
0,053
Die Lognormalverteilung dient daher häufig als Beispiel für eine besonders schwer zu schätzende Dichte.
relevante R Befehle
Als Option von density kann kernel gesetzt werden
(z.B. kernel="epanechnikov"). Default ist der Gauß Kern. Mit hist erhält man ein Histogramm.
8.4 Bandbreitenwahl
8.4
121
Bandbreitenwahl
Der Kern-Dichte Schätzer hängt sensitiv von der Wahl der Bandbreite h ab. In der Praxis
betrachtet man den Schätzer fˆn (x; h) häufig für verschiedene Bandbreiten. Grob gesprochen
kann man sagen: Ist h zu klein, so wird der Schätzer stark oszillieren, ist dagegen h zu groß
gewählt, ist der Schätzer zu glatt bzw. flach.
Man versucht auch, geeignete Werte der Bandbreite aus den Daten zu schätzen. Meist ist
dabei dass Ziel, die MISE optimale Bandbreite oder auch die AMISE optimale Bandbreite
hopt in (78) zu schätzen. Manchmal ist dies aber auch nicht unbedingt wünschenswert, etwa bei
der Konstruktion von Konfidenzntervallen für f (x) sowie für bestimmte deskriptive Zwecke.
Wir beginnen mit Verfahren zur Schätzung der MISE/AMISE optimalen Bandbreite.
a. Referenz zur Normalverteilung (normal reference)
Hier wählt man hopt optimal für ein normalverteiltes f . Ist f Dichte von N (µ, σ 2 ), dann ist
(Beweis)
Z
3
f ′′ (x)2 dx =
.
1
8π 2 σ 5
Somit ist
8π 12 ν (K) 1
5
0
hopt,norm =
σ.
3n(µ2 (K))2
Schätze hopt,norm durch
ĥN R
8π 12 ν (K) 1
5
0
σ̂,
=
2
3n(µ2 (K))
wobei σ̂ ein Schätzer der Standardabweichung ist. Natürlich ist hopt,norm nur für normalverteiltes f optimal. Da die Dichte der Normalverteilung sehr glatt ist, wird ansonsten hopt,norm
tendenziell größer sein als hopt für eine andere Dichte. Man kann daher hopt, normal als ersten
Richtwert benutzen, und dann h noch schrittweise verkleinern.
b. Least squares cross-validation
Bei diesem Verfahren versucht man, direkt eine MISE-optimale Bandbreite zu wählen. Dazu
entwickelt man
Z
Z
Z
2
ˆ
ˆ
ˆ
MISE f (·, h) = E f (x, h) dx − 2E f (x, h)f (x)dx + f 2 (x)dx.
Um also MISE(fˆ(·, h)) bezüglich der Bandbreite h zu minimieren, genügt es also,
Z
Z
Z
2
2
ˆ
ˆ
MISE f (·; h) − f (x)dx = E f (x; h) dx − 2E fˆ(x; h)f (x)dx
zu minimieren. Die rechte Seite von (81) wird erwartungstreu geschätzt durch
Z
n
2Xˆ
f−i (Xi ; h),
LSCV(h) = fˆ(x, h)2 dx −
n
i=1
wobei
fˆ−i (x; h) =
1 X
Kh (x − Xj ).
n−1
j6=i
(81)
122
8
NICHTPARAMETRISCHE DICHTESCHÄTZUNG
Hierzu beachte, dass
E
Z
fˆn (x; h)f (x)dx =
Z
EKh (x − X1 )f (x)dx
Z Z
=
Kh (x − y)f (x)f (y)dx dy
= EKh (X1 − X2 )
Dies ist aber offensichtlich der Erwartungswert von fˆ−i (Xi ; h). Man wählt nun
ĥLSCV = argminh>0 LSCV(h).
Das Wort Cross-Validierung bezieht sich auf die Verwendung der Schätzer fˆ−i (Xi ; h), die ohne
die i-te Beobachtung berechnet werden, und dann an dieser Stelle ausgewertet werden.
Der Bandbreiten Schätzer ĥLSCV hat eine sehr hohe Variabilität, und wird daher eher selten
verwendet.
c. Biased cross-validation
Hier
R ′′ soll2 die AMISE-optimale Bandbreite geschätzt werden. Man betrachtet (77), und ersetzt
f (x) dx durch einen Schätzer, der auch die Bandbreite h verwendet. Dazu entwickele
Z
Z
Z
1 X
1 X
fˆ′′ (x, h)2 dx = 2
(Kh )′′ (x − Xi )(Kh )′′ (x − Xj )dx + 2
((Kh )′′ (x − Xi ))2 dx
n
n
i
i6=j
Nun ist
Z
((Kh )′′ (x − Xi ))2 dx =
1
h5
Z
(K ′′ )2 (x)dx
unabhängig von Xi und man verwendet als Schätzer von
R
f ′′ (x)2 dx
1
′′ , h) = R(fˆ′′ (·, h)) −
^
R(K ′′ )
R(f
nh5
Als Zielkriterium erhält man
BCV(h) =
R(K) h4
′′ , h)
^
+ µ2 (k)2 R(f
nh
4
und als Bandbreiten Schätzer
ĥBCV = argminh>0 BCV(h).
Der Schätzer ĥBCV hat zwar eine geringere Varianz als ĥLSCV , überschätzt aber die optimale
Bandbreite häufig (hat also einen positiven Bias).
d. Weitere Bandbreitenverfahren
Es gibt eine Vielzahl von weiteren Bandbreitenwahlverfahren, die etwa mit den Stichworten
“direct Plug-in” oder “solve-the-equation” verbunden werden. Man kann Bandbreitenwahlverfahren auch theoretisch untersuchen, und Konvergenzraten gegen die optimale Bandbreite
studieren. Für weitere Information siehe etwa Wand und Jones (1996).
8.4 Bandbreitenwahl
123
relevante R Befehle
Die Bandbreite wird bei density durch bw=.. gesetzt. Dabei sind
folgende Möglichkeiten implementiert: bw="nrd0" und bw="nrd" (Varianten von normal reference), bw="ucd" und bw="bcd" (unbiased und biased cross validation), bw="SJ-ste" und
bw="SJ-dpi" (solve-the-equation und direct plug in). Die Bandbreiten können auch separat
berechnet werden über die Funktionen bw.nrd, bw.nrd0, bw.ucv, bw.bcv, bw.SJ mit den
Optionen method="ste" und method="dpi".
Konstruktion von Konfidenzintervallen
Es ist nicht immer wünschenswert, die MISE / AMISE-optimale Bandbreite zu benutzen bzw.
zu schätzen. Zur Illustration betrachten wir die Konstruktion von Konfidenzintervallen für
f (x).
Satz 8.5
Unter den Annahmen A, B und C gilt
Beweis
Schreibe
d
1
(nh) 2 fˆn (x; h) − E fˆn (x; h) → N (0, f (x)
Z
K 2 (z)dz)
n
1X
(Zk,n − EZk,n ),
fˆn (x; h) − E fˆn (x; h) =
n
k=1
wobei Zk,n = Kh (x − Xk ) unabhängig und identisch verteilt sind (1 ≤ k ≤ n) für jedes n.
Somit genügt es, die Lyapunov-Bedingung zu prüfen: Für ein δ > 0 gilt
E|Z1,n − EZ1,n |2+δ
δ
δ
n 2 (Var Z1,n )1+ 2
→ 0, n → ∞
Zunächste ist nach Lemma 8.2
Var Z1,n
f (x)
≈
h
Z
K 2 (z)dz.
Für das unzentrierte Moment gilt
E|Z1,n |2+δ =
=
≈
1
h2+δ
1
Z
Z
|K(
x − y 2+δ
)| f (y)dy
h
K(y)2+δ f (x − hy)dy
h1+δ
Z
1
f
(x)
K(y)2+δ dy,
h1+δ
R
wobei K(y)2+δ dy < ∞, da K beschränkt ist und kompaktem Träger hat. Weiter gilt nach
der Minkowski-Ungleichung
1
1
(E|Z1,n − EZ1,n |2+δ ) 2+δ ≤ (E|Z1,n |2+δ ) 2+δ + E|Z1,n |
und nach Hölder
1
E|Z1,n | ≤ (E|Z1,n |2+δ ) 2+δ ,
124
8
NICHTPARAMETRISCHE DICHTESCHÄTZUNG
also
E|Z1,n − EZ1,n |2+δ ≤ 22+δ E|Z1,n |2+δ .
Daher ist
E|Z1,n − EZ1,n |2+δ
δ
2
1+ 2δ
n (Var Z1,n )
= O(
1
h1+δ
δ
·
h1+ 2
n
δ
2
δ
) = O (hn)− 2 ,
welches mit Annahme C die Lyapounov Bedingung zeigt.
Man kann Satz 8.5 nutzen, um Konfidenzintervalle für E fˆn (x; h) zu konstruieren. Ist q1−α/2
das 1 − α/2 Quantil der Standardnormalverteilung, so ergibt sich
q
q
h
fˆn (x; h) ν0 (K)q1−α/2
fˆn (x; h) ν0 (K)q1−α/2 i
√
√
fˆn (x; h) −
, fˆn (x; h) +
(82)
nh
nh
als asymptotisches Konfidenzintervall für E fˆn (x; h). Bei der Berechnung der Kernkonstante
ν0 (K) in (82) ist darauf zu achten, dass man den richtig skalierten Kern Kδ der entsprechenden
Skalenfamilie (der zur Bandbreite H gehört) wählt. Für den Standardnormalverteilungskern
√
(dieser wird bei density verwendet) ergibt sich z.B. ν0 (K) = 1/(2 π).
Möchte man Konfidenzintervalle für f (x) konstruieren, so muss man noch den Bias E fˆn (x; h)−
f (x) beachten. Hier hat man drei Möglichkeiten.
a. Man ignoriert den Bias, und konstruiert nur ein Konfidenzintervall für Kh ∗ f (x).
1
b. Undersmoothing
Man wählt h → 0 derart, dass (nh) 2 E fˆ(x; h) − f (x) → 0. Da
1
|E fˆ(x; h) − f (x)| ≈ h2 , muss man h = o(n− 5 ) wählen, also mit kleinere Rate als die optimale
Bandbreite hopt . Dies nennt man unterglätten, hier ist es jedoch in der Praxis sehr schwierig,
das richtige Maß an Unterglättung zu finden.
c. Explizite Bias-Korrektur Man schätzt f ′′ (x) und somit den ersten Term f ′′ (x)h2 µ2 (K)
in der Entwicklung des Bias in Lemma 8.1, und subtrahiert, d.h. betrachtet
1
1
(nh) 2 fˆn (x; h) − f (x) − fˆ′′ (x; h̃)h2 µ2 (K))
2
Nach Bias-Korrektur kann in der Theorie hopt verwendet werden. Das Problem ist jedoch, dass
die Schätzung von f ′′ sehr schwierig ist, und eine eigene Bandbreitenwahl erfordert. Somit ist
dies Verfahren für die Praxis wenig geeignet.
Anzahl der Moden
Eine Mode einer Dichte oder allgemeiner einer Funktion ist einfach ein lokales Maximum. Offenbar nimmt tendenziell die Anzahl der Moden von fˆn (·; h) für wachsendes h ab, der Schätzer
wird immer glatter und weniger “hügelig”. In der Tat kann man fˆn (·; h) mit verschiedenen
Bandbreiten auch zum Studium der Anzahl der Moden von f verwenden.
Wir gehen etwas allgemeiner vor. Ein Schätzer für die j-te Ableitung von f ist gegeben durch
fˆn(j) (x; h) =
n
1 X (j) x − Xj
K (
)
nhj+1
h
k=1
(83)
8.4 Bandbreitenwahl
Setze
125
vj (h, I) := #{Moden von fˆn(j) (·, h) in I}, I ⊂ R,
vj (h) := vj (h, R)
Für den Normalverteilungskern ist der oben beobachtete tendenzielle monoton fallende Zusammenhang zwischen Bandbreite h und Anzahl der Moden von fˆn (·; h) exakt vorhanden.
Satz 8.6
Sei K = φ in (83) der Normalverteilungskern. Dann gilt vj (h) < ∞ ∀h > 0, j = 0, 1, 2, . . .,
und vj (·) ist monoton fallend und rechtsseitig stetig.
Beweis
(j+1)
Sei µj+1 (h) = #{Vorzeichenwechsel von fˆn
(·; h)}. Es ist φ(j+1) (x) = (−1)j+1 Hj+1 (x)φ(x),
j+1
wobei Hj+1 (x) = x
+ . . . das (wahrscheinlichkeitstheoretische) (j+1)-te Hermite-Polynom
ist, also
n
x − X x − X 1 X
k
k
(j+1)
ˆ
H
fn
(x; h) =
φ
.
j+1
j+1
nh
h
h
k=1
(j+1)
Somit gilt (−x)j+1 fˆn
(x; h) > 0 für |x| groß. Daraus folgt, dass
vj (h) =
µj+1 (h)
,
2
(84)
(j+1)
und das alle Vorzeichenwechsel von fˆn
(x; h) in einem kompakten Intervall liegen. Nun
(j+1)
ist fˆn
(z; h) offenbar als Funktion von z ∈ C holomorph in ganz C. Nullstellen (und somit
Vorzeichenwechsel) können sich somit nach dem Identitätssatz der Funktionentheorie nirgends
(j+1)
(j+1)
häufen, da sonst fˆn
≡ 0. Also kann fˆn
nur endlich viele Nullstellen und somit auch
Vorzeichenwechsel in einem kompaktem Intervall haben, also µj+1 (h) < ∞, und wegen (84)
auch vj (h) < ∞.
Wegen (84) genügt es, die Monotonie und rechtseitige Stetigkeit für µj+1 (h) zu zeigen. Dazu
(j+1)
betrachte wir die Fourier-Transformation (charakteristische Funktion) von fˆn
(·, h), die
sich zu
Z
(j+1)
ˆ
fˆn(j+1) (x; h)eitx dx = φ(ht)(−it)j+1 · ecn (t)
(·; h) (t) =
F fn
R
berechnet, wobei
n
ecn (t) =
1 X itXk
e
n
k=1
die empirische charakteristische Funktion bezeichnet. Somit ist für h2 > h1 > 0:
F fˆn(j+1) (·, h2 ) (t) = ecn (t) · φ(h2 t) · (−it)j+1
1
Daher ist
= ecn (t) · (−it)j+1 · φ(h1 t) · φ((h22 − h21 ) 2 t)
1 = F fˆn(j+1) (·, h1 ) (t) · φ (h22 − h21 ) 2 t
1
fˆn(j+1) (x; h2 ) = (fˆn(j+1) (·, h1 ) ∗ φ ·; (h22 − h21 ) 2 (x),
126
8
NICHTPARAMETRISCHE DICHTESCHÄTZUNG
wobei φ(x; σ) die Dichte von N (0, σ 2 ) ist. Da diese total positiv ist, folgt, dass die Faltung
1
mit φ ·; (h22 − h21 ) 2 die Anzahl der Vorzeichenwechsel µj+1 (h) reduziert. Somit ist µj+1 (h)
monoton fallend in h.
Es bleibt die rechtsseitige Stetigkeit zu zeigen. Wir betrachten etwa gerades j, und es seien
(j+1)
(j+1)
a1 < b1 < . . . < ar < br , so dass fn
(ai , h0 ) < 0, fn
(bi , h0 ) > 0, also dass jeweils ein
(j+1)
Vorzeichenwechsel zwischen diesen Punkten liege. Wegen der Stetigkeit von fn
(ai , ·) bzw.
(j+1)
fn
(bi , ·) gilt dies auch für h ∈ (h0 , h0 + ε). Daher gilt
lim µj+1 (h) ≥ µj+1 (h0 ).
h↓h0
Da µj+1 (h) aber monoton fallend ist, muss hier Gleichheit stehen, welches die rechtsseitige
Stetigkeit ergibt.
Satz 8.6 zeigt, dass für den Normalverteilungskern die sogenannte k-kritische Bandbreite
hkrit (k) = inf{h : fˆn (·; h) hat k (oder weniger) Moden}
wohldefiniert ist. Die Untersuchung des Dichte Schätzers für verschiedene kritische Bandbreiten
k = 1, 2, 3, . . . ,
fˆn ·; hkrit (k) ,
ist ein gutes deskriptives Tool, um eine Vorstellung von der Anzahl und der Struktur der Moden von f zu bekommen. Man kann die kritischen Bandbreiten hkrit (k) auch zur Konstruktion
eines formalen Tests auf die Anzahl der Moden nutzen, s. Silverman (1981).
8.5
Modifikationen des Kern-Dichte Schätzers
Manchmal sind Modifikationen des einfachen Kern-Dichte Schätzers nötig, um die Schätzung
konsistent zu machen oder zu verbessern. Wir betrachten einige solche Situationen.
a. Randkorrektur
Bisher hatten wir angenommen, dass f um x herum zweimal stetig differenzierbar ist. Nun
betrachten wir den Fall, dass x ein Randpunkt des Trägers von f ist.
Wir nehmen dazu speziell an, dass f (x) = 0 für x < 0, f (x) > 0 für x ≥ 0 und f ist zweimal
stetig rechtseitig differenzierbar in 0. Der symmetrische Kern K habe Träger in [−1, 1]. Dann
ist für die Kern-Dichte Schätzung
E fˆn (x; h) = Kh ∗ f (x) =
Z
R
K(z)f (x − hz)dz =
Z
min(x/h,1)
−1
K(z)f (x − hz)dz
Für x = 0 ist speziell
Kh ∗ f (0) =
Z
0
1
K(z)f (0 − hz)dz = f (0) + O(h),
2
−1
8.5 Modifikationen des Kern-Dichte Schätzers
127
die Schätzung ist also asymptotisch bei 0 verzerrt und unterschätzt f (0).
Man betrachtet nun allgemeiner einen Randpunkt (genauer: Folge von Randpunkten) xn =
α · h, wobei 0 ≤ α < 1. Dann
Z α
K(z)f (xn − hz)dz
Kh ∗ f (xn ) =
−1
1
= f (xn ) · µ0,α (K) − hf ′ (xn )µ1,α (K) + h2 f ′′ (xn )µ2,α (K) + O(h2 ),
2
wobei
µi,α (K) =
Z
α
z i K(z)dz.
−1
Da für α < 1 in der Regel µ0,α (K) < 1, hat der Schätzer bei einer Folge von Randpunkten
einen asymptotischen Bias. Man hat verschiedene Möglichkeiten, diesen zu korrigieren.
1. Renormalisierung. Für xn = α · h, 0 ≤ α < 1, renormalisiere den Schätzer
f˜n (xn , h) =
1
nµ0,α (K)
n
X
k=1
Kh (x − Xk )
Dann gilt
E f˜n (xn , h) − f (xn ) = −hf ′ (xn )
µ1,α (K)
+ O(h2 )
µ0,α (K)
Man erhält also eine konsistente Schätzung. Da aber µ1,α (K) 6= 0, hat der Bias Ordnung O(h)
und nicht O(h2 ), wie im Fall von inneren Punkten.
2. Randkern. Für xn = α · h, 0 ≤ α < 1, benutze den von α abhängigen Randkern
Kα (u) = tα (u)K(u)1[−1,α) (u)
bei der Konstruktion von fˆn (xn ; h). Dabei erfülle die Funktion tα (u)
Z α
Z α
ntα (n)K(n)dn = 0
tα (n)K(n)dn = 1,
(85)
−1
−1
In diesem Fall ergibt sich für den Bias wie gewünscht
Z α
1 2 ′′
u2 tα (u)K(u)du + o(h2 ),
Kα,h ∗ f (xn ) − f (xn ) = h f (xn )
2
−1
also ein Fehler der Ordnung O(h2 ). Für die Wahl der Funktion tα (n) hat man viele Möglichkeiten. Eine besonders einfache ist ein linearer Ansatz tα (n) = aα + nbα . Setzt man diese
Form in (85) ein und integriert aus, erhält man ein lineares Gleichungssystem in aα , bα
aα =
µ2,α
,
µ2,α µ0,α − µ21,α
bα = −
µ1,α
.
µ2,α µ0,α − µ21,α
b. Transformation
Angenommen, gegeben seien X1 , . . . , Xn ∼ f , aber die Dichte f sei schwer zu schätzen (etwa
128
8
NICHTPARAMETRISCHE DICHTESCHÄTZUNG
die Lognormalverteilung). Dann kann man Yi = T (Xi ) setzten, wobei T eine streng monotone
Transformation ist (etwa logarithmieren). Dann gilt für die Dichte g der Yi
f (x) = g(T (x)) · T ′ (x).
(86)
Dies ergibt sich direkt aus P (X1 ≤ x) = P (T −1 (Y1 ) ≤ x) = P (Y1 ≤ T (x)) und Ableiten.
Man berechnet nun den Kern-Dichte Schätzer der Yi , und wendet dann (86) an, um folgenden
Schätzer für f zu erhalten
n
1X
Kh (T (x) − T (Xk )) · T ′ (x).
fˆnT (x; h) =
n
k=1
c. lokale und variable Bandbreitenwahl. Man kann auch die Bandbreite im Kern-Dichte
Schätzer a. lokal, also in Abhängigkeit von x, oder b. variabel, also in Abhängigkeit der
Beobachtung Xi , wählen. Wir wollen hierauf nicht genauer eingehen und verweisen auf Wand
and Jones (1996).
8.6
Multivariate Kern-Dichte Schätzung
Dichte Schätzung wird besonders zur deskriptiven Analyse univariater Verteilungen genutzt.
Man kann aber auch Dichte von d-variaten Zufallsvektoren mit Hilfe der Kern-Dichte Schätzung
schätzen. Hier ist besonders der Fall bivariate Fall (d = 2) interessant, für d ≥ 3 ist es häufig
schwierig, die Schätzergebnisse zu interpretieren.
T
Gegeben seien Xi = X11 , . . . , Xid
i = 1, . . . , n, unabhängige und identisch verteilte Zufallsvektoren im Rd mit Dichte f , also
Z
f (x)dx,
A ⊂ Rd
messbar.
P (X1 ∈ A) =
A
R
Für einen d-variaten Kern K : Rd → R, also K ∈ L1 , K(x)dx = 1, sowie eine symmetrisch
positiv definite Bandbreitenmatrix H ∈ Rd×d setzt man
KH (x) =
1
K H −1 (x) .
|H|
Dann ist der d-variate Kern-Dichte Schätzer mit Kern K und Bandbreitenmatirx H definiert
duch
n
1X
ˆ
KH (x − Xk ).
fn (x; H) =
n
k=1
Häufig konstruiert
man den Kern K mit Hilfe eines zugrundeliegenden univariaten Kerns
R
L : R → R ( L = 1). Es gibt mehrere Möglichkeiten:
Q
a. Produktkern: K(x) = dk=1 L(xk ), x = (x1 , . . . , xd )T .
1
b. Rotationsinvarianter Kern K(x) = CL,d L((xT x) 2 ), wobei CL,d eine Normierungskonstante
8.6 Multivariate Kern-Dichte Schätzung
129
ist.
Der am häufigsten verwendete multivariate Kern ist der Normalverteilungskern, der sowohl
ein Produktkern als auch ein rotationsinvarianter Kern ist:
1
1
− xT x .
K(x) =
d exp
2
(2π) 2
Auch bei der Wahl der Bandbreitenmatrix beschränkt man sich häufig auf eine einfache
Diagonalgestalt H = diag(h1 , . . . , hd ), für die sich
fˆn (x; H) =
n
1
Q
j
hj
n
X
K
k=1
x − X
xd − Xkd 1
k1
,...,
h1
hd
als Schätzer ergibt, oder sogar H = h · Id , wobei sich der Schätzer zu
n
1 X x − Xk fˆn (x; H) =
K
nhd
h
k=1
reduziert.
Wir wollen nun den mittleren quadratischen Fehler für einen multivariaten Kern-Dichte
Schätzer untersuchen. Zunächst erinnern wir dabei an die
Multivariate Taylorsche Formel:
ist für z → 0
Sei g : Rd → R zweimal stetig partiell differenzierbar, dann
1
g(x + z) = g(x) + grad(g)(x) · z + zT H(g)z + o(zT z),
2
wobei
grad(g)(x) =
Annahmen:
∂
∂
g(x), . . . ,
g(x) ,
∂x1
∂xd
H(g)(x) =
∂ ∂
.
g(x)
∂xj ∂xk
j,k=1,...,d
a. Die Dichte f ist zweimal stetig differenzierbar in x ∈ Rd .
b. Für die Bandbreitenmatrix gilt H = Hn → 0, n · |H| → ∞, sowie
λmax (Hn )
≤ C,
λmin (Hn )
wobei λmax (H) und λmin (H) den größten und kleinsten Eigenwert von H bezeichnen.
R
c. Der Kern K : Rd → [0, ∞) ist nicht-negativ, hat kompakten Träger, es gelten K = 1
sowie
Z
Z
zK(z)dz = 0,
zzT K(z)dz = µ2 (K)Id .
Die zweite obige Bedingung lautet ausgeschrieben
Z
zi2 K(z)dz = µ2 (K), i = 1, . . . , d,
Z
zi zj K(z)dz = 0, i 6= j.
130
8
NICHTPARAMETRISCHE DICHTESCHÄTZUNG
Satz 8.7
Unter den Annahmen a., b. und c. gilt für den mittleren quadratischen Fehler des d-variaten
Kern-Dichte Schätzers
2 2
1
1
1
MSE(fˆn (x; H)) = µ22 (K) Spur H 2 H(f )(x) +
ν0 (K)f (x)+o Spur(H 2 ) +o(
).
4
n|H|
n|H|
Beweis
Wir berechnen Bias und Varianz des Schätzers. Für den Bias erhält man mit der Taylorschen
Formel
Z
ˆ
E fn (x; H) =
KH (x − y)f (y)dy
Z
=
K(z)f (x − hz)dz
Z
1
=
K(z) f (x) − grad(f )(x) · Hz + zT HH(f )(x)Hz + o(zT H 2 z) dz
2
Z
Z
1
T
K(z) Spur zz HH(f )(x)H dz + o Spur
K(z)zzT H 2 dz
= f (x) +
2
Z
1
= f (x) + Spur
K(z)zzT dzHH(f )(x)H + o(Spur H 2 )
2
1
= f (x) + Spur µ2 (K)IHH(f )(x)H + o(Spur H 2 )
2
1
= f (x) + µ2 (K) Spur H 2 H(f )(x) + o(Spur H 2 ),
2
wobei wir in der zweiten Gleichheit die Substitution z = H −1 (x − y) verwendet haben, und
die Linearität des Spur-Operator ausgenutzt haben. Für die Varianz ergibt sich
Z
1
2
ˆ
KH
(x − y)f (y)dy − O(1)
Var fn (x; H) =
n
Z
1 1
=
K 2 (z)f (x − Hz)dz + O(1)
n |H|
ν0 (K)f (x)
1 + o(1) .
=
n|H|
Aus Satz 8.7 kann man auch eine Rate für den MSE herleiten. Unter Annahme b. ist
λmax (Hn ) = O λmin (Hn ) , daher hat man
MSE(fˆn (x; H)) = O(λ4min +
1
).
nλdmin
1
Für λmin ≈ n− 4+d erhält man die Rate
4
MSE(fˆn (x; H)) = O(n− 4+d ).
(87)
Man kann zeigen, dass dies auch die optimale Rate (über eine Klasse von zweimal differenzierbaren Dichten) ist. Offenbar wird diese konvergenzrate mit wachsendem d langsamer. Dies
8.6 Multivariate Kern-Dichte Schätzung
131
ist bei parametrischen Schätzproblemen nicht der Fall, dort behält man eine n−1 Rate (allerdings werden die Schätzung dennoch schwerer, was sich in größeren Konstanten äußert). Man
spricht daher auch in (87) von dem Fluch der Dimension (curse of dimensionality).
Für weitere Informationen zur multivariaten Dichte Schätzung (Bandbreitenwahl, Kernwahl,
MISE) verweisen wir auf Wand und Jones (1996).
relevante R Befehle
Die library MASS enthält die Funktion kde2d, die zweidimensionale
Dichtenschätzungen durchführt. Es wird der bivariate Normalverteilungskern verwendet, und
die Bandbreite ist eine Diagonalmatrix. Dabei ist darauf zu achten, dass der Kern anders
skaliert ist als in density mit bw (nämlich wie dort mit der Option width). Daher müssen
auch andere komponentenweisen Bandbreiten verwendet werden (etwa width.SJ(DATEN),
mit den beiden Möglichkeiten für method). Die geschätzte Dichte kann geplottet werden mit
persp, oder interaktiv in der library rgl durch persp3d.
132
9
9.1
9 NICHTPARAMETRISCHE REGRESSION
Nichtparametrische Regression
Problemstellung und Modelle
Die nichtparametrische Regression steht zur linearen und nichtlinearen Regression wie die
nichtparametrische Dichteschätzung zur parametrischen Dichteschätzung. Wir betrachten also
(Yi , xi )i=1,...,n unabhängig, wobei Yi ∈ R die abhängige Variable und xi ∈ R eine univariate
Kovariable sind.
Bei der einfachen linearen Regression modelliert man
Yi = β0 + β1 xi + εi ,
wobei Eεi = 0. Somit ist EYi = β0 +β1 xi eine lineare Funktion der Kovariable xi . Allgemeiner
können auch endlich viele feste Basisfunktionen betrachtet werden, etwa Polynome p-ten
Grades. Dies ergibt
Yi = β0 + β1 xi + . . . + βp xp + εi ,
und dann ist EYi = β0 + β1 xi + . . . + βp xp eine Linearkombination dieser endlich vielen
festen Basisfunktionen, und ist daher bis auf endlich viele Parameter bestimmt. Auch bei der
nichtlinearen Regression liegen endlich viele Parameter zugrunde, nur dass diese nichtlinear
in die Abhängigkeit des Erwartungswertes EYi eingehen.
Wir möchten nun einen Zusammenhang der Form
Yi = m(xi ) + εi ,
Eεi = 0,
schätzen, wobei m eine glatte, aber ansonsten nicht weiter spezifizierte Funktion ist, die also
nicht nur bis auf endlich viele Parameter bestimmt ist.
Von einem praktischen Gesichtspunkt her ist nichtparametrische Regression vor allem für univariaten Prädiktor xi nützlich, für multivariate Prädiktoren ergeben sich ähnliche Probleme
wie bei multivariater Dichte Schätzung.
Wir betrachten folgende nichtparametrische Regressionsmodelle.
a. Festes Design.
Man hat unabhängige Beobachtungen (Yi , xi )i=1,...,n , wobei xi ∈ R feste
Designpunkte sind, und es liegt ein Zusammenhang
1
Yi = m(xi ) + v 2 (xi ) · εi
(88)
zugrunde, wobei ε1 , . . . , εn unabhängig und identisch verteilt sind mit Eε1 = 0 und Var ε1 = 1.
Für die Regressionsfunktion m gilt m ∈ C 1 , und für die Varianzfunktion v gilt v > 0 und
v ∈ C 1.
EYi = m(xi ), Var Yi = v(xi )
Falls v(xi ) = σ 2 heißt das Modell homoskedastisch, sonst heteroskedastisch.
b. Zufälliges Design.
Hier hat man unabhängige und identisch verteilte Beobachtungen
(Yi , Xi )i=1,...,n nach dem Modell
1
Yi = m(Xi ) + v 2 (Xi ) · εi ,
(89)
9.2 Lineare Glätter
133
wobei ε1 , . . . , εn unabhängig und identisch verteilt sind mit Eε1 = 0 und Var ε1 = 1, und die
X1 , . . . , Xn unabhängig und identisch verteilt und unabhängig von den εj sind. Dann ist
E(Y1 |X1 = x) = m(x),
Var(Y1 |X1 = x) = v(x),
m heißt wieder Regressionsfunktion und v Varianzfunktion.
Wir werden uns im Folgenden mit der Schätzung der Regressionsfunktion m im zufälligen
Design beschäftigen.
9.2
Lineare Glätter
Definition 9.1
Ein Schätzer m̂n (x) für m(x) im nichtparametrischen Regressionsmodell (89) mit zufälligem
Design heißt linearer Glätter (linear smoother), falls
m̂n (x) =
n
X
Wk (x, X1 , . . . , Xn )Yk ,
k=1
wobei die Gewichte Wk (x, X1 , . . . , Xn ), k = 1, . . . , n nicht von den Y1 , . . . , Yn abhängen.
Die Definition des lineare Glätters überträgt sich auf das feste Design (88), indem man einfach
Xi durch xi ersetzt.
Wir betrachten einige Beispiele
R für lineare Glätter, die auf Kern-Glättung basieren. Dazu sei
K ein symmetrischer Kern ( K = 1) und h > 0 eine Bandbreite.
a. Nadaraya-Watson Schätzer.
Dieser ist definiert durch
1 Pn
k=1 Yk Kh (x − Xk )
NW
n
m̂n (x, h) =
,
fˆn (x, h)
(90)
und ist somit ein linearer Glätter mit Gewichten
k
K( x−X
h )
Wk (x) = Pn
j=1 K(
x−Xj
h )
Die Form (90) ist motiviert über die Formel
E(Y1 |X1 = x) =
R
yfY X (y, x)dy
.
fX (x)
(91)
Man erhält (90), indem man fX und fXY durch Kern-Dichte Schätzer mit Kern K bzw.
Produktkern basierend auf K ersetzt und in (91) im Zähler die Integration mit dem geschätzen
fˆXY ausführt.
b. Gasser-Müller Schätzer
Man ordnet die Design-Punkte X(1) < X(2) < . . . < X(n)
der Größe nach an. Die zu X(i) gehörige Beobachtung in den Yk ’s wird mit Y[i] bezeichnet,
134
9 NICHTPARAMETRISCHE REGRESSION
d.h. X(i) , Y[i] , i = 1, . . . , n, sind gerade die Paare (Xi , Yi ). Setzte nun für
Z δk
Kh (x − t)dt,
Wk (x, X1 , . . . , Xn ) =
δk−1
wobei
1
δk = (X(k) + X(k+1) ),
k = 1, . . . , n − 1,
2
und δ0 = −∞ sowie δn = ∞. Der Gasser-Müller Schätzer ist dann gegeben durch
GM
m̂
(x; h) =
n
X
Y[k] Wk (x, X1 , . . . , Xn ).
k=1
c. Lokale Polynom-Schätzer
Die Idee beim lokalen Polynomschätzer ist, lokal um x
ein Polynom p-ten Grades an die Regressionsfunktion m anzupassen, wobei die Lokalisierung
durch Kern-Gewichte erfolgt. Für einen Grad p ≥ 0 setze
T
β̂(x; p, h) = β̂0 (x; p, h), . . . , β̂p (x; p, h) ,
so dass
β̂(x, p, h) = argminβ∈Rp+1
n
X
k=1
2
Kh (Xk − x) Yk − β0 − β1 (Xk − x) − . . . − βp (Xk − x)p .
Der Vektor β̂(x; p, h) berechnet sich nach der Formel für den gewichteten kleinste Quadrate
Schätzer zu
β̂(x, p, h) = (XxT Wx (h)Xx )−1 XxT Wx (h)Y,
wobei
Xx

1 X1 − x · · ·
 ..
..
= .
.
1 Xn − x · · ·
Wx (h) =

(X1 − x)p

..
,
.
(Xn − x)p
diag(Kh (X1 − x), . . . , Kh (Xn − x)).
Beachte, dass Xx vollen Rang hat (als Teilmatrix der Vandermonde Matrix), falls die Xi alle
verschieden sind. Man erhält nun den lokalen Polynom Schätzer von m der Ordnung p (mit
Kern K und Bandbreite h) als
m̂n (x; p, h) = β̂0 (x; p, h).
(92)
Dies ist ein linearer Glätter, wobei die Gewichte in der erster Zeile von (XxT Wx (h)Xx )−1 XxT Wx (h)
stehen. Man erhält auch noch Schätzungen der j-ten Ableitung von m (j ≤ p durch
m̂kn (x; p, h) = β̂k (x; p, h) · k!.
Wir betrachten zwei Spezialfälle in (92). Der lokal-konstante Schätzer (p = 0) ist einfach
wieder der Nadaraya-Watson Schätzer. Für p = 1 erhält man den lokal-linearen Schätzer.
Dieser hat explizit folgende Gestalt. Es ist
n
X
s (x, h) s1,n (x, h)
(Xk − x)j Kh (Xk − x).
XxT Wx (h)Xx = 0,n
,
wobei sj,n (x, h) =
s1,n (x, h) s2,n (x, h)
k=1
9.3 Mittlerer quadratischer Fehler
135
Dann ist
(XxT Wx (h)Xx )−1
1
=
s2,n (x, h)s0,n (x, h) − s21,n (x, h)
s2,n (x, h) −s1,n (x, h)
−s1,n (x, h) s0,n (x, h)
und
n
X
s2,n (x, h) − s1,n (x, h)(Xk − x)
Kh (Xk − x)Yk .
m̂n (x, 1, h) =
s2,n (x, h)s0,n (x, h) − s21,n (x, h)
k=1
Der lokal-lineare Schätzer ist der am häufigsten verwendete Schätzer für m. Er ist noch
hinreichend einfach und hat bessere statistische Eigenschaften als etwa der Nadaraya-Watson
Schätzer oder der Gasser-Müller Schätzer, wie wir im Folgenden sehen werden.
Wir erwähnen noch, dass sich alle Schätzer auch auf das feste Design anwenden lassen, indem
man einfach Xi durch xi ersetzt.
relevante R Befehle
Die Funktion ksmooth berechnet den Nadaraya-Watson Regressionsschätzer. Die library KernSmooth enthält die Funktion locpoly zur Berechnung des lokalen Polynom Schätzers. Die Bandbreite kann mit dpill für den lokal-linearen Schätzer mit
Gaußschen Kern geschätzt werden.
9.3
Mittlerer quadratischer Fehler
In diesem Abschnitt wenden wir uns dem mittleren quadratischen Fehler (MSE) der obigen
Schätzer, insbesondere des lokal-linearen Schätzers, im zufälligen Design zu. Wir betrachten
dabei den bedingten MSE, gegeben die Designpunkte. Dieser ist für einen Schätzer m̂n (x) an
der Stelle x0 definiert durch
2
M SE m̂n (x)|X1 , . . . , Xn = E m̂n (x) − m(x) |X1 , . . . , Xn .
Zunächst betrachten wir den MSE an einem inneren Punkt, und machen die
Annahmen
a. Der Kern K ist symmetrisch, ≥ 0 und hat kompakter Träger in [−1, 1].
b. Die Dichte f der Xi ist stetig bei x und f (x) > 0.
c. Die Varianzfunktion σ 2 (·) ist stetig in x.
d. Die Regressionsfunktion m ist zweimal stetig differenzierbar in x.
e. Für die Bandbreite gilt h → 0, nh → ∞.
Wir führen die folgende vereinfachende Bezeichnungsweise für Kernkonstanten ein:
µj =
Z
j
x K(x)dx,
νj =
Z
y j K 2 (y)dy.
(93)
136
9 NICHTPARAMETRISCHE REGRESSION
Satz 9.2
Unter den Annahmen a.-e. gilt für den mittleren quadratischen Fehler des lokal-linearen
Schätzers
Z
σ 2 (x) ν0
M SE(m̂(x; 1, h)|X1 , . . . , Xn ) =
K 2 (y)dy + op (nh−1 )
f (x) nh
2
′′
4 m (x)
µ22 + op (h4 ).
+h
4
Der erste Term entspricht dabei der asymptotischen Varianz, der zweite dem asymptotischen
quadrierten Bias. Wir beginnen mit einigen Vorbereitungen. Setzte
s0,n (x, h) s1,n (x, h)
T
Sn (x, h) = Xx Wx (h)Xx =
.
s1,n (x, h) s2,n (x, h)
Dann ist
E β̂(x; 1, h)|X1 , . . . , Xn
=
Cov(β̂(x; 1, h)|X1 , . . . , Xn ) =
wobei
−1 T
Xx Wx (h)m,
Sn (x, h)
−1
−1 T
Sn (x, h)
Xx Wx (h)ΣWx (h)Xx Sn (x, h) ,
m = m(X1 ), . . . , m(Xn ) ,
(94)
Σ = diag(σ 2 (X1 ), . . . , σ 2 (Xn )).
Lemma 9.3
Unter den Vorraussetzungen des Satzes gilt
Beweis
Es ist
sj,n (x, h) = n · f (x)hj µj 1 + op (1) .
Z
(y − x)j Kh (y − x)/h f (y)dy
Z
j
= nh
sj K(s)f (x + hs)ds
Esj,n (x, h) = n
= nhj µj f (x)(1 + o(1)),
und
Var sj,n (x, h) ≤ nE (X1 − x)2j Kh2 (X1 − x)
Z
= n (y − x)2j Kh2 (y − x)f (y)dy
= O(nh2j−1 )
Somit
1
sj,n (x, h) = Esj,n (h) + Op (Var sj,n (h)) 2
= nhj µj f (x) · 1 + o(1) + op ((nh)−1/2 ),
und mit Benutzung von Annahme e. die Behauptung.
9.3 Mittlerer quadratischer Fehler
137
Beweis von Satz 9.2 Aus dem Lemma folgt
µ0 µ1
Sn (x, h) = nf (x) · H
H 1 + pp (1) ,
µ1 µ2
H = diag(1, h).
Dann ist auch (Beweis!)
Sn−1 (x, h)
−1
1
−1 µ0 µ1
H −1 1 + op (1) .
H
=
µ1 µ2
nf (x)
(95)
Wir betrachten zunächst die bedingte Kovarianz in (94). Es ist
∗
s (x, h) s∗1,n (x, h)
XxT Wx (h)ΣWx (h)Xx = ∗0,n
=: Sn∗ (x, h)
s1,n (x, h) s∗2,n (x, h)
wobei
s∗j,n (x, h)
=
n
X
i=1
Kh2 (Xi − x)σ 2 (Xi )(Xi − x)j .
Mit einer Rechnung wie in Lemma 9.3 kann man zeigen
s∗j,n (x, h) = nhj−1 f (x)σ 2 (x)νj 1 + op (1) ,
wobei die Kern Konstanten νj in (93) definiert sind, und somit
n 2
ν0 ν1
∗
Sn (x, h) = σ (x)f (x)H
H 1 + op (1) .
ν
ν
h
1
2
Hieraus und aus (95) erhält man
σ 2 (x) 1 −1 µ0 µ1 −1 v0 v1
µ0 µ1
H −1 1+op (1)
H
Cov β̂(x; 1, h)|X1 , . . . , Xn =
µ1 µ2
v1 v 2
µ1 µ2
f (x) nh
Somit ist (µ0 = 1, µ1 = 0)
Var m̂(x; 1, h)|X1 , . . . , Xn
σ 2 (x) ν0
=
f (x) nh
Z
K 2 (y)dy 1 + op (1) .
T
Als nächstes betrachten wir den Bias. Setze β(x) = m(x), m′ (x) . Dann ist
E β̂(x; 1, h) − β(x)|X1 , . . . , Xn = Sn−1 (x, h) XxT Wx (h) m − Xx β(x) .
Die Einträge von Wx (h) sind nur für Xi ∈ [x − h, x + h] ungleich Null. Für solche Xi ist
m′′ (x)
1
1 + op (1) ,
m(Xi ) − m(x) − (Xi − x)m′ (x) = (Xi − x)2 m′′ (ξi ) = (Xi − x)2
2
2
wobei oP (1) unabhängig von dem Index i ist. Daher ist
XxT Wx (h)(m − Xx β) = nf (x)h2
m′′ (x)
µ2
1 + op (1) ,
·H
µ3
2
138
9 NICHTPARAMETRISCHE REGRESSION
und somit
′′
2 m (x)
E β̂(x; 1, h) − β(x)|X1 , . . . , Xn = h
Insbesondere
2
·H
−1
−1 µ2
µ0 µ1
1 + op (1) .
µ3
µ1 µ2
m′′ (x)
Bias m̂(x; 1, h)|X1 , . . . , Xn = h2
µ2 1 + op (1) .
2
Dies beendet den Beweis.
Der Beweis kann übertragen werden auf den Schätzer mkn (x; p, h) der k-ten Ableitung. Dabei
hängt die Formel für den Bias aber davon ab, on die Differenz zwischen Grad des lokalen
Polynomschätzers und zu schätzender Ableitung ungerade ist (wie oben) oder gerade ist (wie
unten für den Nadaraya-Watson Schätzer. (s. Fan und Gijbels 1996)
Bemerkung. Wir geben noch die Ergebnisse für asymptotische Varianz und asymptotischen Bias für den Nadaraya-Watson Schätzer und den Gasser-Müller Schätzer im zufälligen
Design an.
a. Für den Nadaraya-Watson Schätzer
σ 2 (x) ν0
1 + op (1) ,
f (x) nh
2m′ (x)f ′ (x) h2 µ2
m′′ (x) +
Bias m̂N W (x, h)|X1 , . . . , Xn =
1 + op (1) .
f (x)
2
Var m̂N W (x, h)|X1 , . . . , Xn
=
b. Für den Gasser-Müller Schätzer
Var m̂GM (x, h)|X1 , . . . , Xn
Bias m̂GM (x, h)|X1 , . . . , Xn
=
=
3 σ 2 (x) ν0
·
1 + op (1) ,
2 f (x) nh
(m′′ (x)µ2 2
h 1 + op (1) .
2
Man erkennt also, dass der Nadaraya-Watson Schätzer asymptotisch die gleiche Varianz wie
der lokal-lineare Schätzer hat, aber dass sein Bias einen zusätzlichen Term enthält, der von
der Design Dichte f abhängt.
Dagegen hat der Gasser-Müller Schätzer asymptotisch den gleichen Bias wie der lokal-lineare
Schätzer, aber seine Varianz ist asymptotisch um den Faktor 3/2 größer.
Bemerkung. Wir gehen noch kurz auf das Verhalten bei festem Design ein. Seien etwa
0 < x1 < . . . < xn < 1 mit einer zweimal stetig differenzierbaren Designdichte f , d.h.
xi =
Z
i/n
f (t) dt.
0
Die Resultate für den lokal-linearen Schätzer und den Nadaraya-Watson Schätzer bleiben
dann gültig, man muss nur die Dichte der Xi durch die Designdichte ersetzten, und die oP
durch o. Bei der Varainz des Gasser-Müller Schätzers verschwindet dagegen der Faktor 3/2,
d.h. Bias und Varianz an einem inneren Punkt sind im festen Design asymptotisch gleich
denen des lokal-linearen Schätzers.
9.3 Mittlerer quadratischer Fehler
139
Verhalten am Rand
Nun betrachten wir den MSE an einem Randpunkt. Dazu ersetzten wir die Annahmen b.-d.
durch
Annahmen
b.’ Die Dichte f der Xi habe Träger in [0, ∞), es sei f (0) > 0, f sei auf [0, ∞) stetig und
zweimal differenzierbar.
c.’ Die Varianzfunktion σ 2 (·) ist rechtsseitig stetig in 0.
d. Die Regressionsfunktion m ist zweimal rechtsseitig stetig differenzierbar in 0.
Wir betrachten nun einen Randpunkt der Form xn = α · h, 0 ≤ α < 1, und führen die
Kernkonstanten
Z 1
Z 1
z l K 2 (z)dz
(96)
z l K(z)dz,
vl,α =
µl,α =
−α
ein. Dann gilt für den lokal-linearen Schätzer
−α
Satz 9.4
Unter den Annahmen a., b.’-d.’,e. gilt für den mittleren quadratischen Fehler des lokal-linearen
Schätzers an dem Randpunkt xn
M SE(m̂(xn ; 1, h)|X1 , . . . , Xn ) =
σ 2 (0) µ22,α v0,α − 2µ1,α µ2,α v1,α + µ21,α v2,α
nhf (0)
(µ0,α µ2,α − µ21,α )2
m′′ (0) µ2 − µ1,α µ3,α 2
2,α
+h4
2 µ0,α µ2,α − µ21,α
+op (nh−1 ) + op (h4 ).
Wiederum enspricht der erste Term dabei der asymptotischen Varianz und der zweite dem
asymptotischen quadrierten Bias. Der lokal-lineare Schätzer macht also eine automatische
Randkorrektur, man erhält die gleichen Raten wie für einen inneren Punkt, nur mit veränderten Konstanten.
Beweis
Der Beweis von Satz 9.4 verläuft analog zu dem von Satz 9.2, man muss nur die Kernkonstanten µj und νj durch die Randkernkonstanten (96) ersetzten. Wir skizzieren die wesentlichen
Schritte. Es ist
Z
1
y − xn Esj,n (xn , h) = n (y − xn )j Kh
f (y)dy
h
h
Z 1
= nhj
z j K(z)f (hz + xn )dz
−α
= nhj µj,α f (0) 1 + o(1) ,
und auch
sj,n (xn , h) = nhj µj,α f (0) 1 + oP (1) .
140
9 NICHTPARAMETRISCHE REGRESSION
Ähnlich ist
Somit erhält man
s∗j,n (xn , h) = nhj−1 f (0)σ 2 (0)vj,α 1 + oP (1) .
Cov β̂(xn ; 1, h) | X1 , . . . , Xn
Insbesondere ist
Var m̂n (xn ; 1, h)|X1 , . . . , Xn
σ 2 (0)
1
µ2,α −µ1,α
−1
=
H
−µ1,α µ0,α
nhf (0) (µ0,α µ2,α − µ21,α )2
v
v
µ2,α −µ1,α
· 0,α 1,α
H −1 1 + oP (1)
v1,α v2,α
−µ1,α µ0,α
σ 2 (0) µ22,α v0,α − 2µ1,α µ2,α v1,α + µ21,α v2,α
1
+
o
(1)
.
=
P
nhf (0)
(µ0,α µ2,α − µ21,α )2
Um den asymptotischen Bias zu berechnen, zeigt man zunächst, dass
m′′ (0)
µ2,α
1 + oP (1) .
XxT Wx (h)(m − Xx β) = nf (0)h2
·H
µ3,α
2
Dann erhält man
′′
2 m (0)
Bias(β̂(xn ; 1, h)|X1 , . . . , Xn ) = h
2
·H
Daher
Bias(m̂(xn ; 1, h)|X1 , . . . , Xn ) = h2
−1
−1 µ2,α
µ0,α µ1,α
1 + oP (1) .
µ3,α
µ1,α µ2,α
m′′ (0) µ22,α − µ1,α µ3,α
1 + oP (1) .
2
2 µ0,α µ2,α − µ1,α
Bemerkung
a. Für Nadaraya-Watson gelten
W
Var m̂N
(x; h)|X1 , . . . , Xn
n
W
Bias m̂N
(x; h)|X1 , . . . , Xn
n
=
σ 2 (0) 1 v0,α
1 + oP (1) ,
2
f (0) nh µ0,α
= O(h).
Der Nadaraya-Watson Schätzer ist also am Rand auch asymptotisch konsistent, hat aber eine
langsamere Rate als der lokal-lineare Schätzer. Allerdings ist die Konstante in der Varianz
des Nadaraya-Watson Schätzers tendenziell kleiner als diejenige des lokal-linearen Schätzers,
welches für endliche Stichproben einen merklichen effekt hat.
b. Man kann zeigen, dass der Gasser-Müller Schätzer (ähnlich wie eine Kern-Dichte Schätzer
ohne Randkorrektur) am Rand asymptotisch verzerrt ist.
9.4
Minimax-Schätzung
Um die Qualität eines Schätzers zu messen, betrachtet man seine Konvergenzeigenschaften
gleichmäßig über bestimmte Funktionenklassen. Um optimale Schätzer über solche Funktionenklassen zu bestimmen, muss man diese maximale Risiko über eine Klasse von Schätzern
9.4 Minimax-Schätzung
141
minimieren. Wir betrachten eine Klasse von zweimal stetig differenzierbaren Funktionen, und
minimieren das zugehörige Risiko über die Klasse der linearen Glätter. Dies führt auf das
sogenannte lineare minimax Risiko.
Wir betrachten die nichtparametrische Regressionsmodell mit zufälligem Design
Yi = m(Xi ) + σ(Xi )εi ,
wobei die Dichte der Xi , f , sowie die Varianzfunktion σ 2 festgehalten werden, und m über
die Funktionenklasse
|z − x0 |2 .
C2 (x0 ) = m : m(z) − m(x0 ) + m′ (x0 )(z − x0 ) ≤ C
2
für einen festen Punkt x0 ∈ R variiert. Wir nehmen weiter an, dass
a. f stetig ist und f (x0 ) > 0,
b. σ(·) in x0 stetig ist.
Somit betrachten wir das lineare Minimax-Risiko in einem inneren Punkt. Dieses ist für einen
linearen Glätter m̂n (x) der Form
m̂n (x) =
n
X
Wk (x, X1 , . . . , Xn )Yk
k=1
definiert durch
RL n, C2 (x0 ) =
Satz 9.5
Es ist
inf
sup E
m̂n linear m∈C2 (x0 )
2
m̂n (x0 ) − m(x0 ) |X1 , . . . , Xn .
√
3 − 1 Cσ 2 (x0 ) 45
RL (n, C2 ) = 15 5
1 + op (1) ,
4
nf (x0 )
und für den lokal linearen Schätzer m̂(x0 ; 1, h) mit Bandbreite
15σ 2 (x ) 1
5
0
h=
f (x0 )C 2 n
(97)
und dem Epanechnikov-Kern K gilt:
2
sup E m̂n (x0 ; 1, h) − m(x0 ) |X1 , . . . , Xn = RL (n, C2 ) 1 + op (1) .
m∈C2
Der lokal-lineare Schätzer mit Epanechnikov Kern und optimaler Bandbreite erreicht also
asymptotisch das lineare Minimax Risiko.
Beweis
Satz 97 besagt für den lokal-linearen Schätzer
E
m′′ (x )h2 µ2
2
1 v0 σ 2 (x0 ) 0
2
m̂n (x0 ; 1, h) − m(x0 ) |X1 , . . . , Xn =
1 + op (1) .
+
4
nh f (x0 )
142
9 NICHTPARAMETRISCHE REGRESSION
Für den Epanechnikov Kern berechnen sich die Kern-Konstanten zu µ2 = 81 , v0 = 53 . Da in
C2 (x0 ) die Ableitung m′′ (x0 ) ≤ C, ergibt sich mit der speziellen Wahl von h in (97) ergibt
sich
√
3 − 1 Cσ 2 (x0 ) 4
2
(98)
sup E((m̂n (x0 , 1, h) − m(x0 )) |X1 , . . . , Xn ) = 15 5 (
) 5 1 + op (1)
4
nf (x0 )
m∈C2
Für Details zu diesem Argument siehe Fan (1995). Es genügt nun offenbar zu zeigen, dass die
rechte Seite von (98) eine asymptotische untere Schranke für das lineare Minimax Risiko ist.
Nun betrachten wir einen allgemeinen linearen Glätter. Man zerlegt das Risiko in quadrierten
Bias und Varianz
n
X
2
2
=
Wj (x0 , X1 , . . . , Xn )m(Xj ) − m(x0 )
E m̂n (x0 ) − m(x0 ) |X1 , . . . , Xn
+
j=1
n
X
Wj2 (x0 , X1 , . . . , Xn )σ 2 (Xj )
(99)
j=1
Um das Risiko in (99) von unten über alle linearen Schätzer zu beschränken, benutzten wir
Lemma 9.6
Seien a, c ∈ Rn , ci > 0, b ∈ R. Dann ist
T
2
minn ((w a − b) +
w∈R
n
X
ci wi2 ) =
i=1
und das Minimum wird angenommen durch
wj =
Beweis des Lemmas.
1+
b2
P 2
1 + j (aj /cj )
aj
b
2
i (ai /ci ) cj
P
√
Durch wi → wi / ci reduziere auf
√
minn ((wT ã − b)2 + wT w), ãi = ai / ci
w∈R
Weiter sei Q orthogonal so, dass Qã = ãT ã · e1 . Durch w → Qw gehe über zu
minn (wT ãT ãe1 − b)2 + wT w .
w∈R
Dann offenbar korrekt, da
((ãT ã)2 + 1)w12 − 2bãT ãw1 + b2 → min
ergibt
w1 =
b(ãT ã)
.
1 + (ãT ã)2
Wir setzten nun den Beweis des Satzes fort. Wenn wir das Lemma auf (99) anwenden, ergibt
sich, dass für eine Funktion m ∈ C2 (x0 ) und für alle linearen Glätter m̂n
E((m̂n (x0 ) − m(x0 ))2 |X1 , . . . , Xn ) ≥
1+
m2 (x0 )
2
2
j=1 m (Xj )/σ (Xj )
Pn
(100)
9.4 Minimax-Schätzung
143
Da im linearen Minimax-Risiko das supremum über alle Funktionen m ∈ C2 (x0 ) gebildet
wird, erhält man eine untere Abschätzung, wenn man in (100) spezielle, von n abhängige
(y)
Funktionen m einsetzt. Wähle speziell m(y) = mn = 21 b2n (1 − C(y − x0 )2 /bn )+ . Dann ist
mn ∈ C2 (x0 ), und daher nach (100)
2
RL (n, C2 (x0 )) ≥
min E m̂n (x0 ) − mn (x0 ) |X1 , . . . , Xn
m̂n linear
m2n (x0 )
Pn
≥
(101)
1 + j=1 m2n (Xj )/σ 2 (Xj )
Für bn = o(1) ergibt sich
E
m2n (X1 )
σ 2 (X1 )
=
=
=
=
Weiter ist
b4n
4
Z
Z
n
X
m2 (Xj )
j=1
√
1/ c
(1 − Cz 2 )2
f (x0 + bn z)dz
√
2
−1/ c σ (x0 + bn z)
Z √
b5n f (x0 ) 1/ c
(1 − Cz 2 )2 dz 1 + o(1)
√
2
4 σ (x0 ) −1/ c
4 5 f (x0 ) 1
√ 1 + o(1)
bn 2
15 σ (x0 ) c
b5n
4
Var
Somit
[(1 − C(y − x0 )/b2n )+ ]2
f (y)dy
σ 2 (y)
σ 2 (Xj )
m2n (X1 )
= O(b8n )
σ 2 (X1 )
=n
4 5 f (x0 ) 1
√ 1 + oP (1)
bn 2
15 σ (x0 ) c
und mit (101) und der Wahl von mn erhalte
RL (n, C2 ) ≥
1+
b4n
4
f (x0 ) 1
4
5
√
15 nbn σ 2 (x0 ) c
1 + oP (1) .
Maximiere die linke Seite über bn und erhalte mit
√
15 cσ 2 (x0 ) 1
bn = (
)5
nf (x0 )
die Abschätzung
√
3 − 1 cσ 2 (x0 ) 4
RL (n, C2 ) ≥ 15 5 (
) 5 1 + oP (1) .
4
nf (x0 )
(102)
Da für den lokalen Polynomschätzer in (98) Gleichheit steht und
2
RL (n, C2 (x0 )) ≤ max E m̂n (x0 , 1, h) − m(x0 ) |X1 , . . . , Xn ,
m∈C2 (x0 )
folgt Gleichheit in (102) und die Behauptung des Satzes.
144
9 NICHTPARAMETRISCHE REGRESSION
Definition 9.7
Für einen linearen Glätter m̂n definiert man die lineare Effizienz durch
5
RL (n, C2 )
4
.
eff L (m̂n ) =
2
supm∈C2 (x0 ) E (m̂n (x0 ) − m(x0 )) |X1 , . . . , Xn
Wir geben noch die lineare Effizienz (ohne 1 + oP (1) Faktor) der obigen Schätzer an.
Kern
Epanechnikov
Normal
lokal-linear
1
0,9512
Gasser-Müller
2/3
0,6341
Nadaraya-Watson
0
0
Wir bemerken, dass sich die Effizienz von 0 bei dem Nadaraya-Watson Schätzer durch den
zusätzlichen Term im Bias ergibt, welche die erste Ableitung m′ (x0 ) beinhaltet, die in C2 (x0 )
beliebig groß werden kann.
Abschließende Bemerkungen
Themen wie Bandbreitenwahl, Kernwahl und Bandbreitenwahl und Konfidenzintervalle können ähnlich wie für Dichteschätzung behandelt werden.
Wir verweisen dafür auf die Literatur.
145
A
Verzeichnis der Sätze
1.1
lineare Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.2
Erwartungswert quadratischer Formen . . . . . . . . . . . . . . . . . . . . . . . .
4
1.3
Lineare Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.6
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
1.9
Craig und Sakamoto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.3
Gauß-Markov-Aitken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
2.5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.6
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
2.7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.9
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
2.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
2.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
3.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
3.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
4.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
5.7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
5.9
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
5.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
5.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
146
A VERZEICHNIS DER SÄTZE
6.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
6.2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
6.3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
100
8.3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
117
8.5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
123
8.6
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
125
8.7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
130
9.2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
136
9.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
139
9.5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
141

Documentos relacionados