Statistik 2
Transcrição
Statistik 2
Statistik 2 JProf. Dr. Hajo Holzmann Institut für Stochastik der Universität Karlsruhe (TH) Wintersemester 2007/08 (Stand: 15. April 2008) ii INHALTSVERZEICHNIS Inhaltsverzeichnis 1 Multivariate Normalverteilung und quadratische Formen 4 1.1 Zufallsvektoren und zufällige quadratische Formen . . . . . . . . . . . . . . . 4 1.2 Die multivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4 Aus der Normalverteilung abgeleitete Verteilungen . . . . . . . . . . . . . . . 9 1.5 Verteilung quadratischer Formen . . . . . . . . . . . . . . . . . . . . . . . . . 10 2 Lineare Regression 2.1 2.2 2.3 2.4 14 Lineare Regression und Modellbildung . . . . . . . . . . . . . . . . . . . . . . 14 2.1.1 Regression und das lineare Modell . . . . . . . . . . . . . . . . . . . . 14 2.1.2 Modellierung des Einflusses der Kovariablen . . . . . . . . . . . . . . . 15 Kleinste Quadrate Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.1 Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . 18 2.2.2 Verteilungstheorie bei normalverteilten Fehlern . . . . . . . . . . . . . 22 2.2.3 Asymptotische Verteilungstheorie . . . . . . . . . . . . . . . . . . . . . 25 Andere Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3.1 Mittlerer quadratischer Fehler und Ridge-Regression . . . . . . . . . . 29 2.3.2 Median - und Quantilregression . . . . . . . . . . . . . . . . . . . . . . 31 Modelldiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.4.1 Das Bestimmtheitsmaß R2 . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.4.2 Residuen-Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.4.3 Weitere diagnostische Plots . . . . . . . . . . . . . . . . . . . . . . . . 34 2.4.4 Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.4.5 Ausreißer, Leverage- und Influenz-Punkte . . . . . . . . . . . . . . . . 36 INHALTSVERZEICHNIS 2.5 2.6 iii Variablen-Selektion und Shrinkage Schätzung . . . . . . . . . . . . . . . . . . 40 2.5.1 Selektionsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.5.2 Test-basierte Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.5.3 Informationskriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.5.4 Shrinkage Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.5.5 Inferenz nach Modellwahl . . . . . . . . . . . . . . . . . . . . . . . . . 51 Verallgemeinerte kleineste Quadrate und Varianzschätzen . . . . . . . . . . . 55 2.6.1 Verallgemeinerte kleinste Quadrate . . . . . . . . . . . . . . . . . . . . 55 2.6.2 Varianzschätzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3 Nichtlineare Regression 57 3.1 Modell und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.2 Nichtlineare kleinste Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.3 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.4 Asymptotische Normalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4 Logistische Regression 63 4.1 Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.2 Maximum Likelihood Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.3 Deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.4 Residuenanalyse und weitere Diagnostische Plots . . . . . . . . . . . . . . . . 66 4.5 Überdispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5 Verallgemeinerte lineare Modelle (GLMs) 73 5.1 Dispersionsexponentialfamilien (DEFs) . . . . . . . . . . . . . . . . . . . . . . 73 5.2 Komponenten eines GLMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 5.3 Maximum Likelihood Schätzung und Testen in GLMs . . . . . . . . . . . . . 77 iv INHALTSVERZEICHNIS 5.4 Modelldiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.5 Poisson-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.6 Gamma-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 5.7 Quasi-Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 6 Kategorielle Daten und kategorielle Regression 94 6.1 Fishers exakter Test auf Homogenität . . . . . . . . . . . . . . . . . . . . . . 94 6.2 Der χ2 -Test auf Homogenität . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 6.3 Fishers exakter Test auf Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . 97 6.4 χ2 -Test auf Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 6.5 McNemars Test für gepaarte Stichproben . . . . . . . . . . . . . . . . . . . . 100 6.6 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.7 Kategorielle Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 7 Lineare Gemischte Modelle 105 7.1 Longitudinal- und Cluster-Daten . . . . . . . . . . . . . . . . . . . . . . . . . 105 7.2 Das lineare gemischte Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 7.3 Schätzen und Vorhersagen im linearen gemischten Modell . . . . . . . . . . . 107 7.4 Verallgemeinerte lineare gemischte Modelle . . . . . . . . . . . . . . . . . . . 111 8 Nichtparametrische Dichteschätzung 113 8.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 8.2 Kern-Dichte Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 8.3 Integrierter mittlerer quadratischer Fehler . . . . . . . . . . . . . . . . . . . . 117 8.4 Bandbreitenwahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 8.5 Modifikationen des Kern-Dichte Schätzers . . . . . . . . . . . . . . . . . . . . 126 8.6 Multivariate Kern-Dichte Schätzung . . . . . . . . . . . . . . . . . . . . . . . 128 9 Nichtparametrische Regression 132 9.1 Problemstellung und Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 9.2 Lineare Glätter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 9.3 Mittlerer quadratischer Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 9.4 Minimax-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 A Verzeichnis der Sätze 145 vi INHALTSVERZEICHNIS Literatur 1. Multivariate Normalverteilung • Kotz, Samuel; Balakrishnan, N.; Johnson, Norman L. (2000) Continuous multivariate distributions. Vol. 1. Models and applications. 2nd edn. Wiley-Interscience, New York. • Johnson, Norman L.; Kotz, Samuel; Balakrishnan, N. (1995) Continuous univariate distributions. Vol. 2. 2nd edn. John Wiley & Sons, Inc., New York. • Ravishankar, N. und Dey, D. K. (2002) A first course in linear model theory, Chapman & Hall, Kapitel 5. 2. Lineare Regressions • Faraway, J. (2005) Linear Models with R. Chapman & Hall/CRC, Boca Raton, FL. • Fahrmeier, L., Kneib, T. und Lang, S. (2007) Regression. Modelle, Methoden und Anwendungen. Springer, Berlin, Kapitel 3. • Weisberg, S. (2005) Applied Linear Regression. 3. Auflage, John Wiley & Sons, Hoboken, NJ. • Ravishankar, N. und Dey, D. K. (2002) A first course in linear model theory. • Searle, (1971) Linear Models. John Wiley & Sons, Inc., New York. Kapitel 3. • Stapleton, J. H. (1995) Linear Statistical Methods. John Wiley & Sons, Inc., New York. 3. Nichtlineare Regression • Myers, R.H., Montgomery, D.C., Vinig, G.G. (2002) Generalized Linear Models. John Wiley & Sons. Kapitel 3. • Seber, G.A.F., Wild, C.J. (2003) Nonlinear Regression. John Wiley & Sons. 4. Logistische Regression/ 5. Verallgemeinerte lineare Modelle • Dobson, A.J. (2002) An Introduction to Generalized Linear Models (2 edn, 2002). • Fahrmeier, L., Kneib, T. und Lang, S. (2007) Regression. Modelle, Methoden und Anwendungen. Springer, Berlin, Kapitel 4. • Faraway, J. (2006) Extending the linear Model with R. Chapman & Hall/CRC, Boca Raton, FL, Kapitel 2,3,6,7. 2 INHALTSVERZEICHNIS • McCullagh, P. and Nelder, J.A. (1989) Generalized Linear Models, Vol. 37 of Mo- nographs on Statistics and Applied Probability (2 edn, 1989). • Weisberg, S. (2005) Applied Linear Regression. 3. Auflage, John Wiley & Sons, Hoboken, NJ, Kapitel 12. • McCulloch, C.E., Searle, S.R. (2001) Generalized, Linear, and Mixed Models. • Myers, R.H., Montgomery, D.C., Vinig, G.G. (2002) Generalized Linear Models. John Wiley & Sons. 6. Kategorielle Daten und kategorielle Regression • Fahrmeier, L., Kneib, T. und Lang, S. (2007) Regression. Modelle, Methoden und Anwendungen. Springer, Berlin, Kapitel 5. • Faraway, J. (2005) Extending the linear Model with R. Chapman & Hall/CRC, Boca Raton, FL, Kapitel 5 • Agresti, A. (2002) Categorical Data Analysis. 2nd edn. John Wiley & Sons • Agresti, A. (1996) An Introduction to Categorical Data Analysis. John Wiley & Sons. 7. Gemischte Modelle und Longitudinale Daten • Fahrmeier, L., Kneib, T. und Lang, S. (2007) Regression. Modelle, Methoden und Anwendungen. Springer, Berlin, Kapitel 6. • Faraway, J. (2005) Extending the linear Model with R. Chapman & Hall/CRC, Boca Raton, FL, Kapitel 9. • Ravishankar, N. und Dey, D. K. (2002) A first course in linear model theory, Chapman & Hall, Kapitel 10. 8. Nichtparametrische Dichteschätzung • Wand, M. P.; Jones, M. C. (1995) Kernel smoothing. Chapman and Hall, Ltd., London. • Silverman, B. W. (1986) Density estimation for statistics and data analysis. Chapman & Hall, London. 9. Nichtparametrische Regression • Wand, M. P.; Jones, M. C. (1995) Kernel smoothing. Chapman and Hall, Ltd., London, Kapitel 5. INHALTSVERZEICHNIS 3 • Fan, J.; Gijbels, I. (1996) Local polynomial modelling and its applications. Chapman & Hall, London. Theoretischer Hintergrund • Shao, J. (2003) Mathematical statistics. 2nd edn. Springer-Verlag, New York, . • van der Vaart, A. W. (1998) Asymptotic statistics. Cambridge University Press, Cambridge. • Hogg, R.V., McKean, J.W., Craig, A.T.: Introduction to Mathematical Statistics. 6th edn. Pearson Prentice Hall, 20051. • Knight, K. (2000) Mathematical Statistics. Chapman & Hall, 20001. • Pruscha, H. (1989) Angewandte Methoden der Mathematischen Statistik. • Pruscha, H. (2000) Vorlesungen über Mathematische Statistik. 4 1 1 MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN Multivariate Normalverteilung und quadratische Formen 1.1 Zufallsvektoren und zufällige quadratische Formen Sei X = (X1 , . . . , Xn )T ∈ Rd ein d-variater Zufallsverktor, wobei Xi Zufallsvariable seinen. Der Erwartungswertvektor von X ist definiert durch EX = (EX1 , . . . , EXn )T , falls die Erwartungswerte EXi existieren. Die Kovarianzmatrix von X ist gegeben durch Cov X = Cov(Xi , Xj ) i,j=1,...,n , falls die Xi endliche Varianzen haben. Für einen Vektor a ∈ Rd gilt Var(aT X) = aT Cov X a. Da die Varianz auf der linken Seite stets nicht-negativ ist, folgt, dass die Kovarianzmatrix stets positiv semidefinit ist. Weiter ist Cov X genau dann degeneriert, falls die Xi (als Abbildungen auf dem zugrundeliegenden W-Raum) linear abhängig sind (fast sicher). Satz 1.1 (lineare Transformationen) Sei X ∈ Rn ein Zufallsvektor mit endlichem Erwartungswertvektor EX und endlicher Kovarianzmatrix Cov X. Für A ∈ Rm×n gilt dann E(AX) = A EX, Cov(AX) = A Cov X AT . Der Beweis ist ein einfaches Nachrechnen. Allgemeiner definieren wir für Zufallsvektoren X ∈ Rd und Y ∈ Rq die Kovarianzmatrix Cov(X, Y) = Cov(Xi , Yj ) i=1,...,d j=1,...,q ∈ Rd×q . Falls X und Y unabhängig sind, so gilt (analog zu zwei Zufallsvariablen) Cov(X, Y) = 0. Für einen Zufallsvektor X ∈ Rd und eine symmetrische Matrix A ∈ Rn×n betrachten wir die zufällige quadratische Form XT AX, eine Zufallsvariable. Satz 1.2 (Erwartungswert quadratischer Formen) Sei X ∈ Rn ein Zufallsvektor mit EX = µ ∈ Rn , Cov X = Σ ∈ Rn×n , und sei A ∈ Rn×n symmetrisch. Betrachte die quadratische Form Q = XT AX. Dann gilt EQ = Spur(A · Σ) + µT Aµ Beweis Q= n X aij Zi Zj , EZi Zj = Σij + µi µj i,j=1 Somit EQ = n X i,j=1 aij (Σij + µi µj ) = µT Aµ + n X aij Σij = µT Aµ + Spur(AΣ) i,j=1 [Beachte: Sowohl A als auch Σ sind symmetrisch.] 1.2 Die multivariate Normalverteilung 1.2 5 Die multivariate Normalverteilung Definition Sei µ ∈ Rd und Σ ∈ Rd×d symmetrisch und positiv definit. Die multivariate Normalverteilung N (µ, Σ) ist gegeben durch die Dichte 1 1 T −1 f (x; µ, Σ) = − (x − µ) Σ (x − µ) , 1 exp d 2 (2π) 2 |Σ| 2 wobei |Σ| = det Σ. Für µ = 0 und Σ = Id spricht man von der d-variaten Standardnormalverteilung. Wir prüfen kurz, dass f (x; µ, Σ) tatsächlich eine Dichte auf Rd definiert, also zu 1 integriert. Für f (x; 0, Id ) ist dies klar, da es sich um eine d-fache Produktdichte von univariaten Dichten der Standardnormalverteilung handelt. Den allgemeinen Fall führen wir hierauf durch Variablen Transformation zurück. Dazu betrachte die Spektralzerlegung von Σ. Es existieren eine orthogonale Matrix Q und λ1 > 0, . . . , λd > 0 (die Eigenwerte von Σ, diese sind > 0, da Σ positiv definit ist), so dass Σ = Q diag(λ1 , . . . , λd ) QT . Man definiert dann die Wurzel aus Σ durch 1 1 1 Σ 2 = Q diag(λ12 , . . . , λd2 ) QT , 1 1 diese ist eindeutig bestimmt und es gilt Σ 2 · Σ 2 = Σ. Ausserdem gelten −1 T Σ−1 = Q diag(λ−1 1 , . . . , λd ) Q , 1 Σ− 2 1 −1 −1 = (Σ 2 )−1 = Q diag(λ1 2 , . . . , λd 2 )QT . R Zur Berechnung von f (x; µ, Σ) dx führt man eine Variablentransformation y = Σ−1/2 (x−µ) durch und erhält die d-variate Standardnormalverteilung. Satz 1.3 (Lineare Transformation) Sei X ∼ N (µ, Σ), µ ∈ Rd , p ≤ d, A ∈ Rp×d mit vollem Rang und b ∈ Rp . Dann ist Y = AX verteilt nach Y ∼ N (Aµ + b, AΣAT ). Beweis Wir behandeln nur den Fall µ = 0, b = 0, die nötigen Translationen können leicht behandelt werden. Wir betrachten zunächst den Fall Σ = Id . Ist etwa AT = (v1 , . . . , vp ), vi ∈ Rd , so setze V = span {v1 , . . . , vp } ⊂ Rd . Dann ist V ein p-dimensionaler Untervektorraum von Rd , und wir können eine orthonormale Basis e1 , . . . , ed−p des orthogonalen Komplements V ⊥ wählen. Setzte Ã, derart, dass ÃT = (v1 , . . . , vp , e1 , . . . , ep−d ) ∈ Rd×d . Dann hat à vollen Rang. Wir betrachten nun W = ÃX. Dann ist W = (YT , ZT )T für geeignetes Z ∈ Rd . Zum Beweis können wir also die Verteilung von W und dann die Randverteilung von Y berechnen. Eine Variablentransformation liefert für die Dichte von W 1 T 1 T −1 exp − w (Ãà ) w . fW (w) = d 2 (2π) 2 |Ã| 6 1 MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN Nach Konstruktion von à erhalten wir die Blockgestalt (Ir ist die r-dimensionale Einheitsmatrix) T AA 0 T =: diag AAT , Id−p . Ãà = 0 Id−p Ausserdem ist |Ã| = |ÃÃT |1/2 = |AAT |1/2 . Setzen wir w = (yT , zT )T , so erhalten wir 1 1 1 T 1 T T −1 fW (y, z) = exp − y (AA ) y exp − z z . 2 2 (2π)p/2 |AAT |1/2 (2π)(d−p)/2 Wir können nun z herausintegrieren (Standardnormalverteilung) und erhalten für Y die Dichte in gewünschter Form. Den Fall für allgemeines Σ führt man nun leicht auf obigen Fall zurück. Dafür setzte X̃ = Σ−1/2 X, dann ist X̃ ∼ N (0, Id ), und Y = AΣ1/2 X̃ ∼ N (0, AΣ1/2 Σ1/2 AT ) nach dem bereits behandelten Fall, wie behauptet. Momente Ist X ∼ N (µ, Σ), so ist EX = µ, Cov X = Σ. Zum Beweis benutzen wir Satz 1.3. Zunächst bemerken wir, dass die Formeln für die d-variate Standardnormalverteilung richtig sind (direkt aus der univariaten Normalverteilung). Ist Y ∼ N (0, Id ), so ist X = Σ1/2 (Y + µ) ∼ N (µ, Σ). Mit Satz 1.1 folgt die Behauptung. Marginalverteilungen und Unabhängigkeit Sei X ∼ N (µ, Σ), wobei X = (YT , ZT )T , Y ∈ Rr , Z ∈ Rd−r , für 1 ≤ r < d. Sei µ1 Σ11 Σ12 µ= , Σ= ΣT12 Σ22 µ2 mit µ1 ∈ Rr , µ2 ∈ Rd−r , Σ11 ∈ Rr×r , Σ22 ∈ R(d−r)×(d−r) , Σ12 ∈ Rr×(d−r) . Satz 1.4 Es sind Y ∼ N (µ1 , Σ11 ), Z ∼ N (µ2 , Σ2 ), und Cov(Y, Z) = Σ12 . Weiter gilt Y und Z unabhängig ⇔ Σ12 = 0. Beweis Für die Verteilung von Y verwende Satz 1.3 mit A = (Ir , 0) ∈ Rr×d , Y = AX, für Z nutzte Z = BX, B = (0, Id−r ) ∈ R(d−r)×d . Für den zweiten Teil beachte zunächst, dass unabhängige Zufallsvektoren Kovarianzmatrix 0 haben. Falls Σ12 =, so ist Σ = diag(Σ1 , Σ2 ) −1 T T T eine Blockmatrix mit inverser Σ−1 = diag(Σ−1 1 , Σ2 ), und die Dichte f (y, z) von (Y , Z ) berechnet sich leicht zur Produktdichte der beiden multivariaten Normalverteilungen, was die Unabhängigkeit zeigt. Satz 1.5 Sei X ∼ N (µ, Σ), µ ∈ Rd , p, q ≤ d, B ∈ Rp×d mit vollem Rang, C ∈ Rq×d mit vollem Rang. Dann gilt: BX und CX sind unabhängig ⇔ BΣC T = 0 1.3 Bedingte Verteilungen 7 Beweis ⇒“. Klar, da ” Cov(BX, CX) = E(B(X − µ)(X − µ)T C T ) = BΣC T = 0 bei Unabhängigkeit. ⇐“. ” Betrachte zunächst den Fall Σ = Id . Schreibe T T C = c1 , . . . , cq , bi , cj ∈ Rd B = b1 , . . . , bp , Dann: BΣC T = BC T = 0 ⇔ bTi cj = 0. Somit hat A = b1 , . . . , bp , c1 , . . . , cq )T vollen Rang und BB T BX T ∼ N (Aµ, AA ) = N Aµ, AX = 0 CX 0 CC T da Σ = Id und BC T = 0. Also sind BX und CX unabhängig. Zum allgemeinen Fall: Weiter 1 1 2 1 1 1 1 1 2 2 BX = BΣ | {z } Y, CX = |CΣ {z } Y =:B̃ 1 2 1 Betrachte Y = Σ− 2 X mit Y ∼ N (Σ− 2 µ, Σ− 2 ΣΣ− 2 ) = N (Σ− 2 µ, Id ). =:C̃ und B̃ C̃ T = BΣ (Σ )T C T = BΣC T . Somit BΣC T = 0 ⇔ B̃ C̃ T = 0 und B̃Y = BX und C̃Y = CX nach obigem Fall unabhängig. Relevante R Befehle. eigen (berechnet Eigenwerte und Vektoren einer Matrix), qr.solve (berechnet Inverse einer Matrix). Die Library MASS enthält die Funktion mvrnorm (Erzeugung von multivariaten normalverteilten Zufallszahlen). Die Dichte muss per Hand berechnet werden. 1.3 Bedingte Verteilungen Wir wiederholen zunächst die bedingten Dichte bei Zufallsvektoren. Es sei X = (YT , ZT )T ∈ Rd mit Dichte f (y, z), Y ∈ Rr , Z ∈ Rd−r , dann hat Y|Z = z die Dichte f (y|z) = f (y, z) . f (z) (1) Im Folgenden sei wie oben X ∼ N (µ, Σ), wobei X = (YT , ZT )T , Y ∈ Rr , Z ∈ Rd−r , für 1 ≤ r < d. Sei µ1 Σ11 Σ12 µ= , Σ= ΣT12 Σ22 µ2 mit µ1 ∈ Rr , µ2 ∈ Rd−r , Σ11 ∈ Rr×r , Σ22 ∈ R(d−r)×(d−r) , Σ12 ∈ Rr×(d−r) . 8 1 MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN Satz 1.6 Es ist Y|Z = z ∼ N (µY|Z=z , Σ1|2 ), wobei µY|Z=z = µ1 − Σ12 Σ−1 2 (z − µ2 ), Σ1|2 = Σ1 − Σ12 Σ−1 2 Σ21 . Die Matrix Σ1|2 heisst das Schur Komplement, diese ist positiv definit, falls Σ positiv definit ist. Beweis Nach (1) ist f (y|z) = exp(− 21 ((x − µ)T Σ−1 (x − µ) − (z − µ2 )T Σ−1 2 (z − µ2 ))) 1 |Σ| ( |Σ ) 2 · (2π) 2 2| . Wir berechne Σ−1 in Blockform durch Spaltenumformungen 1 . Σ1 Σ12 Σ21 Σ2 Σ1 Σ12 Σ−1 Σ I2 21 2 Σ1|2 0 −1 Σ2 Σ21 I2 I1 0 −1 Σ2 Σ21 I2 I1 0 0 I2 Σ−1 2 ·2 ↓ 1 − Σ12 · 2 ↓ Σ−1 1|2 · 1 ↓ I1 0 0 I2 I1 0 0 Σ−1 2 2 − Σ−1 2 Σ21 · 1 ↓ I1 −Σ12 Σ−1 2 0 Σ−1 2 −1 −1 Σ−1 1|2 −Σ1|2 Σ12 Σ2 0 Σ−1 2 ! −1 −Σ−1 Σ−1 1|2 1|2 Σ12 Σ2 −1 −1 −1 −1 −1 −Σ−1 2 Σ21 Σ1|2 Σ2 − Σ2 Σ21 Σ1|2 Σ12 Σ2 ! Somit ist (x − µ)T Σ−1 (x − µ) − (z − µ2 )T Σ−1 2 (z − µ2 ) T −1 −1 Σ = y − µ1 − Σ12 Σ−1 (z − µ ) y − µ − Σ Σ (z − µ ) 12 2 2 1 2 . 2 1|2 −1 Wegen |Σ−1 | = |Σ−1 2 | · |Σ1|2 | folgt der Satz. 1 Gaußscher Algorithmus ((Σ|I) wird umgeformt zu (I|Σ−1 )) 1.4 Aus der Normalverteilung abgeleitete Verteilungen Regression to the mean Für T µ = (µ1 , µ2 ) , Σ= σ12 ρσ1 σ2 ρσ1 σ2 σ22 9 −1 < ρ < 1, , sei (X, Y ) ∼ N (µ, Σ) bivariat normalverteilt. Dann gilt nach Satz 1.6 für die bedingte Verteilung σ2 Y |X = x ∼ N µ2 + ρ (x − µ1 ), (1 − ρ2 )σ22 . σ1 Insbesondere ist für σ12 = σ22 = σ 2 , µ1 = µ2 = µ, (2) E(Y |X = x) = µ + ρ(x − µ) und somit für 0 < ρ < 1, µ < E(Y |X = x) < x falls x > µ, x < E(Y |X = x) < µ falls x < µ. Selbst wenn also X und Y positiv korreliert sind, nähert sich im bedingten Mittel Y wieder µ an. Analog gilt für die Änderung Y − X|X unter (2), Y − X|X = x ∼ N (1 − ρ)(µ − x), (1 − ρ2 )σ 2 . Also hat der Regressionskoeffizient von der Änderung Y − X (abhängige Variable) regressiert auf X (Kovariable) negatives Vorzeichen auch bei positivem ρ. 1.4 Aus der Normalverteilung abgeleitete Verteilungen Pd 2 2 a. Ist X ∼ N (µ, Id ), so hat XT X = i=1 Xi die nichtzentrale χ -Verteilung mit d 1 T 2 Freiheitsgraden und Nichtzentralitätsparameter 2 µ µ. Schreibweise: χ (d; 21 µT µ). In der Tat hängt die Dichte von X T X, −λ f (u) = e 1 1 ∞ X λ2k u 2 d+k−1 e− 2 u , k! 2 21 d+k Γ( 1 d + k) k=0 2 1 λ = µT µ, 2 nur von λ und nicht von ganz µ ab. Für λ = 0 (bzw. µ = 0) ergibt sich die zentrale χ2 Verteilung mit d Freiheitsgraden, Bezeichnung χ2 (d), diese hat die Dichte (Beweis!) fχ2 ,d (u) = ud/2−1 e−u/2 . 2d/2 Γ(d/2) (3) Man kann zeigen, dass (3) auch für nicht ganzes d eine Dichte definiert, daher kann man die Freiheitsgrade in (0, ∞) variieren lassen. Weitere Notation: χ2α (n) : Das α-Quantil der zentralen χ2 Verteilung mit n Freiheitsgraden (0 < α < 1). χ2 (n)(x) : Wert der Verteilungsfunktion der zentralen χ2 Verteilung mit n Freiheitsgraden bei x (x > 0). Relevante R Befehle. dchisq (Dichte), pchisq (Verteilungsfunktion), qchisq (Quantile) und 10 1 MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN rchisq (Zufallszahlen). Ist U1 ∼ χ2 (d1 ; λ), U2 ∼ χ2 (d2 ), U1 , U2 unabhängig, so hat b. V = U1 /d1 ∼ F (d1 , d2 ; λ) U2 /d2 die nichtzentrale F-Verteilung mit Freiheitsgraden d1 und d2 und Nichtzentralitätsparameter λ. Für λ = 0 erhält man die zentrale F-Verteilung, diese hat die Dichte (Beweis) 2 Γ d1 +d ud1 /2 2 d1d1 /2 dd22 /2 . fF,d1 ,d2 (u) = (d2 + d1 u)(d1 +d1 )/2 Γ d1 /2 Γ d2 /2 Weitere Notation: Fα (n, m; λ) : Das α-Quantil der F Verteilung mit n und m Freiheitsgraden (0 < α < 1) und Nichtzentralitätsparameter λ. F (n, m; λ)(x) : Wert der Verteilungsfunktion der F Verteilung mit n Freiheitsgraden bei x (x > 0) und Nichtzentralitätsparameter λ. Relevante R Befehle. zahlen). df (Dichte), pf (Verteilungsfunktion), qf (Quantile) und rf (Zufalls- Ist X ∼ N (µ, 1), U ∼ χ2 (d), so hat c. X V =p U/d die t-Verteilung mit d Freiheitsgraden und Nichtzentralitätsparameter µ, Bezeichnung t(n; µ). Für µ = 0 erhält man die zentrale t-Verteilung, diese hat die Dichte (Beweis) (d+1)/2 Γ d+1 2√ 1 + u2 /d . ft,d (u) = d Γ 2 πd Weitere Notation: tα (n; µ) : Das α-Quantil der t Verteilung mit n und m Freiheitsgraden (0 < α < 1) und Nichtzentralitätsparameter µ. t(n; µ)(x) : Wert der Verteilungsfunktion der t Verteilung mit n Freiheitsgraden und Nichtzentralitätsparameter µ bei x (x > 0). Relevante R Befehle. zahlen). dt (Dichte), pt (Verteilungsfunktion), qt (Quantile) und rt (Zufalls- Ist bei einer dieser Verteilung der Nichtzentralitätsparameter = 0, so lässt man diesen in der Notation einfach weg. 1.5 Verteilung quadratischer Formen Satz 1.7 Sei X ∼ N (µ, Σ), A ∈ Rd×d positiv semidefinit2 . Ist AΣ idempotent, d.h. (AΣ)2 = AΣ, so gilt 1 XT AX ∼ χ2 (r(A), µT Aµ) 2 2 setzt Symmetrie voraus! 1.5 Verteilung quadratischer Formen 11 (r(A) ist der Rang von A) Bemerkung Es gilt auch die Rückrichtung. Beweis a. Zunächst sei wieder Σ = Id . Wegen A = A2 hat die Spektralzerlegung von A die Form A = QT diag( 1, . . . , 1 , 0, . . . , 0)Q | {z } r(A) mal mit orthogonaler Matrix Q. Somit 2 XT AX = XT QT diag(1, . . . , 1, 0, . . . , 0) QX = YT DY = Y12 + . . . + Yr(A) | {z } |{z} =:Y =:D wobei Y ∼ N ( Qµ , Id ). Somit gilt: |{z} =:v XT AX ∼ χ2 (r(A), 1 1 2 2 (v1 + . . . + vr(A) )) = χ2 (r(A), µT Aµ) 2| 2 {z } =vT Dv=µT Aµ 1 1 b. Allgemeiner Fall: Ist X ∼ N (µ, Σ), so gilt Y = Σ− 2 X ∼ N (Σ− 2 µ, Id ) und XT AX = 1 1 YT Σ 2 AΣ 2 Y. 1 1 Es ist Σ 2 AΣ 2 idempotent, denn 1 1 1 1 1 1 1 1 1 1 Σ 2 AΣ 2 Σ 2 AΣ 2 = Σ− 2 ΣAΣAΣ 2 = Σ− 2 ΣAΣ 2 = Σ 2 AΣ 2 . Nach (a) gilt somit 1 1 1 1 1 1 1 XT AX ∼ χ2 (r(Σ 2 AΣ 2 ), (Σ− 2 µ)T Σ 2 AΣ 2 (Σ− 2 µ)) 2 1 T 2 = χ (r(A), µ µ). 2 1 da Σ 2 vollen Rang hat. Beispiel 1.8 Es seine X1 , . . . , Xn unabhängig und N (µ, σ 2 ) verteilt. Als Schätzer für Erwartungswert und Varianz betrachtet man n 1X X̄n = Xi , n i=1 n Sn2 1 X = (Xi − X̄n )2 . n−1 i=1 Offenbar ist X̄n ∼ N (µ, σ 2 /n). Wir zeigen n−1 2 S ∼ χ2 (n − 1). σ2 n (4) 12 1 MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN Dazu setze 1n = (1, . . . , 1)T ∈ Rn und Pn = In − n1 1n 1Tn (die Zentrierungsmatrix). Für X = (X1 , . . . , Xn )T ist in der Tat Pn X = (X1 − X̄n , . . . , Xn − X̄n )T . Weiter Pn2 = Pn (Beweis), also nach Satz 1.7 n−1 2 1 T 2 2 T S = X P X ∼ χ r(P ), µ 1 P 1 /2 . n n n n n n σ2 σ2 Da Pn2 = Pn und PnT = Pn , ist r(Pn ) = Spur Pn = n − 1. Ausserdem ist Pn 1n = 0. Dies zeigt (4). Satz 1.9 (Craig und Sakamoto) Sei X ∼ N (µ, Σ). a. Ist A ∈ Rd×d positiv semidefinit, B ∈ Rp×d , so gilt BΣA = 0 ⇒ XT AX und BX sind unabhängig b. Ist auch B ∈ Rd×d positiv semidefinit, so gilt BΣA = 0 ⇒ XT AX und XT BX sind unabhängig Bemerkung Es gilt jeweils auch die Rückrichtung (dies ist der schwerere, aber weniger relevante Teil). Beweis a. Spektralzerlegung von A A = Q diag(λ1 , . . . , λr(A) , 0, . . . , 0)QT mit Q orthogonal, λi > 0. Sei Q = (q1 , . . . , qd ), Q̃ = (q1 , . . . , qr(A) ) ∈ Rd×r(A) . Dann 1 1 2 ) A = Q̃DDQ̃T , D = diag(λ12 , . . . , λr(A) Setze L := Q̃D, dann ist A = LLT . Weiter gilt LT L = D Q̃T Q̃ D = D2 | {z } =Ir(A) ist invertierbar, also BΣA = BΣLLT = 0 ⇒ BΣL(LT L)(LT L)−1 = BΣL = 0. Nach Satz 1.5 sind somit die Vektoren BX und LT X unabhängig und somit auch BX und XT LLT X = XT AX (ist Funktion von LT X). b. Analog. (Zerlege A und B.) 1.5 Verteilung quadratischer Formen Fortsetzung von Beispiel 4. normalverteilten Xi unabhängig. 13 Da X̄n = 1Tn X/n und 1Tn Pn = 0, sind X̄n und Sn2 bei Literatur Discroll, M. F. (1999). An improved result relating quadratic forms and chi square distributions. Amer. Statist. 53, 273-275. Discroll, M. F. and Grundberg, W. R. (1986). A history of the development of Craig’s theorem. Amer. Statist. 40, 65-69. Discroll, M. F. and Krasnicka, B. (1995). An accessible proof of Craig’s theorem in the general case. Amer. Statist. 49, 59-62. 14 2 2 LINEARE REGRESSION Lineare Regression 2.1 2.1.1 Lineare Regression und Modellbildung Regression und das lineare Modell In der Regressionsanalyse geht es darum, den Einfluss einer Reihe von erklärenden Variablen x1 , . . . , xr , sogenannte Kovariablen, auf eine abhängige Variabe Y , die Zielvariable, zu modellieren bzw. zu schätzen. Dieser Zusammenhang drückt sich in Form einer Funktion y = f (x1 , . . . , xr ) aus. Nun wird aber nicht angenommen, dass diese Beziehung exakt gilt. Vielmehr ist sie durch zufällige Störgrößen ǫ überlagert, d.h. es gilt Y = f (x1 , . . . , xr ) + ǫ. In der linearen Regressionsanalyse nimmt man an, dass der Einfluss der Kovariablen, zumindest nach geeignter Transformation dieser Variablen, in einer linearen From Y = b0 + b1 x1 + . . . + br xr + ǫ. Dabei ist ǫ eine Zufallsvariable (bzw. deren Realisierung) mit Erwartungswert Eǫ = 0 und endlicher Varianz Var ǫ = σ 2 , und somit ist auch die Zilegröße Y eine Zufallsvariable (bzw. deren Realisierung). Ziel ist dann die Schätzung der Parameter b0 , . . . , br . Diese fasst man in einem Vektor zusammen. Wir schreiben β = (b0 , . . . , br ) ∈ Rp , also p = r + 1, und für die Komponenten von β = (β1 , . . . , βp )T gilt dann βi = bi−1 . Weiter schreibt man x = (1, x1 , . . . , xr )T ∈ Rp , so dass Y = xT β + ǫ. Ziel ist nun in einem ersten Schritt die Schätzung der unbekannten Parameter des Modells, insbesondere von β. Dazu nimmt man an, es werden Daten (Yi , xi,1 , . . . , xi,r ), i = 1, . . . , n, beobachtet, so dass Yi = xTi β + ǫi , xi = (1, xi,1 , . . . , xi,r )T . Für die Fehler ǫi nimmt man dabei an, dass diese unabhängig oder zumindest unkorreliert sind, also dass Cov(ǫi , ǫj ) =, i 6= j. Falls darüber hinaus die Varianzen σi2 = Var ǫi alle gleich sind, also σ12 = . . . = σn2 , so sprich man von einer homoskedastsichen Fehlerstruktur, ansonsten von einer heteroskedastischen Fehlerstruktur. Die Analyse eines homoskedastischen linearen Regressionsmodells findet nun im Rahmen der Theorie linearer Modelle statt. Dazu schreiben wir das Modell in Vektor- und Matrixform wie folgt. T ε1 Y1 x1 .. .. .. n×p n , ǫ = . ∈ Rn . Y= . ∈R , X= . ∈R Yn xTn εn Es gilt dann Y = Xβ + ǫ. Für die Kovariablen nimmt man noch an, dass sie dergestalt sind, dass die sogenannte Designmatrix X vollen Rang p hat. Der Achsenabschnitt wird meistens, aber nicht immer in das lineare Regressionsmodell mit aufgenommen. Das lineare Regressionsmodell fällt unter die folgende allgemeinere Definition. 2.1 Lineare Regression und Modellbildung 15 Definition 2.1 Das Modell Y = Xβ + ǫ, (5) heißt lineares Modell, falls β ∈ Rp ein (konstanter, unbekannter) Parametervektor, X ∈ Rn×p eine bekannte Matrix (Designmatrix), Y ein beobachter Zufallsvektor (Zielgrößen) und ǫ ein nichtbeobachteter Zufallsvektor (Störgrößen) mit Eǫ = 0 und Cov ǫ = σ 2 In sind. Sind darüber hinaus die Fehler normalverteilt, also ǫ ∼ N (0, σ 2 In ), dann spricht man von einem linearen Modell mit normalverteilten Fehlern. Wir werden in den folgenden Abschnitten alle Resultate im allgemeinen linearen Modell (5) formulieren, aber wir denken dabei stets an ein homoskedastisches lineares Regressionsmodell. Lineare Modelle treten darüber hinaus insbesondere in dem verwandten Kontext der Varianzanalyse auf. 2.1.2 Modellierung des Einflusses der Kovariablen a. Einfluss einer metrischen Kovariable Angenommen, neben der Zielvariable Y wird noch eine metrische Kovariable x beobachtet. Das einfachste Modell ist nun die direkt lineare Regression von Y auf x, die einfache lineare Regression Y = b0 + b1 x + ε, also xT = (1, x)T und β T = (b0 , b1 )T . Manchmal liegt ein linearer Zusammenhang auch erst vor, nachdem x geeignet trasnformiert wurde, etwa zu x̃ = log(x) (falls x > 0) und dann Y = b0 + b1 x̃ + ε, also xT = (1, x̃)T . Man kann aus einer metrischen Kovariable auch mehrere metrische Kovariablen machen durch Anwendung linear unabhängiger Funktionen f1 , . . . , fr , also Y = b0 + b1 f1 (x) + . . . + br fr (x) + ε, T also x = 1, f1 (x), . . . , fr (x) . Beispiele sind die polynomiale Regression, bei der fi (x) = xi gewählt wird, also Y = b0 + b1 x + . . . + br xr + ǫ, T und x = 1, x, . . . , xr , oder auch für x ∈ [0, 1] die trigonometrische Regression, bei der f2j−1 (x) = sin(2jπx) und f2j (x) = cos(2jπx), j = 1, . . . , q gewählt wird, also q X Y = b0 + (b2j−1 sin(2jπx) + b2j cos(2jπx)), j=1 T und x = 1, sin(2πx), cos(2πx)), sin(2qπx), cos(2qπx)) , β = (b0 , b1 , b2 , . . . , b2q )T , also p = 2q + 1. b. Einfluss einer kategoriellen Kovariable Bei kategoriellen Kovariablen unterscheidet man nominale Kovariablen, bei denen die Kategorien nicht geordnet sind (etwa Autotypen), und ordinale Kovariable, bei denen die Kategorien 16 2 LINEARE REGRESSION in einer natürlichen Reihenfolge vorliegen (etwa Schulnoten). Wir betrachten zunächst die Modellierung einer nominale Kovariablen mit den Kategorien i = 1, . . . , I. Um nicht zu viele Parameter ins Modell aufzunehmen, damit also die Desigmatrix X noch vollen Rang hat, wählt man eine Referenzkategorie, z.B. i = 1, und für künstliche Kovariablen ein, deren Koeffizient den Unterschied zwischen der betrachteten Kategorie i = 2, . . . , I und der Referenzkategorie beschreibt. Hier sind insbesondere zwei Kodierungen üblich. Kodierung durch Dummy Variablen Wird die Kategorie x beobachtet und ist 1 die Referenzkategorie, so setze x = (1, 1x=2 , . . . , 1x=I )T ∈ RI , d.h. falls eine der Kategorien i = 2, . . . , I vorliegt, kommt eine 1 hinzu, ansonsten gibt es nur den Achsenabschnitt. Im Koeffizientenvektor β = (β1 , . . . , βI )T beschreibt βi den Unterschied des Einflusses von Kategorie i ≥ 2 gegenüber der Referenzkategorie, und β1 + βi den Gesamteinfluss von Kategorie i ≥ 2. Effektkodierung Wird die Kategorie x beobachtet und ist 1 die Referenzkategorie, so setze x = (1, 1x=2 − 1x=1 , . . . , 1x=I − 1x=1 )T ∈ RI . Die Software R verwendet standardmäßig die Dummy Kodierung. Handelt es sich bei x um eine ordinale Kovariable, so kann man versuchen, den geordeneten Kategorien konkrete Zahlen (etwa den Schulnoten die Zahlen 1 − 6) zuzuordnen, und diese dann wie eine metrische Kovariable zu benutzten. Dies hat den Vorteil, dass in dem Modell wesentlich weniger Parameter (nur ein Parameter β für Kovariable x statt I − 1 Parameter) verwendet werden müssen. Dabei müssen die zugeordneten Zahlen (insbesondere das Verhältnis von deren Abständen) aber sogfältig gewählt werden. Falls dies nicht adäquat möglich ist, sollte die Kovariable lieber wie eine nominale Kovariable und mit der Dummay Kodierung behandelt werden. relevante R Befehle kategorielle Kovariablen müssen bei der Funktion lm, die lineare Regression mit kleinsten Quadraten anpasst, als Faktor vorliegen. Dazu kann man den Typ mit str erfahren, und gegebenenfall mit as.factor zu einem Faktor umwandeln. c. Interaktionen Interaktionen zwischen einer kategoriellen und einer stetigen Kovariable Ist x eine kategorielle (nominale) Kovariable mit den Kategorien i = 1, . . . , I und t eine stetige Kovariable, die direkt (linear) in die Zielgröße eingeht, so können die Kategorienausprägungen von x auch den Koeffizienten von t beeinflussen. Dies nennt man Interaktionen, man setzt dann bei Referenzkategorie 1 und Dummykodierung von x T x = 1, 1x=2 , . . . , 1x=I , t, 1x=2 t, . . . , 1x=I t . Im Koeffizientenvektor β = (β1 , . . . , βI , βI+1 , . . . , β2I )T beschreibt dann βI+1 + β2I die Steigung von t bei Vorliegen von Kategorie i ≥ 2, und βI+1 die Steigung bei Vorliegen der Referenzkategorie 1. Man muss dabei natürlich nicht alle Interaktionen in das Modell aufnehmen. Falls sowohl stetige als auch kategorielle Kovariable auftreten, spricht man manchmal statt von der Regressionsanalyse auch von der Kovarianzanalyse. Interaktionen zwischen zwei kategoriellen Kovariablen Ist x eine kategorielle (nominale) Kovariable mit den Kategorien i = 1, . . . , I und t eine kategorielle Kovariable mit Kategorien j = 1, . . . , J, so kann man Interaktionen für gemeinsames 2.1 Lineare Regression und Modellbildung 17 Vorliegen von x = i und t = j modellieren. Sind i = 1 und j = 1 die Referenzkategorien, so bildet man in Dummy Kodierung x = 1, 1x=2 , . . . , 1x=I , 1t=2 , . . . , 1t=J , 1x=2 1t=2 , . . . , 1x=2 1t=J , . . . , 1x=I 1t=J T ∈ RIJ . Die Terme 1x=i 1t=j , i = 2, . . . , I, j = 2, . . . , J, entsprechen dann den Interaktionen, diese sind wieder als Abweichungen gegenüber den Haupteffekten 1x=i und 1t=j zu interpretieren. Interaktionen zwischen zwei metrischen Kovariablen Interaktionen zwischen zwei metrischen Kovriablen x und t müssen durch Aufnahme bestimmter gemeinsamer nichtlinearer Funktionen, etwa xt oder ex et , modelliert werden. Man benutzt häufig gemeinsame Polynome niedrigen Grades. In welcher Form metrische Kovariablen aufgenommen werden, und welche Interaktionen mit kategoriellen oder anderen metrsichen Kovariablen aufgenommen werden, muss innerhalb der Modellwahl und der Modelldiagnostik bestimmt werden. Wie nehmen zunächst an, dass ein linearen Modell der Form (5) in seiner korrekten Form gegeben ist. 18 2 2.2 LINEARE REGRESSION Kleinste Quadrate Schätzung 2.2.1 Methode der kleinsten Quadrate Der bekannteste Schätzer von β im linearen Modell (5) ergibt sich der Pn aus der TMethode 2 2 kleinsten Quadrate. Wann wählt dabei β derart, dass kY −Xβk = i=1 (Yi −xi β) minimal wird, also β̂ = β̂ LS = argminβ∈Rp kY − Xβk2 Dabei stehet LS für least squares = kleinste Quadrate. Wir schreiben für die Komponenten von β̂ LS explizit β̂ LS = (β̂1,LS , . . . , β̂p,LS ). Wir wollen β̂ LS in expliziter Form auf zwei Arten herleiten. Normalengleichungen. Ableiten von kY − Xβk2 und gleich 0 setzten liefert X T (Y − Xβ) = 0. Dies nennt man auch die Normalengleichungen, diese sind eine notwendige Bedingung für ein lokales Extremum. Da X vollen Rang p hat, ist X T X ∈ Rp×p invertierbar und man erhält β̂ LS = β̂ = (X T X)−1 X T Y. (6) Dass β̂ LS das einzige lokale und somit globale Minimum von kY − Xβk2 ist, sieht man leicht daran, dass die Hessische Matrix (Matrix der zweiten Ableitungen) gleich X T X und somit positiv definit ist. Geometrische Herleitung: Ein β̂ minimiert die Funktion kY−Xβk2 genau dann, wenn X β̂ die orthogonale Projektion von Y auf den von den Spaltenvektoren von X = [v1 , . . . , vp ], vi ∈ Rn , erzeugten Unterraum V = span{v1 , . . . , vp } im Rn ist. In der Tat: Für jedes andere β gilt nach Pythagoras: kY − Xβk2 = k Y − X β̂ +X(β̂ − β)k2 = kY − X β̂k2 + kX(β̂ − β)k2 ≥ kY − X β̂k2 | {z } ⊥ v1 ,...,vp Da X vollen Rang hat, sind v1 , . . . vp linear unabhängig und somit ist der Koeffizientenvektor β̂ LS eindeutig bestimmt. Um den Schätzer β̂ LS in der expliziten Form (6) zu erhalten, betrachten wir die Matrix PX = X(X T X)−1 X T ∈ Rn×n (die sogenannte hat matrix). Es ist PX : Rn → V z 7→ PX z die orthogonale Projektion auf V . Dazu zeigt man durch direkte Rechnung: a. PX ist orthogonale Projektion: PX2 = PX , PXT = PX b. PX lässt V invariant c. PX Rn ⊂ V Somit muss gelten: X β̂ = PX Y = X(X T X)−1 X T Y. Da X vollen Rang hat, ergibt sich wieder die Form (6). 2.2 Kleinste Quadrate Schätzung 19 Bemerkung Erwartungswert und Varianz von Y im linearen Modell (5) hängen von den unbekannten Parametern (β, σ 2 ), ab, höhere Momente sogar von der unbekannten Verteilung der Störungen ǫ. Daher müsste man diese bei Bildung von Erwartungswert und Varianz eigentlich mitschreiben, also etwa Eβ,σ2 (·) und Covβ,σ2 (·). Wir werden diese Parameter aber in der Notation im allgemeinen unterdrücken, und einfach E und Cov schreiben. Satz 2.2 Der kleinste Quadrate Schätzer β̂ LS im linearen Modell (5) ist unverfälscht, also E β̂ LS = β, und es ist Cov β̂ LS = σ 2 (X T X)−1 . Beweis Mit Satz 1.2 folgt E β̂ LS = E(X T X)−1 X T Y = E(X T X)−1 X T (Xβ + ǫ) = E(X T X)−1 X T Xβ + E(X T X)−1 X T ǫ = β + (X T X)−1 X T |{z} Eǫ , =0 = β Cov β̂ LS = Cov((X T X)−1 X T ( Xβ +ǫ)) |{z} konst. = Cov((X T X)−1 X T ǫ) = (X T X)−1 X T σ 2 In X(X T X)−1 = σ 2 (X T X)−1 1/2 1/2 Man nennt σ (X T X)−1 und für einen Schätzer σ̂ 2 von σ 2 (s.u.) auch σ̂ (X T X)−1 den ii ii Standardfehler von β̂i,LS . Im Folgenden zeigen wir, dass β̂ LS der eindeutig bestimmte, lineare unverfälschte Schätzer mit der kleinsten Varianz ist. Satz 2.3 (Gauß-Markov-Aitken) a. Sei S(Y) = AY, A ∈ Rp×n , ein linearer, unverfälschter Schätzer für β im linearen Modell (5) (d.h. ES(Y) = β ∀β ∈ Rp ). Dann gilt Cov(S(Y)) ≥ Cov(β̂ LS ) im Sinne, dass die Differenz Cov(S(Y)) − Cov(β̂ LS ) positiv semidefinit ist. b. Ist A 6= (X T X)−1 X T , so existiert z = z(A) ∈ Rp , so dass zT (Cov(S(Y)) − Cov(β̂ LS ))z > 0 Beweis a. Aus der Unverfälschtheit folgt ! ES(Y) = AXβ = β ∀β ∈ Rp , 20 2 LINEARE REGRESSION also AX = Ip . Damit und mit Satz 2.2 ist Cov(β̂ LS ) = σ 2 (X T X)−1 = σ 2 AX(X T X)−1 X T AT = σ 2 APX AT , Cov(S(Y)) = Aσ 2 In AT = σ 2 AAT . Damit erhält man Cov(S(Y )) − Cov(β̂ LS ) = σ 2 A(In − PX )AT Die Matrix (In − PX ) ist idempotent und symmetrisch: (In − PX )2 = (In − PX ) = (In − PX )T . Somit: σ 2 zT A(In − PX )AT z = σ 2 k(In − PX )AT zk2 ≥ 0. b. Angenommen, (In − PX )AT zk2 = 0 ∀z ∈ Rp , und somit (In − PX )AT = 0. Sei AT = (a1 , . . . , ap ), ai ∈ Rn , dann erhält man 3 : ai ∈ span(v1 , . . . , vp ), also AT = XM für eine Matrix M ∈ Rp×p . Wegen AX = Ip folgt M T X T X = IP , also M T = (X T X)−1 ⇒ A = (X T X)−1 X T . Wegen Satz 2.3 heißt der Schätzer β̂ LS auch der beste lineare unverfälschte Schätzer (best linear unbiased estimator, BLUE). Bemerkung 2.4 1. Satz 2.3, b., impliziert, dass es für einen unverfälschten Schätzer S(Y) 6= β̂ LS ein z ∈ Rp gibt, so dass gilt Var(zT S(Y)) > Var(zT β̂ LS ). (Schätzer für zT β) 2. Satz 2.3, a., folgt Cov(S(Y ) jj ≥ Cov β̂ LS jj für j = 1, . . . , p, und daher Spur(Cov(S(Y ))) ≥ Spur(Cov(β̂ LS )) Der kleinste Quadrate Schätzer β̂ LS als Maximum-Likelihood-Schätzer. Ange2 nommen, im linearen Modell (5) sind die Fehler normalverteilt, also ǫ ∼ N (Xβ, σ In ) und somit Y ∼ N (Xβ, σ 2 In ). Dann ist die Likelihood-Funktion gegeben durch ! n X 1 1 (Yi − xTi β)2 , Ln (β, σ 2 ) = − 2 n exp 2σ (2πσ 2 ) 2 i=1 und die log-Likelihood-Funktion durch n kY − Xβk2 Ln (β, σ 2 ) = log Ln (β, σ 2 ) = − log(2πσ 2 ) − 2 2σ 2 Damit Ln (β, σ 2 ) maximal wird, muss offenbar kY − Xβk2 minimal werden. Daher ist β̂ LS gleich dem Maximum Likelihood Schätzer β̂ M L für β im linearen Modell mit normalverteilten Fehlern. Schätzen der Fehlervarianz σ 2 . Zunächste einige Bezeichnungen: Ŷ = X β̂ = Ŷ1 , . . . , Ŷn 3 T ǫ̂ = Y − Ŷ angepassten Werte (fitted values) Residuen ai ∈ Kern(In − PX ) = Bild(PX ); Eigenschaft von Projektionen (hier: PX ) 2.2 Kleinste Quadrate Schätzung 21 Idee: Nutze Variation der ǫ̂ = (ε̂1 , . . . , ε̂n )T zum Schätzen von σ 2 . Schätze σ 2 durch n 2 σ̂ 2 = σ̂LS = 1 X 2 1 1 kY − Ŷk2 = YT (I − PX )Y, ε̂i = n−p n−p n−p i=1 wobei wir Ŷ = X β̂ = PX Y und (I − PX ) = (I − PX )2 = (I − PX )T genutzt haben. Satz 2.5 2 erwartungstreu für σ 2 . Im linearen Modell (5) ist σ̂LS Beweis Da EY = Xµ, Cov Y = σ 2 In , folgt mit Satz 1.2 E(YT (I − PX )Y) = µT X T (I − PX )X µ + Spur(σ 2 (I − PX )). | {z } =0 Es gilt: Spur(In − PX ) = n − Spur(X(X T X)−1 · X T ) = n − Spur(X T · X(X T X)−1 ) = n − Spur Ip = n − p. Somit ist 2 = E σ̂LS 1 E(YT (I − PX )Y) = σ 2 . n−p (7) 2 2 Übung Der ML-Schätzer σ̂M L für σ im linearen Modell mit normalverteilten Fehlern ist gegeben durch n1 kY − X β̂ LS k2 . Relevante R Befehle lm führt eine kleinste Quadrate Schätzung im linearen Modell durch. Auf ein dadurch erzeugtes Objekt kann man summary (Schätzwerte, Schätzer für σ 2 , Standardfehler und mehr), fitted.values (angepasste Werte), residuals (Residuen) anwenden. 22 2.2.2 2 LINEARE REGRESSION Verteilungstheorie bei normalverteilten Fehlern In diesem Abschnitt gehen wir auf die Verteilung der Schätzer sowie relevanter Teststatistiken im linearen Modell (5) mit normalverteilten, homoskedastischen Fehlern, also ǫ ∼ N (0, σ 2 In ), ein. Wir beginnen mit dem grundlegenden Satz 2.6 Im linearen Modell Y = Xβ + ǫ, β ∈ Rp , mit normalverteilten, homoskedastischen Fehlern ǫ ∼ N (0, σ 2 In ) gilt n−p 2 β̂ LS ∼ N β, σ 2 (X T X)−1 , σ̂ ∼ χ2 (n − p), σ2 und β̂ LS und σ̂ 2 sind unabhängig. Beweis Da Y ∼ N (Xβ, σ 2 In ), folgt aus β̂ LS = (X T X)−1 X T Y mit Satz 1.3 direkt die Behauptung für β̂ LS . Weiter ist 1 σ̂ 2 = 2 YT (In − PX )Y. σ Da (In − PX )2 = In − PX (die orthogonale Projektion auf das orthogonale Komplement des Spaltenraumes von X), ist Satz 1.7 anwendbar (die Division durch σ 2 standardisiert die Y). Da (In − PX )X = 0, ist der Nichtzentralitätsparameter gleich 0. Weiter ist nach (7) Spur(In − PX ) = n − p. Es bleibt die Unabhängigkeit von β̂ LS und σ̂ 2 zu zeigen. Diese folgt direkt aus Satz 1.9, da (In − PX )X = 0. Konfidenzintervall für cT β. cT β̂ LS und Für c ∈ Rp gilt nach Satz 2.6 und Satz 1.3 ∼ N cT β, σ 2 cT (X T X)−1 c cT β̂ LS − cT β 1 σ(cT (X T X)−1 c) 2 ∼ N (0, 1). Wegen der Unabhängigkeit von β̂ LS und σ̂ 2 (und somit auch von cT β̂ LS und σ̂ 2 ) folgt direkt aus der Definition der t Verteilung cT β̂ LS − cT β 1 σ̂ (cT (X T X)−1 c) 2 ∼ t(n − p). (8) Konfidenzintervall für cT β zum Niveau α > 0: T 1 1 c β̂ LS − σ̂(cT (X T X)−1 c) 2 t1− α2 (n − p); cT β̂ LS + σ̂(cT (X T X)−1 c) 2 t1− α2 (n − p) . Insbesondere für Komponente βi (c = ei , i-te Einheitsvektor): 1 1 β̂LS,i − σ̂((X T X)−1 )ii2 t1− α2 (n − p); β̂LS,i + σ̂((X T X)−1 )ii2 t1− α2 (n − p) . Aufgabe Konfidenzintervall für σ 2 . relevante R Befehle confint liefert für ein Objekt aus lm die Konfidenzintervalle der einzelnen Komponenten des KQ Schätzers. 2.2 Kleinste Quadrate Schätzung 23 Hypothesen Testen mit dem t Test Für c ∈ Rp und δ ∈ R betrachten wir die Hypothese Hc,δ : cT β = δ. Unter Gültigkeit der Hypothese Hc,δ gilt nach (8): Tc,δ = cT β̂ LS − δ 1 σ̂(cT (X T X)−1 c) 2 ∼ t(n − p). Man verwirft die zweiseitige Hypothese Hc,δ zum Niveau α > 0, falls Tc,δ < tα/2 (n − p) oder falls Tc,δ > t1−α/2 (n − p). Der zweiseitige p-Wert ergibt sich als 2 t(n − p) (Tc,δ ), Tc,δ < 0, (9) P = 2 1 − t(n − p) (Tc,δ ) , Tc,δ > 0. Analog für einseitige Hypothesen. Wichtigster Spezialfall: c = ei , δ = 0. Dann Hi : βi = 0, und (β̂ LS )i Ti = . 1/2 σ̂((X T X)−1 )ii relevante R Befehle Hypothese Hi . summary liefert für ein Objekt aus lm die zweiseitigen P-Werte für die Vorhersageintervalle Ein Konfidenzintervall bezieht sich auf den Erwartungswert cT β von cT β̂, wobei β̂ aus dem linearen Modell (5) berechnet wird. Bei einem Vorhersageinterall (Prediction Interval) hingegen ist eine zusätzliche Kovariablenausprägung xn+1 erforderlich, bei der die abhängige Variable Yn+1 vorhergesagt werden soll. Das Vorhersageintervall bezieht sich also nicht auf einen Parameter wie das Konfidenzintervall, sondern auf die Zufallsvariable Yn+1 . Sei β̂ LS der KQ-Schätzer im linearen Modell (5). Als Vorhersage für Yn+1 bei xn+1 betrachten man Y Pred = xTn+1 β̂ LS . Nach dem linearen Modell würde die Beobachtung Yn+1 entstehen durch Yn+1 = xTn+1 β + εn+1 , wobei εn+1 und ǫ unabhängig sind. Somit Y Pred − Yn+1 = xTn+1 (β̂ LS − β) + εn+1 ∼ N 0, σ 2 + σ 2 xTn+1 (X T X)−1 xn+1 , und nach Satz 2.6 Y Pred − Yn+1 1 σ̂(1 + xTn+1 (X T X)−1 xn+1 ) 2 ∼ tn−p . Als zweiseitigen Vorhersagebereich erhält man Pred 1 1 Y −σ̂(1+xTn+1 (X T X)−1 xn+1 ) 2 t1− α2 (n−p), Y Pred +σ̂(1+xTn+1 (X T X)−1 xn+1 ) 2 t1− α2 (n−p) . 24 2 LINEARE REGRESSION Vergleich. Das Vorhersageintervall für Yn+1 ist breiter als das Konfidenzintervall für xTn+1 β, da der zusätzliche Fehler εn+1 in Yn+1 mit berücksichtigt werden muss. relevante R Befehle predict.lm anwenden auf Objekt aus lm und zusätzliche Kovariable. Konfidenzbereich für Aβ Satz 2.6 und Satz 1.3 ist Die Matrix A ∈ Rq×p , 1 ≤ q ≤ p, habe vollen Rang. Nach Aβ̂ LS ∼ N Aβ, σ 2 S , wobei S = A(X T X)−1 AT ∈ Rq×q vollen Rang hat. Nach Satz 1.7 ist dann (A(β̂ LS − β))T S −1 A(β̂ LS − β) ∼ χ2 (q). σ2 Da nach Satz 2.6 σ̂ 2 und β̂ LS (und damit auch eine Funktion von β̂ LS ) unabhängig sind, folgt aus der Definition der F Verteilung (A(β̂ LS − β))T S −1 A(β̂ LS − β) ∼ F (q; n − p). qσ̂ 2 (10) Somit ergibt sich als (1-α)-Konfidenzbereich für Aβ: n o (A(β̂ LS − β))T S −1 A(β̂ LS − β) Aβ : ≤ F (q; n − p) . 1−α qσ̂ 2 Ein wichtiger Spezialfall ensteht, falls A eine Teilmatrix von Ip ist. relevante R Befehle Die library ellipse enthält den Befehl ellipse, welcher zweidimensionale Konfidenzellipsoide berechnet. Plotten einfach mit plot. Testen allgemeiner linearer Hypothesen mit dem F-Test Man möchte manchmal allgemeinere lineare Hypothesen, die nicht von der Form cT β = δ sind, testen. Beispiele linearer Hypothesen. a. H: β = 0 (alle βi = 0) b. H: βi1 = . . . = βiq = 0, 1 ≤ i1 < . . . < iq ≤ p c. H: β = β 0 , β 0 6= 0. Allgemeine lineare Hypothese: Für A ∈ Rq×p , q ≤ p mit vollem Rang, m ∈ Rq betrachte HA,m : Aβ = m. Es gilt Aβ̂ − m ∼ N Aβ − m, σ 2 S , 2.2 Kleinste Quadrate Schätzung 25 wobei wiederum S = A(X T X)−1 AT ∈ Rq×q vollen Rang hat. Dann ist (Aβ̂ − m)T S −1 (Aβ̂ − m) ∼ χ2 (q, λ) σ2 −1 wobei der Nichtzentralitätsparameter λ = 12 (Aβ − m)T Sσ2 (Aβ − m), und somit FS = (Aβ̂ − m)T S −1 (Aβ̂ − m) ∼ F (q, n − p, λ) qσ̂ Unter der Hypothese HA,m gilt λ = 0. Daraus bestimmt man den zweiseitigen p-Wert für die lineare Hypothese als P = 1 − F (q, n − p)(F S). Aufgabe Aβ = m. Bestimme den kleinsten Quadrate Schätzer unter der linearen Nebenbedingung relevante R Befehle anova führt den F Test durch, dabei muss das Modell unter HA,m mit geschätzt worden sein und als Argument übergeben werden. Falls kein zweites Modell übergeben wird, führt anova die F-Tests dafür durch, ob bei kategorielle Kovariablen alle Koeffizienten der Dummy Variablen = 0 sind, und gegebenenfalls auch für die Interaktionen. 2.2.3 Asymptotische Verteilungstheorie In diesem Abschnitt zeigen wir, dass der kleinste Quadrate Schätzer im linearen Regressionsmodell unter geeigneten Bedingungen bei nicht-normalverteilten Fehlern zumindest asymptotisch normalverteilt ist. Dazu benötigen wir zunächst ein geeignetes Beobachtungsmodell, in dem die Anzahl der Beobachtungen n wächst (n → ∞), die Zahl der Parameter p sowie der Parametervektor β und σ 2 fest bleiben. Wir nehmen also an, dass für jedes n Beobachtungen (Yi,n , xi,n ), i = 1, . . . , n, aus dem Modell Yi,n = xTi,n β + ǫi,n i = 1, . . . , n, (11) vorliegen, wobei ǫi,n identisch verteilt sind für alle i, n mit Eǫi,n = 0, Eǫ2i,n = σ 2 , und ǫ1,n , . . . , ǫn,n unabhängig sind für alle n. Setze Xn = (xT1,n , . . . , xTn,n )T ∈ Rn×p , Yn = (Y1,n , . . . , Yn,n ) ∈ Rn , ǫ = (ǫ1,n , . . . , ǫn,n )T ∈ Rn , wobei wir im Vektor ǫ die Abhängigkeit von n unterdrückt haben. Annahme. Alle Komponenten der xj,n (für alle j, n) liegen in einer kompakter Menge K, und es gelte 1 T X Xn → Q ∈ Rp×p (12) n n für eine positiv definite Matrix Q > 0. Satz 2.7 In einer Folge von linearen Modellen (11) unter obigen Annahmen gilt für die Folge von Schätzern β̂ LS,n und σn2 unter Annahme (12) √ d n(β̂ LS,n − β) → N (0, σ 2 Q−1 ) (13) 26 2 sowie LINEARE REGRESSION P σ̂n2 → σ 2 . d Bemerkung a. Das Symbol → steht für Konvergenz in Verteilung, also im Falle einer Normalverteilung als Grenzverteilung für punktweise Konvergenz der entsprechenden Verteilungsfunktionen. P P b. Das Symbol → steht für stochastische Konvergenz, also Zn → Z falls P (|Zn − Z| ≥ δ) → 0, n → ∞, für alle δ > 0. Zum Beweis von Satz 2.7 aus der Stochastik. Wir benötigen folgende Resultate über Verteilungskonvergenz ZGWS unter Lindeberg Für jedes n ∈ N seien Zjn , j = 1, . . . , n unabhängige Zufalls2 < ∞. variablen (nicht notwendig identisch verteilt) mit EZjn = 0, Var Znj = σjn Pn 2 + . . . + σ 2 . Gilt ∀δ > 0 die Lindeberg-Bedingung Es sei Sn = j=1 Zjn , ESn2 = s2n = σ1n nn n Z 1 X |Zjn |2 dP → 0, s2n |Zjn |≥δsn n → ∞, j=1 so folgt Sn d → N (0, 1) (n → ∞). sn Sei Zn ∈ Rd Zufallsvektor, EZn = 0, Cov Zn = Σ. Dann: Cramer-Wold-Technik d d Zn → N (0, Σ) ⇔ ∀a ∈ Rd gilt aT Zn → N (0, aT Σa) Satz von Slutzky d P Gilt Zn → N (0, Σ) und An → A ∈ Rd×p , A konstant, dann d An Zn → N (0, AΣAT ). Beweis von Satz 2.7. Es ist √ 1 1 n(β̂ LS,n − β) = ( XnT Xn )−1 √ XnT ǫ } n | n {z →Q−1 Also genügt es nach dem Satz von Slutzky zu zeigen, dass 1 d √ XnT ǫ → N (0, σ 2 Q) n Dazu zeige nach Cramer-Wold für a ∈ Rp beliebig (a 6= 0) 1 d √ aT XnT ǫ → N (0, σ 2 at Qa) n 2.2 Kleinste Quadrate Schätzung Zunächst ist 27 1 σ2 T T Var( √ aT XnT ǫ) = a Xn Xn a ≥ η > 0 n n (14) wegen Annahme (12) asymptotisch von 0 weg beschränkt (für n ≥ n0 ). Weiter gilt n aT XnT = (aT xn,1 , . . . , aT xn,n ), X aT xn,i 1 √ aT XnT ǫ = √ εi,n n n i=1 Wegen Annahme (1) (kompakte Menge) gilt sup |aT xn,i | = c < ∞ (15) i,n Überprüfe nun die Lindeberg-Bedingung des ZGWS mit Zjn = σ2 T T n a Xn Xn a. √1 aT xj,n εj,n n und s2n = Es gilt für δ > 0 (und n ≥ n0 ) wegen (14) 1 s2n n Z X 1 T (a xj,n )2 ε2j,n dP n j=1 Z n X 1 T 1 2 |εj,n |2 dP → 0 (a xj,n ) ≤ 2 δη √ η n |ε |≥ n j,n c j=1 | {z } {z } | →0 beschränkt wegen (15) | √1n aT xj,n εj,n |≥δsn Die Konvergenz des Integralterms ist unabhängig von j, n, da die ǫj,n identisch verteilt sind. Dies zeigt (13). Zur Konsistenz von σ̂n2 : Rechenregeln für das Symbol OP . Eine Folge Zn von d-dim. Zufallsvektoren (Zn ) ist OP (1), falls für alle δ > 0 ein C > 0 existiert, so dass für alle n, P (kZn kd ≥ C) ≤ δ, wobei k · kd eine Norm auf Rd ist. Dies ist äquivalent zur Straffheit der Folge (Zn ) (vgl. Stochastik). Für eine positive Zahlenfolge (cn ) ist nach Definition Zn = OP (cn ), falls Zn /cn = OP (1). Dann gilt: ist Zn = OP (cn ), Wn = OP (dn ) (Wn Zufallsvektor im Rd , dn Zahlenfolge), dann ist ZTn Wn = OP (cn dn ) (Übung). Zum Beweis: Es ist σ̂n2 = ǫT ǫ ǫT Xn (XnT Xn )−1 XnT ǫ − n−p n−p Wegen der oben gezeigten Konvergenz ist √1 ǫT Xn n = OP (1). Somit 1 1 1 √ ǫT Xn ( XnT Xn )−1 √ XnT ǫ n n n = OP (1)O(1)OP (1) ǫT Xn (XnT Xn )−1 XnT ǫ = = OP (1) 28 2 LINEARE REGRESSION Daher ist σ̂ 2 = = ǫT ǫ + OP (n−1 ) n−p n n 1X 2 εi,n + OP (n−1 ). n−pn i=1 Die Behauptung folgt somit aus dem schwachen Gesetzt der großen Zahlen. Folgerung. Unter den Annahmen von Satz 2.7 gilt (XnT Xn )(−1/2) d 1 β̂ LS,n − β → N (0, Ip ). σ̂n (16) Bemerkung 2.8 Man kann nun auf dem asymptotischen Verteilungsresultat (16) eine Theorie der statistischen Inferenz im linearen Regressionsmodell (asymptotische Konfidenzintervalle, Tests, etc.) aufbauen. So ist etwa die t Statistik auf der linken Seite in (8) asymptotisch N (0, 1) verteilt, und die F-Statistik auf der linken Seite in (10) ist asymptotisch verteilt wie qχ2 (q) (ohne die Devision durch q asymptotisch χ2 (q), dann wird diese Statistik auch Wald-Statistik genannt. Man verwendet aber meistens die exakte Verteilungstheorie unter normalverteilten Fehlern. Dies hat mehrere wesentliche Gründe: a. Die Standard Statistik Software (etwa R) liefert stets Ergebnisse, die auf der exakten Verteilungstheorie für normalverteilte Fehler basiert, b. diese berücksichtigt auch explizit den statistischen Fehler beim Schätzen von σ 2 (also etwa t Verteilung statt Normalverteilung), und ist daher häufig genauer, c. Messfehler sind häufig approximativ normalverteilt (sie ergeben sich als Überlagerung vieler kleiner Ursachen) d. die exakte Theorie ist auch robust gegenüber Abweichungen von der Normalverteilungsannahme. Bemerkung Die Asymptotik (16) gilt auch unter den wesentlich schwächeren Bedingungen: (XnT Xn )−1 → 0 und max xTi (XnT Xn )−1 xi → 0 1≤i≤n ( für n → ∞). Literatur Eicker, F. (1963). Asymptotic normality and consistency of the least squares estimators for families of linear regressions. Ann. Math. Statist. 34, 447–456. 2.3 Andere Schätzverfahren 2.3 29 Andere Schätzverfahren 2.3.1 Mittlerer quadratischer Fehler und Ridge-Regression Der kleinste Quadrate Schätzer β̂ LS ist zwar der beste lineare unverfälschte Schätzer, wir werden im Folgenden aber zeigen, dass es (bzgl des mittleren quadratischen Fehlers) noch bessere lineare, aber nicht unverfälschte Schätzer gibt. Für einen Schätzer β̂ von β definiert man den mittlerer quadratischen Fehler (mean squared error, MSE) durch ! p X MSEβ (β̂) = Eβ kβ̂ − βk2 = E (β̂i − βi )2 i=1 Es gilt: Ekβ̂ − βk2 = Ekβ̂ − E β̂ + E β̂ − βk2 = Ekβ̂ − E β̂k2 + 2 Ehβ̂ − E β̂, E β̂ − βi +kE β̂ − βk2 | {z } =0 2 2 = Ekβ̂ − E β̂k + kE β̂ − βk da Ehβ̂ − E β̂, E β̂ − βi = Also p X i=1 E((β̂i − E β̂i )(E β̂i − βi )) = 0. Ekβ̂ − βk2 = Ekβ̂ − E β̂k2 + kE β̂ − βk2 . {z } | {z } | Varianz-Term“ ” Bias-Term“ ” Für unverfälschte Schätzer gilt: kE β̂ − βk2 = 0. Für lineare Schätzer β̂ = AY, A ∈ Rp×n gilt: Ekβ̂ − E β̂k2 = EkAǫk2 = E(ǫT AT Aǫ) = σ 2 Spur(AT A) = σ 2 Spur(AAT ) = Spur(Cov β̂). Somit sagt Gauß-Markov-Aitken (s. Bemerkung 2.4): β̂ LS ist linearer, unverfälschter Schätzer mit kleinstem MSE . Ziel β̂ LS . Konstruktion von linearen, nicht unverfälschten Schätzern mit kleinerem MSE als Wir betrachten im Folgenden die Spektralzerlegung von X T X (existiert, da X T X positiv definit, insbesondere symmetrisch), also X T X = U diag(λ1 , . . . , λp )U T 30 2 LINEARE REGRESSION mit U orthogonal, λi > 0. Damit berechnet man den MSE von β̂ LS als4 : MSE(β̂ LS ) = σ 2 Spur(X T X)−1 = σ 2 p X λ−1 i . i=1 Ridge-Regression Für α > 0 setze β̂ α = (αIp + X T X)−1 X T Y. Berechne Bias- und Varianzterm für β̂ α : Ekβ̂ α − E β̂ α k2 = σ 2 Spur X(αIp + X T X)−2 X T = σ 2 Spur X T X(αIp + X T X)−2 Spektralzerlegung X T X(αIp + X T X)−2 = U diag Somit: 2 2 Ekβ̂ α − E β̂ α k = σ · λp λ1 UT , . . . , (α + λ1 )2 (α + λp )2 p X i=1 λi =: Var(α) (α + λi )2 Bemerkung Dieser Varianz-Term ist stets kleiner als der Varianz-Term von β̂ LS . Er wird kleiner für wachsendes α. Bias(α) := kE β̂ α − βk2 = = = k(αIp + X T X)−1 X T Xβ − βk2 λ λp 1 − 1, . . . , − 1 · U T βk2 k diag α + λ1 α + λp p 2 X α (U T β)2i (α + λi )2 i=1 Der Bias-Term wächst mit α. Satz 2.9 Es existiert ein α > 0, so dass MSE(β̂ α ) < MSE(β̂ LS ). Beweis Es ist MSE(α) = Bias(α) + Var(α) sowie MSE(β̂ LS ) = MSE(0). Es genügt zu zeigen, dass ein α0 > 0 existiert, so dass für 0 < α < α0 gilt d (MSE(α)) < 0. dα 4 Beachte: Spur(AB) = Spur(BA), sofern die Matrixprodukte definiert sind 2.3 Andere Schätzverfahren 31 Es gilt: MSE(α)′ = −σ 2 Also MSE(α)′ < 0, falls α < p X i=1 p X 2αλi 2λi + (U T β)2i 3 (α + λi ) (α + λi )3 σ2 . maxi (U T β)2i i=1 Interpretation: β̂ LS ist zwar bester linearer unverfälschter Schätzer, aber es gibt noch bessere lineare (nicht unverfälschte) Schätzer. Konzept der Unverfälschtheit ist zu restriktiv. Bemerkung: Der ridge Schätzer β̂ α hat gegenüber dem kleinste Quadrate Schätzer den Nachteil, dass man zur Berechnung den Regularisierungsparameter α > 0 wählen muss. Insbesondere muss dieser Parameter auch wirklich geeignet gewählt werden, damit β̂ α bessere MSE Eigenschaften als β̂ LS hat. Daher wird der ridge Schätzer in Praxis relativ selten verwendet. Häufigere Verwendung finden andere Schrinkage Schätzer wie das LASSO, s. Kapitel 2.5.4. relevante R Befehle Die library MASS enthält den Befehl lm.ridge. Dabei muss der RidgeParameter lambda manuell gewählt werden. Man beachte, dass die Matrix X standardisiert wird, und der Ridge nicht auf den Koeffizienten des Intercept angewendet wird. Literatur: Hoerl, A.E. und Kennard, R.W.(1970). Ridge regression: Biased estimation for nonorthogonal problems. Technometrics 12, 1970. 2.3.2 NOCH Median - und Quantilregression 32 2 2.4 LINEARE REGRESSION Modelldiagnostik Ein wesentlicher Teil der Analyse besteht darin zu untersuchen, ob das lineare Regressionsmodell für die vorliegenden Daten angemessen ist. Fragen, die dabei geklärt werden sollten, sind etwa: a. Sind die Fehler ǫi wirklich normalverteilt und haben gleiche Varianz? b. liegen Ausreißer in den Daten vor? c. Gibt es Cluster (Gruppen) in der Population? d. welche Beobachtungen beeinflussen die Schätzung besonders stark? e. wieviel Streuung wird aus dem Modell heraus erklärt? f. ist die Regressionsfunktion wirklich linear, sollte weitere Kovariable berücksichtigt werden? In diesem Abschnitt lernen wir Methoden kennen, um diese Fragen zu beantworten. 2.4.1 Das Bestimmtheitsmaß R2 Welcher Anteil der Streuung in den Daten wird durch das Modell erklärt? Zugrunde liegt wieder das lineare Modell (5). Angenommen, die Designmatrix X = (1n , ∗), 1n = (1, . . . , 1)T ∈ Rn , enthält den Achsenabschnitt. Dann gilt: Mit Ȳ = 1 n Pn i=1 Yi (In − PX )1n = 0. gilt5 : n X (Yi − Ȳ )2 |i=1 {z } Gesamtstreuung = kY − Ȳ 1n k2 = kY − Ŷ + Ŷ − Ȳ 1n k2 = kY − Ŷk2 + kŶ − Ȳ 1n k2 + 2 hY − Ŷ, Ŷ − Ȳ 1n i | {z } =0 (s.u.) wobei Ŷ = X β̂ LS , und Ŷ −Ȳ 1n i = YT (I − PX )PX Y − YT (I − PX )1n Ȳ = 0. h Y − Ŷ} , |{z} | {z | {z } {z } | =(I−PX )Y =PX Y =0 =0 Streuungszerlegung Es ist kŶ − Ȳ 1n k2 die aus dem Modell erklärte Streuung und 2 kY − Ŷ k die Reststreuung (Summe der quadrierten Residuen) ist, man hat also die Zerlegung kY − Ȳ 1n k2 = kŶ − Ȳ 1n k2 + kY − Ŷk2 Bestimmtheitsmaß R2 = 5 Erinnerung: Ŷ = X β̂ LS kŶ − Ȳ 1n k2 , kY − Ȳ 1n k2 0 ≤ R2 ≤ 1. 2.4 Modelldiagnostik 33 Je größer das Bestimmheitsmaß, desto größer der Anteil der aus dem Modell heraus erklärten Streuung. Es gilt Pn 2 kY − Ŷk2 i=1 (Ŷi − Ȳ ) P R2 = 1 − = n 2 kY − Ȳ 1n k2 i=1 (Yi − Ȳ ) Bemerkung Ein Problem des R2 ist, dass es mit weiteren Kovaraiblen nur wachsen kann. Daher betrachtet man auch das gewichtete (adjusted) R2 . Dabei ist kY − Ŷk2 : n-p Freiheitsgrade“, ” kY − Ȳ 1n k2 : n-1 Freiheitsgrade“. ” Dann definiert man das gewichtete R2 (adjusted R2 ) durch Ra2 = 1 − kY − Ŷk2 /(n − p) kY − Ȳ 1n k2 /(n − 1) n − 1 kY − Ŷk2 n − p kY − Ȳ 1n k2 n−1 = 1− (1 − R2 ) n−p = 1− relevante R Befehle passte ra2 . 2.4.2 summary angewendet auf ein lm Objekt liefert das R2 und das ange- Residuen-Analyse Das wichtigstes Werkzeug der Diagnostik ist die Residuenanalyse. a. Residuum ε̂i = Yi − Ŷi , ǫ̂ = (ǫ̂1 , . . . , ǫ̂n )T . ε̂ ∼ N (0, σ 2 (I − PX ))6 . Also Var ε̂i = σ 2 (1 − (PX )ii ), Cov ε̂i ε̂j = −σ 2 (PX )ij b. skalierte Residuen: ε̃i = ε̂i σ̂ . c. studentisierte Residuen: ri = ε̂i 1 σ̂(1−(PX )ii ) 2 Diagnostische Plots: • predicted value gegen (skalierte, studentisierte) Residuen : plotte also (Ŷi , ε̂i ), i = 1, . . . , n. • qq-Plots der Residuen gegen die Normalverteilung7 Hinweis: Plots zu Beispielen mit Abweichungen folgen! Aufgabe Bei Vorliegen des Achsenabschnitts kann man schreiben: 1 (PX )ii = + (xi − x̄)T (X T X)−1 (xi − x̄) n 6 7 Erinnerung: Ŷ = X β̂ = PX Y Vergleichswerte sind Quantile der Normalverteilung 34 2 2.4.3 LINEARE REGRESSION Weitere diagnostische Plots a. Scatterplot Matrix: Matrix, die Scatterplots aller Variablen gegeneinander enthält. Diese sollte stets zu Beginn betrachtet werden, um etwa Kolinearität zwischen Kovariablen oder Cluster oder schiefe Verteilungen der Kovariablen (dann eventuell Transformation) zu erkennen. b. Added Variable Plots Frage: Wieviel erklärt ein zusätzlicher Prädiktor? Sollte man diesen in das Modell aufnehmen? X = [v1 . . . vp−1 |v], vi , v ∈ Rn Y = Xβ + ε = v1 β 1 + . . . + vp−1 β p−1 + vβ p Welcher Teil wird nicht schon durch X1 = [v1 . . . vp−1 ] erklärt? (I − PX1 )Y = (I − PX1 )vβ + (I − PX1 )ε → Plotte (I − PX1 )Y (Residuen aus Regression Y auf X1 ) gegen (I − PX1 )v (Residuen aus Regression v auf X1 ). In der Tat gilt (Aufgabe): kY − PX Y k2 + (Y T (I − PX1 )v)2 = kY − PX1 Y k2 k(I − PX1 )vk2 c. Partial residuals plot Wieder den Effekt von Prädiktor xi graphisch isolieren! Plotte dazu (xij , ε̂j + β̂ i xij ), j = 1, . . . , n und zugehörige Regression. Beachte zur Motivation: yj − X xlj β̂l = xij β̂i + ε̂j l6=i Hinweis: Plots folgen! 2.4.4 Transformation Manchmal müssen Kovariable und/oder die abhängige Variable transformiert werden, damit ein lineares Regressionsmodell vorliegt. Da wir den Kovariablen keine Verteilung zugrunde legen, kann man dort notwendige Transformationen nur aus graphischer Diagnostik (s.o.) erschließen. Dagegen kann man die Transformation der abhängigen Variable auch statistisch Schätzen. Im Folgenden betrachten wir dazu die parametrische Familie der Box-Cox-Transformationen. 2.4 Modelldiagnostik 35 Transformation der abhängigen Variable: Box-Cox-Tramsformation Die Familie der Box-Cox Transformationen stellt eine wichtige Klasse zur Transformation von positiven abhängigen Variablen dar. Dabei wird die optimale Transformation mit Hilfe der Maximum Likelihood Methode ermittelt. Die Box-Cox-Transformationen haben folgende Form: Für y > 0 ( λ y −1 λ 6= 0 λ , fλ (y) = log(y), λ = 0 Beachte dabei fλ (y) → f0 (y), (λ → 0) (Beweis mit der l’Hopitalschen Regel). Annahme: Für ein λ gilt: fλ (Y) = Xβ + ǫ, ǫ ∼ N (0, σ 2 In ), T fλ (Y) = fλ (Y1 ), . . . , fλ (Yn ) =: Z (komponentenweise transformiert). Dann gilt für t ∈ Rn : P (Y ≤ t) = P (Y1 ≤ t1 , . . . , Yn ≤ tn ) = P (fλ−1 (Z) ≤ t) = P Z ≤ fλ (t) . Bilden der partiellen Ableitungen ∂1 . . . ∂n liefert die Dichte fY von Y fY (y; β, σ 2 , λ) = Es ist dfλ (y) dy n (fλ (y) − Xβ)T (fλ (y) − Xβ) Y dfλ (yi ) 1 exp(− ) · . n 2σ 2 dyi (2π) 2 σ n i=1 = y λ−1 und somit gilt für die Log-Likelihood-Funktion: Ln (β, σ 2 , λ) = log fY (Y; β, σ 2 , λ) (17) (fλ (Y) − Xβ)T (fλ (Y) − Xβ) n + (λ − 1) = − (log(2π) + log σ 2 ) − 2 2σ 2 n Y log Yi . i=1 Schätze die Parameter (β, σ 2 , λ) gemeinsam mit Maximum Likelihood, also durch Maximieren von (17). Für festes λ erhält man λ β̂ M L = β̂ LS = (X T X)−1 X T fλ (Y), 1 2,λ σ̂M fλ (Y)T (In − PX )fλ (Y). L = n Es ergibt sich für die Log-Likelihood in Abhängigkeit von λ: n Y n n n 2,λ Ln (λ) = − log σ̂M log(Yi ). log(2π) − + (λ − 1) L− 2 2 2 i=1 λ̂ 2,λ̂ Wähle λ̂ so, dass Ln (λ) maximal wird, und dann β̂ M L und σ̂M L als ML Schätzer der anderen Parameter. 36 2 LINEARE REGRESSION Nun können mit dem Likelihood Quotienten Test Hypothesen der Form Hλ0 : λ = λ0 getestet werden, da unter Hλ0 , d 2 Ln (λ̂) − Ln (λ0 ) → χ2 (1). Insbesondere kann die Hypothese H1 : λ = 1, also das keine Transformation benötigt wird, getestet werden. Durch Invertieren des LQ Tests erhält man ein Konfidenzintervall zum (asymptotischen) Niveau α > 0 für λ: 1 CI = {λ : Lmax (λ̂) − Lmax (λ) < χ21 (1 − α)} 2 Verwerfe H1 , d.h. transformiere, falls 1 ∈ / CI. relevante R Befehle Die library MASS enthält die Funktion boxcox (wird angewendet auf ein Objekt vom Typ lm). Beachte Option plotit. Literatur Box, G. E. P. and Cox, D. R. (1964). An analysis of transformations. (With discussion) J. Roy. Statist. Soc. Ser. B 26, 211–252. 2.4.5 Ausreißer, Leverage- und Influenz-Punkte Im Folgenden wird untersucht, welchen Einfluss auf die Schätzung die spezielle Komponente (Yi , xi ) für ein festes i im linearen Modell (5) hat. Zunächst etwas Notation und ein Lemma. Sei X ∈ Rn×p und X(i) ∈ R(n−1)×p die Matrix, die entsteht, wenn in X die i-te Zeile weggelassen wird. Schreibe T x1 .. hii = xTi (X T X)−1 xi = (PX )ii . X = . , xTn Lemma 2.10 Es gilt T (X(i) X(i) )−1 = (X T X)−1 + Beweis T A=X X= (X T X)−1 xi xTi (X T X)−1 1 − hii n X (18) xj xTj . j=1 Somit T X(i) X(i) = A − xi xTi . Multipliziere (18) von rechts mit A − xi xTi und erhalte die Einheitsmatrix I. 2.4 Modelldiagnostik 37 Schätzer ohne die Komponente (Yi , xi ). Dafür schreibe T T β̂ (i) = (X(i) X(i) )−1 X(i) Y(i) 1 2 σ̂(i) = YT (In−1 − PX(i) )Y(i) n − p − 1 (i) Lemma 2.11 a. β̂ (i) = β̂ − (X T X)−1 xi ε̂i 1 − hii b. 2 σ̂(i) = σ̂ 2 · ( n − p − 1 −1 ) n − p − ri2 mit8 ri = ε̂i 1 σ̂(1 − hii ) 2 Beweis a. Nachrechnen mit (18) und T β̂ (i) = (X(i) X(i) )−1 (X T Y − xi Yi ) b. Nachrechnen mit (18) und 2 T (n − p − 1)σ̂(i) = YT Y − Yi2 − ((YT X − Yi xTi )(X(i) X(i) )−1 (X T Y − Yi xi )). relevante R Befehle 2 für jedes i. sowie σ̂(i) influence angewendet auf ein lm Objekt berechnet die Schätzer β̂ (i) Ausreißer-Test (Outlier-Test, R-student) Ein Aussreißertest untersucht, ob eine spezielle abhängige Beobachtung Yi nicht dem Modell folgt, also nicht in der Weise Yi = xTi β + ǫi entsteht, insbesondere einen anderen Erwartungswert als xTi β hat. Die Vorhersage von Yi durch xi und die übrigen Daten ist Ỹi = xTi β̂ (i) . Falls Yi kein Ausreißer ist, dann ist E(Yi − Ỹi ) = 0. Weiter ist (wie bei Vorhersageintervallen) T Var Ỹi = σ 2 xTi (X(i) X(i) )−1 xi . 8 Erinnerung: ε̂i = Yi − Ŷi = Yi − (X β̂)i 38 2 LINEARE REGRESSION Bilde t-Statistik ti (R-student Statistik): ti = Yi − Ỹi 1 T X )−1 x ) 2 σ̂(i) (1 + xTi (X(i) i (i) . Diese hat (bei normalverteilten Fehlern) eine tn−p−1 -Verteilung.9 Also: Falls |ti | > t1− α2 ,n−p−1 , dann Ausreißer! Beachte: Falls verschiedene Beobachtungen daraufhin untersucht werden, ob sie ausreißer sind, muß man das Niveau α adjustieren an die Anzahl der Tests, etwa α/m, falls man bei m Beobachtungen testet!. Die Statistik ti kann in einfacherer Weise berechnet werden mit Hilfe des folgenden Lemma 2.12 T xTi (X(i) X(i) )−1 xi = Beweis Direkt aus Lemma 2.10. hii 1 − hii Mit Lemma 2.11, 2.12 und Yi − Ỹi = (1 + t i = ri · hii 1−hii )ε̂i zeigt man n−p−1 n − p − ri2 1 2 , wobei ri die studentisierten Residuen sind. Die ti werden auch gewichtete studentisierte Residuen oder Jackknife Residuen genannt. relevante R Befehle für all i. rstudent berechnet für ein lm Objekt die Werte R-Student Statistik Leverage-Punkte, Hat-Matrix High Leverage Punkte sind ungewöhnliche Werte der Kovariable x, die die Modellanpassung unter Umständen stark beeinflussen. Da Var ε̂i = σ 2 (1 − hii ), gilt, dass je größer hii , desto kleiner Var ε̂i . Somit muss das i-te Residuum kleine Varianz haben, die Anpassung ist um Yi herum eingeschränkt. Daher nennt man Kovariablen xi für große Werte hii der Hat Matrix Leverage Punkte. “Groß” wird dabei in folgender Weise quantifiziert: Es gilt n X hii = Spur(PX ) = Spur(X(X T X)−1 X T ) i=1 = Spur((X T X)(X T X)−1 ) = Spur(Ip ) = p 9 vergleiche Abschnitt 1.3 2.4 Modelldiagnostik 39 Also ist ein typischer Wert hii von der Größe ≈ Richtlinie: Für hii > 2p n ungewöhnlich. p n Bemerkung Keine Theorie möglich ohne Details zur Verteilungsannahme der xi ! relevante R Befehle hatvalues liefert die Diagonaleinträge hii eines lm Objektes. Influenz-Punkte Hier wird die Frage gestellt: Welchen zusätzlichen Effekt hat (Yi , xi ) (also das Beobachtungspaar) auf den Schätzer β̂ LS ? Dazu betrachte Cook’s Abstand: Di = (β̂ (i) − β̂)T (X T X)(β̂ (i) − β̂) (∗) ri2 hii = . pσ̂ 2 p 1 − hii (∗): Lemma 2.11 und 2.12 Keine exakte Verteilungstheorie für Di ! Heuristische Regel: Für |Di | > 1 ist (Yi , xi ) influential“ (da 1 ≈ F0,5;p;n−p ), hat also großen ” zusätzlichen Einfluss auf den Schätzer von β. relevante R Befehle cooks.distance berechnet diesen Abstand für jedes i. Cook, R. D. (1979) Influential observations in linear regression. J. Amer. Statist. Assoc. 74, 169–174. Cook, R. D. (1977) Detection of influential observation in linear regression. Technometrics 19, 15–18. 40 2 2.5 2.5.1 LINEARE REGRESSION Variablen-Selektion und Shrinkage Schätzung Selektionsmethoden Wir betrachte wieder das lineare Modell (5), also Y = b0 + b1 x1 + . . . + br xr + ε, wobei p = r + 1. Ziel: Wähle die relevanten Kovariablen xi , also diejenigen mit bi 6= 0, die also die abhängige Variable in der Tat beeinflussen. Dabei unterscheidet man folgende Modellstrukturen: a. verschachtelte Modelle (nested Models) Bei verschachtelten Modellen gibt es eine natürliche Ordnung der Kovariablen, etwa bei der polynomiale Regression Y = b0 + b1 x + . . . + br xr + ε. Man schliesst dann alle Potenzen xi unterhalb eines zu wählenden Grades p ein. Somit reduziert sich die Modellwahl auf die Wahl von p. b. Allgemeine Modelle Wähle eine beliebige Teilmenge {xi1 , . . . , xir } ⊂ {x1 , . . . xp } aus den Kovariablen aus. Man behält aber typischer Weise (aber nicht immer) den Achsenabschnitt x0 = 1 im Modell, und wählt nur innerhalb der anderen Kovariablen aus. Modellwahl Strategien 1. Backward Elimination Starte mit allen Kovariablen und eliminiere nach einem betimmtem Kriterium systematisch nacheinander Kovariablen, bis ein Modell erreicht wird, bei dem keine Kovariable mehr das Kriterium erfüllt, bei dem diese noch eliminiert würde. 2. Forward Selection Starte nur mit dem Achsenabschnitt x1 und nimm sukzessive nach einem bestimmten Kriterium Kovariablen hinzu, solange, bis das Kriterium von keiner verbleibenden Kovariablen mehr erfüllt wird. 3. Stepwise Regression eine Kombination aus den Verfahren 1. und 2., es sind verschiedene Ausgestaltungen möglich. 4. All subset selection Wähle unter allen möglichen 2p Teilmodellen (bzw 2p−1 , falls der Achsenabschnitt fest im Modell integriert ist) dasjenige aus, welches nach einem bestimmten Kriterium optimal ist. 2.5 Variablen-Selektion und Shrinkage Schätzung 2.5.2 41 Test-basierte Methoden Entscheide aufgrund sukzessiv durchgeführter t-Tests oder F-Tests, ob Kovariablen hinzugenommen bzw. verworfen werden. 1. Backward Elimination Eliminiere sukzessive diejenige Kovariable mit dem größten p-Wert, solange dieser größer als ein Schwellwert (häufig 0,05) ist. t-Test: hier wird jeweils der t-Test daraufhin ausgeführt, ob ein Koeffizient einer Kovaraible des bereits reduzierten Modells gleich null ist. F-Test: hier wird im reduzierten Modell eine weitere Kovariable ausgewählt, und eine F-Test gegen das volle Modell ausgeführt, d.h. es wird getestet, ob der Koeffiziten dieser ausgewählten Kovariable des reduzierten Modells sowie alle Koeffizienten der bereits eliminierten Kovariablen gleich Null sind. 2. Forward Selection Nimm sukzessive diejenige Kovariable mit dem kleinsten p-Wert hinzu, solange dieser kleiner als 0,05 ist. Hier gibt es keinen Unterschied ziwschen t-Test und F-Test. 2.5.3 Informationskriterien Informationskriterien (Information Criteria, ICs) sind Zahlen, die die Güte der Anpassung des Modells relativ zu dessen Komplexität erfassen. Typischerweise gilt: a. Je besser die Anpassung, desto kleiner das IC. b. Je komplexer, desto größer das IC. Wähle Modell mit möglichst kleinem IC. 1. Backward Elimination Eliminiere Kovariable, so dass sich das IC am meisten verringert. Stoppe, falls es sich bei keiner Elimination mehr verringert. 2. Forward Selection Nimm Kovariable hinzu, so dass sich das IC am meisten verringert. Stoppe, falls es sich bei Hinzunahme einer Kovariable nicht mehr verringert. 3. Stepwise Regression Nimm eine der Kovariablen, die aktuell dem Modell nicht angehört, hinzu, oder eliminiere eine der zugehörigen Kovariablen, so dass sich das IC am meisten verringert. Stoppe, falls es sich nicht mehr verringert. 4. All subset selection Wähle Modell aus allen Modellen mit dem kleinstem IC. 42 2 LINEARE REGRESSION Akaike’s Informationskriterium Betrachte das lineare Modell (M ) mit Design Matrix X = XM und normalverteilten Fehlern (M ) : Y = XM β + ǫ, ǫ ∼ N (0, σ 2 In ). Die Dichte von Y ist gegen durch f (y|XM , β, σ 2 ) = 1 ky − XM βk2 ). exp(− n 2σ 2 (2π) 2 σ n Dies führt zur Log-Likelihood: L(β, σ 2 ) = log f (Y|XM , β, σ 2 ) = − kY − Xβk2 n n − log σ 2 − log(2π), 2σ 2 2 2 und man berechnet die Maximum Likelihood Schätzer (vgl. Sektion 2.2.1) als β̂ M L = β̂ LS = 1 2 T X )−1 X T Y und σ̂ 2 (XM M M M L = n kY−XM β̂k . Somit ist der maximale Wert der Log-Likelihood Funktion n n n 2 2 L(β̂, σ̂M log σ̂M log(2π). (19) L) = − − L− 2 2 2 Man definiert nun Akaike’s Informationskriterium (AIC) wie folgt: 2 AIC(M ) = −2L(β̂, σ̂M L ) + 2(dim β + 1), 2 ) die Güte der Anpassung des Modells (M ) und (dim β + 1) (die dabei beschreibt L(β̂, σ̂M L Anzahl der Parameter, die +1 kommt vom Parameter σ 2 ) die Komplexität des Modells. Man wählt nun ein Modell (M ), also diejenigen Kovariablen mit resultierender Design Matrix XM , die zu kleinem AIC führen. Vernachlässigt man die Konstanten, so kann man äquivalent zu AIC auch 2 AIC(M ) = n log σ̂M L + 2(dim β + 1) benutzen. Motivation des AIC über den Kullbach-Leibler-Abstand Wieso wird gerade der spezielle Strafterm 2(dim β + 1) benutzt? Insbesondere scheint die Wahl der 2 zunächst willkürlich, diese lässt sich aber über den Kullback-Leibler (KL) Abstand motivieren. Das Modell (M ) ist gegeben durch Yi = xTi β + εi , εi ∼ N (0, σ 2 ). Angenommen, der wahre Zusammenhang ist (W ) Yi = ξ(xi ) + εi , somit ist bedingte Dichte g(yi |xi ) ∼ N (ξ(xi ), σ 2 ) Wir nehmen jetzt eine zufälliges Design an, also sind die xi zufällig, unabhängig, mit Dichte h(x). Dann ist der KL-Abstand zwischen g(y|x) und f (y|x, β, σ 2 ) bedingt auf x: Z g(y|x) 2 KLx (g(y|x), f (y|x, β, σ )) = g(y|x) log dy, f (y|x, β, σ 2 ) und KL = Z KLx h(x)dx. 2.5 Variablen-Selektion und Shrinkage Schätzung 43 Maximum Likelihood im Modell (M ) schätzt nun die Parameter β, σ 2 derart, dass der KLAbstand zum wahrem Modell (W ) minimal wird. Wir zeigen im Folgenden in einem speziellen Fall: Mit dem AIC wählt man im Mittel dasjeniege Modell aus, bei dem bei geeigneter (maximum likelihood) Wahl der Parameter der KL Abstand zum wahren Modell (W ) minimal wird. Dazu äquivalent ist: Z Z f KL = g(y|x) log f (y|x, β, σ 2 )dy h(x)dx. f wird erwartungstreu geschätzt durch KL n 1 1X Ln (β, σ 2 ) = log f (Yi |xi , β, σ 2 ). n n i=1 Für Modellwahl: Wähle Modell, welches im Mittel bei geeigneter (Maximum Likelihood) Wahl der Parameter den kleinsten KL-Abstand zum wahren Modell (W ) hat, d.h. wähle Modell (M ), so dass Z Z 2 f Rn = Eg,h g(y|x) log f (y|x, β̂ M L , σ̂M L )dy h(x)dx, 2 β̂ M L , σ̂M L die ML Schätzer im Modell (M ), maximal wird. Dies ist nicht direkt möglich, denn f fn in zwei Schritten: Ersetze Integration in x Rn muss geschätzt werden. Wir approximieren R durch Summation: Z n 1X 2 Rn = Eg g(y|xi ) log f (y|xi , β̂ M L , σ̂M L )dy n i=1 Z n 1X 1 (y − xTi β̂)2 = − log σ̂ − log 2π g(y|xi )dy Eg − 2 n 2 2σ̂M L i=1 1 X (ξ(xi ) − xTi β̂)2 σ2 1 Eg log 2π − + 2 2 2 n 2σ̂M 2σ̂M L L i=1 n = − log σ̂ − Wegen (19) ist dann Eg 1 n 2 Ln (β̂, σ̂M L) 1 1 X (ξ(xi ) − xTi β̂)2 σ2 − Rn = − + Eg ( + 1) · 2 2 2n σ2 σ̂M L i=1 n Von jetzt an betrachten wir den Spezialfall, dass (M ) das wahre Modell enthält (eventuell sind zu viele Kovariable enthalten). Dann ist ξ(xi ) = xTi β, σ2 1 ∼n· 2 , 2 σ̂M L χn−p 1 2 und σ̂M L und β̂ LS sind unabhängig (s. Satz 2.6). Somit (benutze E χ2 n−p = 1 n−p−2 , RENZ): Eg 1 1 1 2 Ln (β̂, σ̂M ) − R = − + n L n 2 2 von n+p n } | {z 1 E(εT PX ε)+1 n · n p+1 = n−p−2 n−p−2 REFE- 44 2 LINEARE REGRESSION Wir haben somit einen Schätzer von Rn hergeleitet: 1 p+1 2 Ln (β̂, σ̂M , L) − n n−p−2 dieser gibt Anlass zur Definition des korrigierten (corrected) AIC, AICc , 2 AICc = −2Ln (β̂, σ̂M L) + 2 (p + 1)n n−p−2 Für n groß im Verhältnis p ist dies nah am klassischen AIC. relevante R Befehle step mit der Option direction führt Modellwahl mit dem AIC aus. Darüber hinaus drop1, add1. Literatur: Akaike, H. (1974), A new look at the statistical model identification. System identification and time-series analysis. IEEE Trans. Automatic Control 19, 716–723. Burnham, K. P. and Anderson, D. R. (2002), Model selection and multimodel inference. A practical information-theoretic approach. 2nd edn, Springer-Verlag: New York. Hurvich, C. M.; Tsai, C. L. (1989) Regression and time series model selection in small samples. Biometrika 76, 297–307. Claeskens, G. und Hjort, N. L. (2008) Model selection and model averaging. Cambridge University Press Bayessches Informationskriterium Eine zum AIC alternative Wahl ist das Bayessche Informationskriterium BIC, bei dem die Komplixität des Modells mit zunehmender Stichprobengröße immer mehr bestraft wird, 2 BIC(M ) = −2Ln (β̂, σ̂M L ) + log(n) (dim β + 1) log n. Ziel ist wieder die Wahl eines Modells mit möglichst kleinem BIC(M ). Motivation Das BIC ergibt sich als asymptotische Version eines maximalen a-posteriori Ansatzes, wobei die a-priori-Verteilung von der Form X αM µM (20) M ist. Dabei wird die Summe über alle mögliche Modelle M gebildet, αM ist die Wahrscheinlichkeit für die Auswahl des Modells M, und µM ist eine stetige, lokal von 0 weg beschränkte Verteilung auf den Parametern von M. Eine Maximm a-posteriori Modellwahl würde wie folgt erfolgen: Wähle (M ) so, dass P (M |Y) maximal, also derart, dass die a-posteriori Wahrscheinlichkeit des Modells, gegeben die Daten, maximal wird. Nach Bayes gilt P (Y|M ) · P (M ) prop. P (M |Y) = ≈ P (Y|M ) · P (M ) P (Y) 2.5 Variablen-Selektion und Shrinkage Schätzung 45 (da P (Y) nicht von M abhängt). Es ist P (M ) = αM , P (Y|M ) ∼ N (XM β M , σ 2 IM ). Also wähle M , so dass Z (Y − XM β M )T (Y − XM β M ) 1 )dµM (β M , σ 2 ). L(M ) = αM exp(− n 2σ 2 (2π) 2 σ n (21) maximal wird. Es kann nun gezeigt werden, dass für jede a-priori Verteilung der Form (20) das optimale Modell für das Kriterium (21) asymptotisch das Modell mit maximalem BIC ist. relevante R Befehle AIC und nicht BIC). step mit der Option direction und k wird gleich log n gesetzt (sonst Literatur: Schwarz, G. (1978), Estimating the dimension of a model. Ann. Statist. 6, 461–464. Vergleich von AIC und BIC Zunächst bemerkt man, dass für n ≥ 8 der Strafterm im BIC größer ist als der im AIC, daher wählt das AIC tendenziell ein größeres Modell aus als das BIC, wobei sich dieser Effekt mit zunehmender Stichprobengröße verschärft. Man kann nun folendes zeigen: BIC ist konsistent: Falls ein festes Teilmodell zugrunde liegt, wählt BIC dies in vielen Fällen (etwa genesteten Situationen) asymptotisch mit Wahrscheinlichkeit 1 aus. AIC wählt in dieser Situation mit positiver Wahrscheinlichkeit auch größere Modelle aus. Philosophie des AIC: Für größeres n (Anzahl der Beobachtungen) dürfen komplexere Modelle angepasst werden, so dass das wahre zugrundeliegende Modell möglichst gut (in KulbackLeibler Abstand) approximiert wird. Für AIC und BIC gilt: AIC und BIC haben als absolute Zahlen keine Bedeutung, sondern nur relativ zum Vergleich verschiedener Modelle. Werden die Daten transformiert, dürfen AIC und BIC der ursprünglichen Modelle und der Modelle für die transformierten Daten nicht miteinander verglichen werden. Mallow’s Cp (M ) Wir betrachten das lineare Regressionsmodell Y = Xβ + ǫ = X1 β 1 + X2 β 2 + ǫ, X1 ∈ Rn×p , X2 ∈ Rn×(q−p) sowie das Teilmodell (S) Y = X1 β + ǫ. Die Varianz wird im vollen Modell (M ) geschätzt durch σ̂ 2 = kY − X β̂ LS k2 n−q 46 2 LINEARE REGRESSION Das Modellwahlkriterium “Mallows’ Cp ” berechnet sich dann als S kY − X1 β̂ 1,LS k2 Cp = − n + 2p, σ̂ 2 S wobei β̂ 1,LS der KQ Schätzer im Teilmodell (S) ist. Komponenten von Cp : S • kY − X1 β̂ 1,LS k2 (Residuell sum of squares, RSS): Qualität der Anpassung des restringierten Modells (S); je größer X1 , desto kleiner RSS. • +2q: Komplexität des restringierten Modells (S). • σ̂ 2 , n: zum Standardisieren, damit absolute Größe von Cp Interpretation hat. Man wählt nun typischer Weise das Teilmodell Y = X1 β 1 + ǫ des vollen Modells (M) mit möglichst kleinem Cp . Motivation des Cp . Das Cp schätzt den Average Mean Square Error of Prediction (AMSEP), welcher definiert ist durch AMSEP(S) = 1 1 X S E(Ŷi − EYi )2 = 2 EkX1 β̂ 1,LS − Xβk2 . σ2 σ i Zur Berechnung des AMSEP(S) setze MX1 = In − PX1 (idempotent) und λ= Dann ist β T2 X2T MX1 X2 β 2 . σ2 S β̂ 1,LS = β 1 + (X1T X1 )−1 X1T X2 β 2 + (X1T X1 )−1 X1T ǫ (der LS Schätzer im Modell (S) hat einen Bias, falls dieses nicht korrekt ist), und S X1 β̂ 1,LS − Xβ = PX1 ǫ + PX1 X2 β 2 − X2 β 2 . | {z } =−MX1 X2 β2 Es ergibt sich AMSEP(S) = 1 (EǫT PX1 ǫ + β T2 X2T MX1 X2 β 2 ) = p + λ. σ2 (22) Natürlich ist der AMSEP(S) unbekannt (da β unbekannt). Wir zeigen nun: Cp schätzt AMSEP. Es ist PX − PX1 = MX1 X2 (X2T MX1 X2 )−1 X2T MX1 =: Q. (orthogonale Projektion auf orthogonales Komplement der Spaltenvektoren von X1 im von den Spaltenvektoren von X erzeugten Raum), und somit (In − PX1 )Y = (In − PX )Y + QY. 2.5 Variablen-Selektion und Shrinkage Schätzung 47 Außerdem ist (In − PX ) · Q = 0 (da Q innerhalb von Spaltenraum von X). Es ergibt sich kY − X β̂ LS k2 + YT QY − n + 2p σ̂ 2 YT QY = (n − q) · (1 + ) − n + 2p kY − X β̂ LS k2 (YT QY)/(q − p) ·(q − p) + 2p − q = 2 σ̂ | {z } Cp = ∼F (q−p,n−q, 21 λ) Beachte für diese Rechnung die Sätze 1.7 und 1.9 und β T X T QXβ/σ 2 = λ. Für W ∼ F (q − p, n − q, 21 λ) gilt (Johnson, Kotz, Balakrishnan 1995) EW = Somit ECp = (n − q)(q − p + λ) (q − p)(n − q − 2) n−q n→∞ (q − p + λ) + 2p − q → p + λ n−q−2 Man könnte nun auch ein korrigiertes (dann erwartungstreues) Mallows’ Cp wie folgt definieren: (n − q − 2) (YT QY) Cpc = + 2p − q. n − q) σ̂ 2 (dies wird aber üblicher Weise nicht verwendet.) Bemerkungen 1. Das Cp ist zwar asymptotisch erwartungstreu für den AMSEP, aber nicht konsistent, da die Varianz von Cp nicht gegen 0 konvergiert. 2. Das Modell mit minimalem AMSEP muss nicht unbedingt das minimale korrekte Modell sein, es kann auch ein zu kleines Modell sein, falls λ < 1, vgl. (22). Daher wird machmal etwas wage empfohlen, das Modell mit möglichst kleinem Cp , das aber nicht zuviel größer als p sein sollte, zu wählen. Dies führt dann zu sogenannten Cp Plots. Angesichts der Inkonsistenz des Cp erscheint eine solche Anweisung auch etwas willkürlich, daher wählt man gewöhnlich einfach das Modell mit kleinstem Cp . 3. Ein Vorteil des Cp gegenüber AIC und BIC ist, dass die absoluten Zahlenwerte (als Schätzwerte für den AMSEP) eine Bedeutung haben. Daher kann man mit dem Cp auch Modelle für transformierte und nicht transformierte Daten vergleichen. relevante R Befehle step hat die Option scale, dies muss man für das Cp gleich dem im vollen Modell geschätzten σ setzten. Literatur: Mallows, C. L. (1973), Some comments on Cp . Technometrics 15, 661–675 48 2 LINEARE REGRESSION Cross Validation und Press-Statistic Die Press Statistik ist gegeben durch Press = n X i=1 (Yi − Ỹi ) wobei Ỹi = xTi β̂ (i) . Es gilt nach Lemma 2.11 Yi − Ỹi = Press = n X i=1 ( ε̂i 1−hii . Daher kann man schreiben ε̂i )2 1 − hii Man wählt nun das Modell mit minimalem Press. Literatur Allen, David M. (1974) The relationship between variable selection and data augmentation and a method for prediction. Technometrics 16, 125–127. Allen, David M. (1971) Mean Square Error of Prediction as a Criterion for Selecting Variables. Technometrics 13, 469-475 2.5.4 Shrinkage Schätzer Shrinkage Schätzer verkleinern tendenziell in einer gewissen Weise die sich aus der LS Schätzung ergebenden Werte, sind also typischer Weise (nicht immer) im Absolutbetrag kleiner als die Einträge von β̂ LS Dies hat vor allem zwei Zwecke: a. Verringerung der Varianz der Schätzung, und b. falls Koeffzienten exakt auf 0 verkleinert werden können, liefert solch ein Shrinkage Schätzer automatisch eine Modellwahl. Solche Schrinkage Schätzer wollen wir im Folgenden kennenlernen. Wir beginnen jedoch zunächst mit der bereits bekannten Ridge-Regression Für den Ridge Parameter α > 0 erhält man den Ridge Schätzer wie folgt: β̂ α = (αI + X T X)−1 X T Y Aufgabe: β̂ α = argminβ (kY − Xβk2n + αkβk2p ) Wieso fällt β̂ α in die Klasse der Shrinkage Schätzer? Dazu betrachte den Fall eines orthogonalen Designs, X T X = Ip . Dann ist β̂ = X T Y und β̂ α = β̂ 1+α • Koeffizienten werden im Absolutbetrag kleiner. (dies gilt aber nicht unbedingt bei nichtorthogonalem Design) • Aber: Kein Koeffizient wird auf 0 reduziert. 2.5 Variablen-Selektion und Shrinkage Schätzung 49 Im Falle eines orthogonalen Designs gilt folgendes: Es existiert ein t = t(α) > 0, so dass β̂ α Lösung des folgenden Optimierungsproblems ist: minimiere kY − Xβk2n , unter Nebenbedingung kβk2p ≤ t. (23) Der Beweis ergibt sich direkt aus einem Lagrange Ansatz für Extrema unter Nebenbedingungen. Das Lasso (Tibshirani 1996) Las LASSO steht für: least absolute shrinkage and selection operator. Der LASSO Schätzer β̂ t ist die Lösung des folgenden Optimierungsproblems. Für t > 0 fest (ein Regularisierungsparameter) p X 2 |βk | ≤ t. (24) minimiere kY − Xβkn mit Nebenbedingung k=1 Bemerkung a. Das Minimierungsproblem (24) ist analog zu dem (23) für den Ridge Schätzer, b. Das LASSO kann Koeffizienten auf exakt 0 schätzen. Man hat also Modellwahl und Schätzung in einem Schritt. c. Für die explizite Berechnung: Reformuliere als quadratisches Minimierungsproblem mit den 2p Nebenbedingungen ±β1 ± . . . ± βp ≤ t d. Es gilt: kY − Xβk2n = kY − X β̂ LS k2n + kX(β̂ LS − β)k2n . Also ist (24) äquivalent zu: T T minimiere (β − β̂ LS ) X X(β − β̂ LS ) mit Nebenbedingung p X k=1 |βk | ≤ t. • Man nimmt stets an, dass die Kovariablen auf Norm 1 standardisiert sind. Lasso für p = 2 Hier ist T X X= 1 γ , γ 1 β̂ LS = (β10 , β20 )T Minimiere (β1 − β10 )2 + (β2 − β20 )2 + 2γ(β1 − β10 )(β2 − β20 ). Dabei sind die Höhenlinien Ellipsen. Für p = 2 gilt stets (hier o.E. β̂LS > 0): β̂jLas = (β̂LS,j − γ)+ wobei γ bestimmt durch β̂1Las + β̂2Las = t. a, a > 0 a+ = 0, sonst (25) 50 2 oder explizit t β 0 − β20 + β̂1Las = ( + 1 ) , 2 2 LINEARE REGRESSION t β 0 − β20 + β̂2Las = ( − 1 ) 2 2 Argument über Hauptachsentransformation der Ellipse. Erhalte (β̄10 , β̄20 ), suche Projektion von (β̄10 , β̄20 ) auf transformierte Raute bezüglich des euklidischen Abstands. Nach Drehung liegt die Raute wieder auf den Koordinatenachsen. BILDER!!! Nun nutze folgenden Satz über Projektionen auf konvexe Mengen: Ist K konvex, dann ist y Projektion von x0 auf K falls hx0 − y, x − yi ≤ 0 ∀x ∈ K, der Winkel also stets flach ist. Somit liegt Projektion auf Streckensegment S. Dort auflösen ergibt eine quadratische Funktion, deren Lösung liegt entweder beim Minimum oder auf dem Rand der Strecke. Ein Lagrange-Ansatz für das uneingeschränktes Maximum auf der Geraden entlang der Strecke S liefert (1, 1) = λ · (2(β1 − β10 ) + 2γ(β2 − β20 ), 2(β2 − β20 ) + 2γ(β1 − β10 )) Löse auf und bekomme explizite Form. Für p ≥ 3 gilt die Form (25) im allgemeinen nicht mehr, nur noch im orthogonalen Design. Gilt X T X = Ip , dann existiert ein γ = γ(t), so dass β̂jLas = sign(β̂LS,j )(|β̂LS,j | − γ)+ Für ein nicht orthogonales Design können die Koeffizienten das Vorzeichen wechseln. relevante R Befehle berechnet. Die library lasso2 enthält die Funktion l1ce, die den Lasso Schätzer Literatur Tibshirani, R. (1996) Regression shrinkage and selection via the lasso. J. Roy. Statist. Soc. Ser. B 58, 267–288. Nonnegative Garrote (Breiman 1995) Sei β̂ = β̂ LS der LS-Schätzer. Wähle nun cj so, dass X k (Yk − X cj β̂j,LS xjk )2 j P minimal wird unter der Nebenbedingung cj ≥ 0 und j cj ≤ s für ein s > 0. Dann ist der Garotte Schätzer Gar = c β̂ β̂s,j j j,LS . Im orthogonalen Design erhält man cj = 1 − λ2 + 2 β̂j,LS , 2.5 Variablen-Selektion und Shrinkage Schätzung 51 P wobei λ aus s und j cj = s bestimmt wird. Also im orthogonalen Design ähnlich wie das LASSO, ansonsten können aber erhebliche Abweichungen auftreten. Literatur Breiman, L. (1995) Better subset regression using the nonnegative garrote. Technometrics 37, 373–384. 2.5.5 Inferenz nach Modellwahl Beobachtung Der Modellwahlschritt hat Auswirkungen auf die folgende Verteilung des Schätzers im schließlich gewählten Modell. Resultate Wenn aus denselben Daten das Modell gewählt wird und anschließend die Parameter geschätzt werden, verlieren die bisher hergeleiteten Verteilungsresultate ihre Gültigkeit. Der resultierende Schätzer kann bezüglich MSE sehr schlechte Eigenschaften haben und auch nicht normalverteilt sein. Illustration an einem einfachen Beispiel Wir betrachten ein lineares Regressionsmodell mit zwei Kovariablen und normalverteilten Fehlern mit bekannter Varianz von 1, und ein Teilmodell mit nur einer Kovariable Yi = xi1 β1 + xi2 β2 + εi , (M ) , Yi = xi1 β1 + εi (R) , wobei εi ∼ N (0, 1) Annahme: Fpr die Modellmatrix X = (xi,1 , xi,2 )i=1,...,n ∈ Rn×2 gilt X T X −1 n Es gilt: √ n(β̂ M = − β) ∼ N (0, Σ), wobei β̂ σ12 ̺σ1 σ2 ̺σ1 σ2 σ22 M →Σ>0 = (β̂1M , β̂2M )T der LS-Schätzer im großen Modell (M) ist. Wähle zwischen (M) und (R). Unter H0 : β2 = 0 ist ein Modellwahlverfahren basierend auf dem Gauß-Test. √ nβ̂2 σ2 ∼ N (0, 1). Daher betrachte Modellwahlverfahren Falls √ nβ̂2 ≤ cn , Tn = | | > cn , σ2 wähle (R) wähle (M) Satz 2.13 Falls cn → ∞ so, dass √cnn → 0, dann ist das obige Modellwahlverfahren konsistent, d.h. mit einer gegen 1 konvergierenden Wahrscheinlichkeit wird das richtige Modell gewählt. 52 2 LINEARE REGRESSION Beweis Angenommen, (R) ist richtig, also β2 = 0. Dann: P (wähle (R)) = P (Tn ≤ cn ) = Φ(cn ) − Φ(−cn ) → 1, da cn → ∞ (Φ Verteilungsfunktion der Standardnormalverteilung) Angenommen, (M) ist richtig, also β2 6= 0. O.E. β2 > 0. Dann: √ √ √ √ nβ̂2 n(β̂2 − β2 ) nβ2 nβ2 P (wähle (R)) ≥ P ( > cn ) = P ( > cn − ) = 1 − Φ(cn − )→1 σ2 σ2 σ2 σ | {z 2 } →−∞ da cn √ n → 0 und σ2 von 0 weg beschränkt bleibt. post , ergibt sich nun als Der Schätzer von β1 nach Modellwahl, β̂1 post β̂1 = β̂1M , Tn > c, β̂1R , Tn ≤ cn Wegen der Konsistenz der Modellwahlprozedur gilt: für festes β2 6= 0 : für β2 = 0 : post 6= β̂1M ) → 0 P (β̂1 post P (β̂1 6= β̂1R ) → 0 Also ist konsistente Modellwahl scheinbar kein Problem. Aber man kann zeigen: Es gibt eine Umgebung U von 0, so dass für beliebig (hinreichend) großes n stets ein β1 ∈ U existiert, post so dass der Abstand der Verteilungen L(β1 ) und L(β̂1M ) groß ist, welches auch zu großen mittleren quadratischen Fehlern und Konfidenzintervallen mit realer Überdeckungswarscheinpost lichkeit, die gegen 0 konvergiert, führt. Wir illustieren dies, indem wir die Dichte von β̂1 berechnen und für einige Parameter Werte plotten. Satz 2.14 √ post Die Zufallsvariable n(β̂1 − β1 ) hat die Dichte √ t + √n σ1 ̺β2 c − √nβ /σ −cn − nβ2 /σ2 2 2 n σ2 −Φ · Φ fP ost (t) = 1 φ 1 σ1 σ1 σ1 (1 − ̺2 ) 2 σ1 (1 − ̺2 ) 2 √ √ ̺ ̺ β β n 2 + t − cn n σ22 + σ1 t + cn 1 t σ2 σ1 + φ( ) 1 − Φ( +Φ , 1 1 σ1 σ1 (1 − ̺2 ) 2 (1 − ̺2 ) 2 1 wobei φ die Dichte und Φ die Verteilungsfunktion der N (0, 1) Verteilung ist. BILDER!!! WEIT WEG VON DER NORMALVERTEILUNG! 2.5 Variablen-Selektion und Shrinkage Schätzung 53 Beweis (von Satz 2.14) Es ist P √ post n(β̂1 − β1 ) ≤ t √ √ P Tn ≤ cn , n(β̂1R − β1 ) ≤ t + P Tn > cn , n(β̂1M − β1 ) ≤ t = =: A1 (t) + A2 (t). Die Dichte erhält man dann durch Ableiten nach t. Betrachte zunächst A2 (t): √ √ √ √ P Tn > cn , n(β̂1M − β1 ) ≤ t = P n(β̂2 − β2 ) ≥ σ2 cn − nβ2 , n(β̂1M − β1 ) ≤ t √ √ √ + P n(β̂2 − β2 ) ≤ −σ2 cn − nβ2 , n(β̂1M − β1 ) ≤ t = A21 (t) + A22 (t) Sei φ(x, y, Σ) die Dichte von N (0, Σ), φ(y|x, Σ) die bedingte Dichte von y|x bei (x, y) ∼ N (0, Σ) und φ(t) die Dichte von N (0, 1). Dann: Z t Z ∞ Z t Z ∞ 1 φ(x, y, Σ)dy dx = φ(y|x, Σ) φ(x/σ1 )dy dx. A21 (t) = √ √ σ 1 −∞ σ2 cn − nβ2 −∞ σ2 cn − nβ2 Ableiten nach t liefert 1 φ(t/σ1 ) = σ1 A′21 (t) Z ∞ √ φ(y|t, Σ) σ2 cn − nβ2 1 dy σ1 und es ist φ(y|t, Σ) die Dichte von N (̺ σσ12 t, (1 − ̺2 )σ22 ). Also A′21 (t) = = √ σ2 cn − nβ2 − ̺ σσ12 t 1 φ(tσ1 ) 1 − Φ 1 σ1 (1 − ̺2 ) 2 σ2 √ n β2 + ̺ t − cn 1 σ2 σ1 . φ(tσ1 )Φ 1 σ1 (1 − ̺2 ) 2 (26) Analog berechnet man A′22 (t) √ β2 n σ2 + σ̺1 t + cn 1 = φ(tσ1 ) 1 − Φ . 1 σ1 (1 − ̺2 ) 2 (27) Jetzt berechne A1 (t): A1 (t) = P − σ2 cn − √ nβ2 ≤ √ n(β̂2M − β2 ) ≤ σ2 cn − √ √ nβ2 , n(β̂1R − β1 ) ≤ t Man benötigt also die gemeinsame Verteilung von (β̂1R , β̂2M ). Dazu verwenden wir die Invertierungsformel −1 1 c −b a b = b c ac − b2 −b a Für X = (v1 , v2 ) liefert dies XT X = T v1 v1 v1T v2 . v1T v2 v2T v2 54 2 Somit: 1 Σ/n = T T v1 v1 v2 v2 − (v1T v2 )2 und auch 1 n LINEARE REGRESSION v2T v2 −v1T v2 −v1T v2 v1T v1 T 1 −σ1 σ2 ̺ σ22 v1 v1 v1T v2 = 2 2 σ12 v1T v2 v2T v2 σ1 σ2 (1 − ̺2 ) −σ1 σ2 ̺ Nun ist β̂1R = v1T Y/v1T v1 , also E β̂1R = β1 + v1T v2 σ1 β2 = β1 − ̺β2 , T σ2 v1 v1 Weiter berechnet sich β̂2M explizit aus β̂ β̂2M = und natürlich E β̂2M = β2 , Var √ M Var √ n(β̂1R − β1 = n v1T v1 = σ12 (1 1 . − ̺2 ) = (X T X)−1 X T Y als −v1T v2 v1T Y + v1T v1 v2T Y v1T v1 v2T v2 − (v1T v2 )2 n(β̂2M − β2 ) = σ22 , und es gilt Cov(β̂1R , β̂2M ) = −v1T v2 v1T v1 + v1T v1 v2T v1 = 0. v1T v1 v2T v2 − (v1T v2 )2 Da außerdem (β̂1R , β̂2M ) gemeinsam normalverteilt sind (als lineare Transformation von normalverteilten Zufallsvariablen), sind diese auch unabhänig. Somit: √ √ √ √ A1 (t) = P n(β̂1R − β1 ) ≤ t · P − σ2 cn − nβ2 ≤ n(β̂2M − β2 ) ≤ σ2 cn − nβ2 , und A′1 (t) √ t + √n σ1 ̺β2 σ c − √nβ −σ2 cn − nβ2 2 2 n σ2 −Φ . = · Φ 1 φ 1 σ1 σ2 σ1 σ2 σ1 (1 − ̺2 ) 2 σ1 (1 − ̺2 ) 2 1 Daraus und aus Gleichungen (26) und (27) erhält man das Resultat des Satzes. Literatur Pötscher, B. M. und Leeb, H. (2008) Sparse Estimators and the Oracle Property, or the Return of Hodges’ Estimator. Journal of Econometrics 142, 201-211. Pötscher, B. M. und Leeb, H. (2005) Model Selection and Inference: Facts and Fiction. Econometric Theory 21 2005, 29-59. Wallace, T. D. und Ashar, V. G. (1972) Sequential methods in model selection. Review of Economics and Statistics 54, 172–178. 2.6 Verallgemeinerte kleineste Quadrate und Varianzschätzen 2.6 2.6.1 55 Verallgemeinerte kleineste Quadrate und Varianzschätzen Verallgemeinerte kleinste Quadrate Im linearen Modell (5) habe wir vorausgesetzt, dass die Fehler ǫ unkorreliert mit gleicher Varianz σ 2 sind. Diese Annahme lassen wir nun fallen und erlauben eine allgemeine Kovarianzstruktur der Fehler. Wir betrachten also das lineare Modell mit allgemeiner Fehlerstruktur Y = Xβ + ǫ, Eǫ = 0, Cov ǫ = Σ, (28) mit einer positiv definiter Kovarianzmatrix Σ > 0 für die Fehler ǫ. Man überführt nun das lineare Modell (28) mit allgemeiner Fehlerstruktur in ein Modell mit Σ = In . Dazu setze 1 1 1 1 Ỹ = Σ− 2 Y, X̃ = Σ− 2 X, ǫ̃ = Σ− 2 ǫ. Dann ergibt (28) mit Σ− 2 multipliziert: Ỹ = X̃β + ǫ̃, 1 (29) 1 wobei Cov ǫ̃ = Σ− 2 ΣΣ− 2 = In . Weiter gilt: Genau dann ist S(Y) = AY ein linearer unverfälschter Schätzer im Modell (28), wenn S̃(Ỹ) = AΣ1/2 Ỹ ein linearer unverfäschter Schätzer im Modell (29) ist. Somit kann man die Resultate im linearen Modell mit unkorrelierten, homoskedastischen Fehler übertragen auf das lineare Modell mit allgemeiner Fehlerstruktur. Wir fassen die wesentlichen Ergebnisse zusammen. Satz 2.15 Im lineare Modell mit allgemeiner Fehlerstruktur (28) ist der beste lineare, unverfälschte Schätzer für β (also der mit kleinster Kovarianzmatrix) gegeben durch β̂ GLS = (X̄ T X̄)−1 X̄ T Ỹ = (X T Σ−1 X)−1 X T Σ−1 Y, (30) dieser hat die Kovarianzmatrix Cov β̂ GLS = (X T ΣX)−1 , und ist bestimmt als Lösung des verallgemeinerten kleinste Quadrate Problems β̂ GLS = argminβ (Y − Xβ)T Σ−1 (Y − Xβ). Der Schätzer β̂ GLS heißt der verallgemeinerte Kleinste-Quadrate-Schätzer (generalized least squares estimator, GLS). Im Modell (28) heißt der Schätzer β̂ OLS = (X T X)−1 X T Y der gewöhnliche kleinste Quadrate Schätzer (ordinary least squares, OLS). Dieser ist auch hier unverfälscht und unter allgemeinen Bedingungen konsistent (s. Eicker 1963), hat aber die größere Kovarianzmatrix Cov β̂ OLS = (X T X)−1 X T ΣX(X T X)−1 . Wir beachten, dass für die Berechnung von β̂ GLS die Matrix Σ bekannt sein muss. Falls Σ = diag(w1 , . . . , wn ), wi > 0, eine Diagonalmatrix ist, spricht man von dem gewichteten Kleinste-Quadrate-Schätzer, Notation β̂ W LS (weighted least squares). Aufgabe β̂ GLS als ML-Schätzer, falls der Fehler ǫ ∼ N (0, Σ) verteilt ist. relevante R Befehle Der Befehl lm hat die Option weights, mit der eine gewichtete kleinste Quadrate Schätzung ausgeführt werden kann. 56 2.6.2 2 LINEARE REGRESSION Varianzschätzen Wir wollen nun sehen, wie man in dem Modell (28) die allgemeine Kovarianzstruktur der Fehler schätzen kann. Das Schätzen der Fehlerstruktur ist aus zwei Gründen von Interesse. Zum einen wird es benötigt, um den gewichteten kleinste Quadrate Schätzer (30) und dessen Kovarianzmatrix zu berechnen. Weiter kann auch die Varianzstruktur (Stichwort Volatilität) neben der Erwartungswertstruktur Xβ an sich von Interesse sein. Zum Schätzen benötigt man Annahmen an die Matrix Σ. Wir betrachten den Fall unkorrelierter Fehler, also Σ = diag(σ12 , . . . , σn2 ). Zum Schätzen der Varianzen wird hier ein parametrisches Modell angenommen. Ein normales lineares Modell ist aber nicht geeignet, da die Varianzen positiv sein müssen. Beispiele für parametrische Modelle für die Varianzen sind σi2 = σ 2 |xTi β|ϑ , ϑ > 0, σ > 0, dabei ist σi2 proportional zur Potenz des Erwartungswertes |xTi β|, oder σi2 = σ 2 exp(xTi ϑ) wobei ϑ ∈ Rp ein Parametervektor ist. Ein allgemeines Modell hat die Form: σi2 = σ 2 f (xi , β, ϑ) Damit können die Varianzen von dem Parameter β abhängen, die den Erwartungswert bestimmen, sowie von zusätzlichen Parametern ϑ. Die Funktion f muss positiv sein und wird als bekannt angenommen, nur die Parameter sind unbekannt. Wir berschreiben nun eine Möglichkeit zur Schätzung von β und ϑ durch sukzessive (nichtlineare) kleinste Quadrate. 1. Schätze β durch gewöhnliche kleinste Quadrate β̂ LS , bilde die Residuen ε̂i = Yi − xTi β̂ LS . 2. Schätze ϑ, σ 2 durch Minimieren von n X i=1 (ε̂i − σ 2 f (xi , β̂ LS , ϑ))2 . Dies ist ein Beispiel für eine nichtlineare kleinste Quadrate Schätzung, auf die wir im nächsten Kapitel näher eingehen werden. Wir erhalten auf diese Weise konsistente Schätzer ϑ̂, σ̂ 2 . 3. Nun kann man die Schätzungen noch weiter verbessern und die geschätzten Varianzen σ̂i2 = σ̂ 2 f (xi , β̂ GLS , ϑ̂) benutzten und den gewichteten Kleinste-Quadrate-Schätzer β̂ W LS für β berechnen. 4. Bilde unter Benutzung des gesichteten kleinsten Quadrate Schätzers neue Residuen und schätze ϑ, σ 2 neu. Diesen Prozess kann man iterieren. Es gibt hier zur Konvergenzanalyse und alternativen Verfahren eine umfangreiche Literatur. Siehe etwa Literatur Carroll, R. J. und Ruppert, D. (1988). Transformation and weighting in regression. Chapman and Hall, New York. 57 3 Nichtlineare Regression In diesem Abschnitt betrachten wir Regressionsmodelle, in denen die Parameter nichtlinear in den funktionalen Zusammenhang eingehen. Man beachte, dass auch bei nur linearen Parametern nichtlineare Effekte (etwa Polynome, Splines oder trigonometrische Funktionen) in den Kovariablen modelliert werden können. Daher sollten nichtlineare Modelle nur dann verwendet werden, wenn sich dies aus dem sachwissenschaftlichen Zusammenhang ergibt. Eine wichtige Klasse von nichtlinearen Regressionmodellen entstehen aus Wachstumsmodellen in der Biologie. Bei nichtlinearen Regressionsmodellen ist der (nichtlineare) kleinste Quadrate Schätzer auch bei normalverteilten Fehlern nur noch asymptotisch normalverteilt. Daher muss die Inferenz (Konfidenzintervalle, Tests) auf den asymptotischen Approximation aufgebaut werden. 3.1 Modell und Beispiele Modell: Beobachtungen (Yi , xi ), i = 1, . . . , n, aus dem Modell Yi = f (xi , β 0 ) + εi , i = 1, . . . , n, (31) wobei Yi abhängige Variable f: bekannte Funktion β 0 : unbekannter Parameter ∈ Θ ⊂ Rq xi : Kovariablen, xi ∈ Rp εi : unabhängig, identisch verteilter Fehler mit Eεi = 0, Var εi = σ 2 , (bzw. εi ∼ N (0, σ 2 )). Diese sind auf einem W-raum Ω definiert. Beispiele: 1. Lineare Regression f (xi , β) = xTi β 2. Michaelis-Mentes Modell f (x, β1 , β2 ) = β1 x β2 + x allgemeiner: f (x, β1 , β2 , β3 ) = β2 + β1 x β3 + x 58 3 NICHTLINEARE REGRESSION 3. logistisches Wachstumsmodell f (x, β1 , β2 , β3 ) = β1 1 + β2 exp(−β3 x) Meist ist also x = x eine univariate metrische Kovariable. Beachte, dass bei nichtlinearer Modellierung keine Tranformation der Kovariablen nötig ist, diese kann mit in die Funktion aufgenommen werden. 3.2 Nichtlineare kleinste Quadrate Mit β 0 bezeichnen wir im Folgenden den wahren Wert von β in Modell (31). Ein NLS-Schätzer (nichtlineare kleinste Quadrate, nonlinear least squares) β̂ N LS minimiert n Qn (β) = 1X (Yi − f (xi , β))2 n i=1 Bemerkung a. Der NLS-Schätzer muss nicht eindeutig sein. b. 1 n kann in der Praxis weggelassen werden. c. Der NLS-Schätzer ist ML-Schätzer für normalverteilte Fehler. Praktische Berechnung von β̂ N LS . Falls Differenzierbarkeit von f (·, ·) in β vorausgesetzt wird, kann das Newton Verfahren auf die Gleichung n 2 X ∂β Qn (β) = − Yi − f (xi , β) ∂β f (xi , β) = 0. n i=1 Eine einfacheres iteratives Verfahren besteht darin, zunächst zu linearisiren und dann iterativ lineare kleinste Quadrate anzuwenden wie folgt: Für eine Näherung β n an β̂ N LS , linearisiere Yi ≈ f (xi , β n ) + ∂f (xi , β n )T (β − β n ) + εi ∂β Schätze β − β n durch lineare kleinste Quadrate mit abhängiger Variable ȳi,n = Yi − f (xi , β n ) ∂f (xi , β n ) also und Kovariable x̄i,n = ∂β αn = (X̄nT X̄n )−1 X̄nT Ȳn , wobei X̄n zeilenweise aus den x̄i,n gebildet wird. Dan erhalte eine neue Näherung β n+1 mit β n+1 = αn + β n . Man kann für dieses Verfahren auch einen Satz über Konvergenz beweisen. Schätzer für die Varianz σ 2 . Für einen NLS-Schätzer β̂ N LS setzte σ̂ 2 = Qn (β̂ N LS ). 3.3 Konsistenz 3.3 59 Konsistenz Um die Konsistenz des NLS Schätzers zu zeigen, benötigen wir folgende Annahmen. Der Wertebereich Θ von β ist kompakt und konvex, und f (xi , ·) ist Annahme (A): stetig. Offenbar existiert unter Annahme (A) ein (meßbarer) NLS-Schätzer. Es gilt gleichmäßig in α, β ∈ Θ Annahme (B): n 1X (f (xi , β)f (xi , α)) → K(α, β). n i=1 Weiter habe Q(β, β 0 ) = K(β, β) + K(β 0 , β 0 ) − 2K(β, β 0 ) als Funktion von β ein eindeutiges Minimum (Nullstelle) in β 0 . Offenbar gilt unter Annahme (B) gleichmäßig in β n 1X (f (xi , β) − f (xi , β 0 ))2 → Q(β, β 0 ). n i=1 und das Grenzkriterium Q(·, β 0 ) ist stetig (wegen gleichmäßiger Konvergenz). Satz 3.1 Unter den Annahmen (A) und (B) sind β̂ N LS und σ̂ 2 stark konsistent, d.h. σ̂ 2 → σ 2 f.s. β̂ N LS → β 0 f.s., Wir zeigen zunächst folgendes Lemma. Lemma 3.2 Unter Annahmen (A) und (B) gilt für fast alle ω ∈ Ω n 1X εk (ω) f (xk , β 0 ) − f (xk , β) → 0 n k=1 gleichmäßig in β ∈ Θ. Beweis (von Lemma 3.2) Punktweise fast sichere Konvergenz für festes β folgt mit Annahme (B) aus dem starken Gesetzt der großen Zahlen (REFERENZ), da Var(εk f (xk , β 0 ) − f (xk , β)) = (f (xk , β 0 ) − f (xk , β))2 . Zur Gleichmäßigkeit: n | Für α, β ∈ Θ gilt 1X εk (f (xk , β) − f (xk , β 0 ))| n k=1 CSU ≤ n | 1X εk (f (xk , α) − f (xk , β 0 ))| n k=1 n n 1 1 X 1X 2 ε2k · (f (xk , β) − f (xk , α))2 (32) + n n k=1 k=1 60 3 NICHTLINEARE REGRESSION Da n 1X (f (xk , α) − f (xk , β))2 → K(α, α) + K(β, β) − 2K(α, β) n k=1 gleichmäßig und K(·, ·) stetig auf Θ × Θ (kompakt), gilt: Für alle δ > 0 existieren endlich viele α1 , . . . , αq ∈ Θ und ein n0 , so dass für alle β ∈ Θ ein 1 ≤ i ≤ q existiert mit n 1X (f (xk , αi ) − f (xk , β))2 ≤ δ. n k=1 Mit (32) und punktweiser fast sicherer Konvergenz an den Stellen αi folgt dann die Behauptung. Beweis (von Satz 3.1) Nach Lemma 3.2 und Annahmen (A) und (B) gilt für fast alle ω ∈ Ω gleichmäßig in β n Qn (β)(ω) = n n k=1 k=1 1X 2 2X 1X (f (xk , β 0 ) − f (xk , β))2 + εk (ω) + εk (ω)(f (xk , β 0 ) − f (xk , β)) n n n k=1 → Q(β, β 0 ) + σ 2 (33) N LS Fixiere ω ∈ Ω, so dass (33) gilt. Setzte β̂ n (ω) = β n , σ̂n2 (ω) = σn2 und zeige β n → β 0 , σn2 → σ. Da Θ kompakt ist, genügt es für β n → β 0 zu zeigen, dass jeder Häufungspunkt von (β n ) gleich β 0 ist. Sei also β ′ ein Häufungspunkt von β n , also etwa β nk → β ′ , k → ∞. Dann ist |Qnk (β nk )(ω)−(Q(β ′ , β 0 )+σ 2 )| ≤ |Qnk (β nk )(ω)−(Q(β nk , β 0 )+σ 2 )|+|Q(β nk , β 0 )−Q(β ′ , β 0 )| → 0, wobei der erste Term wegen der gleichmäßigen Konvergenz in (33) gegen 0 konvergiert, und der zweite wegen der Stetigkeit von Q(·, β 0 ). Also haben wir Qnk (β nk )(ω) → Q(β ′ , β 0 ) + σ 2 , k→∞ (34) Weiter gilt, da β n NLS Schätzer, N LS Qnk (β nk , ω) ≤ Qnk (β 0 , ω) = nk 1 X ε2i (ω) nk i=1 Für k → ∞ erhält man mit (34): Q(β ′ , β 0 ) + σ 2 ≤ σ 2 Da Q(β ′ , β 0 ) > 0 für β ′ 6= β 0 (Annahme (B)) folgt β ′ = β 0 . Analog zu (34) gilt dann für fast alle ω: N LS Qn (β̂ n (ω))(ω) → Q(β 0 , β 0 ) +σ 2 = σ 2 | {z } =0 also σ̂ 2 → σ 2 fast sicher. 3.4 Asymptotische Normalität 61 relevante R Befehle nls berechnet einen nichtlinearen kleinste Quadrate Schätzer. Dabei muss ein Startvektor (Option start) für β angegeben werden. Auf ein Objekt vom Typ nls kann die summary Funktion angewendet werden. Diese enthält dann auch den Schätzer für σ2. Literatur: Jennrich, R. I. (1969) Asymptotic properties of non-linear least squares estimators. Ann. Math. Statist. 40, 633–643. 3.4 Asymptotische Normalität Für die asymptotische Normalität des NLS Schätzers benötigen noch folgende Annahme T d d d Annahme (C): Die Ableitungen dβ f (xi , β) = gi (β) (Vektor im Rq ), dβ dβ f (xi , β) = q×q Hi (β) (Matrix aus R ) existieren, und für alle Kombinationen f (xi , β)·(gi (β))j , (gi (β))j (gi (β))l , f (xi , β) · (Hi (β))jk , (gi (β))j (Hi (β))kl , und (Hi (β))kl (Hi (β))k′ l′ existieren die gleichmäßigen Limiten (in (α, β) ∈ Θ × Θ) der Form (für alle Kombinationen) n 1X f (xi , α)(gi (β))j . n i=1 Insbesondere gilt gleichmäßig in β ∈ Θ n 1X An (β) = gi (β)gi (β)T → A(β)(∈ Rq×q ). n i=1 Lemma 3.3 Unter den Annahmen (A), (B) und (C) gilt n 1 X d √ εi gi (β) → N (0, σ 2 A(β)) n i=1 Dies Lemma wir mit dem zentralen Grenzwertsatz von Lindeberg und dem Cramer-Wold Lemma bewiesen. Satz 3.4 Es gelten Annahmen (A), (B), (C), β 0 ∈ int Θ und A(β 0 ) sei invertierbar. Dann √ N LS n(β̂ n d − β 0 ) → N (0, σ 2 A(β 0 )−1 ). (35) Beweis Nach dem mehrdimensionalen Zwischenwertsatz der Differentialrechnung gilt N LS 0 = ∂β Qn (β̂ n N LS ) = ∂β Qn (β 0 ) + WN (β̂ n − β 0 ), (36) wobei Wn = Z 0 Es ist 1 N LS − β 0 ) dt. ∂β ∂βT Qn β 0 + t(β̂ n n ∂β Qn (β) = n 2X (Yi − f (xi , β))gi (β) n also ∂β Qn (β 0 ) = i=1 Weiter ∂β ∂βT Qn (β) = 2X εi gi (β 0 ). n i=1 n 2 X (Yi − f (xi , β))Hi (β) − (gi (β)gi (β)T ) . n i=1 Somit gilt nach Annahme (C) f.s. ∂β ∂βT Qn (β 0 ) → −2A(β 0 ), sowie wegen der Konsistenz von β̂ N LS Wn − ∂β ∂βT Qn (β 0 ) → 0 f.s. Somit ergibt sich aus (36) und Lemma 3.3 √ N LS n(β̂ n −1 √ d n∂β Qn (β 0 )/2 → N (0, σ 2 A(β 0 )−1 ) − β 0 ) = − Wn /2 Referenz Jennrich, R. I. (1969) Asymptotic properties of non-linear least squares estimators. Ann. Math. Statist. 40, 633–643. Asymptotische Konfidenzintervalle und Hypothesentests Die asymptotische Normalität in (35) kann zur Konstruktion von Konfidenzintervallen für die Koeffizienten von β sowie zu Konstruktion von Tests linearer Hypothesen an β genutzt P N LS N LS werden. Dabei wird die Matrix A(β 0 ) durch n1 ni=1 gi (β̂ n )gi (β̂ n )T geschätzt. Danach geht man vor wie in Bemerkung 2.8 zur entsprechenden asymptotischen Konstruktion in der linearen Regression. relevante R Befehle Die Funktion summary, angewendet auf ein nls Objekt, liefert die P-Werte, ob die entsprechenden Koeffizinten 0 sind. Die Funktion confint berechnet Konfidenzintervalle für die βk . Mit der Funktion anova können lineare Hypothesen an β getestet werden, wobei das Modell unter der linearen Restriktion mit geschätzt werden muss. Weitere Bemerkungen Eine Residuenanalyse (residuals und fitted.values auf das nls Objekt anwenden) wird ebenso wie im linearen Regressionsmodell durchgeführt. Da das Modell gewöhnlich durch den wissenschaftlichen Zusammenhang vorgegeben sein sollte, sind die Themen Modellwahl und Variablenselektion nur von geringem Interesse in der nichtlinearen Regression. Eine Ausnahme ist aber die Schätzung der Varianzfunktion (s. Abschnitt 2.6.2). Dort führt man gewöhnlich sukzessive Tests durch. 63 4 4.1 Logistische Regression Modell Wir betrachten Regression auf bionomial-verteilte Daten. Dabei liegen also unabhängige binomial-verteilte abhängige Daten vor, Yi ∼ B(ni , pi ), i = 1, . . . , n, n i yi P (Yi = yi ) = p (1 − pi )ni −yi , yi i sowie Kovariabeln xi,1 , . . . , xi,r , i = 1, . . . , n. Man geht nun davon aus, dass die Kovariablen die Erfolgswahrscheinlichkeit pi beeinflussen, also pi = p(xi ). Genauer soll pi von einem linearen Prädiktor ηi = bxTi β abhängen, wobei β ∈ Rp ein unbekannter Parametervektor ist (es ist wie bei der linearen Regression p = r + 1 und bxi = (1, xi,1 , . . . , xi,r )T )). Die direkte Wahl pi = ηi = bxTi β ist aber ungeeignet, da ja so nicht sichergestellt wird, dass 0 < pi < 1. Man wählt daher eine streng monoton wachsende, stetige Link-Funktion g : (0, 1) → R, so dass ηi = g(pi ) bzw. pi = h(ηi ) mit h = g −1 . Die Funktion h ist also eine streng-monoton wachsende, stetige Verteilungsfunktion. Beispiele für Linkfunktionen η p e a. Logit-Link g(p) = log( 1−p ); h(η) = 1+e η . Diese Wahl führt zum sogenannten logistischen Regressionsmodell, welches wir im Folgenden weiter untersuchen wollen. b. Probit-Link g(p) = Φ−1 (p), wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet. Dies ist das Probit Modell. c. Komplementäre Log-log-Regression g(p) = log(− log(1 − p)), dies ist das diskrete CoxModell Wir fassen also nochmal die Definition des logitischen Regressionsmodells zusammen. Es liegen unabhängige Beobachtungen (Yi , bxi ), i = 1, . . . , n, vor, wobei die Yi ∼ B(ni , pi ) binomialverteilt sind. Der Parameter ni ist bekannt, dagegen hängt pi von den Kovariablen bxi ∈ Rp ab über die Beziehung exp(bxTi β) pi = p(bxi ) = 1 − exp(bxTi β) für einen unbekannten Parametervektor β ∈ Rp . Für die Kodierung der Kovariablen, also die konkrete Wahl des Vektors bxTi ist Abschhnitt 2.1.2 zu beachten. 4.2 Maximum Likelihood Schätzung Für feste Linkfunktion kann der Parameter β durch die Maximum Likelihood Methode geschätzt werden. Dazu betrachtet man die Log-Likelihood-Funktion: L(β) = n X i=1 Yi log h(xTi β) + (ni − Yi ) log(1 − h(xTi β)) + n X i=1 ni log , Yi 64 4 LOGISTISCHE REGRESSION wobei der letzte Summand nicht von β abhängt und somit vernachlässigt werden kann. Ein Maximum Likelihood Schätzer ist dann gegeben durch β̂M L = argmaxβ∈Rp L(β) Wir betrachten im Folgenden speziell das logistische Regressionsmodell. Dann ist Llogit (β) = = n X i=1 n X t Yi log ebxi β bxT i β 1+e Yi (bxTi β) i=1 − n X T + (ni − Yi ) log 1 − ebxi β bxT i β 1+e + const. T ni log(1 + ebxi β ) + const. i=1 Als notwendige Bedingung für ein Maximum ergibt sich die Score-Gleichung X ∂ ebxi β ! S(β) = = 0. Llogit (β) = bxi Yi − ni bxT ∂β i β i=1 } | 1 +{ze n T =E(Yi |bxi ) Es ist offenbar E(S(β)) = 0. Für die Matrix der zweiten Ableitungen (Hessische Matrix) erhält man T n X ∂ ebxi β T H(β) = . S(β) = − bxi bxi ni T ∂β T (1 + ebxi β )2 i=1 | {z } =p(bxi )(1−p(bxi )) Somit hat diese folgende Eigenschaften a. H(β) hängt nicht von Daten Yi ab. b. H(β) ist negativ definit für alle β ∈ Rp , falls die Designmatrix T x1 .. X = . ∈ Rn×p xTn vollen Rang hat. (Nachweis!) Satz 4.1 Der Parameterraum Θ ⊂ Rp der möglichen Werte von β sei konvex. Falls die Designmatrix X vollen Rang hat, hat Llogit (β) im logistischen Regressionsmodell höchstens ein Maximum, d.h. β̂ M L ist, falls existent, eindeutig bestimmt. Beweis H(β) negativ definit ∀β ∈ Rp ⇒ Llogit (β) konkav ⇒ auf konvexer Menge höchstens ein Maximum. Beispiel 4.2 (MLE braucht finit nicht zu existieren) Es sei ni = 1, und die Kovariablen bxi seien derart, dass β ∗ ∈ Rp existiert mit bxTi β ∗ > 0, falls Yi = 1, bxTi β ∗ < 0, falls Yi = 0. 4.3 Deviance 65 Dann ist ∗ L(β ) = n X (bxTi β ∗ i=1 yi =1 ∗ bxT i β − log(1 + e )) − n X T ∗ log(1 + ebxi β ). i=1 yi =0 Für α → ∞ gilt dann L(αβ ∗ ) → 0 (nutze dazu log(1 + ex ) ≈ x für x groß). Andererseits ist stets n Y p(bxi )yi (1 − pi (bxi ))1−yi < 1 L(β) = i=1 uns somit L(β) < 0. Daher kann es kein Maximum geben. Man kann aber zeigen, dass unter geeigneten Bedingungen die Wahrscheinlichkeit dafür, dass der Maximum Likelihood Schätzer β M L existiert, gegen 1 konvergiert, und dass dieser asymptotisch normalverteilt ist. Wir zeigen dies im Abschnitt 5.3 über verallgemeinerte lineare Modelle. relevante R Befehle Die Funktion glm mit Option family=binomial passt ein logistisches Regressionsmodell an. Entweder man wählt die Matrix (Yi , ni −Yi ), i = 1, . . . , n als abhängige Variable in formula, oder man wählt Yi /ni als abhängige Variable in formula, und übergibt die ni an die Option weights. Ein Probit-Modell wird mit der Option family=binomial(link="probit") erzeugt. Auf ein glm Objekt können die Funktionen summary, und fitted.values (angepasste Werte), angewendet werden. 4.3 Deviance Wir wiederholen zunächst das Prinzip des Likelihood Quotienten Tests (LRT, Likelihood Ratio Test). Angenommen, man hat zwei parametrische Modelle: L: großes Modell mit l freien Parametern und maximaler Likelihood LL , S: kleines Teilmodell von L mit s freien Parametern und maximaler Likelihood LS . Dann ist die Likelihood Quotienten Statistik gegeben durch T = 2 log LL . LS Falls das Teilmodell S bereits den wahren Parameter enthält, und falls zusätzliche Regulad ritätsbedingungen erfüllt sind, gilt T → χ2 (l − s). Man verwirft das Teilmodell mit asymptotischen Niveau α > 0, falls T ≥ χ2α (l − s). Die Deviance ist nun definiert als Likelihood Quotienten Statistik für das angepasste logistische Regressionsmodell gegen das sogenannte saturierte Modell, wobei im saturierten Modell jeder Parameter pi als freier Parameter behandelt wird und durch p̂i = nYii geschätzt wird. Also explizit D =2· n X Yi log i=1 p̂i h(xTi β̂) + (ni − Yi ) log( 1 − p̂i 1 − h(xTi β̂) ) . Mit Ŷi = ni h(xTi β̂), den angepassten Werten (fitted values) kann man auch schreiben D =2· n X i=1 Yi log Yi Ŷi + (ni − Yi ) log ni − Yi ni − Ŷi . 66 4 LOGISTISCHE REGRESSION d Falls das logistische Regressionsmodell korrekt ist, gilt für festes n und für ni → ∞ D → χ2 (n − p). Bemerkungen a. Für ni = 1 (Bernoulli-Daten) kann die Deviance nicht benutzt werden (WIESO). d b. Die Asymptotik D → χ2 (n − p) gilt nicht für ni fest und n → ∞! Die Deviance kann auch genutzt werden, um zwei ineinander geschachtelte logistische Regressionsmodelle miteinander zu vergleichen. Dazu seien L: das große logistische Regressionsmodell mit β ∈ Rl , S: das klein Teilmodell von L mit β ∈ Rs , s < l. Dann kann die Likelihood Quotienten Statistik von Modell S gegen Modell L durch Differenzbildung der zugehörigen Deviances DS − DL , auch Partial Deviance Test genannt, berechnen. Falls S korrekt ist, gilt d DS − DL → χ2l−s , falls ni → ∞ oder auch n → ∞. Beachte dabei, dass die gesättigten Terme wegfallen, weshalb auch Asymptotik mit n → ∞ gilt. relevante R Befehle Die summary Funktion enthält die Deviance. Der Partial Deviance Test für lineare Hypothesen wird mit anova durchgeführt. Hierbei wird entweder das reduzierte Modell mitübergeben, oder es werden Tests auf Relevanz der HAupteffekte und Interaktionen durchgeführt. 4.4 Residuenanalyse und weitere Diagnostische Plots NOCH ÜBERARBEITEN! Residuenanalyse T µ̂i = ni p̂i , p̂i = exi β̂M L,n T 1 + exi β̂M L,n . Rohe Residuen (Raw residuals) ri = Yi − ni p̂i . Diese sind ungeeignet für Residuenanalyse, da die Varianz von Yi und somit von ri von µi abhängt. Somit haben die ri keine approximativ konstante Varianz. Pearsonsche Residuen riP = Yi − ni p̂i 1 (ni p̂i (1 − p̂i )) 2 . Diese sind grundsätzlich geeignet für die Residuenanalyse. Allerdings sind sie häufig finit nicht gut approximativ normalverteilt, sonder schief verteilt. Nur benutzen für große ni , insbesondere nicht benutzbar für ni = 1.) Transformierte Residuen Varianz-stabilisierende Residuen: p √ (arcsin( Yi /ni ) − arcsin(p̂i )) · 2 ni , 4.4 Residuenanalyse und weitere Diagnostische Plots 67 hier ist T die Arcsin-Transformation. Anscombe: T ( nYii ) − T (p̂i ) √ 1 6 ni , T (z) = (p̂i (1 − p̂i )) Für T sind numerische Approximationen verfügbar. Z 0 z 1 (t(1 − t))− 3 dt. Deviance-Residuum: Die Deviance Residuen sind also Wurzeln aus Beitrag der i-ten Beobachtung zur Deviance. Mit µ̂i = ni p̂i haben ni − Yi 12 riD = sign(Yi /ni − p̂i ) 2(Yi log(Yi /µ̂i ) + (ni − Yi ) log . ) ni − µ̂i wobei 1, x > 0 0, x = 0 sign(x) = −1, x < 0 Im Allgemeinen wird die Benutzung der Deviance Residune empfohlen, die ähnliche Eigenschaften zu den Anscombe Residuen haben (vgl REFERENZ). 1. Einfluß einer Kovariable a. dichotom Datenbeispiel Babyfood“ ” Krank Nicht krank Junge p(0) 1-p(0) empirisch: Mädchen p(1) 1-p(1) Krank Nicht krank Odds: O(i) = Junge a c p(i) 1 − p(i) (lace eines Erfolgs zu dem eines Mißerfolgs) Empirisch: Ô(0) = a a+c c a+c = b a , Ô(1) = c d Odds Ratio: (???) Or = Ô(0) O(0) Logistisches Regressionsmodell: log( p(i) ) = β 0 + β 1 i, i = 0, 1 1 − p(i) Somit: eβ0 = O(0), eβ0 +β1 = O(1) eβ1 = Or Auch für empirische Odds-Ratios und ML-Schätzer für die β i . Mädchen b d 68 4 LOGISTISCHE REGRESSION b. nomiale Kovariable Beispiel Food“ (Babyfood) ” J Kategorien, dann logit(p(j)) = β 0 + β 1 I1 (j) + . . . + β J−1 IJ−1 (j), j = 1, . . . , J wobei Ij (i) = Also: 1, i = j 0, sonst j = 1, . . . , J − 1 logit p(J) = β 0 , logit p(j) = β 0 + β j (damit Matrix X vollen Rang hat!) Wieder Zusammenhang zu den empirischen logits! c. ordinale Kovariable Beispiel Bliss Daten“ ” Linearität der empirischen Logits prüfen → ??? Logits: yi p̂(i) yi ni log( ) = log( ) yi ) = log( 1 − p̂(i) 1 − ni n i − yi Empirische logits: log( yi + 12 ) ni − yi + 21 d. quantitative Kovariable Auch empirische Logits plotten. 2. Einfluß mehrerer Kovariablen Beispiel 4.3 Lineares Modell, eine Kovariable stetig, eine Kovariable dichotom abhängig: Einkommen; dichotom: Geschlecht; stetig: Alter Untersuche (Modell mit Haupteffekten): Yi = β 0 + β 1 xi,A + β 2 xi,S + εi (1) Bedeutet konkret: Für Männer (xi,S = 1): Yi = β 0 + β 2 + β 1 xi,A Für Frauen (xi,S = 0): Yi = β 0 + β 1 xi,A Also: gleiche Steigung, ungleiche Intercepts Falls aber der Zusammenhang so ist, dass ungleiche Steigung und ungleiche Intercepts, dann Interaktion. Erweitere Modell (1) zu: Yi = β 0 + β 1 xi,A + β 2 xi,S + β 3 xi,A · xi,S + εi 4.5 Überdispersion 69 Dann für Männer (xi,S = 1): Yi = β 0 + β 2 + xi,A (β 1 + β 3 ) + εi Für Frauen (xi,S = 0): Yi = β 0 + β 1 xi,A + εi Analog, falls zweite Kovariable nicht dichotom, sondern polytom (nominal) ist, oder wenn beide Kovariablen nomial (auch dichotom) sind. Im logistischen Regressionsmodell plottet man nicht Yi , sondern empirische Logits, um Interaktionen zu entdecken. Beispiel: Babyfood, troutegg 4.5 Überdispersion Im logistischen Regressionsmodell gilt mit log pi /(1 − pi ) = xTi β EYi = ni · pi , Var Yi = ni pi (1 − pi ) = EYi · (1 − EYi ) ni Somit ist die Varianz Var Yi durch den Erwartungswert EYi bereits bestimmt. Man spricht nun von Überdispersion (Overdispersion) gegenüber dem logistischen Regressionsmodell, falls i die Varianz der Yi größer ist als EYi · (1 − EY ni ). Formale Gründe für Überdispersion a. Korrelation zwischen den binären Responses Yi = ni X Rij mit Rij = j=1 Es ist Var Yi = ni X 1 0 Var Rij + j=1 Erfolg , Mißerfolg X P (Rij = 1) = pi Cov(Rij , Rik ), j6=k Für die erste Summe erhält man ni pi (1 − pi ). Sind die binären Responses Rij korrelliert, so ist der zweite Summand ungleich 0. Falls etwa Cov(Rij , Rik ) = δ ∀j 6= k, i, dann Var Yi = ni pi (1 − pi ) + pi (1 − pi )δni (ni − 1) = ni pi (1 − pi ) · (1 + δ(ni − 1)). Inhaltlich Korrelation entsteht durch Klustereffekte, falls Mitglieder einer Gruppe sich nicht unabhängig verhalten, etwa Mitglieder einer Familie, Firma, oder zeitlicher Verlauf bei einem Patienten in der Medizin. b. Variabilität in Erfolgswahrscheinlichkeiten Hier nimmt man an, dass die Erfolgswahrscheinlichkeiten pi selbst Realisierungen von unbeobachteten Zufallsvariablen sind. Genauer modelliert man Yi |ϑi ∼ B(ni , ϑi ), wobei ϑi (latente, also nicht beobachtete) Zufallsvariable auf (0, 1) sind mit Eϑi = pi und Var ϑi = φpi (1−pi ) für 70 4 LOGISTISCHE REGRESSION ein φ > 0 (spezielle Parametrisierung der Varianz, keine Einschränkung). Für die bedingten Momente erhält man E(Yi |ϑi ) = ni ϑi , Var(Yi |ϑi ) = ni ϑi (1 − ϑi ) Für die unbedingten Momente: EY = Eϑ (E(Y |ϑ)) = Eϑ (n · ϑ) = n · p, sowie Var Y = Eϑ (Var(Y |ϑ)) + Varϑ (E(Y |ϑ)) = Eϑ (n · ϑ(1 − ϑ)) + Varϑ (n · ϑ) = n · (p − φp(1 − p) − p2 ) + n2 φp(1 − p) = np(1 − p) · (1 + (n − 1)φ) Man erhält also die gleiche Struktur wie bei konstanter Korrelation. Ist in der Tat ni X Yi = Rij , Rij |ϑi ∼ B(ϑi ) unabhängig j=1 so ist Cov(Rij , Rik ) = φ. [Aufgabe! Benutze Cov(Rj , Rk ) = Eϑ (Cov(Rj , Rk |ϑ)) + Covϑ (E(Rj |ϑ), E(Rk |ϑ)) ] Wie erkennt man Überdispersion? Wir untersuchen dieses Problem zunächst für unabhängig, identisch verteilte (u.i.v.) Zufallsvariablen. Dazu seien Y1 , . . . , Yn u.i.v., vermute, dass jedes Yi ∼ B(m, p) (jeweils gleiche Sample Size). Dann vergleiche empirische Varianz S2 = 1 X (Yj − Ȳ )2 n−1 j Ȳ mit Varianz geschätzt über den Erwartungswert in einer Binomialverteilung: S̃ 2 = Ȳ (1 − m ) 2 2 (beachte, dass Ȳ schätzt m · p) durch Quotientenbildung T = (n − 1) S /S̃ . Dies ergibt die sogenannte Pearsonsche Chi-Quadrat Statistik. Wir betrachten nun allgemeiner unabhängige 0 ≤ Yi ≤ ni , und wollen die Varianzstruktur von Yi ∼ B(ni , p) überprüfen. Dazu schätzen wir p durch 1 p̂ = Pn n X i=1 ni i=1 (beachte Pn i=1 Yi Yi P ∼ B( ni=1 ni , p)) und bilden die Pearsonsche χ2 -Statistik T = n X (Yj − nj p̂)2 nj p̂(1 − p̂) j=1 4.5 Überdispersion 71 T ist für festes n und ni → ∞ asymptotisch verteilt nach χ2n−1 . Falls also der p-Wert P = 1 − χ2 (n − 1)(T ) ≤ α, dann liegt mit Niveau α > 0 Überdispersion vor. Wir betrachten nun wieder das logistische Regressionsmodell, und schätzen β mit MaximumLikelihood. Mit dem ML-Schätzer β̂ M L setze T p̂i = exi β̂M L T 1 + exi β̂M L . Dann vergleiche (Yi − ni p̂i )2 mit ni p̂i (1 − p̂i ) durch Bildung der Pearsonschen χ2 -Statistik T = n X (Yi − ni p̂i )2 i=1 ni p̂i (1 − p̂i ) , d wobei wiederum für festes n und ni → ∞ gilt: T → χ2n−p , wobei p = dim β. Weiter kann man zeigen, dass eine Varianzstruktur der Form φpi (1−pi ) mit φ > 1 zu größerer Deviance führt (für ni groß genug). Daher ist große Deviance (mehr als die degrees of freedom) ein Indiz für Überdispersion. Bevor man Überdispersion durch Modifikation des Modells mit aufnimmt, sollten andere mögliche Ursachen für großes T und große Deviance ausgeschlossen werden: • fehlende Kovariable / Interaktionen • ni klein • Ausreißer • eventuell nichtlineare Effekte • falsche Linkfunktion Diese Ursachen sind durch Modelldiagnostik, insbesondere Residuenanalyse, auszuschließen. Folgen von Überdispersion: Die Standardfehler der ML-Schätzer sind deutlich größer, werden also bei Nichtbeachtung der Überdispersionsstruktur unterschätzt, wodurch die statistische Inferenz, also Konfidenzintervalle nd Tests, ungültig werden. Modellierung bzw. Schätzung von Überdispersion a. Quasilikelihood (s. Kapitel 4). b. Hinzunahme zufälliger Effekte (s. Kapitel 6). c. Das Beta-Binomial Modell Dabei nutzen wir das Entstehen von Überdispersion durch Variabilität in den Erfolgswahrscheinlichkeiten, und wählen als Verteilung der Erfolgswahrscheinlichkeiten eine Beta Verteilung, also ϑi ∼ Beta(ai , bi ), wobei f (ϑi ) = 1 ϑai −1 (1 − ϑi )bi −1 , ai , bi > 0 B(ai , bi ) i und B(a, b) = Z 1 0 die Beta-Funktion bezeichnet. Somit Eϑi = ai =: pi , ai + bi Var ϑi = xa−1 (1 − x)b−1 dx (ai + ai bi 2 bi ) (ai + bi + 1) = pi (1 − pi ) 1 . ai + bi Damit die Dichte von ϑi unimodal und am Rand = 0 ist, muss ai , bi > 1 gelten, welches Var ϑi ≤ pi (1 − pi ) 3 impliziert. Parametrisiere nun über (β, φ), wobei also log pi /(1 − pi ) = xTi β, bi = φ= (1 − φ)(1 − pi ) , φ 1 , ai + bi + 1 ai = pi = ai ai + bi pi (1 − φ) . φ Schätze (β, φ) als argmax der marginalen Likelihood-Funktion L(β, φ) = n Z Y 1 f (Yi |ϑi )f (ϑi )dϑi i=1 0 n Z 1 Y ni Yi 1 ϑi (1 − ϑi )ni −Yi = ϑiai −1 (1 − ϑi )bi −1 dϑi Y B(a , b ) i i i i=1 0 n Y ni B(Yi + ai , ni − Yi + bi ) = B(ai , bi ) Yi i=1 Bemerkung: Die Überdispersionsstrukur in a. und c. unterscheidet sich, da der Faktor in der Varianz in c. von ni abhängt, in a. dagegen nicht. Es ist je nach Situation zu entscheiden, welches Modell zu bevorzugen ist. relevante R Befehle Die library aod enthält die Funktion betabin zum Anpassen eines Beta-binomial Modells. Die Syntax ist ähnlich wie bei glm, als abhängige Variable wird die Matrix (Yi , ni − Yi ) übergeben. Man kann auch den Überdispersionsparameter φ durch eine Formel bestimmten, also von Kovariablen abhängen lassen. Das obige Modell entsteht durch random~1. Auf das entstehende Objekt kann die Funktion summary angewendet werden. 73 5 Verallgemeinerte lineare Modelle (GLMs) Verallgemeinerte lineare Modelle werden genutzt, falls die abhängige Variable Yi nicht normalverteilt ist wie im klassischen linearen Modell mit normalverteilten Fehlern, sondern falls diese einer anderen parametrischen Familie aus der Klasse der sogenannten Dispersionsexponentialfamilien folgt. In der Praxis ist dies besonders relevant, falls die abhängige Variable eine Zählvariable oder aber eine dichotome (kategoriell mit zwei Kategorien) Variable ist. Im ersten Fall kann man ein Poisson Regressionsmodell wählen, im zweiten ein logistisches Regressionsmodell. Weitere Beispiele sind Regression auf Gamma-verteilte Zufallsvariablen sowie auf invers-Gauss verteilte Zufallsvariablen. 5.1 Dispersionsexponentialfamilien (DEFs) Sei µ ein dominierendes, σ-endliches Maß auf R. Definition 5.1 Eine Familie von Dichten auf R bezüglich µ der Form y · ϑ − b(ϑ) + c(y, ϕ) , f (y; ϑ, ϕ) = exp ϕ y ∈ R, mit bekannten Funktionen b(·) und c(·) (ϑ ∈ Θ ⊂ R, ϕ ∈ Φ ⊂ (0, ∞)) heißt Dispersionsexponentialfamilie (DEF). Bemerkung Bei der DEF handelt es sich um ein verwandtes, aber nicht identisches Konzept der Exponentialfamilien aus Statistik 1. Beispiel 5.2 1. Normalverteilung f (y; µ, σ 2 ) = √ yµ − 1 µ2 (y − µ)2 1 y2 1 2 2 − − log(2πσ ) , = exp exp − 2σ 2 σ2 2σ 2 2 2πσ 2 y − 21 log(2πϕ) und somit eine DEF also ϑ = µ, ϕ = σ 2 , b(µ) = 21 µ2 , c(y, ϕ) = − 2ϕ (dominierendes Maß dµ(x) = dx: Lebesgue-Maß auf R). 2. Binomialverteilung (für festes n) n y p n n−y f (y; p, n) = p (1 − p) = exp y log( ) + n log(1 − p) + log . y 1−p y p ), ϕ = 1, b(ϑ) = Für festes n also Dispersionsexponentialfamilie mit ϑ = log( 1−p −n log(1 − p) = n log(1 + eϑ ), c(y) = log ny (bezüglich µ: Zählmaß auf {0, 1, . . . , n}). 3. Poisson-Verteilung Für λ > 0 f (y; λ) = e−λ λy = exp(y log λ − λ − log y!) y! also mit ϑ = log λ, ϕ = 1, b(ϑ) = eϑ , c(y) = log y! Dispersionsexponentialfamilie bezüglich Zählmaß auf N0 . 74 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS) 4. Gamma-Verteilung Für r, λ > 0: Dichte bezüglich Lebesgue-Maß µ auf (0, ∞), also für y > 0 1 r r−1 −λy λ y e Γ(r) λ λ = exp r − y + log( ) + r log r − log Γ(r) + (r − 1) log y , r r f (y; r, λ) = mit ϑ = − λr , ϕ = r−1 , b(ϑ) = − log(−ϑ), c(y, ϕ) = −ϕ−1 log ϕ − log Γ(ϕ−1 ) + (ϕ−1 − 1) log y. 5. Inverse Gauß-Verteilung Dichte bezüglich Lebesgue-Maß µ auf (0, ∞), also für y > 0 σ 2 (y − µ)2 σ p exp − 2µ2 y 2πy 3 2 σ2 σ2 1 3 1 + log σ − log(2π) − log y , = exp (− 2 y + ) − µ µ 2 2y 2 2 √ ϑ = − µ12 , ϕ = σ22 , b(ϑ) = −2 −ϑ, c ergibt sich, für y, µ, σ > 0. f (y, µ, σ) = Log-Likelihood für DEFs l(y; ϑ, ϕ) = log f (y; ϑ, ϕ) = yϑ − b(ϑ) − c(y, ϕ) ϕ Annahmen A d dϑ Z ∂2 ∂2ϑ Z f (y; ϑ, ϕ)dy = Z d f (y; ϑ, ϕ)dy dϑ f (y; ϑ, ϕ)dy = Z ∂2 f (y; ϑ, ϕ)dy ∂2ϑ ∀ϑ, ϕ B Lemma 5.3 Sei Y ∼ f (y; ϑ, ϕ) verteilt nach DEF. Dann a. Unter Annahme A: Eϑ ∂l (Y ; ϑ, ϕ) = 0. ∂ϑ b. Unter den Annahmen A und B: Eϑ i h ∂l ∂2l 2 (Y ; ϑ, ϕ) = −E ) (Y ; ϑ, ϕ) . ( ϑ ∂2ϑ ∂ϑ ∀ϑ, ϕ 5.1 Dispersionsexponentialfamilien (DEFs) Beweis ∂l = Zu a. ∂ϑ ∂f ∂ϑ · f1 , somit ∂l Eϑ (Y ; ϑ, ϕ) = ∂ϑ Zu b. Z 75 ∂f A ∂ (y; ϑ, ϕ)dy = ∂ϑ ∂ϑ Benutze ∂ ∂f 1 ∂2l = ( · )= 2 ∂ ϑ ∂ϑ ∂ϑ f ∂2f ∂2ϑ Z f (y; ϑ, ϕ)dy = 0 | {z } =1 also konstant ∂f 2 ) · f − ( ∂ϑ 2 f 2 und Eϑ ∂∂ 2 ϑf (Y ; ϑ, ϕ) = 0 nach Annahme B. Bemerkung. Lemma 5.3 gilt stets für differenzierbare parametrische Familien, die die Annahmen A und B erfüllen. (Also nicht nur für DEFs.) Lemma 5.4 Angenommen, für die DEF f (y, ϑ, ϕ) gelten die Annahmen A und B. Dann ist für Y ∼ f (y, ϑ, ϕ): a. Eϑ (Y ) = b′ (ϑ) =: µ(ϑ), b. Varϑ Y = ϕ · b′′ (ϑ). Beweis a. Benutze ∂l Y − b′ (ϑ) (Y ; ϑ, ϕ) = ∂ϑ ϕ Bilde Eϑ (·) und verwende Lemma 5.3. b. Es gilt b′′ (ϑ) ∂2l = − ∂2ϑ ϕ Mit Lemma 5.3 folgt dann ∂l Eϑ Y 2 − 2b′ (ϑ)Eϑ Y + (b′ (ϑ))2 ∂2l b′′ (ϑ) = −Eϑ 2 (Y ; ϑ, ϕ) = Eϑ (( )2 ) = . ϕ ∂ ϑ ∂ϑ ϕ2 Somit: 2 ϕb′′ (ϑ) = Eϑ Y 2 − b′ (ϑ) = Varϑ Y. Beispiel (Fortsetzung von 5.2) a. Normalverteilung b′ (ϑ) = ϑ (ϑ = µ); b′′ (ϑ) = 1, somit Varϑ Y = ϕ b. Binomialverteilung b′ (ϑ) = n · eϑ = np, 1 + eϑ b′′ (ϑ) = n eϑ = np(1 − p). (1 + eϑ )2 76 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS) c. Poisson-Verteilung b′ (ϑ) = eϑ = λ, b′′ (ϑ) = eϑ = λ. d. Gamma-Verteilung b′ (ϑ) = − r 1 = , ϑ λ b′′ (ϑ) = 1 r2 = ϑ2 λ2 e. Inverse Gauß-Verteilung b′ (ϑ) = √ Also Var Y = 5.2 1 = µ, −ϑ 3 1 µ3 b′′ (ϑ) = (−ϑ)− 2 = 2 2 µ3 . σ2 Komponenten eines GLMs a. Zufallskomponente Y , Verteilung aus Dispersionsexponentialfamilie Eϑ Y = µ(ϑ) = b′ (ϑ). b. Systematische Komponente Linearer Prädiktor η = xT β, wobei x ∈ Rp Kovariablen, β ∈ Rp unbekannter Parameter c. Linkfunktion η = g(µ), g : I → R streng monoton wachsend. Die Linkfunktion g wird als bekannt vorausgesetzt. Setzte weiter u = (g ◦ µ)−1 , so dass ϑ = u(η). Im Folgenden sei stets (Yi , xi )i=1,...,n unabhängige Stichprobe aus GLM. Der Kovariablenvektor x ist geeignet kodiert nach Abschnitt 2.1.2, und entält insbesondere den Achsenabschnitt. Wir nehmen stets an, dass die Designmatrix X = (x1 , . . . , xn )T ∈ Rn×p vollen Rang habe. Definition 5.5 (kanonische Linkfunktion) Gilt g(µ) = ϑ, also g = (b′ )−1 = µ−1 bzw. u = id, so heisst g kanonische Linkfunktion. Dann ist ϑ = Xβ. Beispiel 5.6 (Beispiele für Linkfunktionen) a. Normalverteilung Die kanonische Linkfunktion ist g(µ) = µ, darüber hinaus gibt es weitere Linkfunktionen, etwa die Box-Cox-Transformationen ( λ µ −1 λ , λ 6= 0, gλ (µ) = log µ, λ = 0. b. Binomialverteilung Die kanonische Linkfunktion ist die logistische Linkfunktion g(µ) = log (µ/n)/(1 − µ/n) . Weitere Linkfunktionen: Probit-Link, Log-log Link. c. Poisson-Verteilung 1 kanonische Linkfunktion g(µ) = log µ, darüber hinaus g(µ) = µ, g(µ) = µ 2 5.3 Maximum Likelihood Schätzung und Testen in GLMs 77 d. Gamma-Verteilung kanonische Linkfunktion g(µ) = − µ1 , darüber hinaus g(µ) = log(µ), g(µ) = µ. e. Inverse Gauß-Verteilung kanonische Linkfunktion g(µ) = − µ12 . Einschub über suffiziente Statistiken (vgl. Statistik 1) Sei Z = (Z1 , . . . , Zn ) Zufallsvektor mit Dichte f (z, k), z ∈ Rn , k Parameter. Dann heißt eine Statistik suffizient für k, falls eine Version des bedingten Erwartungswertes E(Z|T (Z) = t) existiert, die unabhängig von k ist. Faktorisierungslemma T (Z) ist suffizient für k genau dann, wenn f (z, k) = L(T (z), k) · H(z). Satz 5.7 Für (Yi , xi )i=1,...,n aus GLM mit kanonischer Linkfunktion ist T T (Y) = T1 (Y), . . . , Tp (Y) , Tj (Y) = n X xij Yi , i=1 suffizient für β (die Kovariablen xi sind dabei fest, nicht zufällig). Beweis Die gemeinsame Dichte von (Y1 , . . . , Yn ) ist n X yi ϑi − b(ϑi ) f (y1 , . . . , yn , β) = exp + c(yi , ϕ) ϕ i=1 P n n y xT β − b(xT β) X i i=1 i i · exp c(yi , ϕ) = exp ϕ i=1 = L(T (y), β) · H(y), wobei im vorletzten Schritt ausgenutzt wurde, dass für die kanonische Linkfunktion ϑi = xTi β ist. 5.3 Maximum Likelihood Schätzung und Testen in GLMs In diesem Abschnitt betrachten wir die Schätzung des Parameter Vektors β durch Maximum Likelihood, sowie das Schätzen des Parameters ϕ und die Konstruktion von Hypothesentests. Gegeben seien (Yi , xi )i=1,...,n unabhängig aus GLM, also Yi ∼DEF(ϑi , ϕ), Eϑi (Yi ) = µ(ϑi ) = b′ (ϑi ), ηi = xTi β, ηi = g(µ(ϑi )). Wir setzten wieder u = (g ◦ µ)−1 , so dass ϑi = u(xTi β). Bei Wahl der kanonischen Linkfunktion gilt g = µ−1 , also u = id. Log-Likelihood-Funktion n X Yi u(xTi β) − b u(xTi β) Ln (β, ϕ) = − C, ϕ i=1 78 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS) C ist nicht abhängig von dem Parameter β. Score-Vektor sn (β, ϕ) = n X u′ (xTi β) ∂ Ln (β, ϕ) = xi yi − b′ (u(xTi β)) ∂β ϕ (∈ Rp ), i=1 Fisher-Information Fn (β, ϕ) = Cov sn (β, ϕ) = n X (u′ (xT β))2 i ϕ i=1 (b′′ Varianzfunktion der DEF) xi xTi b′′ u(xTi β) , Hessische Matrix Hn (β, ϕ) = = ∂ ∂ Ln (β, ϕ) ∂β ∂β T n X u′′ (xT β) · xi xT i i i=1 ϕ Yi − b ′ (u(xTi β)) = Rn (β, ϕ) − Fn (β, ϕ) − n X u′ (xT β)xi xT i i ϕ i=1 b′′ u(xTi β) · u′ (xTi β) . Maximum Likelihood Schätzer (Θ ⊂ Rp konvex) β̂ M L,n = argmaxβ∈Θ Ln (β, ϕ) Beachte: β̂ M L,n hängt nicht vom Dispersionsparameter ϕ ab (dies ergibt sich direkt aus der Form von Ln (β, ϕ)). Lemma 5.8 Es ist EHn (β, ϕ) = −Fn (β, ϕ). Bei Verwendung der kanonischen Linkfunktion, also für u = id, gilt sogar Hn (β, ϕ) = −Fn (β, ϕ). (die zweite Ableitung hängt dann nicht von Daten Yi ab.) Im Folgenden wollen wir uns mit Existenz, Eindeutigkeit und asymptotischer Verteilung von β̂ M L,n bei Verwendung der kanonischen Linkfunktion beschäftigen. Wir schreiben in Beweisen stets Ln (β) statt Ln (β, ϕ) etc., da der ML-Schätzer für β nicht von ϕ abhängt (allerdings hängt seine asymptotische Verteilung von ϕ ab). Sei also stets g = µ−1 bzw. u = id. Dann: Ln (β, ϕ) = sn (β, ϕ) = n X Yi xT β − b(xT β) i i i=1 ϕ n X Yi xi − b′ (xT β)xi i i=1 ϕ Fn (β, ϕ) = −Hn (β, ϕ) = − c, = n X xi i=1 n X b′′ (xT β) i i=1 ϕ ϕ Yi − b′ (xTi β) , xi xTi . 5.3 Maximum Likelihood Schätzung und Testen in GLMs 79 Annahme 1 Für positiv definite Grenzmatrizen Σ(β) (β ∈ Θ) gilt gleichmäßig in β: 1 Σ(β) Fn (β, ϕ) → . n ϕ Satz 5.9 In einem GLM mit kanonischer Linkfunktion und konvexem Parameterraum Θ existiert höchstens ein MLE β̂ M L,n . Unter Annahme 1 ist β̂ M L,n stark konsistent, β̂ M L,n → β 0 f.s. Beweis Es ist Hn (β) = −Fn (β) und Fn (β) ist positiv definit, also Hn (β) negativ definit. Somit ist Ln (·) konkav auf der konvexen Menge Θ, hat also höchstens ein lokales Maximum, insbesondere höchstens ein Maximum. Wir zeigen jetzt: Für fast alle ω ∈ Ω (zugrundeliegender Wahrscheinlichkeitsraum) gilt: ∀ε > 0 ∃n1 = n1 (ω) : Ln (β)(ω) − L(β 0 )(ω) < 0 für kβ − β 0 k < ε, n ≥ n1 . (37) (37) impliziert, dass in Bε (β 0 ) = {β : kβ − β 0 k < ε} ein lokales, also das globale Maximum liegt. Bilde den Schnitt über rationale ε > 0 und erhalte dann für f.a. ω ∈ Ω: ∀ε > 0∃n1 = n1 (ω, ε) : β̂ M L,n ∈ Bε (β 0 ), n ≥ n1 , also die starke Konsistenz. Zu (37): Betrachte die Taylor-Entwicklung 1 Ln (β) − Ln (β 0 ) = ε · sn (β 0 )λ + ε2 λT Fn (β ξ )λ, 2 λ= β − β0 ε Für kβ − β 0 k = ε gilt λT λ = 1. Es genügt also zu zeigen: Für f.a. ω ∃n1 = n1 (ω), so dass T ε λ Fn (β ξ )λ sn (β 0 )(ω) · λ < n 2 n Nach starkem Gesetz gilt sn (β0 ) n ∀n ≥ n1 . (38) → 0 f.s., und da kλk = 1, gilt auch sn (β 0 ) λ → 0 f.s., gleichmäßig in λ. n λT Fn (βξ )λ n Wegen Annahme 1 ist darüber hinaus beschränkt. Dies zeigt (37) und somit (38). für n ≥ n1 gleichmäßig in λ von 0 weg Bemerkung Für Existenz und Eindeutigkeit des ML Schätzers bei Wahl einer nicht kanonischen Linkfunktion siehe Wedderburn (1976, Biometrika). 80 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS) Satz 5.10 Unter den Voraussetzungen von Satz 5.9 gilt: √ d n(β̂ M L,n − β 0 ) → N (0, ϕ · [Σ(β 0 )]−1 ) bzw. 1 (39) d [Fn (β̂ M L,n , ϕ)] 2 (β̂ M L,n − β 0 ) → N (0, I) (40) Bemerkung Obwohl der ML-Schätzer β̂ M L,n nicht von dem Dispersionsparameter ϕ abhängt, hängt seine asymptotische Verteilung davon ab, also muss zur Berechnung von Standardfehlern von β̂ M L,n auch der Parameter ϕ geschätzt werden. (s.u.) Lemma 5.11 Unter den Voraussetzungen von Satz 5.9 gilt: 1 d [Fn (β 0 , ϕ)]− 2 sn (β 0 , ϕ) → N (0, I), (41) Σ(β ) 1 d 0 √ sn (β 0 , ϕ) → N 0, . ϕ n (42) bzw. Beweis Offenbar folgt (41) aus (42) und Annahme 1. Zum Beweis von (42) verwenden wir das Lemma von Cramer-Wold, sowie den Stetigkeitssatz für momentenerzeugende Funktionen (dieser besagt, dass schwache Konvergenz aus der punktweisen Konvergenz der momentenerzeugenden Funktionen folgt) und zeigen: ∀λ ∈ Rp , λT λ = 1, sowie t ∈ R gilt − 1 t2 Eβ0 exp tλT Fn (β 0 , ϕ) 2 sn (β 0 , ϕ) → exp( ). 2 (43) (Also: die momentenerzeugende Funktion konvergiert gegen diejenige einer Standardnormalverteilung.) Dazu: Fixiere t ∈ R, λ ∈ Rp , λT λ = 1, setze Fn = Fn (β 0 ), sn = sn (β 0 ). − 12 β n = β 0 + tλT Fn (nicht zufällig). 1 Offenbar ist β n − β 0 = O(n− 2 ) nach Annahme 1. Betrachte die Taylor-Entwicklung Ln (β n ) = L(β 0 ) + (β n − β 0 ) · sn Hn =−Fn − 1 (β − β 0 )T Fn (β̃ n )(β n − β 0 ), 2 n − 12 wobei β̃ n (eine Zufallsvariable) zwischen β n und β 0 . Mit β n − β 0 = tλT Fn exp(λT Vn (β̃ n )λ t2 −1 )Ln (β n ) = exp(tλT Fn 2 sn )Ln (β 0 ), 2 erhalte (44) 5.3 Maximum Likelihood Schätzung und Testen in GLMs 81 −1 −1 wobei Vn (β̃ n ) = Fn 2 Fn (β̃ n )Fn 2 , und Ln = exp(Ln ) bezeichne die Likelihood. Integriere (44) bezüglich des dominierenden Maßes für die Likelihoodfunktion über die yi . Dann ergibt sich t2 −1 Eβn (exp(λT Vn (β̃ n )λ )) = Eβ0 (exp(tλT Fn 2 sn )) (45) 2 Beachte dabei: Wegen Annahme 1 und da die Zufallsvariable β̃ n zwischen β n und β 0 liegt, gilt |Vn (β̃ n ) − I| → 0, gleichmäßig für alle ω ∈ Ω. Daher existiert die linke Seite in (45) und es ist t2 t2 | exp(λT Vn (β̃ n )λ ) − exp( )| ≤ ε, n ≥ n1 , 2 2 gleichmäßig für alle ω ∈ Ω, also der Index n1 nicht zufällig. Setzte dies in (45) ein und erhalte (44), also die Behauptung. Beweis (von Satz 5.10) Nach dem Mittelwertsatz für vektorwertige Funktionen gilt mit Z 1 Fn (β̂ M L,n + t(β 0 − β̂ M L,n ), ϕ)dt Gn = 0 (die Integration wird komponentenweise ausgeführt) sn (β 0 ) = sn (β̂ M L,n )T −Gn (β 0 − β̂ M L,n ). {z } | =0 Nach Annahme 1 gilt Gn /n → Σ(β 0 )/n. Somit √ n(β̂ M L,n − β 0 ) = Die Behauptung folgt nun mit Lemma 44. G −1 s (β ) n n √ 0 . n n Schätzen von ϕ Falls in der DEF der Parameter φ mehrere Werte annehmen kann (etwa bei Gamma - oder Inverser Gauß-Verteilung), muss dieser auch geschätzt werden. Es gilt Var Yi = ϕb′′ (ϑi ), ϑ̂i = u(xTi β̂ M L,n ) Somit benutzt man zur Schätzung n ϕ̂ = 1 X (Yi − b′ (ϑ̂i ))2 n−p b′′ (ϑ̂i ) i=1 Man nennt die Statistik T = n X (Yi − b′ (ϑ̂i ))2 i=1 auch Pearsonsche χ2 -Statistik. b′′ (ϑ̂i ) Testen linearer Hypothesen Angenommen, wir wollen die lineare Hypothese H : Aβ = m mit A ∈ Rq×p (voller Rang), m ∈ Rq testen. 82 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS) 1. Likelihood Quotienten Statistik lq = 2(Ln (β̂ M L,n , ϕ̂) − Ln (β̂ M L,R , ϕ̂)), wobei β̂ M L,R der ML-Schätzer unter der Hypothese H ist. 2. Wald Statistik W = (Aβ̂ M L,n − m)T (AF −1 (β̂ M L,n , ϕ̂)AT )−1 (Aβ̂ M L,n − m) 3. Score Statistik Sc = sT (β̂ M L,R )F −1 (β̂ M L,R , ϕ̂)s(β̂ M L,R ) Satz 5.12 Unter den Annahmen von Satz 5.9 und für konsistentes ϕ̂ sind die Teststatistiken lq, W und Sc unter H asymptotisch χ2p−q verteilt. Der Beweis erfolgt mit Hilfe von Satz 5.10 und Lemma 5.11, in Analogie zum Fall für u.i.v. Daten, vgl. Pruscha (1989). Numerische Berechnung des ML Schätzers β̂ M L,n Wir betrachten nun wieder den Fall allgemeiner (nicht unbedingt kanonischer) Linkfunktionen. Der ML Schätzer β̂ M L,n wird berechnet als Nullstelle des Score-Vektors: sn (β̂ M L,n ) = 0 Beachte, dass diese Gleichung ebenfalls nicht von ϕ abhängt. Newton-Verfahren Sei β k eine Näherung an β̂ M L,n . Dann setzte β k+1 = β k − (Hn (β k ))−1 sn (β k ) (ϕ fällt wieder heraus!), und erhalte β k+1 als neue Näherung. Im Allgemeinen hängt die Hessische Matrix Hn von den Daten Yi ab, daher benutzt man häufig den Erwartungswert EHn = −Fn . Dies ergibt die Fisher-Scoring Methode. Fisher-Scoring-Methode β k+1 = β k + (Fn (β k ))−1 sn (β k ) (46) Beachte: Bei kanonischer Linkfunktion sind Newton-Verfahren und Fisher-Scoring Methode identisch. Man kann (46) auch umschreiben in Form eines (iterativen) gewichteten kleinste Quadrate Schätzers. Es ist n X (u′ (xTi β))2 xi xTi b′′ (u(xTi β)) F (β, ϕ) = ϕ i=1 5.4 Modelldiagnostik 83 Mit u = (g ◦ µ)−1 , (g ◦ µ)′ = g ′ ◦ µ · µ′ , µ′ = b′′ (da µ = b′ ) und µ ◦ u = g folgt u′ = g′ 1 , ◦ µ ◦ u · b′′ ◦ u also Fn (β k , ϕ) = n X u′ (xTi β k ) x xT = X T Wk X, ′ (g(xT β )) i i g i k i=1 u′ (xT β ) u′ (xTn β k ) 1 k . Wk = diag ′ , . . . , g ′ (g(xTn β k )) g (g(xT1 β k )) Analog erhält man n X u′ (xTi β k ) ′ T x · Y − b (u(x β )) · g ′ (g(xTi β k )) = X T Wk Z. sn (β k , ϕ) = i i i k ′ (g(xT β )) g i k | {z } i=1 =:Zi Somit schreibe (46) als X T Wk Xβ k+1 = X T Wk Xβ k + X T Wk Z = X T Wk (Xβ k + Z) {z } | =:V und β k+1 = (X T W X)−1 X T Wk V. Analogie zu gewichteten kleinsten Quadraten: Response V, Kovariablen X, Gewichte Wk . Da die Gewichte (und auch die responses) vom Iterationsschritt k abhängen, spricht man vom IWLS-Algorithmus (iterated weighted least squares). relevante R Befehle Die Funktion glm passt verallgemeinerte lineare Modelle an. Dabei wird die DEF über family eingestellt, dort kann auch noch die Linkfunktion geändert werden. Die Standardfehler der Schätzer erhält man mit dem Befehl summary. 5.4 Modelldiagnostik Deviance. Die Deviance dient zum Vergleich des angepassten Modells mit dem sogenannten saturierten Modell, bei dem für jede Beobachtung Yi ein Parameter geschätzt wird, insgesamt also n Parameter. Log-Likelihood: Ln (ϑ1 , . . . , ϑn , ϕ) = n X Yi ϑi − b(ϑi ) i=1 ϕ − c(Yi , ϕ) Falls jedes ϑi freier Parameter ist, erhält man im saturierten Modell Yi = b′ (ϑ̃i ) = µ̃i und ϑ̃i = µ−1 (Yi ). Setze für das geschätzte GLM ϑ̂i = u(xTi β̂ M L ). Dann ist die LR-Statistik gegen das saturierte Modell (ϑ̃ = (ϑ̃1 , . . . , ϑ̃n ), ϑ̂ = (ϑ̂1 , . . . , ϑ̂n )): n X Dev(ϑ̃, ϑ̂) Yi (ϑ̃i − ϑ̂i ) − b(ϑ̃i ) + b(ϑ̂i ) = 2 Ln (ϑ̃, ϕ) − Ln (ϑ̂, ϕ) = 2 ϕ ϕ i=1 84 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS) Die Deviance ist nun definiert durch Dev = 2 n X i=1 Yi (ϑ̃i − ϑ̂i ) − b(ϑ̃i ) + b(ϑ̂i ) , die Deviance ist nach Definition unabhängig von ϕ. Häufig approximiert man die Verteilung von Dev(ϑ̃, ϑ̂) durch ϕ · χ2n−p , wobei p die Dimension des geschätzten Parameters β bezeichnet. Wie aber bereits aus der logistischen Regresion bekannt, gilt dies nur eingeschränkt, insbesondere nicht für n → ∞. Die Deviance kann auch benutzt werden zum Vergleich zweier ineinander geschachtelter Modelle. Der resultierende Test heißt auch partial deviance test. Modelle M1 : Kovariable xi,1 ∈ Rq (kleines Modell) M2 : Kovariable (xTi,1 , xTi,2 )T ∈ Rp (großes Modell) Dann gilt d M2 2 1 Dev(ϑ̃, ϑ̂M M L ) − Dev(ϑ̃, ϑ̂M L ) → ϕχp−q (n → ∞) falls das kleinere Teilmodell M1 korrekt ist. Der partia Deviance test ist also einfach der LQT von M2 gegen M1 . Falls ϕ nicht bekannt ist, wird dies geschätzt und die Statistik reskaliert. relevante R Befehle Der partial deviance test kann mit anova ausgeführt werden. Residuenanalyse Wie bei der linearen Regression ist ein wichtiges Mittel zur Modellüberprüfung bei GLMs die Residuenanalyse. Ziele sind dabei insbesondere das Erkennen a. von Ausreißern b. von nichtlinearen Effekten und fehlenden Kovariablen sowie c. die Konstruktion von Goodness-of-Fit Statistiken. Residuen sollen bei Gültigkeit des Modells approximativ normalverteilt sein. Bei GLMs bedeutet dies, dass bei der Verwendung von Residuen mit besonderer Sorgfalt vorgegangen werden muss. Wir betrachten zur Illustration im Folgenden nochmals das logistische Regressionsmodell (hier mit LogistR bezeichnet. Hier ist Residuenanalyse nur sinnvoll für große Wiederholungszahlen ni . Setzte T ′ µ̂i = b (ϑ̂i ) = b ′ (u(xTi β̂ M L,n )), bei LogistR µ̂i = ni p̂i , p̂i = exi β̂M L,n T 1 + exi β̂M L,n . Rohe Residuen (Raw residuals) ri = Yi − µ̂i bei LogistR ri = Yi − ni p̂i . Diese sind ungeeignet für Residuenanalyse (außer im linearen Regressionsmodell), da die Varianz von Yi und somit von ri von µi abhängt. Somit haben die ri keine approximativ konstante Varianz. 5.4 Modelldiagnostik 85 Pearsonsche Resduen Yi − µ̂i riP = q , T ′′ b (u(xi β̂ M L,n )) riP = bei LogistR Yi − ni p̂i 1 (ni p̂i (1 − p̂i )) 2 . Diese sind grundsätzlich geeignet für die Residuenanalyse. Allerdings sind sie häufig finit nicht gut approximativ normalverteilt, sonder schief verteilt. (Etwa für LogistR: Nur benutzen für große ni , insbesondere nicht benutzbar für ni = 1.) Transformierte Residuen riT = T (Yi ) − Eϑ̂i T (Yi ) 1 (Varϑ̂i T (Yi )) 2 , wobei T eine geeignete Transformation bezeichnet. Falls die asymptotische Schiefe korrigiert werden soll, wird die sogenannte Anscombe Transformation verwendet, welches zu Anscombe Residuen führt. Falls die asymptotische Varianz konstant gemacht werden soll (d.h. unabhängig von ϑ), wähle T als varianz-stabilisierende Transformation und erhalte varianz-stabilisierende Residuen. Die Transformation T muss also in Abhängigkeit der speziellen DEF gewählt werden. Für LogistR Varianz-stabilisierende Residuen: p √ (arcsin( Yi /ni ) − arcsin(p̂i )) · 2 ni , hier ist T die Arcsin-Transformation. Anscombe: T ( nYii ) − T (p̂i ) √ 1 6 ni , T (z) = (p̂i (1 − p̂i )) Für T sind numerische Aprooximationen verfügbar. Z 0 z 1 (t(1 − t))− 3 dt. Deviance-Residuum: wobei 1 riD = sign(ϑ̃i − ϑ̂i ) · 2 Yi (ϑ̃i − ϑ̂i ) − b(ϑ̃i ) + b(ϑ̂i ) Big) 2 1, x > 0 0, x = 0 sign(x) = −1, x < 0 Die Deviance Residuen sind also Wurzeln aus Beitrag der i-ten Beobachtung zur Deviance. Für LogistR: µ̂i = ni p̂i , dann ni − Yi 12 riD = sign(Yi /ni − p̂i ) 2(Yi log(Yi /µ̂i ) + (ni − Yi ) log . ) ni − µ̂i Im Allgemeinen wird die Benutzung der Deviance Residune empfohlen, die ähnliche Eigenschaften zu den Anscombe Residuen haben (vgl Pierce and Schafer 1986, Journal of the American Statistical Society Vol. 81). relevante R Befehle Mit dem Befehl residuals können die Residuen aus einem von glm erzeugten Objekt gelesen werden. Möglich sind die Optionen type="deviance" und type="pearson". 86 5.5 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS) Poisson-Regression Falls die Zielvariable Yi eine Zählvariable ist, also Werte in N0 hat, ist das Standard Regressionsmodell die Poisson-Regression. Ein typisches Beispiel ist die Modellierung der Anzahl von Verischerungsschäden von Versicherungsnehmern mit bestimmten Kovariablen Ausprägungen. Modell µi = λi (Yi , xi )i=1,...,n , Yi ∼ Poi(λi ) Dispersionsexponentialfamilie mit b(ϑi ) = exp(ϑi ) = Für die Linkfunktion g gilt g(µi ) = xTi β, also g(eϑi ) = xTi β. Mit u = (g ◦ exp)−1 gilt ϑi = u(xTi β) und u = id falls g = log, die kanonische Linkfunktion. Setze λi = λi (β) = exp(u(xTi β)). Y Q λ i Likelihood: Ln (β) = ni=1 e−λi Yii ! . P Log-Likelihood: Ln (β) = ni=1 (−λi + Yi log λi ) + const. P Score: sn (β) = ni=1 u′ (xTi β) · xi (Yi − λi ). P Fisher-Information: Fn (β) = ni=1 (u′ (xTi β))2 xi xTi · λi . Deviance: Im saturierten Modell schätze λi durch Yi . Setze weiter λ̂i = λi (β̂ M L,n ), β̂ M L,n Maximum-Likelihood-Schätzer. Dann Dev = 2 n X i=1 Pearsonsche χ2 -Statistik. T = Pn i=1 Yi log(Yi /λ̂i ) − Yi + λ̂i (Yi −λ̂i )2 . λ̂i In der Tat gilt im Poisson-Regressionsmodell Var Yi = λi , also deutet großer Wert von T bzw. von D auf Überdispersion hin. Residuen Pearson Residuen: p riP = (Yi − λ̂i )/ λ̂i . 1 1 Varianzstabilisierende Residuen: riT = 2 Yi 2 − λ̂i2 . 2 2 1 Anscombe Residuen: riT = Yi 3 − λ̂i3 λ̂i6 · 32 . Deviance-Residuum: 1 riD = sign(Yi − λ̂i )(Yi log Yi − (Yi − λ̂i )) 2 . λ̂i relevante R Befehle In glm die Option family = poisson wählen. Als Linkfunktion kann man neben dem Log-Link (default) wählen link="identity" oder link="sqrt". Modellerweiterung Das Poisson Regressionsmodell kann erweitert werden auf den Fall, wenn die Anzahl der Ereignisse bei bestimmten Kovariablenausprägungen in unterschiedlichen Zeiträumen beobachtet wird. Sei also Yi die Anzahl der Ereignisse bei Kovariablen xi im Zeitraum ti , es werden also (Yi , xi , ti ) beobachtet. Als Beispiel sei Yi die Anzahl der Schäden eines Versicherungsnehmers mit Charakteristiken xi im Zeitraum ti . Das Modell lautet dann Yi ∼ Poi ti · exp(u(xTi β)) , 5.5 Poisson-Regression 87 der Parameter λi = EYi , ist also proportional zum Zeitraum ti . Somit hat man λi = log(ti ) + u(xTi β). (47) Der additive Term log ti heißt dann offset im Modell. Maximum-Likelihood Schätzugn und Residuenanalyse erfolgen ganz analog zum gewöhnlichen Poisson Regressionsmodell, man muss nur λi durch (47) spezifizieren. relevante R Befehle Man setzt als Option in glm für offset gleich log(ti ). Modellierung von Überdispersion Man spricht von Überdispersion gegenüber dem Poisson-GLM, falls Var Yi > EYi . Dies kann erkannt werden durch große Deviance oder Pearsonsche χ2 -Statistik, falls also Dev oder T erheblich größer als n − p sind. Eine Modellierung kann wie bei der logistischen Regression über Quasilikelihood oder auch über latente Variablen erfolgen. Wir stellen im Folgenden ein latentes Variablenmodell mit Gamma-verteilten λs vor, welches zum negativ binomial verteilten Regressionsmodell führt. Sei Zi eine latente (nicht beobachtete) Variable, so dass Yi |Zi ∼ Poi(Zi ), EZi = λi . Dann gilt: EYi = EZ (E(Yi |Zi )) = EZ (Zi ) = λi , Var Yi = VarZ (E(Yi |Zi )) + EZi (Var(Yi |Zi )) = VarZ (Zi ) + EZ (Zi ) = λi + Var Zi > λi , falls Var Zi > 0. Durch spezielle Wahl von Zi bekommt man unterschiedliche Überdispersionsstrukturen. Sei nun speziell Zi Gamma-verteilt mit Dichte f (z; r, s) = Dann EZi = ri si 1 r r−1 s z exp(−zs) Γ(r) (r, s > 0, z > 0). = λi . Für die Varianz kann man zwei Parametrisierungen wählen: Modell 1: Var Zi = ri s2i = λ2i · ϕ, also ϕ = Modell 2: Var Zi = λi · ϕ, ϕ = 1 ri . 1 si . Dies ergibt in der Tat zwei unterschiedliche Modelle, da auf λi (β) = exp u(xTi β) Regression gemacht wird, aber auf ϕ nicht. Das Modell 1 mit Var Zi = λ2i ϕ (ϕ = r1i ) führt zu Var Yi = λi + λ2i ϕ, die Varianz ist also eine quadratische Funktion des Erwartungswerts. 88 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS) Das Modell 2 mit Var Zi = λi ϕ (ϕ = 1 si ) führt dagegen zu Var Yi = λi (1 + ϕ) dies ist dieselbe Varianzstruktur wie bei Quasipoisson (s. Abschnitt 5.7). Man verwendet daher in diesem Kontext Modell 1 (statt Modell 2 wird Quasipoisson gewählt). Zum Schätzen der Parameter berechnet man die marginale, also unbedingte Verteilung von Yi : Z ∞ f (y, Y |Z = z) · fZ (z)dz P (Y = y) = 0 Z ∞ z y 1 r r−1 e−z = s z exp(−zs)dz y! Γ(r) 0 Z ∞ sr 1 = e−w wy+r−1 dw y!Γ(r) (s + 1)r+y 0 Γ(y + r) s r 1 y = y!Γ(r) s + 1 s+1 R∞ wobei Γ(a) = 0 e−t ta−1 dt die Gamma Funktion bezeichnet. Im Modell 1 erhalte also: P (Yi = y) = Γ(y + ϕ1 ) y!Γ( ϕ1 ) 1 ϕ1 λi ϕ y λi ϕ + 1 1 + λi ϕ (48) wobei λi = λi (β) = exp(u(xTi β)) (bei kanonischem Link u = id). Dies ist das negative binomiale Regressionsmodell. Zur Parameterschätzung bilde nun mit Hilfe von (48) die LogLikelihood-Funktion und maximiere über (β, ϕ). relevante R Befehle Die library aod enhält die Funktion negbin, und die library MASS die Funktion glm.nb, beide passen ein negativ-binomiales Regressionsmodell an. Bei negbin kann man auch auf den Parameter ϕ Regression machen, das obige Modell erhält man durch random~1. Es stehen summary und anova.negbin Methoden zur Verfügung. 5.6 Gamma-Regression Wir erinnern kurz an die Darstellung der Gamma-Verteilung als DEF. Die Dichte bzgl. des Lebesgue Maßes auf (0, ∞) für Parameter r, λ > 0 ist gegeben durch 1 r r−1 −λy λ y e Γ(r) λ λ = exp r − y + log( ) + r log r − log Γ(r) + (r − 1) log y r r f (y; r, λ) = also ϑ = − λr , ϕ = r−1 , b(ϑ) = − log(−ϑ). Der Erwartungswert b′ (ϑ) = − ϑ1 = λr =: µ > 0 2 ist dabei stets positiv, und die Varianzfunktion lautet b′′ (ϑ) = ϑ12 = λr 2 , also Var Y = λr2 = µ2 · ϕ. Die kanonische Linkfunktion ist g(µ) = − µ1 (also − xT1 β = µi ). Hier ist Positivität i 5.6 Gamma-Regression 89 des Erwartungswertes nur unter Einschränkungen an β gegeben, die kanonische Linkfunktion wird daher selten verwendet. Häufig benutzt man den log-Link: g(µ) = log µ. Falls über den Erwartungswert parametrisiert wird, gilt für die Log-Likelihood von Y : (− µy − log µ) l(y; µ, ϕ) = ϕ + c(y, ϕ) Somit erhält man im Gamma GLM: Log-Likelihood-Funktion: Ln (β, ϕ) = Score: sn (β, ϕ) = 1 ϕ Pn µ′i (xT i β) i=1 (µi (xT β))2 xi i Fisher-Information: Fn (β, ϕ) = Deviance: Residuen Pearson Residuen: Deviance Residuen: T = T n−p . riP = Pn i=1 − Yi µi (xT i β) Yi − µ(xTi β) . i=1 µ̂i i=1 Schätzen von ϕ: ϕ̂ = Pn i=1 n X Yi − µ̂i Dev = 2 Pearsonsche χ2 -Statistik: 1 ϕ Pn − log µi (xTi β) + c(y, ϕ). 2 (µ′i (xT i β)) xi xTi . µ2i (xT β) i − log( (Yi −µ̂i )2 . µ̂2i Yi ) , µ̂i µ̂i = µ(xTi β̂ M L ). Yi −µ̂i µ̂i . 1 i riD = sign(Yi − µ̂i )( Yiµ̂−µ̂ − log( µ̂Yii )) 2 . i relevante R Befehle Option family=gamma bei glm. Default ist der inverse Link, daher muss noch family=gamma(link="log") gesetzt werden. Wann wird Gamma-Regression verwendet? Gamma Regression wird allgemein bei positiven Zielgröße Yi eingesetzt. Wir betrachten im Folgenden das multiplikative Modell Yi = exp xTi β (1 + εi ), εi > −1. (49) Dann ist EYi = exp xTi β , also εi = Yi − EYi . EYi Damit Var εi = σ 2 konstant ist, muss gelten: Var Yi /(EYi )2 = σ 2 = const. Also benötigt man für Yi eine Verteilung mit konstantem Variationskoeffizienten Var Yi /(EYi )2 , bzw. EYi = µi , Var Yi = σ 2 µ2i (50) 90 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS) Eine solche Verteilung ist die Gamma-Verteilung. Angenommen, Yi habe die Erwartungswert- und Varianzstruktur (50). Setze Zi = log(Yi ). Es gilt approximativ: Zi ≈ log(µi ) + 1 1 (Yi − µi ) − 2 (Yi − µi )2 µi 2µi In heuristischer Argumentation bilde nun den Erwartungswert: EZi ≈ log µi − 1 2 2 σ2 σ µi ≈ log µi − 2µi 2 Aus (49) ergibt sich natürlich auch ein lineares Modell auf der log-Skala: log Yi = xTi β + ε′i , wobei Eε′i = E(log(1 + ε′i = log(1 + εi ), Yi − EYi σ2 )) = E(log Yi ) − log EYi ≈ − . EYi 2 2 Somit ergibt sich im linearen Modell ein Schätzwert von β 0 − σ2 für den Achsenabschnitt. Man kann zeigen, dass Var ε′i ≈ σ 2 , also könnte man lineares Modell auf log-Skala verwenden, und die Schätzung für den Koeffizienten des Achsenabschnitts entsprechend korrigieren. Jedoch ist es häufig besser, auf der ursprünglichen Skala mit Gamma-Regression und log-Link zu arbeiten. Gamma-Regression mit Gewichten Angenommen, für die Kovariablenausprägung xi wird eine Gesamtschadenshöhe Yi , die sich aus ni Schäden zusammensetzt, beobachtet. Es liegen als unabhängige Daten (Yi , xi , ni ), i = 1, . . . , n, vor. Wir interessieren uns nun für die Durchschnittsschadenhöhe: Yia = Yi /ni . Angenommen, der Gesamtschaden Yi setzt sich als Summe der ni unabhängigen identisch verteilten (für gleiches xi ) Einzelschäden zusammen, also für PYij : Höhe des j-ten Schadens in Gruppe i haben wir Yij , j = 1, . . . , ni sind u.i.v., und Yi = j Yij . Falls Yij ∼ Gamma(µi , ϕ), also EYij = µi , Var Yij = µ2i · ϕ, Yij unabhängig, j = 1, . . . , ni , dann gilt Yi ∼ Gamma(ni µi , ni ϕ), Yia ∼ Gamma(µi , ϕ/ni ). Dies ist im ML-Ansatz zu berücksichtigen. Man muss maximieren Ln (β) = Schätzer von ϕ: n X i=1 ni − Yi T − log µ (x β) . i i µi (xTi β) n 1 X (Yi − µ̂i )2 ϕ̂ = ni n−p µ̂2i i=1 5.7 Quasi-Likelihood relevante R Befehle Setzte im glm Aufruf die Option weights gleich den ni . Residuen Pearsonsche Residuen: Deviance Residuen: 5.7 91 riP = riD = √ √ i ni Yiµ̂−µ̂ . i 1 2 Yi i − log( ) ni sign(Yi − µ̂i ) Yiµ̂−µ̂ . µ̂i i Quasi-Likelihood Motivation Bei einigen DEFs, insbesondere den für Anwendungen wichtigen Familien der Binomialverteilung sowie der Poissonverteilung, ist keine zusätzliche Modellierung der Dispersionsstruktur über den Parameter ϕ möglich. Man möchte daher diese Familien gerne erweitern. Es stellt sich aber heraus, dass eine explizite Konstruktion solcher Verteilungen (mit den gleichen diskreten Werten wie die entsprechenden Binomial - und Poissonverteilungen) innerhalb der Klasse der DEFs nicht möglich ist (Jorgensen 1987, JRSSB). Angenommen, Yi sei verteilt nach einer DEF, also Yi ∼ exp so dass ϑ y − b(ϑ ) i i + c(y, ϕ) , ϕ EYi = b′ (ϑi ) = µi , Var Yi = b′′ (ϑi ) · ϕ =: V (µi ) · ϕ. wobei V = b′′ ◦ (b′ )−1 , und ϕ den (möglicher Weise konstanten) Dispersionsparameter bezeichnet. Auf µi wird typischer Weise Regression gemacht, also µi = µ(β, xi ) (bei GLMs: g(µi ) = xTi β). (51) Im obigen Modell hängt also die Varianzstruktur nur vom Erwartungswert und von ϕ ab. Bei einigen Exponentialfamilien, insbesondere Poisson-Verteilung und Binomialverteilung, ist ϕ = 1 konstant, es ist somit keine zusätzliche Modellierung der Dispersionsstruktur möglich. Ziel Ohne explizite Konstruktion einer Wahrscheinlichkeitsverteilung (Likelihood) und nur unter Benutzung der Momentengleichungen EYi = µi , Var Yi = ϕV (µi ) (52) sollen die Parameter (β, ϕ) mit variablen ϕ geschätzt werden. Dabei wird µi durch Regression wie in (51) bestimmt. Definition 5.13 Für eine Zufallsvariable Y mit der Momentenstruktur (3) heißt eine Funktion l(y, µ) mit y−µ ∂l (y, µ) = ∂µ V (µ) eine Quasi-Likelihood Funktion. (53) 92 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS) Es ist dann also l(y, µ) = Z µ y−t dt + A(y) V (t) Lemma 5.14 Unter geeigneten Differenzierbarkeitsbedingungen gilt für Quasi-Likelihood Funktionen (µi durch Regression wie in (51)) a. b. c. d. ∂l (Yi , µi )) = 0 ∂µ ∂l (Yi , µi )) = 0 E( ∂β j E( ∂2l 1 ∂l (Yi , µi ))2 ) = −E( 2 (Yi , µi )) = ∂µ ∂ µ V (µi ) 2 ∂l ∂l ∂ l 1 ∂µi ∂µi E( (Yi , µi ) (Yi , µi )) = −E( (Yi , µi )) = ∂β j ∂β k ∂β j ∂β k V (µi ) ∂β j ∂β k E(( Die erhält man durch einfache Rechnungen mit der definierenden Gleichung (53). Somit hat die Ableitung einer Quasi-Likelihood hat Eigenschaften wie der Score-Vektor in GLMs. Quasi-ML-Schätzung Für unabhäbgige Beobachtungen (Y1 , x1 ), . . . , (Yn , xn ) sei nun β̂ QM L ein argmax von n X i=1 bzw. Nullstelle von sn (β) = Mit l(Yi , µ(xTi β)) = Ln (β), n X Yi − µ(xTi β) ∂ · µ(xTi β). T β) ∂β V µ(x i i=1 Fn (β) = Cov sn (β) = ϕ n X 1 ∂ ∂ µi (xTi β) T µi (xTi β) T V (µi (xi β)) ∂β j ∂β i=1 gilt unter geeigneten Bedingungen: 1 d [Fn (β)]− 2 sn (β) → N (0, ϕ), 1 d [Fn (β)] 2 (β̂ QM L − β) → N (0, ϕ). Der Dispersionsparameter ϕ wird geschätzt durch ϕ̂ = n 1 X (Yi − µi (xTi β̂ QM L ))2 n−p V (µi (xTi β̂ QM L )) i=1 wobei p die Dimension von β bezeichnet. Für das Testen linearer Hypothesen Aβ = m, A ∈ Rq×p , m ∈ Rq , gelten Analoga zu LQT: R qlq = 2(Ln (β̂ QM L ) − Ln (β̂ QM L )) · 1 L 2 → χp−q ϕ̂ 5.7 Quasi-Likelihood 93 R wobei β̂ QM L Quasi-ML-Schätzer unter der lineare Hypothese H ist, sowie Analoga zum WaldTest: 1 L qW = (Aβ̂ QM L − m)T (A(F (β̂ QM L ))−1 AT )−1 (Aβ̂ QM L − m) → χ2p−q ϕ̂ Beispiel 5.15 a. Quasi-Binomiale Regression. Die Ausgangssituation ist ähnlich wie bei der logistischen Regression. Es liegen also ganzzahlige Daten Yi mit Werten zwischen 0 und ni vor. Man setzt dann V (µi ) = µi (1 − µi /ni ), wobei µi durch Regression wie in (51) (gegebenenfalls mit logistischer Linkfuntion) gegeben ist. Man erhält dann die gleichen Schätzwerte für β wie mit gewöhnlicher logistischer Regression, aber durch Einbeziehung von ϕ ändern sich die Standardfehler, d.h. Überdispersion wird berücksichtigt. b. Quasi-Poisson Regression. Ähnlich verhält es sich mit Poisson Regression, hier setzt man V (µi ) = µi in obigem Ansatz. c. Nichtlineare kleinste Quadrate. Auch die nichtlineare kleinste Quadrate Schätzung im nichtlinearen Regressionsmodell (beachte die allgemeine Form von µ(xi , β) in (51)) kann mit Quasi-likelihood behandelt werden, man setzt V (µ) = σ 2 = const. relevante R Befehle Im glm Aufruf setzte family=quasibinomial oder family=quasipoisson. 94 6 6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION Kategorielle Daten und kategorielle Regression In diesem Abschnitt betrachten wir kategorielle Daten. MEHR TEXT. 6.1 Fishers exakter Test auf Homogenität Fishers exakter Test auf Homogenität dient dazu, die Erfolgswahrscheinlichkeiten zweier unabhängiger binomialverteilter Zufallsvariablen miteinander zu vergleichen. Hat man etwa zwei Patientengruppen, bei denen eine bestimmte Krankheit mit Medikament A in Gruppe 1 und Medikament B in Gruppe 2 behandelt wird, und jeweils untersucht wird, ob der Patient geheilt wurde, so kann man die Erfolgswahrscheinlichkeiten für Heilung durch Medikament A mit der von Medikament B vergleichen. Gegeben seien also X ∼ B(n, pX ), Y ∼ B(m, pY ), wobei X, Y unabhängig sind. Werden X = x, Y = y beobachtet, dann fasst man diese Ergebnisse in einer 4-Felder-Tafel (2 ×2 Kontingenztafel) zusammen: 0 1 X Y P =n+m−x−y n−x m−y P =x+y x y P P P =n =m =n+m Die Hypothese der Homogenität lautet H : pX = pY = p. Unter H gilt P (X = x, Y = y|X + Y = x + y) = = y m−y px (1 − p)n−x m y p (1 − p) n+m x+y (1 − p)n+m−x−y x+y p n m n x x y n+m x+y . (54) Dies ist die Verteilung der hypergeometrischen Verteilung H(x + y, n, m). Erinnerung: Angenommen, es werden aus einer Urne mit n roten und m schwarzen Kugeln x + y Kugeln gezogen, und N bezeichne die Zahl der roten gezogenen Kugeln, also 0 ≤ N ≤ min{n, x + y}). Dann ist N ∼ H(x + y, n, m) hypergeometrisch verteilt, also P (N = k) = n k m x+y−k n+m x+y (k = 0, . . . , min{n, x + y}). Bei extremen Beobachtungen von x bzw. y gemäß der Verteilung (54) wird man die Hypothese H verwerfen. Dies geschieht etwa, falls der P-Wert kleiner als das gewünschte Niveau α > 0 ist. 6.2 Der χ2 -Test auf Homogenität 95 Berechnung der P-Werte Für die einseitige Alternative K : pX > pY : min{n,x+y} X PW = P (N = k) k=x Für die zweiseitige Alternative K : pX 6= pY : y Man schätzt zunächst p̂X = nx und p̂Y = m . Ist etwa p̂X > p̂Y , so bilde min{n,x+y} P̃ = X P (N = k) k=x und imax = max{i : i X k=0 Dann: P W = P̃ + P (N = k) < P̃ } iX max P (N = k). k=0 Für p̂X < p̂Y verfahre analog. Bemerkung: Fishers Test ist ein bedingter Test, bei dem die Verteilung (54) der Teststatistik X = x bedingt auf die Beobachtungen X + Y = x + y berechnet wird. Somit hängt der Verwerfungsbereich zu einem Niveau α > 0 von x + y ab. relevante R Befehle Die Funktion fisher.test führt Fisher’s exakten Test durch. Als Argument wird die 2 × 2 Kontingenztafel übergeben. Auf die hypergeometrische Verteilung kann mit dhyper (Dichte bzgl. Zählmaß), phyper (Verteilungsfunktion), qhyper (Quantile) und rhyper (Zufallszahlen) zugegriffen werden. 6.2 Der χ2 -Test auf Homogenität Wir erinnern zunächst an die Multinomialverteilung. Angenommen, als Ergebnis eines Versuchs sei genau eines P von I verschiedenen Ereignissen A1 , . . . , AI möglich mit Wahrscheinlichkeiten π1 , . . . , πI ( πi = 1, πi > 0, i = 1, . . . , I). Wird dieser P Versuch n-mal durchgeführt, so ist die Wahrscheinlichkeit für n1 mal A1 , . . ., nI mal AI ( ni = n) gegeben durch n π n1 · . . . · πInI , P (N1 = n1 , . . . , NI = nI ) = n1 , . . . , nI 1 wobei Ni die Zufallsvariable bezeichnet, die die Anzahl der Ereignisse Ai zählt und n n! = n1 , . . . , nI n1 ! · . . . · nI ! 96 6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION den Multinomialkoeffizient ist. Bezeichnung: N = (N1 , . . . , NI ) ∼ M (n, π), π = (π1 , . . . , πI )T . Es ist (nachrechnen!) Cov N = n diag(π1 , . . . , πI ) − ππ T . EN = nπ, Die Matrix Cov N ist degeneriert (der Vektor 1I = (1, . . . , 1)T ∈ RI ist Eigenvektor zum Eigenwert 0). Dies ist nicht verwunderlich, da sich ja NI = n−N1 −. . .−NI−1 deterministisch aus den anderen Beobachtungen berechnen lässt. Um im Folgenden das Auftreten degenerierter Normalverteilungen zu verhindern, betrachten wir nur die ersten I − 1 Einträge von N. Setze π̃ = (π1 , . . . , πI−1 )T , Σ = diag(π1 , . . . , πI−1 ) − π̃π̃ T (dies ist die obere (I − 1) × (I − 1) Teilmatrix von Cov N und hat vollen Rang I − 1, Beweis!), und π̂i = Ni /n, π̂ = (π̂1 , . . . , π̂I−1 ). Da N gleich der Summe von n unabhängigen, M (1, π)-verteilten Zufallsvektoren ist, gilt nach dem multivariaten ZGWS √ d n(π̂ − π̃) → N (0, Σ) (55) Dies dient als Grundlage für einen χ2 -Test für die einfache Hypothese X H : π = p für festes p = (p1 , . . . , pI )T , pi > 0, pi = 1. i Als Teststatistik verwendet man Xn2 = I X (Ni − n · pi )2 npi i=1 =n· I X 1 (π̂i − pi )2 , pi i=1 diese heißt auch Pearsonsche χ2 -Statistik. Satz 6.1 d Unter H gilt Xn2 → χ2I−1 für n → ∞. Beweis Wir können schreiben Xn2 = ZTn AZn , Zn = √ wobei A = diag(1/p1 , . . . 1/pI−1 ) + n π̂ − (p1 , . . . , pI−1 )T , 1 1I−1 1TI−1 ∈ R(I−1)×(I−1) . pI Die Matrix A ist (als Summe einer positiv definiten und einer positiv semidefiniten Matrix) positiv definit. Mit (55) und dem Stetigkeitssatz für schwache Konvergenz folgt d Xn2 → ZT AZ, Z ∼ N (0, Σ). Um die Verteilung von ZT AZ zu berechnen, möchten wir Satz 1.9 anwenden, und müssen dazu noch zeigen: (ΣA)2 = ΣA. Eine direkt Rechnung liefert ΣA = II−1 , die (I − 1)-dimensionale Einheitsmatrix. Somit folgt die Behauptung. 6.3 Fishers exakter Test auf Unabhängigkeit 97 Allgemeine 2d-Kontingenztafeln Seien nun X1 , . . . , XJ unabhängig multinomial verteilt, mit I gleichen möglichen Ausgängen, Xj ∼ M (n·j , π j ), j = 1, . . . , J, π j = (π1j , . . . , πIj )T . Ist für Xj der Vektor (n1j , . . . , nIj ) beobachtet, so ordnen wir diese in einer I × J Kontingenztafel an: Vektoren P 1 2 ··· j ··· J 1 n11 n12 n1j n1J n1· 2 n21 n22 n2j n2J n2· .. . Kategorien i ni1 ni2 nij niJ ni· .. . I nI1 nI2 P n·1 n·2 nIj n·j nIJ n·J nI· n·· Wir möchten nun die Hypothese der Homogenität testen Hhom : π 1 = . . . = π J =: p. Unter Hhom bezeichnet also p = (p1 , . . . , pI )T den gemeinsamen (unbekannten) Wahrscheinn lichkeitsvektor. Man schätzt π̂ij = nij sowie unter Hhom p̂i = nni··· . Bilde nun die χ2 -Statistik ·j I J I J X X (nij − n·j · p̂i )2 X X (π̂ij − p̂i )2 n·j = X = n·j · p̂i p̂i 2 j=1 i=1 j=1 i=1 Satz 6.2 Unter Hhom und für pi > 0, i = 1, . . . , I gilt für n·j → ∞, j = 1, . . . , J d X 2 → χ2(I−1)(J−1) . Für einen Beweis siehe Shao (2003, p. 439). Bemerkung Man kann natürlich auch nur die Homogenität in einzelnen Kategorien testen, indem man die übrigen Kategorien zu einer neuen Kategorie zusammen fasst. relevante R Befehle Der χ2 Test kann mit chisq.test durchgeführt werden. Dabei können entweder zwei Stichproben verglichen werden, oder auch ein Sample mit gegebenen Zellwahrscheinlichkeiten (statt y übergebe in p die Zellwahrscheinlichkeiten). Für die Multinomialverteilung liefern rmultinom Zufallszahlen und dmultinom die Dichte. 6.3 Fishers exakter Test auf Unabhängigkeit Angenommen, an n Versuchseinheiten werden zwei Merkmale, ein X-Merkmal mit Ausprägungen A1 , A2 sowie ein Y-Merkmal mit Ausprägungen B1 , B2 beobachtet. Es soll nun unteruscht 98 6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION werden, ob X-Merkmal und Y-Merkmal unabhängig voneinander sind. Formal beobachten wir gepaarte Zufallsvariablen (X1 , Y1 ), . . . , (Xn , Yn ), die als Vektoren unabhängig und identisch verteilt sind. Die Xi und Yi haben Werte in {1, 2}, wobei Xi die Merkmalsausprägung des X-Merkmals für die i-te Versuchseinheit bestimmt, und Yi die Merkmalsausprägung des Y-Merkmals. Setzte nun Nij = n X 1i (Xl )1j (Yl ), i, j = 1, 2. l=1 Sind Nij = nij beobachtet, so fasst man diese in einer 2 × 2 Kontingenztafel zusammen. Y 1 2 1 n11 n12 n1· X . 2 n21 n22 n2· n·1 n·2 n·· Dem gegenüber steht die Tabelle der zugrundeliegenden Wahrscheinlichkeiten, Y 1 2 1 p11 p12 X 2 n21 n22 pY 1 − pY pX , 1 − pX pij = P (X1 = i, Y1 = j). Die Hypothese, dass die Merkmale X und Y unabhängig voneinander sind, lässt sich nun wie folgt formalisieren. H : Xi und Yi unabhängig, oder äquivalent H : p11 = pX pY . Wir betrachten nun die bedingte Wahrscheinlichkeit P (N11 = k |N1· = n1· , N·1 = n·1 ) P P P P ( ni=1 11 (Xi )11 (Yi ) = k, ni=1 11 (Xi ) = n1· , ni=1 11 (Yi ) = n·1 ) P P = P ( ni=1 11 (Xi ) = n1· , ni=1 11 (Yi ) = n·1 ) Unter H gilt wegen der Unabhängigkeit von Xi , Yi und da die Xi unabhängig und identisch verteilt sind: P n X 1A1 (Xi )1B1 (Yi ) = k, i=1 n·1 X =P i=1 n X 1A1 (Xi ) = n1· , i=1 1A1 (Xi ) = k, n X i=1 1A1 (Xi ) = n1· n X i=1 1B1 (Yi ) = n·1 n X · P( 1B1 (Yi ) = n·1 ) i=1 6.4 χ2 -Test auf Unabhängigkeit 99 Somit gilt unter H: P (N11 = k|N1· = n1· , N·1 = n·1 ) = = = = P P ·1 1A1 (Xi ) = k, ni=1 1A1 (Xi ) = n1· ) P ( ni=1 Pn P ( i=1 1A1 (Xi ) = n1· ) P Pn·1 P ( i=1 1A1 (Xi ) = k)P ( ni=n·1 +1 1A1 (Xi ) = n1· − k) P P ( ni=1 1A1 (Xi ) = n1· ) n·1 k n·1 −k n−n·1 pn1· −k (1 − p )n+k−n1· −n·1 p (1 − p ) X X X k nn1·1· −k X n n−n 1· n1· pX (1 − pX ) n·1 n−n·1 k n1· −k n n1· Also ist N11 , bedingt auf N1· = n1· , N·1 = n·1 , unter H hypergeometrisch H(n1· , n·1 , n − n·1 )verteilt, und man verwirft H bei extremen Ereignissen von N11 unter dieser Verteilung. Beachte, dass sich die gleiche Verteilung wie bei Fishers exaktem Test auf Homogenität ergibt. Der P-Wert in obigem Test ist dann auch einfach der zweiseitige P-Wert wie bei Fishers exaktem Test auf Homogenität. Bemerkung: Da die Merkmale X und Y symmetrisch sind, sollte dies auch für die Teststatistik gelten. Dies ist der Fall, da gilt. H(n1· , n·1 , n − n·1 ) = H(n·1 , n1· , n − n1· ). Somit ist auch in Fishers exaktem Test auf Homogenität die Anordnung egal, was dort inhaltlich weniger offensichtlich ist. relevante R Befehle Wie bei Fishers exaktem Test auf Homogenität kann die Funktion fisher.test verwendet werden. 6.4 χ2 -Test auf Unabhängigkeit Für mehr als zwei Merkmalsausprägungen kann man, analog zum χ2 Test auf Homogenität, einen χ2 Test auf Unabhängigkeit konstruieren. Angenommen, an n Versuchseinheiten werden zwei Merkmale, ein X-Merkmal mit Ausprägungen 1, . . . , I sowie ein Y-Merkmal mit Ausprägungen 1, . . . , J, beobachtet. Es soll wieder unteruscht werden, ob X-Merkmal und Y-Merkmal unabhängig voneinander sind. Beobachte Zk = (Xk , Yk ) unabhängig und identisch verteilt, Xk ∈ {1, . . . , I}, Yk ∈ {1, . . . , J}, Nij = n X k=1 1i (Xk )1j (Yk ), i = 1, . . . , I, j = 1, . . . , J. 100 6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION Für beobachtete Nij = nij bildet man wiederum die Kontingenztafel Y 1 2 ··· 1 n11 n12 2 n21 n22 X . .. .. .. . . I nI1 nI2 n·1 n·2 J n1J n2J .. . n1· n2· .. . nIJ n·J nI· n·· sowie die zugehörige Tafel der Wahrscheinlichkeiten Y 1 2 ··· 1 p11 p12 2 p21 p22 X . .. .. .. . . I pI1 pI2 p·1 p·2 J p1J p2J .. . pIJ p·J p1· p2· .. , . P (X1 = i, Y1 = j) = pij . pI· Man möchte nun die Hypothese testen H : Xk und Yk sind unabhängig (k = 1, . . . , n) oder äquivalent H : pij = pi· p·j , i = 1, . . . , I, j = 1, . . . , J. Setzte p̂ij = nij , n·· p̂i· = ni· , n·· p̂·j = n·j . n·· Zum Testen von H betrachtet man die Pearsonsche χ2 -Statistik I J I X J X (nij − n·j ni· /n)2 X X (p̂ij − p̂i· p̂·j )2 = . X = n·j ni· /n p̂·j p̂i· 2 i=1 j=1 i=1 j=1 Bemerkung: Dies ist formal dieselbe Statistik wie für den χ2 -Test auf Homogenität, bei dem man somit ebenfalls nicht auf die Anordnung in Zeilen und Spalten achten muss. Man kann zeigen (s. Shao 2003) Satz 6.3 Ist pij > 0, i = 1, . . . , I, j = 1, . . . , J, dann gilt unter der Hypothese H der Unabhängigkeit d X 2 → χ2(I−1)(J−1) für n → ∞. 6.5 McNemars Test für gepaarte Stichproben Bei gepaarten Stichproben, also der Situation, die bei Fishers exatem Test auf Unabhängigkeit vorliegt, kann man auch daran interessiert sein, ob die Randverteilungen gleich sind. Wird 6.5 McNemars Test für gepaarte Stichproben 101 etwa ein Merkmal X mit Ausprägungen 1, 2 zu aufeinanderfolgenden Zeitpunkten T = 1, 2 beobachtet, so kann man dara interessiert sein, ob die Wahrscheinlichkeitsverteilung für X zu beiden Zeitpunkten gleich ist (obwohl sie natrülich voneinander abhängen). Formal beobachten wir u.i.v. Zufallsvektoren X1 = (X11 , X12 ), . . . , Xn = (Xn1 , Xn2 ), wobei Xij ∈ {1, 2}, und bilden die Kontingenztafel Xi1 Xi2 1 2 1 n11 n12 n1· 2 n21 n22 n2· n·1 n·2 n sowie die Tafel der Wahrscheinlichkeiten Xi1 Xi2 1 2 1 p11 p12 p1· 2 p21 p22 p2· p·1 p·2 Hypothese: Die Randverteilungen zu beiden Zeitpunkten, also die Verteilungen von Xi1 und Xi2 , sind gleich, oder äquivalent H : p·1 = p1· welches sich zu H : p21 = p12 reduziert. Unter H gilt: P ((X11 , X12 ) = (1, 2)|(X11 , X12 ) ∈ {(1, 2), (2, 1)}) = Daher gilt für Nij = n X p12 H 1 = p21 + p12 2 1i (Xk1 )1j (Xk2 ), i, j = 1, 2 k=1 unter H die bedingte Wahrscheinlichkeitsverteilung N12 |N12 + N21 = n12 + n21 ∼ B(n12 + n21 , 1/2). Man verwirft nun die Hypothese H für extreme Werte von N12 unter dieser bedingten Wahrscheinlichkeitsverteilung. P-Werte P-Wert gegen einseitige Alternative K : p12 > p21 : n12 +n21 X n12 + n21 PW = 1/2n12 +n21 . n12 k=n12 Zweiseitig: Ist n12 ≥ n21 , so ist PW = 2 · n12 +n21 X k=n12 n12 + n21 1/2n12 +n21 n12 102 6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION ansonsten vertausche die Rollen. relevante R Befehle Die Funktion mcnemar.test führt den McNemar test aus, aber berechnet nur P-Werte basierend auf einer asymptotischen Approximation. Daher sollte man den exakten P-Wert direkt mit pbinom (der Verteilungsfunktion der Binomialverteilung) berechnen. 6.6 Ergänzungen In den Übungen: Mosaicplot (mosaicplot), Assoziationsplot (assocplot), die library vcd zur Visualisierung von kategoriellen Daten. Weitere Theorie: Bei 2 × k Kontingenztafeln: prop.test (äquivalent zum χ2 Test), auch multiples Testen mit pairwise.prop.test. Die Funktion binom.test zur Durchfühung eines exakten Tests für das p der Binomialverteilung, und zur Berechnung der Pearson Clopper Grenzen. Testen auf Binomialverteilung, negative Binomialverteilung und Poisson Verteilung mit dem χ2 Test für zusammengesetzte Hypothesen, Funktion goodfit der library vcd. 6.7 Kategorielle Regression Wir wenden uns nun wieder der Regression zu, wobei wir annehmen, dass die abhängige Zielvariable Y kategoriell mit I Kategorien ist. Für I = 2 führt uns dies zurück zur logistischen Regression. Im Folgenden liegen unabhängige Beobachtungen (Yk , xk ), k = 1, . . . , n, vor, wobei Yk1 πk1 I X .. .. Yk ∼ M (nk , πk ), Yk = . , π k = . , πki = 1. i=1 YkI πkI (56) und xk ∈ Rp geeignet kodierte Kovariablen und den Achsenabschnitt enthält. Man modelliert πki = πi (xk ) als Funktion der xi . Wegen (56) genügt es, πki = πi (xk ) zu spezifizieren und zu schätzen für i = 1, . . . , I − 1. Dann heißt Kategorie I Referenzkategorie. Mehrkategorielle Logit-Modelle Für nominale, also nicht geordnete Kategorien, werden häufig mehrkategorielle Logit-Modelle verwendet. Setze ηki = xTk β i , β i ∈ Rp , sowie πki = und für die Referenzkategorie: 1+ eηki PI−1 l=1 eηkl , i = 1, . . . , I − 1, πkI = 1 − πk1 − . . . − πk,(I−1) = 1+ 1 PI−1 l=1 (57) eηlk . 6.7 Kategorielle Regression 103 Erweiterung. Neben den kategorienspezifischen Parametern β i können globale Parameter γ (für alle Kategorien i = 1, . . . , I − 1 gleich) zugelassen werden. Dazu sei wk ein qdimensionaler Teilvektor von xk , γ ∈ Rq . Setze weiter ηki = xTk β i + wkT γ sowie πki wie in (57). Dann πki log = ηki , πkI und exp(ηki ) beschreibt das relative Risiko von Kategorie i zu Kategorie I. Interpretation. Mehrkategorielle Logit Modelle für I > 2 sind vorsichtig zu interpreteren. Insbesondere bedeutet ein positiv geschätzer Koeffizient β ir > 0 nicht unbedingt, dass ein Anstieg von der r-ten Komponenten der Kovariablen einen Anstieg von π·,i zur Folge hat, sondern nur einen Anstieg des relativen Risikos im Vergleich zu Referenzkategorie. Falls es etwa β jr > β ir gibt, kann ein Anstieg der r-ten Kovariable sogar eine Verringerung von π·,i zur Folge haben. Das (erweiterte) Modell lässt sich in Matrixschreibweise zusammenfassen. Der Parameter Vektor ist gegeben durch β = (β T1 , . . . , β TI−1 , γ T )T ∈ Rp·(I−1)+q , und der lineare Prädiktor durch ηk = (ηk1 , . . . , ηk,I−1 )T = Xk β, T xk Xk = .. . xTk wkT .. ∈ R(I−1)×(p·(I−1)+q) . . wkT Die Schätzung des Parameter Vektors β erfolgt wiederum über Maximum Likelihood. Die log Likelihood ist Ln (β) = f (Yk |πk ) = n X k=1 log f (Yk |π k ) (58) nk Yk(I−1) Yk1 πk1 · . . . · πk(I−1) · (1 − πk1 − . . . − πk(I−1) )YkI Yk1 , . . . , YkI wobei π k wie in (57) vom lineare Prädiktor und damit von β abhängt. Score Vektor sn (β) = ∂ ∂β Ln (β), Fisher-Information Fn (β) = Cov(sn (β)). Unter Regularitätsannahmen gelten asymptotische Normalität des ML Schätzers 1 Fn (β̂ M L ) 2 (β̂ M L − β) → N (0, I), sowie die asymptotischen χ2 -Approximationen an den Likelihood Quotienten Test und den Wald Test. relevante R Befehle Die library nnet enthält die Funktion multinom, mit der ein kategorielles Regressionsmodell geschätzt werden kann. Die Anpassung erfolgt ähnlich wie bei glm und family=binomial, inbesondere können die nk über Weights übergeben werden. Die Funktion logLik extrahiert den Wert der maximierten Log-Likelihood. Mit anova können LQTs durchgeführt werden. Kommulatives oder Schwellenwert-Modell Das mehrkategorielle Logit Modell kann sehr allgemein verwendet werden, hat jedoch Nachteile, da es viele Parameter besitzt und diese darüber hinaus schwer, da nur über das relative Risiko zur Referenz Kategorie, zu interpretieren sind. Falls die Zielvariable Yk ordinal ist mit geordneten Kategorien 1, . . . , I, kann man dies bei der Modellierung berücksichtigen. Im Schwellenwert-Modell wird die ordinale Zielvariable als Diskretisierung einer latenten, stetigen Zielvariable modelliert, wobei die Diskretisierung mitgeschätzt wird. Seien also zur Beobachtung Yk β ∈ Rp , Ukl = xTk β + εkl , l = 1, . . . , nk , zugrundeliegende latente Variablen, wobei εk ∼ F eine stetige Verteilungsfunktion hat, etwa a. F ∼ N (0, 1) → probit-Modell ex b. F (x) ≈ 1+e x → Logit-Modell x c. F (x) = 1 − e−e Extremwertverteilung → gruppiertes Cox-Modell. Man modelliert dann Yk = nk X 1ϑi−1 <Ukl <ϑi , l=1 für feste (unbekannte) ϑ1 < . . . < ϑI−1 , ϑ0 = −∞, ϑI = ∞. Es gilt also πki = F (ϑi + xTk β) − F (ϑi−1 + xTk β) = F (ηki ) − F (ηk,i−1 ), i = 1, . . . , I, wobei ηki = ϑi + xTk β einen linearen Prädiktor bezeichnet. Der unbekannte Parametervektor besteht also aus β = (β 1 , . . . , β p , ϑi , . . . , ϑK−1 ). Das Schätzen von β erfolgt wieder über ML wie in (58). relevante R Befehle Die library MASS enthält die Funktion ployr, mit der ein Schwellenwert Regressionsmodell für ordinale Daten angepasst werden kann. 105 7 Lineare Gemischte Modelle Gemischte Modelle enthalten nicht nur die bisher betrachteten festen Effekte β, die für jede Beobachtung gleich sind, sondern darüber hinaus noch zufällige Effekte γ i , welche Realisierungen von Zufallsvariablen sind und sich somit für jede Beobachtung unterscheiden können. Zufällige Effekte werden (im Regressionskontext) eingesetzt, falls man davon ausgeht, dass nicht alle relevanten Kovariablen bzw. Einflussgrößen auf die Zielvaraiable beobachtet werden können. Häufig handelt es sich dabei um viele nicht beobachtete Einflussgrößen mit jeweils nur geringem Einfluss. Daher modelliert man diese dann häufig als einen zufälligen normalverteilten Effekt. Gemischte Modelle treten im Regressionskontext insbesondere bei Longitudinal- oder Clusterdaten auf, auf die wir zunächst eingehen, bevor wir zum allgemeinen linearen gemischten Modell kommen. Abschliessend werden auch noch kurz auf verallgemeinerte lineare gemischte Modelle eingehen. 7.1 Longitudinal- und Cluster-Daten a. Cluster-Daten Ein Cluster ist eine Primäreinheit, etwa eine Klinik, Familie. Man beobachtet nun eine Anzahl m an Clustern, und für jedes Cluster i hat man Daten (Yi1 , xi1 ), . . . , (Yini , xini ), i = 1, . . . , m, wobei Yij ∈ R die reellwertige Zielvariable bezeichnet, und xij ∈ Rp ein Vektor von geeignet kodoerten Kovariablen (inklusive Achsenabschnitt) ist. b. Longitudinal-Daten Ein analoges Beobachtungsschema tritt für longitudinale Daten auf. Hier werden i Individuen, i = 1, . . . , m beobachtet. Für jedes Individuum i hat man Beobachtungen (Yi1 , xi1 ), . . . , (Yi,ni , xi,ni ) zu Zeitpunkten ti1 < . . . < tini . Die Zeitpunkte tij sind dabei typischerweise Teil der Kovariablen xij . Man möchte nun wiederum Yij über einen linearen Prädiktor xTij β erklären. Dabei ist aber davon auszugehen, dass die Zielgröße nicht nur durch die xij , sondern durch weitere, Clusterbzw. individuenspezifischen Effekte beeinflusst werden. Da man die Individuen/Cluster zufällig aus einer Gesamtpopulation ausgewählt hat, modelliert man diese zusätzlichen Effekte als zufällige Effekte. Dies führt zu folgendem Modell 106 7 LINEARE GEMISCHTE MODELLE Modell Die Beobachtungen (Yij , xij ), i = 1, . . . , m, j = 1, . . . , ni , folgen dem Modell T Yij = xTij β + wij γ i + εij , wobei wij ein q-dimensionaler Teilvektor von xij ist, εij ein zufälliger, nicht beobachteter Fehler, β ∈ Rp die systematischen (festen) Effekte bezeichnet und γ i q-dimensionale, zufällige Effekte sind, die wir als N (0, D)-verteilt annehmen (D ∈ Rq×q ), und welche unabhängig für i = 1, . . . , m sind. Weiter nehmen wir an, dass die Fehler εi und die zufälligen Effekte γ l unabhängig sind für alle 1 ≤ i, l ≤ m. Für die Fehler ǫi nehmen wir ebenfalls eine Normalverteilung an, also εi ∼ N (0, Σi ), und unabhängig für i = 1, . . . , m. Falls εi ∼ N (0, σ 2 Ini ), dann sind die Fehler auch unabhängig und identisch verteilt für j = 1, . . . , ni . Dies ist zwar für Cluster - und Longitudinal-Daten häufig nicht erfüllt. Dennoch ist die zeitliche bzw. clusterspezifische Abhängigkeitsstruktur gegenüber der durch die zufälligen Effekte verursachten Abhängigkeitsstruktur (γ i verursacht bereits Abhängigkeiten für j = 1, . . . , ni ) vernachlässigbar, so dass man die Fehler einfach als u.i.v. modelliert. Alternativ wäre ein einfaches parametrisches Modell für abhängige Fehler etwa Cov(εij , εik ) = σ 2 exp(−φ|tij − tik |), (59) man hat also zwei Parameter (σ 2 , φ), die die Σi beschreiben. Man fasst lineare Longitudinal - und Clustermodelle in Matrixschreibweise zusammen. Setze T T xi1 wi1 Yi1 εi1 Yi = ... , Xi = ... ∈ Rni ×p , Wi = ... ∈ Rni ×q , ǫi = ... ∈ Rni , Yini xTini T win i εini dann ist Yi = xi β + wi γ i + ǫi . Man P kann auch noch die Modelle für alle i zusammenfassen. Dazu setzte W = diag(w1 , . . . , wm ) ∈ R ni ×m·q , Y1 x1 γ1 ε1 P P P .. .. .. .. ni ni ×p q·m Y= . ∈R , X= . ∈R , γ = . ∈ R , ǫ = . ∈ R ni . Ym xm γm εm Dann ist Y = Xβ + W γ + ǫ, wobei unter den obigen Verteilungsannahmen gilt γ ∼ N (0, G), ε ∼ N (0, R), γ, ǫ sind unabhängig, und R = diag(Σ1 , . . . , Σm ), G = diag(D, . . . , D). 7.2 Das lineare gemischte Modell Definition 7.1 Das lineare gemischte Modell (LMM) ist gegeben durch Y = Xβ + W γ + ǫ (60) 7.3 Schätzen und Vorhersagen im linearen gemischten Modell wobei 107 γ G 0 ∼ N 0, , ǫ 0 R und X ∈ Rn×p , W ∈ Rn×q (beobachtete) Designmatrizen sind, Y ∈ Rn (beobachtete) abhängige Variable, β fixe Effekte, γ zufällige Effekte, ǫ Fehler. Neben longitudinalen und Cluster Regressionsmodellen treten gemischte Modelle insbesondere bei der Varianzanalyse mit zufälligen und festen Effekten auf. Man kann das LMM schreiben als a. Zweistufiges hierarchisches Modell: Y|γ ∼ N (Xβ + W γ, R), γ ∼ N (0, G) (61) ǫ∗ ∼ N (0, R + W GW T ). (62) b. Marginales Modell Y = Xβ + ǫ∗ , Das zweistufige hierarchische Modell bestimmt das LMM eindeutig. Dagegen bestimmt das marginale Modell (62) dieses nicht unbedingt eindeutig, da die zufälligen Effekte sich nicht spezifizieren lassen. 7.3 Schätzen und Vorhersagen im linearen gemischten Modell Wir betrachten das gemischte lineare Modell (60). Unsere primären Ziele sind dabei das a. Schätzen der fixen Effekte β b. Schätzen der unbekannten Parameter in der Kovarianzstruktur der zufälligen Effekte und Fehler, also in G und R Darüber hinaus betrachtet man noch c. Vorhersagen der zufälligen Effekte γ. Zunächst betrachten wir a. und c. bei bekannter Kovarianzstruktur, und erweitern dies in einem zweiten Schritt um die Schätzung b. Bekannte Kovarianzstruktur Wir nehmen in diesem Abschnitt an, dass die Kovarianzmatrizen G und R im LMM bekannt sind. Schätzung der festen Effekte Ausgehend vom marginalen Modell (62) setze V = R + W GW T (diese Matrix ist vollständig bekannt), dann ist Y ∼ N (Xβ, V ). Man schätze β nun über verallgemeinerte kleinste Quadrate (GLS) durch β̃ GLS = (X T V −1 X)−1 X T V −1 Y (63) 108 7 LINEARE GEMISCHTE MODELLE Vorhersage der zufälligen Effekte Da γ eine Zufallsvariable und kein Parameter ist, spricht man hier von vorhersagen und nicht von schätzen. Da Cov(Y, γ) = Cov(Xβ + W γ + ǫ, γ) = Cov(W γ, γ) = W G gilt Y Xβ V WG ∼N , . γ 0 (W G)T G Somit erhält man für den bedingten Erwartungswert nach Satz 1.6 E(γ|V ) = GW T V −1 (Y − Xβ). Durch Einsetzten von β̃ GLS erhält man als Vorhersage von γ γ̃ = GW T V −1 (Y − X β̃ GLS ) Aufgabe (64) Erhalte Formel (64) als besten linearen Prädiktor für γ. Mixed Model Equations Man kann den Schätzer (63) und den Prädiktor (64) auch auf andere Weise erhalten. Die gemeinsame Dichte im LMM ist nach Darstellung (61) im hierarchischen Modell p(Y, γ; β) = p(Y|γ; β) · p(γ), somit 1 1 log p(Y, γ; β) = − (Y − Xβ − W γ)T R−1 (Y − Xβ − W γ) − (γ T G−1 γ) + const., 2 2 wobei const. nicht von (β, γ) abhängt. (65) Man behandelt nun nun (β̃, γ̃) gleich und wählt als Schätzer/Prädiktor das Argmax von (65). Ableiten und Null setzen führt auf die Mixed Model Equations ! X T R−1 (Xβ + W γ − Y) = 0, ! W T R−1 (Xβ + W γ − Y) + G−1 γ = 0. Gemeinsame Verteilung von (β̃ GLS , γ̃). Diese berechnet sich zu 0 A B β̃ GLS − β ∼N , 0 BT C γ̃ − γ wobei A = Cov(β̃ GLS ) = (X T V −1 X)−1 , und mit Cov(β̃ GLS , γ̃) = 0 B = Cov(β̃ GLS , γ̃ − γ) = − Cov(β̃ GLS , γ) = −E((X T V −1 X)−1 X T V −1 (W γ + ε) · γ T ) = −(X T V −1 X)−1 X T V −1 W G, C = Cov(γ̃ − γ) = Cov(γ) + Cov(γ̃) − 2 Cov(γ, γ̃) = G + GW T V −1 V − X(X T V −1 X)−1 X T V −1 W G −2 · E GW T V −1(W γ − X β̃) · γ T = G − GW T V −1 W G + GW T V −1 X(X T V −1 X)−1 X T V −1 W G. (66) 7.3 Schätzen und Vorhersagen im linearen gemischten Modell 109 Beachte, dass die Verteilung von γ̃ in (66) um γ (auch eine Zufallsvariable) und nicht um den Erwartungswert 0 berechnet wird. Schätzung der Kovarianzstruktur In diesem Abschnitt befassen wir uns mit der Schätzung der unbekannten Parameter in der Kovarianzstruktur, also in den Matrizen R und G. Wir erinnern uns, dass im Longitudinal/ Clusterdaten Modell diese von der Form R = diag(Σ1 , . . . , Σm ), G = diag(D, . . . , D), sind. Dabei sind häufig die Σi Diagonalmatrizen oder haben die einfache Gestalt, die durch (59) bestimmt wird. Insgesammt sind R und G also über wenige Parameter festgelegt. Diese fassen wir im Folgenden in einem Parametervektor ϑ zusammen, d.h. R = R(ϑ), G = G(ϑ) und somit V (ϑ) = W G(ϑ)W T + R(ϑ). Wir betrachten zur Schätzung zwei Ansätze. a. Ausgangspunkt ist das marginale Modell (62), also Y ∼ N (Xβ, V (ϑ)). Die Log-Likelihood in Abhängigkeit von den Parametern (β, ϑ) ist gegeben durch 1 L(β, ϑ) = − (log |V (ϑ)| + (Y − Xβ)T V (ϑ)−1 (Y − Xβ)). (67) 2 Man möchte nun (β, ϑ) als argmax von (67) wählen. Zunächst maximiert man (67) für festes ϑ bezüglich β und erhält als eindeutige Lösung β̃(ϑ) = (X T V (ϑ)−1 X)−1 X T V (ϑ)−1 Y Dann setzt man β̃(ϑ) in (67) ein und erhält die Profile Log-Likelihood T 1 Lp (ϑ) = L β̃(ϑ), ϑ = − log |V (ϑ)| + Y − X β̃(ϑ) V (ϑ)−1 Y − X β̃(ϑ) . 2 Erhalte ML-Schätzer ϑ̂M L als argmax von Lp . b. Hier schätze ϑ als argmax der marginalen Likelihood Z p(Y; β, ϑ)dβ , LR (ϑ) = log wobei man sich von diesem Ansatz besser Bias-Eigenschaften verspricht. Lemma 7.2 Es ist 1 LR (ϑ) = Lp (ϑ) − log |X T V (ϑ)−1 X| 2 Beweis Es ist 1 1 T −1 p(Y; β, ϑ) = exp − (Y − Xβ) V (ϑ) (Y − Xβ) 1 n 2 (2π) 2 |V (ϑ)| 2 1 1 T −1 = exp − Y V (ϑ) Y 1 n 2 (2π) 2 |V (ϑ)| 2 1 T · exp − β − β̃(ϑ) X T V (ϑ)−1 X β − β̃(ϑ) (∗) 2 1 · exp − β̃(ϑ)T X T V (ϑ)−1 X β̃(ϑ) 2 110 7 LINEARE GEMISCHTE MODELLE Beachte, dass der zweite Faktor (∗) auf der rechten Seite bis auf fehlenden Normierungsfaktor −1 eine multivariaten Normalverteilung in β mit Erwartung β̃(ϑ) und Covarianz X T V (ϑ)−1 X ist. Daher ergibt sich Z 1 p(Y; β, ϑ)dβ = |X T V (ϑ)−1 X| 2 (2π) n−p 2 1 |V (ϑ)|− 2 1 exp − YT V (ϑ)−1 Y − β̃(ϑ)T X T V (ϑ)−1 X β̃(ϑ) . 2 T Nun beachte noch, dass der Term in exp sich schreiben lässt als − Y − X β̃(ϑ) V (ϑ)−1 Y − X β̃(ϑ) /2. Man verwendet nun das argmax von LR (ϑ) als Schätzer, dieser heißt auch restringierter ML-Schätzer, Bezeichnung ϑ̂REM L . Für ϑ̂ = ϑ̂M L oder ϑ̂ = ϑ̂REM L erhält man Schätzer R̂ = R(ϑ̂), Ĝ = G(ϑ̂), V̂ = V (ϑ̂). KONSISTENZ!!! REFERENZ!!! Schätzung und Vorhersage der fixen und zufälligen Effekte und Hypothesentests Für Schätzer R̂ und Ĝ bilde V̂ = R̂ + W ĜW T und die Schätzer β̂ = (X T V̂ −1 X)−1 X T V̂ Y, γ̂ = ĜW T V̂ −1 (Y − X β̂), und approximiere die Verteilung 0  β̂ − β ≈N , 0 γ̂ − γ B̂ T B̂ Ĉ , (68) wobei sich die Matrizen Â, B̂ und Ĉ durch Einsetzten der Schätzer R̂, Ĝ und V̂ in die Ausdrücke in (66) ergeben. REFERENZ FÜR ASYMPTOTIK!!! Die Approximation (68) kann genutzt werden, um a. Konfidenzintervalle für β b. Vorhersageintervalle für γ c. gemeinsame Konfidenz- / Vorhersageintervalle zu konstruieren. Das Testen linearer Hypothesen U β = m kann durch den Likelihood Quotienten Test (LQT) oder den Wald-Test T = (U β̂ − m)T (U T ÂU )−1 (U β̂ − m) erfogen, wobei man die Verteilung basierend auf (68) durch eine geeignete χ2 -Verteilung approximiert. Für den LQT muss allerdings der Maximum Likelihood Schätzer (und nicht der restringierte ML Schätzer) ϑM L gewählt werden. Der LQT ist prizipiell auch zum Testen von Hypothesen an ϑ geeignet. Hierbei muss man jedoch sorgfältig vorgehen und prüfen, ob 7.4 Verallgemeinerte lineare gemischte Modelle 111 die notwendigen Regularitätsbedingungen erfüllt sind. So gilt die χ2 Approximation nicht, falls ϑ auf dem Rand liegt. Dies ist bei Hypothesen an ϑ häufig der Fall, etwa in folgenden Beispiel. Beispiel. Sei Yij = β 1 + β 2 xij + γ 0i + εij , i = 1, . . . , m, j = 1, . . . , n. wobei εij ∼ N (0, σ 2 ), γ 0i ∼ N (0, τ02 ) und diese unabhängig seien. Von besonderem Interesse wäre die Hypothese H : τ02 = 0, d.h. die Überprüfung, ob überhaupt zufällige Effekte vorliegen. Diese kann jedoch nicht ohne weiteres mit dem LQT (bzw. der gewöhnlichen χ2 Approximation) getestet werden. relevante R Befehle Die library lme4 enthält die Funktion lmer zum Anpassen von linearen (und auch verallgemeinerten linearen) gemischten Modellen. Der zufällige Effekt wird spezifiziert durch (KOEFFIZIENT|GRUPPIERUNG), wobei der Achsenabschnitt als Koeffizient mit einbezogen wird. Es steht dann auch die anova Funktion zum Testen bereit. Alternativ kann die Funktion lme aus der library nlme verwendet werden. Hier werden zufällige Effekte über die Option random = ~ KOEF|GRUPPE spezifiziert. 7.4 Verallgemeinerte lineare gemischte Modelle Auch im Kontext von verallgemeinerten linearen Modellen können neben festen auch zufällige Effekte berücksichtigt werden. Die Modellbildung ist ganz analog zum LMM, aber die Schätzung ist technisch wesentlich schwieriger. Wir gehen daher nur auf die Grundzüge ein. Modell für Longitudinal- und Cluster-Daten Wir betrachten zunächst Modelle für longitudinale oder Clusterdaten, bei denen die abhängige Variable eine Dispersionsexponentialfamilie (DEF) als Verteilung hat. Es liegen also Beobachtungen (Yij , xij ), i = 1, . . . , m, j = 1, . . . , ni , vor, wobei a. Für jedes i sind Yij |γ i , j = 1, . . . , ni unabhängig und verteilt nach einer DEF. b. Die zufälligen Effekte γ i sind unabhängig und identisch normalverteilt, γ i ∼ N (0, D), i = 1, . . . , m. c. Der bedingte Erwartungswert E(Yij |γ i ) hängt mit dem linearen Prädiktor ηij = xTij β + T γ über die streng monoton wachsende Linkfunktion g in folgender Weise zusammen: wij i E(Yij |γ i ) = g −1 (ηij ). Dabei ist wij ein Teilvektor von xij , und β bezeichnet die festen Effekte. Die wichtigsten Spezialfälle sind gemischte logistische Modelle und gemischte Poisson Modelle. a. Yij |γ j Bernoulli-verteilt, g logit-Link, also log P (Yij = 1|γ i ) T = xTij β + wij γ i. P (Yij = 0|γ i ) 112 7 LINEARE GEMISCHTE MODELLE b. Yij |γ i ∼ Poi(λij ), g log-Link, also T log λij = xTij β + wij γ i. Ähnlich wie bei LMMs kann man diese Modelle in folgender Definition zusammenfassen. Man kann dieses Modell wieder zusammenfassen zu folgender allgemeiner Definition. Definition des verallgemeinerten linearen gemischten Modells (GLMM) Beobachtet werden abhängige Zufallsvariable Y = (Y1 , . . . , Yn )T und Designmatrizen T T x1 w1 .. .. n×p X= . ∈R , W = . ∈ Rn×q . xTn wnT Für feste Effekte β ∈ Rp und γ ∈ Rq (nicht beobachtete) zufällige Effekte bilde linearen Prädiktor η = Xβ + W γ. Falls a Yi |γ sind unabhängig und verteilt nach DEF, b.Für µi = E(Yi |γ) gilt g(µi ) = xTi β + wiT γ = ηi , c. Die zufälligen Effekte sind normalverteilt, γ ∼ N (0, G), dann folgen (Y, X, W ) einem verallgemeinerten linearen gemischten Modell (GLMM). Bemerkung 1. Die Annahme der bedingten Unabhängigkeit Yi |γ entspricht im LMM unabhängigen Fehlern εi , also einer Diagonalmatrix R. Weitergehende Abhängigkeiten sind im GLMM Kontext schwer zu modellieren, und häufig neben den zufälligen Effekten vernachlässigbar. 2. Im Gegensatz zum LMM kann die marginale Verteilung von Y bzw. Yi , Z f (Yi ) = f (Yi |γ) · f (γ)dγ, f (γ) Dichte von N (0, G), in einem GLMM nur selten explizit berechnet werden. Momentenstruktur im GLMM Im GLMM gilt T EYi = E(E(Yi |γ)) = Eµi = E(g −1 (xTij β + wij γ)), T Var Yi = Var(E(Yi |γ)) + E(Var(Yi |γ)) = Var(g −1 (xTij β + wij γ)) + E(ϕ · V (µi )), wobei V = b′′ ◦ (b′ )−1 (und b in der DEF definiert ist). Wegen Cov(Yi , Yj |γ) = 0, i 6= j, ist weiter Cov(Yi , Yj ) = Cov(E(Yi |γ), E(Yj |γ)) + E(Cov(Yi , Yj |γ)) = Cov(µi , µj ). Schätzen im GLMM 113 Wir nehmen wieder an, die Kovarianzmatrix G der zufälligen Effekte sei über einen Parameter ϑ bestimmt, G = G(ϑ). Dann sind die Ziele im GLMM das Schätzen der Parameter (β, ϑ) sowie die Vorhersage von der zufälligen Effekte γ. Ansätze a. Zur Schätzung von (β, ϑ) kann das marginale Modell Z L(β, ϑ) = f (Y|β, γ) · f (γ|ϑ)dγ (69) benutzt werden, wobei f (γ|ϑ) die Dichte von N (0, G(ϑ)) ist, und wegen der bedingten Unabhängigkeit n Y f (Yi |β, γ) f (Y|β, γ) = i=1 gilt. Man schätze dann (β, ϑ) als argmax von (70). Man muss aber das Integral in (70) numerisch auswerten, welches bei mehrdimensionalen zufälligen Effekten sehr schwer wird. Dieser Zugang ist daher nur bei wenigen zufälligen Effekten (meistens nur univariates γ) geeignet. b. Man kann auch (β, ϑ) schätzen und γ Vorhersagen in einem gemeinsamen Schritt durch maximieren von L(γ; β, ϑ) = f (Y|γ; β) · f (γ|ϑ). Logarithmieren liefert 1 Lpen (β, γ, ϑ) = L(β, γ) − γ T G(ϑ)γ + const, 2 (70) wobei L(β, γ) die log-Likelihood Funktion der DEF ist, etwa für Poisson L(β, γ) = n X (Yi log λi − λi ), log λi = ηi = xTi β + wiT γ. i=1 Man schätzt/vorhersagt dann (β, γ, ϑ) als argmax von (70). Dazu wird häufig so vorgegangen, dass (70) für festes ϑ in (β, γ) maximiert wird und ϑ durch eine Approximation von (70), etwa Laplace Approximation, vereinfacht geschätzt wird. relevante R Befehle Bei der Funktion lmer (library lme4) können auch verallgemeinerte lineare gemischte Modelle geschätzt werden, wobei die DEF über family wie in glm spezifiziert wird. 8 8.1 Nichtparametrische Dichteschätzung Problemstellung Gegeben seien unabhängige, identisch verteilte reellwertige Beobachtungen X1 , . . . , Xn mit Verteilungsfunktion F (x) = P (X1 ≤ x). Angenommen, die Xi haben eine Dichte f (x) 114 8 NICHTPARAMETRISCHE DICHTESCHÄTZUNG bezüglich des Lebesque-Maßes dx, also µ(A) = P (X1 ∈ A) = Z f (x)dx, A Borel-meßbar, A und dann F (x) = Z x f (t)dt. −∞ Sowohl die Verteilungsfunktion F (x) als auch die Dichte f (x) bestimmen eindeutig die Verteilung µ der Xi , sie tragen also die gleiche Information. Die Verteilungsfunktion kann man leicht durch die empirische Verteilungsfunktion n F̂n (x) = 1X 1(−∞,x] (Xk ) n k=1 schätzen. Dennoch ist man oft eher an Schätzungen der Dichte als an Schätzungen der Verteilungsfunktion interessiert. Zum einen trägt f (x) erheblich mehr visuelle Information als die Verteilungsfunktion, Schätzung von f hat also als Hauptziel die deskriptive Analyse der Verteilung der Xi . Darüber hinaus liegt ein geschätztes f weiteren statistische Verfahren, etwa Anpassungstests, zugrunde. Die Schätzung von f kann auf verschiedene Arten geschehen. a. parametrisch. Man nimmt an, dass f (x) ∈ {f (x, ϑ)|ϑ ∈ Θ ⊂ Rn } aus einer endlichdimensionalen parametrischen Familie stammt (d.h. Θ ist endlich-dimensional). Zunächst schätzt man den unbekannten Parameter ϑ, etwa mit Hilfe der Maximum-Likelihood Methode, und erhält ϑ̂. In einem zweiten Schritt bildet man f (·, ϑ̂) als Schätzung für f . Als Vorteile dieses Ansatzes sind zu nennen: Man hat ein einfaches, leicht zu interpretierendes Modell (d.h. man muss nur endlich viele Parameter interpretieren), und man erhält eine sehr effiziente Schätzung, falls das parametrische Modell korrekt ist, d.h. falls es tatsächlich den Daten zugrunde liegt. Falls dies jedoch nicht der Fall ist (wovon bei realen Daten stets auszugehen ist), erhält man eine inkonsistente Schätzung. Man kann häufig zeigen, dass auch falls f (x) 6∈ {f (x, ϑ)|ϑ ∈ Θ ⊂ Rn } der ML Schätzer ϑ̂ gegen einen wohldefinierten Parameter und somit der Funktionenschätzer f (·, ϑ̂) gegen eine Dichte f ∗ , die beste Approximation in f (x, ϑ) an f bezüglich des Kulback Leibler Abstandes, konvergiert. Dennoch stellt sich die Frage, ob man mit der Approximation f ∗ an f zufrieden ist. b. nichtparametrisch Alternativ kann man f nichtparametrisch, also ohne endlichdimensionale parametrische Restriktionen und nur unter gewissen Glattheitsannahmen (etwa f ∈ C 1 ) schätzen. Man hat dann eine erheblich flexiblere Schätzung, die wesentlich mehr Dichten konsistent schätzt. Diese Schätzung ist jedoch weniger effizient, die wahre Dichte f wird nur bei großen Datenmenge gut geschätzt. Auch die nichtparametrische Schätzung schätzt nicht “alle” Dichten, schon gar nicht in der Praxis für endliche Stichproben, korrekt oder approximativ korrekt. Aber sie dient häufig als erster Schritt einer Datenanalyse, und wird zur Auswahl der parametrischen Familie, in der die Dichte in einem zweiten Schritt geschätzt wird, genutzt. Zwischen nichtparametrischer und parametrischer Schätzung steht noch die sogenannte semiparametrische Schätzung, auf die wir hier aber nicht weiter eingehen wollen. 8.2 Kern-Dichte Schätzung 115 relevante R Befehle Die Funktion ecdf berechnet die empirische Verteilungsfunktion (ein Objekt vom Typ stepfun, welches mit plot.stepfun geplottet werden kann (oder direkt mit plot.ecdf). 8.2 Kern-Dichte Schätzung Wir wiederholen zunächst noch einige Eingenschaften der Faltung auf R. a. Für f, g ∈ L1 ist diese definiert durch Z f (x − y)g(y)dy. (f ∗ g)(x) = R b. Ist µ σ-endliches Maß auf R und f (x − ·) ∈∈ L1 (µ) für x ∈ R, dann Z f (x − t)dµ(t). (f ∗ µ)(x) = R Ist insbesondere dµ(x) = g(x)dx absolut stetig bzgl. des Lebeques Maßes, dann ist (f ∗g)(x) = (f ∗ µ)(x). R Sei nun K ∈ L1 , K = 1 ein Kern. Für h > 0 setze Kh (x) = K(x/h)/h. Dann gilt für g ∈ L1 und h → 0 die Konvergenz Kh ∗ g − g → 0 in L1 . Unter zusätzlichen Annahmen gilt die Konvergenz auch punktweise oder in L2 . Wir betrachten nun wieder X1 , . . . , Xn u.i.v. mit Dichte f , und es sei µ die Wahrscheinlichkeitsverteilung der Xi , also dµ(x) = f (x)dx. Dann gilt (in L1 ) Kh ∗ µ = Kh ∗ f → f (h → 0). (71) Weiter kann µ geschätzt werden durch das empirische Maß n 1X δ Xk , µ̂n = n δx (A) = k=1 1, x ∈ A 0, sonst Um einen Schätzer von f zu erhalten, ersetze in (71) die Verteilung µ durch die empirische Verteilung µ̂. Dies ergibt fˆn (x; h) = Kh ∗ µ̂n n 1 X x − Xk = K nh h k=1 den Kern-Dichte Schätzer für f mit Kern K und Bandbreite h > 0. Durch Integration erhält man einen geglätteten Schätzer für die Verteilungsfunktion: F̂n (x; h) = n 1 X x − Xk L , n h k=1 L(x) = Z x K(t)dt. −∞ 116 8 NICHTPARAMETRISCHE DICHTESCHÄTZUNG Eigenschaften des Kern-Dichte Schätzers Erwartungswert 1 E fˆn (x; h) = h Z Varianz 1 1 Var fˆn (x; h) = ( 2 n h Z K2 x − t h K x − t h f (t)dt = (Kh ∗ f )(x). f (t)dt − (Kh ∗ f )2 (x)) = 1 2 (K ∗ f − (Kh ∗ f )2 )(x). (72) n h Wie üblich kann man den mittleren quadratischer Fehler (MSE) zerlegen in BIAS2 und Varianz MSE(fˆn (x; h)) = E(fˆn (x, h) − f (x))2 = E(fˆ − E fˆ)2 (x) + (E fˆ − f )2 (x). Um die Konsistenz des Kern-Dichte Schätzers sowie eine Konvergenzrate herzuleiten, machen wir die folgenden Annahmen. Annahmen A. f ∈ C 2 (R) mit beschränkter 2. Ableitung B. Der Kern K ist eine beschränkte, symmetrische Wahrscheinlichkeitsdichte mit kompaktem Träger in ⊂ [−M, M ] für ein M > 0. C. Die Bandbreite h = hn erfüllt hn → 0 und nhn → ∞. Lemma 8.1 Unter den Annahmen A, B und C gilt für den BIAS von fˆn (x; h) E fˆn (x; h) − f (x) = f ′′ (x) Beweis Es ist E fˆn (x; h) = Z h2 2 Z z 2 K(z)dz + O(h2 ). f (x − t)K(t/h)/h dt = Z (73) f (x − hz)K(z)dz. Wegen Annahme B. genügt es, für z ∈ [−M, M ] die Taylorentwicklung 1 f (x − hz) = f (x) − hzf ′ (x) + h2 z 2 f ′′ (ξ) 2 1 = f (x) − hzf ′ (x) + h2 z 2 f ′′ (x) + h2 C(x, z) 2 (74) zu betrachten. Hier ist ξ = ξx,z ∈ x + [−hM, hM ], C(x, z) = 21 z 2 (f ′′ (ξ) − f ′′ (x)) = O(1) gleichmäßig in z ∈ [−M, M ], da nach Annahme A f ′′ stetig in x und ξ ∈ x + [−hM, hM ]. Integration von (74) mit K liefert (73). Lemma 8.2 Unter den Annahmen A, B und C gilt für die Varianz von fˆn (x; h) Var fˆn (x; h) = 1 nh Z K 2 (z)dz · f (x) + O( 1 ) nh 8.3 Integrierter mittlerer quadratischer Fehler 117 Beweis Für z ∈ [−M, M ] ist f (x − hz) − f (x) = −hzf ′ (ξ), also f (x − hz) = f (x) + O(h). Somit Kh2 Z 1 ∗ f (x) = h 1 f (x − hz)K (z)dz = f (x) h 2 Die Behauptung folgt dann mit (2). Z K 2 (z)dz + O(h) Aus Lemma 8.1 und 8.2 erhält man Satz 8.3 Unter den Annahmen A, B und C gilt für den mittleren quadratischen Fehler von fˆn (x; h) 4Z h MSE(fˆn (x, h)) = (f ′′ (x))2 4 2 z K(z)dz 2 1 + f (x) nh Z K 2 (z)dz+O(h4 )+O (nh)−1 (75) Der Kern-Dichte Schätzer fˆn (x; h) ist also konsistent in der Klasse der C2 Dichten. Für geeignete Wahl von h erhält man auch eine Konvergenzrate. Korollar 8.4 1 Unter den Annahmen A, B und C gilt für h ≈ n− 5 4 MSE(fˆn (x, h)) = O(n− 5 ). Man kann zeigen, dass dies auch die optimale Konvergenzrate in der Klasse der bei x zweimal stetig differenzierbaren Dichten ist, wobei die zweite Ableitung durch eine feste Konstante beschränkt sein muss. Die Konvergenzrate ist also langsamer als das n−1 im parametrischen Fall. relevante R Befehle Die Funktion density berechnet den Kern Dichte Schätzer, der direkt mit plot geplottet werden kann. Für Optionen siehe nächster Abschnitt. 8.3 Integrierter mittlerer quadratischer Fehler Der mittlere integrierte quadratische Fehler (MISE) des Schätzers fˆn (x; h) ist definiert durch Z Z 2 2 ˆ ˆ E f (x, h) − f (x) dx = E fˆ(x, h) − f (x) dx. MISE(f (·, h)) = R R Der MISE berücksichtig den quadratischen Fehler von fˆn (x; h) nicht nur an einem Punkt x, sondern auf ganz R. Daher ist der MISE zur Untersuchung der globalen Eigenschaften von fˆn (x; h) gut geeignet. Wir benötigen zur Behandlung des MISE noch eine weitere Annahme D. Es sind f, f ′′ ∈ L2 , und |f ′′ | wird schliesslich monoton. 118 8 NICHTPARAMETRISCHE DICHTESCHÄTZUNG Wenn man die Darstellung (75) naiv integriert, erhält man also 1 MISE(fˆ(·, h)) = 4 Z ′′ 2 4 f (x) dx h Z 2 z K(z)dz 2 1 + nh Z K 2 (z)dz + O(h4 ) + O( 1 ). nh Hierbei muss man jedoch aufpassen, da die Restterme in (75) von der Stelle x abhängen. Unter der Annahme D ist jedoch die Inegration zulässig. Wir geben dafür das Argument für den integrierten quadratischen Bias, und benutzten die Notation des Beweises von Lemma 8.1. Sei ǫ > 0, wir müssen h0 > 0 genügend klein finden, so dass für h ≤ h0 gilt: Z C(x, z)2 dx < ǫ. (76) R R Wegen Annahme D kann man A > 0 wählen, so dass |x|>A C(x, z)2 dx < ǫ/2. Da weiter f ′′ auf einem kompakten Intervall gleichmäßig stetig ist, kann man h0 so klein wählen, dass 1/2 |C(x, z)| < ǫ/(4A) , |ξ − x| < hM, x ∈ [−A, A]. Es ergibt sich (76). Wenn man die Restterme unberücksichtigt lässt, erhält man den asymptotischen MISE Z 1 4 2 ν0 (K) ˆ AMISE(f (·, h)) = h µ2 (K) f ′′ (x)2 dx + , (77) 4 nh wobei ν0 (K) = Z 2 K (z)dz, µ2 (K) = Z z 2 K(z)dz. Durch Ableiten von AMISE(fˆ(·, h)) nach h und Null setzen erhält man die AMISE-optimale Bandbreite 1 ν0 (K) 5 R hopt = , (78) nµ22 (K) f ′′ (x)2 dx sowie den minimalen AMISE 5 4 min AMISE(fˆ(·, h)) = n− 5 µ2 (K)2 ν04 (K) h>0 4 Z f ′′ (x)2 dx 1 5 . (79) Die Bandbreite hopt hängt von dem unbekannten f durch die zweite Ableitung f ′′ ab, und kann daher nicht direkt benutzt werden. Im nächsten Abschnitt werden wir uns mit der praktischen Bandbreitenwahl beschäftigen. Kernwahl Für die optimale Bandbreite R ′′ 2 hopt hängt der minimale AMISE in (79) noch von der Wahl des Kerns sowie von f (x) dx ab. Um den AMISE möglichst klein zu machen, sollte K so gewählt werden, dass 1 C(K) := µ2 (K)2 ν04 (K) 5 minimal wird. Zunächst bemerken wir, dass C(K) nicht von der Skalierung des Kerns K abhängt. Für eine Skalenfamilie Kδ (x) = K(x/δ)/δ von Kernen gilt ν0 (Kδ ) = R(K)/δ, µ2 (Kδ ) = δ 2 µ2 (K), 8.3 Integrierter mittlerer quadratischer Fehler 119 und somit C(K) = C(Kδ ). Man kann nun den Kern (bzw. einen Repräsentaten der Skalenfamilie) mit minimalem C(K) explizit angeben. Dies ist der sogenannte Epanechnikov-Kern 3 K ∗ (x) = (1 − x2 )1|x|<1 , 4 vgl. etwa REFERENZ! Weitere häufig benutzte Kerne sind K(x) = (1 − |x|)1|x|<1 K(x) = Dreieckskern, x2 )2 1|x|<1 (1 − 25 B(3, 3) K(x) = φ(x) 1 K(x) = 1|x|<1 2 Biweight Kern, Normalverteilungskern, Rechteckskern. Für den Normalverteilungskern K(x) = φ(x) ist Annahme B eines kompakten Trägers nicht erfüllt. Dennoch kann man zeigen, dass Satz 8.3 sowie die asymptotische Formel für den minimalen MISE (79) auch für diesen Kern gelten (REFERENZ!). Die folgende Tabelle vergleicht die Kernkonstante C(K) mit der des optimalen Epanechnikov Kerns. Kern Epanechnikov Dreieckskern Biweight Normalverteilungskern Rechteckskern C(K ∗ )/C(K) 1 0,986 0,994 0,951 0,930 Die Kernwahl hat also sowohl theoretisch als auch praktisch relativ wenig Einfluss auf die Güte der Dichteschätzung. Der Dichte Schätzer ist aber nur so glatt wie der gewählte Kern. Am häufigsten benutzt man den Normalverteilungskern. Wir gehen noch kurz auf den Zusammenhang zwischen Histogramm und Kern-Dichte Schätzer mit dem Rechteckskern ein. Für eine Unterteilung a0 < a1 < . . . < ad , für die alle Daten in (a0 , ad ) liegen, setzte ns = #{k : Xk ∈ (as−1 , as ]}, s = 1, . . . , d. Das Histogramm ist nun der Dichte Schätzer fnHist (x) = d X ns s=1 n · 1 1 (x). as − as−1 (as−1 ,as ] Der Kern-Dichte-Schätzer mit Rechteckskern berechnet sich dagegen zu n #{k : Xk ∈ (x − h, x + h)} 1 1 X 1(−h,h) (x − Xk ) = · . fˆn (x; h) = 2nh n 2h k=1 120 8 NICHTPARAMETRISCHE DICHTESCHÄTZUNG Die Form ist zunächst recht ähnlich zu der eines Histogramms, aber bei dem Kern-Dichte Schätzer wird keine feste Zerlegung des Intervalles betrachtet, sondern diese variieren mit x. Man kan zeigen (REFERENZ), dass der Histogramm Schätzer fnHist (x) nur eine Konvergenzrate von n−2/3 erreichen kann, während fˆn (x, h) für zweimal differenzierbares f die schnellere Rate von n−4/5 erreicht. Wie schwer ist es, f zu schätzen? R Der minimale AMISE in (79) hängt auch von der zu schätzenden Dichte f über f ′′ (x)2 dx ab. Man kann nun untersuchen, wie schwer es ist, eine bestimmte Dichte mit dem Kern-Dichte Schätzer zu schätzen, indem man R diese Größe weiter untersucht. Zunächst bemerken wir, dass f ′′ (x)2 dx von der Skalierung abhängt. Für fδ (x) = f (x/δ)/δ ist Z Z 1 ′′ 2 fδ (y) dy = 5 f ′′ (x)2 dx. δ Ein Vergleich ist aber nur für ein skaleninvariantes Maß sinnvoll. Ein mögliches skaleninvariantes Maß ist etwa Z 1 4 5 D(f ) = σ (f ) f ′′ (x)2 dx , (80) wobei 2 σ (f ) = Z 2 (x − Z xf (x)dx)2 dx. Dann ist in der Tat D(f ) = D(fa ). Die Wahl von σ 2 (f ) in (80) ist aber relativ willkürlich. Man kann die Dichte mit minimalem D(f ) auch explizit angeben (s. REFERENZ). Diese ist f ∗ (x) = 35 (1 − x2 )3 1|x|<1 . 32 Wie schwer es ist, eine Dichte zu schätzen, kann nun in Relation zu f ∗ betrachtet werden. Dichte Beta(4,4) Normal 4 1 4 1 2 N (−1, 9 ) + 2 N (1, 9 ) Gamma(3) Lognormal D(f ∗ )/D(f ) 1 0,908 0,536 0,327 0,053 Die Lognormalverteilung dient daher häufig als Beispiel für eine besonders schwer zu schätzende Dichte. relevante R Befehle Als Option von density kann kernel gesetzt werden (z.B. kernel="epanechnikov"). Default ist der Gauß Kern. Mit hist erhält man ein Histogramm. 8.4 Bandbreitenwahl 8.4 121 Bandbreitenwahl Der Kern-Dichte Schätzer hängt sensitiv von der Wahl der Bandbreite h ab. In der Praxis betrachtet man den Schätzer fˆn (x; h) häufig für verschiedene Bandbreiten. Grob gesprochen kann man sagen: Ist h zu klein, so wird der Schätzer stark oszillieren, ist dagegen h zu groß gewählt, ist der Schätzer zu glatt bzw. flach. Man versucht auch, geeignete Werte der Bandbreite aus den Daten zu schätzen. Meist ist dabei dass Ziel, die MISE optimale Bandbreite oder auch die AMISE optimale Bandbreite hopt in (78) zu schätzen. Manchmal ist dies aber auch nicht unbedingt wünschenswert, etwa bei der Konstruktion von Konfidenzntervallen für f (x) sowie für bestimmte deskriptive Zwecke. Wir beginnen mit Verfahren zur Schätzung der MISE/AMISE optimalen Bandbreite. a. Referenz zur Normalverteilung (normal reference) Hier wählt man hopt optimal für ein normalverteiltes f . Ist f Dichte von N (µ, σ 2 ), dann ist (Beweis) Z 3 f ′′ (x)2 dx = . 1 8π 2 σ 5 Somit ist 8π 12 ν (K) 1 5 0 hopt,norm = σ. 3n(µ2 (K))2 Schätze hopt,norm durch ĥN R 8π 12 ν (K) 1 5 0 σ̂, = 2 3n(µ2 (K)) wobei σ̂ ein Schätzer der Standardabweichung ist. Natürlich ist hopt,norm nur für normalverteiltes f optimal. Da die Dichte der Normalverteilung sehr glatt ist, wird ansonsten hopt,norm tendenziell größer sein als hopt für eine andere Dichte. Man kann daher hopt, normal als ersten Richtwert benutzen, und dann h noch schrittweise verkleinern. b. Least squares cross-validation Bei diesem Verfahren versucht man, direkt eine MISE-optimale Bandbreite zu wählen. Dazu entwickelt man Z Z Z 2 ˆ ˆ ˆ MISE f (·, h) = E f (x, h) dx − 2E f (x, h)f (x)dx + f 2 (x)dx. Um also MISE(fˆ(·, h)) bezüglich der Bandbreite h zu minimieren, genügt es also, Z Z Z 2 2 ˆ ˆ MISE f (·; h) − f (x)dx = E f (x; h) dx − 2E fˆ(x; h)f (x)dx zu minimieren. Die rechte Seite von (81) wird erwartungstreu geschätzt durch Z n 2Xˆ f−i (Xi ; h), LSCV(h) = fˆ(x, h)2 dx − n i=1 wobei fˆ−i (x; h) = 1 X Kh (x − Xj ). n−1 j6=i (81) 122 8 NICHTPARAMETRISCHE DICHTESCHÄTZUNG Hierzu beachte, dass E Z fˆn (x; h)f (x)dx = Z EKh (x − X1 )f (x)dx Z Z = Kh (x − y)f (x)f (y)dx dy = EKh (X1 − X2 ) Dies ist aber offensichtlich der Erwartungswert von fˆ−i (Xi ; h). Man wählt nun ĥLSCV = argminh>0 LSCV(h). Das Wort Cross-Validierung bezieht sich auf die Verwendung der Schätzer fˆ−i (Xi ; h), die ohne die i-te Beobachtung berechnet werden, und dann an dieser Stelle ausgewertet werden. Der Bandbreiten Schätzer ĥLSCV hat eine sehr hohe Variabilität, und wird daher eher selten verwendet. c. Biased cross-validation Hier R ′′ soll2 die AMISE-optimale Bandbreite geschätzt werden. Man betrachtet (77), und ersetzt f (x) dx durch einen Schätzer, der auch die Bandbreite h verwendet. Dazu entwickele Z Z Z 1 X 1 X fˆ′′ (x, h)2 dx = 2 (Kh )′′ (x − Xi )(Kh )′′ (x − Xj )dx + 2 ((Kh )′′ (x − Xi ))2 dx n n i i6=j Nun ist Z ((Kh )′′ (x − Xi ))2 dx = 1 h5 Z (K ′′ )2 (x)dx unabhängig von Xi und man verwendet als Schätzer von R f ′′ (x)2 dx 1 ′′ , h) = R(fˆ′′ (·, h)) − ^ R(K ′′ ) R(f nh5 Als Zielkriterium erhält man BCV(h) = R(K) h4 ′′ , h) ^ + µ2 (k)2 R(f nh 4 und als Bandbreiten Schätzer ĥBCV = argminh>0 BCV(h). Der Schätzer ĥBCV hat zwar eine geringere Varianz als ĥLSCV , überschätzt aber die optimale Bandbreite häufig (hat also einen positiven Bias). d. Weitere Bandbreitenverfahren Es gibt eine Vielzahl von weiteren Bandbreitenwahlverfahren, die etwa mit den Stichworten “direct Plug-in” oder “solve-the-equation” verbunden werden. Man kann Bandbreitenwahlverfahren auch theoretisch untersuchen, und Konvergenzraten gegen die optimale Bandbreite studieren. Für weitere Information siehe etwa Wand und Jones (1996). 8.4 Bandbreitenwahl 123 relevante R Befehle Die Bandbreite wird bei density durch bw=.. gesetzt. Dabei sind folgende Möglichkeiten implementiert: bw="nrd0" und bw="nrd" (Varianten von normal reference), bw="ucd" und bw="bcd" (unbiased und biased cross validation), bw="SJ-ste" und bw="SJ-dpi" (solve-the-equation und direct plug in). Die Bandbreiten können auch separat berechnet werden über die Funktionen bw.nrd, bw.nrd0, bw.ucv, bw.bcv, bw.SJ mit den Optionen method="ste" und method="dpi". Konstruktion von Konfidenzintervallen Es ist nicht immer wünschenswert, die MISE / AMISE-optimale Bandbreite zu benutzen bzw. zu schätzen. Zur Illustration betrachten wir die Konstruktion von Konfidenzintervallen für f (x). Satz 8.5 Unter den Annahmen A, B und C gilt Beweis Schreibe d 1 (nh) 2 fˆn (x; h) − E fˆn (x; h) → N (0, f (x) Z K 2 (z)dz) n 1X (Zk,n − EZk,n ), fˆn (x; h) − E fˆn (x; h) = n k=1 wobei Zk,n = Kh (x − Xk ) unabhängig und identisch verteilt sind (1 ≤ k ≤ n) für jedes n. Somit genügt es, die Lyapunov-Bedingung zu prüfen: Für ein δ > 0 gilt E|Z1,n − EZ1,n |2+δ δ δ n 2 (Var Z1,n )1+ 2 → 0, n → ∞ Zunächste ist nach Lemma 8.2 Var Z1,n f (x) ≈ h Z K 2 (z)dz. Für das unzentrierte Moment gilt E|Z1,n |2+δ = = ≈ 1 h2+δ 1 Z Z |K( x − y 2+δ )| f (y)dy h K(y)2+δ f (x − hy)dy h1+δ Z 1 f (x) K(y)2+δ dy, h1+δ R wobei K(y)2+δ dy < ∞, da K beschränkt ist und kompaktem Träger hat. Weiter gilt nach der Minkowski-Ungleichung 1 1 (E|Z1,n − EZ1,n |2+δ ) 2+δ ≤ (E|Z1,n |2+δ ) 2+δ + E|Z1,n | und nach Hölder 1 E|Z1,n | ≤ (E|Z1,n |2+δ ) 2+δ , 124 8 NICHTPARAMETRISCHE DICHTESCHÄTZUNG also E|Z1,n − EZ1,n |2+δ ≤ 22+δ E|Z1,n |2+δ . Daher ist E|Z1,n − EZ1,n |2+δ δ 2 1+ 2δ n (Var Z1,n ) = O( 1 h1+δ δ · h1+ 2 n δ 2 δ ) = O (hn)− 2 , welches mit Annahme C die Lyapounov Bedingung zeigt. Man kann Satz 8.5 nutzen, um Konfidenzintervalle für E fˆn (x; h) zu konstruieren. Ist q1−α/2 das 1 − α/2 Quantil der Standardnormalverteilung, so ergibt sich q q h fˆn (x; h) ν0 (K)q1−α/2 fˆn (x; h) ν0 (K)q1−α/2 i √ √ fˆn (x; h) − , fˆn (x; h) + (82) nh nh als asymptotisches Konfidenzintervall für E fˆn (x; h). Bei der Berechnung der Kernkonstante ν0 (K) in (82) ist darauf zu achten, dass man den richtig skalierten Kern Kδ der entsprechenden Skalenfamilie (der zur Bandbreite H gehört) wählt. Für den Standardnormalverteilungskern √ (dieser wird bei density verwendet) ergibt sich z.B. ν0 (K) = 1/(2 π). Möchte man Konfidenzintervalle für f (x) konstruieren, so muss man noch den Bias E fˆn (x; h)− f (x) beachten. Hier hat man drei Möglichkeiten. a. Man ignoriert den Bias, und konstruiert nur ein Konfidenzintervall für Kh ∗ f (x). 1 b. Undersmoothing Man wählt h → 0 derart, dass (nh) 2 E fˆ(x; h) − f (x) → 0. Da 1 |E fˆ(x; h) − f (x)| ≈ h2 , muss man h = o(n− 5 ) wählen, also mit kleinere Rate als die optimale Bandbreite hopt . Dies nennt man unterglätten, hier ist es jedoch in der Praxis sehr schwierig, das richtige Maß an Unterglättung zu finden. c. Explizite Bias-Korrektur Man schätzt f ′′ (x) und somit den ersten Term f ′′ (x)h2 µ2 (K) in der Entwicklung des Bias in Lemma 8.1, und subtrahiert, d.h. betrachtet 1 1 (nh) 2 fˆn (x; h) − f (x) − fˆ′′ (x; h̃)h2 µ2 (K)) 2 Nach Bias-Korrektur kann in der Theorie hopt verwendet werden. Das Problem ist jedoch, dass die Schätzung von f ′′ sehr schwierig ist, und eine eigene Bandbreitenwahl erfordert. Somit ist dies Verfahren für die Praxis wenig geeignet. Anzahl der Moden Eine Mode einer Dichte oder allgemeiner einer Funktion ist einfach ein lokales Maximum. Offenbar nimmt tendenziell die Anzahl der Moden von fˆn (·; h) für wachsendes h ab, der Schätzer wird immer glatter und weniger “hügelig”. In der Tat kann man fˆn (·; h) mit verschiedenen Bandbreiten auch zum Studium der Anzahl der Moden von f verwenden. Wir gehen etwas allgemeiner vor. Ein Schätzer für die j-te Ableitung von f ist gegeben durch fˆn(j) (x; h) = n 1 X (j) x − Xj K ( ) nhj+1 h k=1 (83) 8.4 Bandbreitenwahl Setze 125 vj (h, I) := #{Moden von fˆn(j) (·, h) in I}, I ⊂ R, vj (h) := vj (h, R) Für den Normalverteilungskern ist der oben beobachtete tendenzielle monoton fallende Zusammenhang zwischen Bandbreite h und Anzahl der Moden von fˆn (·; h) exakt vorhanden. Satz 8.6 Sei K = φ in (83) der Normalverteilungskern. Dann gilt vj (h) < ∞ ∀h > 0, j = 0, 1, 2, . . ., und vj (·) ist monoton fallend und rechtsseitig stetig. Beweis (j+1) Sei µj+1 (h) = #{Vorzeichenwechsel von fˆn (·; h)}. Es ist φ(j+1) (x) = (−1)j+1 Hj+1 (x)φ(x), j+1 wobei Hj+1 (x) = x + . . . das (wahrscheinlichkeitstheoretische) (j+1)-te Hermite-Polynom ist, also n x − X x − X 1 X k k (j+1) ˆ H fn (x; h) = φ . j+1 j+1 nh h h k=1 (j+1) Somit gilt (−x)j+1 fˆn (x; h) > 0 für |x| groß. Daraus folgt, dass vj (h) = µj+1 (h) , 2 (84) (j+1) und das alle Vorzeichenwechsel von fˆn (x; h) in einem kompakten Intervall liegen. Nun (j+1) ist fˆn (z; h) offenbar als Funktion von z ∈ C holomorph in ganz C. Nullstellen (und somit Vorzeichenwechsel) können sich somit nach dem Identitätssatz der Funktionentheorie nirgends (j+1) (j+1) häufen, da sonst fˆn ≡ 0. Also kann fˆn nur endlich viele Nullstellen und somit auch Vorzeichenwechsel in einem kompaktem Intervall haben, also µj+1 (h) < ∞, und wegen (84) auch vj (h) < ∞. Wegen (84) genügt es, die Monotonie und rechtseitige Stetigkeit für µj+1 (h) zu zeigen. Dazu (j+1) betrachte wir die Fourier-Transformation (charakteristische Funktion) von fˆn (·, h), die sich zu Z (j+1) ˆ fˆn(j+1) (x; h)eitx dx = φ(ht)(−it)j+1 · ecn (t) (·; h) (t) = F fn R berechnet, wobei n ecn (t) = 1 X itXk e n k=1 die empirische charakteristische Funktion bezeichnet. Somit ist für h2 > h1 > 0: F fˆn(j+1) (·, h2 ) (t) = ecn (t) · φ(h2 t) · (−it)j+1 1 Daher ist = ecn (t) · (−it)j+1 · φ(h1 t) · φ((h22 − h21 ) 2 t) 1 = F fˆn(j+1) (·, h1 ) (t) · φ (h22 − h21 ) 2 t 1 fˆn(j+1) (x; h2 ) = (fˆn(j+1) (·, h1 ) ∗ φ ·; (h22 − h21 ) 2 (x), 126 8 NICHTPARAMETRISCHE DICHTESCHÄTZUNG wobei φ(x; σ) die Dichte von N (0, σ 2 ) ist. Da diese total positiv ist, folgt, dass die Faltung 1 mit φ ·; (h22 − h21 ) 2 die Anzahl der Vorzeichenwechsel µj+1 (h) reduziert. Somit ist µj+1 (h) monoton fallend in h. Es bleibt die rechtsseitige Stetigkeit zu zeigen. Wir betrachten etwa gerades j, und es seien (j+1) (j+1) a1 < b1 < . . . < ar < br , so dass fn (ai , h0 ) < 0, fn (bi , h0 ) > 0, also dass jeweils ein (j+1) Vorzeichenwechsel zwischen diesen Punkten liege. Wegen der Stetigkeit von fn (ai , ·) bzw. (j+1) fn (bi , ·) gilt dies auch für h ∈ (h0 , h0 + ε). Daher gilt lim µj+1 (h) ≥ µj+1 (h0 ). h↓h0 Da µj+1 (h) aber monoton fallend ist, muss hier Gleichheit stehen, welches die rechtsseitige Stetigkeit ergibt. Satz 8.6 zeigt, dass für den Normalverteilungskern die sogenannte k-kritische Bandbreite hkrit (k) = inf{h : fˆn (·; h) hat k (oder weniger) Moden} wohldefiniert ist. Die Untersuchung des Dichte Schätzers für verschiedene kritische Bandbreiten k = 1, 2, 3, . . . , fˆn ·; hkrit (k) , ist ein gutes deskriptives Tool, um eine Vorstellung von der Anzahl und der Struktur der Moden von f zu bekommen. Man kann die kritischen Bandbreiten hkrit (k) auch zur Konstruktion eines formalen Tests auf die Anzahl der Moden nutzen, s. Silverman (1981). 8.5 Modifikationen des Kern-Dichte Schätzers Manchmal sind Modifikationen des einfachen Kern-Dichte Schätzers nötig, um die Schätzung konsistent zu machen oder zu verbessern. Wir betrachten einige solche Situationen. a. Randkorrektur Bisher hatten wir angenommen, dass f um x herum zweimal stetig differenzierbar ist. Nun betrachten wir den Fall, dass x ein Randpunkt des Trägers von f ist. Wir nehmen dazu speziell an, dass f (x) = 0 für x < 0, f (x) > 0 für x ≥ 0 und f ist zweimal stetig rechtseitig differenzierbar in 0. Der symmetrische Kern K habe Träger in [−1, 1]. Dann ist für die Kern-Dichte Schätzung E fˆn (x; h) = Kh ∗ f (x) = Z R K(z)f (x − hz)dz = Z min(x/h,1) −1 K(z)f (x − hz)dz Für x = 0 ist speziell Kh ∗ f (0) = Z 0 1 K(z)f (0 − hz)dz = f (0) + O(h), 2 −1 8.5 Modifikationen des Kern-Dichte Schätzers 127 die Schätzung ist also asymptotisch bei 0 verzerrt und unterschätzt f (0). Man betrachtet nun allgemeiner einen Randpunkt (genauer: Folge von Randpunkten) xn = α · h, wobei 0 ≤ α < 1. Dann Z α K(z)f (xn − hz)dz Kh ∗ f (xn ) = −1 1 = f (xn ) · µ0,α (K) − hf ′ (xn )µ1,α (K) + h2 f ′′ (xn )µ2,α (K) + O(h2 ), 2 wobei µi,α (K) = Z α z i K(z)dz. −1 Da für α < 1 in der Regel µ0,α (K) < 1, hat der Schätzer bei einer Folge von Randpunkten einen asymptotischen Bias. Man hat verschiedene Möglichkeiten, diesen zu korrigieren. 1. Renormalisierung. Für xn = α · h, 0 ≤ α < 1, renormalisiere den Schätzer f˜n (xn , h) = 1 nµ0,α (K) n X k=1 Kh (x − Xk ) Dann gilt E f˜n (xn , h) − f (xn ) = −hf ′ (xn ) µ1,α (K) + O(h2 ) µ0,α (K) Man erhält also eine konsistente Schätzung. Da aber µ1,α (K) 6= 0, hat der Bias Ordnung O(h) und nicht O(h2 ), wie im Fall von inneren Punkten. 2. Randkern. Für xn = α · h, 0 ≤ α < 1, benutze den von α abhängigen Randkern Kα (u) = tα (u)K(u)1[−1,α) (u) bei der Konstruktion von fˆn (xn ; h). Dabei erfülle die Funktion tα (u) Z α Z α ntα (n)K(n)dn = 0 tα (n)K(n)dn = 1, (85) −1 −1 In diesem Fall ergibt sich für den Bias wie gewünscht Z α 1 2 ′′ u2 tα (u)K(u)du + o(h2 ), Kα,h ∗ f (xn ) − f (xn ) = h f (xn ) 2 −1 also ein Fehler der Ordnung O(h2 ). Für die Wahl der Funktion tα (n) hat man viele Möglichkeiten. Eine besonders einfache ist ein linearer Ansatz tα (n) = aα + nbα . Setzt man diese Form in (85) ein und integriert aus, erhält man ein lineares Gleichungssystem in aα , bα aα = µ2,α , µ2,α µ0,α − µ21,α bα = − µ1,α . µ2,α µ0,α − µ21,α b. Transformation Angenommen, gegeben seien X1 , . . . , Xn ∼ f , aber die Dichte f sei schwer zu schätzen (etwa 128 8 NICHTPARAMETRISCHE DICHTESCHÄTZUNG die Lognormalverteilung). Dann kann man Yi = T (Xi ) setzten, wobei T eine streng monotone Transformation ist (etwa logarithmieren). Dann gilt für die Dichte g der Yi f (x) = g(T (x)) · T ′ (x). (86) Dies ergibt sich direkt aus P (X1 ≤ x) = P (T −1 (Y1 ) ≤ x) = P (Y1 ≤ T (x)) und Ableiten. Man berechnet nun den Kern-Dichte Schätzer der Yi , und wendet dann (86) an, um folgenden Schätzer für f zu erhalten n 1X Kh (T (x) − T (Xk )) · T ′ (x). fˆnT (x; h) = n k=1 c. lokale und variable Bandbreitenwahl. Man kann auch die Bandbreite im Kern-Dichte Schätzer a. lokal, also in Abhängigkeit von x, oder b. variabel, also in Abhängigkeit der Beobachtung Xi , wählen. Wir wollen hierauf nicht genauer eingehen und verweisen auf Wand and Jones (1996). 8.6 Multivariate Kern-Dichte Schätzung Dichte Schätzung wird besonders zur deskriptiven Analyse univariater Verteilungen genutzt. Man kann aber auch Dichte von d-variaten Zufallsvektoren mit Hilfe der Kern-Dichte Schätzung schätzen. Hier ist besonders der Fall bivariate Fall (d = 2) interessant, für d ≥ 3 ist es häufig schwierig, die Schätzergebnisse zu interpretieren. T Gegeben seien Xi = X11 , . . . , Xid i = 1, . . . , n, unabhängige und identisch verteilte Zufallsvektoren im Rd mit Dichte f , also Z f (x)dx, A ⊂ Rd messbar. P (X1 ∈ A) = A R Für einen d-variaten Kern K : Rd → R, also K ∈ L1 , K(x)dx = 1, sowie eine symmetrisch positiv definite Bandbreitenmatrix H ∈ Rd×d setzt man KH (x) = 1 K H −1 (x) . |H| Dann ist der d-variate Kern-Dichte Schätzer mit Kern K und Bandbreitenmatirx H definiert duch n 1X ˆ KH (x − Xk ). fn (x; H) = n k=1 Häufig konstruiert man den Kern K mit Hilfe eines zugrundeliegenden univariaten Kerns R L : R → R ( L = 1). Es gibt mehrere Möglichkeiten: Q a. Produktkern: K(x) = dk=1 L(xk ), x = (x1 , . . . , xd )T . 1 b. Rotationsinvarianter Kern K(x) = CL,d L((xT x) 2 ), wobei CL,d eine Normierungskonstante 8.6 Multivariate Kern-Dichte Schätzung 129 ist. Der am häufigsten verwendete multivariate Kern ist der Normalverteilungskern, der sowohl ein Produktkern als auch ein rotationsinvarianter Kern ist: 1 1 − xT x . K(x) = d exp 2 (2π) 2 Auch bei der Wahl der Bandbreitenmatrix beschränkt man sich häufig auf eine einfache Diagonalgestalt H = diag(h1 , . . . , hd ), für die sich fˆn (x; H) = n 1 Q j hj n X K k=1 x − X xd − Xkd 1 k1 ,..., h1 hd als Schätzer ergibt, oder sogar H = h · Id , wobei sich der Schätzer zu n 1 X x − Xk fˆn (x; H) = K nhd h k=1 reduziert. Wir wollen nun den mittleren quadratischen Fehler für einen multivariaten Kern-Dichte Schätzer untersuchen. Zunächst erinnern wir dabei an die Multivariate Taylorsche Formel: ist für z → 0 Sei g : Rd → R zweimal stetig partiell differenzierbar, dann 1 g(x + z) = g(x) + grad(g)(x) · z + zT H(g)z + o(zT z), 2 wobei grad(g)(x) = Annahmen: ∂ ∂ g(x), . . . , g(x) , ∂x1 ∂xd H(g)(x) = ∂ ∂ . g(x) ∂xj ∂xk j,k=1,...,d a. Die Dichte f ist zweimal stetig differenzierbar in x ∈ Rd . b. Für die Bandbreitenmatrix gilt H = Hn → 0, n · |H| → ∞, sowie λmax (Hn ) ≤ C, λmin (Hn ) wobei λmax (H) und λmin (H) den größten und kleinsten Eigenwert von H bezeichnen. R c. Der Kern K : Rd → [0, ∞) ist nicht-negativ, hat kompakten Träger, es gelten K = 1 sowie Z Z zK(z)dz = 0, zzT K(z)dz = µ2 (K)Id . Die zweite obige Bedingung lautet ausgeschrieben Z zi2 K(z)dz = µ2 (K), i = 1, . . . , d, Z zi zj K(z)dz = 0, i 6= j. 130 8 NICHTPARAMETRISCHE DICHTESCHÄTZUNG Satz 8.7 Unter den Annahmen a., b. und c. gilt für den mittleren quadratischen Fehler des d-variaten Kern-Dichte Schätzers 2 2 1 1 1 MSE(fˆn (x; H)) = µ22 (K) Spur H 2 H(f )(x) + ν0 (K)f (x)+o Spur(H 2 ) +o( ). 4 n|H| n|H| Beweis Wir berechnen Bias und Varianz des Schätzers. Für den Bias erhält man mit der Taylorschen Formel Z ˆ E fn (x; H) = KH (x − y)f (y)dy Z = K(z)f (x − hz)dz Z 1 = K(z) f (x) − grad(f )(x) · Hz + zT HH(f )(x)Hz + o(zT H 2 z) dz 2 Z Z 1 T K(z) Spur zz HH(f )(x)H dz + o Spur K(z)zzT H 2 dz = f (x) + 2 Z 1 = f (x) + Spur K(z)zzT dzHH(f )(x)H + o(Spur H 2 ) 2 1 = f (x) + Spur µ2 (K)IHH(f )(x)H + o(Spur H 2 ) 2 1 = f (x) + µ2 (K) Spur H 2 H(f )(x) + o(Spur H 2 ), 2 wobei wir in der zweiten Gleichheit die Substitution z = H −1 (x − y) verwendet haben, und die Linearität des Spur-Operator ausgenutzt haben. Für die Varianz ergibt sich Z 1 2 ˆ KH (x − y)f (y)dy − O(1) Var fn (x; H) = n Z 1 1 = K 2 (z)f (x − Hz)dz + O(1) n |H| ν0 (K)f (x) 1 + o(1) . = n|H| Aus Satz 8.7 kann man auch eine Rate für den MSE herleiten. Unter Annahme b. ist λmax (Hn ) = O λmin (Hn ) , daher hat man MSE(fˆn (x; H)) = O(λ4min + 1 ). nλdmin 1 Für λmin ≈ n− 4+d erhält man die Rate 4 MSE(fˆn (x; H)) = O(n− 4+d ). (87) Man kann zeigen, dass dies auch die optimale Rate (über eine Klasse von zweimal differenzierbaren Dichten) ist. Offenbar wird diese konvergenzrate mit wachsendem d langsamer. Dies 8.6 Multivariate Kern-Dichte Schätzung 131 ist bei parametrischen Schätzproblemen nicht der Fall, dort behält man eine n−1 Rate (allerdings werden die Schätzung dennoch schwerer, was sich in größeren Konstanten äußert). Man spricht daher auch in (87) von dem Fluch der Dimension (curse of dimensionality). Für weitere Informationen zur multivariaten Dichte Schätzung (Bandbreitenwahl, Kernwahl, MISE) verweisen wir auf Wand und Jones (1996). relevante R Befehle Die library MASS enthält die Funktion kde2d, die zweidimensionale Dichtenschätzungen durchführt. Es wird der bivariate Normalverteilungskern verwendet, und die Bandbreite ist eine Diagonalmatrix. Dabei ist darauf zu achten, dass der Kern anders skaliert ist als in density mit bw (nämlich wie dort mit der Option width). Daher müssen auch andere komponentenweisen Bandbreiten verwendet werden (etwa width.SJ(DATEN), mit den beiden Möglichkeiten für method). Die geschätzte Dichte kann geplottet werden mit persp, oder interaktiv in der library rgl durch persp3d. 132 9 9.1 9 NICHTPARAMETRISCHE REGRESSION Nichtparametrische Regression Problemstellung und Modelle Die nichtparametrische Regression steht zur linearen und nichtlinearen Regression wie die nichtparametrische Dichteschätzung zur parametrischen Dichteschätzung. Wir betrachten also (Yi , xi )i=1,...,n unabhängig, wobei Yi ∈ R die abhängige Variable und xi ∈ R eine univariate Kovariable sind. Bei der einfachen linearen Regression modelliert man Yi = β0 + β1 xi + εi , wobei Eεi = 0. Somit ist EYi = β0 +β1 xi eine lineare Funktion der Kovariable xi . Allgemeiner können auch endlich viele feste Basisfunktionen betrachtet werden, etwa Polynome p-ten Grades. Dies ergibt Yi = β0 + β1 xi + . . . + βp xp + εi , und dann ist EYi = β0 + β1 xi + . . . + βp xp eine Linearkombination dieser endlich vielen festen Basisfunktionen, und ist daher bis auf endlich viele Parameter bestimmt. Auch bei der nichtlinearen Regression liegen endlich viele Parameter zugrunde, nur dass diese nichtlinear in die Abhängigkeit des Erwartungswertes EYi eingehen. Wir möchten nun einen Zusammenhang der Form Yi = m(xi ) + εi , Eεi = 0, schätzen, wobei m eine glatte, aber ansonsten nicht weiter spezifizierte Funktion ist, die also nicht nur bis auf endlich viele Parameter bestimmt ist. Von einem praktischen Gesichtspunkt her ist nichtparametrische Regression vor allem für univariaten Prädiktor xi nützlich, für multivariate Prädiktoren ergeben sich ähnliche Probleme wie bei multivariater Dichte Schätzung. Wir betrachten folgende nichtparametrische Regressionsmodelle. a. Festes Design. Man hat unabhängige Beobachtungen (Yi , xi )i=1,...,n , wobei xi ∈ R feste Designpunkte sind, und es liegt ein Zusammenhang 1 Yi = m(xi ) + v 2 (xi ) · εi (88) zugrunde, wobei ε1 , . . . , εn unabhängig und identisch verteilt sind mit Eε1 = 0 und Var ε1 = 1. Für die Regressionsfunktion m gilt m ∈ C 1 , und für die Varianzfunktion v gilt v > 0 und v ∈ C 1. EYi = m(xi ), Var Yi = v(xi ) Falls v(xi ) = σ 2 heißt das Modell homoskedastisch, sonst heteroskedastisch. b. Zufälliges Design. Hier hat man unabhängige und identisch verteilte Beobachtungen (Yi , Xi )i=1,...,n nach dem Modell 1 Yi = m(Xi ) + v 2 (Xi ) · εi , (89) 9.2 Lineare Glätter 133 wobei ε1 , . . . , εn unabhängig und identisch verteilt sind mit Eε1 = 0 und Var ε1 = 1, und die X1 , . . . , Xn unabhängig und identisch verteilt und unabhängig von den εj sind. Dann ist E(Y1 |X1 = x) = m(x), Var(Y1 |X1 = x) = v(x), m heißt wieder Regressionsfunktion und v Varianzfunktion. Wir werden uns im Folgenden mit der Schätzung der Regressionsfunktion m im zufälligen Design beschäftigen. 9.2 Lineare Glätter Definition 9.1 Ein Schätzer m̂n (x) für m(x) im nichtparametrischen Regressionsmodell (89) mit zufälligem Design heißt linearer Glätter (linear smoother), falls m̂n (x) = n X Wk (x, X1 , . . . , Xn )Yk , k=1 wobei die Gewichte Wk (x, X1 , . . . , Xn ), k = 1, . . . , n nicht von den Y1 , . . . , Yn abhängen. Die Definition des lineare Glätters überträgt sich auf das feste Design (88), indem man einfach Xi durch xi ersetzt. Wir betrachten einige Beispiele R für lineare Glätter, die auf Kern-Glättung basieren. Dazu sei K ein symmetrischer Kern ( K = 1) und h > 0 eine Bandbreite. a. Nadaraya-Watson Schätzer. Dieser ist definiert durch 1 Pn k=1 Yk Kh (x − Xk ) NW n m̂n (x, h) = , fˆn (x, h) (90) und ist somit ein linearer Glätter mit Gewichten k K( x−X h ) Wk (x) = Pn j=1 K( x−Xj h ) Die Form (90) ist motiviert über die Formel E(Y1 |X1 = x) = R yfY X (y, x)dy . fX (x) (91) Man erhält (90), indem man fX und fXY durch Kern-Dichte Schätzer mit Kern K bzw. Produktkern basierend auf K ersetzt und in (91) im Zähler die Integration mit dem geschätzen fˆXY ausführt. b. Gasser-Müller Schätzer Man ordnet die Design-Punkte X(1) < X(2) < . . . < X(n) der Größe nach an. Die zu X(i) gehörige Beobachtung in den Yk ’s wird mit Y[i] bezeichnet, 134 9 NICHTPARAMETRISCHE REGRESSION d.h. X(i) , Y[i] , i = 1, . . . , n, sind gerade die Paare (Xi , Yi ). Setzte nun für Z δk Kh (x − t)dt, Wk (x, X1 , . . . , Xn ) = δk−1 wobei 1 δk = (X(k) + X(k+1) ), k = 1, . . . , n − 1, 2 und δ0 = −∞ sowie δn = ∞. Der Gasser-Müller Schätzer ist dann gegeben durch GM m̂ (x; h) = n X Y[k] Wk (x, X1 , . . . , Xn ). k=1 c. Lokale Polynom-Schätzer Die Idee beim lokalen Polynomschätzer ist, lokal um x ein Polynom p-ten Grades an die Regressionsfunktion m anzupassen, wobei die Lokalisierung durch Kern-Gewichte erfolgt. Für einen Grad p ≥ 0 setze T β̂(x; p, h) = β̂0 (x; p, h), . . . , β̂p (x; p, h) , so dass β̂(x, p, h) = argminβ∈Rp+1 n X k=1 2 Kh (Xk − x) Yk − β0 − β1 (Xk − x) − . . . − βp (Xk − x)p . Der Vektor β̂(x; p, h) berechnet sich nach der Formel für den gewichteten kleinste Quadrate Schätzer zu β̂(x, p, h) = (XxT Wx (h)Xx )−1 XxT Wx (h)Y, wobei Xx 1 X1 − x · · · .. .. = . . 1 Xn − x · · · Wx (h) = (X1 − x)p .. , . (Xn − x)p diag(Kh (X1 − x), . . . , Kh (Xn − x)). Beachte, dass Xx vollen Rang hat (als Teilmatrix der Vandermonde Matrix), falls die Xi alle verschieden sind. Man erhält nun den lokalen Polynom Schätzer von m der Ordnung p (mit Kern K und Bandbreite h) als m̂n (x; p, h) = β̂0 (x; p, h). (92) Dies ist ein linearer Glätter, wobei die Gewichte in der erster Zeile von (XxT Wx (h)Xx )−1 XxT Wx (h) stehen. Man erhält auch noch Schätzungen der j-ten Ableitung von m (j ≤ p durch m̂kn (x; p, h) = β̂k (x; p, h) · k!. Wir betrachten zwei Spezialfälle in (92). Der lokal-konstante Schätzer (p = 0) ist einfach wieder der Nadaraya-Watson Schätzer. Für p = 1 erhält man den lokal-linearen Schätzer. Dieser hat explizit folgende Gestalt. Es ist n X s (x, h) s1,n (x, h) (Xk − x)j Kh (Xk − x). XxT Wx (h)Xx = 0,n , wobei sj,n (x, h) = s1,n (x, h) s2,n (x, h) k=1 9.3 Mittlerer quadratischer Fehler 135 Dann ist (XxT Wx (h)Xx )−1 1 = s2,n (x, h)s0,n (x, h) − s21,n (x, h) s2,n (x, h) −s1,n (x, h) −s1,n (x, h) s0,n (x, h) und n X s2,n (x, h) − s1,n (x, h)(Xk − x) Kh (Xk − x)Yk . m̂n (x, 1, h) = s2,n (x, h)s0,n (x, h) − s21,n (x, h) k=1 Der lokal-lineare Schätzer ist der am häufigsten verwendete Schätzer für m. Er ist noch hinreichend einfach und hat bessere statistische Eigenschaften als etwa der Nadaraya-Watson Schätzer oder der Gasser-Müller Schätzer, wie wir im Folgenden sehen werden. Wir erwähnen noch, dass sich alle Schätzer auch auf das feste Design anwenden lassen, indem man einfach Xi durch xi ersetzt. relevante R Befehle Die Funktion ksmooth berechnet den Nadaraya-Watson Regressionsschätzer. Die library KernSmooth enthält die Funktion locpoly zur Berechnung des lokalen Polynom Schätzers. Die Bandbreite kann mit dpill für den lokal-linearen Schätzer mit Gaußschen Kern geschätzt werden. 9.3 Mittlerer quadratischer Fehler In diesem Abschnitt wenden wir uns dem mittleren quadratischen Fehler (MSE) der obigen Schätzer, insbesondere des lokal-linearen Schätzers, im zufälligen Design zu. Wir betrachten dabei den bedingten MSE, gegeben die Designpunkte. Dieser ist für einen Schätzer m̂n (x) an der Stelle x0 definiert durch 2 M SE m̂n (x)|X1 , . . . , Xn = E m̂n (x) − m(x) |X1 , . . . , Xn . Zunächst betrachten wir den MSE an einem inneren Punkt, und machen die Annahmen a. Der Kern K ist symmetrisch, ≥ 0 und hat kompakter Träger in [−1, 1]. b. Die Dichte f der Xi ist stetig bei x und f (x) > 0. c. Die Varianzfunktion σ 2 (·) ist stetig in x. d. Die Regressionsfunktion m ist zweimal stetig differenzierbar in x. e. Für die Bandbreite gilt h → 0, nh → ∞. Wir führen die folgende vereinfachende Bezeichnungsweise für Kernkonstanten ein: µj = Z j x K(x)dx, νj = Z y j K 2 (y)dy. (93) 136 9 NICHTPARAMETRISCHE REGRESSION Satz 9.2 Unter den Annahmen a.-e. gilt für den mittleren quadratischen Fehler des lokal-linearen Schätzers Z σ 2 (x) ν0 M SE(m̂(x; 1, h)|X1 , . . . , Xn ) = K 2 (y)dy + op (nh−1 ) f (x) nh 2 ′′ 4 m (x) µ22 + op (h4 ). +h 4 Der erste Term entspricht dabei der asymptotischen Varianz, der zweite dem asymptotischen quadrierten Bias. Wir beginnen mit einigen Vorbereitungen. Setzte s0,n (x, h) s1,n (x, h) T Sn (x, h) = Xx Wx (h)Xx = . s1,n (x, h) s2,n (x, h) Dann ist E β̂(x; 1, h)|X1 , . . . , Xn = Cov(β̂(x; 1, h)|X1 , . . . , Xn ) = wobei −1 T Xx Wx (h)m, Sn (x, h) −1 −1 T Sn (x, h) Xx Wx (h)ΣWx (h)Xx Sn (x, h) , m = m(X1 ), . . . , m(Xn ) , (94) Σ = diag(σ 2 (X1 ), . . . , σ 2 (Xn )). Lemma 9.3 Unter den Vorraussetzungen des Satzes gilt Beweis Es ist sj,n (x, h) = n · f (x)hj µj 1 + op (1) . Z (y − x)j Kh (y − x)/h f (y)dy Z j = nh sj K(s)f (x + hs)ds Esj,n (x, h) = n = nhj µj f (x)(1 + o(1)), und Var sj,n (x, h) ≤ nE (X1 − x)2j Kh2 (X1 − x) Z = n (y − x)2j Kh2 (y − x)f (y)dy = O(nh2j−1 ) Somit 1 sj,n (x, h) = Esj,n (h) + Op (Var sj,n (h)) 2 = nhj µj f (x) · 1 + o(1) + op ((nh)−1/2 ), und mit Benutzung von Annahme e. die Behauptung. 9.3 Mittlerer quadratischer Fehler 137 Beweis von Satz 9.2 Aus dem Lemma folgt µ0 µ1 Sn (x, h) = nf (x) · H H 1 + pp (1) , µ1 µ2 H = diag(1, h). Dann ist auch (Beweis!) Sn−1 (x, h) −1 1 −1 µ0 µ1 H −1 1 + op (1) . H = µ1 µ2 nf (x) (95) Wir betrachten zunächst die bedingte Kovarianz in (94). Es ist ∗ s (x, h) s∗1,n (x, h) XxT Wx (h)ΣWx (h)Xx = ∗0,n =: Sn∗ (x, h) s1,n (x, h) s∗2,n (x, h) wobei s∗j,n (x, h) = n X i=1 Kh2 (Xi − x)σ 2 (Xi )(Xi − x)j . Mit einer Rechnung wie in Lemma 9.3 kann man zeigen s∗j,n (x, h) = nhj−1 f (x)σ 2 (x)νj 1 + op (1) , wobei die Kern Konstanten νj in (93) definiert sind, und somit n 2 ν0 ν1 ∗ Sn (x, h) = σ (x)f (x)H H 1 + op (1) . ν ν h 1 2 Hieraus und aus (95) erhält man σ 2 (x) 1 −1 µ0 µ1 −1 v0 v1 µ0 µ1 H −1 1+op (1) H Cov β̂(x; 1, h)|X1 , . . . , Xn = µ1 µ2 v1 v 2 µ1 µ2 f (x) nh Somit ist (µ0 = 1, µ1 = 0) Var m̂(x; 1, h)|X1 , . . . , Xn σ 2 (x) ν0 = f (x) nh Z K 2 (y)dy 1 + op (1) . T Als nächstes betrachten wir den Bias. Setze β(x) = m(x), m′ (x) . Dann ist E β̂(x; 1, h) − β(x)|X1 , . . . , Xn = Sn−1 (x, h) XxT Wx (h) m − Xx β(x) . Die Einträge von Wx (h) sind nur für Xi ∈ [x − h, x + h] ungleich Null. Für solche Xi ist m′′ (x) 1 1 + op (1) , m(Xi ) − m(x) − (Xi − x)m′ (x) = (Xi − x)2 m′′ (ξi ) = (Xi − x)2 2 2 wobei oP (1) unabhängig von dem Index i ist. Daher ist XxT Wx (h)(m − Xx β) = nf (x)h2 m′′ (x) µ2 1 + op (1) , ·H µ3 2 138 9 NICHTPARAMETRISCHE REGRESSION und somit ′′ 2 m (x) E β̂(x; 1, h) − β(x)|X1 , . . . , Xn = h Insbesondere 2 ·H −1 −1 µ2 µ0 µ1 1 + op (1) . µ3 µ1 µ2 m′′ (x) Bias m̂(x; 1, h)|X1 , . . . , Xn = h2 µ2 1 + op (1) . 2 Dies beendet den Beweis. Der Beweis kann übertragen werden auf den Schätzer mkn (x; p, h) der k-ten Ableitung. Dabei hängt die Formel für den Bias aber davon ab, on die Differenz zwischen Grad des lokalen Polynomschätzers und zu schätzender Ableitung ungerade ist (wie oben) oder gerade ist (wie unten für den Nadaraya-Watson Schätzer. (s. Fan und Gijbels 1996) Bemerkung. Wir geben noch die Ergebnisse für asymptotische Varianz und asymptotischen Bias für den Nadaraya-Watson Schätzer und den Gasser-Müller Schätzer im zufälligen Design an. a. Für den Nadaraya-Watson Schätzer σ 2 (x) ν0 1 + op (1) , f (x) nh 2m′ (x)f ′ (x) h2 µ2 m′′ (x) + Bias m̂N W (x, h)|X1 , . . . , Xn = 1 + op (1) . f (x) 2 Var m̂N W (x, h)|X1 , . . . , Xn = b. Für den Gasser-Müller Schätzer Var m̂GM (x, h)|X1 , . . . , Xn Bias m̂GM (x, h)|X1 , . . . , Xn = = 3 σ 2 (x) ν0 · 1 + op (1) , 2 f (x) nh (m′′ (x)µ2 2 h 1 + op (1) . 2 Man erkennt also, dass der Nadaraya-Watson Schätzer asymptotisch die gleiche Varianz wie der lokal-lineare Schätzer hat, aber dass sein Bias einen zusätzlichen Term enthält, der von der Design Dichte f abhängt. Dagegen hat der Gasser-Müller Schätzer asymptotisch den gleichen Bias wie der lokal-lineare Schätzer, aber seine Varianz ist asymptotisch um den Faktor 3/2 größer. Bemerkung. Wir gehen noch kurz auf das Verhalten bei festem Design ein. Seien etwa 0 < x1 < . . . < xn < 1 mit einer zweimal stetig differenzierbaren Designdichte f , d.h. xi = Z i/n f (t) dt. 0 Die Resultate für den lokal-linearen Schätzer und den Nadaraya-Watson Schätzer bleiben dann gültig, man muss nur die Dichte der Xi durch die Designdichte ersetzten, und die oP durch o. Bei der Varainz des Gasser-Müller Schätzers verschwindet dagegen der Faktor 3/2, d.h. Bias und Varianz an einem inneren Punkt sind im festen Design asymptotisch gleich denen des lokal-linearen Schätzers. 9.3 Mittlerer quadratischer Fehler 139 Verhalten am Rand Nun betrachten wir den MSE an einem Randpunkt. Dazu ersetzten wir die Annahmen b.-d. durch Annahmen b.’ Die Dichte f der Xi habe Träger in [0, ∞), es sei f (0) > 0, f sei auf [0, ∞) stetig und zweimal differenzierbar. c.’ Die Varianzfunktion σ 2 (·) ist rechtsseitig stetig in 0. d. Die Regressionsfunktion m ist zweimal rechtsseitig stetig differenzierbar in 0. Wir betrachten nun einen Randpunkt der Form xn = α · h, 0 ≤ α < 1, und führen die Kernkonstanten Z 1 Z 1 z l K 2 (z)dz (96) z l K(z)dz, vl,α = µl,α = −α ein. Dann gilt für den lokal-linearen Schätzer −α Satz 9.4 Unter den Annahmen a., b.’-d.’,e. gilt für den mittleren quadratischen Fehler des lokal-linearen Schätzers an dem Randpunkt xn M SE(m̂(xn ; 1, h)|X1 , . . . , Xn ) = σ 2 (0) µ22,α v0,α − 2µ1,α µ2,α v1,α + µ21,α v2,α nhf (0) (µ0,α µ2,α − µ21,α )2 m′′ (0) µ2 − µ1,α µ3,α 2 2,α +h4 2 µ0,α µ2,α − µ21,α +op (nh−1 ) + op (h4 ). Wiederum enspricht der erste Term dabei der asymptotischen Varianz und der zweite dem asymptotischen quadrierten Bias. Der lokal-lineare Schätzer macht also eine automatische Randkorrektur, man erhält die gleichen Raten wie für einen inneren Punkt, nur mit veränderten Konstanten. Beweis Der Beweis von Satz 9.4 verläuft analog zu dem von Satz 9.2, man muss nur die Kernkonstanten µj und νj durch die Randkernkonstanten (96) ersetzten. Wir skizzieren die wesentlichen Schritte. Es ist Z 1 y − xn Esj,n (xn , h) = n (y − xn )j Kh f (y)dy h h Z 1 = nhj z j K(z)f (hz + xn )dz −α = nhj µj,α f (0) 1 + o(1) , und auch sj,n (xn , h) = nhj µj,α f (0) 1 + oP (1) . 140 9 NICHTPARAMETRISCHE REGRESSION Ähnlich ist Somit erhält man s∗j,n (xn , h) = nhj−1 f (0)σ 2 (0)vj,α 1 + oP (1) . Cov β̂(xn ; 1, h) | X1 , . . . , Xn Insbesondere ist Var m̂n (xn ; 1, h)|X1 , . . . , Xn σ 2 (0) 1 µ2,α −µ1,α −1 = H −µ1,α µ0,α nhf (0) (µ0,α µ2,α − µ21,α )2 v v µ2,α −µ1,α · 0,α 1,α H −1 1 + oP (1) v1,α v2,α −µ1,α µ0,α σ 2 (0) µ22,α v0,α − 2µ1,α µ2,α v1,α + µ21,α v2,α 1 + o (1) . = P nhf (0) (µ0,α µ2,α − µ21,α )2 Um den asymptotischen Bias zu berechnen, zeigt man zunächst, dass m′′ (0) µ2,α 1 + oP (1) . XxT Wx (h)(m − Xx β) = nf (0)h2 ·H µ3,α 2 Dann erhält man ′′ 2 m (0) Bias(β̂(xn ; 1, h)|X1 , . . . , Xn ) = h 2 ·H Daher Bias(m̂(xn ; 1, h)|X1 , . . . , Xn ) = h2 −1 −1 µ2,α µ0,α µ1,α 1 + oP (1) . µ3,α µ1,α µ2,α m′′ (0) µ22,α − µ1,α µ3,α 1 + oP (1) . 2 2 µ0,α µ2,α − µ1,α Bemerkung a. Für Nadaraya-Watson gelten W Var m̂N (x; h)|X1 , . . . , Xn n W Bias m̂N (x; h)|X1 , . . . , Xn n = σ 2 (0) 1 v0,α 1 + oP (1) , 2 f (0) nh µ0,α = O(h). Der Nadaraya-Watson Schätzer ist also am Rand auch asymptotisch konsistent, hat aber eine langsamere Rate als der lokal-lineare Schätzer. Allerdings ist die Konstante in der Varianz des Nadaraya-Watson Schätzers tendenziell kleiner als diejenige des lokal-linearen Schätzers, welches für endliche Stichproben einen merklichen effekt hat. b. Man kann zeigen, dass der Gasser-Müller Schätzer (ähnlich wie eine Kern-Dichte Schätzer ohne Randkorrektur) am Rand asymptotisch verzerrt ist. 9.4 Minimax-Schätzung Um die Qualität eines Schätzers zu messen, betrachtet man seine Konvergenzeigenschaften gleichmäßig über bestimmte Funktionenklassen. Um optimale Schätzer über solche Funktionenklassen zu bestimmen, muss man diese maximale Risiko über eine Klasse von Schätzern 9.4 Minimax-Schätzung 141 minimieren. Wir betrachten eine Klasse von zweimal stetig differenzierbaren Funktionen, und minimieren das zugehörige Risiko über die Klasse der linearen Glätter. Dies führt auf das sogenannte lineare minimax Risiko. Wir betrachten die nichtparametrische Regressionsmodell mit zufälligem Design Yi = m(Xi ) + σ(Xi )εi , wobei die Dichte der Xi , f , sowie die Varianzfunktion σ 2 festgehalten werden, und m über die Funktionenklasse |z − x0 |2 . C2 (x0 ) = m : m(z) − m(x0 ) + m′ (x0 )(z − x0 ) ≤ C 2 für einen festen Punkt x0 ∈ R variiert. Wir nehmen weiter an, dass a. f stetig ist und f (x0 ) > 0, b. σ(·) in x0 stetig ist. Somit betrachten wir das lineare Minimax-Risiko in einem inneren Punkt. Dieses ist für einen linearen Glätter m̂n (x) der Form m̂n (x) = n X Wk (x, X1 , . . . , Xn )Yk k=1 definiert durch RL n, C2 (x0 ) = Satz 9.5 Es ist inf sup E m̂n linear m∈C2 (x0 ) 2 m̂n (x0 ) − m(x0 ) |X1 , . . . , Xn . √ 3 − 1 Cσ 2 (x0 ) 45 RL (n, C2 ) = 15 5 1 + op (1) , 4 nf (x0 ) und für den lokal linearen Schätzer m̂(x0 ; 1, h) mit Bandbreite 15σ 2 (x ) 1 5 0 h= f (x0 )C 2 n (97) und dem Epanechnikov-Kern K gilt: 2 sup E m̂n (x0 ; 1, h) − m(x0 ) |X1 , . . . , Xn = RL (n, C2 ) 1 + op (1) . m∈C2 Der lokal-lineare Schätzer mit Epanechnikov Kern und optimaler Bandbreite erreicht also asymptotisch das lineare Minimax Risiko. Beweis Satz 97 besagt für den lokal-linearen Schätzer E m′′ (x )h2 µ2 2 1 v0 σ 2 (x0 ) 0 2 m̂n (x0 ; 1, h) − m(x0 ) |X1 , . . . , Xn = 1 + op (1) . + 4 nh f (x0 ) 142 9 NICHTPARAMETRISCHE REGRESSION Für den Epanechnikov Kern berechnen sich die Kern-Konstanten zu µ2 = 81 , v0 = 53 . Da in C2 (x0 ) die Ableitung m′′ (x0 ) ≤ C, ergibt sich mit der speziellen Wahl von h in (97) ergibt sich √ 3 − 1 Cσ 2 (x0 ) 4 2 (98) sup E((m̂n (x0 , 1, h) − m(x0 )) |X1 , . . . , Xn ) = 15 5 ( ) 5 1 + op (1) 4 nf (x0 ) m∈C2 Für Details zu diesem Argument siehe Fan (1995). Es genügt nun offenbar zu zeigen, dass die rechte Seite von (98) eine asymptotische untere Schranke für das lineare Minimax Risiko ist. Nun betrachten wir einen allgemeinen linearen Glätter. Man zerlegt das Risiko in quadrierten Bias und Varianz n X 2 2 = Wj (x0 , X1 , . . . , Xn )m(Xj ) − m(x0 ) E m̂n (x0 ) − m(x0 ) |X1 , . . . , Xn + j=1 n X Wj2 (x0 , X1 , . . . , Xn )σ 2 (Xj ) (99) j=1 Um das Risiko in (99) von unten über alle linearen Schätzer zu beschränken, benutzten wir Lemma 9.6 Seien a, c ∈ Rn , ci > 0, b ∈ R. Dann ist T 2 minn ((w a − b) + w∈R n X ci wi2 ) = i=1 und das Minimum wird angenommen durch wj = Beweis des Lemmas. 1+ b2 P 2 1 + j (aj /cj ) aj b 2 i (ai /ci ) cj P √ Durch wi → wi / ci reduziere auf √ minn ((wT ã − b)2 + wT w), ãi = ai / ci w∈R Weiter sei Q orthogonal so, dass Qã = ãT ã · e1 . Durch w → Qw gehe über zu minn (wT ãT ãe1 − b)2 + wT w . w∈R Dann offenbar korrekt, da ((ãT ã)2 + 1)w12 − 2bãT ãw1 + b2 → min ergibt w1 = b(ãT ã) . 1 + (ãT ã)2 Wir setzten nun den Beweis des Satzes fort. Wenn wir das Lemma auf (99) anwenden, ergibt sich, dass für eine Funktion m ∈ C2 (x0 ) und für alle linearen Glätter m̂n E((m̂n (x0 ) − m(x0 ))2 |X1 , . . . , Xn ) ≥ 1+ m2 (x0 ) 2 2 j=1 m (Xj )/σ (Xj ) Pn (100) 9.4 Minimax-Schätzung 143 Da im linearen Minimax-Risiko das supremum über alle Funktionen m ∈ C2 (x0 ) gebildet wird, erhält man eine untere Abschätzung, wenn man in (100) spezielle, von n abhängige (y) Funktionen m einsetzt. Wähle speziell m(y) = mn = 21 b2n (1 − C(y − x0 )2 /bn )+ . Dann ist mn ∈ C2 (x0 ), und daher nach (100) 2 RL (n, C2 (x0 )) ≥ min E m̂n (x0 ) − mn (x0 ) |X1 , . . . , Xn m̂n linear m2n (x0 ) Pn ≥ (101) 1 + j=1 m2n (Xj )/σ 2 (Xj ) Für bn = o(1) ergibt sich E m2n (X1 ) σ 2 (X1 ) = = = = Weiter ist b4n 4 Z Z n X m2 (Xj ) j=1 √ 1/ c (1 − Cz 2 )2 f (x0 + bn z)dz √ 2 −1/ c σ (x0 + bn z) Z √ b5n f (x0 ) 1/ c (1 − Cz 2 )2 dz 1 + o(1) √ 2 4 σ (x0 ) −1/ c 4 5 f (x0 ) 1 √ 1 + o(1) bn 2 15 σ (x0 ) c b5n 4 Var Somit [(1 − C(y − x0 )/b2n )+ ]2 f (y)dy σ 2 (y) σ 2 (Xj ) m2n (X1 ) = O(b8n ) σ 2 (X1 ) =n 4 5 f (x0 ) 1 √ 1 + oP (1) bn 2 15 σ (x0 ) c und mit (101) und der Wahl von mn erhalte RL (n, C2 ) ≥ 1+ b4n 4 f (x0 ) 1 4 5 √ 15 nbn σ 2 (x0 ) c 1 + oP (1) . Maximiere die linke Seite über bn und erhalte mit √ 15 cσ 2 (x0 ) 1 bn = ( )5 nf (x0 ) die Abschätzung √ 3 − 1 cσ 2 (x0 ) 4 RL (n, C2 ) ≥ 15 5 ( ) 5 1 + oP (1) . 4 nf (x0 ) (102) Da für den lokalen Polynomschätzer in (98) Gleichheit steht und 2 RL (n, C2 (x0 )) ≤ max E m̂n (x0 , 1, h) − m(x0 ) |X1 , . . . , Xn , m∈C2 (x0 ) folgt Gleichheit in (102) und die Behauptung des Satzes. 144 9 NICHTPARAMETRISCHE REGRESSION Definition 9.7 Für einen linearen Glätter m̂n definiert man die lineare Effizienz durch 5 RL (n, C2 ) 4 . eff L (m̂n ) = 2 supm∈C2 (x0 ) E (m̂n (x0 ) − m(x0 )) |X1 , . . . , Xn Wir geben noch die lineare Effizienz (ohne 1 + oP (1) Faktor) der obigen Schätzer an. Kern Epanechnikov Normal lokal-linear 1 0,9512 Gasser-Müller 2/3 0,6341 Nadaraya-Watson 0 0 Wir bemerken, dass sich die Effizienz von 0 bei dem Nadaraya-Watson Schätzer durch den zusätzlichen Term im Bias ergibt, welche die erste Ableitung m′ (x0 ) beinhaltet, die in C2 (x0 ) beliebig groß werden kann. Abschließende Bemerkungen Themen wie Bandbreitenwahl, Kernwahl und Bandbreitenwahl und Konfidenzintervalle können ähnlich wie für Dichteschätzung behandelt werden. Wir verweisen dafür auf die Literatur. 145 A Verzeichnis der Sätze 1.1 lineare Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 Erwartungswert quadratischer Formen . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 Lineare Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.9 Craig und Sakamoto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3 Gauß-Markov-Aitken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 146 A VERZEICHNIS DER SÄTZE 6.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 6.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 6.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 8.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 8.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 8.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 9.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 9.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 9.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141