Logistic Regression 1.1 Introduction
Transcrição
Logistic Regression 1.1 Introduction
1.1. INTRODUCTION 0 Logistic Regression 1.1 Introduction Only partially translated at this time b Example: Shrinked blood vessels Y: shrinked: yes (1) / no (0) erkl.: Breath Volume (Vol) and Frequency (Rate) Ziel: c P hY = 1 | Vol, Ratei modellieren! (1) P hYi = 1i = hhxi (2) , xi (m) , ..., xi i 1 Rate 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 1.1. INTRODUCTION 0.1 0.0 0.5 1.0 1.5 0.3 0.5 0.7 2.0 Vol 2.5 0.9 3.0 3.5 4.0 1.1. INTRODUCTION (1) P hYi = 1i = hhxi 2 (2) , xi (m) , ..., xi i d Why is an ordinary linear regression inadequate? (m) (2) (1) + Ei Yi = β0 + β1xi + β2xi + . . . + βmxi • What is the error term Ei ? (m) (2) (1) EhYii = β0 + β1xi + β2xi + . . . + βmxi We have P hYi = 1i = EhYii. −→ Same form o.k. • But: Estimated values may become < 0 and > 1 ! −→ Transformation of Yi ? 2 values remain 2 values! −→ Transformation of EhYii = P hYi = 1i! 1.1. INTRODUCTION e Modell. Logit-Funktion ghπi = log 3 D π 1−π E (1) ghP hYi = 1ii = ηi = β0 + β1xi (2) + β2xi (m) + . . . + βmxi η: linearer Prädiktor”. ” f Beispiel: ghP hY = 1ii = −9.53 + 3.88 · Vol + 2.65 · Rate . 4 0.0 0.2 0.4 Y 0.6 0.8 1.0 1.1. INTRODUCTION ● ●● −5 ● −4 ● ● −3 ● ● ● −2 ●● ● −1 ●● ● ● 0 ● 1 2 3 4 5 6 7 1.1. INTRODUCTION g Diskriminanzanalyse: Yi Gruppen-Zugehörigkeit (j) Xi multivariate Beobachtungen. Logistische Regression: 1. Schätzen: π̂i 2. Zuordnen: Ŷ = 1 , wenn η̂i > 0 ( π̂i > 0.5 ) 5 1.1. INTRODUCTION h Further Applications: • Toxikology: Toxic matter deadly for mice? What concentration? • Medicine: Treatment successful? • Failure of (technical) devices, • Bugs in (technical) products, • Occurence of characteristics in animals or plants, • client scoring, General: 2 Groups. 6 1.2. CONSIDERATIONS ABOUT THE MODEL 1.2 Considerations about the Model 7 a Same flexibility as linear regression. Frequently: factors (nominal variables) as explanatory v. b Example: Assessment of work situation. Yi happy (1), unhappy (0) (j) Region, Age, Gender, Race Xi Only 1 factor −→ 2 × k-cross table NE Mid-Atl. S Midwest NW SW Pacific total unzufrieden zufrieden 738 1161 166 406 514 916 749 1240 711 1221 482 971 209 465 3569 6380 total 1989 572 1430 1899 1932 1453 674 9949 1.2. CONSIDERATIONS ABOUT THE MODEL c Gruppierte Daten: m` Beob. Yi zu gleichen xi = x e` : P Yi Yek ∼ Bhmk , πk i EhYe`/m`i = π` Ye` = i : x = x e i ` −→ Logistische Regression: ghπ`i = η` d Beispiel Überleben von Frühgeburten. 247 Säuglinge. Erklärende Variable: Geburtsgewicht. Klassen von je 100 g 1 2 3 4 5 6 7 8 9 10 n Surv.no Surv.yes Weight 10 14 27 22 32 28 22 26 34 32 10 12 18 14 9 7 3 7 3 3 0 2 9 8 23 21 19 19 31 29 550 650 750 850 950 1050 1150 1250 1350 1450 8 CONSIDERATIONS ABOUT THE MODEL Survival 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.2. 500 600 700 800 900 1000 1100 Weight 1200 1300 9 1400 1500 1.2. CONSIDERATIONS ABOUT THE MODEL e Transformierte Beobachtungen. EhYe`/m`i = π` , ghπ`i = linearer Prädiktor. ghYe`/m`i ≈ linearer Prädiktor. Was tun mit Y`/m` = 0 oder = 1 ? gh0i = −∞ , gh1i = ∞. Abhilfe: Empirische Logits + * e` + 0.5 Y e` = log . Z m` − Ye` + 0.5 −→ Gewöhnliche multiple Regression mit Z` ? −→ Näherung. 10 CONSIDERATIONS ABOUT THE MODEL 11 0.1 2.75 2.80 2.85 2.90 2.95 log10(Gewicht) 3.00 3.05 3.10 3.15 Y 0.7 0.5 0.3 0 −1 Max.Likelihood Kleinste Quadrate −2 emp.logit(Y) 1 2 0.9 1.2. 1.2. CONSIDERATIONS ABOUT THE MODEL 12 f Interpretation of Coefficients? Need following concepts: odds P hYi = 1i odds = 1 − P hYi = 1i π = 1/4 : odds 1:3 ( failure is 3 × more frequent ) log(odds) = ghYi = 1ii, g: Logit-Funktion. exphηi log(odds) = η −→ Wahrsch. π = g −1hηi = 1+exphηi . G−1 : logistische ” Funktion”. P (j) Logistische Regression: log(odds) = linearer Prädiktor j βj xi . P (j) πi = logistische Funktion h j βj xi i. 1.2. CONSIDERATIONS ABOUT THE MODEL 13 g Odds ratio (Doppelverhältnis): Vergleich zweier Beobachtungen log oddshx1i oddshx2i = loghoddshx1ii − loghoddshx2ii = η1 − η2 = (x1 − x2)β Koeffizient βj : Vergrösserung von x(j) um 1 erhöht odds ratio um Faktor eβj . h Beispiel Ader-Verengung: Wert für Vol = 0.5, Rate = 1.75 log(odds) = −9.56 + 3.88 · 0.5 + 2.65 · 1.75 = −2.85 −→ odds = 0.0578 , g −1(−2.85) = 0.0546 Vergleich Vol = 1.5, Rate = 1.75: odds ratio: e3.88 = 48.4 −→ odds = 0.0578 · 48.4 = 2.80 , 2.80/3.80 = 0.73 1.2. CONSIDERATIONS ABOUT THE MODEL 14 12 i Model with Latent Variable = Schwellenwert-Modell. 1 1 1 0 1 0 0 0 00 0 0 00 0 1 1 1 0 0 1 1 1 0 0 0 0 1 11 1 1 0 0 0 0 0 0 1 1 1 0 0 2 4 0 0 1 1 c latente V. 6 8 10 1 1 1 0 2 4 6 x 8 10 1.2. CONSIDERATIONS ABOUT THE MODEL 15 βe + Ei Zi = xT iD E e πi = P hYi = 1i = P hZi ≥ ci = P Ei ≥ c − xT i β X (j) = 1 − F c − β0 + βj xi j F : kumulative Verteilungsfunktion des Zufallsfehlers Ei −1hηi = βi mit g β = [βe0 − c, βe1, . . . , βem] ⇒ P hYi = 1i = g −1hxT i 1 − F h−ηi Ei ∼ logistische Vt.: logistische Regression Ei ∼ Normal-Vt.: Probitmodell Ei ∼ Extremwertvt.: Komplementäres log-log Modell 1.3. 1.3 ESTIMATION AND TESTS 16 Estimation and Tests a Method of Maximal Likelihood. There are programs! b Log-Likelihood: DY E X m` y` π` (1 − π`)m`−y` y` P hYe` = y`i = log ` ` X X m` = + log y` loghπ`i + (m` − y`) logh1 − π`i ` ` y` ``hye; βi = log mit logithπ`i = xT i β P P Ungrupp. Daten: m` = 1 . ``hye; βi = yi=1 loghπii+ yi=0 logh1−πii. 1.3. ESTIMATION AND TESTS c* Schätzung: ∂`hye; βi/∂βj = = = = ∂ loghπ`i ∂ logh1 − π`i + (m` − y`) y ` ` ∂βj ∂βj X 1 ∂π` 1 y` − (m` − y`) ` π` 1 − π` ∂βj X y`(1 − π`) − (m` − y`)π` dg −1hη`i (j) · x e` ` π`(1 − π`) dη` X (y` − m`π`) x e(j) ` X ` da dg −1hηi/dη = exphηi/(1 + exphηi)2 = π (1 − π ) . Schätzgleichung: X ` (y` − m` π b`) x e` = 0 17 1.3. ESTIMATION AND TESTS f Beispiel Ader-Verengung. Call: glm(formula = Y ~ Vol + Rate, family = binomial, data = d.adern) Deviance Residuals: ... Coefficients: Value Std. Error z_appr. Pr(>|z|) Signif (Intercept) -9.529 3.2140 -2.96 0.003 ** Vol 3.882 1.4202 2.73 0.006 ** Rate 2.649 0.9095 2.91 0.004 ** (Dispersion Parameter for Binomial family taken to be 1 ) Null Deviance: 54.04 on 38 degrees of freedom Residual Deviance: 29.77 on 36 degrees of freedom Number of Fisher Scoring Iterations: 5 Correlation of Coefficients: (Intercept) Vol Vol -0.9358 Rate -0.9228 0.7631 18 1.3. ESTIMATION AND TESTS 19 g Residuen-Devianz b . b = 2 ``(M ) − ``hye ; βi Dhy ; πi Maximale erreichbare Log-Likelihood ( π e` = y`/m` ): X m` (M ) `` = log + y` loghy`i ` y` +(m` − y`) loghm` − y`i − m` loghm`i . h Modelle vergleichen: Likelihood-Ratio-Tests. Test-Statistik: e ; πb(K), πb(G)i = Dhy ; πb(K)i − Dhy ; πb(G)i = 2(``(G) − ``(K)) Dhy asymptotisch chiquadrat-verteilt, wenn das kleine Modell stimmt. 1.3. ESTIMATION AND TESTS 20 i Residuen-Devianz vergleicht geschätztes Modell mit max. Mod. −→ Anpassungstest” ” Achtung: Geht nur bei nicht zu kleinen m` −→ grupp. Daten. j Kleinstes Modell: πi für alle Beobachtungen gleich. D E D EP P π e ` + log ``(0) = ` log m ei ` y` + n logh1 − π y 1− π e ` P mit π e= ` y`/n. Null-Devianz: Dhy ; π e i = 2 ``(M ) − ``(0) −→ Gesamt-Test für das Modell. (H0 : alle βs =0!) 1.4. 1.4 RESIDUEN-ANALYSE Residuen-Analyse a Rohe Residuen (response residuals) b R` = Ye`/m` − π b` , π b` = g −1hx eT` βi p (P ) Pearson residuals: R` = R` π b`(1 − π b`)/m` Deviance residuals: Beitrag der i-ten Beobachtung zur Devianz Working residuals: Berechnung der logist. Regr. via iterativ gewichtete Kl.Qu. (vgl. nichtlin. Regr.) −→ lineare Näherung −→ Residuen : working residuals”. ” b Grafische Darstellungen: Q-Q- (normal) plot meist unnütz! 21 1.4. RESIDUEN-ANALYSE 22 c Tukey-Anscombe-Diagramm: −1 −0.5 raw residual 0.0 0.5 Pearson residual 0 1 2 3 Rohe Res. / geschätzte πi oder Arbeitsres. / lin. Prädiktor braucht Glättung. 0.0 0.2 0.4 0.6 estimated pi 0.8 1.0 0.0 0.2 0.4 0.6 estimated pi 0.8 1.0 1.4. RESIDUEN-ANALYSE 23 −1.5 −1.0 −0.5 lr 0.0 0.5 1.0 1.5 Survival ~ Weight 0.2 0.4 0.6 lf 0.8 1.4. e RESIDUEN-ANALYSE Partial residual plots”: ” (j) bj x(j) − Konst.) plus geeignete Residuen Effekte” von xi ( = β i ” (j) gegen xi . 24 RESIDUEN-ANALYSE 25 −2 −2 Partial for Age −1 0 Partial for Weight −1 0 1 1 2 Survival ~ Weight + Age + Apgar1 800 1000 1200 Weight 1400 0 2 4 Apgar1 6 20 25 30 Age Partial for Apgar1 −1 0 1 600 −2 1.4. 8 35 1.4. RESIDUEN-ANALYSE regr regr(formula = Survival ~ Weight + Age + Apgar1, data = t.d, family = binomial) Terms: coef stcoef t.ratio df Chi2 p.value (Intercept) -8.484190 NA NA 1 NA NA Weight 0.003791 1.0065 2.2780 1 22.535 0.000 Age 0.165297 0.4519 1.1254 1 4.999 0.025 Apgar1 0.142989 0.3179 0.9123 1 3.289 0.070 deviance df p.value Model 82.72 3 0 Residual 236.56 243 NA Null 319.28 246 NA Dispersion parameter taken to be 1. Family is binomial. AIC: 244.6 Number of Fisher Scoring iterations: 5 26 RESIDUEN-ANALYSE 27 Y~Gewicht + Alter + Apgar1 119 5 2 119 218 208 237 224 196 122 165 146 158 11 0 1 218 208 165 237 224 196 122 st.res( Y ) −2 −1 0 res( Y ) −10 −5 82 5 22 14 −3 −15 68 171 39 −4 −20 202 92 −2 −1 0 1 2 Linear Predictor 3 4 6 118 93 225 14 68 171 39 202 92 0.01 0.03 0.05 hat diagonal 0.07 5 119 5 119 218 208 196 224237 218 208 224 122237 196 165 Residuals −10 −5 0 165 171 −20 202 92 0 50 100 150 sequence 200 250 17168 39 −15 68 −15 39 5 1422 202 −20 5 1422 92 600 800 1000 1200 Gewicht 1400 Jul 15,00/5:14 | | 0 122 res( Y ) −10 −5 1.4. RESIDUEN-ANALYSE 28 5 0 Residuals −10 −5 −15 −20 −20 −15 Residuals −10 −5 0 5 Y ~ Gewicht + Alter + Apgar1 24 26 28 Alter 30 32 0 1 2 3 4 5 Apgar1 6 7 8 9 0 Residuals −10 −5 Jul 15,00/5:15 | | −15 −20 −15 Residuals −10 −5 0 5 22 5 20 −20 1.4. 0 1 2 3 4 5 6 Apgar5 7 8 9 10 6.8 6.9 7.0 7.1 7.2 7.3 pH 7.4 7.5 7.6 1.4. RESIDUEN-ANALYSE 29 Call: regr(formula = cbind(Survival.1, Survival.0) ~ Weight, data = t.d, family = binomial) Terms: coef stcoef t.ratio df F p.value (Intercept) -4.560648 NA NA 1 NA NA Weight 0.005087 1.540 3.145 1 47.98 0 deviance df p.value Model 74.61 1 0.0000 Residual 12.44 8 0.1327 Null 87.05 9 NA Dispersion parameter estimated to be 1.555. AIC: 45.43 Number of Fisher Scoring iterations: 4 Family is binomial. RESIDUEN-ANALYSE 30 cbind(Survival.1, Survival.0)~Weight 0.5 5 5 1.0 7 res( Y ) −0.5 0.0 st.res( Y ) −0.5 0.0 0.5 7 3 9 −1.0 1 −1.5 8 1 0.2 0.3 0.4 0.5 0.6 fitted 0.7 0.8 0.9 0.16 0.18 0.20 0.22 0.24 hat diagonal 0.28 0.30 7 8 1 1 Jun 14,00/1:43 | | −1.0 −1.0 Residuals −0.5 0.0 7 0.26 5 0.5 5 0.5 8 0.14 res( Y ) −0.5 0.0 1.4. 8 1 2 3 4 5 6 sequence 7 8 9 10 600 700 800 900 1100 Weight 1300 2.1. POISSON-REGRESSION 2 Verallgemeinerte Lineare Modelle 2.1 Poisson-Regression b Beispiel Schiffs-Havarien. Y Anzahl Schaden-Ereignisse, X Anzahl Betriebs-Monate M, Schiffs-Typ T: 0, 1 Baujahr-Periode C: 60, 65, 70, 75 Betriebs-Periode O: 0, 1 T C O M Y 1 2 3 0 0 0 0 1 0 127 63 1095 0 0 3 13 14 1 1 60 60 65 ... 70 75 1 1 13099 7117 44 18 31 POISSON-REGRESSION 0 1960−74 1975−79 1 50 50 0 1 60 32 60 2.1. 10 1 50 0 100 0 0 0 0 1 1 0 1 10 1 20 1 30 0 40 Anz.Schaeden 20 30 40 1 200 500 1000 2000 5000 Betriebsmonate 20000 50000 2.1. c POISSON-REGRESSION Yi ∼ Phλii EhYii = λi = g −1hxii g hEhYiii = ηi = xT i β g: log ghλi = loghλi ⇒ E D (1) (m) β x β x β T m i EhYii = λ = exp xi β = e 0 · e 1 i · ... · e (1) xi e e = β0 · β1 e multiplikative Effekte! (2) (m) x x e e · β2 · ... · βm 33 2.1. POISSON-REGRESSION 34 f Beispiel: loghEhYiii = β0+βM loghMii+βT Ti+βP Pi+γ1·(C1)i+γ2·(C2)i+γ3·(C3)i loghMi: Anz. Havarien proportional zu Anz. Betriebsmonate g Anzahlen: gruppierte Daten” ” 2.2. 2.2 a DAS GRUNDLEGENDE MODELL Das grundlegende Modell g hEhYiii = ηi = xT i β g: Link-Funktion b Verteilung von Y ? Binomial, Poisson, normal, Gamma, ... −→ Exponentialfamilie! 35 2.2. DAS GRUNDLEGENDE MODELL 36 c Exponentialfamilie f hy ; θ, φ, ωi = exp θ: φ: ω: b: c: yθ − bhθi ω + chy ; φ; ωi φ kanonischer Parameter. Dispersions-Parameter, Stör-Parameter. Gewicht bei gruppierten Daten. Welche Verteilung? Normierung auf gesamte W.=1 d Es gilt: µ = EhY i = b0hθi , (mit geeigneter Funktion V ). φ φ varhY i = b00hθi · = V hµi · ω ω 2.2. DAS GRUNDLEGENDE MODELL 37 e Normalverteilung: log D f hy ; µ, σ 2i E √ 1 = − logh 2π degσi − 2 = 2 yµ − 1 µ 2 σ2 y−µ σ 2 √ y2 − − logh 2π degσi 2 (2σ ) θ = µ φ = σ2 bhθi = θ2/2 chy ; φi = −y 2/(2φ) − (1/2) logh2π deg φi 2.2. DAS GRUNDLEGENDE MODELL 38 ek /mk . g Binomial-Verteilung: Zielgrösse Yk = Y log hP hY = yii = log = y log m my + (my ) loghπi + m logh1 − πi − (my ) logh1 − πi π 1−π m + logh1 − πi m + log my θ = loghπ/(1 − π )i ω = m m chy ; φi = log my bhθi = logh1 + eθ i b0hθi = π b00hθi = π (1 − π ) 0-1-Variable: m = 1 . 2.2. DAS GRUNDLEGENDE MODELL 39 i Link-Funktion. Inverse Link-Funktion h soll unmögliche Werte vermeiden: ghµi = µ, wenn EhY i beliebig ghµi = loghµi, wenn EhY i > 0 , µ i,wenn 0 ≤ EhY i ≤ 1 ghµi = logithµi = logh (1−µ) j Kanonische Link-Funktion”: η = ghµi = θ = (b)−1hµi Wähle g = (b)−1 ! ” Normalverteilung ghµi = µ Poissonverteilung ghµi = loghµi Binomialverteilung ghµi = logithµi Vorteile: Existenz und Eindeutigkeit, einfachere Schätzgleichungen 2.3. 2.3 SCHÄTZUNGEN UND TESTS 40 Schätzungen und Tests b Likelihood. ω X i T βii yiθhxT βi − bhθhx ``hβi = + chyi; φ; ωii i i i φ X = yi · loghλii − λi − log(yi!) i X T T = yi loghe(xi β)i − e(xi β) − log(yi!) i c Maximum-Likelihood-Schätzung: shβi = ∂``hβi/∂β = X i sihβi . 2.3. SCHÄTZUNGEN UND TESTS * Poisson-Regression j te Komponente der Scorefunktion: ∂``ihβi ∂``ihθi ∂θi ∂µi ∂ηi (j) si hβi = = · · · ∂βj ∂θi ∂µi ∂ηi ∂βj 1 (j) θ i · eηi · xi = (yi − e ) · µi 1 (j) (j) = (yi − µi) · · µi · xi = (yi − µi) · xi µi 41 2.3. SCHÄTZUNGEN UND TESTS 42 bj s(j)hβi = 0 −→ β Normalgleichungen für gewichtete Kleinste Quadrate Gewichte und Residuen” hängen von β ab ! ” Algorithmus: iteratively reweighted least squares” ” −→ Es kann vorkommen, dass das Programm keine geeigneten Startwerte findet! d Schätzung: e Dispersionsparameter: Schätzung nach Max.Lik., mit Korrekturfaktor wegen Freiheitsgraden. f Verteilung der geschätzten Parameter: Asymptotik ⇒ Normalverteilung (z-Test). V = ... βb ≈∼ N hβ, mxV /ni 2.3. SCHÄTZUNGEN UND TESTS g summary(glm(...)) Call: glm(formula = Y ~ TYPE + factor(C) + OPER + log(MONTHS), family = poisson, data = d.ship) Deviance Residuals: ... Coefficients: Value Std. Error z_appr. Pr(>|z|) Signif (Intercept) -6.6109 1.2744 -5.19 0.000 *** TYPE -0.6569 0.3262 -2.01 0.044 * factor(C)1 -0.5556 0.1470 -3.78 0.000 *** factor(C)2 0.1242 0.1038 1.20 0.231 factor(C)3 0.2965 0.1129 2.63 0.009 ** OPER 0.4585 0.1359 3.37 0.001 *** log(MONTHS) 1.0825 0.1550 6.99 0.000 *** Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion Parameter for Poisson family taken to be 1 ) Null Deviance: 267.3 on 13 degrees of freedom Residual Deviance: 3.434 on 7 degrees of freedom Number of Fisher Scoring Iterations: 3 43 2.3. SCHÄTZUNGEN UND TESTS 44 h Residuen-Devianz Vergleich des gefitteten Models mit Maximal möglichem” Modell, d.h. für jede ” Beobachtung ein Parameter: b) b = 2(``(M ) − ``hβi Dhy ; µi X b ) − bhθeii + bhθhxT βii b βi = 2ωi yi(θei − θhxT i i i θei = Parameterwert, der am besten zu yi passt. i Poisson-Regression: θei = log(yi) X bi = 2 yi(loghyii − loghµ Dhy ; µ bii) − eloghyii + eloghµbii i X loghyii − yi + µ bi = 2 yi i loghµ bii 2.3. SCHÄTZUNGEN UND TESTS j Vergleich von Modellen. Likelihood-Ratio-Test e ; µb(K), µb(G)i = Dhy ; µb(K)) − Dhy ; µb(G)) = 2(``(G) − ``(K)) Dhy Gesamt-Test: null deviance – residual deviance. e ; µb(0), µi Dhy b = Dhy ; µb(0)) − Dhy ; µb) = 2(``(G) − ``(0)) 45 2.3. SCHÄTZUNGEN UND TESTS 1. Likelihood-Quotienten-Test: Devianz-Differenz H0 : Modell K mit p Parametern H1 : Modell G mit r > p Parametern G L Teststatistik 2 · log K = 2(``(G) − ``(K)) L Verteilung unter H0 : χ2 r−p 2. Vergleich mit maximalem Modell: Residuen-Devianz Dhyb; µi b H0 : Angepasstes Modell mit p Parametern H1 : Maximales Modell m mit nk Parametern Teststatistik Dhyb; µi b = 2(``(M ) − ``hµi b) Verteilung unter H0 : χ2 n−p (Gruppierten Daten!) 46 2.3. SCHÄTZUNGEN UND TESTS 3. Gesamt-Test: Vergleich von Null Devianz und Residuendevianz H0 : Null Modell mit einem Parameter H1 : Angepasstes Modell mit p Parametern Teststatistik Dhyb; µ b0i − Dhyb; µi b = 2(``hµi b − ``hµb0i) Verteilung unter H0 : χ2 p−1 47 2.3. SCHÄTZUNGEN UND TESTS > r.ship1 <- glm(Y~TYPE + factor(CONS) + OPER + log(MONTHS), data=d.ship,family=poisson) > summary(r.ship1,corr=F) Call: glm(formula = Y ~ TYPE + factor(CONS) + OPER + log(MONTHS), family = poisson, data = d.ship) Coefficients: Value Std. Error z_appr. Pr(>|z|) Signif (Intercept) -6.6109 1.2744 -5.19 0.000 *** TYPE -0.6569 0.3262 -2.01 0.044 * factor(CONS)1 -0.5556 0.1470 -3.78 0.000 *** factor(CONS)2 0.1242 0.1038 1.20 0.231 factor(CONS)3 0.2965 0.1129 2.63 0.009 ** OPER 0.4585 0.1359 3.37 0.001 *** log(MONTHS) 1.0825 0.1550 6.99 0.000 *** Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ (Dispersion Parameter for Poisson family taken to be 1 ) Null Deviance: 267.3 on 13 degrees of freedom Residual Deviance: 3.434 on 7 degrees of freedom Number of Fisher Scoring Iterations: 3 > 1-pchisq(3.434,7) 0.8421659 48 1 2.4. 2.4 ÜBERGROSSE STREUUNG Übergrosse Streuung a Ablehnung des Modells (residual deviance): ⇒ over-dispersion. b Neues Modell: φ > 1 Keine entsprechende Verteilung −→ Quasi-Modelle”, Quasi-Likelihood”. ” ” c V hµi = φµ(1 − µ) resp. V hµi = φµ für übermässig streuende Binomial- respektive Poisson-Zielgrössen. −→ Dispersionsparameter schätzen statt fixieren. P ωi(yi−µbi)2 1 b φ = n−p V hµ i i 49 2.4. ÜBERGROSSE STREUUNG b bleiben gleich d Parameterschätzer β q Konfidenzintervalle um den Faktor b breiter φ b < 1 ? – φ < 1 ist unplausibel! e Was, wenn φ 50 2.5. 2.5 • • • • RESIDUEN-ANALYSE 51 Residuen-Analyse Rohe Residuen oder response residuals: Ri = Yi − µ bi p (P ) = Ri/ V hµ Pearson-Residuen: Ri bii (W ) Arbeits-Residuen (working residuals): Ri = Ri · g 0hµ bi. √ (D) = signhyi − µ bii di Devianz-Residuen: Ri P 2 P loghyii Poisson-Regression: Dhy ; µ bi =: i di b i = i 2 yi loghµb i − yi + µ i 2.5. RESIDUEN-ANALYSE 52 a Residuen-Analyse: • • • • (W ) oder Linearität: Arbeitsresicuen Ri b + r(W ) vs ηbi . adjustierte Beobachtungen yei = xT β i i Residuenvarianz: φ f 1/2X e (X eW fX e )−1X eT W f 1/2 (?) Hutmatrix: W Residuenplot mit glatten Kurven: – Tukey-Anscombe-Plot – Beobachtungen vs fitted values – Partielle Residuen-Plots 3.1. MODELLE 3 Geordnete diskrete Zielgrössen 3.1 Modelle a Anwendungen: • Beurteilung von sehr schlecht bis sehr gut, • gruppierte Häufigkeiten, • quantitative, klassierte Grösse, etc. 53 3.1. MODELLE 54 b Beispiel: Lokale Anaesthesie des Armes. Welche erklärenden Variablen beeinflussen den Erfolg? Y suc.deg Erfolg in 4 Klassen: 1: schmerzvoll, ... 4: Kein Schmerz X medic Medikamentdosis napplic Anzahl Einstiche (Intervall-Skala) anest2: Anästesist/in (Faktor), moon: Mondphase (Faktor) ... 1 3 4 8 9 ... anest2 suc.deg A0 A2 A2 A0 A2 ... 1 3 3 1 4 ... suc.deg 1 2 3 4 A0 28 18 23 25 A2 4 10 13 36 A1 6 1 6 8 3.1. MODELLE 55 c Latente Variable, Z kontinuierlich Yi = 0 ⇐⇒ Zi ≤ α1 Yi = k ⇐⇒ αk < Zi ≤ αk+1 Yi = k∗ ⇐⇒ αk∗ < Zi k∗ Schwellenwerte: α1 < α2 < . . . < αk∗ . P hYi ≤ ki = P hZi ≤ αk i , k = 1, . . . , k∗ 1. Annahme: Latente Variable hat z.B. logistische (Fehler-) Verteilung 2. Annahme: Multiple lineare Regression für latente Variable MODELLE 56 2 4 latente V. 6 8 10 3.1. 2 4 6 x 8 10 3.1. MODELLE 57 d Modell Zi = β0 + X (j) xi βj + Ei j γk := P hYi ≥ ki = P hZi ≥ αk i = P hEi ≥ αk − (β0 + xT βi) D D E E = 1 − FE αk − (β0 + xT β ) = F−E xT β −(αk − β0) ghγk i = xT β −(αk − β0) f Schwellenwerte nicht gleich-abständig. Schätzen! g Kumulatives Modell: P hYi ≥ ki = P hYi = k ∗i + . . . + P hYi = ki 3.1. MODELLE 58 Anzahl{i|Yi=k & xi=x`} Ye`,k = Multinomialverteilung Mk∗ hm, πi: m`=Anzahl{i|xi=x`} Multinomialverteilung = mehrparametrige Exponentialfamilie genauer: betrachte Ye `/m` h Gruppierung: • • • Erwartungsvektor: π1, . . . , πk∗ Wahrscheinlichkeiten P hY ` = y `i ∗ (1) m`y`(1) (2) m`y`(2) (k∗) m`y`(k ) = (π` ) ( π` ) · ... · (π` ) (1) (L) (m`y` )!...(m`y` )! m` ! πk = P hYi = ki aus dem Modell der latenten Variablen. −→ Multivariates generalisiertes lineares Modell 3.1. MODELLE 59 i Wettverhältnisse (odds) (1) (m) P hY ≥ k | xi x x oddshY ≥ k | xi = = exphαk i(exphβ1i) · · · (exphβmi) . P hY < k | xi Odds Ratio oddshY ≥ k | x1i = exph−(x1 − x2)T βi oddshY ≥ k | x2i sind für alle Schwellenwerte αk gleich! ⇒ proportional odds model. 3.1. MODELLE 60 j* komplementäre Log-Log-Funktion” ” ghγi = log h − logh1 − γii , 0<γ<1 Zuverlässigkeits- und Überlebenszeit-Studien: Weibull-Verteilung. Logarithmierte Ausfall- oder Überlebenszeiten: Gumbel-Verteilung. Proportional hazards, Cox-Regression. Für zensierte Daten brauchbar! SCHÄTZUNGEN UND TESTS 3.2. 3.2 61 Schätzungen und Tests c R-Funktion polr Call: polr(formula = ordered(suc.deg) ~ medic + age + bmi.gr + napplic + anest2 + expence + moon, data = d.anest.lu, na.action = na.omit) Coefficients: Value Std. Error t value medic -0.088959000 0.031276473 -2.8442785 age 0.005610906 0.008526959 0.6580196 bmi.gr21to28 -0.825546649 0.384865654 -2.1450255 bmi.grgt28 -0.697811976 0.539368704 -1.2937569 napplic 0.896180981 0.218809357 4.0957160 anest2a1 1.118096186 0.596838858 1.8733636 anest2a2 1.475949108 0.399248382 3.6968193 expence 0.181347910 0.182372903 0.9943797 moonneutral 0.165380216 0.346301994 0.4775607 moonvoll -0.911484405 0.481794990 -1.8918511 Intercepts: Value Std. Error t value 1|2 -3.1091 1.3802 -2.2526 2|3 -2.0922 1.3664 -1.5312 3|4 -0.8735 1.3656 -0.6396 Residual Deviance: 418.8633 AIC: 444.8633 3.2. SCHÄTZUNGEN UND TESTS 62 d drop1 Single term deletions Model: ordered(suc.deg) ~ medic + bmi.gr + napplic + anest2 + moon Df AIC LRT Pr(Chi) <none> 442.54 medic 1 448.71 8.17 0.004264 ** bmi.gr 2 443.69 5.15 0.076107 . napplic 1 458.29 17.74 2.526e-05 *** anest2 2 452.15 13.61 0.001111 ** moon 2 445.24 6.70 0.035081 * --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Vergleich mit gewöhnlicher Regression: ähnliches Resultat. 3.3. 3.3 b Yi MULTINOMIALE ZIELGRÖSSEN Multinomiale Zielgrössen ungeordnete Kategorien −→ Multinomiales Logit-Modell X P hYe` = k | x`i (j) log = β0k + βjk x` . j P hYe` = 0 | x`i βjk > 0 : Präferenz für Zielkategorie k vor der Referenzkategorie 0 . 63 3.3. MULTINOMIALE ZIELGRÖSSEN c R: library(nnet); multinom(...) Call: multinom(formula = Wersoll ~ Alter.lin + Geschlecht, data = d.umweltumfrage, weights = Freq) Coefficients: (Intercept) Alter.lin Geschlechtw Staat -0.40372 0.0026276 -0.19487 beide -1.20102 -0.0022776 -0.24129 Std. Errors: (Intercept) Alter.lin Geschlechtw Staat 0.13697 0.0029070 0.097437 beide 0.19513 0.0042460 0.140090 Residual Deviance: 3913.0 AIC: 3925.0 64 3.3. d MULTINOMIALE ZIELGRÖSSEN k∗ · m statt k∗ + m Parameter!! e Schätzung: • getrennte Schätzung der k∗ Logit-Modelle • simultane Lösung der k∗ Schätzgleichungen f Anwendung: Diskriminanzanalyse mit mehr als 2 Kategorien 65 5.1. EINLEITUNG 5 Eine und zwei kategorielle Variable 5.1 Einleitung a Umfragen: Fragen mit Auswahlantworten Medizin: Diagnose, Risikogruppen, Behandlungsart Biologie: Blütenfarbe, Blattform, Art Technik: Geräte-Ausfälle: Ursache, Hersteller 66 5.1. EINLEITUNG b Kategorielle Variable oder nominale V., Faktor: m mögliche Werte ohne natürliche quantit. Interpretation. – Bewertungen (Bonitur) wenig / mittel / viel oder schlecht / mittel / gut oder gar nicht bis sehr einverstanden – Klassierte Daten (Alter, Vermögen, ...) Oft geordnet. Hier wird Ordnung meist nicht verwendet. 67 5.1. EINLEITUNG c Beispiel Umfrage zum Umweltschutz. Hauptverantwortung für den Umweltschutz: bei den Einzelnen / beim Staat / bei beiden. Beeinträchtigung durch Umweltschadstoffe. überhaupt nicht / etwas / ziemlich / sehr beeinträchtigt. Schulbildung: (1) Volks-, Hauptschule ohne Lehrabschluss; (2) mit Lehrabschluss; (3) weiterbildende Schule ohne Abitur; (4) Abitur, Hochschulreife, Fachhochschulreife; (5) Studium (Universität, Akademie, Fachhochschule) 68 5.1. EINLEITUNG 69 d Zusammenfassen in Tabellen: 1-, 2-, ...-dimensional Beispiel Umfrage. Beeinträchtigung (B) nicht etwas zieml. sehr Schule (A) Summe ungelernt Lehrabschl. ohne Abi. Abitur Studium 212 434 169 79 45 85 245 146 93 69 38 85 74 56 48 20 35 30 21 20 355 799 419 249 182 Summe 939 638 301 126 2004 5.1. e EINLEITUNG −→ Häufigkeitsdaten (frequency data): entstehen als Zus.fassung ursprünglicher Beob. v. diskreten Var. Urspr. Beob. meistens als stoch. unabhängig vorausgesetzt! Fragestellungen betreffen die ursprünglichen Variablen. Zähldaten (count data): Ursprüngliche Beobachtungen sind Anzahlen. Diese Anzahlen können irgendwie zustande kommen. 70 5.1. EINLEITUNG f Fragestellungen: 1. Unterscheidung von abhängiger V. ( Antwortfaktor”) und ” Ausgangsvariablen (erklärende) −→ Logistische Regr., Multinomiale R., Kumulative Logits g 2. Zusammenhänge”: Variablen gleichberechtigt (Multivar. St.) ” −→ Loglineare Modelle (ebenfalls GLiM) 71 5.2. MODELLE FÜR KREUZTABELLEN 5.2 Modelle für Kreuztabellen 72 a Notation Variable B 1 1 2 Variable A h r P n11 n21 ... nh1 ... nr1 2 3 n12 n13 . . . n22 n23 . . . ... nh2 . . . ... nr2 . . . n+1 n+2 . . . k n1k n2k ... nhk ... nrk s . . . n1s . . . n2s ... . . . nhs ... . . . nrs n+k . . . n+s P n1+ n2+ ... nh+ ... nr+ n 5.2. MODELLE FÜR KREUZTABELLEN 73 b Brauchen Wahrscheinlichkeits-Modell. P hA = h, B = ki =: πhk , P h,k πhk = 1 Variable B 1 1 2 Variable A h r P π11 π21 ... πh1 ... πr1 2 3 π12 π13 . . . π22 π23 . . . ... πh2 . . . ... πr2 . . . π+1 π+2 . . . Randverteilungen von A, B: πh+ , π+k . k π1k π2k ... πhk ... πrk s . . . π1s . . . π2s ... . . . πhs ... . . . πrs π+k . . . π+s P π1+ π2+ ... πh+ ... πr+ n 5.2. MODELLE FÜR KREUZTABELLEN (Nhk zufällig!) Beeinträchtigung (B) nicht etwas zieml. sehr 74 c Schätzung π bhk = Nhk /n. Summe ungelernt Lehrabschl. Schule ohne Abi. (A) Abitur Studium 10.6 21.7 8.4 3.9 2.2 4.2 12.2 7.3 4.6 3.4 1.9 4.2 3.7 2.8 2.4 1.0 1.7 1.5 1.0 1.0 17.7 39.9 20.9 12.4 9.1 Summe 46.9 31.8 15.0 6.3 100.0 5.2. MODELLE FÜR KREUZTABELLEN 75 π d Bedingte Vert. von B, geg. A: πk|h = P hB = k | A = hi = π hk . h+ Schätzung: Beeinträchtigung (B) nicht etwas zieml. sehr Summe ungelernt Lehrabschl. Schule (A) ohne Abi. Abitur Studium 60 54 40 32 25 24 31 35 37 38 11 11 18 22 26 6 4 7 8 11 100 100 100 100 100 Summe 47 32 15 6 100 5.2. MODELLE FÜR KREUZTABELLEN 76 Lehre ohne Abi Abitur Studium 0 0 0 0 0 1 2 3 4 ungelernt 100 200 100 50 50 5.2. e MODELLE FÜR KREUZTABELLEN 77 πhk Wahrscheinlichkeiten für eine Beobachtung. n Beobachtungen −→ Nhk . Verteilung? Multinomiale Vert. [N11, N12, ..., Nrs] ∼ Mhn, π11, π12, ..., πrsi P hN11 = n11, N12 = n12, ..., Nrs = nrsi = n! n11!n12!...nrs! n n nrs π1111 π1212 , ..., πrs multinomial sampling f Geschichtete Stichprobe. Randtotale von A fest, Nh+ = nh+ . −→ r unabhängige Stichproben [Nh1, Nh2, ..., Nhs] ∼ Mhnh+, πh1, πh2, ..., πhsi , independent multinomial sampling. unabh. für h = 1, ..., r 5.2. g MODELLE FÜR KREUZTABELLEN 78 N zufällig −→ einfaches Modell! Regentropfen auf Kontingenztafel” ” −→ Modell der unabhängigen Poisson-Vert. (Poisson sampling), Nhk ∼ Phπhk · λi , unabhängig für h = 1, ..., r und k = 1, ..., s P hN11 = n11, N12 = n12, ..., Nrs = nrsi = Y λnhk hk e−λhk n ! h,k hk 5.2. h MODELLE FÜR KREUZTABELLEN N festhalten, bedingte Verteilung der Nhk , gegeben N = n. −→ Multinomiale Verteilung. Nh+ = nh+ fest −→ unabhängige Multinomiale Verteilungen. Trick: Mit unabhängigen Poisson-Variablen N` arbeiten; Korrekturen für Bedingtheit”. ” 79 UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND VERGLEICH VON STICHPROBEN 5.3 Unabhängigkeit von zwei Variablen und 5.3. Vergleich von Stichproben a • Standardisieren, Quadratsumme bilden! Poisson-Trick: Nhk ∼ Phλhk i ≈∼ N hλhk , λhk i bhk Nhk − λ (P ) q ≈∼ N h0, 1i Rhk = bhk λ (P ) Rhk : Pearson-Residuen 80 UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND VERGLEICH VON STICHPROBEN 5.3. b Teststatistik = Quadratsumme T = X (P )2 = Rhk h,k ( beobachtethk − erwartethk )2 X h,k erwartethk T ∼ χ2hdfi, df = Anzahl Freiheitsgrade = rs minus Anzahl Nebenbedingungen = rs − (1 + (r − 1) + (s − 1)) = (r − 1)(s − 1) . c Verteilung? 81 UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND VERGLEICH VON STICHPROBEN 5.3. d Beispiel Umfrage 4 (P ) Rhk h 1 2 3 4 22.3 50.2 26.3 15.7 11.4 1 2 3 4 5 3.5 3.1 -2.0 -3.5 -4.4 -2.6 -0.6 1.1 1.5 1.5 -2.1 -3.2 1.4 3.0 4.0 -0.5 -2.1 0.7 1.4 2.5 k bhk λ h 1 2 3 1 2 3 4 5 166.3 374.4 196.3 116.7 85.3 113.0 254.4 133.4 79.3 57.9 53.3 120.0 62.9 37.4 27.3 82 k T = 125.0 . df = (5 − 1)(4 − 1) = 12 , kritischer Wert 21.03. P-Wert = 0. 2 3 4 5 Schule e VON ZWEI VARIABLEN UND VERGLEICH VON STICHPROBEN 1 5.3. UNABHÄNGIGKEIT Association Plot 1 2 Beeintraechtigung 3 4 83 UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND VERGLEICH VON STICHPROBEN 5.3. f Frage: Antworten Personen mit verschiedener Schulbildung gleich auf die Frage nach der Belästigung? Vergleich von unabhängigen Stichproben. (Umfang der Teilstichproben beliebig.) Quantitative Variable: Lageparameter” (Erw.wert oder Median) ” von Interesse. Für kategorielle Variable: Vergleich der ganzen Verteilungen. Für geordnete Variable: Vergleich der Mediane −→ Rangtests (U-Test oder Kruskal-Wallis). g Der Test zum Vergleich von unabh. Stichproben ist mit dem Test für die Unabhängigkeit zweier Variablen identisch. 84 UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND VERGLEICH VON STICHPROBEN Vierfeldertafel (r = s = 2 ) 5.3. h Beispiel Herzinfarkt und Verhütungsmittel (Agresti, 1990). 58 verh. Herzinfarkt-Patientinnen < 45 J. 2 Spitalregionen. Vergleich mit Pat., die aus anderen Gründen ins Spital kamen Haben Verhütungspillen einen Einfluss auf Herzinfarkte? Herzinfarkt (B) ja nein Summe Verhütungspille (A) ja 23 nein 35 34 132 58 166 Summe 57 167 224 Ist N11/n1+ = 23/58 = 40% signifikant von N21/n2+ = 34/166 = 20% verschieden? 85 UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND VERGLEICH STICHPROBEN Vergleich zweier VON Wahrscheinlichkeiten (2 Stichproben). 5.3. i n(n11n22 − n12n21)2 T = . n1+n2+n+1n+2 Pearson’s Chi-squared test with Yates’ cont.corr. X-squared = 7.3488, df = 1, p-value = 0.00671 j* Exakte Verteilung von T . T | n1+, n2+, n+1, n+2 = Funktion von N11 . n1+ n2+ n2+! n1+! n! n11 n21 · P hN11 = n11i = = n n11!n12! n21!n22! n+1!n+2! n +1 n1+!n2+!n+1!n+2! = n!n11!n12!n21!n22! Hypergeometrische Verteilung −→ exakter Test von Fisher. 86 UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND VERGLEICH VON STICHPROBEN 5.3. k Verbundene Stichproben. 2 Variable Y (1) , Y (2) , z.B. vor und nach einer Behandlung. Hat sich der Erwartungswert verändert? −→ Differenzen Y (2) − Y (1) ≈ 0 ? Kategorielle V.: Unterscheiden sich die Verteilungen der beiden Variablen? (1) (2) r = s! Sind Yi = Yi ? Wohl kaum für alle i! Allgemeiner: Sind πhk = πkh ? 87 UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND VERGLEICH VON STICHPROBEN 5.3. l Vierfeldertafel: McNemar-Test. H0 : π1+ = π+1 ⇔ π12 = π21 . N12 ∼ BhN12 + N21, 1/2i. Bedingte Vert. der Anzahl Wechsel von 1 nach 2, gegeben die Anz. aller Wechsel. N11 und N22 egal”! ” m r = s > 2 : πhk = πkh für alle h < k P (Nhk −Nkh)2 ≈ χ2 T = h<k N +N df . hk kh Prüft nicht Verteilungen von Y (1) und Y (2) gleich”! ” 88 5.4. BEMERKUNGEN ZUR ANWENDUNG VON χ2 -TESTS 5.4 Bemerkungen zur Anwendung von χ2 -Tests a Fehlerhafte Anwendungen des Chiquadrat-Tests. 1. Fehler: Nicht mit ursprünglich beobachteten Anzahlen. Beispiel: In 3 Wochen durchschnittlich 12 Unfälle, in 1 Woche danach X = 8 Unfälle. b 3. Fehler: Daten falsch aufgeschlüsselt. Fisher-Test: p-Wert 0.25. richtig 0.042 (Chiquadrat: p-Wert 0.32. richtig” 0.079) ” 2 von 10 vs. 8 von 12. 89 5.4. BEMERKUNGEN ZUR ANWENDUNG VON χ2 -TESTS c 2. Fehler: korrelierte (nicht unabhängige) Daten. Test führt dann (zu?) oft zur Ablehnung der Nullhypothese. Fehler 3. Art” ” Fehler 2A: Keine Anzahlen von unabhängigen Beobachtungen: Anzahl Pflanzenarten auf Probeflächen. d 4. Fehler: Klassen zusammenfassen. Klassen mit zu kleinen Erwartungswerten, nicht Anzahlen! Freiheitsgrade! Zusammenfassen, nicht weglassen! 90 5.4. BEMERKUNGEN ZUR ANWENDUNG VON χ2 -TESTS e Statistik-Programme: Daten in Form der üblichen Datenmatrix Zeilen entsprechen Beob. i −→ Ai, Bi . Die Kreuztabelle mit den Nhk erstellt das Programm selbst. Kreuztabelle direkt eingeben – oft unmöglich. Nur Anzahlen bekannt −→ eine Zeile pro Kombination [h, k] A B N 1 1 23 1 2 35 2 1 34 2 2 132 N : Gewicht”. ” 91 5.5. ABHÄNGIGKEIT VON ZWEI VARIABLEN 5.5 Abhängigkeit von zwei Variablen a Abhängigkeit durch eine Zahl charakterisieren, die die Stärke des Zusammenhangs misst. −→ Korrelation” ” Binärer Antwortfaktor B. b Risiko π1|h = P hB = 1|A = hi = πh1/πh+ für die Gruppe h. c Vergleich des Risikos: • • Risiko-Differenz, π1|1 − π1|2 . relatives Risiko, π1|1/π1|2 . 92 5.5. ABHÄNGIGKEIT VON ZWEI VARIABLEN d Doppelverhältnis, odds ratio. Wettverhältnis (odds) π1|1/π2|1 (vgl. logistische R.) Chancen” für B = 1 in der Gruppe A = 1 ” odds = 3 ⇔ P hB = 1 | A = 1i = 0.75 . Vergleich der Wettverhältnisse für A = 1 und A = 2 π1|1 . π1|2 P hB = 1 | A = 1i . P hB = 1 | A = 2i π11π22 θ= = = . P hB = 2 | A = 1i P hB = 2 | A = 2i π2|1 π2|2 π12π21 Verhältnis von Verhältnissen −→ Doppelverhältnis. Zwei Gruppen (Vierfeldertafel) −→ A und B vertauschbar. Symmetrisches Mass für die Abhängigkeit von zwei binären Var. 93 5.5. e ABHÄNGIGKEIT VON ZWEI VARIABLEN θ = 1 ⇔ bed. Wahrscheinlichkeiten gleich (falls r = s = 2 :) = Unabhängigkeit von A und B. θ > 1 , r = s = 2 : π11 · π22 > als unter Unabhängigkeit positive Abhängigkeit”. ” f Logarithmiertes Doppelverhältnis (log odds ratio) `θ = loghθi. • • • • `θ = 0 bei Unabhängigkeit, `θ > 0 bei positiver Abhängigkeit, `θ < 0 bei negativer Abhängigkeit. Vertauscht man die Kategorien (1 und 2) der einen Variablen, so wechselt nur das Vorzeichen von `θ. `θ nicht auf [−1, 1] begrenzt. 94 5.5. ABHÄNGIGKEIT VON ZWEI VARIABLEN g* Für kleine Risiken: πh1 << πh2 ⇒ π1+ ≈ π12 Relatives Risiko ≈ Doppelverhältnis π1|1 π11π2+ π11π22 = ≈ π1|2 π1+π21 π12π21 95 5.5. h ABHÄNGIGKEIT VON ZWEI VARIABLEN θ hängt nicht von Randverteilungen ab! Geschichtete Stichproben: Doppelverhältnisse richtig! i Mehr als zwei Klassen. Für jedes Paar von Klassen [h, k] θhk = πhk P h06=h,k06=k πh0k0 (πh+ − πhk )(π+k − πhk ) Hängen dann wieder nicht von den Randsummen ab. P hB = k | A = hi . P hB = k|A = h0i θhk,h0k0 = P hB = k0|A = hi P hB = k0|A = h0i π .π 0 π π 0 0 = k|h k|h = hk h k πk0|h πk0|h0 πh0k πhk0 Unabhängigkeit ⇔ θhk,h0k0 = 1 ⇔ θhk = 1 . 96 5.5. ABHÄNGIGKEIT VON ZWEI VARIABLEN j Schätzung: (N11 + 0.5) (N22 + 0.5) θb = . (N12 + 0.5) (N21 + 0.5) Streuung der Schätzung hängt von den Randsummen ab, im Gegensatz zum zu schätzenden Parameter! 97 5.6. 5.6 ANMERKUNGEN ZU MEDIZINISCHEN ANWENDUNGEN 98 Anmerkungen zu medizinischen Anwendungen a Beispiel Herzinfarkt: case control study, retrospektive Studie Keine Schätzung des Risikos! Anteil Frauen mit Herzinfarkt durch Plan der Untersuchung auf 58/224=26% festgelegt. Doppelverhältnis = Erhöhung des Risikos durch untersuchte Risikofaktoren” ” kann man korrekt schätzen! Falls absolutes Risiko in der Bevölkerung bekannt ist, kann man aus dem Doppelverhältnis Risiken bestimmen. 5.6. ANMERKUNGEN ZU MEDIZINISCHEN ANWENDUNGEN 99 b Absolutes Risiko: Zufallsstichprobe aus der Bevölkerung, Querschnittstudie (cross sectional study). Nur für verbreitete Krankheiten! Einfluss (?) von Lebensgewohnheiten? c Präzise Daten liefert Kohorten-Studie. d Präzise Schlussfolgerungen aus klinischen Studien (clinical trials) e Kohorten- und die klinische Studien = prospektiv. Wirkungszusammenhänge nur aus klinischen Studien. Andere: Fragestellungen der Präventivmedizin, Epidemiologie. 5.6. ANMERKUNGEN ZU MEDIZINISCHEN ANWENDUNGEN 100 Merkpunkte Eine und zwei kategorielle Variable • Aus kategoriellen Daten entstehen durch Tabellieren Häufigkeitsdaten. • Grundlegendes Modell für Häufigkeitsdaten: Unabhängige Poisson-Vert. mit Erwartungwerten nπ..., −→ bedingte Verteilung, gegeben Randsummen. Das Wichtige am Modell: Annahmen über die π... • Unabhängigkeit von zwei Merkmalen: Chiquadrat-Test. Die einzelnen Beiträge (Pearson-Residuen) können bei der Interpretation eines signifikanten Resultats helfen. • Abhängigkeitsmass: Doppelverhältnis, meist logarithmiert. 6.1. EINLEITUNG 6 Log-lineare Modelle 6.1 101 Einleitung a Kreuztabelle (2-dim.) sagt ber Abhigkeiten so viel wie einfache Korrelation und Regression −→ zu wenig! b Beispiel Zulassung zum Studium. Anzahlen Geschl. zugel. abgew. w m P 557 1198 1755 Diskriminierung!!! P Prozente zugel. abgew. P 1278 1835 1493 2691 30.4 44.5 69.6 100 55.5 100 2771 4526 38.8 61.2 100 6.1. EINLEITUNG 102 Anzahlen Dept. Geschl. zugel. abgew. A B C D E F w m w m w m w m w m w m P 89 512 17 353 202 120 131 138 94 53 24 22 1755 19 313 8 207 391 205 244 279 299 138 317 351 P Prozente zugel. abgew. P 108 825 25 560 593 325 375 417 393 191 341 373 82.4 62.1 68.0 63.0 34.1 36.9 34.9 33.1 23.9 27.7 7.0 5.9 17.6 37.9 32.0 37.0 65.9 63.1 65.1 66.9 76.1 72.3 93.0 94.1 100 100 100 100 100 100 100 100 100 100 100 100 2771 4526 38.8 61.2 100 6.1. EINLEITUNG Zusammenhe innerhalb von verschiedenen Gruppen c 6 Zusammenhe ohne Gruppierung! = Simpson’s Paradox. Regression: Koeffiz. eines Regressors kann Vorzeichen wechseln, wenn andere Ausgangs-Variable ins Modell kommen. Bedeutung der Koeffizienten ht vom Modell ab! Ursachen? Nicht mit Statistik zu finden – ausser in kontrollierten Versuchen. Aber Hinweise aus mglichst vollstigen Modellen. −→ Wir mssen auch fr kateg. Daten mehrere Grssen aufs Mal modellieren! −→ Log-Lineare Modelle (& Multinom. Regression!) Zuerst nochmals zwei Variable. 103 6.2. LOG-LINEARE MODELLE FR ZWEI FAKTOREN 6.2 Log-lineare Modelle fr zwei Faktoren a Poisson-Regression: Yi = Anzahl Yi ∼ Phλii , Nhk ∼ Phλhk i λi = EhYii , loghλii = ηi = xT i β A und B unabhig −→ λhk = nπh+π+k ηhk = loghλhk i = loghni + loghπh+i + loghπ+k i = µ + αh + βk Zweiweg-Varianzanalyse ohne Wechselwirkungen. Analogie auch fr mehr als zwei Faktoren. 104 6.2. LOG-LINEARE MODELLE FR ZWEI FAKTOREN b Nebenbedinungen. P Varianzanalyse: (a) αh = 0 oder (b) α1 = 0 h P P Jetzt h πh+ = 1 −→ (c) h exphαhi = 1 Man kann auch (a) oder (b) verwenden −→ µ 6= loghni. Anzahl freie Parameter: 1 + (r − 1) + (s − 1) c Haupteffekte αh, βk ↔ Randverteilungen = uninteressant! Nullhypothese αh = 0 : P hA = hi = 1/r. 105 6.2. LOG-LINEARE MODELLE FR ZWEI FAKTOREN d Mit Wechselwirkungen loghλhk i = µ + αh + βk + (αβ )hk maximales Modell, (saturated model) Gleich viele freie Parameter (mit Nebenbed.) wie Beob. Maximales Modell im Sinne der GLM = Vergleichsmodell fr kleinere Modelle −→ Test fr Unabhigkeit von A und B: Nullhypothese H0 : (αβ )hk = 0 fr alle h und k. Testgrsse D = 2 · (``hmaximales Modelli − ``hHaupteffektmod.i) ∼ χ2 unter H0 . (r−1)(s−1) 106 6.2. e LOG-LINEARE MODELLE FR ZWEI FAKTOREN P bhk i − Nhk + λ bhk mit dhk = Nhk loghNhk /λ p (d) bhk i dhk Devianz-Residuen Rhk = signhNhk − λ D=2 h,k dhk bhk i ∼ χ2 N log hN / λ hk hk h,k (r−1)(s−1) G-Test” ≈ Chiquadrat-Test aus Kap. 4 (asympt. ivalent). ” f Es gilt auch D = 2 P g Bemerkung: Zweiweg-Varianzanalyse ohne wiederholte Beob. Wechselw. = Zufallsfehler −→ Streuung σ b fr Test der Haupteffekte Higkeitsdaten: Zahl enth auch Information ber ihre eigene Genauigkeit. Varianz = Erwartungswert = λ. 107 6.2. LOG-LINEARE MODELLE FR ZWEI FAKTOREN h Beispiel Umfrage. Call: glm(formula = count~Beeintr+Schule, family=poisson) Coefficients: Value Std. Error z_appr. Pr(>|z|) Signif (Intercept) 4.22170 0.03171 133.15 0 *** Beeintr1 0.43541 0.05301 8.21 0 *** Beeintr2 0.39555 0.02205 17.94 0 *** Beeintr3 0.29439 0.01247 23.61 0 *** Schule1 0.40562 0.03188 12.72 0 *** Schule2 -0.07996 0.01944 -4.11 0 *** Schule3 -0.17008 0.01719 -9.90 0 *** Schule4 -0.16473 0.01564 -10.54 0 *** Null Deviance: 1489 on 19 degrees of freedom Residual Deviance: 126.3 on 12 degrees of freedom Nur Residual Deviance ist eine Zahl mit sinnvoller Interpretation! 108 6.2. LOG-LINEARE MODELLE FR ZWEI FAKTOREN 109 i Interpretation von signifikanten Wechselwirkungen: j • A und B sind nicht unabhig. • Streuung der Nhk grsser, als das Poisson-Mod. annimmt Einzelbeobachtungen abhig. Doppelverhnisse: Es gilt loghπhk i = loghλhk i − loghni = µ + αh + βk + (αβ )hk − loghni 0 P hB = k | A = h i P hB = k | A = hi loghθhk,h0k0 i = log P hB = k0 | A = hi P hB = k0 | A = h0i = loghπhk i − loghπhk0 i − loghπh0k i − loghπh0k0 i = (αβ )hk + (αβ )h0k0 − ((αβ )h0k + (αβ )hk0 ) Odds ratios allein durch die Wechselwirkungen bestimmt. 6.2. LOG-LINEARE MODELLE FR ZWEI FAKTOREN 2 × 2 -Tafel: P P Nebenbedingungen h(αβ )hk = k (αβ )hk = 0 −→ (αβ )11 = −(αβ )12 = −(αβ )21 = (αβ )22 , loghθi = 4(αβ )11 . k Beispiel: Beeintrtigung = Zielgrsse” = Antwortfaktor”, ” ” Schulbildung = erklnder Faktor. Nicht verwechseln mit Zielgrsse des GLM: Nhk . l Fazit: Wenig neue Einsichten, Unabhigkeit viel komplizierter als vorher! −→ Neues fr mehr als 2 Faktoren! 110 6.3. 6.3 LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 111 Log-lineare Modelle fr mehr als 2 Faktoren a Beispiel Umwelt-Umfrage. Hauptverantwortung” ” b Gesigtes Modell ηhk` = loghλhk`i = µ + αh + βk + γ` +(αβ )hk + (βγ )k` + (αγ )h` + (αβγ )hk` Schungen und Tests wie frher. Terme weglassen −→ reduzierte Modelle. 6.3. LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 112 Beeintr. Hauptverantwortung Einz. Staat beide total ungelernt nicht etwas ziemlich sehr total p-Wert 0.00230 81 38 23 12 154 110 36 9 3 158 Lehre nicht etwas ziemlich sehr total 210 83 38 20 351 p-Wert 4.57e-06 206 150 58 22 436 193 67 19 7 286 ohne.Abi nicht etwas ziemlich sehr total 19 9 6 5 39 33 28 8 6 75 432 245 85 35 797 p-Wert 0.0696 Einz. 86 89 43 14 232 Staat 66 40 22 8 136 beide 17 17 9 8 51 total 169 146 74 30 419 Beeintr. Hauptverantwortung Einz. Staat beide total Abitur nicht etwas ziemlich sehr total p-Wert 0.468 Einz. 41 51 25 12 129 Staat 24 17 16 6 63 Studium nicht etwas ziemlich sehr total beide 14 24 13 3 54 total 79 92 54 21 246 p-Wert 0.0668 Einz. 19 39 27 5 90 Staat 19 14 15 8 56 beide 7 14 6 6 33 total 45 67 48 19 179 6.3. LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 113 c Vollstige Unabhigkeit (A, B, C ) : ηhk` = µ + αh + βk + γ` . Einfachste Nullhypothese. d Unabhige Variablen-Gruppen (AB, C ) : ηhk` = µ + αh + βk + γ` + (αβ )hk . Faktor C unabh. von [A, B ] . Hauptverantwortung unabh. von (Schulbildung, Beeintr.) 6.3. LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 114 e Bedingte Unabhigkeit (AB, AC ) : ηhk` = µ + αh + βk + γ` + (αβ )hk + (αγ )h` Faktoren B und C , gegeben A, unabhig. (Bedingte gemeinsame Vert. von B und C , geg. A, zeigt Unabhigkeit.) Fr jede Schulbildung ist Hauptverantw. unabh. von Beeintr. f Partieller Zusammenhang (AB, AC, BC ) : ηhk` = µ + αh + βk + γ` + (αβ )hk + (βγ )k` + (αγ )h` Es fehlt nur die dreifache Wechselwirkung. 6.3. LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 115 g Antwortgrsse C (Hauptverantwortung), erklnde Faktoren A, B (Schulbildung, Beeintrtigung) −→ Zweifache Ww. (αγ )h` [(βγ )k`] = Einfluss v. A [B ] auf C (αβ )hk nicht von Interesse ↔ Korrelation von Regressoren. 6.3. LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 116 h Beispiel: Modell ohne die dreifache Ww. > t.tab <- table(d.umweltumf[,c("Schule","Beeintr","Wersoll")]) > t.r <- loglin(t.tab,list(c(1, 2), c(1, 3), c(2, 3))) > c(t.r$lrt,t.r$df,1-pchisq(t.r$lrt,t.r$df)) [1] 28.4506 24.0000 0.2415 > t.d <- data.frame(t.tab) > t.r <- glm( Freq ~ (Schule+Beeintr+Wersoll)^2, data=t.d, + family=poisson) ; summary(t.r) ... Residual deviance: 28.451 on 24 degrees of freedom 6.3. LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 117 > drop1(t.r,test="Chisq") ohne ohne ohne volles” Modell ” Schule:Beeintr Schule:Hauptverantw Beeintr:Hauptverantw RSS Sum of Sq Df p.value 27.375 130.011 64.781 83.846 NA 102.636 37.406 56.471 NA 12 8 6 NA 0 0 0 6.3. LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 118 i Dreifache Wechselwirkung. Interpretation? Annahme: Antwortfaktor C , Ausgangs-Var. A, B Dreifache Wechselwirkung ↔ Effekte v. A und B nicht additiv – oder bermige Streuung! j Beeintrtigung ebenfalls Antwortfaktor −→ multivar. Reg.” ” Ht B von A und C von A ab? −→ Wechselwirkungen A : B und A : C . Bedingte (Un-)abhigkeit von B und C , gegeben A? −→ Wechselwirkungen B : C ist signifikant. Sowohl Beeintrtigung als Hauptverantwortung hen von Schulbildung ab, und beide hen zusammen (innerhalb der Bildungsklassen). 6.3. LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 119 Beeintrtigung etwas ziemlich Schulbildung Haupteff. nicht Haupteff. µ b =2.983 b1 = 0.682 β b2 = 0.496 β b3 = –0.205 β –0.974 ungelernt Lehre ohne.Abi Abitur Studium α b1 =–0.131 α b2 = 0.588 α b3 = 0.197 α b4 = –0.190 α b5 = –0.464 0.483 0.450 –0.041 –0.280 –0.612 –0.169 0.106 0.025 0.036 0.002 –0.274 –0.282 0.019 0.187 0.349 –0.041 –0.273 –0.004 0.057 0.261 Hauptverantwortung Einzelne Staat Schulbildung beide Haupteff. µ b =2.983 γb1 = 0.593 γb2 = 0.038 γb3 = –0.631 ungelernt Lehre ohne.Abi Abitur Studium α b1 = –0.131 α b2 = 0.588 α b3 = 0.197 α b4 = –0.190 α b5 = –0.464 –0.096 0.171 0.104 –0.064 –0.115 0.246 0.094 0.005 –0.297 –0.048 –0.150 –0.265 –0.109 0.361 0.163 Einzelne Staat beide Beeintrtigung Haupteff. µ b =2.983 γb1 = 0.593 γb2 = 0.038 γb3 = –0.631 nicht etwas ziemlich sehr b1 =0.682 β b2 =0.496 β b3 = –0.205 β b4 =–0.974 β –0.109 0.075 0.127 –0.093 0.389 –0.087 –0.067 –0.235 –0.281 0.012 –0.060 0.328 sehr 6.3. LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 120 k Interpretation von geschten Effekten: Haupteffekte der Zielgrsse: loghπ b`/π b`0 i = γb` − γb`0 odds ( Einzelne : Staat ) gleich exph0.593 − 0.038i = 1.742 . Wechselwirkungen zwischen Antwortfaktor und Ausgangsfaktoren πh0` πh` = (αγ )h` − (αγ )h`0 − (αγ )h0` + (αγ )h0`0 log πh`0 πh0`0 Die odds ( Einzelne : Staat ) sind fr Ungelernte vs. Studierte um Faktor exph−0.096 − 0.246 − (−0.115) + (−0.048)i = exph−0.275i = 0.760 tiefer. 6.4. 6.4 VORGEHEN BEI DER ANPASSUNG LOG-LIN. MODELLE 121 Vorgehen bei der Anpassung log-lin. Modelle a • Vorher berlegen: Ziel der Analyse? −→ Antwortfaktoren, Ausgangsfaktoren? Antwortfaktoren ordinal? −→ kumulative Logits Sonst Multinomiale Regression oder loglineare Modelle 6.4. VORGEHEN BEI DER ANPASSUNG LOG-LIN. MODELLE 122 b Entwickeln eines Modells: 1. Gesigtes Modell, (wenn es geht ...) 2. schrittweise unwichtige Wechselwirkungsterme weg Haupteffekte, auch der Antwortfaktoren, drin lassen. Alle Terme, die nur Ausgangsfaktoren enthalten, drin lassen! Das Modell soll • komplex genug sein, um gute Anpassung zu erreichen, aber nicht komplexer als ntig, und • einfach zu interpretieren! 6.4. VORGEHEN BEI DER ANPASSUNG LOG-LIN. MODELLE 123 Interpretation analog zur Var.analyse, aber mit c verschobener Bedeutung: • Die Haupteffekte sind bedeutungslos. • Zweifache Wechselw. (Antwortfaktor : Ausgangsfaktor) ↔ Haupteffekte in der Varianzanalyse. • Wechselwirkungen zwischen Ausgangsfaktoren unwichtig. Analog Kollinearitn in der Regression. • Wechselw.zw. Antwortfaktoren ↔ Korrel.zw. Zielgrssen • 3-fache Ww (Antwortfaktor, 2 Ausgansfaktoren) ↔ 2-fache Ww (anova). 6.5. 6.5 QUANTITATIVE VARIABLE Quantitative Variable a Alter: oft klassiert. Informationsverlust, vor allem durch Verlust der quantitativen Interpretation Viele Fragen ordinal: gar nicht ” – ganz einverstanden” ” ” Evtl. sogar quantitativ. b Statt αh −→ αxh , statt (αβ )hk −→ (αβ )k xh λhk = µ + αxh + βk + (αβ )k xh −→ Einschrungen fr Nh+ −→ zurck zu αh λhk = µ + αh + βk + (αβ )k xh (1 Nebenbedingung fr (αβ )k ) 124 6.5. QUANTITATIVE VARIABLE 125 c Doppelverhnisse. P hB = k|A = xh0 i P hB = k|A = xhi P hB = k0|A = xhi P hB = k0|A = xh0 i = ((αβ )k − (αβ )k0 )(xh − xh0 ) loghθhk,h0k0 i = log log odds ratio B = k : B = k0 proportional zur Differenz der x-Werte. QUANTITATIVE VARIABLE 126 100 6.5. 60 20 40 beide Einzelne 0 Prozent 80 Staat 20 30 40 50 Alter 60 70 80 90 6.5. QUANTITATIVE VARIABLE d Beispiel Umwelt-Umfrage. Kontingenztafel A × B. Abspeichern als data.frame. Variable Alin einfhren. Keine Signifikanz – auch nicht mit weiteren erkl. Variablen. e Allgemeiner: Christensen (1990), Chap. “Factors with Quantitative Levels”. 127 6.6. LOGISTISCHE UND MULTINOMIALE REGRESSION 6.6 Logistische und multinomiale Regression a Antwortfaktor zweiwertig −→ logistische Regression b Zusammenhang? Zwei erklnden Faktoren −→ r × s × 2 -Tafel P hYi = 1 | Ai = h, Bi = ki P hYi = 2 | Ai = h, Bi = ki P hYi = 1, Ai = h, Bi = ki P hAi = h, Bi = ki = log · P hAi = h, Bi = ki P hYi = 2, Ai = h, Bi = ki P hYi = 1, Ai = h, Bi = ki = log . P hYi = 2, Ai = h, Bi = ki log 128 6.6. LOGISTISCHE UND MULTINOMIALE REGRESSION 129 Log-lineares Modell: loghπhk1/πhk2i = λhk1 log = loghλhk1i − loghλhk2i λhk2 = µ + αh + βk + γ1 + (αβ )hk + (αγ )h1 + (βγ )k1 −(µ + αh + βk + γ2 + (αβ )hk + (αγ )h2 + (βγ )k2) = (γ1 − γ2) + ((αγ )h1 − (αγ )h2) + ((βγ )k1 − (βγ )k2) Nebenbedingungen γ2 = 0 , (αγ )h2 = 0 , (βγ )k2 = 0 . Logistisches Modell? πhk1 (A) (B) log = γ1 + (αγ )h1 + (βγ )k1 = θ0 + θh + θk πhk2 Haupteffektmodell −→ Regressionsmodell. 6.6. LOGISTISCHE UND MULTINOMIALE REGRESSION c Antwortfaktor mit mehr als zwei Werten `: multinomiale Regression. Referenzkategorie” ` = 1 ” X P hYi = ` | xii (j) log = β0` + βj`xi . j P hYi = 1 | xii Wettverhnisse ` 6= 1 : ` = 1 = lineare Funktionhxii. d* Welche Kategorie als Referenz genommen wird, spielt keine Rolle. 130 6.6. LOGISTISCHE UND MULTINOMIALE REGRESSION e* Alternativ: Wettverhnisse Y = ` : Y 6= ` = lin. Funktion hxi i. andere (unhandlichere) Modelle. E D P P P hY =`|x i P hYi = 6 `i = l6=` P hYi = li 6= Grssen wie log P hY i=1|xi i i i Modelle fr geordnete Zielgrssen ebenfalls verschieden. Zwei Kategorien von Y zus.fassen ert die Koeffizienten aller Kategorien. 131 6.6. LOGISTISCHE UND MULTINOMIALE REGRESSION f* Zusammenhang log-lineares Modell ↔ multinomiale Regr. Beobachtungen i mit xi = xk und Yi = ` zen −→ Nk` Log-lineares Modell: loghλk`i = µ + αk + γ` + β T ` xk Nebenbedingungen β1 = 0 und γ1 = 0 . loghπk`/πk1i = loghλk`/λk1i = γ` + (β ` − β 1)T xk γ` −→ β0` , (β ` − β 1)(j) −→ βj` . 132 6.6. LOGISTISCHE UND MULTINOMIALE REGRESSION g* Allgemeine Formulierung. log P hYi = ` | xii P hYi = 1 | xii = (j`) X j βj xi h Antwortfaktor ∼ erklnde Grssen −→ multinomiale (oder ordinale) Regression. Multinomiale Regression entspricht log-linearem Modell. Wenn quantitative erkl. Var. da sind −→ glm Braucht viel technischen Programmieraufwand = ersetzung und Know-how fr die Interpretation des Outputs. Funktion fr multinomiale Regression multinom() bentzen! . 133 6.6. LOGISTISCHE UND MULTINOMIALE REGRESSION Merkpunkte Loglineare Modelle • Verschiedene Unabhigkeiten: z.B. bedingte Unabhigkeit von B und C , gegeben A. • Begriff loglineare Modelle meist gebraucht fr die Analyse von Kontingenztafeln mit Poisson-Varianzanalyse”. ” Verschiebung der Bedeutung: – Haupteffekte ↔ Randverteilungen, uninteressant – einf. Wechselw. ↔ Abhigkeiten, log-odds-ratios – dreidim. Wechselw. ↔ Wechselw. der Effekte. • • 1 Antwortfaktor und 1 - mehrere erklnde Variable −→ logistische oder multinomiale Regression! 134 6.6. LOGISTISCHE UND MULTINOMIALE REGRESSION Messages • 135 Generalized Linear Models Generalized Linear Models include, as to the target variable’s distibution: – Normal Distribution – Bernoulli- and Binomial distribution, – Poisson distribution, – Exponential- and Gamma distribution. 6.6. LOGISTISCHE UND MULTINOMIALE REGRESSION • Theory and Algorithms may be conceived for all of them – Maximum Likelihood Estimation – Iteratively Reweighted Least Squares – Likelihood ratio tests for comparing models Concept of Deviance • Residuals are less useful, since they show “artificial” structure We need them anyway! 136 6.6. LOGISTISCHE UND MULTINOMIALE REGRESSION Messages 137 Ordered Target Variable • Many nominal variables are ordered Adequately modeled by cumulative logits (Probits, ...) • Concept of latent variable with threshold values • Multinomial target variable: Log odds w.r.t. reference category = linear prediktors Many parameter to be estimated! 6.7. 6.7 S-FUNKTIONEN FÜR VERALLG. LINEARE MODELLE S-Funktionen für Verallg. Lineare Modelle a Funktion glm, polr, multinom summary für glm, polr drop1 für glm, polr plot für glm , wie wenn es lm wäre. b Funktion regr family="binomial" family="poisson" family="ordered" family="multinomial" calcdisp Logistische Regression Poisson-Regression Kumulative Logits Multinomiale Regression T/F, Dispersionsparameter schätzen? 138 6.7. S-FUNKTIONEN FÜR VERALLG. LINEARE MODELLE c Tests • Deviance tests für Faktoren und kontinuierliche Variable • Binomial- und Poisson-Regression: Overdispersion wird per default angenommen. Bei Häufigkeitsdaten calcdisp=FALSE setzen. 139 6.7. S-FUNKTIONEN FÜR VERALLG. LINEARE MODELLE Zusätzliche Tests: deviance df p.value Model 169 17 0.00000 Residual 192 136 0.00116 Null 361 153 NA Family is quasibinomial. estimated to be 1.41. AIC: 492 Dispersion parameter • Overdispersion: Vergleich der Residual Deviance mit FG. • Model: Vergleich des Modells mit Achsenabschnitts-Modell 140 6.7. S-FUNKTIONEN FÜR VERALLG. LINEARE MODELLE d Residuen für geordnete Zielgrössen Yi = k =⇒ αk ≤ Zi < αk+1 =⇒ αk − zbi ≤ Ei < αk+1 − zbi Bedingte Verteilung von Ei , gegeben Yi = k, ist logistische Vert., beschränkt auf αk − zbi ≤ Ei < αk+1 − zbi . Residuum = Median der bedingten Verteilung. Ebenfalls zeichnen: Quartile der bed. Vert. 141