Logistic Regression 1.1 Introduction

Transcrição

Logistic Regression 1.1 Introduction
1.1. INTRODUCTION
0
Logistic Regression
1.1
Introduction
Only partially translated at this time
b Example: Shrinked blood vessels
Y:
shrinked: yes (1) / no (0)
erkl.: Breath Volume (Vol) and Frequency (Rate)
Ziel:
c
P hY = 1 | Vol, Ratei modellieren!
(1)
P hYi = 1i = hhxi
(2)
, xi
(m)
, ..., xi
i
1
Rate
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
1.1. INTRODUCTION
0.1
0.0
0.5
1.0
1.5
0.3 0.5 0.7
2.0
Vol
2.5
0.9
3.0
3.5
4.0
1.1. INTRODUCTION
(1)
P hYi = 1i = hhxi
2
(2)
, xi
(m)
, ..., xi
i
d Why is an ordinary linear regression inadequate?
(m)
(2)
(1)
+ Ei
Yi = β0 + β1xi + β2xi + . . . + βmxi
•
What is the error term Ei ?
(m)
(2)
(1)
EhYii = β0 + β1xi + β2xi + . . . + βmxi
We have P hYi = 1i = EhYii. −→ Same form o.k.
•
But: Estimated values may become < 0 and > 1 !
−→ Transformation of Yi ? 2 values remain 2 values!
−→ Transformation of EhYii = P hYi = 1i!
1.1. INTRODUCTION
e Modell. Logit-Funktion ghπi = log
3
D
π
1−π
E
(1)
ghP hYi = 1ii = ηi = β0 + β1xi
(2)
+ β2xi
(m)
+ . . . + βmxi
η: linearer Prädiktor”.
”
f Beispiel: ghP hY = 1ii = −9.53 + 3.88 · Vol + 2.65 · Rate .
4
0.0
0.2
0.4
Y
0.6
0.8
1.0
1.1. INTRODUCTION
●
●●
−5
●
−4
●
●
−3
●
●
●
−2
●●
●
−1
●● ●
●
0
●
1
2
3
4
5
6
7
1.1. INTRODUCTION
g Diskriminanzanalyse:
Yi
Gruppen-Zugehörigkeit
(j)
Xi
multivariate Beobachtungen.
Logistische Regression:
1. Schätzen: π̂i
2. Zuordnen: Ŷ = 1 , wenn η̂i > 0 ( π̂i > 0.5 )
5
1.1. INTRODUCTION
h Further Applications:
•
Toxikology: Toxic matter deadly for mice? What concentration?
•
Medicine: Treatment successful?
•
Failure of (technical) devices,
•
Bugs in (technical) products,
•
Occurence of characteristics in animals or plants,
•
client scoring,
General: 2 Groups.
6
1.2.
CONSIDERATIONS ABOUT THE MODEL
1.2
Considerations about the Model
7
a Same flexibility as linear regression.
Frequently: factors (nominal variables) as explanatory v.
b Example: Assessment of work situation.
Yi
happy (1), unhappy (0)
(j)
Region, Age, Gender, Race
Xi
Only 1 factor −→ 2 × k-cross table
NE
Mid-Atl.
S
Midwest
NW
SW
Pacific
total
unzufrieden
zufrieden
738
1161
166
406
514
916
749
1240
711
1221
482
971
209
465
3569
6380
total
1989
572
1430
1899
1932
1453
674
9949
1.2.
CONSIDERATIONS ABOUT THE MODEL
c Gruppierte Daten:
m` Beob. Yi zu gleichen xi = x
e` :
P
Yi
Yek ∼ Bhmk , πk i
EhYe`/m`i = π`
Ye` = i : x = x
e
i
`
−→ Logistische Regression: ghπ`i = η`
d Beispiel Überleben von Frühgeburten. 247 Säuglinge.
Erklärende Variable: Geburtsgewicht. Klassen von je 100 g
1
2
3
4
5
6
7
8
9
10
n
Surv.no
Surv.yes
Weight
10
14
27
22
32
28
22
26
34
32
10
12
18
14
9
7
3
7
3
3
0
2
9
8
23
21
19
19
31
29
550
650
750
850
950
1050
1150
1250
1350
1450
8
CONSIDERATIONS ABOUT THE MODEL
Survival
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
1.2.
500
600
700
800
900
1000 1100
Weight
1200
1300
9
1400
1500
1.2.
CONSIDERATIONS ABOUT THE MODEL
e Transformierte Beobachtungen.
EhYe`/m`i = π` ,
ghπ`i = linearer Prädiktor.
ghYe`/m`i ≈ linearer Prädiktor.
Was tun mit Y`/m` = 0 oder = 1 ? gh0i = −∞ , gh1i = ∞.
Abhilfe: Empirische Logits
+
*
e` + 0.5
Y
e` = log
.
Z
m` − Ye` + 0.5
−→ Gewöhnliche multiple Regression mit Z` ? −→ Näherung.
10
CONSIDERATIONS ABOUT THE MODEL
11
0.1
2.75
2.80
2.85
2.90
2.95
log10(Gewicht)
3.00
3.05
3.10
3.15
Y
0.7
0.5
0.3
0
−1
Max.Likelihood
Kleinste Quadrate
−2
emp.logit(Y)
1
2
0.9
1.2.
1.2.
CONSIDERATIONS ABOUT THE MODEL
12
f Interpretation of Coefficients? Need following concepts:
odds
P hYi = 1i
odds =
1 − P hYi = 1i
π = 1/4 :
odds 1:3
( failure is 3 × more frequent )
log(odds) = ghYi = 1ii, g: Logit-Funktion.
exphηi
log(odds) = η −→ Wahrsch. π = g −1hηi = 1+exphηi . G−1 : logistische
”
Funktion”.
P
(j)
Logistische Regression: log(odds) = linearer Prädiktor j βj xi .
P
(j)
πi = logistische Funktion h j βj xi i.
1.2.
CONSIDERATIONS ABOUT THE MODEL
13
g Odds ratio (Doppelverhältnis): Vergleich zweier Beobachtungen
log
oddshx1i
oddshx2i
= loghoddshx1ii − loghoddshx2ii
= η1 − η2 = (x1 − x2)β
Koeffizient βj : Vergrösserung von x(j) um 1 erhöht odds ratio um Faktor eβj .
h Beispiel Ader-Verengung:
Wert für Vol = 0.5, Rate = 1.75
log(odds) = −9.56 + 3.88 · 0.5 + 2.65 · 1.75 = −2.85
−→ odds = 0.0578 ,
g −1(−2.85) = 0.0546
Vergleich Vol = 1.5, Rate = 1.75: odds ratio: e3.88 = 48.4
−→ odds = 0.0578 · 48.4 = 2.80 ,
2.80/3.80 = 0.73
1.2.
CONSIDERATIONS ABOUT THE MODEL
14
12
i Model with Latent Variable = Schwellenwert-Modell.
1
1
1
0
1
0
0
0
00
0 0 00
0
1
1 1
0 0
1
1 1
0
0
0
0
1
11
1
1
0
0
0
0 0
0
1 1
1
0
0
2
4
0
0
1
1
c
latente V.
6
8
10
1
1
1
0
2
4
6
x
8
10
1.2.
CONSIDERATIONS ABOUT THE MODEL
15
βe + Ei
Zi = xT
iD
E
e
πi = P hYi = 1i = P hZi ≥ ci = P Ei ≥ c − xT
i β
X
(j)
= 1 − F c − β0 +
βj xi
j
F : kumulative Verteilungsfunktion des Zufallsfehlers Ei
−1hηi =
βi
mit
g
β = [βe0 − c, βe1, . . . , βem] ⇒ P hYi = 1i = g −1hxT
i
1 − F h−ηi
Ei ∼ logistische Vt.: logistische Regression
Ei ∼ Normal-Vt.:
Probitmodell
Ei ∼ Extremwertvt.: Komplementäres log-log Modell
1.3.
1.3
ESTIMATION AND TESTS
16
Estimation and Tests
a Method of Maximal Likelihood. There are programs!
b Log-Likelihood:
DY
E
X
m` y`
π` (1 − π`)m`−y`
y`
P hYe` = y`i =
log
`
`
X
X
m`
=
+
log
y` loghπ`i + (m` − y`) logh1 − π`i
`
`
y`
``hye; βi = log
mit logithπ`i = xT
i β
P
P
Ungrupp. Daten: m` = 1 . ``hye; βi = yi=1 loghπii+ yi=0 logh1−πii.
1.3.
ESTIMATION AND TESTS
c* Schätzung:
∂`hye; βi/∂βj =
=
=
=
∂ loghπ`i
∂ logh1 − π`i
+ (m` − y`)
y
` `
∂βj
∂βj
X
1
∂π`
1
y` − (m` − y`)
`
π`
1 − π`
∂βj
X y`(1 − π`) − (m` − y`)π` dg −1hη`i (j)
·
x
e`
`
π`(1 − π`)
dη`
X
(y` − m`π`) x
e(j)
`
X
`
da dg −1hηi/dη = exphηi/(1 + exphηi)2 = π (1 − π ) .
Schätzgleichung:
X
`
(y` − m` π
b`) x
e` = 0
17
1.3.
ESTIMATION AND TESTS
f Beispiel Ader-Verengung.
Call: glm(formula = Y ~ Vol + Rate, family = binomial,
data = d.adern)
Deviance Residuals: ...
Coefficients:
Value Std. Error z_appr. Pr(>|z|) Signif
(Intercept) -9.529 3.2140
-2.96
0.003
**
Vol 3.882 1.4202
2.73
0.006
**
Rate 2.649 0.9095
2.91
0.004
**
(Dispersion Parameter for Binomial family taken to be 1 )
Null Deviance: 54.04 on 38 degrees of freedom
Residual Deviance: 29.77 on 36 degrees of freedom
Number of Fisher Scoring Iterations: 5
Correlation of Coefficients:
(Intercept)
Vol
Vol -0.9358
Rate -0.9228
0.7631
18
1.3.
ESTIMATION AND TESTS
19
g Residuen-Devianz
b .
b = 2 ``(M ) − ``hye ; βi
Dhy ; πi
Maximale erreichbare Log-Likelihood ( π
e` = y`/m` ):
X m`
(M
)
``
=
log
+ y` loghy`i
`
y`
+(m` − y`) loghm` − y`i − m` loghm`i .
h Modelle vergleichen: Likelihood-Ratio-Tests. Test-Statistik:
e ; πb(K), πb(G)i = Dhy ; πb(K)i − Dhy ; πb(G)i = 2(``(G) − ``(K))
Dhy
asymptotisch chiquadrat-verteilt, wenn das kleine Modell stimmt.
1.3.
ESTIMATION AND TESTS
20
i Residuen-Devianz vergleicht geschätztes Modell mit max. Mod.
−→ Anpassungstest”
”
Achtung: Geht nur bei nicht zu kleinen m` −→ grupp. Daten.
j Kleinstes Modell: πi für alle Beobachtungen gleich.
D
E
D
EP
P
π
e
`
+
log
``(0) = ` log m
ei
` y` + n logh1 − π
y
1−
π
e
`
P
mit π
e=
` y`/n.
Null-Devianz:
Dhy ; π
e i = 2 ``(M ) − ``(0)
−→ Gesamt-Test für das Modell. (H0 : alle βs =0!)
1.4.
1.4
RESIDUEN-ANALYSE
Residuen-Analyse
a Rohe Residuen (response residuals)
b
R` = Ye`/m` − π
b` , π
b` = g −1hx
eT` βi
p
(P )
Pearson residuals: R` = R`
π
b`(1 − π
b`)/m`
Deviance residuals: Beitrag der i-ten Beobachtung zur Devianz
Working residuals:
Berechnung der logist. Regr. via iterativ gewichtete Kl.Qu.
(vgl. nichtlin. Regr.)
−→ lineare Näherung −→ Residuen : working residuals”.
”
b Grafische Darstellungen:
Q-Q- (normal) plot meist unnütz!
21
1.4.
RESIDUEN-ANALYSE
22
c Tukey-Anscombe-Diagramm:
−1
−0.5
raw residual
0.0
0.5
Pearson residual
0
1
2
3
Rohe Res. / geschätzte πi oder Arbeitsres. / lin. Prädiktor
braucht Glättung.
0.0
0.2
0.4
0.6
estimated pi
0.8
1.0
0.0
0.2
0.4
0.6
estimated pi
0.8
1.0
1.4.
RESIDUEN-ANALYSE
23
−1.5
−1.0
−0.5
lr
0.0
0.5
1.0
1.5
Survival ~ Weight
0.2
0.4
0.6
lf
0.8
1.4.
e
RESIDUEN-ANALYSE
Partial residual plots”:
”
(j)
bj x(j) − Konst.) plus geeignete Residuen
Effekte” von xi ( = β
i
”
(j)
gegen xi .
24
RESIDUEN-ANALYSE
25
−2
−2
Partial for Age
−1
0
Partial for Weight
−1
0
1
1
2
Survival ~ Weight + Age + Apgar1
800
1000
1200
Weight
1400
0
2
4
Apgar1
6
20
25
30
Age
Partial for Apgar1
−1
0
1
600
−2
1.4.
8
35
1.4.
RESIDUEN-ANALYSE
regr
regr(formula = Survival ~ Weight + Age + Apgar1, data = t.d,
family = binomial)
Terms:
coef stcoef t.ratio df
Chi2 p.value
(Intercept) -8.484190
NA
NA 1
NA
NA
Weight
0.003791 1.0065 2.2780 1 22.535
0.000
Age
0.165297 0.4519 1.1254 1 4.999
0.025
Apgar1
0.142989 0.3179 0.9123 1 3.289
0.070
deviance df p.value
Model
82.72
3
0
Residual
236.56 243
NA
Null
319.28 246
NA
Dispersion parameter taken to be 1. Family is binomial.
AIC: 244.6
Number of Fisher Scoring iterations: 5
26
RESIDUEN-ANALYSE
27
Y~Gewicht + Alter + Apgar1
119
5
2
119
218
208
237
224 196
122
165
146
158
11
0
1
218
208
165
237
224
196
122
st.res( Y )
−2 −1
0
res( Y )
−10
−5
82
5
22
14
−3
−15
68
171
39
−4
−20
202
92
−2
−1
0
1
2
Linear Predictor
3
4
6
118
93
225
14
68
171
39
202
92
0.01
0.03
0.05
hat diagonal
0.07
5
119
5
119
218
208
196 224237
218 208
224 122237
196
165
Residuals
−10
−5
0
165
171
−20
202
92
0
50
100
150
sequence
200
250
17168
39
−15
68
−15
39
5 1422
202
−20
5 1422
92
600
800
1000 1200
Gewicht
1400
Jul 15,00/5:14 | |
0
122
res( Y )
−10
−5
1.4.
RESIDUEN-ANALYSE
28
5
0
Residuals
−10
−5
−15
−20
−20
−15
Residuals
−10
−5
0
5
Y ~ Gewicht + Alter + Apgar1
24
26
28
Alter
30
32
0
1
2
3
4
5
Apgar1
6
7
8
9
0
Residuals
−10
−5
Jul 15,00/5:15 | |
−15
−20
−15
Residuals
−10
−5
0
5
22
5
20
−20
1.4.
0
1
2
3
4
5
6
Apgar5
7
8
9
10
6.8
6.9
7.0
7.1
7.2 7.3
pH
7.4
7.5
7.6
1.4.
RESIDUEN-ANALYSE
29
Call:
regr(formula = cbind(Survival.1, Survival.0) ~ Weight,
data = t.d, family = binomial)
Terms:
coef stcoef t.ratio df
F p.value
(Intercept) -4.560648
NA
NA 1
NA
NA
Weight
0.005087 1.540
3.145 1 47.98
0
deviance df p.value
Model
74.61 1 0.0000
Residual
12.44 8 0.1327
Null
87.05 9
NA
Dispersion parameter estimated to be 1.555.
AIC: 45.43
Number of Fisher Scoring iterations: 4
Family is binomial.
RESIDUEN-ANALYSE
30
cbind(Survival.1, Survival.0)~Weight
0.5
5
5
1.0
7
res( Y )
−0.5
0.0
st.res( Y )
−0.5 0.0 0.5
7
3
9
−1.0
1
−1.5
8
1
0.2
0.3
0.4
0.5
0.6
fitted
0.7
0.8
0.9
0.16
0.18
0.20 0.22 0.24
hat diagonal
0.28
0.30
7
8
1
1
Jun 14,00/1:43 | |
−1.0
−1.0
Residuals
−0.5
0.0
7
0.26
5
0.5
5
0.5
8
0.14
res( Y )
−0.5
0.0
1.4.
8
1
2
3
4
5
6
sequence
7
8
9
10
600 700 800 900
1100
Weight
1300
2.1.
POISSON-REGRESSION
2
Verallgemeinerte Lineare Modelle
2.1
Poisson-Regression
b Beispiel Schiffs-Havarien.
Y Anzahl Schaden-Ereignisse,
X Anzahl Betriebs-Monate M,
Schiffs-Typ
T: 0, 1
Baujahr-Periode
C: 60, 65, 70, 75
Betriebs-Periode
O: 0, 1
T
C
O
M
Y
1
2
3
0
0
0
0
1
0
127
63
1095
0
0
3
13
14
1
1
60
60
65
...
70
75
1
1
13099
7117
44
18
31
POISSON-REGRESSION
0
1960−74
1975−79
1
50
50
0
1
60
32
60
2.1.
10
1
50
0
100
0
0
0
0
1
1
0
1
10
1
20
1
30
0
40
Anz.Schaeden
20
30
40
1
200
500
1000 2000
5000
Betriebsmonate
20000
50000
2.1.
c
POISSON-REGRESSION
Yi ∼ Phλii
EhYii = λi = g −1hxii
g hEhYiii = ηi = xT
i β
g: log
ghλi = loghλi
⇒
E
D
(1)
(m)
β
x
β
x
β
T
m
i
EhYii = λ = exp xi β = e 0 · e 1 i · ... · e
(1)
xi
e
e
= β0 · β1
e multiplikative Effekte!
(2)
(m)
x
x
e
e
· β2
· ... · βm
33
2.1.
POISSON-REGRESSION
34
f Beispiel:
loghEhYiii = β0+βM loghMii+βT Ti+βP Pi+γ1·(C1)i+γ2·(C2)i+γ3·(C3)i
loghMi: Anz. Havarien proportional zu Anz. Betriebsmonate
g Anzahlen: gruppierte Daten”
”
2.2.
2.2
a
DAS GRUNDLEGENDE MODELL
Das grundlegende Modell
g hEhYiii = ηi = xT
i β
g: Link-Funktion
b Verteilung von Y ? Binomial, Poisson, normal, Gamma, ...
−→ Exponentialfamilie!
35
2.2.
DAS GRUNDLEGENDE MODELL
36
c Exponentialfamilie
f hy ; θ, φ, ωi = exp
θ:
φ:
ω:
b:
c:
yθ − bhθi
ω + chy ; φ; ωi
φ
kanonischer Parameter.
Dispersions-Parameter, Stör-Parameter.
Gewicht bei gruppierten Daten.
Welche Verteilung?
Normierung auf gesamte W.=1
d Es gilt:
µ = EhY i = b0hθi ,
(mit geeigneter Funktion V ).
φ
φ
varhY i = b00hθi · = V hµi ·
ω
ω
2.2.
DAS GRUNDLEGENDE MODELL
37
e Normalverteilung:
log
D
f hy ; µ, σ 2i
E
√
1
= − logh 2π degσi −
2
=
2
yµ − 1
µ
2
σ2
y−µ
σ
2
√
y2
−
− logh 2π degσi
2
(2σ )
θ = µ
φ = σ2
bhθi = θ2/2
chy ; φi = −y 2/(2φ) − (1/2) logh2π deg φi
2.2.
DAS GRUNDLEGENDE MODELL
38
ek /mk .
g Binomial-Verteilung: Zielgrösse Yk = Y
log hP hY = yii
= log
=
y log
m
my
+ (my ) loghπi + m logh1 − πi − (my ) logh1 − πi
π
1−π
m
+ logh1 − πi m + log
my
θ = loghπ/(1 − π )i
ω = m m chy ; φi = log
my
bhθi = logh1 + eθ i b0hθi = π b00hθi = π (1 − π )
0-1-Variable: m = 1 .
2.2.
DAS GRUNDLEGENDE MODELL
39
i Link-Funktion.
Inverse Link-Funktion h soll unmögliche Werte vermeiden:
ghµi = µ,
wenn EhY i beliebig
ghµi = loghµi,
wenn EhY i > 0 ,
µ
i,wenn 0 ≤ EhY i ≤ 1
ghµi = logithµi = logh (1−µ)
j
Kanonische Link-Funktion”: η = ghµi = θ = (b)−1hµi Wähle g = (b)−1 !
”
Normalverteilung
ghµi = µ
Poissonverteilung ghµi = loghµi
Binomialverteilung ghµi = logithµi
Vorteile: Existenz und Eindeutigkeit, einfachere Schätzgleichungen
2.3.
2.3
SCHÄTZUNGEN UND TESTS
40
Schätzungen und Tests
b Likelihood.
ω
X i
T βii
yiθhxT
βi
−
bhθhx
``hβi =
+ chyi; φ; ωii
i
i
i
φ
X =
yi · loghλii − λi − log(yi!)
i
X
T
T
=
yi loghe(xi β)i − e(xi β) − log(yi!)
i
c Maximum-Likelihood-Schätzung:
shβi = ∂``hβi/∂β =
X
i
sihβi .
2.3.
SCHÄTZUNGEN UND TESTS
* Poisson-Regression j te Komponente der Scorefunktion:
∂``ihβi
∂``ihθi ∂θi ∂µi ∂ηi
(j)
si hβi =
=
·
·
·
∂βj
∂θi
∂µi ∂ηi ∂βj
1
(j)
θ
i
· eηi · xi
= (yi − e ) ·
µi
1
(j)
(j)
= (yi − µi) ·
· µi · xi = (yi − µi) · xi
µi
41
2.3.
SCHÄTZUNGEN UND TESTS
42
bj
s(j)hβi = 0 −→ β
Normalgleichungen für gewichtete Kleinste Quadrate
Gewichte und Residuen” hängen von β ab !
”
Algorithmus: iteratively reweighted least squares”
”
−→ Es kann vorkommen, dass das Programm keine geeigneten Startwerte findet!
d Schätzung:
e Dispersionsparameter: Schätzung nach Max.Lik.,
mit Korrekturfaktor wegen Freiheitsgraden.
f Verteilung der geschätzten Parameter: Asymptotik
⇒ Normalverteilung (z-Test).
V = ...
βb ≈∼ N hβ, mxV /ni
2.3.
SCHÄTZUNGEN UND TESTS
g summary(glm(...))
Call: glm(formula = Y ~ TYPE + factor(C) + OPER + log(MONTHS),
family = poisson, data = d.ship)
Deviance Residuals: ...
Coefficients:
Value Std. Error z_appr. Pr(>|z|) Signif
(Intercept) -6.6109 1.2744
-5.19
0.000
***
TYPE -0.6569 0.3262
-2.01
0.044
*
factor(C)1 -0.5556 0.1470
-3.78
0.000
***
factor(C)2 0.1242 0.1038
1.20
0.231
factor(C)3 0.2965 0.1129
2.63
0.009
**
OPER 0.4585 0.1359
3.37
0.001
***
log(MONTHS) 1.0825 0.1550
6.99
0.000
***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion Parameter for Poisson family taken to be 1 )
Null Deviance: 267.3 on 13 degrees of freedom
Residual Deviance: 3.434 on 7 degrees of freedom
Number of Fisher Scoring Iterations: 3
43
2.3.
SCHÄTZUNGEN UND TESTS
44
h Residuen-Devianz
Vergleich des gefitteten Models mit Maximal möglichem” Modell, d.h. für jede
”
Beobachtung ein Parameter:
b)
b = 2(``(M ) − ``hβi
Dhy ; µi
X
b ) − bhθeii + bhθhxT βii
b
βi
=
2ωi yi(θei − θhxT
i
i
i
θei = Parameterwert, der am besten zu yi passt.
i Poisson-Regression:
θei = log(yi)
X bi =
2 yi(loghyii − loghµ
Dhy ; µ
bii) − eloghyii + eloghµbii
i X
loghyii
− yi + µ
bi
=
2 yi
i
loghµ
bii
2.3.
SCHÄTZUNGEN UND TESTS
j Vergleich von Modellen. Likelihood-Ratio-Test
e ; µb(K), µb(G)i = Dhy ; µb(K)) − Dhy ; µb(G)) = 2(``(G) − ``(K))
Dhy
Gesamt-Test: null deviance – residual deviance.
e ; µb(0), µi
Dhy
b = Dhy ; µb(0)) − Dhy ; µb) = 2(``(G) − ``(0))
45
2.3.
SCHÄTZUNGEN UND TESTS
1. Likelihood-Quotienten-Test: Devianz-Differenz
H0 : Modell K mit p Parametern
H1 : Modell G mit r > p Parametern
G
L
Teststatistik 2 · log K = 2(``(G) − ``(K))
L
Verteilung unter H0 : χ2
r−p
2. Vergleich mit maximalem Modell:
Residuen-Devianz Dhyb; µi
b
H0 : Angepasstes Modell mit p Parametern
H1 : Maximales Modell m mit nk Parametern
Teststatistik Dhyb; µi
b = 2(``(M ) − ``hµi
b)
Verteilung unter H0 : χ2
n−p (Gruppierten Daten!)
46
2.3.
SCHÄTZUNGEN UND TESTS
3. Gesamt-Test: Vergleich von Null Devianz und Residuendevianz
H0 : Null Modell mit einem Parameter
H1 : Angepasstes Modell mit p Parametern
Teststatistik Dhyb; µ
b0i − Dhyb; µi
b = 2(``hµi
b − ``hµb0i)
Verteilung unter H0 : χ2
p−1
47
2.3.
SCHÄTZUNGEN UND TESTS
> r.ship1 <- glm(Y~TYPE + factor(CONS) + OPER + log(MONTHS),
data=d.ship,family=poisson)
> summary(r.ship1,corr=F)
Call: glm(formula = Y ~ TYPE + factor(CONS) + OPER + log(MONTHS),
family = poisson, data = d.ship)
Coefficients:
Value Std. Error z_appr. Pr(>|z|) Signif
(Intercept) -6.6109 1.2744
-5.19
0.000
***
TYPE -0.6569 0.3262
-2.01
0.044
*
factor(CONS)1 -0.5556 0.1470
-3.78
0.000
***
factor(CONS)2 0.1242 0.1038
1.20
0.231
factor(CONS)3 0.2965 0.1129
2.63
0.009
**
OPER 0.4585 0.1359
3.37
0.001
***
log(MONTHS) 1.0825 0.1550
6.99
0.000
***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’
(Dispersion Parameter for Poisson family taken to be 1 )
Null Deviance: 267.3 on 13 degrees of freedom
Residual Deviance: 3.434 on 7 degrees of freedom
Number of Fisher Scoring Iterations: 3
> 1-pchisq(3.434,7) 0.8421659
48
1
2.4.
2.4
ÜBERGROSSE STREUUNG
Übergrosse Streuung
a Ablehnung des Modells (residual deviance): ⇒ over-dispersion.
b Neues Modell: φ > 1
Keine entsprechende Verteilung −→ Quasi-Modelle”, Quasi-Likelihood”.
”
”
c
V hµi = φµ(1 − µ) resp. V hµi = φµ
für übermässig streuende Binomial- respektive Poisson-Zielgrössen.
−→ Dispersionsparameter schätzen statt fixieren.
P ωi(yi−µbi)2
1
b
φ = n−p
V hµ i
i
49
2.4.
ÜBERGROSSE STREUUNG
b bleiben gleich
d Parameterschätzer β
q
Konfidenzintervalle um den Faktor
b breiter
φ
b < 1 ? – φ < 1 ist unplausibel!
e Was, wenn φ
50
2.5.
2.5
•
•
•
•
RESIDUEN-ANALYSE
51
Residuen-Analyse
Rohe Residuen oder response residuals: Ri = Yi − µ
bi
p
(P )
= Ri/ V hµ
Pearson-Residuen: Ri
bii
(W )
Arbeits-Residuen (working residuals): Ri
= Ri · g 0hµ
bi.
√
(D)
= signhyi − µ
bii di
Devianz-Residuen: Ri
P 2
P
loghyii
Poisson-Regression: Dhy ; µ
bi =: i di
b i = i 2 yi loghµb i − yi + µ
i
2.5.
RESIDUEN-ANALYSE
52
a Residuen-Analyse:
•
•
•
•
(W )
oder
Linearität: Arbeitsresicuen Ri
b + r(W ) vs ηbi .
adjustierte Beobachtungen yei = xT
β
i
i
Residuenvarianz: φ
f 1/2X
e (X
eW
fX
e )−1X
eT W
f 1/2 (?)
Hutmatrix: W
Residuenplot mit glatten Kurven:
– Tukey-Anscombe-Plot
– Beobachtungen vs fitted values
– Partielle Residuen-Plots
3.1.
MODELLE
3
Geordnete diskrete Zielgrössen
3.1
Modelle
a Anwendungen:
•
Beurteilung von sehr schlecht bis sehr gut,
•
gruppierte Häufigkeiten,
•
quantitative, klassierte Grösse, etc.
53
3.1.
MODELLE
54
b Beispiel: Lokale Anaesthesie des Armes.
Welche erklärenden Variablen beeinflussen den Erfolg?
Y suc.deg
Erfolg in 4 Klassen:
1: schmerzvoll, ... 4: Kein Schmerz
X medic
Medikamentdosis
napplic
Anzahl Einstiche (Intervall-Skala)
anest2:
Anästesist/in (Faktor),
moon:
Mondphase (Faktor) ...
1
3
4
8
9
...
anest2
suc.deg
A0
A2
A2
A0
A2
...
1
3
3
1
4
...
suc.deg
1 2 3
4
A0 28 18 23 25
A2 4 10 13 36
A1 6 1 6 8
3.1.
MODELLE
55
c Latente Variable, Z kontinuierlich
Yi = 0 ⇐⇒ Zi ≤ α1
Yi = k ⇐⇒ αk < Zi ≤ αk+1
Yi = k∗ ⇐⇒ αk∗ < Zi
k∗ Schwellenwerte: α1 < α2 < . . . < αk∗ .
P hYi ≤ ki = P hZi ≤ αk i ,
k = 1, . . . , k∗
1. Annahme:
Latente Variable hat z.B. logistische (Fehler-) Verteilung
2. Annahme:
Multiple lineare Regression für latente Variable
MODELLE
56
2
4
latente V.
6
8
10
3.1.
2
4
6
x
8
10
3.1.
MODELLE
57
d Modell
Zi = β0 +
X
(j)
xi βj + Ei
j
γk := P hYi ≥ ki = P hZi ≥ αk i = P hEi ≥ αk − (β0 + xT βi)
D
D
E
E
= 1 − FE αk − (β0 + xT β ) = F−E xT β −(αk − β0)
ghγk i = xT β −(αk − β0)
f Schwellenwerte nicht gleich-abständig. Schätzen!
g Kumulatives Modell: P hYi ≥ ki = P hYi = k ∗i + . . . + P hYi = ki
3.1.
MODELLE
58
Anzahl{i|Yi=k & xi=x`}
Ye`,k =
Multinomialverteilung Mk∗ hm, πi:
m`=Anzahl{i|xi=x`}
Multinomialverteilung = mehrparametrige Exponentialfamilie
genauer: betrachte Ye `/m`
h Gruppierung:
•
•
•
Erwartungsvektor: π1, . . . , πk∗
Wahrscheinlichkeiten
P hY ` = y `i
∗
(1) m`y`(1) (2) m`y`(2)
(k∗) m`y`(k )
=
(π` )
( π` )
· ... · (π` )
(1)
(L)
(m`y` )!...(m`y` )!
m` !
πk = P hYi = ki aus dem Modell der latenten Variablen.
−→ Multivariates generalisiertes lineares Modell
3.1.
MODELLE
59
i Wettverhältnisse (odds)
(1)
(m)
P hY ≥ k | xi
x
x
oddshY ≥ k | xi =
= exphαk i(exphβ1i)
· · · (exphβmi)
.
P hY < k | xi
Odds Ratio
oddshY ≥ k | x1i
= exph−(x1 − x2)T βi
oddshY ≥ k | x2i
sind für alle Schwellenwerte αk gleich!
⇒ proportional odds model.
3.1.
MODELLE
60
j* komplementäre Log-Log-Funktion”
”
ghγi = log h − logh1 − γii ,
0<γ<1
Zuverlässigkeits- und Überlebenszeit-Studien: Weibull-Verteilung.
Logarithmierte Ausfall- oder Überlebenszeiten: Gumbel-Verteilung.
Proportional hazards, Cox-Regression.
Für zensierte Daten brauchbar!
SCHÄTZUNGEN UND TESTS
3.2.
3.2
61
Schätzungen und Tests
c R-Funktion polr
Call: polr(formula = ordered(suc.deg) ~ medic + age + bmi.gr + napplic +
anest2 + expence + moon, data = d.anest.lu, na.action = na.omit)
Coefficients:
Value Std. Error
t value
medic
-0.088959000 0.031276473 -2.8442785
age
0.005610906 0.008526959 0.6580196
bmi.gr21to28 -0.825546649 0.384865654 -2.1450255
bmi.grgt28
-0.697811976 0.539368704 -1.2937569
napplic
0.896180981 0.218809357 4.0957160
anest2a1
1.118096186 0.596838858 1.8733636
anest2a2
1.475949108 0.399248382 3.6968193
expence
0.181347910 0.182372903 0.9943797
moonneutral
0.165380216 0.346301994 0.4775607
moonvoll
-0.911484405 0.481794990 -1.8918511
Intercepts:
Value
Std. Error t value
1|2 -3.1091 1.3802
-2.2526
2|3 -2.0922 1.3664
-1.5312
3|4 -0.8735 1.3656
-0.6396
Residual Deviance: 418.8633
AIC: 444.8633
3.2.
SCHÄTZUNGEN UND TESTS
62
d drop1
Single term deletions
Model:
ordered(suc.deg) ~ medic + bmi.gr + napplic + anest2 + moon
Df
AIC
LRT
Pr(Chi)
<none>
442.54
medic
1 448.71
8.17 0.004264 **
bmi.gr
2 443.69
5.15 0.076107 .
napplic 1 458.29 17.74 2.526e-05 ***
anest2
2 452.15 13.61 0.001111 **
moon
2 445.24
6.70 0.035081 *
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Vergleich mit gewöhnlicher Regression: ähnliches Resultat.
3.3.
3.3
b
Yi
MULTINOMIALE ZIELGRÖSSEN
Multinomiale Zielgrössen
ungeordnete Kategorien −→ Multinomiales Logit-Modell
X
P hYe` = k | x`i
(j)
log
= β0k +
βjk x` .
j
P hYe` = 0 | x`i
βjk > 0 : Präferenz für Zielkategorie k vor der Referenzkategorie 0 .
63
3.3.
MULTINOMIALE ZIELGRÖSSEN
c R: library(nnet); multinom(...)
Call:
multinom(formula = Wersoll ~ Alter.lin + Geschlecht,
data = d.umweltumfrage, weights = Freq)
Coefficients:
(Intercept) Alter.lin Geschlechtw
Staat -0.40372 0.0026276
-0.19487
beide -1.20102 -0.0022776
-0.24129
Std. Errors:
(Intercept) Alter.lin Geschlechtw
Staat
0.13697 0.0029070
0.097437
beide
0.19513 0.0042460
0.140090
Residual Deviance: 3913.0
AIC: 3925.0
64
3.3.
d
MULTINOMIALE ZIELGRÖSSEN
k∗ · m statt k∗ + m Parameter!!
e Schätzung:
•
getrennte Schätzung der k∗ Logit-Modelle
•
simultane Lösung der k∗ Schätzgleichungen
f Anwendung: Diskriminanzanalyse mit mehr als 2 Kategorien
65
5.1.
EINLEITUNG
5
Eine und zwei kategorielle Variable
5.1
Einleitung
a Umfragen: Fragen mit Auswahlantworten
Medizin: Diagnose, Risikogruppen, Behandlungsart
Biologie: Blütenfarbe, Blattform, Art
Technik: Geräte-Ausfälle: Ursache, Hersteller
66
5.1.
EINLEITUNG
b Kategorielle Variable oder nominale V., Faktor:
m mögliche Werte ohne natürliche quantit. Interpretation.
– Bewertungen (Bonitur) wenig / mittel / viel
oder schlecht / mittel / gut
oder gar nicht bis sehr einverstanden
– Klassierte Daten (Alter, Vermögen, ...)
Oft geordnet.
Hier wird Ordnung meist nicht verwendet.
67
5.1.
EINLEITUNG
c Beispiel Umfrage zum Umweltschutz.
Hauptverantwortung für den Umweltschutz:
bei den Einzelnen / beim Staat / bei beiden.
Beeinträchtigung durch Umweltschadstoffe.
überhaupt nicht / etwas / ziemlich / sehr beeinträchtigt.
Schulbildung:
(1) Volks-, Hauptschule ohne Lehrabschluss;
(2) mit Lehrabschluss;
(3) weiterbildende Schule ohne Abitur;
(4) Abitur, Hochschulreife, Fachhochschulreife;
(5) Studium (Universität, Akademie, Fachhochschule)
68
5.1.
EINLEITUNG
69
d Zusammenfassen in Tabellen:
1-, 2-, ...-dimensional
Beispiel Umfrage.
Beeinträchtigung (B)
nicht etwas zieml. sehr
Schule (A)
Summe
ungelernt
Lehrabschl.
ohne Abi.
Abitur
Studium
212
434
169
79
45
85
245
146
93
69
38
85
74
56
48
20
35
30
21
20
355
799
419
249
182
Summe
939
638
301
126
2004
5.1.
e
EINLEITUNG
−→ Häufigkeitsdaten (frequency data):
entstehen als Zus.fassung ursprünglicher Beob. v. diskreten Var.
Urspr. Beob. meistens als stoch. unabhängig vorausgesetzt!
Fragestellungen betreffen die ursprünglichen Variablen.
Zähldaten (count data):
Ursprüngliche Beobachtungen sind Anzahlen.
Diese Anzahlen können irgendwie zustande kommen.
70
5.1.
EINLEITUNG
f Fragestellungen:
1. Unterscheidung von abhängiger V. ( Antwortfaktor”) und
”
Ausgangsvariablen (erklärende)
−→ Logistische Regr., Multinomiale R., Kumulative Logits
g 2. Zusammenhänge”: Variablen gleichberechtigt (Multivar. St.)
”
−→ Loglineare Modelle (ebenfalls GLiM)
71
5.2.
MODELLE FÜR KREUZTABELLEN
5.2
Modelle für Kreuztabellen
72
a Notation
Variable B
1
1
2
Variable A
h
r
P
n11
n21
...
nh1
...
nr1
2
3
n12 n13 . . .
n22 n23 . . .
...
nh2 . . .
...
nr2 . . .
n+1 n+2 . . .
k
n1k
n2k
...
nhk
...
nrk
s
. . . n1s
. . . n2s
...
. . . nhs
...
. . . nrs
n+k . . . n+s
P
n1+
n2+
...
nh+
...
nr+
n
5.2.
MODELLE FÜR KREUZTABELLEN
73
b Brauchen Wahrscheinlichkeits-Modell.
P hA = h, B = ki =: πhk ,
P
h,k πhk = 1
Variable B
1
1
2
Variable A
h
r
P
π11
π21
...
πh1
...
πr1
2
3
π12 π13 . . .
π22 π23 . . .
...
πh2 . . .
...
πr2 . . .
π+1 π+2 . . .
Randverteilungen von A, B: πh+ , π+k .
k
π1k
π2k
...
πhk
...
πrk
s
. . . π1s
. . . π2s
...
. . . πhs
...
. . . πrs
π+k . . . π+s
P
π1+
π2+
...
πh+
...
πr+
n
5.2.
MODELLE FÜR KREUZTABELLEN
(Nhk zufällig!)
Beeinträchtigung (B)
nicht etwas zieml. sehr
74
c Schätzung π
bhk = Nhk /n.
Summe
ungelernt
Lehrabschl.
Schule
ohne Abi.
(A)
Abitur
Studium
10.6
21.7
8.4
3.9
2.2
4.2
12.2
7.3
4.6
3.4
1.9
4.2
3.7
2.8
2.4
1.0
1.7
1.5
1.0
1.0
17.7
39.9
20.9
12.4
9.1
Summe
46.9
31.8
15.0
6.3
100.0
5.2.
MODELLE FÜR KREUZTABELLEN
75
π
d Bedingte Vert. von B, geg. A: πk|h = P hB = k | A = hi = π hk .
h+
Schätzung:
Beeinträchtigung (B)
nicht etwas zieml. sehr Summe
ungelernt
Lehrabschl.
Schule (A)
ohne Abi.
Abitur
Studium
60
54
40
32
25
24
31
35
37
38
11
11
18
22
26
6
4
7
8
11
100
100
100
100
100
Summe
47
32
15
6
100
5.2.
MODELLE FÜR KREUZTABELLEN
76
Lehre
ohne Abi
Abitur
Studium
0
0
0
0
0
1
2
3
4
ungelernt
100
200
100
50
50
5.2.
e
MODELLE FÜR KREUZTABELLEN
77
πhk Wahrscheinlichkeiten für eine Beobachtung.
n Beobachtungen −→ Nhk . Verteilung?
Multinomiale Vert. [N11, N12, ..., Nrs] ∼ Mhn, π11, π12, ..., πrsi
P hN11 = n11, N12 = n12, ..., Nrs = nrsi
=
n!
n11!n12!...nrs!
n
n
nrs
π1111 π1212 , ..., πrs
multinomial sampling
f Geschichtete Stichprobe. Randtotale von A fest, Nh+ = nh+ .
−→ r unabhängige Stichproben
[Nh1, Nh2, ..., Nhs] ∼ Mhnh+, πh1, πh2, ..., πhsi ,
independent multinomial sampling.
unabh. für h = 1, ..., r
5.2.
g
MODELLE FÜR KREUZTABELLEN
78
N zufällig −→ einfaches Modell!
Regentropfen auf Kontingenztafel”
”
−→ Modell der unabhängigen Poisson-Vert. (Poisson sampling),
Nhk ∼ Phπhk · λi , unabhängig für h = 1, ..., r und k = 1, ..., s
P hN11 = n11, N12 = n12, ..., Nrs = nrsi =
Y λnhk
hk e−λhk
n !
h,k hk
5.2.
h
MODELLE FÜR KREUZTABELLEN
N festhalten, bedingte Verteilung der Nhk , gegeben N = n.
−→ Multinomiale Verteilung.
Nh+ = nh+ fest −→ unabhängige Multinomiale Verteilungen.
Trick: Mit unabhängigen Poisson-Variablen N` arbeiten;
Korrekturen für Bedingtheit”.
”
79
UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND
VERGLEICH VON STICHPROBEN
5.3 Unabhängigkeit von zwei Variablen und
5.3.
Vergleich von Stichproben
a • Standardisieren, Quadratsumme bilden!
Poisson-Trick:
Nhk ∼ Phλhk i ≈∼ N hλhk , λhk i
bhk
Nhk − λ
(P )
q
≈∼ N h0, 1i
Rhk =
bhk
λ
(P )
Rhk : Pearson-Residuen
80
UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND
VERGLEICH VON STICHPROBEN
5.3.
b Teststatistik = Quadratsumme
T =
X
(P )2
=
Rhk
h,k
( beobachtethk − erwartethk )2
X
h,k
erwartethk
T ∼ χ2hdfi, df = Anzahl Freiheitsgrade =
rs minus Anzahl Nebenbedingungen
= rs − (1 + (r − 1) + (s − 1)) = (r − 1)(s − 1) .
c Verteilung?
81
UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND
VERGLEICH VON STICHPROBEN
5.3.
d Beispiel Umfrage
4
(P )
Rhk
h
1
2
3
4
22.3
50.2
26.3
15.7
11.4
1
2
3
4
5
3.5
3.1
-2.0
-3.5
-4.4
-2.6
-0.6
1.1
1.5
1.5
-2.1
-3.2
1.4
3.0
4.0
-0.5
-2.1
0.7
1.4
2.5
k
bhk
λ
h
1
2
3
1
2
3
4
5
166.3
374.4
196.3
116.7
85.3
113.0
254.4
133.4
79.3
57.9
53.3
120.0
62.9
37.4
27.3
82
k
T = 125.0 . df = (5 − 1)(4 − 1) = 12 , kritischer Wert 21.03. P-Wert = 0.
2
3
4
5
Schule
e
VON ZWEI VARIABLEN UND
VERGLEICH VON STICHPROBEN
1
5.3. UNABHÄNGIGKEIT
Association Plot
1
2
Beeintraechtigung
3
4
83
UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND
VERGLEICH VON STICHPROBEN
5.3.
f Frage: Antworten Personen mit verschiedener Schulbildung
gleich auf die Frage nach der Belästigung?
Vergleich von unabhängigen Stichproben.
(Umfang der Teilstichproben beliebig.)
Quantitative Variable: Lageparameter” (Erw.wert oder Median)
”
von Interesse.
Für kategorielle Variable: Vergleich der ganzen Verteilungen.
Für geordnete Variable: Vergleich der Mediane
−→ Rangtests (U-Test oder Kruskal-Wallis).
g Der Test zum Vergleich von unabh. Stichproben ist mit dem
Test für die Unabhängigkeit zweier Variablen identisch.
84
UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND
VERGLEICH VON STICHPROBEN
Vierfeldertafel (r = s = 2 )
5.3.
h
Beispiel Herzinfarkt und Verhütungsmittel (Agresti, 1990).
58 verh. Herzinfarkt-Patientinnen < 45 J. 2 Spitalregionen.
Vergleich mit Pat., die aus anderen Gründen ins Spital kamen
Haben Verhütungspillen einen Einfluss auf Herzinfarkte?
Herzinfarkt (B)
ja nein Summe
Verhütungspille
(A)
ja 23
nein 35
34
132
58
166
Summe 57 167
224
Ist N11/n1+ = 23/58 = 40% signifikant von
N21/n2+ = 34/166 = 20% verschieden?
85
UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND
VERGLEICH
STICHPROBEN
Vergleich
zweier VON
Wahrscheinlichkeiten
(2 Stichproben).
5.3.
i
n(n11n22 − n12n21)2
T =
.
n1+n2+n+1n+2
Pearson’s Chi-squared test with Yates’ cont.corr.
X-squared = 7.3488, df = 1, p-value = 0.00671
j* Exakte Verteilung von T .
T | n1+, n2+, n+1, n+2 = Funktion von N11 .
n1+ n2+
n2+!
n1+!
n!
n11 n21
·
P hN11 = n11i =
=
n n11!n12! n21!n22! n+1!n+2!
n
+1
n1+!n2+!n+1!n+2!
=
n!n11!n12!n21!n22!
Hypergeometrische Verteilung −→ exakter Test von Fisher.
86
UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND
VERGLEICH VON STICHPROBEN
5.3.
k Verbundene Stichproben. 2 Variable Y (1) , Y (2) ,
z.B. vor und nach einer Behandlung.
Hat sich der Erwartungswert verändert?
−→ Differenzen Y (2) − Y (1) ≈ 0 ?
Kategorielle V.:
Unterscheiden sich die Verteilungen der beiden Variablen?
(1)
(2)
r = s! Sind Yi
= Yi ? Wohl kaum für alle i!
Allgemeiner: Sind πhk = πkh ?
87
UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND
VERGLEICH VON STICHPROBEN
5.3.
l Vierfeldertafel: McNemar-Test.
H0 : π1+ = π+1 ⇔ π12 = π21 . N12 ∼ BhN12 + N21, 1/2i.
Bedingte Vert. der Anzahl Wechsel von 1 nach 2,
gegeben die Anz. aller Wechsel.
N11 und N22 egal”!
”
m
r = s > 2 : πhk = πkh für alle h < k
P
(Nhk −Nkh)2
≈ χ2
T = h<k N +N
df .
hk
kh
Prüft nicht Verteilungen von Y (1) und Y (2) gleich”!
”
88
5.4.
BEMERKUNGEN ZUR ANWENDUNG VON χ2 -TESTS
5.4
Bemerkungen zur Anwendung von χ2 -Tests
a Fehlerhafte Anwendungen des Chiquadrat-Tests.
1. Fehler: Nicht mit ursprünglich beobachteten Anzahlen.
Beispiel: In 3 Wochen durchschnittlich 12 Unfälle,
in 1 Woche danach X = 8 Unfälle.
b 3. Fehler: Daten falsch aufgeschlüsselt.
Fisher-Test: p-Wert 0.25. richtig 0.042
(Chiquadrat: p-Wert 0.32. richtig” 0.079)
”
2 von 10 vs. 8 von 12.
89
5.4.
BEMERKUNGEN ZUR ANWENDUNG VON χ2 -TESTS
c 2. Fehler: korrelierte (nicht unabhängige) Daten.
Test führt dann (zu?) oft zur Ablehnung der Nullhypothese. Fehler 3. Art”
”
Fehler 2A: Keine Anzahlen von unabhängigen Beobachtungen:
Anzahl Pflanzenarten auf Probeflächen.
d 4. Fehler: Klassen zusammenfassen.
Klassen mit zu kleinen Erwartungswerten, nicht Anzahlen!
Freiheitsgrade!
Zusammenfassen, nicht weglassen!
90
5.4.
BEMERKUNGEN ZUR ANWENDUNG VON χ2 -TESTS
e Statistik-Programme: Daten in Form der üblichen Datenmatrix
Zeilen entsprechen Beob. i −→ Ai, Bi .
Die Kreuztabelle mit den Nhk erstellt das Programm selbst.
Kreuztabelle direkt eingeben – oft unmöglich.
Nur Anzahlen bekannt −→ eine Zeile pro Kombination [h, k]
A B N
1 1 23
1 2 35
2 1 34
2 2 132
N : Gewicht”.
”
91
5.5.
ABHÄNGIGKEIT VON ZWEI VARIABLEN
5.5
Abhängigkeit von zwei Variablen
a Abhängigkeit durch eine Zahl charakterisieren, die
die Stärke des Zusammenhangs misst. −→ Korrelation”
”
Binärer Antwortfaktor B.
b Risiko π1|h = P hB = 1|A = hi = πh1/πh+ für die Gruppe h.
c Vergleich des Risikos:
•
•
Risiko-Differenz, π1|1 − π1|2 .
relatives Risiko, π1|1/π1|2 .
92
5.5.
ABHÄNGIGKEIT VON ZWEI VARIABLEN
d Doppelverhältnis, odds ratio.
Wettverhältnis (odds) π1|1/π2|1 (vgl. logistische R.)
Chancen” für B = 1 in der Gruppe A = 1
”
odds = 3 ⇔ P hB = 1 | A = 1i = 0.75 .
Vergleich der Wettverhältnisse für A = 1 und A = 2
π1|1 . π1|2
P hB = 1 | A = 1i . P hB = 1 | A = 2i
π11π22
θ=
=
=
.
P hB = 2 | A = 1i P hB = 2 | A = 2i
π2|1 π2|2
π12π21
Verhältnis von Verhältnissen −→ Doppelverhältnis.
Zwei Gruppen (Vierfeldertafel) −→ A und B vertauschbar.
Symmetrisches Mass für die Abhängigkeit von zwei binären Var.
93
5.5.
e
ABHÄNGIGKEIT VON ZWEI VARIABLEN
θ = 1 ⇔ bed. Wahrscheinlichkeiten gleich
(falls r = s = 2 :) = Unabhängigkeit von A und B.
θ > 1 , r = s = 2 : π11 · π22 > als unter Unabhängigkeit
positive Abhängigkeit”.
”
f Logarithmiertes Doppelverhältnis (log odds ratio) `θ = loghθi.
•
•
•
•
`θ = 0 bei Unabhängigkeit,
`θ > 0 bei positiver Abhängigkeit,
`θ < 0 bei negativer Abhängigkeit.
Vertauscht man die Kategorien (1 und 2) der einen Variablen,
so wechselt nur das Vorzeichen von `θ.
`θ nicht auf [−1, 1] begrenzt.
94
5.5.
ABHÄNGIGKEIT VON ZWEI VARIABLEN
g* Für kleine Risiken: πh1 << πh2 ⇒ π1+ ≈ π12
Relatives Risiko ≈ Doppelverhältnis
π1|1
π11π2+
π11π22
=
≈
π1|2
π1+π21
π12π21
95
5.5.
h
ABHÄNGIGKEIT VON ZWEI VARIABLEN
θ hängt nicht von Randverteilungen ab!
Geschichtete Stichproben: Doppelverhältnisse richtig!
i Mehr als zwei Klassen.
Für jedes Paar von Klassen [h, k]
θhk =
πhk
P
h06=h,k06=k πh0k0
(πh+ − πhk )(π+k − πhk )
Hängen dann wieder nicht von den Randsummen ab.
P hB = k | A = hi . P hB = k|A = h0i
θhk,h0k0 =
P hB = k0|A = hi P hB = k0|A = h0i
π .π 0
π π 0 0
=
k|h
k|h
=
hk h k
πk0|h πk0|h0
πh0k πhk0
Unabhängigkeit ⇔ θhk,h0k0 = 1 ⇔ θhk = 1 .
96
5.5.
ABHÄNGIGKEIT VON ZWEI VARIABLEN
j Schätzung:
(N11 + 0.5) (N22 + 0.5)
θb =
.
(N12 + 0.5) (N21 + 0.5)
Streuung der Schätzung hängt von den Randsummen ab,
im Gegensatz zum zu schätzenden Parameter!
97
5.6.
5.6
ANMERKUNGEN ZU MEDIZINISCHEN ANWENDUNGEN 98
Anmerkungen zu medizinischen Anwendungen
a Beispiel Herzinfarkt: case control study,
retrospektive Studie
Keine Schätzung des Risikos!
Anteil Frauen mit Herzinfarkt durch Plan der Untersuchung
auf 58/224=26% festgelegt.
Doppelverhältnis = Erhöhung des Risikos
durch untersuchte Risikofaktoren”
”
kann man korrekt schätzen!
Falls absolutes Risiko in der Bevölkerung bekannt ist,
kann man aus dem Doppelverhältnis Risiken bestimmen.
5.6.
ANMERKUNGEN ZU MEDIZINISCHEN ANWENDUNGEN 99
b Absolutes Risiko: Zufallsstichprobe aus der Bevölkerung,
Querschnittstudie (cross sectional study).
Nur für verbreitete Krankheiten!
Einfluss (?) von Lebensgewohnheiten?
c Präzise Daten liefert Kohorten-Studie.
d Präzise Schlussfolgerungen aus klinischen Studien
(clinical trials)
e Kohorten- und die klinische Studien = prospektiv.
Wirkungszusammenhänge nur aus klinischen Studien.
Andere: Fragestellungen der Präventivmedizin, Epidemiologie.
5.6.
ANMERKUNGEN ZU MEDIZINISCHEN ANWENDUNGEN 100
Merkpunkte
Eine und zwei kategorielle Variable
•
Aus kategoriellen Daten entstehen durch Tabellieren
Häufigkeitsdaten.
•
Grundlegendes Modell für Häufigkeitsdaten:
Unabhängige Poisson-Vert. mit Erwartungwerten nπ...,
−→ bedingte Verteilung, gegeben Randsummen.
Das Wichtige am Modell: Annahmen über die π...
•
Unabhängigkeit von zwei Merkmalen: Chiquadrat-Test.
Die einzelnen Beiträge (Pearson-Residuen) können bei der Interpretation
eines signifikanten Resultats helfen.
•
Abhängigkeitsmass: Doppelverhältnis, meist logarithmiert.
6.1.
EINLEITUNG
6
Log-lineare Modelle
6.1
101
Einleitung
a Kreuztabelle (2-dim.) sagt ber Abhigkeiten so viel wie
einfache Korrelation und Regression −→ zu wenig!
b Beispiel Zulassung zum Studium.
Anzahlen
Geschl. zugel. abgew.
w
m
P
557
1198
1755
Diskriminierung!!!
P
Prozente
zugel. abgew.
P
1278 1835
1493 2691
30.4
44.5
69.6 100
55.5 100
2771 4526
38.8
61.2 100
6.1.
EINLEITUNG
102
Anzahlen
Dept. Geschl. zugel. abgew.
A
B
C
D
E
F
w
m
w
m
w
m
w
m
w
m
w
m
P
89
512
17
353
202
120
131
138
94
53
24
22
1755
19
313
8
207
391
205
244
279
299
138
317
351
P
Prozente
zugel. abgew.
P
108
825
25
560
593
325
375
417
393
191
341
373
82.4
62.1
68.0
63.0
34.1
36.9
34.9
33.1
23.9
27.7
7.0
5.9
17.6
37.9
32.0
37.0
65.9
63.1
65.1
66.9
76.1
72.3
93.0
94.1
100
100
100
100
100
100
100
100
100
100
100
100
2771 4526
38.8
61.2 100
6.1. EINLEITUNG
Zusammenhe innerhalb von verschiedenen Gruppen
c
6 Zusammenhe ohne Gruppierung!
=
Simpson’s Paradox.
Regression: Koeffiz. eines Regressors kann Vorzeichen wechseln,
wenn andere Ausgangs-Variable ins Modell kommen.
Bedeutung der Koeffizienten ht vom Modell ab!
Ursachen? Nicht mit Statistik zu finden –
ausser in kontrollierten Versuchen.
Aber Hinweise aus mglichst vollstigen Modellen.
−→ Wir mssen auch fr kateg. Daten mehrere Grssen
aufs Mal modellieren!
−→ Log-Lineare Modelle (& Multinom. Regression!)
Zuerst nochmals zwei Variable.
103
6.2.
LOG-LINEARE MODELLE FR ZWEI FAKTOREN
6.2
Log-lineare Modelle fr zwei Faktoren
a Poisson-Regression: Yi = Anzahl
Yi ∼ Phλii ,
Nhk ∼ Phλhk i
λi = EhYii ,
loghλii = ηi = xT
i β
A und B unabhig −→
λhk = nπh+π+k
ηhk = loghλhk i = loghni + loghπh+i + loghπ+k i
= µ + αh + βk
Zweiweg-Varianzanalyse ohne Wechselwirkungen.
Analogie auch fr mehr als zwei Faktoren.
104
6.2.
LOG-LINEARE MODELLE FR ZWEI FAKTOREN
b Nebenbedinungen.
P
Varianzanalyse: (a)
αh = 0 oder (b) α1 = 0
h
P
P
Jetzt h πh+ = 1 −→ (c) h exphαhi = 1
Man kann auch (a) oder (b) verwenden −→ µ 6= loghni.
Anzahl freie Parameter: 1 + (r − 1) + (s − 1)
c Haupteffekte αh, βk ↔ Randverteilungen
= uninteressant!
Nullhypothese αh = 0 : P hA = hi = 1/r.
105
6.2.
LOG-LINEARE MODELLE FR ZWEI FAKTOREN
d Mit Wechselwirkungen
loghλhk i = µ + αh + βk + (αβ )hk
maximales Modell, (saturated model)
Gleich viele freie Parameter (mit Nebenbed.) wie Beob.
Maximales Modell im Sinne der GLM
= Vergleichsmodell fr kleinere Modelle
−→ Test fr Unabhigkeit von A und B:
Nullhypothese H0 : (αβ )hk = 0 fr alle h und k.
Testgrsse D = 2 · (``hmaximales Modelli − ``hHaupteffektmod.i)
∼ χ2
unter H0 .
(r−1)(s−1)
106
6.2.
e
LOG-LINEARE MODELLE FR ZWEI FAKTOREN
P
bhk i − Nhk + λ
bhk
mit dhk = Nhk loghNhk /λ
p
(d)
bhk i dhk
Devianz-Residuen Rhk = signhNhk − λ
D=2
h,k dhk
bhk i ∼ χ2
N
log
hN
/
λ
hk
hk
h,k
(r−1)(s−1)
G-Test” ≈ Chiquadrat-Test aus Kap. 4 (asympt. ivalent).
”
f Es gilt auch D = 2
P
g Bemerkung: Zweiweg-Varianzanalyse ohne wiederholte Beob.
Wechselw. = Zufallsfehler −→ Streuung σ
b
fr Test der Haupteffekte
Higkeitsdaten: Zahl enth auch Information ber
ihre eigene Genauigkeit.
Varianz = Erwartungswert = λ.
107
6.2.
LOG-LINEARE MODELLE FR ZWEI FAKTOREN
h Beispiel Umfrage.
Call: glm(formula = count~Beeintr+Schule, family=poisson)
Coefficients:
Value Std. Error z_appr. Pr(>|z|) Signif
(Intercept) 4.22170 0.03171
133.15 0
***
Beeintr1 0.43541 0.05301
8.21 0
***
Beeintr2 0.39555 0.02205
17.94 0
***
Beeintr3 0.29439 0.01247
23.61 0
***
Schule1 0.40562 0.03188
12.72 0
***
Schule2 -0.07996 0.01944
-4.11 0
***
Schule3 -0.17008 0.01719
-9.90 0
***
Schule4 -0.16473 0.01564
-10.54 0
***
Null Deviance: 1489 on 19 degrees of freedom
Residual Deviance: 126.3 on 12 degrees of freedom
Nur Residual Deviance ist eine Zahl mit sinnvoller Interpretation!
108
6.2.
LOG-LINEARE MODELLE FR ZWEI FAKTOREN
109
i Interpretation von signifikanten Wechselwirkungen:
j
•
A und B sind nicht unabhig.
•
Streuung der Nhk grsser, als das Poisson-Mod. annimmt
Einzelbeobachtungen abhig.
Doppelverhnisse: Es gilt
loghπhk i = loghλhk i − loghni = µ + αh + βk + (αβ )hk − loghni
0
P hB = k | A = h i
P hB = k | A = hi
loghθhk,h0k0 i = log
P hB = k0 | A = hi P hB = k0 | A = h0i
= loghπhk i − loghπhk0 i −
loghπh0k i − loghπh0k0 i
= (αβ )hk + (αβ )h0k0 − ((αβ )h0k + (αβ )hk0 )
Odds ratios allein durch die Wechselwirkungen bestimmt.
6.2.
LOG-LINEARE MODELLE FR ZWEI FAKTOREN
2 × 2 -Tafel:
P
P
Nebenbedingungen h(αβ )hk = k (αβ )hk = 0
−→ (αβ )11 = −(αβ )12 = −(αβ )21 = (αβ )22 ,
loghθi = 4(αβ )11 .
k Beispiel: Beeintrtigung = Zielgrsse” = Antwortfaktor”,
”
”
Schulbildung = erklnder Faktor.
Nicht verwechseln mit Zielgrsse des GLM: Nhk .
l Fazit: Wenig neue Einsichten,
Unabhigkeit viel komplizierter als vorher!
−→ Neues fr mehr als 2 Faktoren!
110
6.3.
6.3
LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 111
Log-lineare Modelle fr mehr als 2 Faktoren
a Beispiel Umwelt-Umfrage. Hauptverantwortung”
”
b Gesigtes Modell
ηhk` = loghλhk`i = µ + αh + βk + γ`
+(αβ )hk + (βγ )k` + (αγ )h` + (αβγ )hk`
Schungen und Tests wie frher.
Terme weglassen −→ reduzierte Modelle.
6.3.
LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 112
Beeintr.
Hauptverantwortung
Einz. Staat beide total
ungelernt
nicht
etwas
ziemlich
sehr
total
p-Wert 0.00230
81
38
23
12
154
110
36
9
3
158
Lehre
nicht
etwas
ziemlich
sehr
total
210
83
38
20
351
p-Wert 4.57e-06
206
150
58
22
436
193
67
19
7
286
ohne.Abi
nicht
etwas
ziemlich
sehr
total
19
9
6
5
39
33
28
8
6
75
432
245
85
35
797
p-Wert 0.0696
Einz.
86
89
43
14
232
Staat
66
40
22
8
136
beide
17
17
9
8
51
total
169
146
74
30
419
Beeintr.
Hauptverantwortung
Einz. Staat beide total
Abitur
nicht
etwas
ziemlich
sehr
total
p-Wert 0.468
Einz.
41
51
25
12
129
Staat
24
17
16
6
63
Studium
nicht
etwas
ziemlich
sehr
total
beide
14
24
13
3
54
total
79
92
54
21
246
p-Wert 0.0668
Einz.
19
39
27
5
90
Staat
19
14
15
8
56
beide
7
14
6
6
33
total
45
67
48
19
179
6.3.
LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 113
c Vollstige Unabhigkeit (A, B, C ) :
ηhk` = µ + αh + βk + γ` . Einfachste Nullhypothese.
d Unabhige Variablen-Gruppen (AB, C ) :
ηhk` = µ + αh + βk + γ` + (αβ )hk . Faktor C unabh. von [A, B ] .
Hauptverantwortung unabh. von (Schulbildung, Beeintr.)
6.3.
LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 114
e Bedingte Unabhigkeit (AB, AC ) :
ηhk` = µ + αh + βk + γ` + (αβ )hk + (αγ )h`
Faktoren B und C , gegeben A, unabhig.
(Bedingte gemeinsame Vert. von B und C , geg. A,
zeigt Unabhigkeit.)
Fr jede Schulbildung ist Hauptverantw. unabh. von Beeintr.
f Partieller Zusammenhang (AB, AC, BC ) :
ηhk` = µ + αh + βk + γ` + (αβ )hk + (βγ )k` + (αγ )h`
Es fehlt nur die dreifache Wechselwirkung.
6.3.
LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 115
g Antwortgrsse C (Hauptverantwortung),
erklnde Faktoren A, B (Schulbildung, Beeintrtigung)
−→ Zweifache Ww. (αγ )h` [(βγ )k`] = Einfluss v. A [B ] auf C
(αβ )hk nicht von Interesse ↔ Korrelation von Regressoren.
6.3.
LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 116
h Beispiel: Modell ohne die dreifache Ww.
> t.tab <- table(d.umweltumf[,c("Schule","Beeintr","Wersoll")])
> t.r <- loglin(t.tab,list(c(1, 2), c(1, 3), c(2, 3)))
> c(t.r$lrt,t.r$df,1-pchisq(t.r$lrt,t.r$df))
[1] 28.4506 24.0000 0.2415
> t.d <- data.frame(t.tab)
> t.r <- glm( Freq ~ (Schule+Beeintr+Wersoll)^2, data=t.d,
+ family=poisson) ; summary(t.r)
...
Residual deviance:
28.451 on 24 degrees of freedom
6.3.
LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 117
> drop1(t.r,test="Chisq")
ohne
ohne
ohne
volles” Modell
”
Schule:Beeintr
Schule:Hauptverantw
Beeintr:Hauptverantw
RSS
Sum of Sq
Df
p.value
27.375
130.011
64.781
83.846
NA
102.636
37.406
56.471
NA
12
8
6
NA
0
0
0
6.3.
LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 118
i Dreifache Wechselwirkung. Interpretation?
Annahme: Antwortfaktor C , Ausgangs-Var. A, B
Dreifache Wechselwirkung ↔ Effekte v. A und B nicht additiv
– oder bermige Streuung!
j Beeintrtigung ebenfalls Antwortfaktor −→ multivar. Reg.”
”
Ht B von A und C von A ab?
−→ Wechselwirkungen A : B und A : C .
Bedingte (Un-)abhigkeit von B und C , gegeben A?
−→ Wechselwirkungen B : C ist signifikant.
Sowohl Beeintrtigung als Hauptverantwortung hen von Schulbildung ab,
und beide hen zusammen (innerhalb der Bildungsklassen).
6.3.
LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 119
Beeintrtigung
etwas
ziemlich
Schulbildung
Haupteff.
nicht
Haupteff.
µ
b =2.983
b1 = 0.682
β
b2 = 0.496
β
b3 = –0.205
β
–0.974
ungelernt
Lehre
ohne.Abi
Abitur
Studium
α
b1 =–0.131
α
b2 = 0.588
α
b3 = 0.197
α
b4 = –0.190
α
b5 = –0.464
0.483
0.450
–0.041
–0.280
–0.612
–0.169
0.106
0.025
0.036
0.002
–0.274
–0.282
0.019
0.187
0.349
–0.041
–0.273
–0.004
0.057
0.261
Hauptverantwortung
Einzelne
Staat
Schulbildung
beide
Haupteff.
µ
b =2.983
γb1 = 0.593
γb2 = 0.038
γb3 = –0.631
ungelernt
Lehre
ohne.Abi
Abitur
Studium
α
b1 = –0.131
α
b2 = 0.588
α
b3 = 0.197
α
b4 = –0.190
α
b5 = –0.464
–0.096
0.171
0.104
–0.064
–0.115
0.246
0.094
0.005
–0.297
–0.048
–0.150
–0.265
–0.109
0.361
0.163
Einzelne
Staat
beide
Beeintrtigung
Haupteff.
µ
b =2.983
γb1 = 0.593
γb2 = 0.038
γb3 = –0.631
nicht
etwas
ziemlich
sehr
b1 =0.682
β
b2 =0.496
β
b3 = –0.205
β
b4 =–0.974
β
–0.109
0.075
0.127
–0.093
0.389
–0.087
–0.067
–0.235
–0.281
0.012
–0.060
0.328
sehr
6.3.
LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 120
k Interpretation von geschten Effekten:
Haupteffekte der Zielgrsse: loghπ
b`/π
b`0 i = γb` − γb`0
odds ( Einzelne : Staat ) gleich exph0.593 − 0.038i = 1.742 .
Wechselwirkungen zwischen Antwortfaktor und Ausgangsfaktoren
πh0`
πh`
= (αγ )h` − (αγ )h`0 − (αγ )h0` + (αγ )h0`0
log
πh`0 πh0`0
Die odds ( Einzelne : Staat ) sind fr Ungelernte vs. Studierte
um Faktor exph−0.096 − 0.246 − (−0.115) + (−0.048)i
= exph−0.275i = 0.760 tiefer.
6.4.
6.4
VORGEHEN BEI DER ANPASSUNG LOG-LIN. MODELLE 121
Vorgehen bei der Anpassung log-lin. Modelle
a • Vorher berlegen: Ziel der Analyse?
−→ Antwortfaktoren, Ausgangsfaktoren?
Antwortfaktoren ordinal? −→ kumulative Logits
Sonst Multinomiale Regression oder loglineare Modelle
6.4.
VORGEHEN BEI DER ANPASSUNG LOG-LIN. MODELLE 122
b Entwickeln eines Modells:
1. Gesigtes Modell, (wenn es geht ...)
2. schrittweise unwichtige Wechselwirkungsterme weg
Haupteffekte, auch der Antwortfaktoren, drin lassen.
Alle Terme, die nur Ausgangsfaktoren enthalten, drin lassen!
Das Modell soll
•
komplex genug sein, um gute Anpassung zu erreichen,
aber nicht komplexer als ntig, und
•
einfach zu interpretieren!
6.4.
VORGEHEN BEI DER ANPASSUNG LOG-LIN. MODELLE 123
Interpretation analog zur Var.analyse, aber mit
c
verschobener Bedeutung:
•
Die Haupteffekte sind bedeutungslos.
•
Zweifache Wechselw. (Antwortfaktor : Ausgangsfaktor)
↔ Haupteffekte in der Varianzanalyse.
•
Wechselwirkungen zwischen Ausgangsfaktoren unwichtig.
Analog Kollinearitn in der Regression.
•
Wechselw.zw. Antwortfaktoren ↔ Korrel.zw. Zielgrssen
•
3-fache Ww (Antwortfaktor, 2 Ausgansfaktoren)
↔ 2-fache Ww (anova).
6.5.
6.5
QUANTITATIVE VARIABLE
Quantitative Variable
a Alter: oft klassiert. Informationsverlust, vor allem durch
Verlust der quantitativen Interpretation
Viele Fragen ordinal: gar nicht ” – ganz einverstanden”
”
”
Evtl. sogar quantitativ.
b Statt αh −→ αxh , statt (αβ )hk −→ (αβ )k xh
λhk = µ + αxh + βk + (αβ )k xh
−→ Einschrungen fr Nh+ −→ zurck zu αh
λhk = µ + αh + βk + (αβ )k xh
(1 Nebenbedingung fr (αβ )k )
124
6.5.
QUANTITATIVE VARIABLE
125
c Doppelverhnisse.
P hB = k|A = xh0 i
P hB = k|A = xhi
P hB = k0|A = xhi P hB = k0|A = xh0 i
= ((αβ )k − (αβ )k0 )(xh − xh0 )
loghθhk,h0k0 i = log
log odds ratio B = k : B = k0 proportional
zur Differenz der x-Werte.
QUANTITATIVE VARIABLE
126
100
6.5.
60
20
40
beide
Einzelne
0
Prozent
80
Staat
20
30
40
50
Alter
60
70
80
90
6.5.
QUANTITATIVE VARIABLE
d Beispiel Umwelt-Umfrage.
Kontingenztafel A × B. Abspeichern als data.frame.
Variable Alin einfhren.
Keine Signifikanz – auch nicht mit weiteren erkl. Variablen.
e Allgemeiner: Christensen (1990),
Chap. “Factors with Quantitative Levels”.
127
6.6.
LOGISTISCHE UND MULTINOMIALE REGRESSION
6.6
Logistische und multinomiale Regression
a Antwortfaktor zweiwertig −→ logistische Regression
b Zusammenhang? Zwei erklnden Faktoren −→ r × s × 2 -Tafel
P hYi = 1 | Ai = h, Bi = ki
P hYi = 2 | Ai = h, Bi = ki
P hYi = 1, Ai = h, Bi = ki
P hAi = h, Bi = ki
= log
·
P hAi = h, Bi = ki
P hYi = 2, Ai = h, Bi = ki
P hYi = 1, Ai = h, Bi = ki
= log
.
P hYi = 2, Ai = h, Bi = ki
log
128
6.6.
LOGISTISCHE UND MULTINOMIALE REGRESSION
129
Log-lineares Modell: loghπhk1/πhk2i =
λhk1
log
= loghλhk1i − loghλhk2i
λhk2
= µ + αh + βk + γ1 + (αβ )hk + (αγ )h1 + (βγ )k1
−(µ + αh + βk + γ2 + (αβ )hk + (αγ )h2 + (βγ )k2)
= (γ1 − γ2) + ((αγ )h1 − (αγ )h2) + ((βγ )k1 − (βγ )k2)
Nebenbedingungen γ2 = 0 , (αγ )h2 = 0 , (βγ )k2 = 0 .
Logistisches Modell?
πhk1
(A)
(B)
log
= γ1 + (αγ )h1 + (βγ )k1 = θ0 + θh + θk
πhk2
Haupteffektmodell −→ Regressionsmodell.
6.6.
LOGISTISCHE UND MULTINOMIALE REGRESSION
c Antwortfaktor mit mehr als zwei Werten `:
multinomiale Regression.
Referenzkategorie” ` = 1
”
X
P hYi = ` | xii
(j)
log
= β0` +
βj`xi .
j
P hYi = 1 | xii
Wettverhnisse ` 6= 1 : ` = 1 = lineare Funktionhxii.
d* Welche Kategorie als Referenz genommen wird, spielt keine Rolle.
130
6.6.
LOGISTISCHE UND MULTINOMIALE REGRESSION
e* Alternativ: Wettverhnisse Y = ` : Y 6= ` = lin. Funktion hxi i.
andere (unhandlichere) Modelle.
E
D
P
P
P hY =`|x i
P hYi =
6 `i = l6=` P hYi = li 6=
Grssen wie log P hY i=1|xi i
i
i
Modelle fr geordnete Zielgrssen ebenfalls verschieden.
Zwei Kategorien von Y zus.fassen ert die Koeffizienten aller Kategorien.
131
6.6.
LOGISTISCHE UND MULTINOMIALE REGRESSION
f* Zusammenhang log-lineares Modell ↔ multinomiale Regr.
Beobachtungen i mit xi = xk und Yi = ` zen −→ Nk`
Log-lineares Modell:
loghλk`i = µ + αk + γ` + β T
` xk
Nebenbedingungen β1 = 0 und γ1 = 0 .
loghπk`/πk1i = loghλk`/λk1i = γ` + (β ` − β 1)T xk
γ` −→ β0` , (β ` − β 1)(j) −→ βj` .
132
6.6.
LOGISTISCHE UND MULTINOMIALE REGRESSION
g* Allgemeine Formulierung.
log
P hYi = ` | xii
P hYi = 1 | xii
=
(j`)
X
j
βj xi
h Antwortfaktor ∼ erklnde Grssen
−→ multinomiale (oder ordinale) Regression.
Multinomiale Regression entspricht log-linearem Modell.
Wenn quantitative erkl. Var. da sind −→ glm
Braucht viel technischen Programmieraufwand = ersetzung
und Know-how fr die Interpretation des Outputs.
Funktion fr multinomiale Regression multinom() bentzen!
.
133
6.6.
LOGISTISCHE UND MULTINOMIALE REGRESSION
Merkpunkte
Loglineare Modelle
•
Verschiedene Unabhigkeiten: z.B.
bedingte Unabhigkeit von B und C , gegeben A.
•
Begriff loglineare Modelle meist gebraucht fr die
Analyse von Kontingenztafeln mit Poisson-Varianzanalyse”.
”
Verschiebung der Bedeutung:
– Haupteffekte ↔ Randverteilungen, uninteressant
– einf. Wechselw. ↔ Abhigkeiten, log-odds-ratios
– dreidim. Wechselw. ↔ Wechselw. der Effekte.
•
•
1 Antwortfaktor und 1 - mehrere erklnde Variable
−→ logistische oder multinomiale Regression!
134
6.6.
LOGISTISCHE UND MULTINOMIALE REGRESSION
Messages
•
135
Generalized Linear Models
Generalized Linear Models include, as to the
target variable’s distibution:
– Normal Distribution
– Bernoulli- and Binomial distribution,
– Poisson distribution,
– Exponential- and Gamma distribution.
6.6.
LOGISTISCHE UND MULTINOMIALE REGRESSION
•
Theory and Algorithms may be conceived for all of them
– Maximum Likelihood Estimation
– Iteratively Reweighted Least Squares
– Likelihood ratio tests for comparing models
Concept of Deviance
•
Residuals are less useful, since
they show “artificial” structure
We need them anyway!
136
6.6.
LOGISTISCHE UND MULTINOMIALE REGRESSION
Messages
137
Ordered Target Variable
•
Many nominal variables are ordered
Adequately modeled by cumulative logits (Probits, ...)
•
Concept of latent variable with threshold values
•
Multinomial target variable:
Log odds w.r.t. reference category = linear prediktors
Many parameter to be estimated!
6.7.
6.7
S-FUNKTIONEN FÜR VERALLG. LINEARE MODELLE
S-Funktionen für Verallg. Lineare Modelle
a Funktion glm, polr, multinom
summary für glm, polr
drop1 für glm, polr
plot für glm , wie wenn es lm wäre.
b Funktion regr
family="binomial"
family="poisson"
family="ordered"
family="multinomial"
calcdisp
Logistische Regression
Poisson-Regression
Kumulative Logits
Multinomiale Regression
T/F, Dispersionsparameter schätzen?
138
6.7.
S-FUNKTIONEN FÜR VERALLG. LINEARE MODELLE
c Tests
•
Deviance tests für Faktoren und kontinuierliche Variable
•
Binomial- und Poisson-Regression: Overdispersion
wird per default angenommen.
Bei Häufigkeitsdaten calcdisp=FALSE setzen.
139
6.7.
S-FUNKTIONEN FÜR VERALLG. LINEARE MODELLE
Zusätzliche Tests:
deviance df p.value
Model
169 17 0.00000
Residual
192 136 0.00116
Null
361 153
NA
Family is quasibinomial.
estimated to be 1.41.
AIC: 492
Dispersion parameter
•
Overdispersion: Vergleich der Residual Deviance mit FG.
•
Model: Vergleich des Modells mit Achsenabschnitts-Modell
140
6.7.
S-FUNKTIONEN FÜR VERALLG. LINEARE MODELLE
d Residuen für geordnete Zielgrössen
Yi = k =⇒ αk ≤ Zi < αk+1 =⇒ αk − zbi ≤ Ei < αk+1 − zbi
Bedingte Verteilung von Ei , gegeben Yi = k, ist
logistische Vert., beschränkt auf αk − zbi ≤ Ei < αk+1 − zbi .
Residuum = Median der bedingten Verteilung.
Ebenfalls zeichnen: Quartile der bed. Vert.
141