Logistic Regression 1.1 Introduction

Transcrição

1.1. INTRODUCTION
0
Logistic Regression
1.1
Introduction
Only partially translated at this time
b Example: Shrinked blood vessels
Y:
shrinked: yes (1) / no (0)
erkl.: Breath Volume (Vol) and Frequency (Rate)
Ziel:
c
P hY = 1 | Vol, Ratei modellieren!
(1)
P hYi = 1i = hhxi
(2)
, xi
(m)
, ..., xi
i
1
Rate
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
1.1. INTRODUCTION
0.1
0.0
0.5
1.0
1.5
0.3 0.5 0.7
2.0
Vol
2.5
0.9
3.0
3.5
4.0
1.1. INTRODUCTION
(1)
P hYi = 1i = hhxi
2
(2)
, xi
(m)
, ..., xi
i
d Why is an ordinary linear regression inadequate?
(m)
(2)
(1)
+ Ei
Yi = β0 + β1xi + β2xi + . . . + βmxi
•
What is the error term Ei ?
(m)
(2)
(1)
EhYii = β0 + β1xi + β2xi + . . . + βmxi
We have P hYi = 1i = EhYii. −→ Same form o.k.
•
But: Estimated values may become < 0 and > 1 !
−→ Transformation of Yi ? 2 values remain 2 values!
−→ Transformation of EhYii = P hYi = 1i!
1.1. INTRODUCTION
e Modell. Logit-Funktion ghπi = log
3
D
π
1−π
E
(1)
ghP hYi = 1ii = ηi = β0 + β1xi
(2)
+ β2xi
(m)
+ . . . + βmxi
η: linearer Prädiktor”.
”
f Beispiel: ghP hY = 1ii = −9.53 + 3.88 · Vol + 2.65 · Rate .
4
0.0
0.2
0.4
Y
0.6
0.8
1.0
1.1. INTRODUCTION
●
●●
−5
●
−4
●
●
−3
●
●
●
−2
●●
●
−1
●● ●
●
0
●
1
2
3
4
5
6
7
1.1. INTRODUCTION
g Diskriminanzanalyse:
Yi
Gruppen-Zugehörigkeit
(j)
Xi
multivariate Beobachtungen.
Logistische Regression:
1. Schätzen: π̂i
2. Zuordnen: Ŷ = 1 , wenn η̂i > 0 ( π̂i > 0.5 )
5
1.1. INTRODUCTION
h Further Applications:
•
Toxikology: Toxic matter deadly for mice? What concentration?
•
Medicine: Treatment successful?
•
Failure of (technical) devices,
•
Bugs in (technical) products,
•
Occurence of characteristics in animals or plants,
•
client scoring,
General: 2 Groups.
6
1.2.
CONSIDERATIONS ABOUT THE MODEL
1.2
Considerations about the Model
7
a Same flexibility as linear regression.
Frequently: factors (nominal variables) as explanatory v.
b Example: Assessment of work situation.
Yi
happy (1), unhappy (0)
(j)
Region, Age, Gender, Race
Xi
Only 1 factor −→ 2 × k-cross table
NE
Mid-Atl.
S
Midwest
NW
SW
Pacific
total
unzufrieden
zufrieden
738
1161
166
406
514
916
749
1240
711
1221
482
971
209
465
3569
6380
total
1989
572
1430
1899
1932
1453
674
9949
1.2.
c Gruppierte Daten:
m` Beob. Yi zu gleichen xi = x
e` :
P
Yi
Yek ∼ Bhmk , πk i
EhYe`/mì = π`
Ye` = i : x = x
e
i
`
−→ Logistische Regression: ghπì = η`
d Beispiel Überleben von Frühgeburten. 247 Säuglinge.
Erklärende Variable: Geburtsgewicht. Klassen von je 100 g
1
2
3
4
5
6
7
8
9
10
n
Surv.no
Surv.yes
Weight
10
14
27
22
32
28
22
26
34
32
10
12
18
14
9
7
3
7
3
3
0
2
9
8
23
21
19
19
31
29
550
650
750
850
950
1050
1150
1250
1350
1450
8
Survival
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
1.2.
500
600
700
800
900
1000 1100
Weight
1200
1300
9
1400
1500
1.2.
e Transformierte Beobachtungen.
EhYe`/mì = π` ,
ghπì = linearer Prädiktor.
ghYe`/mì ≈ linearer Prädiktor.
Was tun mit Y`/m` = 0 oder = 1 ? gh0i = −∞ , gh1i = ∞.
Abhilfe: Empirische Logits
+
*
e` + 0.5
Y
e` = log
.
Z
m` − Ye` + 0.5
−→ Gewöhnliche multiple Regression mit Z` ? −→ Näherung.
10
11
0.1
2.75
2.80
2.85
2.90
2.95
log10(Gewicht)
3.00
3.05
3.10
3.15
Y
0.7
0.5
0.3
0
−1
Max.Likelihood
Kleinste Quadrate
−2
emp.logit(Y)
1
2
0.9
1.2.
1.2.
12
f Interpretation of Coefficients? Need following concepts:
odds
P hYi = 1i
odds =
1 − P hYi = 1i
π = 1/4 :
odds 1:3
( failure is 3 × more frequent )
log(odds) = ghYi = 1ii, g: Logit-Funktion.
exphηi
log(odds) = η −→ Wahrsch. π = g −1hηi = 1+exphηi . G−1 : logistische
”
Funktion”.
P
(j)
Logistische Regression: log(odds) = linearer Prädiktor j βj xi .
P
(j)
πi = logistische Funktion h j βj xi i.
1.2.
13
g Odds ratio (Doppelverhältnis): Vergleich zweier Beobachtungen
log
oddshx1i
oddshx2i
= loghoddshx1ii − loghoddshx2ii
= η1 − η2 = (x1 − x2)β
Koeffizient βj : Vergrösserung von x(j) um 1 erhöht odds ratio um Faktor eβj .
h Beispiel Ader-Verengung:
Wert für Vol = 0.5, Rate = 1.75
log(odds) = −9.56 + 3.88 · 0.5 + 2.65 · 1.75 = −2.85
−→ odds = 0.0578 ,
g −1(−2.85) = 0.0546
Vergleich Vol = 1.5, Rate = 1.75: odds ratio: e3.88 = 48.4
−→ odds = 0.0578 · 48.4 = 2.80 ,
2.80/3.80 = 0.73
1.2.
14
12
i Model with Latent Variable = Schwellenwert-Modell.
1
1
1
0
1
0
0
0
00
0 0 00
0
1
1 1
0 0
1
1 1
0
0
0
0
1
11
1
1
0
0
0
0 0
0
1 1
1
0
0
2
4
0
0
1
1
c
latente V.
6
8
10
1
1
1
0
2
4
6
x
8
10
1.2.
15
βe + Ei
Zi = xT
iD
E
e
πi = P hYi = 1i = P hZi ≥ ci = P Ei ≥ c − xT
i β
X
(j)
= 1 − F c − β0 +
βj xi
j
F : kumulative Verteilungsfunktion des Zufallsfehlers Ei
−1hηi =
βi
mit
g
β = [βe0 − c, βe1, . . . , βem] ⇒ P hYi = 1i = g −1hxT
i
1 − F h−ηi
Ei ∼ logistische Vt.: logistische Regression
Ei ∼ Normal-Vt.:
Probitmodell
Ei ∼ Extremwertvt.: Komplementäres log-log Modell
1.3.
1.3
ESTIMATION AND TESTS
16
Estimation and Tests
a Method of Maximal Likelihood. There are programs!
b Log-Likelihood:
DY
E
X
m` y`
π` (1 − π`)m`−y`
y`
P hYe` = yì =
log
`
`
X
X
m`
=
+
log
y` loghπì + (m` − y`) logh1 − πì
`
`
y`
``hye; βi = log
mit logithπì = xT
i β
P
P
Ungrupp. Daten: m` = 1 . ``hye; βi = yi=1 loghπii+ yi=0 logh1−πii.
1.3.
c* Schätzung:
∂`hye; βi/∂βj =
=
=
=
∂ loghπì
∂ logh1 − πì
+ (m` − y`)
y
` `
∂βj
∂βj
X
1
∂π`
1
y` − (m` − y`)
`
π`
1 − π`
∂βj
X y`(1 − π`) − (m` − y`)π` dg −1hηì (j)
·
x
e`
`
π`(1 − π`)
dη`
X
(y` − m`π`) x
e(j)
`
X
`
da dg −1hηi/dη = exphηi/(1 + exphηi)2 = π (1 − π ) .
Schätzgleichung:
X
`
(y` − m` π
b`) x
e` = 0
17
1.3.
f Beispiel Ader-Verengung.
Call: glm(formula = Y ~ Vol + Rate, family = binomial,
data = d.adern)
Deviance Residuals: ...
Coefficients:
Value Std. Error z_appr. Pr(>|z|) Signif
(Intercept) -9.529 3.2140
-2.96
0.003
**
Vol 3.882 1.4202
2.73
0.006
**
Rate 2.649 0.9095
2.91
0.004
**
(Dispersion Parameter for Binomial family taken to be 1 )
Null Deviance: 54.04 on 38 degrees of freedom
Residual Deviance: 29.77 on 36 degrees of freedom
Number of Fisher Scoring Iterations: 5
Correlation of Coefficients:
(Intercept)
Vol
Vol -0.9358
Rate -0.9228
0.7631
18
1.3.
19
g Residuen-Devianz
b .
b = 2 ``(M ) − ``hye ; βi
Dhy ; πi
Maximale erreichbare Log-Likelihood ( π
e` = y`/m` ):
X m`
(M
)
``
=
log
+ y` loghyì
`
y`
+(m` − y`) loghm` − yì − m` loghmì .
h Modelle vergleichen: Likelihood-Ratio-Tests. Test-Statistik:
e ; πb(K), πb(G)i = Dhy ; πb(K)i − Dhy ; πb(G)i = 2(``(G) − ``(K))
Dhy
asymptotisch chiquadrat-verteilt, wenn das kleine Modell stimmt.
1.3.
20
i Residuen-Devianz vergleicht geschätztes Modell mit max. Mod.
−→ Anpassungstest”
”
Achtung: Geht nur bei nicht zu kleinen m` −→ grupp. Daten.
j Kleinstes Modell: πi für alle Beobachtungen gleich.
D
E
D
EP
P
π
e
`
+
log
``(0) = ` log m
ei
` y` + n logh1 − π
y
1−
π
e
`
P
mit π
e=
` y`/n.
Null-Devianz:
Dhy ; π
e i = 2 ``(M ) − ``(0)
−→ Gesamt-Test für das Modell. (H0 : alle βs =0!)
1.4.
1.4
RESIDUEN-ANALYSE
Residuen-Analyse
a Rohe Residuen (response residuals)
b
R` = Ye`/m` − π
b` , π
b` = g −1hx
eT` βi
p
(P )
Pearson residuals: R` = R`
π
b`(1 − π
b`)/m`
Deviance residuals: Beitrag der i-ten Beobachtung zur Devianz
Working residuals:
Berechnung der logist. Regr. via iterativ gewichtete Kl.Qu.
(vgl. nichtlin. Regr.)
−→ lineare Näherung −→ Residuen : working residuals”.
”
b Grafische Darstellungen:
Q-Q- (normal) plot meist unnütz!
21
1.4.
RESIDUEN-ANALYSE
22
c Tukey-Anscombe-Diagramm:
−1
−0.5
raw residual
0.0
0.5
Pearson residual
0
1
2
3
Rohe Res. / geschätzte πi oder Arbeitsres. / lin. Prädiktor
braucht Glättung.
0.0
0.2
0.4
0.6
estimated pi
0.8
1.0
0.0
0.2
0.4
0.6
estimated pi
0.8
1.0
1.4.
RESIDUEN-ANALYSE
23
−1.5
−1.0
−0.5
lr
0.0
0.5
1.0
1.5
Survival ~ Weight
0.2
0.4
0.6
lf
0.8
1.4.
e
RESIDUEN-ANALYSE
Partial residual plots”:
”
(j)
bj x(j) − Konst.) plus geeignete Residuen
Effekte” von xi ( = β
i
”
(j)
gegen xi .
24
RESIDUEN-ANALYSE
25
−2
−2
Partial for Age
−1
0
Partial for Weight
−1
0
1
1
2
Survival ~ Weight + Age + Apgar1
800
1000
1200
Weight
1400
0
2
4
Apgar1
6
20
25
30
Age
Partial for Apgar1
−1
0
1
600
−2
1.4.
8
35
1.4.
RESIDUEN-ANALYSE
regr
regr(formula = Survival ~ Weight + Age + Apgar1, data = t.d,
family = binomial)
Terms:
coef stcoef t.ratio df
Chi2 p.value
(Intercept) -8.484190
NA
NA 1
NA
NA
Weight
0.003791 1.0065 2.2780 1 22.535
0.000
Age
0.165297 0.4519 1.1254 1 4.999
0.025
Apgar1
0.142989 0.3179 0.9123 1 3.289
0.070
deviance df p.value
Model
82.72
3
0
Residual
236.56 243
NA
Null
319.28 246
NA
Dispersion parameter taken to be 1. Family is binomial.
AIC: 244.6
Number of Fisher Scoring iterations: 5
26
RESIDUEN-ANALYSE
27
Y~Gewicht + Alter + Apgar1
119
5
2
119
218
208
237
224 196
122
165
146
158
11
0
1
218
208
165
237
224
196
122
st.res( Y )
−2 −1
0
res( Y )
−10
−5
82
5
22
14
−3
−15
68
171
39
−4
−20
202
92
−2
−1
0
1
2
Linear Predictor
3
4
6
118
93
225
14
68
171
39
202
92
0.01
0.03
0.05
hat diagonal
0.07
5
119
5
119
218
208
196 224237
218 208
224 122237
196
165
Residuals
−10
−5
0
165
171
−20
202
92
0
50
100
150
sequence
200
250
17168
39
−15
68
−15
39
5 1422
202
−20
5 1422
92
600
800
1000 1200
Gewicht
1400
Jul 15,00/5:14 | |
0
122
res( Y )
−10
−5
1.4.
RESIDUEN-ANALYSE
28
5
0
Residuals
−10
−5
−15
−20
−20
−15
Residuals
−10
−5
0
5
Y ~ Gewicht + Alter + Apgar1
24
26
28
Alter
30
32
0
1
2
3
4
5
Apgar1
6
7
8
9
0
Residuals
−10
−5
Jul 15,00/5:15 | |
−15
−20
−15
Residuals
−10
−5
0
5
22
5
20
−20
1.4.
0
1
2
3
4
5
6
Apgar5
7
8
9
10
6.8
6.9
7.0
7.1
7.2 7.3
pH
7.4
7.5
7.6
1.4.
RESIDUEN-ANALYSE
29
Call:
regr(formula = cbind(Survival.1, Survival.0) ~ Weight,
data = t.d, family = binomial)
Terms:
coef stcoef t.ratio df
F p.value
(Intercept) -4.560648
NA
NA 1
NA
NA
Weight
0.005087 1.540
3.145 1 47.98
0
deviance df p.value
Model
74.61 1 0.0000
Residual
12.44 8 0.1327
Null
87.05 9
NA
Dispersion parameter estimated to be 1.555.
AIC: 45.43
Number of Fisher Scoring iterations: 4
Family is binomial.
RESIDUEN-ANALYSE
30
cbind(Survival.1, Survival.0)~Weight
0.5
5
5
1.0
7
res( Y )
−0.5
0.0
st.res( Y )
−0.5 0.0 0.5
7
3
9
−1.0
1
−1.5
8
1
0.2
0.3
0.4
0.5
0.6
fitted
0.7
0.8
0.9
0.16
0.18
0.20 0.22 0.24
hat diagonal
0.28
0.30
7
8
1
1
Jun 14,00/1:43 | |
−1.0
−1.0
Residuals
−0.5
0.0
7
0.26
5
0.5
5
0.5
8
0.14
res( Y )
−0.5
0.0
1.4.
8
1
2
3
4
5
6
sequence
7
8
9
10
600 700 800 900
1100
Weight
1300
2.1.
POISSON-REGRESSION
2
Verallgemeinerte Lineare Modelle
2.1
Poisson-Regression
b Beispiel Schiffs-Havarien.
Y Anzahl Schaden-Ereignisse,
X Anzahl Betriebs-Monate M,
Schiffs-Typ
T: 0, 1
Baujahr-Periode
C: 60, 65, 70, 75
Betriebs-Periode
O: 0, 1
T
C
O
M
Y
1
2
3
0
0
0
0
1
0
127
63
1095
0
0
3
13
14
1
1
60
60
65
...
70
75
1
1
13099
7117
44
18
31
POISSON-REGRESSION
0
1960−74
1975−79
1
50
50
0
1
60
32
60
2.1.
10
1
50
0
100
0
0
0
0
1
1
0
1
10
1
20
1
30
0
40
Anz.Schaeden
20
30
40
1
200
500
1000 2000
5000
Betriebsmonate
20000
50000
2.1.
c
POISSON-REGRESSION
Yi ∼ Phλii
EhYii = λi = g −1hxii
g hEhYiii = ηi = xT
i β
g: log
ghλi = loghλi
⇒
E
D
(1)
(m)
β
x
β
x
β
T
m
i
EhYii = λ = exp xi β = e 0 · e 1 i · ... · e
(1)
xi
e
e
= β0 · β1
e multiplikative Effekte!
(2)
(m)
x
x
e
e
· β2
· ... · βm
33
2.1.
POISSON-REGRESSION
34
f Beispiel:
loghEhYiii = β0+βM loghMii+βT Ti+βP Pi+γ1·(C1)i+γ2·(C2)i+γ3·(C3)i
loghMi: Anz. Havarien proportional zu Anz. Betriebsmonate
g Anzahlen: gruppierte Daten”
”
2.2.
2.2
a
DAS GRUNDLEGENDE MODELL
Das grundlegende Modell
g hEhYiii = ηi = xT
i β
g: Link-Funktion
b Verteilung von Y ? Binomial, Poisson, normal, Gamma, ...
−→ Exponentialfamilie!
35
2.2.
36
c Exponentialfamilie
f hy ; θ, φ, ωi = exp
θ:
φ:
ω:
b:
c:
yθ − bhθi
ω + chy ; φ; ωi
φ
kanonischer Parameter.
Dispersions-Parameter, Stör-Parameter.
Gewicht bei gruppierten Daten.
Welche Verteilung?
Normierung auf gesamte W.=1
d Es gilt:
µ = EhY i = b0hθi ,
(mit geeigneter Funktion V ).
φ
φ
varhY i = b00hθi · = V hµi ·
ω
ω
2.2.
37
e Normalverteilung:
log
D
f hy ; µ, σ 2i
E
√
1
= − logh 2π degσi −
2
=
2
yµ − 1
µ
2
σ2
y−µ
σ
2
√
y2
−
− logh 2π degσi
2
(2σ )
θ = µ
φ = σ2
bhθi = θ2/2
chy ; φi = −y 2/(2φ) − (1/2) logh2π deg φi
2.2.
38
ek /mk .
g Binomial-Verteilung: Zielgrösse Yk = Y
log hP hY = yii
= log
=
y log
m
my
+ (my ) loghπi + m logh1 − πi − (my ) logh1 − πi
π
1−π
m
+ logh1 − πi m + log
my
θ = loghπ/(1 − π )i
ω = m m chy ; φi = log
my
bhθi = logh1 + eθ i b0hθi = π b00hθi = π (1 − π )
0-1-Variable: m = 1 .
2.2.
39
i Link-Funktion.
Inverse Link-Funktion h soll unmögliche Werte vermeiden:
ghµi = µ,
wenn EhY i beliebig
ghµi = loghµi,
wenn EhY i > 0 ,
µ
i,wenn 0 ≤ EhY i ≤ 1
ghµi = logithµi = logh (1−µ)
j
Kanonische Link-Funktion”: η = ghµi = θ = (b)−1hµi Wähle g = (b)−1 !
”
Normalverteilung
ghµi = µ
Poissonverteilung ghµi = loghµi
Binomialverteilung ghµi = logithµi
Vorteile: Existenz und Eindeutigkeit, einfachere Schätzgleichungen
2.3.
2.3
SCHÄTZUNGEN UND TESTS
40
Schätzungen und Tests
b Likelihood.
ω
X i
T βii
yiθhxT
βi
−
bhθhx
``hβi =
+ chyi; φ; ωii
i
i
i
φ
X =
yi · loghλii − λi − log(yi!)
i
X
T
T
=
yi loghe(xi β)i − e(xi β) − log(yi!)
i
c Maximum-Likelihood-Schätzung:
shβi = ∂``hβi/∂β =
X
i
sihβi .
2.3.
* Poisson-Regression j te Komponente der Scorefunktion:
∂`ìhβi
∂`ìhθi ∂θi ∂µi ∂ηi
(j)
si hβi =
=
·
·
·
∂βj
∂θi
∂µi ∂ηi ∂βj
1
(j)
θ
i
· eηi · xi
= (yi − e ) ·
µi
1
(j)
(j)
= (yi − µi) ·
· µi · xi = (yi − µi) · xi
µi
41
2.3.
42
bj
s(j)hβi = 0 −→ β
Normalgleichungen für gewichtete Kleinste Quadrate
Gewichte und Residuen” hängen von β ab !
”
Algorithmus: iteratively reweighted least squares”
”
−→ Es kann vorkommen, dass das Programm keine geeigneten Startwerte findet!
d Schätzung:
e Dispersionsparameter: Schätzung nach Max.Lik.,
mit Korrekturfaktor wegen Freiheitsgraden.
f Verteilung der geschätzten Parameter: Asymptotik
⇒ Normalverteilung (z-Test).
V = ...
βb ≈∼ N hβ, mxV /ni
2.3.
g summary(glm(...))
Call: glm(formula = Y ~ TYPE + factor(C) + OPER + log(MONTHS),
family = poisson, data = d.ship)
Deviance Residuals: ...
Coefficients:
(Intercept) -6.6109 1.2744
-5.19
0.000
***
TYPE -0.6569 0.3262
-2.01
0.044
*
factor(C)1 -0.5556 0.1470
-3.78
0.000
***
factor(C)2 0.1242 0.1038
1.20
0.231
factor(C)3 0.2965 0.1129
2.63
0.009
**
OPER 0.4585 0.1359
3.37
0.001
***
log(MONTHS) 1.0825 0.1550
6.99
0.000
***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion Parameter for Poisson family taken to be 1 )
43
2.3.
44
h Residuen-Devianz
Vergleich des gefitteten Models mit Maximal möglichem” Modell, d.h. für jede
”
Beobachtung ein Parameter:
b)
b = 2(``(M ) − ``hβi
Dhy ; µi
X
b ) − bhθeii + bhθhxT βii
b
βi
=
2ωi yi(θei − θhxT
i
i
i
θei = Parameterwert, der am besten zu yi passt.
i Poisson-Regression:
θei = log(yi)
X bi =
2 yi(loghyii − loghµ
Dhy ; µ
bii) − eloghyii + eloghµbii
i X
loghyii
− yi + µ
bi
=
2 yi
i
loghµ
bii
2.3.
j Vergleich von Modellen. Likelihood-Ratio-Test
e ; µb(K), µb(G)i = Dhy ; µb(K)) − Dhy ; µb(G)) = 2(``(G) − ``(K))
Dhy
Gesamt-Test: null deviance – residual deviance.
e ; µb(0), µi
Dhy
b = Dhy ; µb(0)) − Dhy ; µb) = 2(``(G) − ``(0))
45
2.3.
1. Likelihood-Quotienten-Test: Devianz-Differenz
H0 : Modell K mit p Parametern
H1 : Modell G mit r > p Parametern
G
L
Teststatistik 2 · log K = 2(``(G) − ``(K))
L
Verteilung unter H0 : χ2
r−p
2. Vergleich mit maximalem Modell:
Residuen-Devianz Dhyb; µi
b
H0 : Angepasstes Modell mit p Parametern
H1 : Maximales Modell m mit nk Parametern
Teststatistik Dhyb; µi
b = 2(``(M ) − ``hµi
b)
n−p (Gruppierten Daten!)
46
2.3.
3. Gesamt-Test: Vergleich von Null Devianz und Residuendevianz
H0 : Null Modell mit einem Parameter
H1 : Angepasstes Modell mit p Parametern
Teststatistik Dhyb; µ
b0i − Dhyb; µi
b = 2(``hµi
b − ``hµb0i)
p−1
47
2.3.
> r.ship1 <- glm(Y~TYPE + factor(CONS) + OPER + log(MONTHS),
data=d.ship,family=poisson)
> summary(r.ship1,corr=F)
Call: glm(formula = Y ~ TYPE + factor(CONS) + OPER + log(MONTHS),
family = poisson, data = d.ship)
Coefficients:
(Intercept) -6.6109 1.2744
-5.19
0.000
***
TYPE -0.6569 0.3262
-2.01
0.044
*
factor(CONS)1 -0.5556 0.1470
-3.78
0.000
***
factor(CONS)2 0.1242 0.1038
1.20
0.231
factor(CONS)3 0.2965 0.1129
2.63
0.009
**
OPER 0.4585 0.1359
3.37
0.001
***
log(MONTHS) 1.0825 0.1550
6.99
0.000
***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’
(Dispersion Parameter for Poisson family taken to be 1 )
> 1-pchisq(3.434,7) 0.8421659
48
1
2.4.
2.4
ÜBERGROSSE STREUUNG
Übergrosse Streuung
a Ablehnung des Modells (residual deviance): ⇒ over-dispersion.
b Neues Modell: φ > 1
Keine entsprechende Verteilung −→ Quasi-Modelle”, Quasi-Likelihood”.
”
”
c
V hµi = φµ(1 − µ) resp. V hµi = φµ
für übermässig streuende Binomial- respektive Poisson-Zielgrössen.
−→ Dispersionsparameter schätzen statt fixieren.
P ωi(yi−µbi)2
1
b
φ = n−p
V hµ i
i
49
2.4.
ÜBERGROSSE STREUUNG
b bleiben gleich
d Parameterschätzer β
q
Konfidenzintervalle um den Faktor
b breiter
φ
b < 1 ? – φ < 1 ist unplausibel!
e Was, wenn φ
50
2.5.
2.5
•
•
•
•
RESIDUEN-ANALYSE
51
Residuen-Analyse
Rohe Residuen oder response residuals: Ri = Yi − µ
bi
p
(P )
= Ri/ V hµ
Pearson-Residuen: Ri
bii
(W )
Arbeits-Residuen (working residuals): Ri
= Ri · g 0hµ
bi.
√
(D)
= signhyi − µ
bii di
Devianz-Residuen: Ri
P 2
P
loghyii
Poisson-Regression: Dhy ; µ
bi =: i di
b i = i 2 yi loghµb i − yi + µ
i
2.5.
RESIDUEN-ANALYSE
52
a Residuen-Analyse:
•
•
•
•
(W )
oder
Linearität: Arbeitsresicuen Ri
b + r(W ) vs ηbi .
adjustierte Beobachtungen yei = xT
β
i
i
Residuenvarianz: φ
f 1/2X
e (X
eW
fX
e )−1X
eT W
f 1/2 (?)
Hutmatrix: W
Residuenplot mit glatten Kurven:
– Tukey-Anscombe-Plot
– Beobachtungen vs fitted values
– Partielle Residuen-Plots
3.1.
MODELLE
3
Geordnete diskrete Zielgrössen
3.1
Modelle
a Anwendungen:
•
Beurteilung von sehr schlecht bis sehr gut,
•
gruppierte Häufigkeiten,
•
quantitative, klassierte Grösse, etc.
53
3.1.
MODELLE
54
b Beispiel: Lokale Anaesthesie des Armes.
Welche erklärenden Variablen beeinflussen den Erfolg?
Y suc.deg
Erfolg in 4 Klassen:
1: schmerzvoll, ... 4: Kein Schmerz
X medic
Medikamentdosis
napplic
Anzahl Einstiche (Intervall-Skala)
anest2:
Anästesist/in (Faktor),
moon:
Mondphase (Faktor) ...
1
3
4
8
9
...
anest2
suc.deg
A0
A2
A2
A0
A2
...
1
3
3
1
4
...
suc.deg
1 2 3
4
A0 28 18 23 25
A2 4 10 13 36
A1 6 1 6 8
3.1.
MODELLE
55
c Latente Variable, Z kontinuierlich
Yi = 0 ⇐⇒ Zi ≤ α1
Yi = k ⇐⇒ αk < Zi ≤ αk+1
Yi = k∗ ⇐⇒ αk∗ < Zi
k∗ Schwellenwerte: α1 < α2 < . . . < αk∗ .
P hYi ≤ ki = P hZi ≤ αk i ,
k = 1, . . . , k∗
1. Annahme:
Latente Variable hat z.B. logistische (Fehler-) Verteilung
2. Annahme:
Multiple lineare Regression für latente Variable
MODELLE
56
2
4
latente V.
6
8
10
3.1.
2
4
6
x
8
10
3.1.
MODELLE
57
d Modell
Zi = β0 +
X
(j)
xi βj + Ei
j
γk := P hYi ≥ ki = P hZi ≥ αk i = P hEi ≥ αk − (β0 + xT βi)
D
D
E
E
= 1 − FE αk − (β0 + xT β ) = F−E xT β −(αk − β0)
ghγk i = xT β −(αk − β0)
f Schwellenwerte nicht gleich-abständig. Schätzen!
g Kumulatives Modell: P hYi ≥ ki = P hYi = k ∗i + . . . + P hYi = ki
3.1.
MODELLE
58
Anzahl{i|Yi=k & xi=x`}
Ye`,k =
Multinomialverteilung Mk∗ hm, πi:
m`=Anzahl{i|xi=x`}
Multinomialverteilung = mehrparametrige Exponentialfamilie
genauer: betrachte Ye `/m`
h Gruppierung:
•
•
•
Erwartungsvektor: π1, . . . , πk∗
Wahrscheinlichkeiten
P hY ` = y ì
∗
(1) m`y`(1) (2) m`y`(2)
(k∗) m`y`(k )
=
(π` )
( π` )
· ... · (π` )
(1)
(L)
(m`y` )!...(m`y` )!
m` !
πk = P hYi = ki aus dem Modell der latenten Variablen.
−→ Multivariates generalisiertes lineares Modell
3.1.
MODELLE
59
i Wettverhältnisse (odds)
(1)
(m)
P hY ≥ k | xi
x
x
oddshY ≥ k | xi =
= exphαk i(exphβ1i)
· · · (exphβmi)
.
P hY < k | xi
Odds Ratio
oddshY ≥ k | x1i
= exph−(x1 − x2)T βi
oddshY ≥ k | x2i
sind für alle Schwellenwerte αk gleich!
⇒ proportional odds model.
3.1.
MODELLE
60
j* komplementäre Log-Log-Funktion”
”
ghγi = log h − logh1 − γii ,
0<γ<1
Zuverlässigkeits- und Überlebenszeit-Studien: Weibull-Verteilung.
Logarithmierte Ausfall- oder Überlebenszeiten: Gumbel-Verteilung.
Proportional hazards, Cox-Regression.
Für zensierte Daten brauchbar!
3.2.
3.2
61
Schätzungen und Tests
c R-Funktion polr
Call: polr(formula = ordered(suc.deg) ~ medic + age + bmi.gr + napplic +
anest2 + expence + moon, data = d.anest.lu, na.action = na.omit)
Coefficients:
Value Std. Error
t value
medic
-0.088959000 0.031276473 -2.8442785
age
0.005610906 0.008526959 0.6580196
bmi.gr21to28 -0.825546649 0.384865654 -2.1450255
bmi.grgt28
-0.697811976 0.539368704 -1.2937569
napplic
0.896180981 0.218809357 4.0957160
anest2a1
1.118096186 0.596838858 1.8733636
anest2a2
1.475949108 0.399248382 3.6968193
expence
0.181347910 0.182372903 0.9943797
moonneutral
0.165380216 0.346301994 0.4775607
moonvoll
-0.911484405 0.481794990 -1.8918511
Intercepts:
Value
Std. Error t value
1|2 -3.1091 1.3802
-2.2526
2|3 -2.0922 1.3664
-1.5312
3|4 -0.8735 1.3656
-0.6396
Residual Deviance: 418.8633
AIC: 444.8633
3.2.
62
d drop1
Single term deletions
Model:
ordered(suc.deg) ~ medic + bmi.gr + napplic + anest2 + moon
Df
AIC
LRT
Pr(Chi)
<none>
442.54
medic
1 448.71
8.17 0.004264 **
bmi.gr
2 443.69
5.15 0.076107 .
napplic 1 458.29 17.74 2.526e-05 ***
anest2
2 452.15 13.61 0.001111 **
moon
2 445.24
6.70 0.035081 *
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Vergleich mit gewöhnlicher Regression: ähnliches Resultat.
3.3.
3.3
b
Yi
MULTINOMIALE ZIELGRÖSSEN
Multinomiale Zielgrössen
ungeordnete Kategorien −→ Multinomiales Logit-Modell
X
P hYe` = k | xì
(j)
log
= β0k +
βjk x` .
j
P hYe` = 0 | xì
βjk > 0 : Präferenz für Zielkategorie k vor der Referenzkategorie 0 .
63
3.3.
c R: library(nnet); multinom(...)
Call:
multinom(formula = Wersoll ~ Alter.lin + Geschlecht,
data = d.umweltumfrage, weights = Freq)
Coefficients:
(Intercept) Alter.lin Geschlechtw
Staat -0.40372 0.0026276
-0.19487
beide -1.20102 -0.0022776
-0.24129
Std. Errors:
(Intercept) Alter.lin Geschlechtw
Staat
0.13697 0.0029070
0.097437
beide
0.19513 0.0042460
0.140090
Residual Deviance: 3913.0
AIC: 3925.0
64
3.3.
d
k∗ · m statt k∗ + m Parameter!!
e Schätzung:
•
getrennte Schätzung der k∗ Logit-Modelle
•
simultane Lösung der k∗ Schätzgleichungen
f Anwendung: Diskriminanzanalyse mit mehr als 2 Kategorien
65
5.1.
EINLEITUNG
5
Eine und zwei kategorielle Variable
5.1
Einleitung
a Umfragen: Fragen mit Auswahlantworten
Medizin: Diagnose, Risikogruppen, Behandlungsart
Biologie: Blütenfarbe, Blattform, Art
Technik: Geräte-Ausfälle: Ursache, Hersteller
66
5.1.
EINLEITUNG
b Kategorielle Variable oder nominale V., Faktor:
m mögliche Werte ohne natürliche quantit. Interpretation.
– Bewertungen (Bonitur) wenig / mittel / viel
oder schlecht / mittel / gut
oder gar nicht bis sehr einverstanden
– Klassierte Daten (Alter, Vermögen, ...)
Oft geordnet.
Hier wird Ordnung meist nicht verwendet.
67
5.1.
EINLEITUNG
c Beispiel Umfrage zum Umweltschutz.
Hauptverantwortung für den Umweltschutz:
bei den Einzelnen / beim Staat / bei beiden.
Beeinträchtigung durch Umweltschadstoffe.
überhaupt nicht / etwas / ziemlich / sehr beeinträchtigt.
Schulbildung:
(1) Volks-, Hauptschule ohne Lehrabschluss;
(2) mit Lehrabschluss;
(3) weiterbildende Schule ohne Abitur;
(4) Abitur, Hochschulreife, Fachhochschulreife;
(5) Studium (Universität, Akademie, Fachhochschule)
68
5.1.
EINLEITUNG
69
d Zusammenfassen in Tabellen:
1-, 2-, ...-dimensional
Beispiel Umfrage.
Beeinträchtigung (B)
nicht etwas zieml. sehr
Schule (A)
Summe
ungelernt
Lehrabschl.
ohne Abi.
Abitur
Studium
212
434
169
79
45
85
245
146
93
69
38
85
74
56
48
20
35
30
21
20
355
799
419
249
182
Summe
939
638
301
126
2004
5.1.
e
EINLEITUNG
−→ Häufigkeitsdaten (frequency data):
entstehen als Zus.fassung ursprünglicher Beob. v. diskreten Var.
Urspr. Beob. meistens als stoch. unabhängig vorausgesetzt!
Fragestellungen betreffen die ursprünglichen Variablen.
Zähldaten (count data):
Ursprüngliche Beobachtungen sind Anzahlen.
Diese Anzahlen können irgendwie zustande kommen.
70
5.1.
EINLEITUNG
f Fragestellungen:
1. Unterscheidung von abhängiger V. ( Antwortfaktor”) und
”
Ausgangsvariablen (erklärende)
−→ Logistische Regr., Multinomiale R., Kumulative Logits
g 2. Zusammenhänge”: Variablen gleichberechtigt (Multivar. St.)
”
−→ Loglineare Modelle (ebenfalls GLiM)
71
5.2.
MODELLE FÜR KREUZTABELLEN
5.2
Modelle für Kreuztabellen
72
a Notation
Variable B
1
1
2
Variable A
h
r
P
n11
n21
...
nh1
...
nr1
2
3
n12 n13 . . .
n22 n23 . . .
...
nh2 . . .
...
nr2 . . .
n+1 n+2 . . .
k
n1k
n2k
...
nhk
...
nrk
s
. . . n1s
. . . n2s
...
. . . nhs
...
. . . nrs
n+k . . . n+s
P
n1+
n2+
...
nh+
...
nr+
n
5.2.
73
b Brauchen Wahrscheinlichkeits-Modell.
P hA = h, B = ki =: πhk ,
P
h,k πhk = 1
Variable B
1
1
2
Variable A
h
r
P
π11
π21
...
πh1
...
πr1
2
3
π12 π13 . . .
π22 π23 . . .
...
πh2 . . .
...
πr2 . . .
π+1 π+2 . . .
Randverteilungen von A, B: πh+ , π+k .
k
π1k
π2k
...
πhk
...
πrk
s
. . . π1s
. . . π2s
...
. . . πhs
...
. . . πrs
π+k . . . π+s
P
π1+
π2+
...
πh+
...
πr+
n
5.2.
(Nhk zufällig!)
nicht etwas zieml. sehr
74
c Schätzung π
bhk = Nhk /n.
Summe
ungelernt
Lehrabschl.
Schule
ohne Abi.
(A)
Abitur
Studium
10.6
21.7
8.4
3.9
2.2
4.2
12.2
7.3
4.6
3.4
1.9
4.2
3.7
2.8
2.4
1.0
1.7
1.5
1.0
1.0
17.7
39.9
20.9
12.4
9.1
Summe
46.9
31.8
15.0
6.3
100.0
5.2.
75
π
d Bedingte Vert. von B, geg. A: πk|h = P hB = k | A = hi = π hk .
h+
Schätzung:
nicht etwas zieml. sehr Summe
ungelernt
Lehrabschl.
Schule (A)
ohne Abi.
Abitur
Studium
60
54
40
32
25
24
31
35
37
38
11
11
18
22
26
6
4
7
8
11
100
100
100
100
100
Summe
47
32
15
6
100
5.2.
76
Lehre
ohne Abi
Abitur
Studium
0
0
0
0
0
1
2
3
4
ungelernt
100
200
100
50
50
5.2.
e
77
πhk Wahrscheinlichkeiten für eine Beobachtung.
n Beobachtungen −→ Nhk . Verteilung?
Multinomiale Vert. [N11, N12, ..., Nrs] ∼ Mhn, π11, π12, ..., πrsi
P hN11 = n11, N12 = n12, ..., Nrs = nrsi
=
n!
n11!n12!...nrs!
n
n
nrs
π1111 π1212 , ..., πrs
multinomial sampling
f Geschichtete Stichprobe. Randtotale von A fest, Nh+ = nh+ .
−→ r unabhängige Stichproben
[Nh1, Nh2, ..., Nhs] ∼ Mhnh+, πh1, πh2, ..., πhsi ,
independent multinomial sampling.
unabh. für h = 1, ..., r
5.2.
g
78
N zufällig −→ einfaches Modell!
Regentropfen auf Kontingenztafel”
”
−→ Modell der unabhängigen Poisson-Vert. (Poisson sampling),
Nhk ∼ Phπhk · λi , unabhängig für h = 1, ..., r und k = 1, ..., s
P hN11 = n11, N12 = n12, ..., Nrs = nrsi =
Y λnhk
hk e−λhk
n !
h,k hk
5.2.
h
N festhalten, bedingte Verteilung der Nhk , gegeben N = n.
−→ Multinomiale Verteilung.
Nh+ = nh+ fest −→ unabhängige Multinomiale Verteilungen.
Trick: Mit unabhängigen Poisson-Variablen N` arbeiten;
Korrekturen für Bedingtheit”.
”
79
UNABHÄNGIGKEIT VON ZWEI VARIABLEN UND
VERGLEICH VON STICHPROBEN
5.3 Unabhängigkeit von zwei Variablen und
5.3.
Vergleich von Stichproben
a • Standardisieren, Quadratsumme bilden!
Poisson-Trick:
Nhk ∼ Phλhk i ≈∼ N hλhk , λhk i
bhk
Nhk − λ
(P )
q
≈∼ N h0, 1i
Rhk =
bhk
λ
(P )
Rhk : Pearson-Residuen
80
5.3.
b Teststatistik = Quadratsumme
T =
X
(P )2
=
Rhk
h,k
( beobachtethk − erwartethk )2
X
h,k
erwartethk
T ∼ χ2hdfi, df = Anzahl Freiheitsgrade =
rs minus Anzahl Nebenbedingungen
= rs − (1 + (r − 1) + (s − 1)) = (r − 1)(s − 1) .
c Verteilung?
81
5.3.
d Beispiel Umfrage
4
(P )
Rhk
h
1
2
3
4
22.3
50.2
26.3
15.7
11.4
1
2
3
4
5
3.5
3.1
-2.0
-3.5
-4.4
-2.6
-0.6
1.1
1.5
1.5
-2.1
-3.2
1.4
3.0
4.0
-0.5
-2.1
0.7
1.4
2.5
k
bhk
λ
h
1
2
3
1
2
3
4
5
166.3
374.4
196.3
116.7
85.3
113.0
254.4
133.4
79.3
57.9
53.3
120.0
62.9
37.4
27.3
82
k
T = 125.0 . df = (5 − 1)(4 − 1) = 12 , kritischer Wert 21.03. P-Wert = 0.
2
3
4
5
Schule
e
VON ZWEI VARIABLEN UND
1
5.3. UNABHÄNGIGKEIT
Association Plot
1
2
Beeintraechtigung
3
4
83
5.3.
f Frage: Antworten Personen mit verschiedener Schulbildung
gleich auf die Frage nach der Belästigung?
Vergleich von unabhängigen Stichproben.
(Umfang der Teilstichproben beliebig.)
Quantitative Variable: Lageparameter” (Erw.wert oder Median)
”
von Interesse.
Für kategorielle Variable: Vergleich der ganzen Verteilungen.
Für geordnete Variable: Vergleich der Mediane
−→ Rangtests (U-Test oder Kruskal-Wallis).
g Der Test zum Vergleich von unabh. Stichproben ist mit dem
Test für die Unabhängigkeit zweier Variablen identisch.
84
Vierfeldertafel (r = s = 2 )
5.3.
h
Beispiel Herzinfarkt und Verhütungsmittel (Agresti, 1990).
58 verh. Herzinfarkt-Patientinnen < 45 J. 2 Spitalregionen.
Vergleich mit Pat., die aus anderen Gründen ins Spital kamen
Haben Verhütungspillen einen Einfluss auf Herzinfarkte?
Herzinfarkt (B)
ja nein Summe
Verhütungspille
(A)
ja 23
nein 35
34
132
58
166
Summe 57 167
224
Ist N11/n1+ = 23/58 = 40% signifikant von
N21/n2+ = 34/166 = 20% verschieden?
85
VERGLEICH
STICHPROBEN
Vergleich
zweier VON
Wahrscheinlichkeiten
(2 Stichproben).
5.3.
i
n(n11n22 − n12n21)2
T =
.
n1+n2+n+1n+2
Pearson’s Chi-squared test with Yates’ cont.corr.
X-squared = 7.3488, df = 1, p-value = 0.00671
j* Exakte Verteilung von T .
T | n1+, n2+, n+1, n+2 = Funktion von N11 .
n1+ n2+
n2+!
n1+!
n!
n11 n21
·
P hN11 = n11i =
=
n n11!n12! n21!n22! n+1!n+2!
n
+1
n1+!n2+!n+1!n+2!
=
n!n11!n12!n21!n22!
Hypergeometrische Verteilung −→ exakter Test von Fisher.
86
5.3.
k Verbundene Stichproben. 2 Variable Y (1) , Y (2) ,
z.B. vor und nach einer Behandlung.
Hat sich der Erwartungswert verändert?
−→ Differenzen Y (2) − Y (1) ≈ 0 ?
Kategorielle V.:
Unterscheiden sich die Verteilungen der beiden Variablen?
(1)
(2)
r = s! Sind Yi
= Yi ? Wohl kaum für alle i!
Allgemeiner: Sind πhk = πkh ?
87
5.3.
l Vierfeldertafel: McNemar-Test.
H0 : π1+ = π+1 ⇔ π12 = π21 . N12 ∼ BhN12 + N21, 1/2i.
Bedingte Vert. der Anzahl Wechsel von 1 nach 2,
gegeben die Anz. aller Wechsel.
N11 und N22 egal”!
”
m
r = s > 2 : πhk = πkh für alle h < k
P
(Nhk −Nkh)2
≈ χ2
T = h<k N +N
df .
hk
kh
Prüft nicht Verteilungen von Y (1) und Y (2) gleich”!
”
88
5.4.
BEMERKUNGEN ZUR ANWENDUNG VON χ2 -TESTS
5.4
Bemerkungen zur Anwendung von χ2 -Tests
a Fehlerhafte Anwendungen des Chiquadrat-Tests.
1. Fehler: Nicht mit ursprünglich beobachteten Anzahlen.
Beispiel: In 3 Wochen durchschnittlich 12 Unfälle,
in 1 Woche danach X = 8 Unfälle.
b 3. Fehler: Daten falsch aufgeschlüsselt.
Fisher-Test: p-Wert 0.25. richtig 0.042
(Chiquadrat: p-Wert 0.32. richtig” 0.079)
”
2 von 10 vs. 8 von 12.
89
5.4.
c 2. Fehler: korrelierte (nicht unabhängige) Daten.
Test führt dann (zu?) oft zur Ablehnung der Nullhypothese. Fehler 3. Art”
”
Fehler 2A: Keine Anzahlen von unabhängigen Beobachtungen:
Anzahl Pflanzenarten auf Probeflächen.
d 4. Fehler: Klassen zusammenfassen.
Klassen mit zu kleinen Erwartungswerten, nicht Anzahlen!
Freiheitsgrade!
Zusammenfassen, nicht weglassen!
90
5.4.
e Statistik-Programme: Daten in Form der üblichen Datenmatrix
Zeilen entsprechen Beob. i −→ Ai, Bi .
Die Kreuztabelle mit den Nhk erstellt das Programm selbst.
Kreuztabelle direkt eingeben – oft unmöglich.
Nur Anzahlen bekannt −→ eine Zeile pro Kombination [h, k]
A B N
1 1 23
1 2 35
2 1 34
2 2 132
N : Gewicht”.
”
91
5.5.
ABHÄNGIGKEIT VON ZWEI VARIABLEN
5.5
Abhängigkeit von zwei Variablen
a Abhängigkeit durch eine Zahl charakterisieren, die
die Stärke des Zusammenhangs misst. −→ Korrelation”
”
Binärer Antwortfaktor B.
b Risiko π1|h = P hB = 1|A = hi = πh1/πh+ für die Gruppe h.
c Vergleich des Risikos:
•
•
Risiko-Differenz, π1|1 − π1|2 .
relatives Risiko, π1|1/π1|2 .
92
5.5.
d Doppelverhältnis, odds ratio.
Wettverhältnis (odds) π1|1/π2|1 (vgl. logistische R.)
Chancen” für B = 1 in der Gruppe A = 1
”
odds = 3 ⇔ P hB = 1 | A = 1i = 0.75 .
Vergleich der Wettverhältnisse für A = 1 und A = 2
π1|1 . π1|2
P hB = 1 | A = 1i . P hB = 1 | A = 2i
π11π22
θ=
=
=
.
P hB = 2 | A = 1i P hB = 2 | A = 2i
π2|1 π2|2
π12π21
Verhältnis von Verhältnissen −→ Doppelverhältnis.
Zwei Gruppen (Vierfeldertafel) −→ A und B vertauschbar.
Symmetrisches Mass für die Abhängigkeit von zwei binären Var.
93
5.5.
e
θ = 1 ⇔ bed. Wahrscheinlichkeiten gleich
(falls r = s = 2 :) = Unabhängigkeit von A und B.
θ > 1 , r = s = 2 : π11 · π22 > als unter Unabhängigkeit
positive Abhängigkeit”.
”
f Logarithmiertes Doppelverhältnis (log odds ratio) `θ = loghθi.
•
•
•
•
`θ = 0 bei Unabhängigkeit,
`θ > 0 bei positiver Abhängigkeit,
`θ < 0 bei negativer Abhängigkeit.
Vertauscht man die Kategorien (1 und 2) der einen Variablen,
so wechselt nur das Vorzeichen von `θ.
`θ nicht auf [−1, 1] begrenzt.
94
5.5.
g* Für kleine Risiken: πh1 << πh2 ⇒ π1+ ≈ π12
Relatives Risiko ≈ Doppelverhältnis
π1|1
π11π2+
π11π22
=
≈
π1|2
π1+π21
π12π21
95
5.5.
h
θ hängt nicht von Randverteilungen ab!
Geschichtete Stichproben: Doppelverhältnisse richtig!
i Mehr als zwei Klassen.
Für jedes Paar von Klassen [h, k]
θhk =
πhk
P
h06=h,k06=k πh0k0
(πh+ − πhk )(π+k − πhk )
Hängen dann wieder nicht von den Randsummen ab.
P hB = k | A = hi . P hB = k|A = h0i
θhk,h0k0 =
P hB = k0|A = hi P hB = k0|A = h0i
π .π 0
π π 0 0
=
k|h
k|h
=
hk h k
πk0|h πk0|h0
πh0k πhk0
Unabhängigkeit ⇔ θhk,h0k0 = 1 ⇔ θhk = 1 .
96
5.5.
j Schätzung:
(N11 + 0.5) (N22 + 0.5)
θb =
.
(N12 + 0.5) (N21 + 0.5)
Streuung der Schätzung hängt von den Randsummen ab,
im Gegensatz zum zu schätzenden Parameter!
97
5.6.
5.6
ANMERKUNGEN ZU MEDIZINISCHEN ANWENDUNGEN 98
Anmerkungen zu medizinischen Anwendungen
a Beispiel Herzinfarkt: case control study,
retrospektive Studie
Keine Schätzung des Risikos!
Anteil Frauen mit Herzinfarkt durch Plan der Untersuchung
auf 58/224=26% festgelegt.
Doppelverhältnis = Erhöhung des Risikos
durch untersuchte Risikofaktoren”
”
kann man korrekt schätzen!
Falls absolutes Risiko in der Bevölkerung bekannt ist,
kann man aus dem Doppelverhältnis Risiken bestimmen.
5.6.
b Absolutes Risiko: Zufallsstichprobe aus der Bevölkerung,
Querschnittstudie (cross sectional study).
Nur für verbreitete Krankheiten!
Einfluss (?) von Lebensgewohnheiten?
c Präzise Daten liefert Kohorten-Studie.
d Präzise Schlussfolgerungen aus klinischen Studien
(clinical trials)
e Kohorten- und die klinische Studien = prospektiv.
Wirkungszusammenhänge nur aus klinischen Studien.
Andere: Fragestellungen der Präventivmedizin, Epidemiologie.
5.6.
Merkpunkte
Eine und zwei kategorielle Variable
•
Aus kategoriellen Daten entstehen durch Tabellieren
Häufigkeitsdaten.
•
Grundlegendes Modell für Häufigkeitsdaten:
Unabhängige Poisson-Vert. mit Erwartungwerten nπ...,
−→ bedingte Verteilung, gegeben Randsummen.
Das Wichtige am Modell: Annahmen über die π...
•
Unabhängigkeit von zwei Merkmalen: Chiquadrat-Test.
Die einzelnen Beiträge (Pearson-Residuen) können bei der Interpretation
eines signifikanten Resultats helfen.
•
Abhängigkeitsmass: Doppelverhältnis, meist logarithmiert.
6.1.
EINLEITUNG
6
Log-lineare Modelle
6.1
101
Einleitung
a Kreuztabelle (2-dim.) sagt ber Abhigkeiten so viel wie
einfache Korrelation und Regression −→ zu wenig!
b Beispiel Zulassung zum Studium.
Anzahlen
Geschl. zugel. abgew.
w
m
P
557
1198
1755
Diskriminierung!!!
P
Prozente
zugel. abgew.
P
1278 1835
1493 2691
30.4
44.5
69.6 100
55.5 100
2771 4526
38.8
61.2 100
6.1.
EINLEITUNG
102
Anzahlen
Dept. Geschl. zugel. abgew.
A
B
C
D
E
F
w
m
w
m
w
m
w
m
w
m
w
m
P
89
512
17
353
202
120
131
138
94
53
24
22
1755
19
313
8
207
391
205
244
279
299
138
317
351
P
Prozente
zugel. abgew.
P
108
825
25
560
593
325
375
417
393
191
341
373
82.4
62.1
68.0
63.0
34.1
36.9
34.9
33.1
23.9
27.7
7.0
5.9
17.6
37.9
32.0
37.0
65.9
63.1
65.1
66.9
76.1
72.3
93.0
94.1
100
100
100
100
100
100
100
100
100
100
100
100
2771 4526
38.8
61.2 100
6.1. EINLEITUNG
Zusammenhe innerhalb von verschiedenen Gruppen
c
6 Zusammenhe ohne Gruppierung!
=
Simpson’s Paradox.
Regression: Koeffiz. eines Regressors kann Vorzeichen wechseln,
wenn andere Ausgangs-Variable ins Modell kommen.
Bedeutung der Koeffizienten ht vom Modell ab!
Ursachen? Nicht mit Statistik zu finden –
ausser in kontrollierten Versuchen.
Aber Hinweise aus mglichst vollstigen Modellen.
−→ Wir mssen auch fr kateg. Daten mehrere Grssen
aufs Mal modellieren!
−→ Log-Lineare Modelle (& Multinom. Regression!)
Zuerst nochmals zwei Variable.
103
6.2.
LOG-LINEARE MODELLE FR ZWEI FAKTOREN
6.2
Log-lineare Modelle fr zwei Faktoren
a Poisson-Regression: Yi = Anzahl
Yi ∼ Phλii ,
Nhk ∼ Phλhk i
λi = EhYii ,
loghλii = ηi = xT
i β
A und B unabhig −→
λhk = nπh+π+k
ηhk = loghλhk i = loghni + loghπh+i + loghπ+k i
= µ + αh + βk
Zweiweg-Varianzanalyse ohne Wechselwirkungen.
Analogie auch fr mehr als zwei Faktoren.
104
6.2.
b Nebenbedinungen.
P
Varianzanalyse: (a)
αh = 0 oder (b) α1 = 0
h
P
P
Jetzt h πh+ = 1 −→ (c) h exphαhi = 1
Man kann auch (a) oder (b) verwenden −→ µ 6= loghni.
Anzahl freie Parameter: 1 + (r − 1) + (s − 1)
c Haupteffekte αh, βk ↔ Randverteilungen
= uninteressant!
Nullhypothese αh = 0 : P hA = hi = 1/r.
105
6.2.
d Mit Wechselwirkungen
loghλhk i = µ + αh + βk + (αβ )hk
maximales Modell, (saturated model)
Gleich viele freie Parameter (mit Nebenbed.) wie Beob.
Maximales Modell im Sinne der GLM
= Vergleichsmodell fr kleinere Modelle
−→ Test fr Unabhigkeit von A und B:
Nullhypothese H0 : (αβ )hk = 0 fr alle h und k.
Testgrsse D = 2 · (``hmaximales Modelli − ``hHaupteffektmod.i)
∼ χ2
unter H0 .
(r−1)(s−1)
106
6.2.
e
P
bhk i − Nhk + λ
bhk
mit dhk = Nhk loghNhk /λ
p
(d)
bhk i dhk
Devianz-Residuen Rhk = signhNhk − λ
D=2
h,k dhk
bhk i ∼ χ2
N
log
hN
/
λ
hk
hk
h,k
(r−1)(s−1)
G-Test” ≈ Chiquadrat-Test aus Kap. 4 (asympt. ivalent).
”
f Es gilt auch D = 2
P
g Bemerkung: Zweiweg-Varianzanalyse ohne wiederholte Beob.
Wechselw. = Zufallsfehler −→ Streuung σ
b
fr Test der Haupteffekte
Higkeitsdaten: Zahl enth auch Information ber
ihre eigene Genauigkeit.
Varianz = Erwartungswert = λ.
107
6.2.
h Beispiel Umfrage.
Call: glm(formula = count~Beeintr+Schule, family=poisson)
Coefficients:
(Intercept) 4.22170 0.03171
133.15 0
***
Beeintr1 0.43541 0.05301
8.21 0
***
Beeintr2 0.39555 0.02205
17.94 0
***
Beeintr3 0.29439 0.01247
23.61 0
***
Schule1 0.40562 0.03188
12.72 0
***
Schule2 -0.07996 0.01944
-4.11 0
***
Schule3 -0.17008 0.01719
-9.90 0
***
Schule4 -0.16473 0.01564
-10.54 0
***
Null Deviance: 1489 on 19 degrees of freedom
Nur Residual Deviance ist eine Zahl mit sinnvoller Interpretation!
108
6.2.
109
i Interpretation von signifikanten Wechselwirkungen:
j
•
A und B sind nicht unabhig.
•
Streuung der Nhk grsser, als das Poisson-Mod. annimmt
Einzelbeobachtungen abhig.
Doppelverhnisse: Es gilt
loghπhk i = loghλhk i − loghni = µ + αh + βk + (αβ )hk − loghni
0
P hB = k | A = h i
P hB = k | A = hi
loghθhk,h0k0 i = log
P hB = k0 | A = hi P hB = k0 | A = h0i
= loghπhk i − loghπhk0 i −
loghπh0k i − loghπh0k0 i
= (αβ )hk + (αβ )h0k0 − ((αβ )h0k + (αβ )hk0 )
Odds ratios allein durch die Wechselwirkungen bestimmt.
6.2.
2 × 2 -Tafel:
P
P
Nebenbedingungen h(αβ )hk = k (αβ )hk = 0
−→ (αβ )11 = −(αβ )12 = −(αβ )21 = (αβ )22 ,
loghθi = 4(αβ )11 .
k Beispiel: Beeintrtigung = Zielgrsse” = Antwortfaktor”,
”
”
Schulbildung = erklnder Faktor.
Nicht verwechseln mit Zielgrsse des GLM: Nhk .
l Fazit: Wenig neue Einsichten,
Unabhigkeit viel komplizierter als vorher!
−→ Neues fr mehr als 2 Faktoren!
110
6.3.
6.3
LOG-LINEARE MODELLE FR MEHR ALS 2 FAKTOREN 111
Log-lineare Modelle fr mehr als 2 Faktoren
a Beispiel Umwelt-Umfrage. Hauptverantwortung”
”
b Gesigtes Modell
ηhk` = loghλhkì = µ + αh + βk + γ`
+(αβ )hk + (βγ )k` + (αγ )h` + (αβγ )hk`
Schungen und Tests wie frher.
Terme weglassen −→ reduzierte Modelle.
6.3.
Beeintr.
Hauptverantwortung
Einz. Staat beide total
ungelernt
nicht
etwas
ziemlich
sehr
total
p-Wert 0.00230
81
38
23
12
154
110
36
9
3
158
Lehre
nicht
etwas
ziemlich
sehr
total
210
83
38
20
351
p-Wert 4.57e-06
206
150
58
22
436
193
67
19
7
286
ohne.Abi
nicht
etwas
ziemlich
sehr
total
19
9
6
5
39
33
28
8
6
75
432
245
85
35
797
p-Wert 0.0696
Einz.
86
89
43
14
232
Staat
66
40
22
8
136
beide
17
17
9
8
51
total
169
146
74
30
419
Beeintr.
Hauptverantwortung
Einz. Staat beide total
Abitur
nicht
etwas
ziemlich
sehr
total
p-Wert 0.468
Einz.
41
51
25
12
129
Staat
24
17
16
6
63
Studium
nicht
etwas
ziemlich
sehr
total
beide
14
24
13
3
54
total
79
92
54
21
246
p-Wert 0.0668
Einz.
19
39
27
5
90
Staat
19
14
15
8
56
beide
7
14
6
6
33
total
45
67
48
19
179
6.3.
c Vollstige Unabhigkeit (A, B, C ) :
ηhk` = µ + αh + βk + γ` . Einfachste Nullhypothese.
d Unabhige Variablen-Gruppen (AB, C ) :
ηhk` = µ + αh + βk + γ` + (αβ )hk . Faktor C unabh. von [A, B ] .
Hauptverantwortung unabh. von (Schulbildung, Beeintr.)
6.3.
e Bedingte Unabhigkeit (AB, AC ) :
ηhk` = µ + αh + βk + γ` + (αβ )hk + (αγ )h`
Faktoren B und C , gegeben A, unabhig.
(Bedingte gemeinsame Vert. von B und C , geg. A,
zeigt Unabhigkeit.)
Fr jede Schulbildung ist Hauptverantw. unabh. von Beeintr.
f Partieller Zusammenhang (AB, AC, BC ) :
ηhk` = µ + αh + βk + γ` + (αβ )hk + (βγ )k` + (αγ )h`
Es fehlt nur die dreifache Wechselwirkung.
6.3.
g Antwortgrsse C (Hauptverantwortung),
erklnde Faktoren A, B (Schulbildung, Beeintrtigung)
−→ Zweifache Ww. (αγ )h` [(βγ )k`] = Einfluss v. A [B ] auf C
(αβ )hk nicht von Interesse ↔ Korrelation von Regressoren.
6.3.
h Beispiel: Modell ohne die dreifache Ww.
> t.tab <- table(d.umweltumf[,c("Schule","Beeintr","Wersoll")])
> t.r <- loglin(t.tab,list(c(1, 2), c(1, 3), c(2, 3)))
> c(t.r$lrt,t.r$df,1-pchisq(t.r$lrt,t.r$df))
[1] 28.4506 24.0000 0.2415
> t.d <- data.frame(t.tab)
> t.r <- glm( Freq ~ (Schule+Beeintr+Wersoll)^2, data=t.d,
+ family=poisson) ; summary(t.r)
...
Residual deviance:
28.451 on 24 degrees of freedom
6.3.
> drop1(t.r,test="Chisq")
ohne
ohne
ohne
volles” Modell
”
Schule:Beeintr
Schule:Hauptverantw
Beeintr:Hauptverantw
RSS
Sum of Sq
Df
p.value
27.375
130.011
64.781
83.846
NA
102.636
37.406
56.471
NA
12
8
6
NA
0
0
0
6.3.
i Dreifache Wechselwirkung. Interpretation?
Annahme: Antwortfaktor C , Ausgangs-Var. A, B
Dreifache Wechselwirkung ↔ Effekte v. A und B nicht additiv
– oder bermige Streuung!
j Beeintrtigung ebenfalls Antwortfaktor −→ multivar. Reg.”
”
Ht B von A und C von A ab?
−→ Wechselwirkungen A : B und A : C .
Bedingte (Un-)abhigkeit von B und C , gegeben A?
−→ Wechselwirkungen B : C ist signifikant.
Sowohl Beeintrtigung als Hauptverantwortung hen von Schulbildung ab,
und beide hen zusammen (innerhalb der Bildungsklassen).
6.3.
Beeintrtigung
etwas
ziemlich
Schulbildung
Haupteff.
nicht
Haupteff.
µ
b =2.983
b1 = 0.682
β
b2 = 0.496
β
b3 = –0.205
β
–0.974
ungelernt
Lehre
ohne.Abi
Abitur
Studium
α
b1 =–0.131
α
b2 = 0.588
α
b3 = 0.197
α
b4 = –0.190
α
b5 = –0.464
0.483
0.450
–0.041
–0.280
–0.612
–0.169
0.106
0.025
0.036
0.002
–0.274
–0.282
0.019
0.187
0.349
–0.041
–0.273
–0.004
0.057
0.261
Hauptverantwortung
Einzelne
Staat
Schulbildung
beide
Haupteff.
µ
b =2.983
γb1 = 0.593
γb2 = 0.038
γb3 = –0.631
ungelernt
Lehre
ohne.Abi
Abitur
Studium
α
b1 = –0.131
α
b2 = 0.588
α
b3 = 0.197
α
b4 = –0.190
α
b5 = –0.464
–0.096
0.171
0.104
–0.064
–0.115
0.246
0.094
0.005
–0.297
–0.048
–0.150
–0.265
–0.109
0.361
0.163
Einzelne
Staat
beide
Beeintrtigung
Haupteff.
µ
b =2.983
γb1 = 0.593
γb2 = 0.038
γb3 = –0.631
nicht
etwas
ziemlich
sehr
b1 =0.682
β
b2 =0.496
β
b3 = –0.205
β
b4 =–0.974
β
–0.109
0.075
0.127
–0.093
0.389
–0.087
–0.067
–0.235
–0.281
0.012
–0.060
0.328
sehr
6.3.
k Interpretation von geschten Effekten:
Haupteffekte der Zielgrsse: loghπ
b`/π
b`0 i = γb` − γb`0
odds ( Einzelne : Staat ) gleich exph0.593 − 0.038i = 1.742 .
Wechselwirkungen zwischen Antwortfaktor und Ausgangsfaktoren
πh0`
πh`
= (αγ )h` − (αγ )h`0 − (αγ )h0` + (αγ )h0`0
log
πh`0 πh0`0
Die odds ( Einzelne : Staat ) sind fr Ungelernte vs. Studierte
um Faktor exph−0.096 − 0.246 − (−0.115) + (−0.048)i
= exph−0.275i = 0.760 tiefer.
6.4.
6.4
VORGEHEN BEI DER ANPASSUNG LOG-LIN. MODELLE 121
Vorgehen bei der Anpassung log-lin. Modelle
a • Vorher berlegen: Ziel der Analyse?
−→ Antwortfaktoren, Ausgangsfaktoren?
Antwortfaktoren ordinal? −→ kumulative Logits
Sonst Multinomiale Regression oder loglineare Modelle
6.4.
b Entwickeln eines Modells:
1. Gesigtes Modell, (wenn es geht ...)
2. schrittweise unwichtige Wechselwirkungsterme weg
Haupteffekte, auch der Antwortfaktoren, drin lassen.
Alle Terme, die nur Ausgangsfaktoren enthalten, drin lassen!
Das Modell soll
•
komplex genug sein, um gute Anpassung zu erreichen,
aber nicht komplexer als ntig, und
•
einfach zu interpretieren!
6.4.
Interpretation analog zur Var.analyse, aber mit
c
verschobener Bedeutung:
•
Die Haupteffekte sind bedeutungslos.
•
Zweifache Wechselw. (Antwortfaktor : Ausgangsfaktor)
↔ Haupteffekte in der Varianzanalyse.
•
Wechselwirkungen zwischen Ausgangsfaktoren unwichtig.
Analog Kollinearitn in der Regression.
•
Wechselw.zw. Antwortfaktoren ↔ Korrel.zw. Zielgrssen
•
3-fache Ww (Antwortfaktor, 2 Ausgansfaktoren)
↔ 2-fache Ww (anova).
6.5.
6.5
QUANTITATIVE VARIABLE
Quantitative Variable
a Alter: oft klassiert. Informationsverlust, vor allem durch
Verlust der quantitativen Interpretation
Viele Fragen ordinal: gar nicht ” – ganz einverstanden”
”
”
Evtl. sogar quantitativ.
b Statt αh −→ αxh , statt (αβ )hk −→ (αβ )k xh
λhk = µ + αxh + βk + (αβ )k xh
−→ Einschrungen fr Nh+ −→ zurck zu αh
λhk = µ + αh + βk + (αβ )k xh
(1 Nebenbedingung fr (αβ )k )
124
6.5.
125
c Doppelverhnisse.
P hB = k|A = xh0 i
P hB = k|A = xhi
P hB = k0|A = xhi P hB = k0|A = xh0 i
= ((αβ )k − (αβ )k0 )(xh − xh0 )
loghθhk,h0k0 i = log
log odds ratio B = k : B = k0 proportional
zur Differenz der x-Werte.
126
100
6.5.
60
20
40
beide
Einzelne
0
Prozent
80
Staat
20
30
40
50
Alter
60
70
80
90
6.5.
d Beispiel Umwelt-Umfrage.
Kontingenztafel A × B. Abspeichern als data.frame.
Variable Alin einfhren.
Keine Signifikanz – auch nicht mit weiteren erkl. Variablen.
e Allgemeiner: Christensen (1990),
Chap. “Factors with Quantitative Levels”.
127
6.6.
LOGISTISCHE UND MULTINOMIALE REGRESSION
6.6
Logistische und multinomiale Regression
a Antwortfaktor zweiwertig −→ logistische Regression
b Zusammenhang? Zwei erklnden Faktoren −→ r × s × 2 -Tafel
P hYi = 1 | Ai = h, Bi = ki
P hYi = 2 | Ai = h, Bi = ki
P hYi = 1, Ai = h, Bi = ki
P hAi = h, Bi = ki
= log
·
P hAi = h, Bi = ki
= log
.
log
128
6.6.
129
Log-lineares Modell: loghπhk1/πhk2i =
λhk1
log
= loghλhk1i − loghλhk2i
λhk2
= µ + αh + βk + γ1 + (αβ )hk + (αγ )h1 + (βγ )k1
−(µ + αh + βk + γ2 + (αβ )hk + (αγ )h2 + (βγ )k2)
= (γ1 − γ2) + ((αγ )h1 − (αγ )h2) + ((βγ )k1 − (βγ )k2)
Nebenbedingungen γ2 = 0 , (αγ )h2 = 0 , (βγ )k2 = 0 .
Logistisches Modell?
πhk1
(A)
(B)
log
= γ1 + (αγ )h1 + (βγ )k1 = θ0 + θh + θk
πhk2
Haupteffektmodell −→ Regressionsmodell.
6.6.
c Antwortfaktor mit mehr als zwei Werten `:
multinomiale Regression.
Referenzkategorie” ` = 1
”
X
P hYi = ` | xii
(j)
log
= β0` +
βj`xi .
j
P hYi = 1 | xii
Wettverhnisse ` 6= 1 : ` = 1 = lineare Funktionhxii.
d* Welche Kategorie als Referenz genommen wird, spielt keine Rolle.
130
6.6.
e* Alternativ: Wettverhnisse Y = ` : Y 6= ` = lin. Funktion hxi i.
andere (unhandlichere) Modelle.
E
D
P
P
P hY =`|x i
P hYi =
6 ì = l6=` P hYi = li 6=
Grssen wie log P hY i=1|xi i
i
i
Modelle fr geordnete Zielgrssen ebenfalls verschieden.
Zwei Kategorien von Y zus.fassen ert die Koeffizienten aller Kategorien.
131
6.6.
f* Zusammenhang log-lineares Modell ↔ multinomiale Regr.
Beobachtungen i mit xi = xk und Yi = ` zen −→ Nk`
Log-lineares Modell:
loghλkì = µ + αk + γ` + β T
` xk
Nebenbedingungen β1 = 0 und γ1 = 0 .
loghπk`/πk1i = loghλk`/λk1i = γ` + (β ` − β 1)T xk
γ` −→ β0` , (β ` − β 1)(j) −→ βj` .
132
6.6.
g* Allgemeine Formulierung.
log
P hYi = ` | xii
P hYi = 1 | xii
=
(j`)
X
j
βj xi
h Antwortfaktor ∼ erklnde Grssen
−→ multinomiale (oder ordinale) Regression.
Multinomiale Regression entspricht log-linearem Modell.
Wenn quantitative erkl. Var. da sind −→ glm
Braucht viel technischen Programmieraufwand = ersetzung
und Know-how fr die Interpretation des Outputs.
Funktion fr multinomiale Regression multinom() bentzen!
.
133
6.6.
Merkpunkte
Loglineare Modelle
•
Verschiedene Unabhigkeiten: z.B.
bedingte Unabhigkeit von B und C , gegeben A.
•
Begriff loglineare Modelle meist gebraucht fr die
Analyse von Kontingenztafeln mit Poisson-Varianzanalyse”.
”
Verschiebung der Bedeutung:
– Haupteffekte ↔ Randverteilungen, uninteressant
– einf. Wechselw. ↔ Abhigkeiten, log-odds-ratios
– dreidim. Wechselw. ↔ Wechselw. der Effekte.
•
•
1 Antwortfaktor und 1 - mehrere erklnde Variable
−→ logistische oder multinomiale Regression!
134
6.6.
Messages
•
135
Generalized Linear Models
Generalized Linear Models include, as to the
target variable’s distibution:
– Normal Distribution
– Bernoulli- and Binomial distribution,
– Poisson distribution,
– Exponential- and Gamma distribution.
6.6.
•
Theory and Algorithms may be conceived for all of them
– Maximum Likelihood Estimation
– Iteratively Reweighted Least Squares
– Likelihood ratio tests for comparing models
Concept of Deviance
•
Residuals are less useful, since
they show “artificial” structure
We need them anyway!
136
6.6.
Messages
137
Ordered Target Variable
•
Many nominal variables are ordered
Adequately modeled by cumulative logits (Probits, ...)
•
Concept of latent variable with threshold values
•
Multinomial target variable:
Log odds w.r.t. reference category = linear prediktors
Many parameter to be estimated!
6.7.
6.7
S-FUNKTIONEN FÜR VERALLG. LINEARE MODELLE
S-Funktionen für Verallg. Lineare Modelle
a Funktion glm, polr, multinom
summary für glm, polr
drop1 für glm, polr
plot für glm , wie wenn es lm wäre.
b Funktion regr
family="binomial"
family="poisson"
family="ordered"
family="multinomial"
calcdisp
Logistische Regression
Poisson-Regression
Kumulative Logits
Multinomiale Regression
T/F, Dispersionsparameter schätzen?
138
6.7.
c Tests
•
Deviance tests für Faktoren und kontinuierliche Variable
•
Binomial- und Poisson-Regression: Overdispersion
wird per default angenommen.
Bei Häufigkeitsdaten calcdisp=FALSE setzen.
139
6.7.
Zusätzliche Tests:
deviance df p.value
Model
169 17 0.00000
Residual
192 136 0.00116
Null
361 153
NA
Family is quasibinomial.
estimated to be 1.41.
AIC: 492
Dispersion parameter
•
Overdispersion: Vergleich der Residual Deviance mit FG.
•
Model: Vergleich des Modells mit Achsenabschnitts-Modell
140
6.7.
d Residuen für geordnete Zielgrössen
Yi = k =⇒ αk ≤ Zi < αk+1 =⇒ αk − zbi ≤ Ei < αk+1 − zbi
Bedingte Verteilung von Ei , gegeben Yi = k, ist
logistische Vert., beschränkt auf αk − zbi ≤ Ei < αk+1 − zbi .
Residuum = Median der bedingten Verteilung.
Ebenfalls zeichnen: Quartile der bed. Vert.
141

Logistic Regression 1.1 Introduction

Transcrição

Documentos relacionados

Funktionalanalysis

Bestimmung der Regressionsgeraden

Bestimmung von Funktionsgleichungen

Robuste Helmert- Transformation

Fachhochschule Brandenburg Fachbereich Wirtschaft

Krankheitsbild und Behandlungsmethoden bei

Statistik 2

Klausur zur Mathematik I (Modul: Lineare Algebra I) 07.02.2013

Profiteure in der Krise - Soltau Logistic Center

Zeitreihenanalyse

KREATIV BLUMEN

Titelseite, Inhalt und Kapitel 1 im PDF-Format

der Antidiskriminierungsrichtlinien

UcxLog - Shareware Log and Contest Program von Ben DL7UCX