Abschnitt 10 - Mathematisches Institut der Universität Bonn

Transcrição

Abschnitt 10 - Mathematisches Institut der Universität Bonn
10. Die Normalverteilungsannahme
Dr. Antje Kiesel
Institut für Angewandte Mathematik
WS 2011/2012
Die Normalverteilungsannahme
◮ Bisher haben wir vorausgesetzt, daß die Beobachtungswerte
normalverteilt sind. In diesem Fall kann man beweisen, daß die
t-Tests in gewissem Sinn optimal sind.
◮ Bei großen Stichproben (Faustregel: n
≥ 30) kann der t-Test
aufgrund des zentralen Grenzwertsatzes auch ohne diese
Voraussetzung angewendet werden.
◮ Bei kleinen Stichproben ist der t-Test aber nicht mehr korrekt.
Die Normalverteilungsannahme
Damit stellen sich zwei wichtige Fragen:
1. Wie können wir feststellen, ob eine Normalverteilungsannahme
aufgrund der beobachteten Daten realistisch ist ?
2. Wodurch können wir den t-Test ersetzen, wenn wir nicht von einer
Normalverteilung ausgehen können und nur wenig über die
zugrundeliegende Verteilung wissen ?
◮ Wir gehen zunächst auf die erste Frage ein und behandeln dann die
zweite Frage im nächsten Abschnitt.
Die Normalverteilungsannahme
QQ-Plot/Normalplot
Um sich rasch einen Überblick zu veschaffen, ob die Daten durch eine
Normalverteilung angemessen beschrieben werden, kann man einen
Quantil-Quantil-Plot (QQ-Plot) der empirischen Verteilung der
Beobachtungswerte x1 , x2 , ..., xn gegen die Standardnormalverteilung
erstellen.
◮ In einem Normal-QQ-Plot werden die empirischen Quantile
x( α )
auf der y-Achse gegen die theoretischen Quantile zα unter der
Standardnormalverteilung auf der x-Achse aufgetragen.
◮ Genauer werden die Punkte mit den Koordinaten
α=
0,5
0,5 1,5 2,5
n , n , n ,...,1− n
aufgetragen.
z α , x( α )
für
Die Normalverteilungsannahme
QQ-Plot/Normalplot
◮ Sind die Daten Realisierungen einer normalverteilten Zufallsgröße
X ∼ N (m, σ2 ) ,
dann gilt für die empirischen Quantile x(α) näherungsweise
x( α ) ≈ m + σ · z α .
◮ Die Punkte im Normalplot liegen also etwa auf der Geraden
y = m+σ·x
◮ Durch Erstellen des Normalplots können wir also einschätzen, ob
eine Normalverteilungsannahme gerechtfertigt ist, und
Näherungswerte für die Parameter m und σ ablesen:
◮ Liegt der QQ-Plot in guter Näherung auf einer Gerade, dann können
wir von einer Normalverteilung ausgehen.
◮ In diesem Fall liefert die Steigung der Geraden einen Schätzwert für
die Standardabweichung, und der Achsenabschnitt auf der y-Achse
einen Schätzwert für den Mittelwert.
Beispiel: Bei einer Abfüllmaschine für Zucker wird vermutet, dass die
Abweichung X vom Normwert (in Gramm) standardnormalverteilt ist.
Um zu untersuchen, ob diese Vermutung zutrifft, wurde X bei zwanzig
Abfüllungen gemessen:
-0,18
1,37
0,58
-0,09
0,94
-1,07
-0,49
1,23
-1,22
0,66
-0,69
-0,23
-0,77
-0,86
2,06
0,11
-0,58
-0,76
Für den Normal-QQ-Plot benötigen wir die Punkte (zα , x( α) ) für
α = 0,5/20, 1,5/20, . . . , 19,5/20. Die Quantile zα entnehmen wir der
Tabelle der Standardnormalverteilung, und die Zahlen x( α) sind die der
Größe nach geordneten Messwerte:
0,46
-0,61
α
0,5/20 = 0,025
1,5/20 = 0,075
2,5/20 = 0,125
3,5/20 = 0,175
4,5/20 = 0,225
5,5/20 = 0,255
6,5/20 = 0,325
7,5/20 = 0,375
8,5/20 = 0,425
9,5/20 = 0,475
10,5/20 = 0,525
11,5/20 = 0,575
12,5/20 = 0,625
13,5/20 = 0,675
14,5/20 = 0,725
15,5/20 = 0,775
16,5/20 = 0,825
17,5/20 = 0,875
18,5/20 = 0,925
19,5/20 = 0,975
zα
−1,96
−1,44
−1,15
−0,93
−0,76
−0,60
−0,45
−0,32
−0,19
−0,06
0,06
0,19
0,32
0,45
0,60
0,76
0,93
1,15
1,44
1,96
x(α)
−1,22
−1,07
−0,86
−0,77
−0,76
−0,69
−0,61
−0,58
−0,49
−0,23
−0,18
−0,09
0,11
0,46
0,58
0,66
0,94
1,23
1,37
2,06
x( α )
◦
2
1
-2
◦
◦
◦
◦
◦
◦
-1
1
◦◦◦
◦◦◦
◦
◦ ◦◦
-1
◦
◦ ◦
2
zα
-2
Die Punkte liegen näherungsweise auf einer Geraden, so dass wir davon
ausgehen dürfen, dass X normalverteilt ist.
Die Normalverteilungsannahme
Chiquadrat-Anpassungstest
◮ Wenn man eine Normalverteilungsannahme mit bestimmten
Parametern (die z.B. auf einem QQ-Plot basiert) noch weitergehend
untersuchen möchte, kann man einen Chiquadrat-Anpassungstest
durchführen.
◮ Dazu werden die Beobachtungswerte in Klassen eingeteilt, und dann
eine Chiquadrat-Statistik basierend auf der Normalverteilung
berechnet. Überschreitet diese Statistik einen gewissen kritischen
Wert (der vom Signifikanzniveau abhängt), dann wird die
Normalverteilungsannahme verworfen.
Die Normalverteilungsannahme
Chiquadrat-Anpassungstest
◮ Wollen wir beispielsweise testen, ob die Beobachtungswerte
x1 , x2 , ..., xn Realisierungen einer standardnormalverteilten
Zufallsvariable sind, dann teilen wir die Menge der reellen Zahlen in
m Klassen K1 , . . . , Km ein.
nj die Anzahl der Beobachtungwerte, die in der
j -ten Klasse Kj liegen, und mit b
nj = n · PH0 [xi ∈ Kj ] die bei
◮ Wir bezeichnen mit
Standardnormalverteilung zu erwartende durchschnittliche Anzahl
von Werten in Kj .
◮ Wir berechnen dann die Chiquadrat-Statistik
nj ) 2
( nj − b
∑ bnj
j =1
m
χ2 =
Die Normalverteilungsannahme
Chiquadrat-Anpassungstest
◮ Wir betrachten nun die Nullhypothese
H0 : Xi ∼ N (0, 1)
und die Alternative
H1 : Xi ≁ N (0, 1).
◮ Unter der Nullhypothese hat die Teststatistik
χ2 näherungsweise
eine Chiquadratverteilung mit m − 1 Freiheitsgraden. Die Quantile
dieser Verteilung sind tabelliert.
◮ Damit ergibt sich folgender Test zum Signifikanzniveau
◮
Verwerfe H0 , falls
α:
χ2 > χ21−α,m−1 ,
wobei χ21−α,m−1 das (1 − α)-Quantil der χ2 -Verteilung mit
m − 1 Freiheitsgraden bezeichnet.
Beispiel: Wir wählen m = 10,
K1
K3
= (−∞, z0,1 ],
= (z0,2 , z0,3 ],
K2 = (z0,1 , z0,2 ],
...
, K10 = (z0,9 , ∞)
1 = 5 für alle j) und erhielten Beobachtungswerte,
(so dass n̂j = 50 · 10
die sich wie folgt auf die Klassen Kj verteilen:
j
1
2
3
4
5
6
7
8
9
10
Kj
(−∞, −1,28]
(−1,28, −0,84]
(−0,84, −0,52]
(−0,52, −0,25]
(−0,25, 0]
(0, 0,25]
(0,25, 0,52]
(0,52, 0,84]
(0,84, 1,28]
(1,28, ∞)
nj
5
7
6
7
3
1
5
4
6
6
n̂j
5
5
5
5
5
5
5
5
5
5
Wegen χ2 = 6,4 und χ20,95;9 = 16,92 > 6,4 kann die Nullhypothese für
α = 5% nicht verworfen werden.
Die Normalverteilungsannahme
Chiquadrat-Anpassungstest
◮ Mit dem Chiquadrat-Anpassungstest kann man auch analog auf
andere Verteilungen testen (z.B. Test auf gleiche
Wahrscheinlichkeiten aller Augenzahlen beim Würfeln).
◮ Die asymptotische Verteilung der Teststatistik unter der
Nullhypothese bleibt dabei unverändert eine Chiquadratverteilung.