Abschnitt 10 - Mathematisches Institut der Universität Bonn
Transcrição
Abschnitt 10 - Mathematisches Institut der Universität Bonn
10. Die Normalverteilungsannahme Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Die Normalverteilungsannahme ◮ Bisher haben wir vorausgesetzt, daß die Beobachtungswerte normalverteilt sind. In diesem Fall kann man beweisen, daß die t-Tests in gewissem Sinn optimal sind. ◮ Bei großen Stichproben (Faustregel: n ≥ 30) kann der t-Test aufgrund des zentralen Grenzwertsatzes auch ohne diese Voraussetzung angewendet werden. ◮ Bei kleinen Stichproben ist der t-Test aber nicht mehr korrekt. Die Normalverteilungsannahme Damit stellen sich zwei wichtige Fragen: 1. Wie können wir feststellen, ob eine Normalverteilungsannahme aufgrund der beobachteten Daten realistisch ist ? 2. Wodurch können wir den t-Test ersetzen, wenn wir nicht von einer Normalverteilung ausgehen können und nur wenig über die zugrundeliegende Verteilung wissen ? ◮ Wir gehen zunächst auf die erste Frage ein und behandeln dann die zweite Frage im nächsten Abschnitt. Die Normalverteilungsannahme QQ-Plot/Normalplot Um sich rasch einen Überblick zu veschaffen, ob die Daten durch eine Normalverteilung angemessen beschrieben werden, kann man einen Quantil-Quantil-Plot (QQ-Plot) der empirischen Verteilung der Beobachtungswerte x1 , x2 , ..., xn gegen die Standardnormalverteilung erstellen. ◮ In einem Normal-QQ-Plot werden die empirischen Quantile x( α ) auf der y-Achse gegen die theoretischen Quantile zα unter der Standardnormalverteilung auf der x-Achse aufgetragen. ◮ Genauer werden die Punkte mit den Koordinaten α= 0,5 0,5 1,5 2,5 n , n , n ,...,1− n aufgetragen. z α , x( α ) für Die Normalverteilungsannahme QQ-Plot/Normalplot ◮ Sind die Daten Realisierungen einer normalverteilten Zufallsgröße X ∼ N (m, σ2 ) , dann gilt für die empirischen Quantile x(α) näherungsweise x( α ) ≈ m + σ · z α . ◮ Die Punkte im Normalplot liegen also etwa auf der Geraden y = m+σ·x ◮ Durch Erstellen des Normalplots können wir also einschätzen, ob eine Normalverteilungsannahme gerechtfertigt ist, und Näherungswerte für die Parameter m und σ ablesen: ◮ Liegt der QQ-Plot in guter Näherung auf einer Gerade, dann können wir von einer Normalverteilung ausgehen. ◮ In diesem Fall liefert die Steigung der Geraden einen Schätzwert für die Standardabweichung, und der Achsenabschnitt auf der y-Achse einen Schätzwert für den Mittelwert. Beispiel: Bei einer Abfüllmaschine für Zucker wird vermutet, dass die Abweichung X vom Normwert (in Gramm) standardnormalverteilt ist. Um zu untersuchen, ob diese Vermutung zutrifft, wurde X bei zwanzig Abfüllungen gemessen: -0,18 1,37 0,58 -0,09 0,94 -1,07 -0,49 1,23 -1,22 0,66 -0,69 -0,23 -0,77 -0,86 2,06 0,11 -0,58 -0,76 Für den Normal-QQ-Plot benötigen wir die Punkte (zα , x( α) ) für α = 0,5/20, 1,5/20, . . . , 19,5/20. Die Quantile zα entnehmen wir der Tabelle der Standardnormalverteilung, und die Zahlen x( α) sind die der Größe nach geordneten Messwerte: 0,46 -0,61 α 0,5/20 = 0,025 1,5/20 = 0,075 2,5/20 = 0,125 3,5/20 = 0,175 4,5/20 = 0,225 5,5/20 = 0,255 6,5/20 = 0,325 7,5/20 = 0,375 8,5/20 = 0,425 9,5/20 = 0,475 10,5/20 = 0,525 11,5/20 = 0,575 12,5/20 = 0,625 13,5/20 = 0,675 14,5/20 = 0,725 15,5/20 = 0,775 16,5/20 = 0,825 17,5/20 = 0,875 18,5/20 = 0,925 19,5/20 = 0,975 zα −1,96 −1,44 −1,15 −0,93 −0,76 −0,60 −0,45 −0,32 −0,19 −0,06 0,06 0,19 0,32 0,45 0,60 0,76 0,93 1,15 1,44 1,96 x(α) −1,22 −1,07 −0,86 −0,77 −0,76 −0,69 −0,61 −0,58 −0,49 −0,23 −0,18 −0,09 0,11 0,46 0,58 0,66 0,94 1,23 1,37 2,06 x( α ) ◦ 2 1 -2 ◦ ◦ ◦ ◦ ◦ ◦ -1 1 ◦◦◦ ◦◦◦ ◦ ◦ ◦◦ -1 ◦ ◦ ◦ 2 zα -2 Die Punkte liegen näherungsweise auf einer Geraden, so dass wir davon ausgehen dürfen, dass X normalverteilt ist. Die Normalverteilungsannahme Chiquadrat-Anpassungstest ◮ Wenn man eine Normalverteilungsannahme mit bestimmten Parametern (die z.B. auf einem QQ-Plot basiert) noch weitergehend untersuchen möchte, kann man einen Chiquadrat-Anpassungstest durchführen. ◮ Dazu werden die Beobachtungswerte in Klassen eingeteilt, und dann eine Chiquadrat-Statistik basierend auf der Normalverteilung berechnet. Überschreitet diese Statistik einen gewissen kritischen Wert (der vom Signifikanzniveau abhängt), dann wird die Normalverteilungsannahme verworfen. Die Normalverteilungsannahme Chiquadrat-Anpassungstest ◮ Wollen wir beispielsweise testen, ob die Beobachtungswerte x1 , x2 , ..., xn Realisierungen einer standardnormalverteilten Zufallsvariable sind, dann teilen wir die Menge der reellen Zahlen in m Klassen K1 , . . . , Km ein. nj die Anzahl der Beobachtungwerte, die in der j -ten Klasse Kj liegen, und mit b nj = n · PH0 [xi ∈ Kj ] die bei ◮ Wir bezeichnen mit Standardnormalverteilung zu erwartende durchschnittliche Anzahl von Werten in Kj . ◮ Wir berechnen dann die Chiquadrat-Statistik nj ) 2 ( nj − b ∑ bnj j =1 m χ2 = Die Normalverteilungsannahme Chiquadrat-Anpassungstest ◮ Wir betrachten nun die Nullhypothese H0 : Xi ∼ N (0, 1) und die Alternative H1 : Xi ≁ N (0, 1). ◮ Unter der Nullhypothese hat die Teststatistik χ2 näherungsweise eine Chiquadratverteilung mit m − 1 Freiheitsgraden. Die Quantile dieser Verteilung sind tabelliert. ◮ Damit ergibt sich folgender Test zum Signifikanzniveau ◮ Verwerfe H0 , falls α: χ2 > χ21−α,m−1 , wobei χ21−α,m−1 das (1 − α)-Quantil der χ2 -Verteilung mit m − 1 Freiheitsgraden bezeichnet. Beispiel: Wir wählen m = 10, K1 K3 = (−∞, z0,1 ], = (z0,2 , z0,3 ], K2 = (z0,1 , z0,2 ], ... , K10 = (z0,9 , ∞) 1 = 5 für alle j) und erhielten Beobachtungswerte, (so dass n̂j = 50 · 10 die sich wie folgt auf die Klassen Kj verteilen: j 1 2 3 4 5 6 7 8 9 10 Kj (−∞, −1,28] (−1,28, −0,84] (−0,84, −0,52] (−0,52, −0,25] (−0,25, 0] (0, 0,25] (0,25, 0,52] (0,52, 0,84] (0,84, 1,28] (1,28, ∞) nj 5 7 6 7 3 1 5 4 6 6 n̂j 5 5 5 5 5 5 5 5 5 5 Wegen χ2 = 6,4 und χ20,95;9 = 16,92 > 6,4 kann die Nullhypothese für α = 5% nicht verworfen werden. Die Normalverteilungsannahme Chiquadrat-Anpassungstest ◮ Mit dem Chiquadrat-Anpassungstest kann man auch analog auf andere Verteilungen testen (z.B. Test auf gleiche Wahrscheinlichkeiten aller Augenzahlen beim Würfeln). ◮ Die asymptotische Verteilung der Teststatistik unter der Nullhypothese bleibt dabei unverändert eine Chiquadratverteilung.