Vorlesung 8: Zeitreihenanalyse
Transcrição
Vorlesung 8: Zeitreihenanalyse
Vorlesung 8: Zeitreihenanalyse 1. 2. 3. 4. 5. Was ist besonders an Zeitreihen? Unabhängige Beobachtungen bei Zeitreihen? Regressionsmodelle für Zeitreihen Zufall und Zeitreihen Schätzung von Regressionsmodellen für Zeitreihen • Stil: Einführung in die Problematik von Zeitreihen, keine Vermittlung von Techniken Teil 1 Was ist besonders an Zeitreihen? 30000 s tat ewide total accidents 35000 40000 45000 50000 55000 Monatliche Anzahl der Verkehrsunfälle in Kalifornien (1981-1989) Jul80 Nov81 Apr83 Aug84 Jan86 date May87 Sep88 Feb90 Datum Jan. 81 Feb. 81 Mrz. 81 Apr. 81 Mai. 81 Jun. 81 Jul. 81 Aug. 81 Sep. 81 Okt. 81 Nov. 81 Dez. 81 Jan. 82 Feb. 82 … Dez. 89 Unfälle 40511 36034 40328 37699 38816 38900 38625 39539 38070 40676 39270 39734 36672 32699 … 47251 Zeitliche Anordnung Objekte 1 N Zeitreihe Querschnitt Zeitreihe Datum Jan. 81 Feb. 81 Mrz. 81 Apr. 81 Mai. 81 Jun. 81 Jul. 81 Aug. 81 Sep. 81 Okt. 81 Nov. 81 Dez. 81 Jan. 82 Feb. 82 … Dez. 89 Unfälle 40511 36034 40328 37699 38816 38900 38625 39539 38070 40676 39270 39734 36672 32699 … 47251 Zeitpunkte T 1 Querschnitt Variablen V V Stundenlohn 3.1 3.2 3.0 6.0 5.3 8.8 11.0 5.0 3.6 18.0 6.3 8.1 8.8 5.5 22.0 17.0 Ausbildung 11 12 11 8 12 16 18 12 12 17 16 13 12 12 12 16 Jul80 Nov8 1 Apr83 Aug84 Jan86 date May87 Sep88 Feb90 Fitted values 4 00 00 4 50 00 5 00 00 3 50 00 Jul80 Nov8 1 Apr83 Aug84 Jan86 date Trend Ju l80 N ov81 May87 Sep88 Feb90 Apr83 Aug84 Jan86 date May87 Sep88 Feb90 Sep88 Feb90 Daten + Trend + Saison statewide total accidents/Fitted values 30000 35000 40000 45000 50000 55000 Trend + Saison 5 50 00 statewide total accidents 3 00 00 3 50 00 4 00 00 4 50 00 5 00 00 5 50 00 Daten statewide total accidents/Fitted values 30000 35000 40000 45000 50000 55000 Zeitliche Trends und saisonale Einflüsse Ju l80 N ov81 Apr83 Aug84 Jan86 date May87 Erratischer Verlauf lässt häufig Tendenzen schwer erkennen Wa te r use in 10 00 gallons 200 400 600 800 1000 Ausgangsdaten 19feb1983 31dec1982 10apr1983 date 30may1983 19ju l1983 Gleitende Durchschnitte ma : x(t)= wa te r: win dow(5) 500 600 700 800 900 31dec1982 19feb1983 10apr1983 date 30may1983 19ju l1983 Teil 2 Unabhängige Beobachtungen bei Zeitreihen? Zeitreihe: Statistische Abhängigkeit zwischen Beobachtungen Datum Jan. 81 Feb. 81 Mrz. 81 Apr. 81 Mai. 81 Jun. 81 Jul. 81 Aug. 81 Sep. 81 Okt. 81 Nov. 81 Dez. 81 Jan. 82 Feb. 82 … Dez. 89 Unfälle(t-1) … 40511 36034 40328 37699 38816 38900 38625 39539 38070 40676 39270 39734 36672 … 47971 Unfälle(t) 40511 36034 40328 37699 38816 38900 38625 39539 38070 40676 39270 39734 36672 32699 … 47251 • tsset t • corr zeit L.zeit • Korrelation 0,8040 Querschnitt: Statistische Unabhängigkeit der Beobachtungen Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Wage(t-1) … 3.1 3.2 3 6 5.3 8.8 11 5 3.6 18 6.3 8.1 8.8 5.5 22 Wage(t) 3.1 3.2 3.0 6.0 5.3 8.8 11.0 5.0 3.6 18.0 6.3 8.1 8.8 5.5 22.0 17.0 • tsset id • corr zeit L.zeit • Korrelation 0,0903 Zur Erinnerung: Annahmen Einflüsse im Zeitablauf Der Fehlerterm erfasst Messfehler und vor allem nicht berücksichtigte Einflüsse von Drittvariablen. Bei Zeitreihen können solche Einflüsse zeitlich vorhergehende und nachfolgende Drittvariablen sein. Es muss daher zusätzlich gefordert werden, dass die Fehlerterme nicht nur von den aktuellen x-Werten, sondern auch von allen zeitlich vorhergehenden und nachfolgenden x-Werten unabhängig sind. Dies ist eine sehr restriktive Annahme, die häufig nicht angemessen ist. Unabhängige Beobachtungen Auch wenn die Fehlerterme von allen zeitlich vorhergehenden und nachfolgenden x-Werten unabhängig sind, ist nicht davon auszugehen, dass die nicht berücksichtigten Drittvariablen selbst (und damit die Fehlerterme) im Zeitablauf zusammenhängen. Die Annahme der Unkorreliertheit der Fehlerterme ist daher bei Zeitreihen in der Regel nicht gegeben. Man spricht auch von Autokorrelation. Querschnitt: immer statistische unabhängige Beobachtungen? Beispiel: Untersuchung Bielefelder Studierender Fakultät Biologie Chemie Geschichte Gesundheitswissenschaften Literaturwissenschaft Mathematik Paedagogik Physik Psychologie Rechtswissenschaft Soziologie Technische Fakultaet Wirtschaftswissenschaften Insgesamt Studierende 1054 533 1274 524 3358 752 2487 375 1498 2485 1813 1089 2080 19322 Anteil 5.45% 2.76% 6.59% 2.71% 17.38% 3.89% 12.87% 1.94% 7.75% 12.86% 9.38% 5.64% 10.76% 100.00% Frauen 604 186 588 326 2495 343 1807 57 887 1193 1014 256 789 10545 Anteil 57.31% 34.90% 46.15% 62.21% 74.30% 45.61% 72.66% 15.20% 59.21% 48.01% 55.93% 23.51% 37.93% 54.58% Zeit 43 43 34 44 34 35 30 36 33 37 30 35 36 34.78 Std 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 3.796 Miete 230.25 € 230.23 € 230.80 € 230.11 € 229.78 € 230.21 € 229.58 € 227.64 € 230.07 € 230.58 € 229.73 € 230.80 € 229.62 € 230.00 € Std 30.097 29.784 29.875 27.475 30.298 30.688 30.069 28.260 30.023 29.828 29.897 29.791 29.918 29.926 Geschichtete Zufallsauswahl Fakultät GG Stufe 1 Biologie 1054 27 Chemie 533 14 Geschichte 1274 33 Gesundheitswissenschaften 524 14 Literaturwissenschaft 3358 87 Mathematik 752 19 Paedagogik 2487 64 Physik 375 10 Psychologie 1498 39 Rechtswissenschaft 2485 64 Soziologie 1813 47 Technische Fakultaet 1089 28 Wirtschaftswissenschaften 2080 54 Insgesamt 19322 500 Stufe 2 • tsset id • corr zeit L.zeit • Korrelation 0,9547 • corr miete L.miete • Korrelation -0,0300 Teil 3 Regressionsmodelle für Zeitreihen Alle bekannten Modelle verwendbar y = β0 + β1z1 + β2 z2 + β3 z3 + β4 z4 +K+ βk zk + u • lineare (zj = xj) • nicht-lineare (z.B. z2 = ln(x2)) • additive (zj = xj und Effekte additiv verknüpft) • nicht-additive (z.B. z4 = x2 ⋅ d mit DummyVariablen d) Statische und „dynamische“ Modelle • Querschnitt yi = β0 + β1x1i + β2 x2i +K+ βk xki + ui • Zeitreihe: statisches Modell yt = β0 + β1x1t + β2 x2t +K+ βk xkt + ut • Zeitreihe: „dynamisches Modell“ yt = β0 + β1x1t + β2 x1,t −1 + β3 yt −1 +K+ ut • Ein „dynamisches“ Modell enthält zeitverzögerte x-Variablen und/oder zeitverzögerte y-Variablen Zeitliche Trends und saisonale Einflüsse linearer Trend yt = β0 + β1 ⋅ t + ut quadratischer Trend yt = β0 + β1 ⋅ t + β2 ⋅ t 2 + ut exponentieller Trend saisonale Effekte ln yt = β0 + β1 ⋅ t + ut Beispiel: Dummies für Monate yt = β0 + β1d2t + β2d3t +K+ β12d12,t + ut v orher/nachher 30000 35000 40000 45000 50000 55000 Analyse von Ereignissen Vor und nach Einführung der Gurtpflicht Jul80 Nov81 Apr83 Aug84 Jan86 May87 Sep88 Feb90 date vorher nachher • Dummy-Variable: vorher (d=0), nachher (d=1) • Niveauunterschiede yt = β0 + β1dt + ut • Trendunterschiede yt = β0 + β1dt + β2t + β3 ⋅ t ⋅ dt + ut Unterschiedliche Fachgebiete alles Makrodaten Wähleranteil .3 prop. dem. vote .4 .5 .6 s ta te wide to ta l accidents 30000 35000 40000 45000 50000 55000 Verkehrsunfälle 1940 1960 1980 1916 to 1992, by 4 2000 4000 Bruttosozialprodukt US GNP 2000 3000 Allgemeine Geburtenziffer 1920 1000 b irt hs pe r 100 0 women 15-44 60 80 100 120 140 Jul80Nov81Apr83Aug84Jan86May87Sep88Feb90 date 1920 194 0 1 960 1913 to 1984 1980 1950 1 960 1970 1950-1987 1980 1990 Teil 4 Zufall und Zeitreihen 200 W ater u se in 1000 gallons 400 600 800 1000 Täglicher Wasserverbrauch in Milford, New Hampshire 31dec 1982 19feb1983 10apr1983 date 30may 1983 19jul1983 -3 W asser verbrauch (standardisiert) -2 -1 0 1 2 Täglicher Wasserverbrauch in Bielefeld, Ostwestfalen? Jan60 May61 Sep62 Feb64 Jun65 datum Nov66 Mar68 Aug69 Nein: ein einfacher Zufallsprozess! • Die systematische Komponente ist null und die Fehlerterme sind standardnormalverteilt. Die Fehlerterme zu den einzelnen Zeitpunkten sind unabhängig voneinander (keine Autokorrelation). yt = u t ut ~ N(0, 1) Corr(ut , u s ) = 0 t ≠ s Simulation zeitlicher Trends und saisonaler Einflüsse 50 100 150 200 250 0 -1 0 1 2 -2 -3 Zufall Jan60May61 Se p62Feb64Jun65Nov66Ma r6 8Au g69 Jan60May61 S ep62Feb64Jun65Nov66Mar68Aug69 50 100 150 200 250 Trend + Saison + Zufall 0 0 10 20 30 40 Saison + Zufall Jan60May61 Se p62Feb64Jun65Nov66Ma r6 8Au g69 Trend + Zufall Jan60May61 S ep62Feb64Jun65Nov66Mar68Aug69 Achtung: Scheinkorrelationen bei Trends 50 100 150 200 250 0 -1 0 1 2 -2 -3 Zufallsvariable y Jan60May61 Se p62Feb64Jun65Nov66Ma r6 8Au g69 Jan60May61 Sep62Feb64Jun65Nov66Mar68Aug69 0 -40 0 -30 0 -20 0 -10 0 -2 -1 0 1 3 Zufallsvariable x + Trend 2 Zufallsvariable x Jan60May61 Se p62Feb64Jun65Nov66Ma r6 8Au g69 Corr(y,x)=0,1032 Zufallsvariable y + Trend Jan60May61 Sep62Feb64Jun65Nov66Mar68Aug69 Corr(trendy,trendx)=-0,9989 Gebur tenz iffer Allgemeine Geburtenziffer in Deutschland 1880-2000? Jahr Nein: auch ein einfacher Zufallsprozess! • Der Wert zum Zeitpunkt t entspricht dem Wert der Vorperiode plus einem standardnormalverteilten Fehler (random walk). Die Fehlerterme zu den einzelnen Zeitpunkten sind unabhängig voneinander, nicht aber die Messwerte y. yt = ρyt −1 + ut , ρ = 1 ut ~ N(0, 1) Corr(ut , u s ) = 0, Corr( yt , y s ) ≠ 0, t ≠ s Mess wer t y Die abgeschwächte Variante Zeitpunkt t Ein autoregressiver Prozess 1. Ordnung • Ähnlich Random Walk, nur wird jetzt nicht der gesamte Wert der Vorperiode übernommen (der entsprechende Parameter ρ ist kleiner als 1). yt = ρyt −1 + ut , ρ <1 ut ~ N(0, 1) Corr(ut , u s ) = 0, Corr( yt , y s ) ≠ 0, t ≠ s Stochastische Prozesse autoregressiver Prozess yt = ρyt −1 + ut , ρ <1 Random Walk yt = ρyt −1 + ut , ρ =1 Random Walk mit Drift yt = α + ρyt −1 + ut , Gleitender Mittelwertprozess ρ =1 yt = ut + α1ut −1 , α1 < 1 Prozessidentifikation 1.0 0 Random Walk (Rho=1) -0. 50 -0.20 A uto correlatio ns of ar -0.00 0.20 Autocorre la tion s of rw 0.0 0 0.5 0 0.40 0.60 Autoregressiv (Rho=0,5) 0 2 4 6 8 Lag Bartlett's formula for MA(q) 95% confidence bands 10 0 2 4 6 8 10 Lag Bartlett's formula for MA(q) 95% confidence bands Aus dem Muster der Autokorrelationen versucht man die Art des Prozesses zu erkennen. Dabei wird die Reihe der Messwerte mit der um t = 1, 2, 3, … Zeitpunkte verzögerten Messwertreihe korreliert. ARIMA-Modelle • Modell: Die abhängige Variable besteht aus einer systematischen Komponente und einem Fehlerterm • Identifikation des den Fehlertermen zugrunde liegenden stochastischen Prozesses (linear autoregressive integrated moving average process: ARIMA). • Schätzung der Parameter der systematischen Komponente unter Kontrolle des zuvor identifizierten ARIMA-Prozesses. Zufall bei Querschnitt und bei Längsschnitt Querschnitt Zeitreihe Zufallsprozess (∞ Elemente) Stichprobenentnahme Urne (N Elemente) einmal n Elemente Stichprobe n Elemente T Elemente Zufall Auswahl (Fehlerterm) Fehlerterm (Auswahl) Grundgesamtheit T-mal ein Element Statistische Eigenschaften von Regressionsverfahren bei Zeitreihen • Um die statistischen Eigenschaften (Erwartungstreue, Effizienz, Konsistenz) von Regressionsverfahren für Querschnittsdaten nachzuweisen, wird auf verschiedene Hilfsmittel zurückgegriffen (Verteilungsannahmen, zentraler Grenzwertsatz usw.). • Um ähnliche Überlegungen für Zeitreihen anstellen zu können, darf sich der Zufallsprozess nicht von Zeitpunkt zu Zeitpunkt verändern. Wichtig ist daher, dass es sich um stationäre und schwach abhängige Prozesse handelt. Teil 5 Schätzung von Regressionsmodellen für Zeitreihen Fall 1: statisches Modell (x1t, x2t, …) • Problem – autokorrelierte Fehlerterme • Folgen – verzerrte Standardfehler: in der Regel unterschätzt – Fehlentscheidungen: eher gegen H0 Fall 1: Was tun? • Tests auf Autokorrelation – Durbin-Watson Test – T-Test – Verallgemeinerung: Breusch-Godfrey-Test • Kontrolle der Autokorrelation mit entsprechend verallgemeinertem Schätzverfahren – – – – GLS bei bekannter Autokorrelation Differenzenbildung Feasible GLS: Prais-Winsten, Cochrane-Orcutt Robuste Standardfehler: Newey-West Fall 2: dynamisches Modell nur zeitverzögerte x-Variablen (x1,t-1, x2,t-1, …) • siehe Fall 1 auch zeitverzögerte y-Variablen (yt-1, yt-2, …) • • Problem: autokorrelierte Fehlerterme Folgen - verzerrte Parameterschätzer: in der Regel überschätzt verzerrte Schätzung der Autokorrelation: in der Regel unterschätzt verzerrte Standardfehler: in der Regel unterschätzt Fehlentscheidungen: eher gegen H0 Fall 2: Was tun? • Die entsprechenden Schätz- und Testverfahren übersteigen im Moment unsere Kenntnisse und Fähigkeiten. Zum Schluss Zusammenfassung Zeitreihen • haben zeitliche Ordnung • keine unabhängigen Beobachtungen Modelle • zeitverzögerte Variablen • Trend & saisonale Effekte • Ereignisse Identifikation • des zugrunde liegenden Prozesses • der Autokorrelation Schätzung • Autokorrelation – verzerrte Standardfehler • Autokorrelation & zeitverzögerte y-Variablen – verzerrte Standardfehler – verzerrte Parameterschätzer Weiterführende Literatur • Ostrom, C.W. (1978): Time series analysis: regression techniques. Quantitative applications in the social sciences 9. Beverly Hills: Sage – Das Skript von Ostrom aus der Sage-Reihe ist bereits älteren Datums, reicht aber als Einstieg in Probleme und Techniken Zeitreihenanalyse vollkommen aus. • Wooldridge (2003) – Kapitel 10-12 (WO 323-423) behandeln Regressionsmodelle für Zeitreihen. Da sie ausführlich die Schätzannahmen für Zeitreihen diskutieren, sind sie jedoch für die Erstanwender schwer zugänglich, die sich noch nie mit stochastischen Prozessen beschäftigt haben. Man sollte beim ersten Lesen über die entsprechenden Passagen „hinweglesen“. Es ist dann allerdings nicht einfach einzuordnen, wann welches Schätz- und Testverfahren verwendet werden sollte.