Vorlesung 8: Zeitreihenanalyse

Сomentários

Transcrição

Vorlesung 8: Zeitreihenanalyse
Vorlesung 8: Zeitreihenanalyse
1.
2.
3.
4.
5.
Was ist besonders an Zeitreihen?
Unabhängige Beobachtungen bei Zeitreihen?
Regressionsmodelle für Zeitreihen
Zufall und Zeitreihen
Schätzung von Regressionsmodellen für
Zeitreihen
•
Stil: Einführung in die Problematik von
Zeitreihen, keine Vermittlung von Techniken
Teil 1
Was ist besonders an Zeitreihen?
30000
s tat ewide total accidents
35000
40000
45000
50000
55000
Monatliche Anzahl der Verkehrsunfälle in Kalifornien (1981-1989)
Jul80
Nov81
Apr83
Aug84
Jan86
date
May87
Sep88
Feb90
Datum
Jan. 81
Feb. 81
Mrz. 81
Apr. 81
Mai. 81
Jun. 81
Jul. 81
Aug. 81
Sep. 81
Okt. 81
Nov. 81
Dez. 81
Jan. 82
Feb. 82
…
Dez. 89
Unfälle
40511
36034
40328
37699
38816
38900
38625
39539
38070
40676
39270
39734
36672
32699
…
47251
Zeitliche Anordnung
Objekte
1
N
Zeitreihe
Querschnitt
Zeitreihe
Datum
Jan. 81
Feb. 81
Mrz. 81
Apr. 81
Mai. 81
Jun. 81
Jul. 81
Aug. 81
Sep. 81
Okt. 81
Nov. 81
Dez. 81
Jan. 82
Feb. 82
…
Dez. 89
Unfälle
40511
36034
40328
37699
38816
38900
38625
39539
38070
40676
39270
39734
36672
32699
…
47251
Zeitpunkte
T
1
Querschnitt
Variablen
V
V
Stundenlohn
3.1
3.2
3.0
6.0
5.3
8.8
11.0
5.0
3.6
18.0
6.3
8.1
8.8
5.5
22.0
17.0
Ausbildung
11
12
11
8
12
16
18
12
12
17
16
13
12
12
12
16
Jul80
Nov8 1
Apr83
Aug84 Jan86
date
May87
Sep88
Feb90
Fitted values
4 00 00 4 50 00 5 00 00
3 50 00
Jul80
Nov8 1
Apr83
Aug84 Jan86
date
Trend
Ju l80
N ov81
May87
Sep88
Feb90
Apr83
Aug84 Jan86
date
May87
Sep88
Feb90
Sep88
Feb90
Daten + Trend + Saison
statewide total accidents/Fitted values
30000 35000 40000 45000 50000 55000
Trend + Saison
5 50 00
statewide total accidents
3 00 00 3 50 00 4 00 00 4 50 00 5 00 00
5 50 00
Daten
statewide total accidents/Fitted values
30000 35000 40000 45000 50000 55000
Zeitliche Trends und saisonale
Einflüsse
Ju l80
N ov81
Apr83
Aug84 Jan86
date
May87
Erratischer Verlauf lässt häufig
Tendenzen schwer erkennen
Wa te r use in 10 00 gallons
200 400 600 800 1000
Ausgangsdaten
19feb1983
31dec1982
10apr1983
date
30may1983
19ju l1983
Gleitende Durchschnitte
ma : x(t)= wa te r: win dow(5)
500 600 700 800 900
31dec1982
19feb1983
10apr1983
date
30may1983
19ju l1983
Teil 2
Unabhängige Beobachtungen bei
Zeitreihen?
Zeitreihe: Statistische Abhängigkeit
zwischen Beobachtungen
Datum
Jan. 81
Feb. 81
Mrz. 81
Apr. 81
Mai. 81
Jun. 81
Jul. 81
Aug. 81
Sep. 81
Okt. 81
Nov. 81
Dez. 81
Jan. 82
Feb. 82
…
Dez. 89
Unfälle(t-1)
…
40511
36034
40328
37699
38816
38900
38625
39539
38070
40676
39270
39734
36672
…
47971
Unfälle(t)
40511
36034
40328
37699
38816
38900
38625
39539
38070
40676
39270
39734
36672
32699
…
47251
• tsset t
• corr zeit L.zeit
• Korrelation 0,8040
Querschnitt: Statistische Unabhängigkeit der Beobachtungen
Id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Wage(t-1)
…
3.1
3.2
3
6
5.3
8.8
11
5
3.6
18
6.3
8.1
8.8
5.5
22
Wage(t)
3.1
3.2
3.0
6.0
5.3
8.8
11.0
5.0
3.6
18.0
6.3
8.1
8.8
5.5
22.0
17.0
• tsset id
• corr zeit L.zeit
• Korrelation 0,0903
Zur Erinnerung: Annahmen
Einflüsse im Zeitablauf
Der Fehlerterm erfasst Messfehler und vor allem nicht berücksichtigte
Einflüsse von Drittvariablen. Bei Zeitreihen können solche Einflüsse
zeitlich vorhergehende und nachfolgende Drittvariablen sein.
Es muss daher zusätzlich gefordert werden, dass die Fehlerterme nicht
nur von den aktuellen x-Werten, sondern auch von allen zeitlich
vorhergehenden und nachfolgenden x-Werten unabhängig sind. Dies ist
eine sehr restriktive Annahme, die häufig nicht angemessen ist.
Unabhängige Beobachtungen
Auch wenn die Fehlerterme von allen zeitlich vorhergehenden und
nachfolgenden x-Werten unabhängig sind, ist nicht davon auszugehen,
dass die nicht berücksichtigten Drittvariablen selbst (und damit die
Fehlerterme) im Zeitablauf zusammenhängen.
Die Annahme der Unkorreliertheit der Fehlerterme ist daher bei
Zeitreihen in der Regel nicht gegeben. Man spricht auch von
Autokorrelation.
Querschnitt: immer statistische
unabhängige Beobachtungen?
Beispiel: Untersuchung Bielefelder Studierender
Fakultät
Biologie
Chemie
Geschichte
Gesundheitswissenschaften
Literaturwissenschaft
Mathematik
Paedagogik
Physik
Psychologie
Rechtswissenschaft
Soziologie
Technische Fakultaet
Wirtschaftswissenschaften
Insgesamt
Studierende
1054
533
1274
524
3358
752
2487
375
1498
2485
1813
1089
2080
19322
Anteil
5.45%
2.76%
6.59%
2.71%
17.38%
3.89%
12.87%
1.94%
7.75%
12.86%
9.38%
5.64%
10.76%
100.00%
Frauen
604
186
588
326
2495
343
1807
57
887
1193
1014
256
789
10545
Anteil
57.31%
34.90%
46.15%
62.21%
74.30%
45.61%
72.66%
15.20%
59.21%
48.01%
55.93%
23.51%
37.93%
54.58%
Zeit
43
43
34
44
34
35
30
36
33
37
30
35
36
34.78
Std
0.500
0.500
0.500
0.500
0.500
0.500
0.500
0.500
0.500
0.500
0.500
0.500
0.500
3.796
Miete
230.25 €
230.23 €
230.80 €
230.11 €
229.78 €
230.21 €
229.58 €
227.64 €
230.07 €
230.58 €
229.73 €
230.80 €
229.62 €
230.00 €
Std
30.097
29.784
29.875
27.475
30.298
30.688
30.069
28.260
30.023
29.828
29.897
29.791
29.918
29.926
Geschichtete Zufallsauswahl
Fakultät
GG
Stufe 1
Biologie
1054
27
Chemie
533
14
Geschichte
1274
33
Gesundheitswissenschaften
524
14
Literaturwissenschaft
3358
87
Mathematik
752
19
Paedagogik
2487
64
Physik
375
10
Psychologie
1498
39
Rechtswissenschaft
2485
64
Soziologie
1813
47
Technische Fakultaet
1089
28
Wirtschaftswissenschaften
2080
54
Insgesamt
19322
500
Stufe 2
• tsset id
• corr zeit L.zeit
• Korrelation 0,9547
• corr miete
L.miete
• Korrelation -0,0300
Teil 3
Regressionsmodelle für Zeitreihen
Alle bekannten Modelle verwendbar
y = β0 + β1z1 + β2 z2 + β3 z3 + β4 z4 +K+ βk zk + u
• lineare (zj = xj)
• nicht-lineare (z.B. z2 = ln(x2))
• additive (zj = xj und Effekte additiv
verknüpft)
• nicht-additive (z.B. z4 = x2 ⋅ d mit DummyVariablen d)
Statische und „dynamische“ Modelle
• Querschnitt
yi = β0 + β1x1i + β2 x2i +K+ βk xki + ui
• Zeitreihe: statisches Modell
yt = β0 + β1x1t + β2 x2t +K+ βk xkt + ut
• Zeitreihe: „dynamisches Modell“
yt = β0 + β1x1t + β2 x1,t −1 + β3 yt −1 +K+ ut
• Ein „dynamisches“ Modell enthält zeitverzögerte
x-Variablen und/oder zeitverzögerte y-Variablen
Zeitliche Trends und saisonale
Einflüsse
linearer Trend
yt = β0 + β1 ⋅ t + ut
quadratischer
Trend
yt = β0 + β1 ⋅ t + β2 ⋅ t 2 + ut
exponentieller
Trend
saisonale Effekte
ln yt = β0 + β1 ⋅ t + ut
Beispiel: Dummies für Monate
yt = β0 + β1d2t + β2d3t +K+ β12d12,t + ut
v orher/nachher
30000 35000 40000 45000 50000 55000
Analyse von Ereignissen
Vor und nach Einführung der Gurtpflicht
Jul80
Nov81
Apr83
Aug84
Jan86
May87
Sep88
Feb90
date
vorher
nachher
• Dummy-Variable: vorher (d=0), nachher (d=1)
• Niveauunterschiede yt = β0 + β1dt + ut
• Trendunterschiede yt = β0 + β1dt + β2t + β3 ⋅ t ⋅ dt + ut
Unterschiedliche Fachgebiete
alles Makrodaten
Wähleranteil
.3
prop. dem. vote
.4
.5
.6
s ta te wide to ta l accidents
30000
35000
40000
45000
50000
55000
Verkehrsunfälle
1940
1960
1980
1916 to 1992, by 4
2000
4000
Bruttosozialprodukt
US GNP
2000 3000
Allgemeine Geburtenziffer
1920
1000
b irt hs pe r 100 0 women 15-44
60 80 100 120 140
Jul80Nov81Apr83Aug84Jan86May87Sep88Feb90
date
1920
194 0
1 960
1913 to 1984
1980
1950
1 960
1970
1950-1987
1980
1990
Teil 4
Zufall und Zeitreihen
200
W ater u se in 1000 gallons
400
600
800
1000
Täglicher Wasserverbrauch in
Milford, New Hampshire
31dec 1982
19feb1983
10apr1983
date
30may 1983
19jul1983
-3
W asser verbrauch (standardisiert)
-2
-1
0
1
2
Täglicher Wasserverbrauch in
Bielefeld, Ostwestfalen?
Jan60
May61
Sep62
Feb64
Jun65
datum
Nov66
Mar68
Aug69
Nein: ein einfacher Zufallsprozess!
• Die systematische Komponente ist null
und die Fehlerterme sind standardnormalverteilt. Die Fehlerterme zu den einzelnen
Zeitpunkten sind unabhängig voneinander
(keine Autokorrelation).
yt = u t
ut ~ N(0, 1)
Corr(ut , u s ) = 0 t ≠ s
Simulation zeitlicher Trends und
saisonaler Einflüsse
50 100 150 200 250
0
-1
0
1
2
-2
-3
Zufall
Jan60May61
Se p62Feb64Jun65Nov66Ma r6 8Au g69
Jan60May61
S ep62Feb64Jun65Nov66Mar68Aug69
50 100 150 200 250
Trend + Saison + Zufall
0
0
10
20
30
40
Saison + Zufall
Jan60May61
Se p62Feb64Jun65Nov66Ma r6 8Au g69
Trend + Zufall
Jan60May61
S ep62Feb64Jun65Nov66Mar68Aug69
Achtung: Scheinkorrelationen bei Trends
50 100 150 200 250
0
-1
0
1
2
-2
-3
Zufallsvariable y
Jan60May61
Se p62Feb64Jun65Nov66Ma r6 8Au g69
Jan60May61
Sep62Feb64Jun65Nov66Mar68Aug69
0
-40 0 -30 0 -20 0 -10 0
-2
-1
0
1
3
Zufallsvariable x + Trend
2
Zufallsvariable x
Jan60May61
Se p62Feb64Jun65Nov66Ma r6 8Au g69
Corr(y,x)=0,1032
Zufallsvariable y + Trend
Jan60May61
Sep62Feb64Jun65Nov66Mar68Aug69
Corr(trendy,trendx)=-0,9989
Gebur tenz iffer
Allgemeine Geburtenziffer in
Deutschland 1880-2000?
Jahr
Nein: auch ein einfacher Zufallsprozess!
• Der Wert zum Zeitpunkt t entspricht dem
Wert der Vorperiode plus einem standardnormalverteilten Fehler (random walk). Die
Fehlerterme zu den einzelnen Zeitpunkten
sind unabhängig voneinander, nicht aber
die Messwerte y.
yt = ρyt −1 + ut , ρ = 1
ut ~ N(0, 1)
Corr(ut , u s ) = 0, Corr( yt , y s ) ≠ 0, t ≠ s
Mess wer t y
Die abgeschwächte Variante
Zeitpunkt t
Ein autoregressiver Prozess 1. Ordnung
• Ähnlich Random Walk, nur wird jetzt nicht
der gesamte Wert der Vorperiode
übernommen (der entsprechende
Parameter ρ ist kleiner als 1).
yt = ρyt −1 + ut ,
ρ <1
ut ~ N(0, 1)
Corr(ut , u s ) = 0, Corr( yt , y s ) ≠ 0, t ≠ s
Stochastische Prozesse
autoregressiver
Prozess
yt = ρyt −1 + ut ,
ρ <1
Random Walk
yt = ρyt −1 + ut ,
ρ =1
Random Walk
mit Drift
yt = α + ρyt −1 + ut ,
Gleitender
Mittelwertprozess
ρ =1
yt = ut + α1ut −1 , α1 < 1
Prozessidentifikation
1.0 0
Random Walk (Rho=1)
-0. 50
-0.20
A uto correlatio ns of ar
-0.00
0.20
Autocorre la tion s of rw
0.0 0
0.5 0
0.40
0.60
Autoregressiv (Rho=0,5)
0
2
4
6
8
Lag
Bartlett's formula for MA(q) 95% confidence bands
10
0
2
4
6
8
10
Lag
Bartlett's formula for MA(q) 95% confidence bands
Aus dem Muster der Autokorrelationen versucht man die Art des
Prozesses zu erkennen. Dabei wird die Reihe der Messwerte mit der um
t = 1, 2, 3, … Zeitpunkte verzögerten Messwertreihe korreliert.
ARIMA-Modelle
• Modell: Die abhängige Variable besteht aus
einer systematischen Komponente und einem
Fehlerterm
• Identifikation des den Fehlertermen zugrunde
liegenden stochastischen Prozesses (linear
autoregressive integrated moving average
process: ARIMA).
• Schätzung der Parameter der systematischen
Komponente unter Kontrolle des zuvor
identifizierten ARIMA-Prozesses.
Zufall bei Querschnitt und bei
Längsschnitt
Querschnitt
Zeitreihe
Zufallsprozess
(∞ Elemente)
Stichprobenentnahme
Urne
(N Elemente)
einmal
n Elemente
Stichprobe
n Elemente
T Elemente
Zufall
Auswahl
(Fehlerterm)
Fehlerterm
(Auswahl)
Grundgesamtheit
T-mal
ein Element
Statistische Eigenschaften von
Regressionsverfahren bei Zeitreihen
• Um die statistischen Eigenschaften
(Erwartungstreue, Effizienz, Konsistenz) von
Regressionsverfahren für Querschnittsdaten
nachzuweisen, wird auf verschiedene Hilfsmittel
zurückgegriffen (Verteilungsannahmen,
zentraler Grenzwertsatz usw.).
• Um ähnliche Überlegungen für Zeitreihen
anstellen zu können, darf sich der
Zufallsprozess nicht von Zeitpunkt zu Zeitpunkt
verändern. Wichtig ist daher, dass es sich um
stationäre und schwach abhängige Prozesse
handelt.
Teil 5
Schätzung von
Regressionsmodellen für
Zeitreihen
Fall 1: statisches Modell (x1t, x2t, …)
• Problem
– autokorrelierte Fehlerterme
• Folgen
– verzerrte Standardfehler: in der Regel
unterschätzt
– Fehlentscheidungen: eher gegen H0
Fall 1: Was tun?
• Tests auf Autokorrelation
– Durbin-Watson Test
– T-Test
– Verallgemeinerung: Breusch-Godfrey-Test
• Kontrolle der Autokorrelation mit entsprechend
verallgemeinertem Schätzverfahren
–
–
–
–
GLS bei bekannter Autokorrelation
Differenzenbildung
Feasible GLS: Prais-Winsten, Cochrane-Orcutt
Robuste Standardfehler: Newey-West
Fall 2: dynamisches Modell
nur zeitverzögerte x-Variablen (x1,t-1, x2,t-1, …)
•
siehe Fall 1
auch zeitverzögerte y-Variablen (yt-1, yt-2, …)
•
•
Problem: autokorrelierte Fehlerterme
Folgen
-
verzerrte Parameterschätzer: in der Regel überschätzt
verzerrte Schätzung der Autokorrelation: in der Regel
unterschätzt
verzerrte Standardfehler: in der Regel unterschätzt
Fehlentscheidungen: eher gegen H0
Fall 2: Was tun?
•
Die entsprechenden Schätz- und
Testverfahren übersteigen im Moment
unsere Kenntnisse und Fähigkeiten.
Zum Schluss
Zusammenfassung
Zeitreihen
• haben zeitliche Ordnung
• keine unabhängigen Beobachtungen
Modelle
• zeitverzögerte Variablen
• Trend & saisonale Effekte
• Ereignisse
Identifikation • des zugrunde liegenden Prozesses
• der Autokorrelation
Schätzung
• Autokorrelation
– verzerrte Standardfehler
• Autokorrelation & zeitverzögerte y-Variablen
– verzerrte Standardfehler
– verzerrte Parameterschätzer
Weiterführende Literatur
• Ostrom, C.W. (1978): Time series analysis:
regression techniques. Quantitative applications
in the social sciences 9. Beverly Hills: Sage
– Das Skript von Ostrom aus der Sage-Reihe ist bereits älteren
Datums, reicht aber als Einstieg in Probleme und Techniken
Zeitreihenanalyse vollkommen aus.
• Wooldridge (2003)
– Kapitel 10-12 (WO 323-423) behandeln Regressionsmodelle für
Zeitreihen. Da sie ausführlich die Schätzannahmen für
Zeitreihen diskutieren, sind sie jedoch für die Erstanwender
schwer zugänglich, die sich noch nie mit stochastischen
Prozessen beschäftigt haben. Man sollte beim ersten Lesen
über die entsprechenden Passagen „hinweglesen“. Es ist dann
allerdings nicht einfach einzuordnen, wann welches Schätz- und
Testverfahren verwendet werden sollte.