3 Heteroskedastizität und Autokorrelation

Transcrição

3
3.1
Heteroskedastizität und
Autokorrelation
Konsequenzen für OLS
Der OLS-Schätzer bleibt erwartungstreu, verliert jedoch die
Minimumvarianz. Ausgehend von ((A) für Ausgangsgleichung)
(A)
y = Xβ + ε
mit E{ε} = 0 und V {ε} = σ 2 Ψ, wobei z.B.



1

0
h21 0



 ρ


Ψ =  0 . . . 0  oder Ψ = 
..




.

0
0 h2N
ρN −1
ρ
1
···
···
···
..
.
ρ
N −1
ρ
N −2
ρ
Angewandte Ökonometrie, Sylvia Kaufmann, FS09
..
.
1








14
erhalten wir für den OLS-Schätzer
n
o
−1
′
′
E{b} = E (X X) X y
n
o
−1
= E (X ′ X) X ′ (Xβ + ε)


=IK


}|
{
z

−1
−1
′
′
′
′
= E (X X) X X β + (X X) X ε




=0
=
z }| {
−1
′
′
β + (X X) X E {ε} = β
15
V {b} =
=
=
=
n
o
−1
′
′
V (X X) X y
n³
´
−1
′
′
E (X X) X (Xβ + ε) − β
³
´′ ¾
−1
× (X ′ X) X ′ (Xβ + ε) − β
½³
´³
´′ ¾
−1
−1
′
′
′
′
(X X) X ε (X X) X ε
E
o
n
−1
−1
′
′ ′
′
E (X X) X εε X (X X)
=V {ε|X}
′
−1
= (X X)
−1
= (X ′ X)
z }| {
−1
X E {εε′ } X (X ′ X)
′
−1
X ′ σ 2 ΨX (X ′ X)
−1
6= σ 2 (X ′ X)
16
Wir haben zur Behebung des Problems zwei Möglichkeiten:
(1) Effizienter Schätzer herleiten −→ β̂
(ii) Die Kovarianzmatrix der Parameterschätzung anpassen,
−→ V̂ {b}.
17
3.2
Generalisierte Kleinsquadratschätzung
(GLS)
Angenommen wir kennen Ψ, dann können wir die Matrix zerlegen:
Ψ−1 = P ′ P
Dies kann z.B. durch eine Cholesky-Dekomposition erreicht werden.
Wenn wir Ψ nun mit P vor- bzw. mit P ′ nachmultiplizieren,
erhalten wir
=IN
=IN
z }| { z }| {
−1
−1
P ΨP ′ = P (P ′ P ) P ′ = P P −1 P ′ P ′ = IN
Dies nützen wir in der Regressionsgleichung aus. Durch die
Transformation
Py
=
P Xβ + P ε
(T ) y ∗
=
X ∗ β + ε∗
18
erhalten wir ein System, dessen Fehlerterme die
OLS-Effizienzbedingungen erfüllen.
E {P ε} =
V {P ε|P X} =
P E {ε} = 0
P V {ε|X} P ′ = σ 2 P ΨP ′ = σ 2 IN
OLS auf das transformierte Modell (T ) ergibt
¡
¢−1 ∗ ′ ∗ ¡ ′ −1 ¢−1 ′ −1
β̂ = X ∗ ′ X ∗
X y = XΨ X
XΨ y
n o
¡
¢−1
¡
¢−1
= σ2 X ∗ ′ X ∗
= σ 2 X ′ Ψ−1 X
V β̂
³
´′ ³
´
1
∗
∗
∗
∗
2
y − X β̂
y − X β̂
σ̂ =
N −K
³
´′
³
´
1
−1
=
y − X β̂ Ψ
y − X β̂
N −K
19
3.2.1
Exkurs: Cholesky-Dekomposition
Dies ist eine Möglichkeit, die Matrix Ψ−1 in P ′ P zu spalten. Am
Beispiel einer 2 × 2 Matrix:



p
p11 0
p12
  11

Ψ−1 = P ′ P = 
0 p22
p12 p22




2
p11
ψ
ψ12
p11 p12
 = 

 11
2
2
ψ12 ψ22
p11 p12 p12 + p22
20
Dies ergibt 3 Gleichungen für 3 Parameter mit der Lösung:
p
p11 =
ψ11
p
ψ12
ψ11 p12 −→ p12 = √
ψ12 =
ψ11
s
2
2
ψ12
ψ12
2
ψ22 =
+ p22 −→ p22 = ψ22 −
ψ11
ψ11
21
3.3
Heteroskedastizität
Von Heteroskedastizität spricht man, wenn die Varianz der
Residuen nicht konstant ist (bei konstanter Varianz spricht man
von homoskedastischen Fehlern).
V {εi |X} = σ 2 h2i
D.h. die Matrix Ψ ist diagonal mit den Elementen h2i auf der
Diagonalen:


2
h
0
0
 1



.
.
Ψ= 0
. 0 


2
0
0 hN
22
Daten, in denen Heteroskedastizität höchstwahrscheinlich ist, sind:
• Querschnitt: Konsum in Abhängigkeit vom Einkommen (Je
höher das Einkommen umso höher die Schwankungen im
Konsum)
• Zeitreihen: Hochfrequente Finanzmarktvariablen wie
wöchentliche Beobachtungen des Aktienindex, Wechselkurse
(Autokorrelation in der Volatilität)
3.3.1
Schätzung bei bekanntem Ψ
Das transformierte Modell für y lautet in diesem Fall:
(T )
yi∗
=
1
yi
hi
=
x∗i ′ β + ε∗i
1 ′
1
xi β + εi
hi
hi
23
Der OLS-Schätzer auf (T ) ergibt:
¢−1 ∗ ′ ∗
¡
X y
β̂ = X ∗ ′ X ∗
!−1 Ã N
!
ÃN
X 1
X 1
=
xi x′i
x′i yi
2
2
h
h
i=1 i
i=1 i
Jede Beobachtung wird gewichtet mit hi , wenn die Varianz in der
Beobachtung (relativ) gross ist, wird sie geringer gewichtet als eine
Beobachtung, deren Varianz (relativ) kleiner ist. GLS wird deshalb
auch
gewichtete Kleinsquadratschätzung genannt. Die Varianz
n o
V
β̂
ist gegeben durch
n o
V β̂ = σ 2
Ã
N
X
1
xi x′i
2
h
i=1 i
!−1
24
wobei für σ 2 dessen Schätzung eingesetzt werden kann:
³
´2
′
N
X yi − xi β̂
1
2
σ̂ =
N − K i=1
h2i
Die Anpassung bringt den Vorteil, dass Hypothesentests mit der t-,
F - oder Wald-Statistik überprüft werden können.
Der “Nachteil”von GLS ist, dass die Gewichtungsmatrix Ψ−1
bekannt sein (oder konsistent geschätzt werden) muss.
3.3.2
Schätzung bei unbekanntem Ψ
Wenn der Ursprung der Heteroskedastizität nicht bekannt ist, kann
die Kovarianzmatrix der OLS-geschätzten Parameter b konsistent
25
geschätzt werden (White, 1980):
−1
−1
V {b|X} = (X ′ X) X ′ σ 2 ΨX (X ′ X)
ÃN
!−1 Ã N
!Ã N
!−1
X
X
X
=
xi x′i
σi2 xi x′i
xi x′i
i=1
i=1
i=1
wobei der Mittelterm
NS =
N
X
e2i xi x′i
i=1
geschätzt werden kann. ei sind dabei die Residuen der
OLS-Schätzung der Ausgangsgleichung (A).
In Standardprogrammen wird die Kovarianzmatrix V {b|X} oft
¡
¢
durch den vereinfachten Schätzer geschätzt (s2 X ′ X)−1 ). Deshalb
muss bei Verdacht auf Heteroskedastizität die Schätzung der
Parameterkovarianzmatrix angepasst werden. Dies ist oft durch
eine Zusatzoption implementiert.
3.3.3
26
Testen auf Homoskedastizität
Der Breusch-Pagan (1980) Test ist ein Lagrange-Multiplier Test
und basiert auf einer Hilfsregression der OLS-Residuen der
Ausgangsgleichung (A) auf potenzielle Variablen, welche die
Heteroskedastizität enthalten können:
(H) e2i = α0 + α1 Z1i + · · · + αq Zqi + νi
Die Variablen Z·i müssen bestimmt werden. Standardmässig
werden für Z·i die erklärenden Variablen X, deren Quadrate und
ev. auch deren Kreuzprodukte eingesetzt (dies ist dann der
White-Test, 1980).
Bei konstanter Varianz müssen in der Regression alle Koeffizienten
gleich null sein, α1 = · · · = αq = 0. Die Nullhypothese der
Homoskedastie wird gegenüber der Alternativen der
27
Heteroskedastizität,
H0 :
α1 = · · · = αq = 0
H1 :
α1 6= · · · =
6 αq = 0
mit der LM -Statistik getestet:
LM = N R2 ∼ χ2q
wobei N die Anzahl Beobachtungen in der Ausgangsgleichung (A)
ist und das R2 aus der Hilfsregression (H) stammt. Die Statistik is
2(0.05)
χ2 -verteilt mit q Freiheitsgraden. Wenn LM > χq
wird die
Hypothese der Homoskedastie abgelehnt.
3.4
28
Autokorrelation
Autokorrelation in den Fehlertermen tritt auf, wenn Zeitreihen eine
erhebliche Persistenz aufweisen wie z.B. die Inflationsrate,
Zinssätze. Sie kann ebenfalls auftreten, wenn y auch von
verzögerten Werten y−1 oder X−1 abhängt. Angenommen die
Fehlerterme seien autokorreliert erster Ordnung (AR(1), und t wird
hier für i substituiert, um explizit auf Zeitreihen hinzuweisen):
yt = x′t β + εt
mit
εt = ρεt−1 + νt ,
V {νt } = σν2
Daraus ergibt sich für
σν2
V {εt } =
1 − ρ2
σν2
AC(s) = E (εt εt−s ) = ρ
1 − ρ2
s
29
Die Matrix Ψ nimmt in dem Fall die Form

1
ρ ···


ρ
1 ···
1 

Ψ=
.
..
1 − ρ2 
 ..
.

ρT −1
···
T −1
ρ
T −2
ρ
..
.
ρ
1
an.
3.4.1








Schätzen unter Autokorrelation
Für diese Form der Autokorrelation (sowie dementsprechend für
Autokorrelation höherer Ordnung) lässt sich die Inverse Ψ−1 und
30
ihre Dekomposition P explizit herleiten:
 p
1 − ρ2 0


−ρ
1

P′ = 
..

..

.
.

0
···
···
0
···
..
.
0
..
.
−ρ
1
Das transformierte Modell








(T ) y ∗ + X ∗ β + ν
nimmt folgende Form an (Prais und Winsten, 1954):
p
p
y1∗ = 1 − ρ2 y1 ,
x∗1 = 1 − ρ2 x1
yt∗ = yt − ρyt−1 ,
x∗t = xt − ρxt−1 , t > 1
31
Falls ρ nicht bekannt ist, kann es aus einer Regression der
OLS-Residuen aus (A) auf eigene verzögerte Werte, et = ρet−1 + νt ,
geschätzt werden. Das geschätzte ρ, ρ̂, kann benützt werden, um
das System zu (T ) zu transformieren und dieses mit OLS zu
schätzen. Über diese zwei Schritte kann auch iteriert werden.
Eine Möglichkeit besteht auch darin, die verzögerten Werte von y
und X direkt in die Gleichung einzubeziehen (Cochrane und
Orcutt, 1949):
¢
¡
yt − ρyt−1 = x′t − ρx′t−1 β + νt
β̃
yt
=
z}|{
x′t β − x′t−1 βρ +ρyt−1 + νt
Die Gleichung kann unbeschränkt geschätzt werden, speziell im
EViews mit folgendem Befehl
Y X(0to-1) Y(-1) c.
32
Falls die Koeffizienten-Restriktionen implementiert werden sollen,
steht der Befehl
Y X c AR(1)
zur Verfügung.
Bei Autokorrelation höherer Ordnung wird die entsprechende
Anzahl verzögerter Werte einbezogen.
3.4.2
Eine spezielle Art der Autokorrelation
Autokorrelation, die nach einer gewissen Zeit abbricht, tritt auf,
wenn Beobachtungen mit einer höheren Frequenz als deren
Fristigkeit gemessen werden, z.B.: Ein Dreimonats-Zinssatz wird
monatlich gemessen. Ein Schock in Periode t wird damit auch die
auslaufenden Verträge in t + 1 und t + 2 beeinflussen. Ein anderes
Beispiel liefert Datenaggregation von z.B. halbjährlichen zu
33
jährlichen Daten, Schocks aus zwei Perioden beeinflussen die
Aggregierte Zeitreihe. Die Fehlerterme folgen in diesen Fällen
einem Moving Average M A(q) Prozess. Im einfachsten Fall M A(1):
εt = νt + ανt−1
Daraus ergibt sich für
V {εt }
=
AC(1) =
¡
¢
σν2 1 + α2
E (εt εt−1 ) = ασν2 , AC(s) = 0, s > 1
Die Matrix Ψ nimmt in dem Fall die Form

α
1
···
1+α2

..
 α
.

¢
¡
1
2
1+α
Ψ = 1 + α2 
 .
..
..
 ..
.
.

0
an.
···
0
..
.
α
1+α2
α
1+α2
1








34
Die Inverse hat keine einfache Struktur mehr. Deshalb wird dieses
Modell mit Maximum Likelihood oder mit der nichlinearen
Kleinstquadratmethode geschätzt.
3.4.3
Newey-West Anpassung der
Parameterkovarianzmatrix
Falls die Autokorrelation in den Residuen relativ schnell nach null
geht, kann die Kovarianzmatrix der Parameter b analog zur
White-Methode angepasst werden (Newey und West, 1987):
!−1
!−1
Ã T
Ã T
X
X
T S∗
xt x′t
V ∗ {b|X} =
xt x′t
t=1
t=1
35
wobei S ∗ durch
T
T
H−1
X
¡
¢
1X 2
1 X
′
S =
et xt xt +
wj
es es−j xs x′s−j + xs−j x′s
T t=1
T j=1
s=j+1
∗
geschätzt werden kann. Wenn wj = 0 ist, erhalten wir die White
Kovarianzmatrix. Die Gewichte für die Kovarianzmatrizen, wj ,
sollen monoton in j abnehmen, z.B. wj = 1 − j/H (Bartlett
Gewichte).
Diese Anpassung nennt man auch Heteroskedastizitäts- und
Autokorrelationskonsistente Schätzung der Kovarianzmatrix
(HAC-Anpassung).
3.4.4
Testen auf Unkorreliertheit
Hierbei sind drei verschiedene Fälle zu unterscheiden. Wenn keine
verzögerten Werte der abhängigen Variablen miteinbezogen sind,
36
d.h. wenn yt−1 , . . . , yt−p nicht als Rechthand-Variablen auftreten,
dann kann ein asymptotischer Test auf Autokorrelation erster
Ordnung durchgeführt werden. Die Nullhypothese der
Unkorreliertheit wird gegenüber der Alternativen von Korrelation,
H0 : ρ = 0,
mit der Statistik
t≈
H1 : ρ 6= 0
√
T ρ̂
überprüft, wobei ρ̂ aus der Hilfsregression der Residuen der
OLS-Schätzung von (A), et , auf den eigenen vergangenen Wert
stammt:
(H) et = ρet−1 + νt
t ist t-verteilt, deshalb wird die Nullhypothese dann abgelehnt,
(0.025)
wenn |t| > tT
.
37
Eine Alternative bietet der Durbin-Watson Test (Durbin und
Watson, 1950). Die Statistik d basiert ebenfalls auf ρ̂:
PT
2
t=2 (et − et−1 )
d=
PT
2
t=1 et
Bei vielen Beobachtungen konvergiert d gegen
d −→ 2(1 − ρ)
In Abhängigkeit von der Korrelation ergibt sich:
H1 : ρ < 0
wenn ρ = −1 → d = 4
wenn ρ = 0
→d=2
wenn ρ = 1
→d=0
H0 : ρ = 0
ր
ց
H1 : ρ > 0
38
Falls d also nahe bei 2 ist, kann die Nullhypothese keiner
Autokorrelation nicht verworfen werden. Die Alternativen sind:
d < 2 (positive Autokorrelation), d > 2 (negative Autokorrelation).
Der kritische Wert hängt von der Anzahl der Variablen in X und
von deren Eigenschaften ab. Er kann allerdings eingegrenzt werden
und es ergeben sich auf dem Intervall (0 4) folgende Abschnitte:
Abbildung 7: Intervalle beim Durbin-Watson test
39
Wenn die Statistik d in die grau markierten Intervalle fällt, kann
keine Entscheidung getroffen werden. dL and dU sind dabei
tabellierte Grenzwerte, die von T und K abhängen (siehe Verbeek,
Tabelle 4.8, S. 111).
Bei den tabellierten Werten muss stets beachtet werden, ob K die
Konstante mitzählt oder nicht!!!
Wenn verzögerte Werte der abhängigen Variable als
Rechthandvariablen einbezogen sind, d.h. wenn
(A) yt = x′t β + yt−1 γ + εt , εt = ρεt−1 + νt
dann ist OLS (ohne Berücksichtigung der Autokorrelation)
inkonsistent, d.h. die Schätzung von β, γ ist verzerrt und
verschwindet auch bei zunehmender Beobachtungsanzahl nicht. In
diesem Fall ist die Durbin-Watson Statistik gegen 2 (keine
40
Autokorrelation) verzerrt und Durbin-h muss berechnet werden:
s
T −1
Durbin−h = ρ̂
1 − (T − 1)V {bγ }
Die Varianz V {bγ } ist die Varianz des Koeffizienten γ und T − 1
wird im Nenner eingesetzt, da wir eine Beobachtung verlieren. Der
geschätzte Wert ρ̂ kann aus der Beziehung zwischen d and ρ
abgeleitet werden:
1
d = 2 − 2ρ −→ ρ = 1 − d.
2
Bei vielen Beobachtungen ist h unter der Nullhypothese N (0, 1)
verteilt. Deshalb verwerfen wir die Nullhypothese auf einem 5%
Signifikanzniveau, wenn h > 1.96, und auf einem 1%
Signifikanzniveau, wenn h > 2.58.
41
Wenn Autokorrelation höherer Ordnung vorliegt, testen wir auf
Unkorreliertheit mittels der Hilfsregression
(H) et = ρ1 et−1 + ρ2 et−2 + · · · + ρp et−p + νt ,
wobei die Nullhypothese H0 : ρ1 = ρ2 = · · · = ρp = 0 und die
6 ρp 6= 0 sind. Der Breusch-Godfrey
Alternative H1 : ρ1 6= ρ2 6= · · · =
(beide 1978) LM -Test berechnet sich als
LM = T · R2 ,
wobei T die Anzahl Beobachtungen im Ausgangsmodell (A) ist und
das R2 aus der Hilfsregression (H) stammt.
2(0.05)
LM ist χ2 -verteilt mit p Freiheitsgraden. Falls LM > χp
die Nullhypothese keiner Autokorrelation abgelehnt.
wird
42

3 Heteroskedastizität und Autokorrelation

Transcrição

Documentos relacionados

Einladung Flyer Austellung 1 Seite Original

Stellenangebot - Job - LKW Fahrer 450 Euro

Kointegration (Update 28.4.09)

Stellenangebot – Job – LKW-Fahrer – Baggerfahrer

Den besten Einstieg schaffen Die Ausbildung zum - Coca-Cola

Bukši… - SANETHIK eV

Internetbericht

Planung Johannes Kaufmann Architektur Dornbirn | Wien www

Schülerdatenblatt

Biografie Jonas Kaufmann

Ausbildung zur Kauffrau/ zum Kaufmann für Bürokommunikation