ivreg2

Transcrição

ivreg2
OS MODELOS DINÂMICOS E
O MÉTODO GENERALIZADO
DOS MOMENTOS (GMM)
ESTV-IPV
Endogeneidade e Variáveis Instrumentais
Vamos primeiro considerar um diagrama de causalidade para
ilustrar o problema colocado por variáveis instrumentais.
Podemos usar mínimos quadrados ordinários (OLS) para
estimar consistentemente o seguinte modelo:
regressão: y = xb + u (1)
X
y
u
Se não há nenhuma associação entre x e u; OLS é
consistente
Endogeneidade e Variáveis Instrumentais
O estimador OLS respeita a Hipótese da esperança
condicional nula, pode ser expressa por E[u|x] = 0. Esta
condição também pode ser representada pela independência
entre u e X, ou seja, covariância(u,x)=0
x
y
u
Entretanto, a regressão falha quando:
Endogeneidade: y = xb + u
Correlação entre x e u; OLS não é consistente.
Problema: endogeneidade
 Diferenciar elimina a endogeneidade da
componente de efeitos fixos do termo de erro. Mas,
o y agora é endogena com 
o Outras variáveis predeterminadas tornam-se
endogenas pelo mesmo motivo
o Outras variáveis podem ser endogenas desde o
ínicio
 As dummies individuais (ou a estimação within
groups) também não resolvem o problema.
o Pois, y transformada é endógena pois hà
desfasamentos mais prolongongados.
i ,t 1
it
i ,t 1
O enviesamento dos modelos dinâmicos
(Nickell 1981)
 O OLS em diferenças não é uma solução definitiva para
o problema da endogeneidade produzida pela dinâmica
das variáveis em painel
yit  yi ,t 1  x it' β   it
 Eliminar os efeitos fixos, não propaga muito a
endogeneidade,
 A transformada yi ,t 1 continua a ser endógena pois yi ,t 1
em yi ,t 1  yi ,t 1  yi ,t 2 está correlacionado com  i ,t 1 em
 it   it   i ,t 1 .
 Contudo, variáveis mais desfasadas, podem ser
utilizadas como instrumentos caso não exista AR.
•Uma situação em que temos que utilizar
variáveis
instrumentais é quando temos que levar em conta factores
não observáveis relevantes e que são omitidos da equação
de regressão.
o Tanto y como x podem ser afetados por estes factores
latentes, como por exemplo a habilidade.
• Considere a regressão de (ln) rendimentos (y) sobre anos
de estudo (x). O termo de erro u engloba todos os outros
factores que afetam os rendimentos tais como habilidade
inata dos indivíduos ou inteligência.
•Mas a habilidade é certamente correlacionada com o
grau de escolaridade alcançado, causando uma
correlação entre o regressor e o erro,
•Matematicamente, este é o mesmo problema que aquele
causado pela endogeneidade ou erros de medida.
Endogeneidade e Variáveis Instrumentais
A solução deste problema por variáveis instrumentais pode
ser vista como uma Regressão de variáveis instrumentais:
y = xb + u
Assim se z não correlacionado com u, correlacionado com x
z
x
y
u
• Então a variável adicional z é chamada de instrumento
para x. Em geral, temos muitas variáveis em x, e mais de
uma destas variáveis correlacionada com u.
• Neste caso, necessitamos no mínimo tantas variáveis em
z, quantas forem as variáveis em x correlacionadas com u.
Porque não utilizar sempre variáveis
instrumentais?

Estimadores IV são enviesados para pequenas amostras e
suas propriedades para amostras finitas são freqüentemente
problemáticas.

A precisão de estimadores IV é menor do que a de
estimadores OLS. Na presença de instrumentos fracos
(instrumentos incluídos com baixa correlação com os
regressores endógenos) a perda de precisão é muito grande
e as estimativas IV podem não compensar a inconsistência
dos estimadores OLS.
O problema da selecção dos instrumentos


Pode ser difícil achar variáveis que servem como instrumentos
válidos. Muitas variáveis que têm um efeito sobre as variáveis
endógenas incluídas, também têm um efeito direto sobre a
variável dependente.
Por outrolado, os instrumentos podem ser fracos:
◦ satisfatoriamente exógenos, mas fracamente correlacionados com os
regressores endógenos. Neste caso, “a cura pode ser pior do que a doença”.

Embora os estimadores de VI sejam consistentes quando z e u
são não correlacionados e z e x tem qualquer correlação positiva
ou negativa, as estimativas de VI podem ter grandes erros
padrão, especialmente se z e x forem fracamente
correlacionados.
◦ O estimador de VI também pode ter um grande enviesamenyo assimptótico
mesmo se z e u forem só moderadamente correlacionados.
Variáveis Instrumentais

O que são métodos de variáveis instrumentais (IV)?
◦ Mais conhecidos como uma solução para regressores
endógenos: variáveis explicativas correlacionadas
com o termo de erro da regressão,
◦ os métodos de variáveis instrumentais são uma
maneira de obter estimativas de parâmetros
consistentes.

A hipótese fundamental para a consistência dos
estimadores OLS é que o termo de erro do modelo
é não correlacionado com os regressores.
Teste para endogeneidade do regressor
Se o regressor instrumentado for exógeno,
os estimadores IV (IV, 2SLS ou GMM) são
ainda consistentes, mas eles serão muito
menos eficientes do que o estimador OLS.
 Hausman test: se há pequena diferença
entre as estimativas IV e OLS, concluímos
que o regressor é exógeno.

( ˆ IV   OLS ) 2
TH 
~  2 (1)
Vˆ ( ˆ IV   OLS )
Estimação IV: “síntese”

Quando temos certeza de que os regressores
da nossa equação não estão correlacionados
com os erros podemos aplicar o método
convencional de OLS.
◦ No entanto, mesmo nesse caso temos que verificar
se os resíduos da regressão são homocedásticos.

Então temos que realizar o teste
heterocedasticidade. Caso os resíduos sejam
heterocedásticos temos que realizar a
regressão robusta.
◦ Isto pode ser feito utilizando a opção robust (após
a vírgula) no comando regress.
Estimação IV: “síntese”

Caso tenhamos motivos para acreditar que
um ou mais regressores sejam endógenos
(tenham correlação não nula com termo de
erro da equação) temos que aplicar o
método das variáveis instrumentais.

Então nesse caso utilizaremos o comando
ivreg (ou através do menu endogenous
covariates) ao invés do comando regress.
Estimação IV: “síntese”

Mas mesmo nesse caso podemos ter
uma complicação.
◦ Pode acontecer que aplicando o método
das variáveis instrumentais os resíduos do
modelo não sejam homocedásticos.

Nesse caso temos que aplicar o método
das variáveis instrumentais articulado
com o método dos momentos
generalizados (GMM).
Quais são as implicações da
heterocedasticidade para o estimador IV?

Os regressores

são todos
exógenos?
Sim
Sim
Não
Não
Os resíduos da
regressão IV são
homocedásticos?
Os resíduos da
regressão OLS são
homocedásticos?
Sim
Utilizar estimação
OLS
Utilizar estimação
OLS com opção
robust
Utilizar estimação IV
Não
Utilizar estimação
GMM
Que método de estimação aplicar

Vamos sistematizar o que vimos até agora sobre variáveis instrumentais.
Quando temos certeza de que os regressores da nossa equação não
estão correlacionados com os erros podemos aplicar o método
convencional de OLS.

No entanto, mesmo nesse caso temos que verificar se os resíduos da
regressão são homocedásticos. Então temos que realizar o teste
heterocedasticidade. Caso os resíduos sejam heterocedásticos temos
que realizar a regressão robusta. Isto pode ser feito utilizando a opção
robust (após a vírgula) no comando regress.

Caso tenhamos motivos para acreditar que um ou mais regressores
sejam endógenos (tenham correlação não nula com termo de erro da
equação) temos que aplicar o método das variáveis instrumentais.

Mas mesmo nesse caso podemos ter uma complicação. Pode acontecer
que aplicando o método das variáveis instrumentais os resíduos do
modelo não sejam homocedásticos. Nesse caso temos que aplicar o
método das variáveis instrumentais articulado com o método dos
momentos generalizados (GMM).
Diagrama de Decisão para escolha do método de
estimação
ESTV-IPV
O Método dos Momentos Generalizados (GMM)

Lars Hansen é considerado como o pai do
método GMM com seu paper de 1982 na
revista Econometrica.

Mas o método tem seus antecedentes nos
trabalhos de Karl Pearson sobre o método
dos momentos datados em 1895.

O método tem portanto, como qualquer
descoberta cientifica, uma história bem
definida.
xtabond2 syntax
Y
X
Z
xtabond2 depvar varlist [if exp] [in range]
[, level(#) twostep robust noconstant small noleveleq
artests(#) arlevels h(#) nomata]
ivopt [ivopt ...] gmmopt [gmmopt ...]]
where gmmopt is
“GMM-style”
gmmstyle(varlist [, laglimits(# #) collapse
equation({diff | level | both}) passthru])
and ivopt is
Classic
ivstyle(varlist [, equation({diff | level | both})
passthru mz])
O Método dos Momentos Generalizados (GMM)

Como ponto de partida, consideramos uma matriz
de regressores X tem dimensão n x K, onde n é o
número de observações.

Alguns dos regressores são endógenos, de forma
que E(Xiui) ≠0.

Fazemos uma partição do conjunto de regressores
em [X1 X2], com K1 regressores X1 que de acordo
com a hipótese nula são endógenos e K2=(K-K1)
regressores X2 que são considerados exógenos.
O Método dos Momentos Generalizados (GMM)
Supor o conjunto de variáveis instrumentais
é Z e tem dimensão n x L.
 Este é o conjunto completo de variáveis que
são exógenas - E(Ziui) =0.
 Fazemos uma partição dos instrumentos em
[Z1-Z2], com L1 instrumentos Z1 que são
instrumentos excluídos,
 L2 instrumentos Z2 = X2 que são os
instrumentos
incluídos
/
regressores
exógenos.

O Método dos Momentos Generalizados (GMM)

Assim ficamos com os seguintes conjuntos:
Regressores  [ X 1 X 2 ]  [ X 1Z 2 ]  [Endógenos Exógenos]
Instrumentos Z = [Z1Z 2 ]  [Excluídos Incluídos]

A condição de ordem para identificação da
equação é: L ≥ K
◦ Isto implica que precisamos ter no mínimo tantos
instrumentos excluídos (L1) quantos forem os
regressores endógenos (K1).
Se L = K a equação é exatamente
identificada.
 Se L > K a equação é sobre-identificada.

O Estimador GMM

Os L instrumentos permitem um conjunto de L
momentos:
g i (  )  Z i'u i  Z i' ( yi  X i  ) i = 1,n (5)
◦ Temos um vector gi que é L x 1 (resultado de uma
'
multiplicação de uma matriz Z i que é L x n por outra matriz
que é n x 1.

Se os L instrumentos são todos exógenos - E(Ziui)
=0, temos L momentos nulos:
E ( g i (  ))  0
(6)
O Estimador GMM

Cada uma das L equações de momento
corresponde a um momento amostral. Para
um dado estimador ˆ , podemos escrever
estes L momentos amostrais como:
n
1 n
1
g (  )   g i ( ˆ )   Z i' ( y i  X i ˆ )
n i 1
n i 1
1
 Z ' uˆ (7)
n
O Estimador GMM
Em forma matricial:
 g1 (  ) 
 g ( ) 
 2

 ... 
 g ( ) 
 l

 z11

1  z12
n  ...
z
 1l
z 21
...
z 22
...
z2l
...
...
...
z l 1   y1  ( 1 x11  ...   k x1k ) 
z l 2   y 2  ( 1 x21  ...   k x2 k ) 


...  
...

z ll   y n  ( 1 xn1  ...   k xnk ) 
O Estimador GMM

O que está por trás da estimação GMM?
◦ Temos que escolher um estimador para o vetor de
parâmetros  que torne g (  ) tão próximo de zero quanto
possível.

No caso de L = K (equação exatamente identificada)
temos L condições (equações) iguais a K
coeficientes (incógnitas) em ˆ . Neste caso, é
possível achar uma matriz ˆ que soluciona o
sistema g (  ) .
O Estimador GMM
Quando L = K a equação é exactamente
identificada e uma solução única existe
equivalente ao estimador padrão de variáveis
instrumentais:
ˆ IV  ( Z ' X ) 1 Z ' y (9)
 No caso de sobre-identificação (L > K),
podemos definir um conjunto de K
instrumentos:
Xˆ  Z '( Z ' Z ) 1 Z ' X  Pz X (10)

◦ que é o estimador de mínimos quadrados em dois
estágios (2SLS) que a despeito do seu nome é
calculado por esta simples equação matricial.
O Estimador GMM

Se a equação é sobre-identificada (L ≥ K)
temos mais equações do que incógnitas e
neste caso não é possível achar uma matriz ˆ
que iguale exatamente todo o conjunto de L
momentos a zero.

Neste caso, temos que tomar uma matriz de
ponderação W(L x L) e utilizá-la para construir
uma forma quadrática nas condições de
momento.
O Estimador IV-GMM
No método 2SLS com sobre-identificação os L instrumentos
disponíveis são reduzidos aos K necessários para definir a
matriz Pz.
• De acordo com Baum (2008), na abordagem IV-GMM esta
redução não é necessária e todos os L instrumentos são
usados no estimador.
• Uma matriz de ponderação é empregada de forma que
podemos determinar ˆGMM de forma que os elementos de
g ( ˆGMM ) são tão próximos de zero quanto possível.
•
•
Com L > K nem todas as L condições de momento podem
ser satisfeitas e um critério de função que pondere estas
condições apropriadamente é utilizado para aumentar a
eficiência do estimador.
O Estimador IV-GMM

Resolvendo através deste critério de minimização obtemos o
estimador IV-GMM de uma equação sobre-identificada:
(12)
ˆ
 ( X ' ZWZ ' X ) X ' ZWZ ' y
GMM
◦

que será idêntico para todas as matrizes W que diferem por um factor
de proporcionalidade.
A consistência é garantida por qualquer matriz de
ponderação W simétrica positiva e portanto há tantos
estimadores GMM como há escolhas da matriz de
ponderação W. Contudo a eficiência não é garantida por
uma W arbitrária.
Matriz de ponderação W que minimiza a variância
do estimador GMM?
 Estamos
interessados em obter estimadores
GMM eficientes: estimadores com mínima
variância assintótica.
 Seja
S a matriz de covariância assimptótica
das condições de momento g e S é uma matriz
L x L , e Ω é a matriz de variância-covariância
dos resíduos.
Qual é a escolha ótima da matriz de ponderação W
que minimiza a variância do estimador GMM?
O estimador GMM eficiente é o estimador GMM com uma matriz
de ponderação ótima que minimiza a variância assintótica do
estimador. Isto é obtido pela escolha de W = S-1
 Substituindo W por S-1 na expressão anterior do estimador
GMM, temos:

ˆGMM  ( X ' ZS 1 Z ' X ) X ' ZS 1 Z ' y
(15)
com variância assintótica:
V ( ˆ EGMM )  (Q ' XZ S 1Q ' XZ ) 1

(16)
A matriz S é obtida em um primeiro estágio através da estimativa
ineficiente de uma matriz diagonal ̂ que é posteriormente
introduzida na expressão:
(17)
n
1
1
ˆZ
Sˆ   uˆi2 Z i' Z i  Z ' 
n i 1
n
GMM

̂ é a matriz diagonal de quadrados dos
resíduos.
 uˆ12  0 
ˆ    uˆ 2  

i


 0  uˆ n2 


ˆ
onde u i é uma estimativa consistente de u i .

onde ̂ é uma matriz diagonal de resíduos ao
2
quadrado u i de  , que é o estimador GMM de
primeiro estágio consistente, mas não
necessariamente eficiente.
Fórmulas derivadas para os stimadores
ˆ IV  ( Z ´ X ) 1 Z ´ y
ˆ2 SLS  ( X ´Z ( Z ´Z ) 1 Z ´ X ) X ´Z ( Z ´Z ) 1 y
ˆGMM  ( X ´ZWZ ´ X ) 1 X ´ZWZ ´ y
onde:
Wé qualquer matriz de ponderação simétrica
Para modelos exatamente identificados, todas
as escolhas de W conduzem aos mesmos estimadores


Se W   Z ' Ω Z 





1
Então a fórmula geral do estimador de ˆGMM

Z consiste nos instrumentos válidos na equação em
difrenças

Os instrumentos de tipo GMM são valores desfasados
de Ws variáveis prédeterminadas e endógenas.

Os instrumentos tipo são as primeiras difrenças de Xk,
as variáveis exógenas
Como estimar com o xtabond2
do STATA:
DIFFERENCE E SYSTEM GMM
ESTV-IPV
Stata xtabond2


Extensão do comando xtabond, que permite fazer
system GMM, com correcção de Windmeijer e
uma sintaxe melhorada que permite uma definição
apropriada da matriz de instrumentos.
Permite o uso de estimadores concebidos para
uma modelos lineraes dinâmicos de aplicação
geral para
◦
◦
◦
◦
Paineis com T-pequeno e N-grande,
Regressores endógenos e predeterminados,
Permitindo a consideração de efeitos individuais fixos
Com autocorrelação and heterocedasticidade nos
paineis.
xtabond2 syntax
Y
X
Z
xtabond2 depvar varlist [if exp] [in range]
[, level(#) twostep robust noconstant small noleveleq
artests(#) arlevels h(#) nomata]
ivopt [ivopt ...] gmmopt [gmmopt ...]]
where gmmopt is
“GMM-style”
gmmstyle(varlist [, laglimits(# #) collapse
equation({diff | level | both}) passthru])
and ivopt is
Classic
ivstyle(varlist [, equation({diff | level | both})
passthru mz])
Examples
 Classic one-step difference GMM with no controls except
time dummies
xi: xtabond2 y L.y i.t, gmm(y, laglim(2 .))
iv(i.t) robust noleveleq
 Equivalents:
xi: xtabond2 y L.y i.t, gmm(L.y, laglim(1 .))
iv(i.t) robust noleveleq
xi: xtabond2 y L.y i.t, gmm(L.y)
iv(i.t) robust noleveleq
 System GMM, two-step, Windmeijer correction,
w1 exogenous, w2 predetermined, w3 exogenous:
xi: xtabond2 y L.y w1 w2 w3 i.t,
gmm(L.y w2 L.w3) iv(i.t w1) two robust
Examples
If conditions imposed only on levels, difference equation
effectively discarded. Equivalent pairs:
regress n w k
xtabond2 n w k, iv(w k, eq(level)) small
ivreg2 n cap (w = k ys)
xtabond2 n w cap, iv(cap k ys, eq(level))
ivreg2 n cap (w = k ys), cluster(id) gmm
xtabond2 n w cap, iv(cap k ys, eq(level)) two
Or even:
regress n w k
abar, lags(2)
xtabond2 n w k, iv(w k, eq(level)) small arlevel
Problema: erros demasiado pequenos em
segunda etapa
O
problema
parece
ser
um
de
“overfitting”.Tal acontece porque:
o EGMM retira peso aos momentos com
variância elevada (segundos momentos
elevados)
o FEGMM em amostras pequenas pode
retirar retirar peso aos outliers (primeiros
momentos elevados)
 Tal conduz a uma precisão espúrias
o Solução: correcção para amostras finitas
(Windmeijer 2005)
Problema: erros demasiado pequenos em
segunda etapa
Regression for Arellano-Bond (1991) column (a1), Table 4
Arellano-Bond dynamic panel-data estimation, one-step difference GMM results
-----------------------------------------------------------------------------|
Robust
|
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------n |
L1. |
.6862261
.1445943
4.75
0.000
.4003376
.9721147
L2. | -.0853582
.0560155
-1.52
0.130
-.1961109
.0253944
w |
--. | -.6078208
.1782055
-3.41
0.001
-.9601647
-.2554769
L1. |
.3926237
.1679931
2.34
0.021
.0604714
.7247759
k |
--. |
.3568456
.0590203
6.05
0.000
.240152
.4735392
Arellano-Bond dynamic panel-data estimation, two-step difference GMM results
-----------------------------------------------------------------------------|
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------n |
L1. |
.6287089
.0904543
6.95
0.000
.4498646
.8075531
L2. | -.0651882
.0265009
-2.46
0.015
-.1175852
-.0127912
w |
--. | -.5257597
.0537692
-9.78
0.000
-.6320709
-.4194485
L1. |
.3112899
.0940116
3.31
0.001
.1254122
.4971675
k |
--. |
.2783619
.0449083
6.20
0.000
.1895702
.3671537
Example of a dinamic model
Example of a dinamic model
Example of a dinamic model
Example of a dinamic model
Example of a dinamic model
Casos de estimação do
modelo de ajustamento
da dívida com o
xtabond2 do Stata
ESTV-IPV