ivreg2
Transcrição
ivreg2
OS MODELOS DINÂMICOS E O MÉTODO GENERALIZADO DOS MOMENTOS (GMM) ESTV-IPV Endogeneidade e Variáveis Instrumentais Vamos primeiro considerar um diagrama de causalidade para ilustrar o problema colocado por variáveis instrumentais. Podemos usar mínimos quadrados ordinários (OLS) para estimar consistentemente o seguinte modelo: regressão: y = xb + u (1) X y u Se não há nenhuma associação entre x e u; OLS é consistente Endogeneidade e Variáveis Instrumentais O estimador OLS respeita a Hipótese da esperança condicional nula, pode ser expressa por E[u|x] = 0. Esta condição também pode ser representada pela independência entre u e X, ou seja, covariância(u,x)=0 x y u Entretanto, a regressão falha quando: Endogeneidade: y = xb + u Correlação entre x e u; OLS não é consistente. Problema: endogeneidade Diferenciar elimina a endogeneidade da componente de efeitos fixos do termo de erro. Mas, o y agora é endogena com o Outras variáveis predeterminadas tornam-se endogenas pelo mesmo motivo o Outras variáveis podem ser endogenas desde o ínicio As dummies individuais (ou a estimação within groups) também não resolvem o problema. o Pois, y transformada é endógena pois hà desfasamentos mais prolongongados. i ,t 1 it i ,t 1 O enviesamento dos modelos dinâmicos (Nickell 1981) O OLS em diferenças não é uma solução definitiva para o problema da endogeneidade produzida pela dinâmica das variáveis em painel yit yi ,t 1 x it' β it Eliminar os efeitos fixos, não propaga muito a endogeneidade, A transformada yi ,t 1 continua a ser endógena pois yi ,t 1 em yi ,t 1 yi ,t 1 yi ,t 2 está correlacionado com i ,t 1 em it it i ,t 1 . Contudo, variáveis mais desfasadas, podem ser utilizadas como instrumentos caso não exista AR. •Uma situação em que temos que utilizar variáveis instrumentais é quando temos que levar em conta factores não observáveis relevantes e que são omitidos da equação de regressão. o Tanto y como x podem ser afetados por estes factores latentes, como por exemplo a habilidade. • Considere a regressão de (ln) rendimentos (y) sobre anos de estudo (x). O termo de erro u engloba todos os outros factores que afetam os rendimentos tais como habilidade inata dos indivíduos ou inteligência. •Mas a habilidade é certamente correlacionada com o grau de escolaridade alcançado, causando uma correlação entre o regressor e o erro, •Matematicamente, este é o mesmo problema que aquele causado pela endogeneidade ou erros de medida. Endogeneidade e Variáveis Instrumentais A solução deste problema por variáveis instrumentais pode ser vista como uma Regressão de variáveis instrumentais: y = xb + u Assim se z não correlacionado com u, correlacionado com x z x y u • Então a variável adicional z é chamada de instrumento para x. Em geral, temos muitas variáveis em x, e mais de uma destas variáveis correlacionada com u. • Neste caso, necessitamos no mínimo tantas variáveis em z, quantas forem as variáveis em x correlacionadas com u. Porque não utilizar sempre variáveis instrumentais? Estimadores IV são enviesados para pequenas amostras e suas propriedades para amostras finitas são freqüentemente problemáticas. A precisão de estimadores IV é menor do que a de estimadores OLS. Na presença de instrumentos fracos (instrumentos incluídos com baixa correlação com os regressores endógenos) a perda de precisão é muito grande e as estimativas IV podem não compensar a inconsistência dos estimadores OLS. O problema da selecção dos instrumentos Pode ser difícil achar variáveis que servem como instrumentos válidos. Muitas variáveis que têm um efeito sobre as variáveis endógenas incluídas, também têm um efeito direto sobre a variável dependente. Por outrolado, os instrumentos podem ser fracos: ◦ satisfatoriamente exógenos, mas fracamente correlacionados com os regressores endógenos. Neste caso, “a cura pode ser pior do que a doença”. Embora os estimadores de VI sejam consistentes quando z e u são não correlacionados e z e x tem qualquer correlação positiva ou negativa, as estimativas de VI podem ter grandes erros padrão, especialmente se z e x forem fracamente correlacionados. ◦ O estimador de VI também pode ter um grande enviesamenyo assimptótico mesmo se z e u forem só moderadamente correlacionados. Variáveis Instrumentais O que são métodos de variáveis instrumentais (IV)? ◦ Mais conhecidos como uma solução para regressores endógenos: variáveis explicativas correlacionadas com o termo de erro da regressão, ◦ os métodos de variáveis instrumentais são uma maneira de obter estimativas de parâmetros consistentes. A hipótese fundamental para a consistência dos estimadores OLS é que o termo de erro do modelo é não correlacionado com os regressores. Teste para endogeneidade do regressor Se o regressor instrumentado for exógeno, os estimadores IV (IV, 2SLS ou GMM) são ainda consistentes, mas eles serão muito menos eficientes do que o estimador OLS. Hausman test: se há pequena diferença entre as estimativas IV e OLS, concluímos que o regressor é exógeno. ( ˆ IV OLS ) 2 TH ~ 2 (1) Vˆ ( ˆ IV OLS ) Estimação IV: “síntese” Quando temos certeza de que os regressores da nossa equação não estão correlacionados com os erros podemos aplicar o método convencional de OLS. ◦ No entanto, mesmo nesse caso temos que verificar se os resíduos da regressão são homocedásticos. Então temos que realizar o teste heterocedasticidade. Caso os resíduos sejam heterocedásticos temos que realizar a regressão robusta. ◦ Isto pode ser feito utilizando a opção robust (após a vírgula) no comando regress. Estimação IV: “síntese” Caso tenhamos motivos para acreditar que um ou mais regressores sejam endógenos (tenham correlação não nula com termo de erro da equação) temos que aplicar o método das variáveis instrumentais. Então nesse caso utilizaremos o comando ivreg (ou através do menu endogenous covariates) ao invés do comando regress. Estimação IV: “síntese” Mas mesmo nesse caso podemos ter uma complicação. ◦ Pode acontecer que aplicando o método das variáveis instrumentais os resíduos do modelo não sejam homocedásticos. Nesse caso temos que aplicar o método das variáveis instrumentais articulado com o método dos momentos generalizados (GMM). Quais são as implicações da heterocedasticidade para o estimador IV? Os regressores são todos exógenos? Sim Sim Não Não Os resíduos da regressão IV são homocedásticos? Os resíduos da regressão OLS são homocedásticos? Sim Utilizar estimação OLS Utilizar estimação OLS com opção robust Utilizar estimação IV Não Utilizar estimação GMM Que método de estimação aplicar Vamos sistematizar o que vimos até agora sobre variáveis instrumentais. Quando temos certeza de que os regressores da nossa equação não estão correlacionados com os erros podemos aplicar o método convencional de OLS. No entanto, mesmo nesse caso temos que verificar se os resíduos da regressão são homocedásticos. Então temos que realizar o teste heterocedasticidade. Caso os resíduos sejam heterocedásticos temos que realizar a regressão robusta. Isto pode ser feito utilizando a opção robust (após a vírgula) no comando regress. Caso tenhamos motivos para acreditar que um ou mais regressores sejam endógenos (tenham correlação não nula com termo de erro da equação) temos que aplicar o método das variáveis instrumentais. Mas mesmo nesse caso podemos ter uma complicação. Pode acontecer que aplicando o método das variáveis instrumentais os resíduos do modelo não sejam homocedásticos. Nesse caso temos que aplicar o método das variáveis instrumentais articulado com o método dos momentos generalizados (GMM). Diagrama de Decisão para escolha do método de estimação ESTV-IPV O Método dos Momentos Generalizados (GMM) Lars Hansen é considerado como o pai do método GMM com seu paper de 1982 na revista Econometrica. Mas o método tem seus antecedentes nos trabalhos de Karl Pearson sobre o método dos momentos datados em 1895. O método tem portanto, como qualquer descoberta cientifica, uma história bem definida. xtabond2 syntax Y X Z xtabond2 depvar varlist [if exp] [in range] [, level(#) twostep robust noconstant small noleveleq artests(#) arlevels h(#) nomata] ivopt [ivopt ...] gmmopt [gmmopt ...]] where gmmopt is “GMM-style” gmmstyle(varlist [, laglimits(# #) collapse equation({diff | level | both}) passthru]) and ivopt is Classic ivstyle(varlist [, equation({diff | level | both}) passthru mz]) O Método dos Momentos Generalizados (GMM) Como ponto de partida, consideramos uma matriz de regressores X tem dimensão n x K, onde n é o número de observações. Alguns dos regressores são endógenos, de forma que E(Xiui) ≠0. Fazemos uma partição do conjunto de regressores em [X1 X2], com K1 regressores X1 que de acordo com a hipótese nula são endógenos e K2=(K-K1) regressores X2 que são considerados exógenos. O Método dos Momentos Generalizados (GMM) Supor o conjunto de variáveis instrumentais é Z e tem dimensão n x L. Este é o conjunto completo de variáveis que são exógenas - E(Ziui) =0. Fazemos uma partição dos instrumentos em [Z1-Z2], com L1 instrumentos Z1 que são instrumentos excluídos, L2 instrumentos Z2 = X2 que são os instrumentos incluídos / regressores exógenos. O Método dos Momentos Generalizados (GMM) Assim ficamos com os seguintes conjuntos: Regressores [ X 1 X 2 ] [ X 1Z 2 ] [Endógenos Exógenos] Instrumentos Z = [Z1Z 2 ] [Excluídos Incluídos] A condição de ordem para identificação da equação é: L ≥ K ◦ Isto implica que precisamos ter no mínimo tantos instrumentos excluídos (L1) quantos forem os regressores endógenos (K1). Se L = K a equação é exatamente identificada. Se L > K a equação é sobre-identificada. O Estimador GMM Os L instrumentos permitem um conjunto de L momentos: g i ( ) Z i'u i Z i' ( yi X i ) i = 1,n (5) ◦ Temos um vector gi que é L x 1 (resultado de uma ' multiplicação de uma matriz Z i que é L x n por outra matriz que é n x 1. Se os L instrumentos são todos exógenos - E(Ziui) =0, temos L momentos nulos: E ( g i ( )) 0 (6) O Estimador GMM Cada uma das L equações de momento corresponde a um momento amostral. Para um dado estimador ˆ , podemos escrever estes L momentos amostrais como: n 1 n 1 g ( ) g i ( ˆ ) Z i' ( y i X i ˆ ) n i 1 n i 1 1 Z ' uˆ (7) n O Estimador GMM Em forma matricial: g1 ( ) g ( ) 2 ... g ( ) l z11 1 z12 n ... z 1l z 21 ... z 22 ... z2l ... ... ... z l 1 y1 ( 1 x11 ... k x1k ) z l 2 y 2 ( 1 x21 ... k x2 k ) ... ... z ll y n ( 1 xn1 ... k xnk ) O Estimador GMM O que está por trás da estimação GMM? ◦ Temos que escolher um estimador para o vetor de parâmetros que torne g ( ) tão próximo de zero quanto possível. No caso de L = K (equação exatamente identificada) temos L condições (equações) iguais a K coeficientes (incógnitas) em ˆ . Neste caso, é possível achar uma matriz ˆ que soluciona o sistema g ( ) . O Estimador GMM Quando L = K a equação é exactamente identificada e uma solução única existe equivalente ao estimador padrão de variáveis instrumentais: ˆ IV ( Z ' X ) 1 Z ' y (9) No caso de sobre-identificação (L > K), podemos definir um conjunto de K instrumentos: Xˆ Z '( Z ' Z ) 1 Z ' X Pz X (10) ◦ que é o estimador de mínimos quadrados em dois estágios (2SLS) que a despeito do seu nome é calculado por esta simples equação matricial. O Estimador GMM Se a equação é sobre-identificada (L ≥ K) temos mais equações do que incógnitas e neste caso não é possível achar uma matriz ˆ que iguale exatamente todo o conjunto de L momentos a zero. Neste caso, temos que tomar uma matriz de ponderação W(L x L) e utilizá-la para construir uma forma quadrática nas condições de momento. O Estimador IV-GMM No método 2SLS com sobre-identificação os L instrumentos disponíveis são reduzidos aos K necessários para definir a matriz Pz. • De acordo com Baum (2008), na abordagem IV-GMM esta redução não é necessária e todos os L instrumentos são usados no estimador. • Uma matriz de ponderação é empregada de forma que podemos determinar ˆGMM de forma que os elementos de g ( ˆGMM ) são tão próximos de zero quanto possível. • • Com L > K nem todas as L condições de momento podem ser satisfeitas e um critério de função que pondere estas condições apropriadamente é utilizado para aumentar a eficiência do estimador. O Estimador IV-GMM Resolvendo através deste critério de minimização obtemos o estimador IV-GMM de uma equação sobre-identificada: (12) ˆ ( X ' ZWZ ' X ) X ' ZWZ ' y GMM ◦ que será idêntico para todas as matrizes W que diferem por um factor de proporcionalidade. A consistência é garantida por qualquer matriz de ponderação W simétrica positiva e portanto há tantos estimadores GMM como há escolhas da matriz de ponderação W. Contudo a eficiência não é garantida por uma W arbitrária. Matriz de ponderação W que minimiza a variância do estimador GMM? Estamos interessados em obter estimadores GMM eficientes: estimadores com mínima variância assintótica. Seja S a matriz de covariância assimptótica das condições de momento g e S é uma matriz L x L , e Ω é a matriz de variância-covariância dos resíduos. Qual é a escolha ótima da matriz de ponderação W que minimiza a variância do estimador GMM? O estimador GMM eficiente é o estimador GMM com uma matriz de ponderação ótima que minimiza a variância assintótica do estimador. Isto é obtido pela escolha de W = S-1 Substituindo W por S-1 na expressão anterior do estimador GMM, temos: ˆGMM ( X ' ZS 1 Z ' X ) X ' ZS 1 Z ' y (15) com variância assintótica: V ( ˆ EGMM ) (Q ' XZ S 1Q ' XZ ) 1 (16) A matriz S é obtida em um primeiro estágio através da estimativa ineficiente de uma matriz diagonal ̂ que é posteriormente introduzida na expressão: (17) n 1 1 ˆZ Sˆ uˆi2 Z i' Z i Z ' n i 1 n GMM ̂ é a matriz diagonal de quadrados dos resíduos. uˆ12 0 ˆ uˆ 2 i 0 uˆ n2 ˆ onde u i é uma estimativa consistente de u i . onde ̂ é uma matriz diagonal de resíduos ao 2 quadrado u i de , que é o estimador GMM de primeiro estágio consistente, mas não necessariamente eficiente. Fórmulas derivadas para os stimadores ˆ IV ( Z ´ X ) 1 Z ´ y ˆ2 SLS ( X ´Z ( Z ´Z ) 1 Z ´ X ) X ´Z ( Z ´Z ) 1 y ˆGMM ( X ´ZWZ ´ X ) 1 X ´ZWZ ´ y onde: Wé qualquer matriz de ponderação simétrica Para modelos exatamente identificados, todas as escolhas de W conduzem aos mesmos estimadores Se W Z ' Ω Z 1 Então a fórmula geral do estimador de ˆGMM Z consiste nos instrumentos válidos na equação em difrenças Os instrumentos de tipo GMM são valores desfasados de Ws variáveis prédeterminadas e endógenas. Os instrumentos tipo são as primeiras difrenças de Xk, as variáveis exógenas Como estimar com o xtabond2 do STATA: DIFFERENCE E SYSTEM GMM ESTV-IPV Stata xtabond2 Extensão do comando xtabond, que permite fazer system GMM, com correcção de Windmeijer e uma sintaxe melhorada que permite uma definição apropriada da matriz de instrumentos. Permite o uso de estimadores concebidos para uma modelos lineraes dinâmicos de aplicação geral para ◦ ◦ ◦ ◦ Paineis com T-pequeno e N-grande, Regressores endógenos e predeterminados, Permitindo a consideração de efeitos individuais fixos Com autocorrelação and heterocedasticidade nos paineis. xtabond2 syntax Y X Z xtabond2 depvar varlist [if exp] [in range] [, level(#) twostep robust noconstant small noleveleq artests(#) arlevels h(#) nomata] ivopt [ivopt ...] gmmopt [gmmopt ...]] where gmmopt is “GMM-style” gmmstyle(varlist [, laglimits(# #) collapse equation({diff | level | both}) passthru]) and ivopt is Classic ivstyle(varlist [, equation({diff | level | both}) passthru mz]) Examples Classic one-step difference GMM with no controls except time dummies xi: xtabond2 y L.y i.t, gmm(y, laglim(2 .)) iv(i.t) robust noleveleq Equivalents: xi: xtabond2 y L.y i.t, gmm(L.y, laglim(1 .)) iv(i.t) robust noleveleq xi: xtabond2 y L.y i.t, gmm(L.y) iv(i.t) robust noleveleq System GMM, two-step, Windmeijer correction, w1 exogenous, w2 predetermined, w3 exogenous: xi: xtabond2 y L.y w1 w2 w3 i.t, gmm(L.y w2 L.w3) iv(i.t w1) two robust Examples If conditions imposed only on levels, difference equation effectively discarded. Equivalent pairs: regress n w k xtabond2 n w k, iv(w k, eq(level)) small ivreg2 n cap (w = k ys) xtabond2 n w cap, iv(cap k ys, eq(level)) ivreg2 n cap (w = k ys), cluster(id) gmm xtabond2 n w cap, iv(cap k ys, eq(level)) two Or even: regress n w k abar, lags(2) xtabond2 n w k, iv(w k, eq(level)) small arlevel Problema: erros demasiado pequenos em segunda etapa O problema parece ser um de “overfitting”.Tal acontece porque: o EGMM retira peso aos momentos com variância elevada (segundos momentos elevados) o FEGMM em amostras pequenas pode retirar retirar peso aos outliers (primeiros momentos elevados) Tal conduz a uma precisão espúrias o Solução: correcção para amostras finitas (Windmeijer 2005) Problema: erros demasiado pequenos em segunda etapa Regression for Arellano-Bond (1991) column (a1), Table 4 Arellano-Bond dynamic panel-data estimation, one-step difference GMM results -----------------------------------------------------------------------------| Robust | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------n | L1. | .6862261 .1445943 4.75 0.000 .4003376 .9721147 L2. | -.0853582 .0560155 -1.52 0.130 -.1961109 .0253944 w | --. | -.6078208 .1782055 -3.41 0.001 -.9601647 -.2554769 L1. | .3926237 .1679931 2.34 0.021 .0604714 .7247759 k | --. | .3568456 .0590203 6.05 0.000 .240152 .4735392 Arellano-Bond dynamic panel-data estimation, two-step difference GMM results -----------------------------------------------------------------------------| Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------n | L1. | .6287089 .0904543 6.95 0.000 .4498646 .8075531 L2. | -.0651882 .0265009 -2.46 0.015 -.1175852 -.0127912 w | --. | -.5257597 .0537692 -9.78 0.000 -.6320709 -.4194485 L1. | .3112899 .0940116 3.31 0.001 .1254122 .4971675 k | --. | .2783619 .0449083 6.20 0.000 .1895702 .3671537 Example of a dinamic model Example of a dinamic model Example of a dinamic model Example of a dinamic model Example of a dinamic model Casos de estimação do modelo de ajustamento da dívida com o xtabond2 do Stata ESTV-IPV