Modelo de Variáveis discretas Variáveis dependentes Binárias
Transcrição
Modelo de Variáveis discretas Variáveis dependentes Binárias
28/10/2009 Variáveis dependentes Binárias Modelo de Variáveis discretas Modelo de probabilidade linear era escrito da seguinte forma: P(y = 1|x) = β0 + xβ var (y/x)=p(x)(1-p(x)) Presença de heterocedasticidade: erro padrão robusto P(y = 1|x) = G(β0 + xβ ) y* = β0 + xβ + u, y = max(0,y*) 1 Variáveis dependentes Binárias 2 Variáveis Latentes Modelo de probabilidade linear era escrito da seguinte forma: P(y = 1|x) = β0 + xβ Problema: valores preditos não estão no limite 0 e 1 Uma alternativa é modelar a probabilidade como uma função, G(β0 + xβ ), onde 0<G(z)<1 Algumas vezes, os modelos de variáveis binárias dependentes são motivados por um modelo de variável latente. A ideia é que existe uma variável y*, que pode ser modelada como: y* = β0 +xβ + e, mas apenas observamos y = 1, se y* > 0, e y =0 se y* ≤ 0, 3 4 Modelo Probit Modelo Logit Uma escolha para G(z) é a função de distribuição acumulada de uma normal padrão (cdf) G(z) = Φ(z) ≡ ∫φ(v)dv, onde φ(z) é a normal padrão, φ(z) = (2π)-1/2exp(-z2/2) Este caso refere-se ao modelo probit Como é um modelo não linear, não pode ser estimado pelos métodos usuais Estimação de Máxima Verossimilhança 5 Outra escolha para G(z) é uma função logística, função de distribuição padrão de uma variável aleatória logística G(z) = exp(z)/[1 + exp(z)] = Λ(z) Este caso é referido como modelo logit ou regressão logística. Ambas funções crescem com z, e rapidamente em torno de 0 6 1 28/10/2009 Interpretação do logit e do probit (em particular vs MPL) Probits e Logits Probit e logit são não lineares – EMV Não há razão para preferir um ou outro modelo Tradicionalmente, as pessoas usam mais o logit, principalmente porque a função logística é mais facilmente computada Atualmente, probit também é facilmente computado com os pacotes econométricos. Em geral estamos preocupados com o efeito de x em P(y = 1|x), ∂p/ ∂x Para o caso linear, isto é facilmente computável pelo coeficiente de x Para os modelos probit e logit não lineares, isto é mais complicado: ∂p/ ∂xj = g(β0 +xβ )βj, onde g(z) é dG/dz 7 Interpretação 8 Teste da razão de verossimilhança Claramente, não podemos comparar os coeficientes entre os três modelos. Podemos comparar o sinal e a significância (estatística t padrão) dos coeficientes Para comparar a magnitude dos efeitos, teremos que calcular as derivadas, na média. Enquanto no MPL usamos a F ou LM para testar restrições de exclusão, agora usamos um novo tipo de teste. EMV produz o log da verossimilhança L Da mesma forma que o teste F, estimamos o modelo restrito e irrestrito, e construímos a seguinte estatística: LR = 2(Lir – Lr) ~ χ2q 9 Ajuste Ajuste Não podemos usar R2 para julgar o ajuste Uma possibilidade é o pseudo R2 baseado no log da verossimilhança e definido como 1 – Lur/L0 Também podemos olhar para a % predita de forma correta: para cada observação calculamos a probabilidade estimada de que y tenha valor 1. Se 10 A percentagem de vezes que y previsto se iguala ao valor de y verdadeiro é percentagem corretamente prevista. Pode acontecer de obtermos uma alta percentagem e o modelo não necessariamente ser bom. a previsão de y será 1, e se a previsão de y será 0. 11 12 2 28/10/2009 Modelo 1:Mínimos Quadrados (OLS), usando as observações 1-753 Variável dependente: inlf Heteroscedasticidade-robusta erros padrão, variante HC1 Exemplo const nwifeinc educ exper expersq age kidslt6 kidsge6 Banco de dados: mroz.gdt Participação da mulher na força de trabalho. Estimativas de 3 modelos: MPL, logit e probit. Coeficiente 0,585519 -0,00340517 0,0379953 0,0394924 -0,000596312 -0,0160908 -0,26181 0,0130122 Média var. dependente Soma resíd. quadrados R-quadrado F(7, 745) Log da verossimilhança Critério de Schwarz Erro Padrão 0,15226 0,00152493 0,00726604 0,00581002 0,000190004 0,00239901 0,0317832 0,0135329 0,568393 135,9197 0,264216 62,48138 -423,8923 900,7772 razão-t 3,8455 -2,2330 5,2292 6,7973 -3,1384 -6,7073 -8,2374 0,9615 p-valor 0,00013 0,02585 <0,00001 <0,00001 0,00177 <0,00001 <0,00001 0,33660 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn *** ** *** *** *** *** *** 0,495630 0,427133 0,257303 1,30e-70 863,7847 878,0360 14 13 Modelo 2:Logit, usando as observações 1-753 Variável dependente: inlf const nwifeinc educ exper expersq age kidslt6 kidsge6 Coeficiente Erro Padrão 0,425452 0,86037 -0,0213452 0,00842145 0,22117 0,0434396 0,20587 0,0320569 -0,0031541 0,00101611 -0,0880244 0,014573 -1,44335 0,203585 0,0601122 0,0747897 Média var. dependente R-quadrado de McFadden Log da verossimilhança Critério de Schwarz 0,568393 0,219681 -401,7652 856,5228 z-stat 0,4945 -2,5346 5,0914 6,4220 -3,1041 -6,0402 -7,0897 0,8037 Modelo 3:Probit, usando as observações 1-753 Variável dependente: inlf Inclinação* const nwifeinc educ exper expersq age kidslt6 kidsge6 -0,00519005 0,0537773 0,0500569 -0,000766917 -0,021403 -0,35095 0,0146162 D.P. var. dependente R-quadrado ajustado 0,243149 0,204144 Critério de Akaike Critério Hannan-Quinn 819,5303 833,7817 Coeficiente 0,270077 -0,0120237 0,130905 0,123348 -0,00188708 -0,0528527 -0,868329 0,036005 Média var. dependente R-quadrado de McFadden Log da verossimilhança Critério de Schwarz Erro Padrão 0,508593 0,00483984 0,0252542 0,0187164 0,000599986 0,00847724 0,118522 0,0434768 0,568393 0,220581 -401,3022 855,5969 z-stat 0,5310 -2,4843 5,1835 6,5903 -3,1452 -6,2347 -7,3263 0,8281 Inclinação* -0,00469623 0,0511287 0,048177 -0,000737055 -0,0206432 -0,339151 0,0140628 D.P. var. dependente R-quadrado ajustado 0,390580 0,205043 Critério de Akaike Critério Hannan-Quinn 818,6044 832,8557 * Avaliado na média Número de casos 'corretamente previstos' = 553 (73,4%) f(beta'x) na média das variáveis independentes = 0,391 Teste de razão de verossimilhança: Qui-quadrado(7) = 227,142 [0,0000] * Avaliado na média Número de casos 'corretamente previstos' = 554 (73,6%) f(beta'x) na média das variáveis independentes = 0,243 Teste de razão de verossimilhança: Qui-quadrado(7) = 226,216 [0,0000] 15 16 Variável dependente: inlf Exemplo const Modelo 1 Modelo 2 Modelo 3 Mínimos Quadrados (OLS) 0,5855** (0,1523) Logit Probit nwifeinc -0,003405** (0,001525) 0,4255 (0,8604) 0,2701 (0,5086) -0,02135** (0,008421) -0,01202** (0,004840) educ 0,03800** (0,007266) 0,2212** (0,04344) 0,1309** (0,02525) exper 0,03949** (0,005810) 0,2059** (0,03206) 0,1233** (0,01872) expersq -0,0005963** -0,003154** -0,001887** (0,0001900) (0,001016) (0,0006000) age -0,01609** (0,002399) -0,08802** (0,01457) -0,05285** (0,008477) kidslt6 -0,2618** (0,03178) -1,443** (0,2036) -0,8683** (0,1185) kidsge6 0,01301 (0,01353) 0,06011 (0,07479) 0,03600 (0,04348) n R2 lnL 753 0,2642 -423,892 753 0,2197 -401,765 753 0,2206 -401,302 Erros padrão entre parênteses * indica significância num nível de 10 por cento ** indica significância num nível de 5 por cento Para logit e probit, o R2 é o pseudo-R2 de McFadden 17 3