Modelo de Variáveis discretas Variáveis dependentes Binárias

Transcrição

Modelo de Variáveis discretas Variáveis dependentes Binárias
28/10/2009
Variáveis dependentes Binárias
Modelo de Variáveis discretas
Modelo de probabilidade linear era escrito
da seguinte forma: P(y = 1|x) = β0 + xβ
var (y/x)=p(x)(1-p(x))
Presença de heterocedasticidade: erro
padrão robusto
P(y = 1|x) = G(β0 + xβ )
y* = β0 + xβ + u, y = max(0,y*)
1
Variáveis dependentes Binárias
2
Variáveis Latentes
Modelo de probabilidade linear era escrito
da seguinte forma: P(y = 1|x) = β0 + xβ
Problema: valores preditos não estão no
limite 0 e 1
Uma alternativa é modelar a probabilidade
como uma função, G(β0 + xβ ), onde
0<G(z)<1
Algumas vezes, os modelos de variáveis
binárias dependentes são motivados por um
modelo de variável latente.
A ideia é que existe uma variável y*, que
pode ser modelada como:
y* = β0 +xβ + e, mas apenas observamos
y = 1, se y* > 0, e y =0 se y* ≤ 0,
3
4
Modelo Probit
Modelo Logit
Uma escolha para G(z) é a função de
distribuição acumulada de uma normal
padrão (cdf)
G(z) = Φ(z) ≡ ∫φ(v)dv, onde φ(z) é a normal
padrão, φ(z) = (2π)-1/2exp(-z2/2)
Este caso refere-se ao modelo probit
Como é um modelo não linear, não pode
ser estimado pelos métodos usuais
Estimação de Máxima Verossimilhança
5
Outra escolha para G(z) é uma função
logística, função de distribuição padrão de
uma variável aleatória logística
G(z) = exp(z)/[1 + exp(z)] = Λ(z)
Este caso é referido como modelo logit ou
regressão logística.
Ambas funções crescem com z, e
rapidamente em torno de 0
6
1
28/10/2009
Interpretação do logit e do probit
(em particular vs MPL)
Probits e Logits
Probit e logit são não lineares – EMV
Não há razão para preferir um ou outro
modelo
Tradicionalmente, as pessoas usam mais o
logit, principalmente porque a função
logística é mais facilmente computada
Atualmente, probit também é facilmente
computado com os pacotes econométricos.
Em geral estamos preocupados com o
efeito de x em P(y = 1|x), ∂p/ ∂x
Para o caso linear, isto é facilmente
computável pelo coeficiente de x
Para os modelos probit e logit não lineares,
isto é mais complicado:
∂p/ ∂xj = g(β0 +xβ )βj, onde g(z) é dG/dz
7
Interpretação
8
Teste da razão de verossimilhança
Claramente, não podemos comparar os
coeficientes entre os três modelos.
Podemos comparar o sinal e a significância
(estatística t padrão) dos coeficientes
Para comparar a magnitude dos efeitos,
teremos que calcular as derivadas, na
média.
Enquanto no MPL usamos a F ou LM para
testar restrições de exclusão, agora usamos
um novo tipo de teste.
EMV produz o log da verossimilhança L
Da mesma forma que o teste F, estimamos
o modelo restrito e irrestrito, e construímos
a seguinte estatística:
LR = 2(Lir – Lr) ~ χ2q
9
Ajuste
Ajuste
Não podemos usar R2 para julgar o ajuste
Uma possibilidade é o pseudo R2 baseado no log da
verossimilhança e definido como 1 – Lur/L0
Também podemos olhar para a % predita de forma
correta: para cada observação calculamos a
probabilidade estimada de que y tenha valor 1.
Se
10
A percentagem de vezes que y previsto se iguala ao
valor de y verdadeiro é percentagem corretamente
prevista.
Pode acontecer de obtermos uma alta percentagem e o
modelo não necessariamente ser bom.
a previsão de y será 1, e se
a previsão de y será 0.
11
12
2
28/10/2009
Modelo 1:Mínimos Quadrados (OLS), usando as observações 1-753
Variável dependente: inlf
Heteroscedasticidade-robusta erros padrão, variante HC1
Exemplo
const
nwifeinc
educ
exper
expersq
age
kidslt6
kidsge6
Banco de dados: mroz.gdt
Participação da mulher na força de
trabalho.
Estimativas de 3 modelos: MPL, logit e
probit.
Coeficiente
0,585519
-0,00340517
0,0379953
0,0394924
-0,000596312
-0,0160908
-0,26181
0,0130122
Média var. dependente
Soma resíd. quadrados
R-quadrado
F(7, 745)
Log da verossimilhança
Critério de Schwarz
Erro Padrão
0,15226
0,00152493
0,00726604
0,00581002
0,000190004
0,00239901
0,0317832
0,0135329
0,568393
135,9197
0,264216
62,48138
-423,8923
900,7772
razão-t
3,8455
-2,2330
5,2292
6,7973
-3,1384
-6,7073
-8,2374
0,9615
p-valor
0,00013
0,02585
<0,00001
<0,00001
0,00177
<0,00001
<0,00001
0,33660
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
***
**
***
***
***
***
***
0,495630
0,427133
0,257303
1,30e-70
863,7847
878,0360
14
13
Modelo 2:Logit, usando as observações 1-753
Variável dependente: inlf
const
nwifeinc
educ
exper
expersq
age
kidslt6
kidsge6
Coeficiente Erro Padrão
0,425452
0,86037
-0,0213452 0,00842145
0,22117
0,0434396
0,20587
0,0320569
-0,0031541 0,00101611
-0,0880244
0,014573
-1,44335
0,203585
0,0601122
0,0747897
Média var. dependente
R-quadrado de
McFadden
Log da verossimilhança
Critério de Schwarz
0,568393
0,219681
-401,7652
856,5228
z-stat
0,4945
-2,5346
5,0914
6,4220
-3,1041
-6,0402
-7,0897
0,8037
Modelo 3:Probit, usando as observações 1-753
Variável dependente: inlf
Inclinação*
const
nwifeinc
educ
exper
expersq
age
kidslt6
kidsge6
-0,00519005
0,0537773
0,0500569
-0,000766917
-0,021403
-0,35095
0,0146162
D.P. var. dependente
R-quadrado ajustado
0,243149
0,204144
Critério de Akaike
Critério Hannan-Quinn
819,5303
833,7817
Coeficiente
0,270077
-0,0120237
0,130905
0,123348
-0,00188708
-0,0528527
-0,868329
0,036005
Média var. dependente
R-quadrado de
McFadden
Log da verossimilhança
Critério de Schwarz
Erro Padrão
0,508593
0,00483984
0,0252542
0,0187164
0,000599986
0,00847724
0,118522
0,0434768
0,568393
0,220581
-401,3022
855,5969
z-stat
0,5310
-2,4843
5,1835
6,5903
-3,1452
-6,2347
-7,3263
0,8281
Inclinação*
-0,00469623
0,0511287
0,048177
-0,000737055
-0,0206432
-0,339151
0,0140628
D.P. var. dependente
R-quadrado ajustado
0,390580
0,205043
Critério de Akaike
Critério Hannan-Quinn
818,6044
832,8557
*
Avaliado na média
Número de casos 'corretamente previstos' = 553 (73,4%)
f(beta'x) na média das variáveis independentes = 0,391
Teste de razão de verossimilhança: Qui-quadrado(7) = 227,142 [0,0000]
*
Avaliado na média
Número de casos 'corretamente previstos' = 554 (73,6%)
f(beta'x) na média das variáveis independentes = 0,243
Teste de razão de verossimilhança: Qui-quadrado(7) = 226,216 [0,0000]
15
16
Variável dependente: inlf
Exemplo
const
Modelo 1
Modelo 2
Modelo 3
Mínimos
Quadrados
(OLS)
0,5855**
(0,1523)
Logit
Probit
nwifeinc -0,003405**
(0,001525)
0,4255
(0,8604)
0,2701
(0,5086)
-0,02135**
(0,008421)
-0,01202**
(0,004840)
educ
0,03800**
(0,007266)
0,2212**
(0,04344)
0,1309**
(0,02525)
exper
0,03949**
(0,005810)
0,2059**
(0,03206)
0,1233**
(0,01872)
expersq -0,0005963** -0,003154** -0,001887**
(0,0001900) (0,001016) (0,0006000)
age
-0,01609**
(0,002399)
-0,08802**
(0,01457)
-0,05285**
(0,008477)
kidslt6
-0,2618**
(0,03178)
-1,443**
(0,2036)
-0,8683**
(0,1185)
kidsge6
0,01301
(0,01353)
0,06011
(0,07479)
0,03600
(0,04348)
n
R2
lnL
753
0,2642
-423,892
753
0,2197
-401,765
753
0,2206
-401,302
Erros padrão entre parênteses
* indica significância num nível de 10 por cento
** indica significância num nível de 5 por cento
Para logit e probit, o R2 é o pseudo-R2 de McFadden
17
3