Modelos de Regressão com Respostas Parciais, Heleno Bolfarine

Transcrição

MODELOS DE REGRESSÃO COM RESPOSTAS
PARCIAIS
Heleno Bolfarine
Jorge Bazan
ii
MODELOS DE REGRESSÃO COM RESPOSTAS
LIMITADAS E CENSURADAS
H. Bolfarine
Universidade de São Paulo
Instituto de Matemática e Estatı́stica
Departamento de Estatı́stica
J. Bazan
Universidade de São Paulo
Instituto de Ciências Matemáticas e de Computação
Departamento de Matemática Aplicada e Estatı́stica
iv
Prefácio
Neste trabalho, desenvolvemos análises Bayesiana e clássica para modelos
de regressão com respostas limitadas ou censuradas.São consideradas extensões do modelo tobit usual normalmente distribuı́do em duas direções. A
primeira considera modelos mais gerais que o modelo normal proporcionada
pelo modelo potência-normal, o qual pode ajustar dados com certo grau de
assimetria e bimodalidade. Uma outra direção em que estendemos o modelo
está voltada para situações onde temos excesso (inflação) de zeros. No caso
em que as observações são proporções (no intervalo (0, 1)), podemos ter dados com excesso de zeros e uns. Discute-se especificacação de prioris pouco
informativas e algoritimos tipo MCMC para estimação dos parâmetros do
modelo. Procedimentos de estimação alternativos são desenvolvidos usando
o método de máxima verossimilhança. Aplicações a vários conjunto de dados são apresentadas. Um conjunto de dados, em especial, é o conjunto
de dados sobre a resposta sorológica em um programa de vacinação contra
sarampo no Haiti. Além disso, são estudadas aplicações a outros conjuntos
de dados relacionados com os modelos considerados.
Este manuscrito, direcionado a extensões do modelo tobit, está organizado da seguinte forma: o Capı́tulo 1 enfoca resultados básicos de modelos
para dados censurados e truncados. No Capı́tulo 2 apresentamos uma breve
revisão do modelo tobit com sugestões de extensões que podem ser consideradas substituindo-se a distribuição normal por modelos mais robustos e
flexiveis como os modelos potência-normal (Pewsey et al., 2012) e t-Student.
Aplicações a dados reais mostram bom desempenho dos modelos propostos.
O Capı́tulo 3 está dedicado ao modelo tobit com excesso de zeros em que
duas extensões são consideradas. Análise de dados reais são apresentadas
ilustrando o bom desempenho dos modelos estudados. O Capı́tulo 4 discute
modelos α-potência para dados duplamente censurados com ênfase nos casos
(0, 1), com possı́veis excessos de zeros e uns. O Capı́tulo 5 estuda modelos
bimodais censurados. Este texto está direcionado a alunos do último ano
do bacharelado e inı́cio do mestrado em Estatı́stica.
v
vi
Heleno Bolfarine [email protected]
Jorge Bazan [email protected]
São Carlos, SP, janeiro de 2013
Sumário
1 Dados limitados
1.1 Truncamento . . . . . . . . . . . . . . . . . . .
1.2 Censura . . . . . . . . . . . . . . . . . . . . . .
1.3 Resultados básicos sobre truncamento e censura
1.3.1 Distribuição normal truncada . . . . . .
1.3.2 Distribuição normal censurada . . . . .
1.4 Alguns conjuntos de dados . . . . . . . . . . . .
1.4.1 Vacinação no Haiti . . . . . . . . . . . .
1.4.2 Horas trabalhadas por ”donas”de casas
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
2
3
3
4
4
2 O modelo tobit
2.1 O modelo tobit normal . . . . . . . . . . . .
2.2 Extensões robustas do modelo tobit . . . .
2.3 Aplicações . . . . . . . . . . . . . . . . . . .
2.3.1 Aplicação do modelo tobit-normal .
2.4 Aplicação do modelo tobit potência-normal
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
11
12
13
13
.
.
.
.
.
15
15
16
18
22
25
.
.
.
.
27
27
29
29
32
3 O modelo tobit com excesso de zeros
3.1 Modelos com excesso de zeros . . . .
3.2 A distribuição log-α-potência . . . .
3.3 O modelo bernoulli/log-α-potência .
3.4 Aplicação: dados do Haiti . . . . . .
3.5 Aplicação: dados de Mroz . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Modelo α-potência inflacionado de zeros e/ou uns
4.1 Modelos duplamente censurados . . . . . . . . . . .
4.2 Distribuições PN para dados censurados . . . . . . .
4.3 Modelo potência-normal duplamente censurado . . .
4.4 A transformação logarı́tmica . . . . . . . . . . . . .
vii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
viii
SUMÁRIO
4.5
O modelo Bernoulli duplamente censurado com mistura potêncianormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.6 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.7 Matriz de informação observada . . . . . . . . . . . . . . . . . 34
4.8 Modelos censurados para inflação de zeros e uns . . . . . . . 37
4.9 Mistura Bernoulli/LPN . . . . . . . . . . . . . . . . . . . . . 39
4.10 Ilustração com dados reais . . . . . . . . . . . . . . . . . . . . 39
4.11 Testando modelos disjuntos . . . . . . . . . . . . . . . . . . . 40
4.12 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5 Modelos bimodais censurados
5.1 Modelos assimétricos bimodais . . . . . . . . . . . . . . . . .
5.2 Extensões bimodais para modelos simétricos . . . . . . . . . .
5.2.1 Aplicação: Dados de poluição. . . . . . . . . . . . . .
5.3 Modelo flexı́vel normal censurado . . . . . . . . . . . . . . . .
5.3.1 Momentos . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.2 Extensão para localização-escala . . . . . . . . . . . .
5.3.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.4 Matriz de informação . . . . . . . . . . . . . . . . . .
5.4 O modelo bimodal simétrico normal censurado . . . . . . . .
5.4.1 Estimação por máxima verossimilhança . . . . . . . .
5.4.2 Matriz de informação esperada . . . . . . . . . . . . .
5.5 Modelo bimodal normal-assimétrico . . . . . . . . . . . . . .
5.5.1 A função log-verossimilhança . . . . . . . . . . . . . .
5.6 Analizando um conjunto de dados reais. Concentração de HIV.
5.7 Discussão final . . . . . . . . . . . . . . . . . . . . . . . . . .
43
44
44
46
47
48
48
49
50
53
54
55
55
56
57
59
Referências bibliográficas
61
Capı́tulo 1
Dados limitados
A principal causa da ocorrência de dados incompletos é devido a (i) truncamento e (ii) censura.
1.1
Truncamento
Truncamento ocorre quando algumas observações tanto na variável resposta
como indepedentes (covariáveis, regressores) não estão disponı́veis. Por exemplo, a variável resposta (dependente) pode ser renda e somente pessoas
com baixa (propriamente definida) renda são incluı́dadas na pesquisa. Portanto, truncamento ocorre quando a amostra é esolhida somente em parte
da população.
1.2
Censura
Censura ocorre quando dados sobre a variável dependente não estão disponı́veis
para algumas unidades da amostra. Mas para estas unidades, os dados
para a variáveis independentes (regressores) estão disponı́veis. por exemplo, pessoas de todos os nı́veis de renda são incluidas na amostra mas, por
alguma razão, pessoas com alto nı́vel de renda tem a mesma codificada
em R$100.000. Censura pode ser visto como um defeito na amostra - não
havendo censura, amostra seria representativa. Truncamento em geral produz maior perda de informação.
1
2
1.3
DADOS LIMITADOS
1.3
Resultados básicos sobre truncamento e censura
É comum considerar que a variável resposta (Y ) é normalmente distribuı́da
com média µ e variância σ 2 , que denotamos por N (µ, σ 2 ), de tal forma que
E[Y ] = µ
V ar[Y ] = σ 2 .
e
O caso particular em que µ = 0 e σ = 1, ou seja, Z ∼ N (0, 1), temos a
função de densidade de probabilidade (fdp)
1
2
f (z) = φ(z) = √ e−z /2 ,
2π
z ∈ R.
A fdp de Y ∼ N (µ, σ 2 ) segue da tansformação Y = µ + σZ.
A função de distribuição acumulada pode ser escrita como
Φ(y) = P [Y ≤ y] = Φ((y − µ)/σ),
de modo que
P [Y ≥ y] = 1 − Φ((y − µ)/σ).
1.3.1
Distribuição normal truncada
Para truncamento pela esquerda (s.p.g.), com ponto de trunamento ”c”,
temos
f (y|y > c) =
f (y)
,
1 − F (c)
de modo que para Y ∼ N (µ, σ),
f (y|y > c) =
y−µ
1
σ φ( σ )
.
1 − Φ( c−µ
σ )
Assim, a função de verossimilhança para uma amostra de tamanho n da
distribuição normal truncada pode ser escrita como
L(µ, σ) =
n
Y
yi −µ
1
σ φ( σ )
.
1 − Φ( c−µ
σ )
i=1
1.4
ALGUNS CONJUNTOS DE DADOS
3
Temos também
E[y|y > c] = µ + σλ(αc )
e
V ar[y|y > c] = σ 2 [1 − δ(αc )],
onde αc = (c − µ)/σ,
δ(αc ) = λ(αc )[λ(αc ) − αc ]
e
λ(αc ) =
φ(αc )
,
1 − Φ(αc )
esta última sendo conhecida como razão de Mills.
Os resultados para modelos de regressão seguem dos resultados acima
substituindo µ = x0 β.
1.3.2
Distribuição normal censurada
Quando a distribuição é censurada à esquerda no ponto ”c”, observações
com valores menores ou iguais a c são substituidas por c ou seja,
y=
yi∗ , se yi∗ > c
c, se yi∗ ≤ c.
Se uma variável continua Y com fdp f (.), e c é uma constante, então
para variáveis censuradas à esquerda
f (y) = [f (yi)]Ii [F (c)]1−Ii ,
onde
Ii =
1, se yi∗ > c
0, se yi∗ ≤ c,
i = 1, . . . , n. O caso particular do modelo normal censurado segue tomando
f = φ.
1.4
Alguns conjuntos de dados
Alguns conjuntos de dados muito utilizados na literatura são descritos a
seguir.
4
DADOS LIMITADOS
1.4.1
1.4
Vacinação no Haiti
Dados contém informações sobre concentração de anticorpos em um grupo
de 330 crianças de até um ano no Haiti após serem vacinadas contra o
sarampo. As medições das concentrações são feitas por laboratórios com
limite de deteção mı́nimo (LDM) de 0.1 mm/l (ou -2.16 na escala logaritmica). Isto significa que valores de concentrações iguais ou menores que 0.1
são reportadas como sendo 0.1. Temos informação sobre a concentração (Y
- variável resposta) , tipo de vacina (X1 : Edmonton-Zagreb (1) e Schwarz
(0)), dose (X2 : alta (1) e médio (1)) e sexo (X3 : masculino (O) e feminino
(1)). O total de criana̧s no (ou abaixo do) limite de deteção é de 86. Um
resumo dos dados é apresentado na tabela abaixo. Este conjunto de dados
esta disponibilizado em Moulton and Halsey (1995). Da Tabela 1.1. temos
então que a primeira criança tem concentração 0.1, tomou a vacina tipo 0
(Schwarz) com dose média e é do sexo masculino.
Criança
1
2
3
...
316
Tabela 1.1: Dados sobre vacinação no Haiti
Concentração (Y ) Tipo (X1 ) Dose (X2 ) Sexo (X3 )
0.1
0
0
0
0.1.
0
0
0
0.1
0
0
0
...
...
...
...
15.475
1
0
0
Moulton and Halsey (1995) consideram uma distribuição log-normal para
observações acima do LDM, e modelam o excesso de zeros com um modelo
logito, extendendo a proposta de Cragg (1971). Como se depreende do
histograma, a concentração de observações no LDM é bastante alta.
1.4.2
Horas trabalhadas por ”donas”de casas
Este conjunto de dados (Mroz, 1987) foi tomado do estudo da dinâmica de
renda de 1975 com 753 observações das quais 428 correspondem a mulheres
(casadas) com Y horas trabalhadas (não nulas) e as 325 remanescentes, correspondem a mulheres que não trabalharam (Y=0). O conjunto de dados
compreende um total de 19 variáveis das quais consideramos
1.4
ALGUNS CONJUNTOS DE DADOS
5
1. LPF: variável ”dummy”= 1 se esposa trabalhou em 1975; =0, caso
contrário;
2. WHRS: horas trabalhadas pela esposa em 1975;
3. KL6: Número de criança com crianças menores que 6 anos no domicı́lio;
4. K618: Número de crianças com idade entre 6 e 18 anos no domicı́lio;
5. WA: Idade da esposa;
6. WE: Escolaridade da esposa, em anos;
7. WW: Salário da esposa em 1975.
horas
1610
1656
1980
456
1568
2032
1440
1020
...
0
Tabela 1.2: Dados
kids5 kids618
-10.5
-9.2
-12.5
-0.6
-7.5
-8.1
-8.5
-13.3
-11.5
0.0
11.5
-10.3
-5.5
-11.0
11.5
-9.2
...
...
0
3
sobre
age
0.8
-0.2
0.8
-0.2
0.8
-0.2
-0.2
-0.2
...
39
horas trabalhadas
educ nwifeinc exper
-1.4
-0.3
3.4
0.6
-0.3
-5.6
1.6
-0.3
4.4
1.6
-0.3
-4.6
0.6
1.7
-3.6
-1.4
-0.3
22.4
0.6
3.7
0.4
-1.4
-0.3
24.4
...
...
...
9
28.3
12
6
DADOS LIMITADOS
1.4
Capı́tulo 2
O modelo tobit
Neste capı́tulo discutimos alguns resultados básicos sobre o modelo tobit.
Apresentamos inicialmente o modelo tobit normal, a função de verossimilhança e as equações de estimação correspondentes. Mencionamos também
extensões robustas com a substituição da distribuição normal pelos modelos
t-Student e potência-normal.
2.1
O modelo tobit normal
Pesquisadores são frequentemente confrontados com dados para os quais a
variável resposta tem um limite inferior (que pode ser considerado como
zero, sem perda de generalidade) e toma este valor para uma parte considerável das unidades amostrais. Este é o caso, por exemplo, dos dados
sobre horas trabalhadas por donas de casa (Mroz, 1987).
Uma outra maneira é tratar os zeros como observações latentes (não observadas) contı́nuas. Esta idéia é popularizada em Tobin (1956) e o modelo
resultante é chamado modelo tobit.
Formalmente, dada a variável de interesse Y , o modelo tobit pode ser
formulado como
yi =
0, se wi ≤ 0
wi , se wi > 0,
7
8
2.1
O MODELO TOBIT
onde a variável latente é wi = x0i β + i , com i ∼ N (0, σ 2 ), i = 1, . . . , n.
Consequentemente, denotamos as respostas observadas por yi , o valor das k
variáveis explanatórias para a i-ésima observação por xi ∈ Rk , os parâmetros
de regressão por β = (β0 , β1 , . . . , βk )0 e o i-ésimo termo residual por i .
Pode-se escrever o modelo acima como
yio = Ii yi ,
yi = x0i β + i ,
onde Ii = I(yi > 0), com xi = (xi1 , . . . , xik )0 , i = 1, . . . , n.
Com as suposições temos
ind.
yi ∼ N (x0i β, σ 2 ),
i = 1, . . . , n. Note que, sendo yi ∼ N (µi , σ 2 ), temos que
P [yi0 = 0] = P [yi ≤ 0] = 1 − Φ(µi /σ).
Por outro lado, sendo
yio > 0,
temos
d
yio = yi ,
de modo que a função de verossimilhança pode ser escrita como
LN (β, σ 2 ) =
n
Y
1 1
1
[1 − Φ( x0i β)]1−Ii [( φ( (yi − x0i β)]Ii ,
σ
σ σ
i=1
com φ e Φ sendo a fdp e a fda da N(0,1).
Derivando a log-verossimilhança, temos as equações de verossimilhança
σ2 =
1 0
y D(y − Xβ),
n1
X0 (In − D)η = X0 D(y − Xβ),
onde n1 =
Pn
i=1 Ii ,
D = diag(I1 , . . . , In ),
η = (σr(−x1 β 0 /σ), . . . , σr(−x0n β/σ))0 ,
r(z) =
φ(z)
.
Φ(z)
2.1
O MODELO TOBIT NORMAL
9
Como as equações acima são não lineares, métodos numéricos são necessários
para a sua solução. Uma alternativa seria a maximização direta da função
log-verossimilhança, o que pode ser implementado no aplicativo R.
A partir da derivada da função escore (avaliada no estimador de máxima
verossimilhança (EMV)), podemos obter a matriz de informação observada
(MIO). Invertendo a MIO, temos estimativas consistentes para a matriz de
covariâncias assintóticas dos parâmetros do modelo.
Considerando a reparametrização
γ = β/σ,
τ = 1/σ,
pode-se mostrar que as derivadas segundas podem ser escritas como
n
n
i=1
i=1
X
X
∂ 2 log LN
=−
(1 − Ii )r(−ci )(r(−ci ) − ci )xi x0i −
Ii xi x0i ,
0
∂γ∂γ
n
X
∂ 2 log LN
=
Ii xi x0i ,
∂γ∂τ
i=1
n
n1 X 2
∂ 2 log LN
= 2 −
Ii yi ,
0
∂γ∂γ
τ
i=1
onde ci =
x0i γ.
A matriz de informação de Fisher (MIF) pode ser calculada a partir das
derivadas segundas acima usando os seguintes resultados (Arellano-Valle et
al., 2012):
E[Ii ] = P [Yi > 0] = Φ(ci ),
E[Ii Yi ] = E[Ii ]E[Yi |Yi > 0] = (1/τ )(ci Φ(ci ) + φ(ci )),
1
[(1 + ci )Φ(ci ) + c2i φ(ci )].
τ2
Para implementar o enfoque Bayesiano para o modelo tobit normal,
pode-se usar o programa OpenBugs de duas maneiras diferentes. Uma das
maneiras é entrar diretamente no OpenBugs usando
E[Ii Yi2 ] =
dummy[i] ∼ loglik(logLike[i]),
10
2.2
O MODELO TOBIT
onde logLike[i] é o logaritimo da função de verossimilhança.
Uma maneira alternativa é entrar com o modelo de regressão normal
censurado, isto é
yi |β, σ 2 ∼ N T (x0i β, σ 2 , A),
com A = [0, ∞).
Em geral,
Y ∼ T N (x0i β, σ 2 , A)
se
fT N (y|µ, σ 2 , A) = c−1 fN (y|µ, σ 2 )I(y ∈ A),
com
Z
fN (y|µ, σ 2 )dx.
c=
A
A função de log-verossimilhança para o modelo tobit (para T=c) para a
situação onde o erro i segue uma função de distribuição F , pode ser escrita
como
`(θ; Y ) =
X
(1 − Ii ) ln[F (
i
X
c−µ
yi − µ
)] +
)}
Ii {− ln(σ) + ln(f (
σ
σ
i
onde f = F 0 , e
Ii =
1, se yi∗ > c
0, se yi∗ ≤ c,
A distribuição comumente usada com o modelo acima é a distribuição
normal, isto é, X ∼ N (µ, σ 2 ),
F 0 (x) = f (x) = √
1
2πσ 2
e−
(x−µ)2
2σ 2
.
2.2
EXTENSÕES ROBUSTAS DO MODELO TOBIT
2.2
11
Extensões robustas do modelo tobit
Uma distribuição que pode ser empregada no lugar da distribuição normal
é a distribuição t-Student com fdp
Γ( ν+1
(z − µ)2 − ν+1
2 )
) 2 ,
F 0 (z) = f (z) = √
(1
+
νσ 2
νπσΓ( ν2 )
z ∈ R,
onde Γ(.) é a função gamma. A distribuição t-Student vem sendo bastante utilizada na presença de observações extremas (”outliers”) e uma revisão bastante completa de sua mais importantes propriedades aparece em
Arellano-Valle e Bolfarine (1995). Uma versão assimétrica do modelo tStudent é considerada em Gomea et al. (2007). Veja também Arellano-Valle
et al. (2012).
O modelo de regressão t-Student pode ser escrito através da hierarquia
ind
Yi |Vi = vi ∼ N (x0i β, vi−1 σ 2 ),
iid
Vi ∼ Gama(ν/2, ν/2),
i = 1, . . . , n.
Para implementar o enfoque Bayesiano e algoritmo EM, pode-se usar a
verossimilhança completa
n
ν ν ν
Y
1
− 12 vi (yi −x0i β)2 ( 2 ) 2 2 −1 −vi ν2
2σ
√
Lc (θ) =
(
)e
.
. ν vi e
Γ( 2 )
2πσ 2
i=1
Uma outra distribuição que pode ser usada é a distribuição α-potência
(Pewsey et al., 2012). Uma variável aleatória Y segue a distribuição αpotência com parâmetros α, µ, σ, que denotamos por Y ∼ AP (µ, σ, α) se
sua fdp é dada por
f (y|µ, σ, µ) =
1 y−µ
y − µ α−1
f(
){F (
)}
,
σ
σ
σ
onde α ∈ R. Para o caso normal, isto é F = Φ, temos o modelo potência
normal. Usamos a notação Y ∼ P N (µ, σ, α). Este modelo é proposto como
uma alternativa ao modelo ”skew-normal”, com fdp
f (y|λ) = 2φ(y)Φ(λy),
12
2.3
O MODELO TOBIT
que apresenta algumas dificuldades como a singularidade da MIF (Azzalini, 1985). Isto implica, por exemplo, que a distribuição da estatı́stica da
razão de verossimilhanças (ERV) não é assintoticamente distribuı́da com
distribuição χ2 .
Para o modelo potência-normal pode-se mostrar que a matriz de informação de Fisher para θ = (µ, σ, α = 1)0 é dada por


1
0
0.903192
σ2
2
0
−0.595636  .
IF (θ) = 
σ2
0.903197 −0.595636
1
Pode-se verificar que
|IF (θ)| = 0.013688/σ 4 .
Então, para este modelo a matriz de informação de Fisher não é singular
no ponto de simetria. Por outro lado, Azzalini (1985) mostra que o modelo
”skew normal”apresenta matriz de informação de Fisher singular. Isso implica que as condições usuais de regularidade (Bolfarine e Sandoval, 2005)
não estão satisfeitas neste caso.
Para o caso do modelo tobit (com T=c), a log-verossimilhança para o
modelo α-potência pode ser escrita como
X
c−µ
`(θ; Y ) = α
(1 − Ii ) log F
σ
i
X
yi − µ
yi − µ
+
+ (α − 1) ln F
,
Ii log(α) − log(σ) + log f
σ
σ
i
onde
Ii =
2.3
1, se yi > c
0, se yi ≤ c.
Aplicações
Nesta seção consideramos aplicações ao conjunto de dados usando o modelo
tobit e o modelo tobit potência-normal. Os resultados a seguir aparecem
em Martinez et al. (2013).
2.4
APLICAÇÃO DO MODELO TOBIT POTÊNCIA-NORMAL
2.3.1
13
Aplicação do modelo tobit-normal
Vamos ilustrar uma aplicação do modelo tobit-normal para parte dos dados
em Fair (1978). Para uma amostra de 601 homens e mulheres casados pela
primeira vez, temos como variável resposta (Y), o número de casos extraconjugais. Parte das variáveis usadas no estudo foram as seguintes:
Y : número de casos extraconjugais no ano anterior
X1 : anos de casado
X2 : idade
X3 : religosidade (escala de 1 (ateu) a 5 (frequenta regularmente)
X4 : avaliação casamento (escala de 1 (muito infeliz) a 5 (muito feliz)
Dos 601 entrevistados, 451 não tiveram casos. Temos, portanto, dados
com censura em zero.
Tabela 2.1: Estatı́sticas descritivas para dados de Fair
n
Média Variância Assimetria curtose
601
7.45
17.11
0.1553
3.7
Note que existe indicação de assimetria e curtose acima do esperado
para a distribuição normal. Temos também as estimativas: β̂0 = 9.08 (2.66),
β̂1 = −0.16 (0.077), β̂2 = 0.54 (0.13), β̂3 = 1.72 (0.41), β̂4 = −2.26 (0.41),
σ = 8.27 (0.55). Além disso, Log − lik = −706.4. Portanto as variáveis
influenciam significativamente no número de casos extraconjugais.
2.4
Aplicação do modelo tobit potência-normal
Para os dados de Fair (1978), usando o modelo tobit potência-normal (tobit/PN) temos α̂ = 10.26 (0.56), com Log − lik = −581.22, indicando forte
evidência de que o modelo tobit/PN apresenta melhor ajuste para os dados
14
O MODELO TOBIT
2.4
de Fair. Não existem disferenças significativas nas estimativas dos outros
parâmetros.
Capı́tulo 3
O modelo tobit com excesso
de zeros
Neste capı́tulo consideramos modelos para a situação onde temos ajuste do
modelo tobit com excesso de zeros. Basicamente, consideramos os modelos propostos em Moulton and Halsey (1995) e Cragg (1971). Discutimos
estimação por métodos clássicos e Bayesianos.
3.1
Modelos com excesso de zeros
Existem situações reais onde a quantidade de zeros é maior que o esperado com o modelo tobit-normal. Uma possibilidade é considerar que parte
dos zeros observados vem de uma massa pontual concentrada no limite de
detecção mı́nimo (LDM) não explicada pela distribuição correspondente à
resposta não nula.
O modelo tobit com excesso de zeros pode ser implementado considerando
o enfoque em Moulton e Halsey (1995) que especifica para a resposta observada que
g(yi ) = [qi + (1 − qi )F (T )](1 − Ii ) + (1 − qi )f (yi )Ii ,
onde
15
16
O MODELO TOBIT COM EXCESSO DE ZEROS
Ii =
3.2
1, se yi > T
0, se yi ≤ T.
A situação onde o ponto de truncamento é T = 0 é imediata. Covariadas
podem ser associadas com qi através de uma função de distribuição (ligação)
H, ou seja,
qi = H(x0i β).
Para o caso em que qi = q, isto é, a probabilidade de excesso de zeros é
constante para as unidades amostrais, a função log-verossimilhança para
uma amostra y = (y1 , . . . , yn )0 e vetor de parâmetros θ, pode ser escrita
como
l(θ|y) ∝
n
X
{(Ij − 1) log(q + (1 − q)F (yj )) + Ij log(1 − q) + log(f (yj ))}.
j=1
Uma alternativa ao modelo de Moulton and Halsey (1995) é a alternativa
proposta por Cragg (1971) onde é especificado que
g(yi ) = qi (1 − Ii ) + (1 − qi )f (yi )Ii ,
i = 1, . . . , n, ou seja, os zeros observados são oriundos da massa pontual.
Note que o caso particular do modelo tobit padrão segue como um caso
particular dos modelos acima tomando qi = 0, i = 1, . . . , n.
3.2
A distribuição log-α-potência
Conforme visto no capı́tulo anterior, o modelo tobit (potência) assimétrico
(TPA) pode ser definido considerando F como sendo a fda da distribuição
α-potência com fdp dada por
fF (z) = αf (x)F (z)α−1 .
No caso particular em que F 0 = f = φ, temos, como visto anteriormente,
fN (z) = αφ(z)Φα−1 (z).
A distribuição do tempo de vida de um equipamento e a concentração de
um elemento quı́mico em amostras de solo (água ou sangue) é tipicamente
distribuı́da de acordo com a distribuição log-normal. Em muitas dessas
3.2
A DISTRIBUIÇÃO LOG-α-POTÊNCIA
17
situações, contudo, a assimetria da distribuição pode estar acima do esperado com a distribuição log-normal.
O modelo log-”skew-normal”é estudado em Gomez et al. (2011) do qual o
modelo log-normal é um caso especial. Uma extensão do modelo log-normal
para o modelo log-”skew-normal”é considerado em Chai e Bailey (2008).
Contudo uma das dificuldades do modelo log − skew − normal (log-normal
assimétrico) é o fato de sua matriz de informação de Fisher ser singular. A
distribuição da estatı́stica da razão de verossimilhança para testar normalidade, por exemplo, não segue distribuição χ2 .
Como uma alternativa a estas situações, consideramos o modelo logpotência-normal (”log-power-normal”) (LPN), que contém como caso particular a distribuição log-normal. Uma vantagem deste modelo é que ele
contém um parâmetro de forma adicional, que o faz mais flexı́vel em termos
de assimetria e curtose para ajustar dados experimentais como os considerados nestas notas.
Dizemos que uma variável y, com suporte em R+ , segue uma distribuição
log-α-potência univariada com parâmetro α, que denotamos por Y ∼ LAP (α),
se a variável transformada X = log(Y ) ∼ AP (α).
A fdp de uma variavel Y ∼ LAP (α) pode ser escrita como
g(y; α) =
α
f (log(y)) {F (log(y))}α−1 ,
y
y ∈ R+ ,
(3.1)
onde F é uma função de distribuição absolutamente contı́nua com função
de densidade f = F 0 . Nos referimos a esta distribuição como log-α-potência
padrão.
No caso especial em que f = φ(·) e F = Φ(·), as funções de densidade e
de distribuição da normal padrão (N (0, 1)), respectivamente, a distribuição
log-potência-normal segue, com fdp dada por
g(y; α) =
α
φ(log(y)) {Φ(log(y))}α−1 ,
y
y ∈ R+ ,
(3.2)
que denotamos por Y ∼ LP N (α). Sua função de distribuição pode ser
escrita como
FY (y; α) = {Φ(log(y))}α ,
y ∈ R+ .
(3.3)
O método de inversão pode ser usado para gerar valores aleatórios da
variável com distribuição LP N (α). Isto é, se U ∼ U (0, 1), a distribuição
18
−1
3.3
1/α
da variável aleatória Y = eΦ (U ) é (log-potência-normal) LPN com
parâmetro α.
Seja X ∼ P N (µ, σ, α), onde µ ∈ R é um parâmetro de localização e
σ ∈ R+ é um parâmetro de escala. Então, a transformação X = log(Y )
leva ao modelo localização-escala log-potência-normal. Usamos a notação
Y ∼ LP N (µ, σ, α).
No caso particular em que α = 1, isto é,
log(Y ) − µ
∼ N (0, 1),
σ
pode-se mostrar que (depois de algumas manipulações algébricas que) a
matriz de informação de Fisher para θ = (µ, σ, α)0 é dada por


1/σ 2
0
a01 /σ
2/σ 2
a11 /σ  ,
I(θ) =  0
a01 /σ
a11 /σ
1
Z=
onde akj = E{z k (φ(z)/Φ(z))j } for k = 0, 1, 2, 3 e j = 1, 2, que coincide
com a matriz de informação de Fisher para a distribuição potência-normal
(Pewsey et al., 2012).
Assim, usando procedimentos numéricos, pode-se mostrar que
|IF (θ)| = [2 − (a211 + 2a201 )]/σ 4 6= 0,
de modo que a matriz de informação de Fisher é não singular para α = 1.0. A
matriz de informação completa também foi derivada. Então, para n grande,
A
θ̂ −→ N3 (θ, IF (θ)−1 ),
implicando na consistência e normalidade assintótica do EMV de θ, cuja
variância assintótica d́ada por IF (θ)−1 .
Como consequência desta propriedade importante, podemos testar (com
o modelo LPN) log-normalidade (isto é, H0 : LP N = LN ), usando propriedades para grandes amostras da estatı́stica da RV que segue distribuição
χ2 . Este não é o caso, por exemplo da distribuição LSN, para a qual a MIF
é singular. A escolha de um modelo conveniente pode ser feito através dos
valores de assimetria e curtose.
3.3
O modelo bernoulli/log-α-potência
Uma extensão importante do modelo log-potência-normal para a situação
de excesso de zeros é a extensão proposta em Cragg (1971), usualmente
3.3
O MODELO BERNOULLI/LOG-α-POTÊNCIA
19
chamado modelo de duas partes (two-part model), que estabelece uma maneira
de relaxar a restrição do truncamento no modelo tobit. Sob o modelo Cragg
(1971) a fdp de yi pode ser formalmente escrita como
g(yi ) = pi Ii + (1 − pi )f (yi )(1 − Ii ),
(3.4)
onde pi é a probabilidade determinando a contribuição relativa da massa
pontual na distribuição da mixtura, f é uma fdp com suporte positivo e,
Ii =
0, se yi > 0
1, se yi ≤ 0.
Neste modelo os dois componentes são determinados por processos estocásticos diferentes de modo que os componentes positivos vem da fdp f .
Por outro lado um zero vem da massa pontual. Este modelo não considera contudo um limite de deteção mı́nimo e que parte das observações está
abaixo deste limite.
Moulton e Halsey (1995) generalizam o modelo em duas partes permitindo que parte das resposta limites resultam de censura intervalar de f .
Isto significa que um zero pode vir da massa pontual ou pode ser um valor
de f não definido precisamente em (0, T ), com T constante. Formalmente,
g(yi ) = [pi + (1 − pi )F (T )]Ii + (1 − pi )f (yi )(1 − Ii ),
(3.5)
onde F é a fda de f.
Então, uma grande quantidade de modelos são produzidos variando a
densidade básica f e a função de ligação correspondente a pi . Diversos
modelos hı́bridos podem ser considerados como os modelos probit/potêncianormal, logit/log-normal, logit/log-gamma e probit/log-skew-normal. Estes
modelos foram considerados em aplicações práticas em biologia, economia,
agricultura e muitas outras àreas (Chai and Bailey, 2008). Note que se
pi = 0, i = 1, . . . , n, o modelo de Moulton e Halsey (1995) reduz-se ao modelo tobit usual (Tobin, 1958).
No caso da medição de concentração de anticorpos por diferentes laboratórios, e considerando yi a resposta para a unidade i, é tipicamente de
interesse a situação onde a distribuição de log(yi ) é função dos parâmetros
β0 , ..., βp que estão relacionados através do modelo linear
log(yi ) = β0 + β1 x1i + ... + βp xpi + i ,
20
3.3
onde i ∼ P N (0, σ, α) e x1 , ..., xp são constantes fixas e conhecidas.
Sob o modelo PN,
Z
E[i ] = ασ
1
Φ−1 (z)z α−1 dz 6= 0,
0
de modo que o valor esperado do termo do erro não é nulo como é o caso
sob normalidade.
Consequentemente, E[yi ] 6= x0i β e teremos que corrigir o parâmetro intercepto, isto é, β0∗ = β0 + µ , onde µ = E[i ]. Então,
E[yi ] = x0i β ∗ , onde β ∗ = (β0∗ , β1 , ..., βp )0 .
Consideramos agora extensões do modelo Bernoulli/LN para as situações
dos modelos logito/LPN e probito/LPN, juntamente com covariadas em
cada passo do modelo. Este desenvolvimento está apresentado em Martinez
et al. (2012a).
Inicialmente, suponhamos que todas as observações vem do modelo LPN
com parâmetros de localização e escala µ e σ, respectivamente, mas sem
covariadas. A contribuição para a verossimilhança de observações não censuradas, isto é, para y > T, pode ser representada como
α
φ [(log(y) − µ)/σ] {Φ[(log(y) − µ)/σ]}α−1 .
σy
Covariadas são introduzidas para ambas as partes do modelo, ou seja,
para as variáveis D e Y , de modo que considerando a ligação logito para a
variável D temos que
logit{P [D = 1|x(1) ]} = x0(1) β(1) ,
onde x(1) é o vetor de covariáveis de dimensão p, associados com o vetor de
parâmetros β(1) . Então, temos que
τi = 1 − pi =
exp(x0(1)i β (1) )
1 + exp(x0(1)i β (1) )
,
i = 1, . . . , n.
3.3
O MODELO BERNOULLI/LOG-α-POTÊNCIA
21
Correspondendo a parte LPN temos o vetor de covariáveis x(2) de dimensão q, possivelmente diferente de x(1) , onde temos o vetor de parâmetros
β(2) , para os quais
log(yi ) ∼ P N (x0(2)i β(2) , σ, α),
yi > 0.
Chamamos atenção para o fato que diferentes distribuições podem levar a
modelos de regressão mais informativos (Chai and Bailey, 2008).
O logaritimo da função de verossimilhança para θ = (β 0(1) β 0(2) , σ, α)0
dados X = (x1 , x2 ) e Y = (y1 , . . . , yn ), desprezando constantes não informativas, pode ser escrita como
X
`(θ; X, Y ) =
Ii {log[1 + exp(x0(1)i β (1) ){Φ(zT i )}α ]
i
− log[1 + exp(x0(1)i β (1) )]}
X
+
(1 − Ii ){log(α) − log(σyi )
i
h
i 1
+x0(1)i β (1) − log 1 + exp(x0(1)i β (1) ) − zi2 + (α − 1) log(Φ(zi ))},
2
0
log(T )−x(2)i β (2)
log(yi )−x0(2)i β (2)
onde
zT i =
e
z
=
.
i
σ
σ
Usando as equações acima, estimadores de máxima verossimilhança para
os parâmetros do modelo podem ser calculados. Como a MIF para o modelo LPN é não singular, inferência em grandes amostras para o modelo
Bernoulli/LPN podem ser implementadas para os EMV sob condições de
regularidades usuais onde o EMV é assintoticamente normal com média
θ e matriz de covariâncias igual a inversa da MIF, indicando otimalidade
assintótica. Pode-se considerar extensões do modelo acima como a presença
de interações.
Considerando agora o modelo probit para a variável de Bernoulli D,
temos que
pi = P [yi = 0] = Φ(−x0(1)i β (1) ) = 1 − Φ(x0(1)i β (1) )
e
log(yi ) ∼ AP N (x0(2)i β(2) , σ, α),
yi > 0.
22
3.4
O logaritimo da função de verossimilhança (função log-verossimilhança),
a menos de constantes, pode ser escrito como
`(θ; X, Y ) =
X
io
n h
Ii log 1 + Φ(x0(1)i β (1) ){{Φ(zT i )}α − 1} ,
i
+
X
(1−Ii ) log(α) − log(η) + log
Φ(x0(1)i β (1) )
i
onde
zT i =
log(T ) − x0(2)i β (2)
1 2
− zi + (α − 1) log(Φ(zi )) ,
2
log(yi ) − x0(2)i β (2)
e zi =
.
σ
σ
A função escore é obtida derivando-se a função de log-verossimilhança.
A função log-verossimilhança do modelo tobit (com T=c) considerando
que a distribuição do erro segue distribuição α-potência pode ser escrita
como
X
c−µ
`(θ; Y ) = α
(1 − Ii ) log F
+
σ
i
X yi − ξ
yi − µ
+ (α − 1) ln F
Ii log(α) − log(σ) + log f
σ
σ
i
onde
Ii =
1, se yi > c
0, se yi ≤ c.
Casos particulares importantes seguem tomando f = φ e f = tν (µ, σ 2 ).
3.4
Aplicação: dados do Haiti
Consideramos a ligação logito e a distribuição log-normal para parte positiva (incluindo respostas limitadas). Os dados são descritos em Moulton
and Halsey (1995).
Tabela 1 sintetiza resultados de estimação para os dados de vacinação
no Haiti sob diferentes modelos considerando ou não mistura e censura.
3.4
APLICAÇÃO: DADOS DO HAITI
23
Variáveis:
EZ (Tipo de vacina, 0: Schwarz, 1: Edmonston-Zagreb);
HI (dose, 0: médio, 1: alto);
FEM (sexo; 0: masculino, 1: feminino);
INT: Termo constante.
A tabela a seguir apresenta análises classica (EMV) e Bayesiana para os
dados acima, considerado o modelo Bernoulli/log-normal. As estimativas
das variâncias para o enfoque clássico são apresentadas em Moulton and
Halsey (1995) de onde se conclui que das variáveis consideradas no estudo,
TIPO e SEXO são significantes.
24
3.4
Tabela 3.1: Estimativas clássicas e Bayesianas
Modelo
Método
INT
A
B
C
D
E
F
G
Clas
Bay
Clas
Bay
Clas
Bay
Clas
Bay
Clas
Bay
Clas
Bay
Clas
Bay
1.198
1.227
1.178
1.226
0.732
0.813
0.765
0.910
0.648
0.678
Componente Bernoulli
EZ
HI
FEM
0.843
0.950
0.932
1.112
0.830
0.893
0.431
0.445
0.433
0.439
0.426
0.440
-0.166
-0.244
-0.281
-0.425
Componente log-normal Component
INT
EZ
HI
FEM
-0.979
-0.981
-1.287
0.340
0.182
0.115
-0.932
0.203
0.097
0.114
-0.273
-0.285
-0.327
-0.109
-0.037
0.290
-0.361
-0.083
-0.025
0.277
-0.274
-0.305
-0.304
-0.192
-0.063
0.329
-0.353
-0.199
-0.055
0.339
-0.404
0.279
-0.421
0.266
Tabela 3.2: Ajustes MV e Bayesianos
Modelo −2 × loglik
DIC
pD
A
1115.830
136.600 1.89
B
1113.180
120.560 5.17
C
1079.320
101.800 2.7
D
1075.620
104.500 5.79
E
1068.720
95.560 5.08
F
1063.360
94.470 9.07
G
1065.810
93.840 5.42
Estimadores dos parâmetros para ajustes da mistura logito/LN com um
e dois componentes considerando inferência clássica e Bayesiana para os
dados do Haiti.
Comparações para dados do Haiti considerando inferência clássica e
Bayesiana. Note que existe discordância entre os resultados clássicos e
Bayesianos quanto ao ajuste do modelo. Para o enfoque Bayesiano, o melhor
modelo é o modelo G (mais completo), enquanto que para o enfoque clássico
o modelo que melhor se ajusta é o modelo F.
A tabela a seguir apresenta resultados do ajuste Bayesiano dos modelos log-normal e log-potência-normal incluindo as estimativas dos desvios
padrões. Note que o enfoque Bayesiano tanto para os modelos log-normal
como log-potência-normal indicam significância das variáveis TIPO e SEXO.
Para o modelo completo, Moulton e Halsey (1995) obtiveram os seguintes
estimativas (Estimativa/DP):
3.5
APLICAÇÃO: DADOS DE MROZ
25
Tabela 3.3: Ajustes log-potência-normal e log-normal
Model
parameters
α
β(1)0
β(1)1
β(1)2
β(1)3
β(2)0
β(2)1
β(2)2
β(2)3
σ
τ
Dbar
DIC
EAIC
EBIC
mean
0.91
1.15
0.44
-0.42
-0.35
-0.20
-0.06
0.35
1.18
0.73
Log-Normal
MC error
P5
0.009
0.058
0.009
0.009
0.004
0.005
0.003
0.003
0.003
0.003
7687.00
7693.00
7705.00
7739.19
0.42
0.50
-0.06
-1.02
-0.66
-0.48
-0.34
0.07
1.06
0.57
P95
1.45
1.92
0.99
0.13
-0.07
0.08
0.22
0.63
1.32
0.89
mean
16.69
0.72
0.86
0.38
-0.26
-3.43
-0.14
0.01
0.25
1.87
0.30
Log-Potência-Normal
MC error
P5
P95
0.600
3.55
38.38
0.009
0.30
1.18
0.011
0.39
1.35
0.008
-0.07
0.85
0.009
-0.74
0.20
0.047
-4.94
-1.70
0.005
-0.37
0.10
0.005
-0.21
0.26
0.006
0.01
0.50
0.009
1.48
2.21
0.004
0.21
0.46
7681
7687
7701
7739.0
Componente Bernoulli: β̂(1)0 = .77(2.77), β̂(1)1 = .93(2.82), β̂(1)2 =
.43(1.48), β̂(1)3 = −.28(2.82)
Componente log-normal: β̂(2)0 = −.31(−1.89), β̂(2)1 = −.19(−1.20),
β̂(2)2 = −.06(−.40), β̂(2)3 = −.33(2.06).
Temos, portanto que os resultados clássicos e Bayesianos concordam
quanto a significância dos parâmetros, havendo contudo diferença no melhor
modelo ajustado. O enfoque Bayesiano recomenda o modelo G.
3.5
Aplicação: dados de Mroz
Consideramos os dados de Mroz (1987), que analisa as informações de 753
mulheres casadas com idade entre 30 e 60 anos, com interesse na relação
entre a oferta de trabalho e outras covariáveis, no ano de 1975. Para obter
os dados, basta entrar no R com
> library(sampleSelection)
> data(Mroz87)
26
3.5
As variáveis utilizadas no artigo são: Horas de trabalho (variável resposta), salário que não é devido ao trabalho da mulher, anos de educação,
anos de experiência de trabalho, idade da mulher, número de crianças menores
que 6 anos, nḿero de crianças entre 6 e 18 anos.
Tabela 3.4:
Bernoulli
Estimadores Bayesianos para parâmetros do componente
Parâmetro
β1(1)
β1(2)
β1(3)
β1(4)
β1(5)
β1(6)
β1(7)
β1(8)
Média
-0.05
-0.54
5.10
-3.80
6.50
11.90
1.54
9.3
D.P.
9.761
9.68
7.753
6.283
5.866
5.417
11.62
6.069
Q2.5%
-19.31
-19.74
-12.41
-9.98
-8.25
0.023
-17.59
-0.61
Q97.5%
19.27
18.46
19.73
16.94
14.48
18.94
22.21
20.6
Note que H0 : β1(6) 6= 0 é significante, de modo que existe indicação de
que existe excesso de zeros nos dados de Mroz (1976).
Tabela 3.5:
contı́nuo
Estimadores Bayesianos para parâmetros do componente
Parâmetro
β2(1)
β2(2)
β2(3)
β2(4)
β2(5)
β2(6)
β2(7)
β2(8)
Média
0.8324
-5.715
3.111
-8.74
23.23
-6.308
38.18
0.7323
D.P.
9.921
9.885
9.462
3.444
8.355
4.128
7.592
0.3108
Q2.5%
-19.0
-25.39
-15.05
-15.58
6.486
-14.13
21.87
0.168
Q97.5%
20.02
13.8
21.65
-1.978
39.15
1.763
52.86
1.389
Temos também que σ̂ = 1223, 0. Note que váriáveis significantes para a
parte contı́nua são 1, 4, 5 e 6. Para a parte discreta (pontual), temos que
a variável X5 é significativa ao nı́vel de 5%, indicando que existe excesso de
zeros nos dados de Mroz.
Capı́tulo 4
Modelo α-potência
inflacionado de zeros e/ou
uns
Neste capı́tulo consideramos distribuições potência para modelar proporções
ou taxas com inflação de zeros e/ou uns como uma alternativa ao modelo de regressão beta. Os modelos considerados são misturas de processos
de Bernoulli para explicar o excesso de zeros e/ou uns e uma distribuição
potência-normal limitada para explicar a resposta contı́nua. Consideramos
os enfoques de máxima verossimilhança e Bayesiano para a estimação dos
parâmetros. Matrizes de informação observadas (MIO) e esperadas (MIF)
são derivadas, ilustrando aspectos interessantes destes modelos.
Dada a flexibilidade da distribuição potência-normal, pode-se mostrar
em um cenário prático que o modelo tobit modificado pode ser mais preciso
que o modelo de regressão beta.
4.1
Modelos duplamente censurados
Modelos estatı́sticos usados para explicar variáveis respostas no intervalo
(0, 1) tem recebido considerável atenção na literatura estatı́stica recente.
Entre outros, mencionamos, Ferrari e Cribari-Neto (2004), Brascum et al.
(2007) e Bayes et al. (2012). Extensões deste modelos para situações com
respostas no intervalos [0, 1], [0, 1) e (0, 1] são estudadas em Ospina e Ferrari
27
28
MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS
4.2
(2010). Variáveis deste tipo incluem, por exemplo, a proporção de mortes
causadas pelo cigarro, a proporção de impostos gastos na educação, a proporção de renda familiar gasta em alimetação, etc.
A situação da variável resposta com inflação de zeros e uns é relatado em
um conjunto de dados sobre a porcentagem de mortes não explicadas nos
municı́pios brasileiros durante o ano 2000 entre crianças com menos de uma
ano de idade. Das 5561 observações coletadas, tem-se um total de 3367 zeros
e 174 uns, que certamente deve ser incorporado no estudo. Para tratar deste
cenário mais complexo uma extensão do modelo de regressão beta usual foi
considerado in Ospina (2008) e Ospina e Ferrari (2010), levando a resultados
bastante satisfatórios.
Neste capı́tulo, propomos um enfoque alternativo ao descrito acima.
Ele é uma extensão do modelo tobit censurado (Tobin, 1956) no intervalo [0, 1], para incorporar inflação de zeros e/ou uns. É considerado que
parte dos zeros e/ou uns vem de uma variável Bernoulli ligando possı́veis
excessos de zero e/ou uns com um grupo de covariáveis que podem influenciar na probabilidade de de ocorrência de tais valores. Por outro lado,
as resposta contı́nuas podem ser modeladas usando a distribuição potêncianormal (Gupta e Gupta, 2008, Pewsey et al., 2012), que são mais flexı́veis
que a distribuição normal em termos de assimetria e curtose com EMVs bem
comportados para os quais as condições de regularidade estão satisfeitas.
Além disso, a extensão do modelo tobit que propomos consiste em substituir a fda da distribuição normal pela fda da distribuição potência-normal
que é quase tão simples de se trabalhar quanto o modelo normal usual. Uma
alternativa é usar a distribuição normal assimétrica que apresenta as dificuldades já mencionadas anteriormente e além disso tem fda não tão simples
de ser trabalhada.
Definimos inicialmente o modelo tobit-potência-normal (TPN) duplamente censurado no intervalo (0, 1), extendendo o modelo tobit usual para
situações duplamente censuradas. A seguir o modelo é extendido para
situações com excesso de zeros e/ou uns. Situações com dados reais são analisadas. Introduzimos o modelo Bernoulli/tobit-potência-normal (Bernoulli/TPN),
onde se trata o problema de estimação do ponto de vista Bayesiano.
4.3
4.2
DISTRIBUIÇÕES PN PARA DADOS CENSURADOS
29
Distribuições PN para dados censurados
Em uma situação duplamente censurada, a variável resposta é restrita a
tomar valores em um intervalo, e eventualmente pode tomar os valores limites para parte significante dos dados. Os valores limites são usualmente
chamados de limites de deteção mı́nimo (LDm) e máximo (LDM), respectivamente. Temos então o modelo tobit duplamente censurado.
O modelo tobit usual pode não ser adequado em situações onde os valores
observados para a parte contı́nua dos dados apresentam assimetria e curtose
maior do que é esperado para o modelo normal. Em tais situações, o modelo
potência-normal pode ser uma alternativa viável.
4.3
Modelo potência-normal duplamente censurado
Suponhamos que y ∗ ∼ P N (ξ, η; α). Considere uma amostra de tamanho n,
(y1∗ , y2∗ , ..., yn∗ ) e que somente parte dos valores de y ∗ está entre constantes
c0 e c2 . Para valores de y ∗ ≤ c0 somente o valor c0 é relatado enquanto
que para valores de y ∗ ≥ c2 , somente o valor c2 é relatado. Podemos então
escrever os dados observados como

∗

c0 , se yi ≤ c0 ,
yi = yi∗ , se c0 < yi∗ < c2 ,


c2 , se yi∗ ≥ c2 ,
i = 1, 2, ..., n.
A amostra resultante é dita ser uma amostra PN duplamente censurada.
Para observações yi = c0 , temos que
P [yi = c0 ] = P [yi∗ ≤ c0 ] = {Φ (z0 )}α ,
onde z0 = (c0 − µ)/σ; com yi∗ = c2 temos
P [yi = c2 ] = P [yi∗ ≥ c2 ] = 1 − {Φ (z2 )}α ,
onde z2 = (c2 − µ)/σ. Para respostas contı́nuas, isto é, c0 < yi∗ < c2 , temos
que yi ∼ P N (µ, σ, α). Denotamos esta variável por P N DC(µ, σ, α).
Particularmente, para α = 1, o modelo se reduz ao modelo tobit duplamente censurado.
30
4.3
P P
P
Denotando por 0 , 1 and 2 , as somas correspondendo a y ∗ ≤ c0 ,
c0 < yi∗ < c2 e y ∗ ≥ c2 respectivamente, então, o logaritimo da função de
verossimilhança correspondente a uma amostra de tamanho n para estimar
θ = (µ, σ, α)0 pode ser escrita como
X
X
`(θ; Y) = α
log [Φ (z0 )] +
log [1 − {Φ (z2 )}α ]
0
+
X
2
{log(α) − log(σ) + log (φ (z1i )) + (α − 1) log (Φ (z1i ))} ,
1
onde zi = (yi − µ)/σ, i = 1, . . . , n.
Portanto, os elementos da função escore são dados por
U (ξ) = −
1X
1X
1X
r(z0 ) +
{z1i − (α − 1)w1i } +
h(z2 ),
σ
σ
σ
0
1
2
1X
1X
1 X
2
r(z0 )z0 +
−1 + z1i
− (α − 1)z1i w1i +
z2 h(z2 ),
σ
σ
σ
0
1
2
X
X1
X
U (α) =
log [Φ (z0 )]+
+ log (Φ (z1i )) −α−1
log(Φ(z2 ))w2−1 h(z2 ),
α
U (η) = −
0
1
2
onde
z0 =
c0 − µ
,
σ
z2 =
c2 − µ
,
σ
z1i =
yi − µ
,
σ
w2 =
φ(z2 )
,
Φ(z2 )
w1i =
φ(z1i )
,
Φ(z1i )
e h e r são as funções de risco, r(t) = φ(t)/Φ(t), e risco inverso h(t) =
φ/(1 − Φ(t)).
Pode-se mostrar que as elementos da matriz de informação observada
são dados por
jµµ =
1 X
r(z0 ){z0 + α−1 r(z0 )}
η2
0
1 X
2
+ 2
{1 + (α − 1)[z1i w1i + w1i
]}
σ
1
1 X
+ 2
{h(z2 )[−z2 + (α − 1)w2 + h(z2 )]},
σ
2
4.4
MODELO POTÊNCIA-NORMAL DUPLAMENTE CENSURADO
jσµ =
31
1 X
r(z0 ){−1 + z02 + α−1 z0 r(z0 )}
η2
0
1 X
2
2
{2z1i + (α − 1)[−w1i + z1i
w1i + z1i w1i
]}
+ 2
σ
1
1 X
{h(z2 )[1 − z22 + (α − 1)z2 w2 + z2 h(z2 )]},
+ 2
σ
2
jσσ =
1 X
r(z0 ){−2z0 + α−1 z02 r(z0 ) + z03 r(z0 )}
σ2
0
1 X
+ 2
{z2 h(z2 )[2 − z22 + (α − 1)z2 w2 + z2 h(z2 )]}
σ
2
1 X
2
2 2
3
{−1 + 3z1i
+ (α − 1)[−2z1i w1i + z1i
w1i + z1i
w1i ]},
σ2
1
1X
1X
1 X
r(z0 ) +
w1i −
{h(z2 )[α−1
ασ
σ
σ
jαµ =
0
1
2
+ log(Φ(z2 ))[1 + w2 ]]},
jασ =
1 X
z0 r(z0 )
ασ
0
1X
1X
+
z1i w1i −
{z2 h(z2 )[α−1 + log(Φ(z2 ))[1 + w2 ]]},
σ
σ
1
jαα =
2
X
1 X
−2
1
+
α
{w2−2 log(Φ(z2 ))h(z2 )[αw2 + h(z)]}.
2
α
1
2
Baseado na função escore, os elementos da matriz de informação observada
dos parâmetros do modelo podem ser estimados usando algoritmos iterativos.
A MIF segue tomando-se esperanças dos componentes acima (multiplicados
por n−1 ), é importantante no sentido de que a distribuição assintótica do
estimador de máxima verossimilança é normal com variância assintótica que
é o o inverso da MIF. Temos também que a MIF é não singular.
32
4.4
4.5
A transformação logarı́tmica
No caso de variáveis respostas tomando somente valores positivos, podemos
considerar a transformação Z = log(Y ), onde Z ∼ N (µ, σ 2 ).
Considerando agora que Z ∼ P N (µ, σ, α), nos obtemos o modelo logpotência-normal com parâmetros µ, σ e α, denotado por Y ∼ LP N (µ, σ, α).
A fdp para este modelo pode ser escrita como: ϕLP N (y; µ, σ, α) = ϕΦ (log(y); µ, σ, α)/y,
y > 0. A fda correspondente é dada por FY (y; α) = {Φ((log(y) − µ)/σ)}α .
Se os dados censurados em [0, ∞), com alta assimetria positiva podemos
substituir y por y + 1 dado que o logaritmo de c0 = 0 não existe.
Para dados duplamente censurados usamos a notação LP N DC(µ, σ, α).
A função log-verossimilhança para o modelo LPNDC com c0 = 0 é dado
por
`LP N (θ; Y) = −
X
log(y + 1) + `(θ; log(Y + 1)),
1
onde `(.) é a log-verossimilhança para o modelo PNDC, com z0 = −µ/σ,
z1i = (log(yi + 1) − µ)/σ e z2 = (log(c2 + 1) − µ)/σ. A função escore e
a matriz de informação observadas podem ser obtidas das correspondentes
para o modelo PNDC, substituindo h(z2 ) por hLP N (z2 ) = h(log(c2 + 1))/y e
r(z0 ) por rLP N (z0 ) = r(z0 )/y onde h(.) e r(.) são as funções de risco e risco
inverso do modelo PN.
4.5
O modelo Bernoulli duplamente censurado com
mistura potência-normal
Para as variáveis resposta distribuı́das no intervalo [0, 1] (c0 = 0 e c2 = 1)
o modelo tobit duplamente censurado pode não ser ótimo porque o excesso
de zeros e uns pode requerer modelos assimétricos capazes de captar tais
caracteristicas especiais.
Introduzimos então o modelo de mistura entre as variáveis resposta discreta e contı́nuas que segue o modelo potência-normal.
Consideramos que a massa pontual no zero pode ser modelada por uma
variável de Bernoulli com parâmetro γ, isto é, Ber(y; γ), e que a resposta
no intervalo (0, 1) pode ser modelada por uma distribuição α-potência (ou
log-α-potência) com parâmetro θ = (µ, σ, α)0 . A fdp correspondente para
este modelo pode ser escrita como
4.6
ESTIMAÇÃO


p(1 − γ),
,µ,σ,α)
g(yi ) = (1 − p) {F (zϕ2F)}(yαi−{F
(z0 )}α ,


pγ,
33
se yi = 0,
se 0 < yi < 1,
se yi = 1,
onde 0 < p, γ < 1, σ, α > 0 e µ ∈ R.
Temos também que se ϕF (yi , µ, σ, α) denota a fdp da distribuição potêncianormal. Como consequência da construção acima pode-se notar que P [y =
0] = p(1 − γ) e P [y = 1] = pγ. A fda de yi pode ser escrita como


p(1 − γ),
{F (zi )}α −{F (z0 )}α
FY (yi ; µ, σ, α) = p(1 − γ) + (1 − p) {F
(z2 )}α −{F (z0 )}α ,


1,
4.6
se yi ≤ 0,
se 0 < yi < 1,
se yi ≥ 1.
Estimação
Consideramos inicialmente que F = Φ, a fda da distribuição normal, de
modo que temos uma mistura entre a variável aleatória de Bernoulli com
parâmetro γ e a distribuição P N (µ, σ, α)). Denotamos este modelo por
M BP N (p, γ, µ, σ, α). Logo, para uma amostra de tamanho n,
= (y1 , . . . , yn )T
Py
n
da distribução M BPP
N (p, γ, µ, σ, α), denotamos por n0 = i=1 I0 (y), n1 =
P
n
n
I
(y)
e
n
=
01
i=1 I0,1 (y), onde IA (y) é a função indicadora do coni=1 1
junto A.
Assim, a função log-verossimilhança para θ = (p, γ, µ, σ, α) dado Y pode
ser escrita como:
`(θ; Y) = n01 log(p) + (n − n01 ) log(1 − p) + n1 log(γ) + n0 log(1 − γ)
X
{log(α) − log(σ) + log(φ(zi )) + (α − 1) log(Φ(zi ))
1
− log({Φ(z2 )}α − {Φ(z0 )}α )},
onde, zi = (yi − µ)/σ, i = 1, . . . , n.
Portanto, usando um enfoque similar ao de Pewsey et al. (2012), a
primeira derivada com respeito a p, γ, µ, σ e α pode ser escrita como
34
4.7
U (p) =
n01 n − n01
−
,
p
1−p
U (γ) =
U (ξ) = (n − n01 )
(
U (η) = −(n − n01 )
n1
n0
−
,
γ
1−γ
z − (α − 1)w
ϕΦ (c2 , θ) − ϕΦ (c0 , θ)
+
η
{Φ(z2 )}α − {Φ(z0 )}α
,
1 − z 2 + (α − 1)zw z2 ϕΦ (c2 , θ) − z0 ϕΦ (c0 , θ)
−
η
{Φ(z2 )}α − {Φ(z0 )}α
)
{Φ(z2 )}α log(Φ(z2 )) − {Φ(z0 )}α log(Φ(z0 ))
1
U (α) = (n − n01 ) u + −
α
{Φ(z2 )}α − {Φ(z0 )}α
,
,
onde wi = φ(zi )/Φ(zi ) e ui = log{Φ(zi )}, i = 1, . . . , n.
Então, o EMV para o parâmetro θ = (µ, σ, α)0 , é obtido resolvendo o sistema
de equações que seguem de igualar os escores acima a zero.
1
Então, obtemos as soluções para p̂ = nn01 , γ̂ = nn01
, correspondendo,
respectiveamente, a proporções de zeros e uns na subamostra de zeros e uns.
Segue que p̂ é um estimador não viciado para p. Para θ1 = (µ, σ, α)0 , o
sistema de equações não tem solução analı́tica, sendo portanto resolvida por
métodos numéricos.
4.7
Matriz de informação observada
Calculando a derivada segunda da log-verossimilhança obtemos os elementos
jpp , jγp , jγγ , jξξ , jξη , . . . , jαα , dados em Martinez et al. (2012b).
Pode-se mostrar que a matriz de informação esperada (MF) para θ =
(p, γ, µ, σ, α)0 é dada por



I(θ) = (1 − p) 


1
p(1−p)2
0
0
0
0
0
p
γ(1−γ)(1−p)
0
0
0
0
0
0
0
0
0
iµµ
iµσ
iµα
iµσ
iσσ
iσα
iµα
iσα
iαα ,






4.7
MATRIZ DE INFORMAÇÃO OBSERVADA
35
onde os seus elementos são dados em Martinez et al. (2012b).
Deste resultado segue que os parâmetros (p, γ)0 e (µ, σ, α)0 são ortogonais, de modo que a MIF é ortogonal em blocos, e pode ser escrita como
n
o
p
1
I(θ) = Diag{Ip,γ , Iµ,σ,α }, onde Ip,γ = Diag p(1−p)
, γ(1−γ)
.
Portanto, para n grande,
A
θ̂ → N5 (θ, Σθθ ),
implicando que θ̂ é consistente e assintoticamenete normal com matriz de co−1 , I −1 } = Diag{Σ , Σ
variâncias assintóticas Σθθ = I(θ)−1 = Diag{Ip,γ
p,γ
µ,σ,α }.
µ,σ,α
Note que parâmetros nos blocos podem ser estimados separadamente.
A aproximação normal N5 (θ, Σ(θ)) pode ser usada para construir intervalos de cofiança paraqθr , com coeficiente de confiança γ = 1 − α que são
dados por θˆr ∓ z1−α/2 σ̂(θˆr ), com os EMV e quantis da normal correspondentes.
Considerando a reparametrização δ1 = pγ e δ0 = pδ1 podemos escrever
o modelo como

se yi = 0,

δ0 ,
ϕΦ (yi ,ξ,η,α)
g(yi ) = (1 − δ0 − δ1 ) {Φ(z2 )}α −{Φ(z0 )}α , se 0 < yi < 1,


δ1 ,
se yi = 1,
onde 0 < δ0 = P [yi = 0], δ1 = prob[yi = 1] < 1 e 0 < δ0 + δ1 < 1.
A função log-verossimilhança para θ = (δ0 , δ1 , µ, σ, α)0 dado y é dada
por
`(θ; Y) = n0 log(δ0 ) + n1 log(δ1 ) + (n − n01 ) log(1 − δ0 − δ1 )
X
+
{log(α) − log(σ) + log (φ (zi ))
1
+(α − 1) log (Φ (zi )) − log({Φ(z2 )}α − {Φ(z0 )}α )},
os elementos do escore são:
36
4.7
U (δ0 ) =
n0
n − n01
−
,
δ0
1 − δ0 − δ1
U (δ1 ) =
n − n01
n1
−
,
δ1
1 − δ0 − δ1
U (µ) = (n − n01 )
(
U (σ) = −(n − n01 )
z − (α − 1)w
ϕΦ (c2 , θ) − ϕΦ (c0 , θ)
+
η
{Φ(z2 )}α − {Φ(z0 )}α
,
1 − z 2 + (α − 1)zw z2 ϕΦ (c2 , θ) − z0 ϕΦ (c0 , θ)
−
σ
{Φ(z2 )}α − {Φ(z0 )}α
)
1
U (α) = (n − n01 ) u + −
α
{Φ(z2 )}α − {Φ(z0 )}α
,
.
Das primeiras duas equações, obtem-se δ̂0 = n0 /n, proporção de zeros e
δ̂1 = n1 /n, a proporções de uns na amostra. Parâmetros restantes devem
ser estimados numericamente.
A MIF pode ser escrita como
I(θ) = Diag{Iδ0 ,δ1 , Iµ,σ,α },
onde os elementos de Iδ0 ,δ1 são dados por
iδ0 δ0 =
1 − δ1
,
δ0 (1 − δ0 − δ1 )
iδ1 δ0 =
1
1 − δ0 − δ1
e
iδ1 δ1 =
1 − δ0
,
δ1 (1 − δ0 − δ1 )
com Iµ,σ,α computado para o modelo M BP N (p, γ, µ, σ, α). Também temos
ortogonalidade.
4.8
37
MODELOS CENSURADOS PARA INFLAÇÃO DE ZEROS E UNS
Para n grande,
A
θ̂ → N5 (θ, Σθθ ),
com θ̂ consistente e assintoticamente normal, com
−1
Σθθ = I(θ)−1 = Diag{Iδ−1
, Iµ,σ,α
} = Diag{Σδ0 ,δ1 , Σµ,σ,α }
0 ,δ1
a varıância do EMV em grandes amostras.
4.8
Modelos censurados para inflação de zeros e
uns
Casos particulares são inflação de uns e zeros separadamente. Para o caso
de inflação de zeros, temos
(
δ0 ,
se yi = 0,
g(yi ) =
ϕΦ (yi ,µ,σ,α)
(1 − δ0 ) {Φ(z2 )}α −{Φ(z0 )}α , se 0 < yi ≤ 1.
onde 0 < δ0 = P [yi = 0] e 0 < δ0 < 1.
A função log-verossimilhança para θ = (δ0 , µ, σ, α)0 dado y é dada por
`(θ; Y) = n0 log(δ0 ) + (n − n0 ) log(1 − δ0 )
X
+
{log(α) − log(σ) + log (φ (zi ))
1
+(α − 1) log (Φ (zi )) − log({Φ(z2 )}α − {Φ(z0 )}α )},
de modo que os elementos da função escore são dados por
U (δ0 ) =
U (µ) = (n − n0 )
(
U (σ) = −(n − n0 )
n0 n − n0
−
,
δ0
1 − δ0
z − (α − 1)w
ϕΦ (c2 , θ) − ϕΦ (c0 , θ)
+
σ
{Φ(z2 )}α − {Φ(z0 )}α
,
1 − z 2 + (α − 1)zw z2 ϕΦ (c2 , θ) − z0 ϕΦ (c0 , θ)
−
σ
{Φ(z2 )}α − {Φ(z0 )}α
)
,
1
U (α) = (n − n0 ) u + −
.
α
{Φ(z2 )}α − {Φ(z0 )}α
38
4.9
Da primeira equação, obtemos o estimator δ̂0 = n0 /n, a proporção de zeros na amostra. Os parâmetros remanecentes requerem metódos numéricos.
Para o caso de inflação de uns, temos
(
δ1 ,
se yi = 1,
g(yi ) =
ϕΦ (yi ,µ,σ,α)
(1 − δ1 ) {Φ(z2 )}α −{Φ(z0 )}α , se 0 ≤ yi < 1,
onde 0 < δ1 = P [yi = 1] e 0 < δ1 < 1, levando a log-verossimilhança para
θ = (δ1 , µ, σ, α)0 dado y pode ser escrita como:
`(θ; Y) = n1 log(δ1 ) + (n − n1 ) log(1 − δ1 )
X
+
{log(α) − log(σ) + log(φ(zi ))
1
+(α − 1) log(Φ(zi )) − log({Φ(z2 )}α − {Φ(z0 )}α )},
de modo que os elementos da função escore são dados por
U (δ1 ) =
U (µ) = (n − n1 )
(
U (σ) = −(n − n1 )
n1 n − n1
−
,
δ1
1 − δ1
z − (α − 1)w
ϕΦ (c2 , θ) − ϕΦ (c0 , θ)
+
σ
{Φ(z2 )}α − {Φ(z0 )}α
,
1 − z 2 + (α − 1)zw z2 ϕΦ (c2 , θ) − z0 ϕΦ (c0 , θ)
−
σ
{Φ(z2 )}α − {Φ(z0 )}α
)
1
U (α) = (n − n1 ) u + −
α
{Φ(z2 )}α − {Φ(z0 )}α
,
.
Da primeira equação, obtemos o estimador δ̂1 = n1 /n, a proporção de
uns na amostra. Os outros parâmetros são estimados numericamente.
4.10
4.9
MISTURA BERNOULLI/LPN
39
Mistura Bernoulli/LPN
Considerando agora ϕF (yi , µ, σ, α)0 como a fdp do modelo LPN, o modelo
Bernoulli/LPN é obtido, que denotamos por M BLP N (p, γ, µ, σ, α). O modelo é importante na modelagem de dados com mais assimetria e curtose que
os correspondentes da distribuição normal.
A função de log-verossimilhança do modelo reparametrizado pode ser
escrita como
`M BLP N (θ; Y) = −
X
log(yi ) + `(θ; log(Y )),
1
onde `(.) é a função de log-verossimilhança do modelo MBPN e log(Y ) =
(log(y1 ), ..., log(yn ))0 . A função escore são como dadas para o modelo MBPN
model, onde zi = (log(yi ) − µ)/σ, i = 1, . . . , n.
4.10
Ilustração com dados reais
Nesta seção illustramos a utilidade das distribuições LPNDC e MBLPN para
o ajuste de dados reais. O conjunto de dados que analizamos corresponde
a proporção de mortes de crianças de menos de um ano por causa não esclarecidas nos 5561 municı́pios Brasileiros. Dados estão disponı́veis para
”download”no site http:www.datasus.gov.br. O conjunto de dados contém
3367 zeros (mortes esclarecidas) e 174 uns (mortes não esclarecidas).
Ospina (2008), desenvolve um modelo baseado na regressão beta para
modelar este tipo de dados com inflação de zeros e/ou uns. Como em Ospina (2008) assumimos a mistura de uma variável de Bernoulli para modelar
a parte discreta com a regressão beta para a parte contı́nua (entre zero e
um), que é denotada por BIZU (δ0 , δ1 , ξ, η). Para estimar os parâmetros do
modelo BIZU, a rotina GAMLSS no programa R pode ser usado. Nós desenvolvemos programas no R para ajustar modelos LPNDC e para o modelo
reparameterizado MBLPN.
Dada presença de ortogonalidade entre os subconjuntos dos parâmetros
para os modelos mistos, estimadores de máxima verossimilhaça para os
parâmetros δ0 e δ1 para os modelos BIZU e MBLPN coincidem e são dados por δ̂0 = 0.6055(0.0066) e δ̂1 = 0.0313(0.0023). Para a parte contı́nua,
40
4.11
os EMV sob o modelo BIZU são dados por µ̂ = 0.2974(0.0043) e σ̂ =
0.4562(0.0050). Por outro lado, para o modelo MBLPN os EMVs são dados
por µ̂ = −0.6779(0.0419), σ̂ = 0.4289(0.00001) e α̂ = 29.8227(1.1484).
Para o caso do modelo LPNDC, temos os seguintes EMVs µ̂ = −0.8137(0.1065),
η̂ = 0.5834(0.0259) e α̂ = 5.8809(1.4062). A porcentagem de zeros e uns na
amostra são 0.6055 e 0.0313, respectivamente, e da função de distribuição
acumulada obtem-se 0.6063 e 0.0284, respectivamente, revelando bom ajuste
do modelo.
EMVs para os parâmetros no modelo NDC são dados por µ̂ = −0.1556(0.0104)
e σ̂ = 0.5420(0.0099), enquanto que para o modelo LNDC as EMVs são dados por µ̂ = −0.1375(0.0068) e σ̂ = 0.3239(0.0057). Por outro lado, para
o modelo PNDC são dados por ξˆ = −0.9895(0.1447), η̂ = 0.7394(0.0335) e
α̂ = 5.2200(1.3687).
4.11
Testando modelos disjuntos
Para comparar os modelos MBLPN e LPNDC contra o modelo BIZU, um
enfoque para modelos disjuntos deve ser utilizado. Sendo Fθ e Gγ dois
modelos disjuntos, e f (yi |xi , θ) e g(yi |xi , β) as densidades correspondentes,
a estatı́stica da razão de verossimilhanças pode ser escrita como
LR(θ̂, β̂) ≡ `f (θ̂) − `g (β̂) =
n
X
log
i=1
f (yi |xi , θ̂)
g(yi |xi , β̂)
,
que não segue distribuição quiquadrado em grandes amostras.
Consideramos a proposta de Vuong (1989) baseada na divergência de
Kullback-Leibler (Kullback e Leibler, 1951). Baseando-se na distância entre
cada modelo e o verdadeiro processo gerando os dados, ou seja, h0 (yi , Xi ),
temos a estatı́stica
1 LR(θ̂, β̂)
TLR,N N = √
,
ω̂ 2
n
onde
n
1X
f (yi |xi , θ̂)
ω̂ =
log
n
g(yi |xi , β̂)
i=1
2
!2
n
−
1X
f (yi |xi , θ̂)
log
n
g(yi |xi , β̂)
i=1
!!2
4.12
CONCLUSÕES
é um estimator para a variância de
41
√1 LR(θ̂, β̂).
n
Mostra-se que, quando n → ∞,
d
TLR,N N → N (0, 1)
sob
f (yi |xi , θ)
H0 : E log
= 0,
g(yi |xi , β)
isto é, os modelos são equivalentes. Ao nı́vel de 5%, sendo z0.025 o valor
crı́tico, rejeitamos a equivalência se TLR,N N > z0.025 , (ou se TLR,N N <
−z0.025 ).
Para os dados em estudo, sendo Fθ a fda do modelo LPNDC e Gβ , do
modelo BIZU, o enfoque de Vuong leva ao valor observado TLR,N N = 21.8608
que é maior que o valor crı́tico z0.025 = 1.96 de modo que BIZU é o melhor
dos dois modelos.
De maneira similar, comparando os modelos MBLPN e BIZU, temos
que TLR,N N = −19.4777, favorecendo o modelo MBLPN levando então a
conclusão de que o modelo MBPLN produz melhor ajuste para os dados em
questão.
4.12
Conclusões
Discutimos uma alternativa para a regressão beta para a situação inflacionada de zeros e uns. O enfoque é baseado em uma extensão do modelo tobit com excesso de zeros que está desenvolvida em Moulton e Halsey
(1995). Parâmetros são estimados por MV e a matriz de informação observada (Hessiana) é usada para estimar variâncias assintóticas. Aplicação
a dados reais indica melhor desempenho do modelo proposto MBPLN, superando o modelo BIZU.
42
4.12
Capı́tulo 5
Modelos bimodais
censurados
Em estudos antiretrovirais de HIV, a concentração viral tem limite de deteção
(mı́nimo) podendo ser 20 ou de 50 copias por mililı́tro. O HIV-1 RNA
tem tipicamente dois valores modais correspondendo as concentrações virais
ótimas e subotimas, respectivamente. Os modelos podem ser vistos como extensões diretas do modelo tobit censurado adequados para o ajuste de dados
unimodais e bimodais simétricos e assimétricos. Assim, os modelos estendem o modelo tobit usual para situações bimodais simétricas e assimétricas.
EMV é implementada e MIF é derivada para tais modelos. Applicações a dados reais são implementadas ilustrando a performance bastante satisfatória
dos modelos considerados.
O problema da concentração de HIV RNA em amostras de sangue (escala
log10 ) de pacientes com HIV apresenta limite de deteção mı́nimo como no
problema da vacinação no Haiti; para o teste Roche Amplicor este limite é
da 50 copias/ml.
Este capı́tulo está direcionado para uma extensão do modelo tobit para
modelos simétricos e assimétricos bimodais. No estudo de Li et al. (2006),
conclui-se que a distribuição do HIV RNA (log10 ) é bimodal, a qual consideram ser uma mistura de duas distribuições normais, refletindo respostas
diferentes para terapias antiretrovirais (HAART). Como trabalhar com misturas de distribuições apresenta dificuldades (falta de identificabilidade, por
exemplo) (Marin et al., 2005), consideramos um caminho alternativo que
segue da extensão dos modelos normais-assimétricos e potência-normal. Faze43
44
5.2
MODELOS BIMODAIS CENSURADOS
mos uso de MV para estimação dos parâmetros. Julgamos ser factı́vel o uso
de inferência Bayesiana.
Seção 6.2 apresenta revisão básica de modelos bimodais simétricos e
assimétricos. A Seção 6.3 é direcionada a uma extensão do modelo normal usual para dados censurados (modelos tipo tobit) podendo incorporar
situações uni e bimodais. Estimação é considerada por MV e por métodos
Bayesianos. Seção 6.6 trata de uma aplicação a um conjunto de dados de
uma clı́nica na Colômbia.
5.1
Modelos assimétricos bimodais
Como visto anteriormente, Azzalini (1985) considera a seguinte representação
geral para uma distribuição assimétrica:
ϕ(z; λ) = 2f (z)G(λz),
z, λ ∈ R,
onde f é uma fdp simétrica em torno de zero e G é fda simétrica e absolutamente continua e λ é o parâmetro de assimetria. Mais resultados podem
ser vistos em Azzalini (1986), Henze (1986), Chiogna (1997) e Pewsey (2000).
Em particular, se f = φ e G = Φ, a fdp e fda da N(0,1), obtemos
ϕ(z; λ) = 2φ(z){Φ(λz)},
z ∈ R,
que denotamos por Z ∼ SN (λ).
5.2
Extensões bimodais para modelos simétricos
Uma modificação para tornar o modelo normal assimétrico bimodal, aparece
em Kim (2005),
f (z; λ) = cλ φ(z)Φ(λ|z|),
z ∈ R,
onde cλ é a constante de normalização, que não é simples de ser obtida.
Kim (2005) mostra que este modelo produz densidades simétricas. Uma
versão assimétrica do modelo de Kim aparece em Gomez et al. (2009), que
considera
f (z; λ) = cλ φ(z)Φ(λ|z|)Φ(βz),
z ∈ R,
5.2
EXTENSÕES BIMODAIS PARA MODELOS SIMÉTRICOS
45
onde cλ é a constante de normalização. Dada a dificuldade de se trabalhar
com o modelo acima devido a dificuldade de ser tarbalhar com a constante
de normalização, Martinez et al. (2012b) propõe uma modificação bimodal
(simétrica) no modelo potência-normal (PN) (Pewsey et al., 2012), considerando
f (z|α) = αcα φ(z){Φ(|z|)}α−1 ,
α > 0, com
2α−1
.
2α − 1
Extensão para o caso locação-escala segue fazendo X = ψ + ηZ.
Note que neste caso a constante de normalização é bastante simples.
A matriz de informação de Fisher para localização-escala é dada por


1/η 2
0
a01 /η

2/η 2
a11 /η
IF = 
2
(1 + 2(log2) .
cα =
Pode-se mostrar que
|IF | = 2.808/η 4 .
Para tornar o modelo bimodal assimétrico usamos o enfoque em Gomez
et al. (2009), que leva a fdp (Martinez et al., 2012b)
f (z|α, β) = 2αcα φ(z){Φ(|z|)}α−1 Φ(βz),
α > 0, z ∈ R, with
cα =
2α−1
.
2α − 1
A extensão locação-escala segue tomando X = ψ + ηZ. Maximização da
verossimilhança deve ser feita numericamente.
A matriz de informação de Fisher para o modelo de locação-escala é dada
por
q


1/η 2
0


2/η 2
IF = 

2
π /η
0
2/π
0
a01 /η


a11 /η


0
2
(1 + 2(log2) )
Pode-se mostra que
|IF | = −0.2999/η 4 6= 0.
46
5.2
Pode-se testar normalidade, i.e., H0 : α = 1.0, β = 0, usando a estatistica
da razão de verossimilhnaça.
5.2.1
Aplicação: Dados de poluição.
Apresentamos a seguir o ajuste dos modelos acima a um conjunto de dados
reais relacionados com (Y :) poluição nos EUA. O conjunto de dados é
apresentado a seguir.
67,54.7,7.0,48.5,14,17.2,20.7,13,43.4,40.2,38.9,54.5,59.8,48.3,
22.9,11.5,34.4,35.1,38.7,30.8,30.6,43.1,56.8,40.8,41.8,42.5,31.0,31.7,
30.2,25.9,49.2,37,35.9,15,30.2,7.2,36.2,45.5,7.8,33.4,36.1,40.2,
42.7,42.5,16.2,39,35,37,31.4,37.6,39.9,36.2,42.8,46.4,24.7,49.1,
46,35.9,7.8,48.2,15.2,32.5,44.7,42.2,38.8,17.4,40.8,29.1,14.6,59.2
Pode-se mostrar que ȳ = 34.9 e s2y = 187.8. Ajustando a normal
N (34.9; 187.80), nota-se que não é bom o ajuste deste modelos aos dados.
Nota-se também a partir do histograma que os dados apresentam bimodalidade, de modo que um modelo assimétrico apresentaria uma juste melhor
aos dados acima.
Ajustamos então no WinBugs o modelo
f (x|µ, σ, α, beta) ∝ 2αcα φ(z){Φ(|z|)}α−1 Φ(βz),
α > 0, z ∈ R, com z = (x − µ)/sigma).
Temos então a notação (µ, σ, α, β) = (mu, sig, lb, beta), com o código
z[i] < −(y[i] − mu)/sig
logLike[i] < −(−log(sig)) + log(lb) + (lb − 1) ∗ log(2)
−log(pow(2, lb) − 1) − (pow(z[i], 2)/2) + (lb − 1) ∗ log(phi(abs(y[i])))
+log(phi(beta ∗ z[i]))
que apresenta as estimativas
µ̂ = 22,
σ̂ = 14,
α̂ = 4.5,
β̂ = 1.0.
5.3
MODELO FLEXÍVEL NORMAL CENSURADO
47
Figura 5.1: Densidade estimada e histograma dos dados.
Veja os gráficos da fda acima para os valores estimados sobre o histograma dos dados. Existe indicação de melhor ajuste do modelo bimodal.
5.3
Modelo flexı́vel normal censurado
Nesta seção estendemos o modelo tobit usual para a situação normal bimodal. Tomando λ = 0 em Gomez et al. (2009), obtemos a fdp
f (y; λ) = cδ φ(|y| + δ),
onde δ é um número real e cδ = (2(1 − Φ(δ)))−1 é a constante de normalização. De maneira similar ao modelo acima, este model é bimodal para δ
menor que zero. Denominamos este modelo normal flexı́vel e denotamos por
F N (δ).
Considere agora que y ∗ denota a distribuição F N (δ) e que (y1∗ , y2∗ , ..., yn∗ ) é
uma amostra de uma variável aleatória onde somente valores y ∗ maiores que
a constante c são observados. Para valores y ∗ ≤ c somente o valor c é registrado. Deste modo, os valores observados são dados por
∗
yi , se yi∗ > c
yi =
c, se yi∗ ≤ c,
48
5.3
i = 1, 2, ..., n.
A amostra resultante é censurada à esquerda. Neste caso dizemos que a
variável aleatória Y tem distribuição censurada normal flexı́vel e denotamos
por CN F (δ). A distribuição desta variável aleatória é bimodal para valores
de δ menores que zero e unimodal para valores de δ maiores que zero. Para
δ = 0 temos o modelo normal usual.
5.3.1
Momentos
Os momentos de Z ∼ CF N (δ) são funções dos momentos da distribuição
normal, e são dados por
Z
µr (a) =
∞
z r φ(z)dz.
a
O r-ésimo momento da variável aleatória Z ∼ CF N (δ) são dados por
r
E(Z ) = µr = cδ
r X
r
k=0
k
(−δ)r−k µk (c + δ).
Para c = 0, segue que a esperança e variância da variável aleatória Z são
dadas por
µ = cδ [φ(δ) − δ(1 − Φ(δ))]
5.3.2
e
σ 2 = µ2 − µ2 = c2δ [2(1 − φ(δ))2 − φ2 (δ)].
Extensão para localização-escala
Para o modelo normal com média µ e variância σ 2 , dizemos que a variável X
segue a distribuição flexı́vel normal de localização-escala se sua fda é dada
por
x − µ
cδ
f (x; λ) = φ +δ ,
x ∈ R,
σ
σ com µ > 0 e σ parâmetros de localização e escala. Assim, definindo
yi =
xi , se xi > c
c, se xi ≤ c,
5.3
49
obtemos a distribuição normal flexı́vel, que denotamos por N CF (µ, σ, δ).
Também, o r-ésimo momento da variável Y ∼ CN F (µ, σ, δ) é dado por:
r
E[Y ] = µr = cδ
r X
r
k
k=0
onde µr (a, b) =
5.3.3
Rb
a
δ
r−k
µ + σδ
r−k
µk −
, −δ + (−1) µk (δ) ,
σ
z r φ(z)dz.
Estimação
P
P
Denotamos por 0 a soma para as observações censuradas e 1 a soma para
as observações não censuradas. Assim, para observações com yi = 0 temos
que
µ + σδ
P [yi = 0] = P [xi ≤ 0] = cδ 1 − Φ
σ
e para yi > 0, a distribuição de yi é igual a distribuição de xi , isto é
yi ∼ N F (µ, σ, δ).
Para uma amostra de n unidades, y1 , y2 , ..., yn , a função de log-verossimilhança
para θ = (µ, σ, δ)0 é dada por
X
µ + σδ
`(θ; X) =
log cδ 1 − Φ
σ
0
X
+
[log(cδ ) − log(σ) + log(φ(|zi | + δ))] ,
1
yi −µ
σ ,
onde zi =
i = 1, ..., n.
Temos então o escore
φ
U (µ) = −
µ+σδ
σ
δX
n0
1 X yi − µ
+
sgn(yi − µ),
−
σ 1 − Φ µ+σδ
σ
σ
σ
σ
φ
µ+σδ
σ
1
1
n0 µ
n1
1 X yi − µ 2 δ X yi − µ −
U (σ) =
+
+
σ ,
σ 1 − Φ µ+σδ
σ
σ
σ
σ
σ
1
1
50
5.3
φ
U (δ) = −n0
µ+σδ
σ
1−Φ
µ+σδ
σ
+
X yi − µ nφ(δ)
−
σ − n1 δ,
1 − Φ(δ)
1
onde n0 e n1 como acima denotam o número de observações censuradas e
não censuradas, respectivamente. Igualando escore a zero obtem-se sistema
de equaç oes (com solução iterativa) que leva aos EMV. A função ”optim”do
R pode ser empregada.
5.3.4
Matriz de informação
Nesta subseção apresentamos as matrizes de informação esperadas e observadas para o modelo N F C(µ, σ, δ). Iniciamos com a matriz Hessiana,
a saber, a segunda derivada da função log-verossimilhança com respeito
aos parâmetros do modelo (multiplicada por (-1)), para as quais usamos a
notação jµµ , jηµ , jδµ jηη , jδσ e jδδ , levando as seguintes expressões:


µ+σδ
µ+σδ
φ
φ
σ
σ
n1 n0
µ + σδ
−
 ,
jµµ = 2 + 2
+
µ+σδ
σ
σ 1 − Φ µ+σδ
σ
1−Φ
σ
jηµ =
σ
µ+σδ
φ( µ+σδ
n0 µ φ( σ ) 2
n0 µ µ + σδ
σ )
−
]
(
(
)
−
1)
[
σ2 σ
σ
1 − Φ( µ+σδ ) σ 2 σ 1 − Φ( µ+σδ )
σ
+
σ
2 X yi − µ
σ2
σ
1
δ
− σ2
+
jηη
X
sgn(yi − µ),
1
2

µ+σδ
φ µ+σδ
φ
σ
σ
n0 µ
n µ
µ µ + σδ
+ 02 

= 2 1−
σ
σ
σ
σ σ 1 − Φ µ+σδ
1 − Φ µ+σδ
σ
σ
n1
3 X yi − µ 2 2δ X yi − µ + 2
− 2+ 2
σ ,
σ
σ
σ
σ
1
1
5.3

jδµ = −
φ
µ+σδ
σ

φ
µ+σδ
σ
n0  µ + σδ
1X

+
sgn(yi − µ),
−
µ+σδ
σ
σ
σ
1 − Φ µ+σδ
1
−
Φ
1
σ
σ

jδσ
51
φ
µ+σδ
σ

φ
µ+σδ
σ
n0 µ  µ + σδ
1 X yi − µ 
−
=
−
σ ,
µ+σδ
σ
σ
σ
1 − Φ µ+σδ
1
−
Φ
1
σ
σ

jδδ = −n0 
φ
µ+σδ
σ

φ
µ+σδ
σ
µ + σδ

−
µ+σδ
σ
1 − Φ µ+σδ
1
−
Φ
σ
σ
+n δ −
φ(δ)
1 − Φ(δ)
φ(δ)
+ n1 .
1 − Φ(δ)
Para obter a matriz de informação observada avaliamos os elementos da
Hessiana acima nos EMVs. Para obter MIF calculamos os valores esperados
dos elementos da Hessiana acima, usando a notação iµµ , iηµ , iδµ iηη , iδσ e
iδδ , conforme pode ser visto em Martinez et al. (2012b).
iθr θp = n
−1
∂ 2 `(θ; x)
E −
∂θr ∂θp
, r, p = 1, 2, 3,
com θ1 = µ, θ2 = σ e θ3 = δ com:
iµµ


µ+σδ
φ
σ
1
µ + σδ
cδ
µ + σδ  µ + σδ
 ,
= 2 1 − cδ 1 − Φ
+ 2φ
−
+
σ
σ
σ
σ
σ
1 − Φ µ+σδ
σ

 

µ+σδ
φ
σ
cδ
µ + σδ  µ  µ + σδ
δcδ
µ + σδ


= 2φ
−
−1 − 2 1−Φ
σ
σ
σ
σ
σ
σ
1 − Φ µ+σδ
σ
2cδ
µ + σδ
µ + σδ
3
1
+ 2 φ
+ φ(δ) + δ Φ
+ Φ(δ) −
−√
,
σ
σ
σ
2
2π
iηµ
52
iηη =
iδµ


φ
µ+σδ
σ

µcδ
1
µ + σδ 
µ
µ + σδ
 − 2 +
φ
1 + −
+
2
µ+σδ
σ
σ
σ
σ
σ
1−Φ
σ
µ + σδ
cδ
2
2
−2δφ(δ)
+
(1
+
2δ
)
1
−
Φ
−
4δ
(1
−
Φ(δ))
+
σ2
σ
cδ
µ − σδ
µ + σδ
µ + σδ
2
3
+ 2δ φ
+ 3(1 + δ ) 1 − 2Φ(δ) + Φ
,
σ2
σ
σ
σ
cδ
= φ
σ
µ + σδ
σ

φ
µ+σδ
σ

c
− µ + σδ +
 + δ
µ+σδ
σ
σ
1−Φ
σ

φ
φ
µ + σδ
1−Φ
,
σ

δc
µ
+
σδ
cδ µ
δ
 −
φ
−
1−Φ
=
σ
σ
σ
σ
σ
1 − Φ µ+σδ
σ
cδ
µ + σδ
+
2δ (1 − Φ(δ)) − 2φ(δ) + φ
,
σ
σ
iδσ
5.4

µ+σδ
σ
µ+σδ
σ

φ(δ)
φ(δ)
 +
−
+
δ−
σ
σ
1 − Φ(δ)
1 − Φ(δ)
1 − Φ µ+σδ
σ
µ + σδ
+ 1 − cδ 1 − Φ
.
σ
iδδ = cδ φ
Mostramos que a MIF acima não é singular, de modo que o resultado
seguinte segue das condições de regularidade usuais.
Teorema 6.1. Se θ̂ é o EMV de θ, então
A
θ̂ → N3 (θ, IF (θ)−1 ),
de modo que a matriz de covariâncias assintóticas do EMV θ̂ é a matriz
inversa da MIF I(θ) a qual denotamos por Σθ = I(θ)−1 .
Segue do teorema que podemos testar normalidade (H0 : δ = 0) usando
a estatı́stica da razão de verossimilhanças. Tal resultado não vale, por exemplo, para o modelo em Arnold et al. (2009) para o qual a MIF é singular.
5.4
O MODELO BIMODAL SIMÉTRICO NORMAL CENSURADO
5.4
53
O modelo bimodal simétrico normal censurado
O modelo proposto por Kim (2005),
f (z; λ) = cλ φ(z)Φ(λ|z|),
onde λ é um número real,
cλ = 2π/(π + 2arctan(λ))
é a constante de normalização, é uma alternativa viável para o ajuste de
dados bimodais simétricos, com λ > 0. Usamos a notação T N (λ).
Pode-se estender o modelo para a situação onde parte das observações
são censuradas, considerando Z ∼ T N (λ), onde
yi =
zi , se zi > c
c, se zi ≤ c,
que denotamos por CT N (λ). Assim, para λ > 0 temos o modelo bimodal
simétrico.
A fdp para a variavel Y, truncada a direita, é dada por
f (y|y > c) =
2cλ φ(y)Φ(λ|y|)
,
1 + cλ [Φ(c) − 0.5 + π −1 arctan(λ) − 2T (c, λ)]
onde T (., λ) é a função de Owen (1956).
Os momentos da variável aleatória Y podem ser obtidos a partir dos
momentos da variável aleatória com densidade acima, levando aos seguintes
momentos marginais:
cλ
λ
√
E[Y ] = µ = √
+1 ,
2 2π
1 + λ2
1
1
λ
1
2
√
E[Y ] = cλ
+
arctan λ +
4 2π
2π 1 + λ2
e
cλ
3λ + 2λ3
E[Y 3 ] = √
.
2+
(1 + λ2 )3/2
2 2π
54
5.4
Temos também
4
E[Y ] = cλ
3
3
1 λ(2λ2 + 5)
.
+
arctan λ +
4 2π
2π (1 + λ2 )2
Temos então que a variância da variável Y é dada por
cλ
((π + 2 arctan λ)2
4π(π + 2 arctan λ)
2
2λ + 1
4λ
(π + arctan λ) − π
).
+√
1 + λ2
1 + λ2
σ2 =
5.4.1
Estimação por máxima verossimilhança
A extensão localização-escala para Kim (2005) pode ser escrita como
x − µ
cλ
x−µ
f (x; µ, σ, λ) = φ
Φ λ σ
σ
σ P
onde cλ = 2π/(π + 2 arctan(λ)) é a constante de normalização. Sendo 0 e
P
1 como nas seções anteriores, a função de log-verosssimilhança é dada por
`(θ; Y) =
X
0
h µ
µ i
1
−1
log
1 − cλ Φ
− 0.5 + π arctan(λ) − 2T
,λ
+
2
σ
σ
X
[log(cλ ) − log(σ) + log(φ(zi )) + log(Φ(λ|zi |))] ,
1
onde zi =
yi −µ
σ .
Assim, os elementos da função escore são dados por
2n0 cλ µ λµ
U (µ) = −
φ
Φ
σ∆
σ
σ
φ yiσ−µ
1 X yi − µ λ X
+
+
sgn(yi − µ) yi −µ ,
σ
σ
σ
Φ σ 1
1
2n0 µcλ µ λµ
n1
U (σ) =
φ
Φ
−
2
σ ∆
σ
σ
σ
y
−µ 2
1 X yi − µ
λ X yi − µ φ i σ
,
−
+
σ
σ
σ
σ Φ yiσ−µ 1
1
5.5
MODELO BIMODAL NORMAL-ASSIMÉTRICO
55
µ λµ ncλ
2n0 cλ
U (λ) = −
+
φ
φ
π(1 + λ2 ) (1 + λ2 )∆
σ
σ
X yi − µ φ yi −µ
σ
+
σ Φ yi −µ ,
σ
1
onde
h µ
µ i
∆ = 1 − cλ Φ
− 0.5 + π −1 arctan(λ) − 2T
,λ ,
σ
σ
onde n0 e n1 são como acima. Soluções para as equações obtidas igualando
os escores acima a zero devem ser resolvidas numericamente.
Os elementos da matriz Hessiana são dados em Martinez et al. (2012b).
Esta matriz também pode ser obtida diretamente do R quando se usa a
rotina ”optim”.
5.4.2
Matriz de informação esperada
A matriz de informação esperada (MIF) pode ser calculada a partir da
matriz de informação observada tomando esperança para cada um de seus
elementos, a saber
∂ 2 `(θ; x)
=E −
∂θr ∂θp
Iθr θp
, r, p = 1, 2, 3,
con θ1 = µ, θ2 = σ e θ3 = λ. Esta matriz é apresentada em Martinez et al.
(2012b).
5.5
Modelo bimodal normal-assimétrico
Como mencionado na seção anterior, o modelo bimodal lá apresentado ajusta
modelos simétricos. Não é, portanto, adequado para situações onde os dados
são assimétricos. Para tais situações, propomos usar o modelo proposto
em Arnold et al. (2009), que denotamos ET N (λ, β), de modo que para a
situação localização-escala, temos que X ∼ ET N (µ, σ, λ, β). Considerando
a situação censurada, onde
56
5.6
yi =
xi , se xi > c
c, se xi ≤ c,
Usamos a notação CET N (µ, σ, λ, β). Então, para c = 0, a contribuição
para a verossimilhança de observações menores ou iguais a zero é dada por
1
Ψ(0) = P [y = 0] = P [x ≤ 0] = 2cλ [
2
1−Φ
µ ,β + T
,λ ]
σ
σ
"
βµ 1
1
βµ 1
,
+S
, ,λ −
arctan
+2cλ −T
σ β
σ β
2π
−T
βµ
σ
Φ
µ σ
µ
βλ
p
1 + β 2 + λ2
!#
,
onde T e S são as funções de Owen (1956) e Steck (1958), respectivamentes,
definidas como:
Z
T (h, a) =
0
a
φ(h)φ(hx)
dx
1 + x2
Z
e
h
S(h, a, b) =
T (ax, b)φ(x)dx,
−∞
onde h é um número real e a, b são números reais positivos.
5.5.1
A função log-verossimilhança
Para uma amostra de tamanho n, X1 , X2 , ..., Xn a função log-verossimilhança para o vetor de parâmetros θ = (µ, σ, λ, β)0 dada a amostra Y1 , Y2 , ..., Yn
é dada por:
X
`(θ; Y) =
log(Ψ(0))
0
+
X
[log(2) + log(cλ ) − log(σ) + log(φ(zi )) + log(Φ(λ|zi |)) + log(Φ(βzi ))] ,
1
onde zi = yiσ−µ . A função escore e as matrizes de informação esperadas
e observadas podem ser obtidas por procedimentos similares as dos casos
anteriores. Estimadores de máxima verossimilhança são obtidos igualando
a zero a função escore.
ANALIZANDO UM CONJUNTO DE DADOS REAIS. CONCENTRAÇÃO DE HIV.
5.6
57
5.6
Analizando um conjunto de dados reais. Concentração de HIV.
Para ilustrar o potencial para aplicações dos modelos estudados no artigo,
consideramos uma amostra de 263 homens infectados com HIV, tratados com
terapia HAART por menos de uma ano no serviço hospitalar de SantanderColombia. Este conjunto de dados de alta confidencialidade contém as
variáveis idade, data de entrada no programa, sexo e carga viral de um total
de 1279 pacientes com AIDS. A carga viral foi medida pelo método ELISA
na escala log10 com limite de deteção mı́nimo (LDM) de 40 copias/ml. A
idade média é de 36.19 anos, onde o paciente mais novo tem menos de um
ano de idade e o paciente mais velho tem mais de 83 anos de idade.
Estatı́sticas descritivas para os√dados acima do LDM são apresentados
na tabela que segue. Quantidades b1 e b2 correspondem aos coeficientes de
assimetria e curtose amostrais para valores acima de log(40). Estatı́sticas
indicam que os dados apresentam alta assimetria positiva e baixa curtose
(comparado com modelo normal) indicando que um modelo simétrico pode
não ser a melhor escolha para ajustar os dados.
Consideramos então os modelos normal censurado (NC), normal-assimétrico
censurado (NAC), bimodal normal assimétrico censurado (BNAC) e bimodal
normal-assimétrico (BNA).
A próxima tabela apresenta estatı́sticas resumo para os dados estudados.
Tabela 5.1: Estatı́sticas
√ descritivas
y
s2y
b1
b2
1.7350 1.7397 0.5258 2.1346
Usando o critério AIC (Akaike, 1974), ou seja,
ˆ + 2p,
AIC = −2 ∗ `(·)
onde p é o número de parâmetros para o modelo considerado. Melhor modelo
apresenta menor AIC.
Assim, para formalmente testar bimodalidade, consideramos as hipóteses
H0 : λ = 0
versus
H1 : λ 6= 0,
58
5.6
que compara modelos NAC com modeol BNAC.
Para testar as hipóteses acima pode-se usar a ERV, a saber
Λ=
`N AC (θ̂)
`BN AC (θ̂)
,
de onde obtemos
−2 log(Λ) = −2(408.3129 − 414.7936) = 12.9614,
que é maior que o valor crı́tico de 5% da distribuição χ2 com um grau de
liberdade, a saber χ21;5% = 3.8414, fornecendo evidência do melhor ajuste do
modelo BNAC.
A tabela apresentada a seguir mostra estimadores de máxima verossimilhança e valores AIC para os modelos NC, NAC, BNC e BNAC, sendo este
último o que apresenta menor AIC (melhor modelo).
Embora λ é significantemente não nulo, o modelo BNAC apresenta melhor ajuste que o NAC.
Podemos testar
H0 : (λ, β) = (0, 0)
contra
H1 : (λ, β) 6= (0, 0),
comparando modelos CN com CETN.
Usando a ERV,
Λ=
`N C (θ̂)
`BN AC (θ̂)
,
que leva a
−2 log(Λ) = −2(408.3129 − 414.8078) = 12.9898,
maior que o valor crı́tico de 5% da distribuição χ2 com um grau de liberdade
a saber, χ21;5% = 3.8414, mostrando que BNAC é o melhor modelo.
O total de dados censurados corresponde a 39.92% da amostra sob estudo
e a porcentagem sob o BNAC é 39.93%. Por outro lado, pode-se mostrar
que sob o modelo CNA model, a porcentagem esperada é de 42.97%,.
5.7
DISCUSSÃO FINAL
Parâmetro
AIC
µ
σ
λ
δ
Tabela 5.2: Estimativas e ajustes.
Modelo NC
Modelo NAC
Modelo BNC
833.615
835.587
835.663
0.477(0.137)
1.689(1.147)
0.364(0.023)
1.978(0.121)
2.362(0.767)
1.961(0.109)
-0.861 (1.013)
38.658(10.367)
-2.2079(0.2196)
59
Modelo BNAC
824.6258
1.719(0.117)
2.108(0.169)
2.571(1.116)
-0.797(0.147)
Para n=106 mulheres infectadas e sob tratamento com terapia HAAR,
a idade média é de 30.75 anos, com 33.96% abaixo do LDM. O modelo
estimado usando EMV é dado por
CAN B(1.6306, 1.8201, 2.8874, −0.5936),
levando a estivativa de 32.95% abaixo do LDM.
5.7
Discussão final
Este capı́tulo apresenta uma série de modelos que podem ser usados sob
censura em situações de possı́vel bimodalidade. Assim, os modelos propostos
estendem o model tobit normal usual, originalmente proposto para situações
simétricas unimodais. Estimação por MV foi considerada e requer métodos
numéricos, dada a complexidade dos modelos. MIF e informação observada
são consideradas. Aplicação a dados reais indica boa performance do modelo
proposto.
60
5.7
Referências bibliográficas
Akaike, H. (1974). A new look at statistical model identification. IEEE
Transaction on Automatic Control. AU-19, 716–722.
Arellano-Valle, R.B. e Bolfarine, H. (1995). On Some Characterizations Of
The t-Distribution. Statistics and Probability Letters, 25, 79–85.
Arellano-Valle, R. e Azzalini, A.(2008). The centred parameterizatiion and
related quantities of the skew-t distribution. Journal of Multivariate
Analysis, 99, 1362-1382.
Arellano-Valle, R.B., Castro, L.M., González-Farı́as, G. e Muñoz-Gajardo,
K. (2012). Student-t censored regression model: properties and inference. Statistical Methods and Applications, 21, 453-473.
Arnold, B. C. (2004). discussion of Jones, M.C. Families of distribution
arising from distributions of order statistics. Test , 13, 23–25.
Azzalini, A. (1985). A class of distributions which includes the normal
ones. Scandinavian Journal of Statistics, 12, 171–178.
Azzalini, A. (1986). Further results on a class of distributions which includes the normal ones. Statistica, 46, 199–208.
Azzalini, A. and Capitanio, A. (1999). Statistical applications of the multivariate skew-normal distribution . Journal of the Royal Statistical
Society, 61, 579–602.
Bayes, C., Bazan, J. e Garcı́a, C. (2012). A New Robust Regression Model
for Proportions. Bayesian Analysis, 7, 841–866.
Bolfarine, H. and Sandoval, M. (2005). Introdução à inferência estatı́stica
. Sociedade Brasileira de Matemática.
61
62
REFERÊNCIAS BIBLIOGRÁFICAS
5.7
Branscum, A. J., Johnson, W. O. and Thurmond, M. C. (2007), Bayesian
beta regression: applications to household expenditure data and genetic distance between foot-and-mouth deseases viruses. Australian
and New Zealand Journal of Statistics, 49, 287–301.
Chai, H. e Bailey, K. (2008). Use of log-normal distribution in analysis
of continuous data with a discrete component at zero. Statistics in
Medicine, 27, 3643–3655.
Chao, E.C. (1998). Gibbs Sampling for Long-Term Survival Data with
Competing Risks. Biometrics, 54, 350–366.
Chiogna, M. (1997). Notes on estimation problems with scalar skew-normal
distributions. Relatório Técnico, 15, University of Padua, Dept. of
Statistical Sciences.
Cragg, J. (1971). Some statistical models for limited dependent variables
with application to the demand for durable goods. Econometrica, 39,
829-844.
Csiszár, I. (1967). Information-type measures of difference of probability
distributions and indirect observations. Studia Scientiarum Mathematicarum Hungarica, 2, 299–318.
Durrans, S. R. (1992). Distributions of fractional order statistics in hydrology. Water Resources Research, 28, 1649–1655.
Ferrari, S. and Cribari-Neto (2004). Beta regression for modelling rates
and proportions. Journal of Applied Statistics, 31 (7), 799-815.
Garay, A.M., Lachos, V.H. e Bolfarine, H. (2012). Bayesian zero-inflated
negative binomial regression models: estimation and case influence
diagnostics. Submetido para publicação,
Gómez, H. W., Venegas, O. and Bolfarine, H. (2007). Skew-symmetric
distributions generated by the distribution function of the normal distribution. Environmetrics, 18, 395–407.
Gómez, H.W., Elal-Olivero, D., Salinas, H.S. and Bolfarine, H. (2011).
Bimodal extension based on the skew-normal distribution with application to pollen data. Environmetrics, 22, 50–62.
Gupta, D. and Gupta, R. C. (2008). Analyzing skewed data by power
normal model. Test, 17, 197–210.
5.7
63
Hastings, W. (1970). Monte carlo sampling methods using markov chains
and their applications. Biometrika, 57, 97–109.
Henze, N. (1986). A probabilistic representation of the skew-normal distribution. Scandinavian Journal of Statistics, 13, 271–275.
Jones, M. C. (2004). Families of distributions arising from the distributions
of order statistics. Test, 13, 1–43.
Kim, H.J. (2005). Generalized skew-normal models: Properties and inference. Statistics, 40, 495–505.
Kotz, S., Kozubowski, T.J. e Podgórski, K. (2001). The Laplace Distribution and Generalizations: A Revisit with Applications to Communications, Economics, Engineering, and Finance, Boston: Birkhauser.
Kullback, S. e Leiber, R.A. (1951). On information and sufficiency. Annals
of Mathematical Statistics, 22,
Lee, D. e Neocleous, T. (2010). Bayesian quantile regression for count data
with application to environmental epidemiology. Journal of the Royal
Statistical Society, Series C, 59, 905–920.
Lehmann, E. L. (1953). The power of rank tests Annals of Statistics , 1,
23–43.
Li, X., Chu, H., Gallant, J.E. (2006). Bimodal virologic response to antiretroviral therapy for HIV infection: an application using a mixture
model with left censoring. J. Epidemiol. Commun. Health, 60, 811–
818.
Li, Q., Xi, R. e Lin, N. (2010). Bayesian regularized quantile regression.
Bayesian Analysis, 5, 533–556.
Lum, K. e Gelfand, A.E. (2012). Spatial Quantile Multiple Regression
Using the Asymmetric Laplace Process. Bayesian Analysis, 7, 1–24.
Marin, J.M., Mengersen, K. and Robert, C.P. (2005).Bayesian modelling
and inference on mixtures of distributions. Handbook of Statistics, 25,
Elsevier.
Martinez, G., Bolfarine, H. e Gomez, H. (2012a). Asymmetric regression models with limited responses with an application to antibody
response to vaccine. Biometrical Jounal. Aceito para publicação.
64
REFERÊNCIAS BIBLIOGRÁFICAS
5.7
Martinez, G., Gomez, H., Bolfarine, H. (2012b). Modelo α-potência inflacionado de zeros e uns. Em preparação.
Martinez, G., Bolfarine, H. e Gomez, H. (2013). The alpha-power tobit
model. Communication in Statistics. Aceito para publicação.
Meligkotsidou, L., Vrontos, I.D. e Vrontos, S.D. (2009). Quantile regression
analysis of hedge fund strategies. Journal of Empirical Finance, 16,
264–279.
Metropolis, N., Rosenbluth, A., Rosenbluth, M., Teller, A. and Teller, E.
(1953). Equations of state calculations by fast computing machines.
Journal of Chemical Physics, 21, 1087–92.
Moulton, L. e Halsey, N.A. (1995). A mixture model with detection limits
for regression analyses of antibody response to vaccine. Biometrics,
51, 1570–1578.
Mroz, T. (1987). The Sensitivity of an Empirical Model of Married Women’s
Hours of Work to Economic and Statistical Assumptions. Econometrica, 55, 765–799.
Mudholkar, G. S. and Hutson, A. D. (2000). The epsilon-skew-normal distribution for analyzing near-normal data. Journal of Statistical Planning and Inference, 83, 291–309.
Ospina R. (2008). Modelos de regressão beta inflacionados, Tese de doutorado,
Universidade de São Paulo, Brasil.
Ospina, R. and Ferrari, S. L. P. (2010). Inflated beta distributions. Statistical Papers, 51, (1), 111-126.
Peng, F. e Dey, D.K. (1995). Bayesian analysis of outlier problems using
divergence measures. The Canadian Journal of Statistics, 23, 199–
213.
Pewsey, A. (2000). Problems of inference for Azzalini’s skew-normal distribution. Journal of Applied Statistics, 27, 859–870.
Pewsey, A., Gómez, H. W. and Bolfarine, H. (2012). Likelihood-based
inference for distributions of fractional order statistics. Test, 21, 775789.
Sen, P.K. e Singer, J.(1993). Lange Sample Methods in Statistics: an
introdution with applications. ChapMan and Hall/CRC
5.7
65
Tobin, J. (1958). Estimation of relationships for limited dependent variables. Econometrica, 26, 24–36.
Vuong, Q. (1989). Likelihood ratio tests for model selection and nonested
hypotheses. Econometrica, 57, 307–333.

Modelos de Regressão com Respostas Parciais, Heleno Bolfarine

Transcrição

Documentos relacionados

A distribuiç ˜ao Weibull inversa generalizada na

A distribuiç ˜ao Weibull inversa generalizada na modelagem de

Plano de Disciplina - divisão de engenharia mecânica

MATEMÁTICA - UFJF/SIGA

LOG IN Patrícia Sousa 02 May – September 2015 ROSA ET AL

Carta de apresentação - Logistica Cargo

octaplus

Gabarito - Profmat

PADRÃO GEOGRÁFICO DA COLORAÇÃO DO JAGUARUNDI

Nota de Alta