Modelos de Regressão com Respostas Parciais, Heleno Bolfarine

Transcrição

Modelos de Regressão com Respostas Parciais, Heleno Bolfarine
MODELOS DE REGRESSÃO COM RESPOSTAS
PARCIAIS
Heleno Bolfarine
Jorge Bazan
ii
MODELOS DE REGRESSÃO COM RESPOSTAS
LIMITADAS E CENSURADAS
H. Bolfarine
Universidade de São Paulo
Instituto de Matemática e Estatı́stica
Departamento de Estatı́stica
J. Bazan
Universidade de São Paulo
Instituto de Ciências Matemáticas e de Computação
Departamento de Matemática Aplicada e Estatı́stica
iv
Prefácio
Neste trabalho, desenvolvemos análises Bayesiana e clássica para modelos
de regressão com respostas limitadas ou censuradas.São consideradas extensões do modelo tobit usual normalmente distribuı́do em duas direções. A
primeira considera modelos mais gerais que o modelo normal proporcionada
pelo modelo potência-normal, o qual pode ajustar dados com certo grau de
assimetria e bimodalidade. Uma outra direção em que estendemos o modelo
está voltada para situações onde temos excesso (inflação) de zeros. No caso
em que as observações são proporções (no intervalo (0, 1)), podemos ter dados com excesso de zeros e uns. Discute-se especificacação de prioris pouco
informativas e algoritimos tipo MCMC para estimação dos parâmetros do
modelo. Procedimentos de estimação alternativos são desenvolvidos usando
o método de máxima verossimilhança. Aplicações a vários conjunto de dados são apresentadas. Um conjunto de dados, em especial, é o conjunto
de dados sobre a resposta sorológica em um programa de vacinação contra
sarampo no Haiti. Além disso, são estudadas aplicações a outros conjuntos
de dados relacionados com os modelos considerados.
Este manuscrito, direcionado a extensões do modelo tobit, está organizado da seguinte forma: o Capı́tulo 1 enfoca resultados básicos de modelos
para dados censurados e truncados. No Capı́tulo 2 apresentamos uma breve
revisão do modelo tobit com sugestões de extensões que podem ser consideradas substituindo-se a distribuição normal por modelos mais robustos e
flexiveis como os modelos potência-normal (Pewsey et al., 2012) e t-Student.
Aplicações a dados reais mostram bom desempenho dos modelos propostos.
O Capı́tulo 3 está dedicado ao modelo tobit com excesso de zeros em que
duas extensões são consideradas. Análise de dados reais são apresentadas
ilustrando o bom desempenho dos modelos estudados. O Capı́tulo 4 discute
modelos α-potência para dados duplamente censurados com ênfase nos casos
(0, 1), com possı́veis excessos de zeros e uns. O Capı́tulo 5 estuda modelos
bimodais censurados. Este texto está direcionado a alunos do último ano
do bacharelado e inı́cio do mestrado em Estatı́stica.
v
vi
Heleno Bolfarine [email protected]
Jorge Bazan [email protected]
São Carlos, SP, janeiro de 2013
Sumário
1 Dados limitados
1.1 Truncamento . . . . . . . . . . . . . . . . . . .
1.2 Censura . . . . . . . . . . . . . . . . . . . . . .
1.3 Resultados básicos sobre truncamento e censura
1.3.1 Distribuição normal truncada . . . . . .
1.3.2 Distribuição normal censurada . . . . .
1.4 Alguns conjuntos de dados . . . . . . . . . . . .
1.4.1 Vacinação no Haiti . . . . . . . . . . . .
1.4.2 Horas trabalhadas por ”donas”de casas
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
2
3
3
4
4
2 O modelo tobit
2.1 O modelo tobit normal . . . . . . . . . . . .
2.2 Extensões robustas do modelo tobit . . . .
2.3 Aplicações . . . . . . . . . . . . . . . . . . .
2.3.1 Aplicação do modelo tobit-normal .
2.4 Aplicação do modelo tobit potência-normal
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
11
12
13
13
.
.
.
.
.
15
15
16
18
22
25
.
.
.
.
27
27
29
29
32
3 O modelo tobit com excesso de zeros
3.1 Modelos com excesso de zeros . . . .
3.2 A distribuição log-α-potência . . . .
3.3 O modelo bernoulli/log-α-potência .
3.4 Aplicação: dados do Haiti . . . . . .
3.5 Aplicação: dados de Mroz . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Modelo α-potência inflacionado de zeros e/ou uns
4.1 Modelos duplamente censurados . . . . . . . . . . .
4.2 Distribuições PN para dados censurados . . . . . . .
4.3 Modelo potência-normal duplamente censurado . . .
4.4 A transformação logarı́tmica . . . . . . . . . . . . .
vii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
viii
SUMÁRIO
4.5
O modelo Bernoulli duplamente censurado com mistura potêncianormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.6 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.7 Matriz de informação observada . . . . . . . . . . . . . . . . . 34
4.8 Modelos censurados para inflação de zeros e uns . . . . . . . 37
4.9 Mistura Bernoulli/LPN . . . . . . . . . . . . . . . . . . . . . 39
4.10 Ilustração com dados reais . . . . . . . . . . . . . . . . . . . . 39
4.11 Testando modelos disjuntos . . . . . . . . . . . . . . . . . . . 40
4.12 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5 Modelos bimodais censurados
5.1 Modelos assimétricos bimodais . . . . . . . . . . . . . . . . .
5.2 Extensões bimodais para modelos simétricos . . . . . . . . . .
5.2.1 Aplicação: Dados de poluição. . . . . . . . . . . . . .
5.3 Modelo flexı́vel normal censurado . . . . . . . . . . . . . . . .
5.3.1 Momentos . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.2 Extensão para localização-escala . . . . . . . . . . . .
5.3.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.4 Matriz de informação . . . . . . . . . . . . . . . . . .
5.4 O modelo bimodal simétrico normal censurado . . . . . . . .
5.4.1 Estimação por máxima verossimilhança . . . . . . . .
5.4.2 Matriz de informação esperada . . . . . . . . . . . . .
5.5 Modelo bimodal normal-assimétrico . . . . . . . . . . . . . .
5.5.1 A função log-verossimilhança . . . . . . . . . . . . . .
5.6 Analizando um conjunto de dados reais. Concentração de HIV.
5.7 Discussão final . . . . . . . . . . . . . . . . . . . . . . . . . .
43
44
44
46
47
48
48
49
50
53
54
55
55
56
57
59
Referências bibliográficas
61
Capı́tulo 1
Dados limitados
A principal causa da ocorrência de dados incompletos é devido a (i) truncamento e (ii) censura.
1.1
Truncamento
Truncamento ocorre quando algumas observações tanto na variável resposta
como indepedentes (covariáveis, regressores) não estão disponı́veis. Por exemplo, a variável resposta (dependente) pode ser renda e somente pessoas
com baixa (propriamente definida) renda são incluı́dadas na pesquisa. Portanto, truncamento ocorre quando a amostra é esolhida somente em parte
da população.
1.2
Censura
Censura ocorre quando dados sobre a variável dependente não estão disponı́veis
para algumas unidades da amostra. Mas para estas unidades, os dados
para a variáveis independentes (regressores) estão disponı́veis. por exemplo, pessoas de todos os nı́veis de renda são incluidas na amostra mas, por
alguma razão, pessoas com alto nı́vel de renda tem a mesma codificada
em R$100.000. Censura pode ser visto como um defeito na amostra - não
havendo censura, amostra seria representativa. Truncamento em geral produz maior perda de informação.
1
2
1.3
DADOS LIMITADOS
1.3
Resultados básicos sobre truncamento e censura
É comum considerar que a variável resposta (Y ) é normalmente distribuı́da
com média µ e variância σ 2 , que denotamos por N (µ, σ 2 ), de tal forma que
E[Y ] = µ
V ar[Y ] = σ 2 .
e
O caso particular em que µ = 0 e σ = 1, ou seja, Z ∼ N (0, 1), temos a
função de densidade de probabilidade (fdp)
1
2
f (z) = φ(z) = √ e−z /2 ,
2π
z ∈ R.
A fdp de Y ∼ N (µ, σ 2 ) segue da tansformação Y = µ + σZ.
A função de distribuição acumulada pode ser escrita como
Φ(y) = P [Y ≤ y] = Φ((y − µ)/σ),
de modo que
P [Y ≥ y] = 1 − Φ((y − µ)/σ).
1.3.1
Distribuição normal truncada
Para truncamento pela esquerda (s.p.g.), com ponto de trunamento ”c”,
temos
f (y|y > c) =
f (y)
,
1 − F (c)
de modo que para Y ∼ N (µ, σ),
f (y|y > c) =
y−µ
1
σ φ( σ )
.
1 − Φ( c−µ
σ )
Assim, a função de verossimilhança para uma amostra de tamanho n da
distribuição normal truncada pode ser escrita como
L(µ, σ) =
n
Y
yi −µ
1
σ φ( σ )
.
1 − Φ( c−µ
σ )
i=1
1.4
ALGUNS CONJUNTOS DE DADOS
3
Temos também
E[y|y > c] = µ + σλ(αc )
e
V ar[y|y > c] = σ 2 [1 − δ(αc )],
onde αc = (c − µ)/σ,
δ(αc ) = λ(αc )[λ(αc ) − αc ]
e
λ(αc ) =
φ(αc )
,
1 − Φ(αc )
esta última sendo conhecida como razão de Mills.
Os resultados para modelos de regressão seguem dos resultados acima
substituindo µ = x0 β.
1.3.2
Distribuição normal censurada
Quando a distribuição é censurada à esquerda no ponto ”c”, observações
com valores menores ou iguais a c são substituidas por c ou seja,
y=
yi∗ , se yi∗ > c
c, se yi∗ ≤ c.
Se uma variável continua Y com fdp f (.), e c é uma constante, então
para variáveis censuradas à esquerda
f (y) = [f (yi)]Ii [F (c)]1−Ii ,
onde
Ii =
1, se yi∗ > c
0, se yi∗ ≤ c,
i = 1, . . . , n. O caso particular do modelo normal censurado segue tomando
f = φ.
1.4
Alguns conjuntos de dados
Alguns conjuntos de dados muito utilizados na literatura são descritos a
seguir.
4
DADOS LIMITADOS
1.4.1
1.4
Vacinação no Haiti
Dados contém informações sobre concentração de anticorpos em um grupo
de 330 crianças de até um ano no Haiti após serem vacinadas contra o
sarampo. As medições das concentrações são feitas por laboratórios com
limite de deteção mı́nimo (LDM) de 0.1 mm/l (ou -2.16 na escala logaritmica). Isto significa que valores de concentrações iguais ou menores que 0.1
são reportadas como sendo 0.1. Temos informação sobre a concentração (Y
- variável resposta) , tipo de vacina (X1 : Edmonton-Zagreb (1) e Schwarz
(0)), dose (X2 : alta (1) e médio (1)) e sexo (X3 : masculino (O) e feminino
(1)). O total de criana̧s no (ou abaixo do) limite de deteção é de 86. Um
resumo dos dados é apresentado na tabela abaixo. Este conjunto de dados
esta disponibilizado em Moulton and Halsey (1995). Da Tabela 1.1. temos
então que a primeira criança tem concentração 0.1, tomou a vacina tipo 0
(Schwarz) com dose média e é do sexo masculino.
Criança
1
2
3
...
316
Tabela 1.1: Dados sobre vacinação no Haiti
Concentração (Y ) Tipo (X1 ) Dose (X2 ) Sexo (X3 )
0.1
0
0
0
0.1.
0
0
0
0.1
0
0
0
...
...
...
...
15.475
1
0
0
Moulton and Halsey (1995) consideram uma distribuição log-normal para
observações acima do LDM, e modelam o excesso de zeros com um modelo
logito, extendendo a proposta de Cragg (1971). Como se depreende do
histograma, a concentração de observações no LDM é bastante alta.
1.4.2
Horas trabalhadas por ”donas”de casas
Este conjunto de dados (Mroz, 1987) foi tomado do estudo da dinâmica de
renda de 1975 com 753 observações das quais 428 correspondem a mulheres
(casadas) com Y horas trabalhadas (não nulas) e as 325 remanescentes, correspondem a mulheres que não trabalharam (Y=0). O conjunto de dados
compreende um total de 19 variáveis das quais consideramos
1.4
ALGUNS CONJUNTOS DE DADOS
5
1. LPF: variável ”dummy”= 1 se esposa trabalhou em 1975; =0, caso
contrário;
2. WHRS: horas trabalhadas pela esposa em 1975;
3. KL6: Número de criança com crianças menores que 6 anos no domicı́lio;
4. K618: Número de crianças com idade entre 6 e 18 anos no domicı́lio;
5. WA: Idade da esposa;
6. WE: Escolaridade da esposa, em anos;
7. WW: Salário da esposa em 1975.
horas
1610
1656
1980
456
1568
2032
1440
1020
...
0
Tabela 1.2: Dados
kids5 kids618
-10.5
-9.2
-12.5
-0.6
-7.5
-8.1
-8.5
-13.3
-11.5
0.0
11.5
-10.3
-5.5
-11.0
11.5
-9.2
...
...
0
3
sobre
age
0.8
-0.2
0.8
-0.2
0.8
-0.2
-0.2
-0.2
...
39
horas trabalhadas
educ nwifeinc exper
-1.4
-0.3
3.4
0.6
-0.3
-5.6
1.6
-0.3
4.4
1.6
-0.3
-4.6
0.6
1.7
-3.6
-1.4
-0.3
22.4
0.6
3.7
0.4
-1.4
-0.3
24.4
...
...
...
9
28.3
12
6
DADOS LIMITADOS
1.4
Capı́tulo 2
O modelo tobit
Neste capı́tulo discutimos alguns resultados básicos sobre o modelo tobit.
Apresentamos inicialmente o modelo tobit normal, a função de verossimilhança e as equações de estimação correspondentes. Mencionamos também
extensões robustas com a substituição da distribuição normal pelos modelos
t-Student e potência-normal.
2.1
O modelo tobit normal
Pesquisadores são frequentemente confrontados com dados para os quais a
variável resposta tem um limite inferior (que pode ser considerado como
zero, sem perda de generalidade) e toma este valor para uma parte considerável das unidades amostrais. Este é o caso, por exemplo, dos dados
sobre horas trabalhadas por donas de casa (Mroz, 1987).
Uma outra maneira é tratar os zeros como observações latentes (não observadas) contı́nuas. Esta idéia é popularizada em Tobin (1956) e o modelo
resultante é chamado modelo tobit.
Formalmente, dada a variável de interesse Y , o modelo tobit pode ser
formulado como
yi =
0, se wi ≤ 0
wi , se wi > 0,
7
8
2.1
O MODELO TOBIT
onde a variável latente é wi = x0i β + i , com i ∼ N (0, σ 2 ), i = 1, . . . , n.
Consequentemente, denotamos as respostas observadas por yi , o valor das k
variáveis explanatórias para a i-ésima observação por xi ∈ Rk , os parâmetros
de regressão por β = (β0 , β1 , . . . , βk )0 e o i-ésimo termo residual por i .
Pode-se escrever o modelo acima como
yio = Ii yi ,
yi = x0i β + i ,
onde Ii = I(yi > 0), com xi = (xi1 , . . . , xik )0 , i = 1, . . . , n.
Com as suposições temos
ind.
yi ∼ N (x0i β, σ 2 ),
i = 1, . . . , n. Note que, sendo yi ∼ N (µi , σ 2 ), temos que
P [yi0 = 0] = P [yi ≤ 0] = 1 − Φ(µi /σ).
Por outro lado, sendo
yio > 0,
temos
d
yio = yi ,
de modo que a função de verossimilhança pode ser escrita como
LN (β, σ 2 ) =
n
Y
1 1
1
[1 − Φ( x0i β)]1−Ii [( φ( (yi − x0i β)]Ii ,
σ
σ σ
i=1
com φ e Φ sendo a fdp e a fda da N(0,1).
Derivando a log-verossimilhança, temos as equações de verossimilhança
σ2 =
1 0
y D(y − Xβ),
n1
X0 (In − D)η = X0 D(y − Xβ),
onde n1 =
Pn
i=1 Ii ,
D = diag(I1 , . . . , In ),
η = (σr(−x1 β 0 /σ), . . . , σr(−x0n β/σ))0 ,
r(z) =
φ(z)
.
Φ(z)
2.1
O MODELO TOBIT NORMAL
9
Como as equações acima são não lineares, métodos numéricos são necessários
para a sua solução. Uma alternativa seria a maximização direta da função
log-verossimilhança, o que pode ser implementado no aplicativo R.
A partir da derivada da função escore (avaliada no estimador de máxima
verossimilhança (EMV)), podemos obter a matriz de informação observada
(MIO). Invertendo a MIO, temos estimativas consistentes para a matriz de
covariâncias assintóticas dos parâmetros do modelo.
Considerando a reparametrização
γ = β/σ,
τ = 1/σ,
pode-se mostrar que as derivadas segundas podem ser escritas como
n
n
i=1
i=1
X
X
∂ 2 log LN
=−
(1 − Ii )r(−ci )(r(−ci ) − ci )xi x0i −
Ii xi x0i ,
0
∂γ∂γ
n
X
∂ 2 log LN
=
Ii xi x0i ,
∂γ∂τ
i=1
n
n1 X 2
∂ 2 log LN
= 2 −
Ii yi ,
0
∂γ∂γ
τ
i=1
onde ci =
x0i γ.
A matriz de informação de Fisher (MIF) pode ser calculada a partir das
derivadas segundas acima usando os seguintes resultados (Arellano-Valle et
al., 2012):
E[Ii ] = P [Yi > 0] = Φ(ci ),
E[Ii Yi ] = E[Ii ]E[Yi |Yi > 0] = (1/τ )(ci Φ(ci ) + φ(ci )),
1
[(1 + ci )Φ(ci ) + c2i φ(ci )].
τ2
Para implementar o enfoque Bayesiano para o modelo tobit normal,
pode-se usar o programa OpenBugs de duas maneiras diferentes. Uma das
maneiras é entrar diretamente no OpenBugs usando
E[Ii Yi2 ] =
dummy[i] ∼ loglik(logLike[i]),
10
2.2
O MODELO TOBIT
onde logLike[i] é o logaritimo da função de verossimilhança.
Uma maneira alternativa é entrar com o modelo de regressão normal
censurado, isto é
yi |β, σ 2 ∼ N T (x0i β, σ 2 , A),
com A = [0, ∞).
Em geral,
Y ∼ T N (x0i β, σ 2 , A)
se
fT N (y|µ, σ 2 , A) = c−1 fN (y|µ, σ 2 )I(y ∈ A),
com
Z
fN (y|µ, σ 2 )dx.
c=
A
A função de log-verossimilhança para o modelo tobit (para T=c) para a
situação onde o erro i segue uma função de distribuição F , pode ser escrita
como
`(θ; Y ) =
X
(1 − Ii ) ln[F (
i
X
c−µ
yi − µ
)] +
)}
Ii {− ln(σ) + ln(f (
σ
σ
i
onde f = F 0 , e
Ii =
1, se yi∗ > c
0, se yi∗ ≤ c,
A distribuição comumente usada com o modelo acima é a distribuição
normal, isto é, X ∼ N (µ, σ 2 ),
F 0 (x) = f (x) = √
1
2πσ 2
e−
(x−µ)2
2σ 2
.
2.2
EXTENSÕES ROBUSTAS DO MODELO TOBIT
2.2
11
Extensões robustas do modelo tobit
Uma distribuição que pode ser empregada no lugar da distribuição normal
é a distribuição t-Student com fdp
Γ( ν+1
(z − µ)2 − ν+1
2 )
) 2 ,
F 0 (z) = f (z) = √
(1
+
νσ 2
νπσΓ( ν2 )
z ∈ R,
onde Γ(.) é a função gamma. A distribuição t-Student vem sendo bastante utilizada na presença de observações extremas (”outliers”) e uma revisão bastante completa de sua mais importantes propriedades aparece em
Arellano-Valle e Bolfarine (1995). Uma versão assimétrica do modelo tStudent é considerada em Gomea et al. (2007). Veja também Arellano-Valle
et al. (2012).
O modelo de regressão t-Student pode ser escrito através da hierarquia
ind
Yi |Vi = vi ∼ N (x0i β, vi−1 σ 2 ),
iid
Vi ∼ Gama(ν/2, ν/2),
i = 1, . . . , n.
Para implementar o enfoque Bayesiano e algoritmo EM, pode-se usar a
verossimilhança completa
n
ν ν ν
Y
1
− 12 vi (yi −x0i β)2 ( 2 ) 2 2 −1 −vi ν2
2σ
√
Lc (θ) =
(
)e
.
. ν vi e
Γ( 2 )
2πσ 2
i=1
Uma outra distribuição que pode ser usada é a distribuição α-potência
(Pewsey et al., 2012). Uma variável aleatória Y segue a distribuição αpotência com parâmetros α, µ, σ, que denotamos por Y ∼ AP (µ, σ, α) se
sua fdp é dada por
f (y|µ, σ, µ) =
1 y−µ
y − µ α−1
f(
){F (
)}
,
σ
σ
σ
onde α ∈ R. Para o caso normal, isto é F = Φ, temos o modelo potência
normal. Usamos a notação Y ∼ P N (µ, σ, α). Este modelo é proposto como
uma alternativa ao modelo ”skew-normal”, com fdp
f (y|λ) = 2φ(y)Φ(λy),
12
2.3
O MODELO TOBIT
que apresenta algumas dificuldades como a singularidade da MIF (Azzalini, 1985). Isto implica, por exemplo, que a distribuição da estatı́stica da
razão de verossimilhanças (ERV) não é assintoticamente distribuı́da com
distribuição χ2 .
Para o modelo potência-normal pode-se mostrar que a matriz de informação de Fisher para θ = (µ, σ, α = 1)0 é dada por


1
0
0.903192
σ2
2
0
−0.595636  .
IF (θ) = 
σ2
0.903197 −0.595636
1
Pode-se verificar que
|IF (θ)| = 0.013688/σ 4 .
Então, para este modelo a matriz de informação de Fisher não é singular
no ponto de simetria. Por outro lado, Azzalini (1985) mostra que o modelo
”skew normal”apresenta matriz de informação de Fisher singular. Isso implica que as condições usuais de regularidade (Bolfarine e Sandoval, 2005)
não estão satisfeitas neste caso.
Para o caso do modelo tobit (com T=c), a log-verossimilhança para o
modelo α-potência pode ser escrita como
X
c−µ
`(θ; Y ) = α
(1 − Ii ) log F
σ
i
X
yi − µ
yi − µ
+
+ (α − 1) ln F
,
Ii log(α) − log(σ) + log f
σ
σ
i
onde
Ii =
2.3
1, se yi > c
0, se yi ≤ c.
Aplicações
Nesta seção consideramos aplicações ao conjunto de dados usando o modelo
tobit e o modelo tobit potência-normal. Os resultados a seguir aparecem
em Martinez et al. (2013).
2.4
APLICAÇÃO DO MODELO TOBIT POTÊNCIA-NORMAL
2.3.1
13
Aplicação do modelo tobit-normal
Vamos ilustrar uma aplicação do modelo tobit-normal para parte dos dados
em Fair (1978). Para uma amostra de 601 homens e mulheres casados pela
primeira vez, temos como variável resposta (Y), o número de casos extraconjugais. Parte das variáveis usadas no estudo foram as seguintes:
Y : número de casos extraconjugais no ano anterior
X1 : anos de casado
X2 : idade
X3 : religosidade (escala de 1 (ateu) a 5 (frequenta regularmente)
X4 : avaliação casamento (escala de 1 (muito infeliz) a 5 (muito feliz)
Dos 601 entrevistados, 451 não tiveram casos. Temos, portanto, dados
com censura em zero.
Tabela 2.1: Estatı́sticas descritivas para dados de Fair
n
Média Variância Assimetria curtose
601
7.45
17.11
0.1553
3.7
Note que existe indicação de assimetria e curtose acima do esperado
para a distribuição normal. Temos também as estimativas: β̂0 = 9.08 (2.66),
β̂1 = −0.16 (0.077), β̂2 = 0.54 (0.13), β̂3 = 1.72 (0.41), β̂4 = −2.26 (0.41),
σ = 8.27 (0.55). Além disso, Log − lik = −706.4. Portanto as variáveis
influenciam significativamente no número de casos extraconjugais.
2.4
Aplicação do modelo tobit potência-normal
Para os dados de Fair (1978), usando o modelo tobit potência-normal (tobit/PN) temos α̂ = 10.26 (0.56), com Log − lik = −581.22, indicando forte
evidência de que o modelo tobit/PN apresenta melhor ajuste para os dados
14
O MODELO TOBIT
2.4
de Fair. Não existem disferenças significativas nas estimativas dos outros
parâmetros.
Capı́tulo 3
O modelo tobit com excesso
de zeros
Neste capı́tulo consideramos modelos para a situação onde temos ajuste do
modelo tobit com excesso de zeros. Basicamente, consideramos os modelos propostos em Moulton and Halsey (1995) e Cragg (1971). Discutimos
estimação por métodos clássicos e Bayesianos.
3.1
Modelos com excesso de zeros
Existem situações reais onde a quantidade de zeros é maior que o esperado com o modelo tobit-normal. Uma possibilidade é considerar que parte
dos zeros observados vem de uma massa pontual concentrada no limite de
detecção mı́nimo (LDM) não explicada pela distribuição correspondente à
resposta não nula.
O modelo tobit com excesso de zeros pode ser implementado considerando
o enfoque em Moulton e Halsey (1995) que especifica para a resposta observada que
g(yi ) = [qi + (1 − qi )F (T )](1 − Ii ) + (1 − qi )f (yi )Ii ,
onde
15
16
O MODELO TOBIT COM EXCESSO DE ZEROS
Ii =
3.2
1, se yi > T
0, se yi ≤ T.
A situação onde o ponto de truncamento é T = 0 é imediata. Covariadas
podem ser associadas com qi através de uma função de distribuição (ligação)
H, ou seja,
qi = H(x0i β).
Para o caso em que qi = q, isto é, a probabilidade de excesso de zeros é
constante para as unidades amostrais, a função log-verossimilhança para
uma amostra y = (y1 , . . . , yn )0 e vetor de parâmetros θ, pode ser escrita
como
l(θ|y) ∝
n
X
{(Ij − 1) log(q + (1 − q)F (yj )) + Ij log(1 − q) + log(f (yj ))}.
j=1
Uma alternativa ao modelo de Moulton and Halsey (1995) é a alternativa
proposta por Cragg (1971) onde é especificado que
g(yi ) = qi (1 − Ii ) + (1 − qi )f (yi )Ii ,
i = 1, . . . , n, ou seja, os zeros observados são oriundos da massa pontual.
Note que o caso particular do modelo tobit padrão segue como um caso
particular dos modelos acima tomando qi = 0, i = 1, . . . , n.
3.2
A distribuição log-α-potência
Conforme visto no capı́tulo anterior, o modelo tobit (potência) assimétrico
(TPA) pode ser definido considerando F como sendo a fda da distribuição
α-potência com fdp dada por
fF (z) = αf (x)F (z)α−1 .
No caso particular em que F 0 = f = φ, temos, como visto anteriormente,
fN (z) = αφ(z)Φα−1 (z).
A distribuição do tempo de vida de um equipamento e a concentração de
um elemento quı́mico em amostras de solo (água ou sangue) é tipicamente
distribuı́da de acordo com a distribuição log-normal. Em muitas dessas
3.2
A DISTRIBUIÇÃO LOG-α-POTÊNCIA
17
situações, contudo, a assimetria da distribuição pode estar acima do esperado com a distribuição log-normal.
O modelo log-”skew-normal”é estudado em Gomez et al. (2011) do qual o
modelo log-normal é um caso especial. Uma extensão do modelo log-normal
para o modelo log-”skew-normal”é considerado em Chai e Bailey (2008).
Contudo uma das dificuldades do modelo log − skew − normal (log-normal
assimétrico) é o fato de sua matriz de informação de Fisher ser singular. A
distribuição da estatı́stica da razão de verossimilhança para testar normalidade, por exemplo, não segue distribuição χ2 .
Como uma alternativa a estas situações, consideramos o modelo logpotência-normal (”log-power-normal”) (LPN), que contém como caso particular a distribuição log-normal. Uma vantagem deste modelo é que ele
contém um parâmetro de forma adicional, que o faz mais flexı́vel em termos
de assimetria e curtose para ajustar dados experimentais como os considerados nestas notas.
Dizemos que uma variável y, com suporte em R+ , segue uma distribuição
log-α-potência univariada com parâmetro α, que denotamos por Y ∼ LAP (α),
se a variável transformada X = log(Y ) ∼ AP (α).
A fdp de uma variavel Y ∼ LAP (α) pode ser escrita como
g(y; α) =
α
f (log(y)) {F (log(y))}α−1 ,
y
y ∈ R+ ,
(3.1)
onde F é uma função de distribuição absolutamente contı́nua com função
de densidade f = F 0 . Nos referimos a esta distribuição como log-α-potência
padrão.
No caso especial em que f = φ(·) e F = Φ(·), as funções de densidade e
de distribuição da normal padrão (N (0, 1)), respectivamente, a distribuição
log-potência-normal segue, com fdp dada por
g(y; α) =
α
φ(log(y)) {Φ(log(y))}α−1 ,
y
y ∈ R+ ,
(3.2)
que denotamos por Y ∼ LP N (α). Sua função de distribuição pode ser
escrita como
FY (y; α) = {Φ(log(y))}α ,
y ∈ R+ .
(3.3)
O método de inversão pode ser usado para gerar valores aleatórios da
variável com distribuição LP N (α). Isto é, se U ∼ U (0, 1), a distribuição
18
O MODELO TOBIT COM EXCESSO DE ZEROS
−1
3.3
1/α
da variável aleatória Y = eΦ (U ) é (log-potência-normal) LPN com
parâmetro α.
Seja X ∼ P N (µ, σ, α), onde µ ∈ R é um parâmetro de localização e
σ ∈ R+ é um parâmetro de escala. Então, a transformação X = log(Y )
leva ao modelo localização-escala log-potência-normal. Usamos a notação
Y ∼ LP N (µ, σ, α).
No caso particular em que α = 1, isto é,
log(Y ) − µ
∼ N (0, 1),
σ
pode-se mostrar que (depois de algumas manipulações algébricas que) a
matriz de informação de Fisher para θ = (µ, σ, α)0 é dada por


1/σ 2
0
a01 /σ
2/σ 2
a11 /σ  ,
I(θ) =  0
a01 /σ
a11 /σ
1
Z=
onde akj = E{z k (φ(z)/Φ(z))j } for k = 0, 1, 2, 3 e j = 1, 2, que coincide
com a matriz de informação de Fisher para a distribuição potência-normal
(Pewsey et al., 2012).
Assim, usando procedimentos numéricos, pode-se mostrar que
|IF (θ)| = [2 − (a211 + 2a201 )]/σ 4 6= 0,
de modo que a matriz de informação de Fisher é não singular para α = 1.0. A
matriz de informação completa também foi derivada. Então, para n grande,
A
θ̂ −→ N3 (θ, IF (θ)−1 ),
implicando na consistência e normalidade assintótica do EMV de θ, cuja
variância assintótica d́ada por IF (θ)−1 .
Como consequência desta propriedade importante, podemos testar (com
o modelo LPN) log-normalidade (isto é, H0 : LP N = LN ), usando propriedades para grandes amostras da estatı́stica da RV que segue distribuição
χ2 . Este não é o caso, por exemplo da distribuição LSN, para a qual a MIF
é singular. A escolha de um modelo conveniente pode ser feito através dos
valores de assimetria e curtose.
3.3
O modelo bernoulli/log-α-potência
Uma extensão importante do modelo log-potência-normal para a situação
de excesso de zeros é a extensão proposta em Cragg (1971), usualmente
3.3
O MODELO BERNOULLI/LOG-α-POTÊNCIA
19
chamado modelo de duas partes (two-part model), que estabelece uma maneira
de relaxar a restrição do truncamento no modelo tobit. Sob o modelo Cragg
(1971) a fdp de yi pode ser formalmente escrita como
g(yi ) = pi Ii + (1 − pi )f (yi )(1 − Ii ),
(3.4)
onde pi é a probabilidade determinando a contribuição relativa da massa
pontual na distribuição da mixtura, f é uma fdp com suporte positivo e,
Ii =
0, se yi > 0
1, se yi ≤ 0.
Neste modelo os dois componentes são determinados por processos estocásticos diferentes de modo que os componentes positivos vem da fdp f .
Por outro lado um zero vem da massa pontual. Este modelo não considera contudo um limite de deteção mı́nimo e que parte das observações está
abaixo deste limite.
Moulton e Halsey (1995) generalizam o modelo em duas partes permitindo que parte das resposta limites resultam de censura intervalar de f .
Isto significa que um zero pode vir da massa pontual ou pode ser um valor
de f não definido precisamente em (0, T ), com T constante. Formalmente,
g(yi ) = [pi + (1 − pi )F (T )]Ii + (1 − pi )f (yi )(1 − Ii ),
(3.5)
onde F é a fda de f.
Então, uma grande quantidade de modelos são produzidos variando a
densidade básica f e a função de ligação correspondente a pi . Diversos
modelos hı́bridos podem ser considerados como os modelos probit/potêncianormal, logit/log-normal, logit/log-gamma e probit/log-skew-normal. Estes
modelos foram considerados em aplicações práticas em biologia, economia,
agricultura e muitas outras àreas (Chai and Bailey, 2008). Note que se
pi = 0, i = 1, . . . , n, o modelo de Moulton e Halsey (1995) reduz-se ao modelo tobit usual (Tobin, 1958).
No caso da medição de concentração de anticorpos por diferentes laboratórios, e considerando yi a resposta para a unidade i, é tipicamente de
interesse a situação onde a distribuição de log(yi ) é função dos parâmetros
β0 , ..., βp que estão relacionados através do modelo linear
log(yi ) = β0 + β1 x1i + ... + βp xpi + i ,
20
O MODELO TOBIT COM EXCESSO DE ZEROS
3.3
onde i ∼ P N (0, σ, α) e x1 , ..., xp são constantes fixas e conhecidas.
Sob o modelo PN,
Z
E[i ] = ασ
1
Φ−1 (z)z α−1 dz 6= 0,
0
de modo que o valor esperado do termo do erro não é nulo como é o caso
sob normalidade.
Consequentemente, E[yi ] 6= x0i β e teremos que corrigir o parâmetro intercepto, isto é, β0∗ = β0 + µ , onde µ = E[i ]. Então,
E[yi ] = x0i β ∗ , onde β ∗ = (β0∗ , β1 , ..., βp )0 .
Consideramos agora extensões do modelo Bernoulli/LN para as situações
dos modelos logito/LPN e probito/LPN, juntamente com covariadas em
cada passo do modelo. Este desenvolvimento está apresentado em Martinez
et al. (2012a).
Inicialmente, suponhamos que todas as observações vem do modelo LPN
com parâmetros de localização e escala µ e σ, respectivamente, mas sem
covariadas. A contribuição para a verossimilhança de observações não censuradas, isto é, para y > T, pode ser representada como
α
φ [(log(y) − µ)/σ] {Φ[(log(y) − µ)/σ]}α−1 .
σy
Covariadas são introduzidas para ambas as partes do modelo, ou seja,
para as variáveis D e Y , de modo que considerando a ligação logito para a
variável D temos que
logit{P [D = 1|x(1) ]} = x0(1) β(1) ,
onde x(1) é o vetor de covariáveis de dimensão p, associados com o vetor de
parâmetros β(1) . Então, temos que
τi = 1 − pi =
exp(x0(1)i β (1) )
1 + exp(x0(1)i β (1) )
,
i = 1, . . . , n.
3.3
O MODELO BERNOULLI/LOG-α-POTÊNCIA
21
Correspondendo a parte LPN temos o vetor de covariáveis x(2) de dimensão q, possivelmente diferente de x(1) , onde temos o vetor de parâmetros
β(2) , para os quais
log(yi ) ∼ P N (x0(2)i β(2) , σ, α),
yi > 0.
Chamamos atenção para o fato que diferentes distribuições podem levar a
modelos de regressão mais informativos (Chai and Bailey, 2008).
O logaritimo da função de verossimilhança para θ = (β 0(1) β 0(2) , σ, α)0
dados X = (x1 , x2 ) e Y = (y1 , . . . , yn ), desprezando constantes não informativas, pode ser escrita como
X
`(θ; X, Y ) =
Ii {log[1 + exp(x0(1)i β (1) ){Φ(zT i )}α ]
i
− log[1 + exp(x0(1)i β (1) )]}
X
+
(1 − Ii ){log(α) − log(σyi )
i
h
i 1
+x0(1)i β (1) − log 1 + exp(x0(1)i β (1) ) − zi2 + (α − 1) log(Φ(zi ))},
2
0
log(T )−x(2)i β (2)
log(yi )−x0(2)i β (2)
onde
zT i =
e
z
=
.
i
σ
σ
Usando as equações acima, estimadores de máxima verossimilhança para
os parâmetros do modelo podem ser calculados. Como a MIF para o modelo LPN é não singular, inferência em grandes amostras para o modelo
Bernoulli/LPN podem ser implementadas para os EMV sob condições de
regularidades usuais onde o EMV é assintoticamente normal com média
θ e matriz de covariâncias igual a inversa da MIF, indicando otimalidade
assintótica. Pode-se considerar extensões do modelo acima como a presença
de interações.
Considerando agora o modelo probit para a variável de Bernoulli D,
temos que
pi = P [yi = 0] = Φ(−x0(1)i β (1) ) = 1 − Φ(x0(1)i β (1) )
e
log(yi ) ∼ AP N (x0(2)i β(2) , σ, α),
yi > 0.
22
O MODELO TOBIT COM EXCESSO DE ZEROS
3.4
O logaritimo da função de verossimilhança (função log-verossimilhança),
a menos de constantes, pode ser escrito como
`(θ; X, Y ) =
X
io
n h
Ii log 1 + Φ(x0(1)i β (1) ){{Φ(zT i )}α − 1} ,
i
+
X
(1−Ii ) log(α) − log(η) + log
Φ(x0(1)i β (1) )
i
onde
zT i =
log(T ) − x0(2)i β (2)
1 2
− zi + (α − 1) log(Φ(zi )) ,
2
log(yi ) − x0(2)i β (2)
e zi =
.
σ
σ
A função escore é obtida derivando-se a função de log-verossimilhança.
A função log-verossimilhança do modelo tobit (com T=c) considerando
que a distribuição do erro segue distribuição α-potência pode ser escrita
como
X
c−µ
`(θ; Y ) = α
(1 − Ii ) log F
+
σ
i
X yi − ξ
yi − µ
+ (α − 1) ln F
Ii log(α) − log(σ) + log f
σ
σ
i
onde
Ii =
1, se yi > c
0, se yi ≤ c.
Casos particulares importantes seguem tomando f = φ e f = tν (µ, σ 2 ).
3.4
Aplicação: dados do Haiti
Consideramos a ligação logito e a distribuição log-normal para parte positiva (incluindo respostas limitadas). Os dados são descritos em Moulton
and Halsey (1995).
Tabela 1 sintetiza resultados de estimação para os dados de vacinação
no Haiti sob diferentes modelos considerando ou não mistura e censura.
3.4
APLICAÇÃO: DADOS DO HAITI
23
Variáveis:
EZ (Tipo de vacina, 0: Schwarz, 1: Edmonston-Zagreb);
HI (dose, 0: médio, 1: alto);
FEM (sexo; 0: masculino, 1: feminino);
INT: Termo constante.
A tabela a seguir apresenta análises classica (EMV) e Bayesiana para os
dados acima, considerado o modelo Bernoulli/log-normal. As estimativas
das variâncias para o enfoque clássico são apresentadas em Moulton and
Halsey (1995) de onde se conclui que das variáveis consideradas no estudo,
TIPO e SEXO são significantes.
24
O MODELO TOBIT COM EXCESSO DE ZEROS
3.4
Tabela 3.1: Estimativas clássicas e Bayesianas
Modelo
Método
INT
A
B
C
D
E
F
G
Clas
Bay
Clas
Bay
Clas
Bay
Clas
Bay
Clas
Bay
Clas
Bay
Clas
Bay
1.198
1.227
1.178
1.226
0.732
0.813
0.765
0.910
0.648
0.678
Componente Bernoulli
EZ
HI
FEM
0.843
0.950
0.932
1.112
0.830
0.893
0.431
0.445
0.433
0.439
0.426
0.440
-0.166
-0.244
-0.281
-0.425
Componente log-normal Component
INT
EZ
HI
FEM
-0.979
-0.981
-1.287
0.340
0.182
0.115
-0.932
0.203
0.097
0.114
-0.273
-0.285
-0.327
-0.109
-0.037
0.290
-0.361
-0.083
-0.025
0.277
-0.274
-0.305
-0.304
-0.192
-0.063
0.329
-0.353
-0.199
-0.055
0.339
-0.404
0.279
-0.421
0.266
Tabela 3.2: Ajustes MV e Bayesianos
Modelo −2 × loglik
DIC
pD
A
1115.830
136.600 1.89
B
1113.180
120.560 5.17
C
1079.320
101.800 2.7
D
1075.620
104.500 5.79
E
1068.720
95.560 5.08
F
1063.360
94.470 9.07
G
1065.810
93.840 5.42
Estimadores dos parâmetros para ajustes da mistura logito/LN com um
e dois componentes considerando inferência clássica e Bayesiana para os
dados do Haiti.
Comparações para dados do Haiti considerando inferência clássica e
Bayesiana. Note que existe discordância entre os resultados clássicos e
Bayesianos quanto ao ajuste do modelo. Para o enfoque Bayesiano, o melhor
modelo é o modelo G (mais completo), enquanto que para o enfoque clássico
o modelo que melhor se ajusta é o modelo F.
A tabela a seguir apresenta resultados do ajuste Bayesiano dos modelos log-normal e log-potência-normal incluindo as estimativas dos desvios
padrões. Note que o enfoque Bayesiano tanto para os modelos log-normal
como log-potência-normal indicam significância das variáveis TIPO e SEXO.
Para o modelo completo, Moulton e Halsey (1995) obtiveram os seguintes
estimativas (Estimativa/DP):
3.5
APLICAÇÃO: DADOS DE MROZ
25
Tabela 3.3: Ajustes log-potência-normal e log-normal
Model
parameters
α
β(1)0
β(1)1
β(1)2
β(1)3
β(2)0
β(2)1
β(2)2
β(2)3
σ
τ
Dbar
DIC
EAIC
EBIC
mean
0.91
1.15
0.44
-0.42
-0.35
-0.20
-0.06
0.35
1.18
0.73
Log-Normal
MC error
P5
0.009
0.058
0.009
0.009
0.004
0.005
0.003
0.003
0.003
0.003
7687.00
7693.00
7705.00
7739.19
0.42
0.50
-0.06
-1.02
-0.66
-0.48
-0.34
0.07
1.06
0.57
P95
1.45
1.92
0.99
0.13
-0.07
0.08
0.22
0.63
1.32
0.89
mean
16.69
0.72
0.86
0.38
-0.26
-3.43
-0.14
0.01
0.25
1.87
0.30
Log-Potência-Normal
MC error
P5
P95
0.600
3.55
38.38
0.009
0.30
1.18
0.011
0.39
1.35
0.008
-0.07
0.85
0.009
-0.74
0.20
0.047
-4.94
-1.70
0.005
-0.37
0.10
0.005
-0.21
0.26
0.006
0.01
0.50
0.009
1.48
2.21
0.004
0.21
0.46
7681
7687
7701
7739.0
Componente Bernoulli: β̂(1)0 = .77(2.77), β̂(1)1 = .93(2.82), β̂(1)2 =
.43(1.48), β̂(1)3 = −.28(2.82)
Componente log-normal: β̂(2)0 = −.31(−1.89), β̂(2)1 = −.19(−1.20),
β̂(2)2 = −.06(−.40), β̂(2)3 = −.33(2.06).
Temos, portanto que os resultados clássicos e Bayesianos concordam
quanto a significância dos parâmetros, havendo contudo diferença no melhor
modelo ajustado. O enfoque Bayesiano recomenda o modelo G.
3.5
Aplicação: dados de Mroz
Consideramos os dados de Mroz (1987), que analisa as informações de 753
mulheres casadas com idade entre 30 e 60 anos, com interesse na relação
entre a oferta de trabalho e outras covariáveis, no ano de 1975. Para obter
os dados, basta entrar no R com
> library(sampleSelection)
> data(Mroz87)
26
3.5
O MODELO TOBIT COM EXCESSO DE ZEROS
As variáveis utilizadas no artigo são: Horas de trabalho (variável resposta), salário que não é devido ao trabalho da mulher, anos de educação,
anos de experiência de trabalho, idade da mulher, número de crianças menores
que 6 anos, nḿero de crianças entre 6 e 18 anos.
Tabela 3.4:
Bernoulli
Estimadores Bayesianos para parâmetros do componente
Parâmetro
β1(1)
β1(2)
β1(3)
β1(4)
β1(5)
β1(6)
β1(7)
β1(8)
Média
-0.05
-0.54
5.10
-3.80
6.50
11.90
1.54
9.3
D.P.
9.761
9.68
7.753
6.283
5.866
5.417
11.62
6.069
Q2.5%
-19.31
-19.74
-12.41
-9.98
-8.25
0.023
-17.59
-0.61
Q97.5%
19.27
18.46
19.73
16.94
14.48
18.94
22.21
20.6
Note que H0 : β1(6) 6= 0 é significante, de modo que existe indicação de
que existe excesso de zeros nos dados de Mroz (1976).
Tabela 3.5:
contı́nuo
Estimadores Bayesianos para parâmetros do componente
Parâmetro
β2(1)
β2(2)
β2(3)
β2(4)
β2(5)
β2(6)
β2(7)
β2(8)
Média
0.8324
-5.715
3.111
-8.74
23.23
-6.308
38.18
0.7323
D.P.
9.921
9.885
9.462
3.444
8.355
4.128
7.592
0.3108
Q2.5%
-19.0
-25.39
-15.05
-15.58
6.486
-14.13
21.87
0.168
Q97.5%
20.02
13.8
21.65
-1.978
39.15
1.763
52.86
1.389
Temos também que σ̂ = 1223, 0. Note que váriáveis significantes para a
parte contı́nua são 1, 4, 5 e 6. Para a parte discreta (pontual), temos que
a variável X5 é significativa ao nı́vel de 5%, indicando que existe excesso de
zeros nos dados de Mroz.
Capı́tulo 4
Modelo α-potência
inflacionado de zeros e/ou
uns
Neste capı́tulo consideramos distribuições potência para modelar proporções
ou taxas com inflação de zeros e/ou uns como uma alternativa ao modelo de regressão beta. Os modelos considerados são misturas de processos
de Bernoulli para explicar o excesso de zeros e/ou uns e uma distribuição
potência-normal limitada para explicar a resposta contı́nua. Consideramos
os enfoques de máxima verossimilhança e Bayesiano para a estimação dos
parâmetros. Matrizes de informação observadas (MIO) e esperadas (MIF)
são derivadas, ilustrando aspectos interessantes destes modelos.
Dada a flexibilidade da distribuição potência-normal, pode-se mostrar
em um cenário prático que o modelo tobit modificado pode ser mais preciso
que o modelo de regressão beta.
4.1
Modelos duplamente censurados
Modelos estatı́sticos usados para explicar variáveis respostas no intervalo
(0, 1) tem recebido considerável atenção na literatura estatı́stica recente.
Entre outros, mencionamos, Ferrari e Cribari-Neto (2004), Brascum et al.
(2007) e Bayes et al. (2012). Extensões deste modelos para situações com
respostas no intervalos [0, 1], [0, 1) e (0, 1] são estudadas em Ospina e Ferrari
27
28
MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS
4.2
(2010). Variáveis deste tipo incluem, por exemplo, a proporção de mortes
causadas pelo cigarro, a proporção de impostos gastos na educação, a proporção de renda familiar gasta em alimetação, etc.
A situação da variável resposta com inflação de zeros e uns é relatado em
um conjunto de dados sobre a porcentagem de mortes não explicadas nos
municı́pios brasileiros durante o ano 2000 entre crianças com menos de uma
ano de idade. Das 5561 observações coletadas, tem-se um total de 3367 zeros
e 174 uns, que certamente deve ser incorporado no estudo. Para tratar deste
cenário mais complexo uma extensão do modelo de regressão beta usual foi
considerado in Ospina (2008) e Ospina e Ferrari (2010), levando a resultados
bastante satisfatórios.
Neste capı́tulo, propomos um enfoque alternativo ao descrito acima.
Ele é uma extensão do modelo tobit censurado (Tobin, 1956) no intervalo [0, 1], para incorporar inflação de zeros e/ou uns. É considerado que
parte dos zeros e/ou uns vem de uma variável Bernoulli ligando possı́veis
excessos de zero e/ou uns com um grupo de covariáveis que podem influenciar na probabilidade de de ocorrência de tais valores. Por outro lado,
as resposta contı́nuas podem ser modeladas usando a distribuição potêncianormal (Gupta e Gupta, 2008, Pewsey et al., 2012), que são mais flexı́veis
que a distribuição normal em termos de assimetria e curtose com EMVs bem
comportados para os quais as condições de regularidade estão satisfeitas.
Além disso, a extensão do modelo tobit que propomos consiste em substituir a fda da distribuição normal pela fda da distribuição potência-normal
que é quase tão simples de se trabalhar quanto o modelo normal usual. Uma
alternativa é usar a distribuição normal assimétrica que apresenta as dificuldades já mencionadas anteriormente e além disso tem fda não tão simples
de ser trabalhada.
Definimos inicialmente o modelo tobit-potência-normal (TPN) duplamente censurado no intervalo (0, 1), extendendo o modelo tobit usual para
situações duplamente censuradas. A seguir o modelo é extendido para
situações com excesso de zeros e/ou uns. Situações com dados reais são analisadas. Introduzimos o modelo Bernoulli/tobit-potência-normal (Bernoulli/TPN),
onde se trata o problema de estimação do ponto de vista Bayesiano.
4.3
4.2
DISTRIBUIÇÕES PN PARA DADOS CENSURADOS
29
Distribuições PN para dados censurados
Em uma situação duplamente censurada, a variável resposta é restrita a
tomar valores em um intervalo, e eventualmente pode tomar os valores limites para parte significante dos dados. Os valores limites são usualmente
chamados de limites de deteção mı́nimo (LDm) e máximo (LDM), respectivamente. Temos então o modelo tobit duplamente censurado.
O modelo tobit usual pode não ser adequado em situações onde os valores
observados para a parte contı́nua dos dados apresentam assimetria e curtose
maior do que é esperado para o modelo normal. Em tais situações, o modelo
potência-normal pode ser uma alternativa viável.
4.3
Modelo potência-normal duplamente censurado
Suponhamos que y ∗ ∼ P N (ξ, η; α). Considere uma amostra de tamanho n,
(y1∗ , y2∗ , ..., yn∗ ) e que somente parte dos valores de y ∗ está entre constantes
c0 e c2 . Para valores de y ∗ ≤ c0 somente o valor c0 é relatado enquanto
que para valores de y ∗ ≥ c2 , somente o valor c2 é relatado. Podemos então
escrever os dados observados como

∗

c0 , se yi ≤ c0 ,
yi = yi∗ , se c0 < yi∗ < c2 ,


c2 , se yi∗ ≥ c2 ,
i = 1, 2, ..., n.
A amostra resultante é dita ser uma amostra PN duplamente censurada.
Para observações yi = c0 , temos que
P [yi = c0 ] = P [yi∗ ≤ c0 ] = {Φ (z0 )}α ,
onde z0 = (c0 − µ)/σ; com yi∗ = c2 temos
P [yi = c2 ] = P [yi∗ ≥ c2 ] = 1 − {Φ (z2 )}α ,
onde z2 = (c2 − µ)/σ. Para respostas contı́nuas, isto é, c0 < yi∗ < c2 , temos
que yi ∼ P N (µ, σ, α). Denotamos esta variável por P N DC(µ, σ, α).
Particularmente, para α = 1, o modelo se reduz ao modelo tobit duplamente censurado.
30
4.3
MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS
P P
P
Denotando por 0 , 1 and 2 , as somas correspondendo a y ∗ ≤ c0 ,
c0 < yi∗ < c2 e y ∗ ≥ c2 respectivamente, então, o logaritimo da função de
verossimilhança correspondente a uma amostra de tamanho n para estimar
θ = (µ, σ, α)0 pode ser escrita como
X
X
`(θ; Y) = α
log [Φ (z0 )] +
log [1 − {Φ (z2 )}α ]
0
+
X
2
{log(α) − log(σ) + log (φ (z1i )) + (α − 1) log (Φ (z1i ))} ,
1
onde zi = (yi − µ)/σ, i = 1, . . . , n.
Portanto, os elementos da função escore são dados por
U (ξ) = −
1X
1X
1X
r(z0 ) +
{z1i − (α − 1)w1i } +
h(z2 ),
σ
σ
σ
0
1
2
1X
1X
1 X
2
r(z0 )z0 +
−1 + z1i
− (α − 1)z1i w1i +
z2 h(z2 ),
σ
σ
σ
0
1
2
X
X1
X
U (α) =
log [Φ (z0 )]+
+ log (Φ (z1i )) −α−1
log(Φ(z2 ))w2−1 h(z2 ),
α
U (η) = −
0
1
2
onde
z0 =
c0 − µ
,
σ
z2 =
c2 − µ
,
σ
z1i =
yi − µ
,
σ
w2 =
φ(z2 )
,
Φ(z2 )
w1i =
φ(z1i )
,
Φ(z1i )
e h e r são as funções de risco, r(t) = φ(t)/Φ(t), e risco inverso h(t) =
φ/(1 − Φ(t)).
Pode-se mostrar que as elementos da matriz de informação observada
são dados por
jµµ =
1 X
r(z0 ){z0 + α−1 r(z0 )}
η2
0
1 X
2
+ 2
{1 + (α − 1)[z1i w1i + w1i
]}
σ
1
1 X
+ 2
{h(z2 )[−z2 + (α − 1)w2 + h(z2 )]},
σ
2
4.4
MODELO POTÊNCIA-NORMAL DUPLAMENTE CENSURADO
jσµ =
31
1 X
r(z0 ){−1 + z02 + α−1 z0 r(z0 )}
η2
0
1 X
2
2
{2z1i + (α − 1)[−w1i + z1i
w1i + z1i w1i
]}
+ 2
σ
1
1 X
{h(z2 )[1 − z22 + (α − 1)z2 w2 + z2 h(z2 )]},
+ 2
σ
2
jσσ =
1 X
r(z0 ){−2z0 + α−1 z02 r(z0 ) + z03 r(z0 )}
σ2
0
1 X
+ 2
{z2 h(z2 )[2 − z22 + (α − 1)z2 w2 + z2 h(z2 )]}
σ
2
1 X
2
2 2
3
{−1 + 3z1i
+ (α − 1)[−2z1i w1i + z1i
w1i + z1i
w1i ]},
σ2
1
1X
1X
1 X
r(z0 ) +
w1i −
{h(z2 )[α−1
ασ
σ
σ
jαµ =
0
1
2
+ log(Φ(z2 ))[1 + w2 ]]},
jασ =
1 X
z0 r(z0 )
ασ
0
1X
1X
+
z1i w1i −
{z2 h(z2 )[α−1 + log(Φ(z2 ))[1 + w2 ]]},
σ
σ
1
jαα =
2
X
1 X
−2
1
+
α
{w2−2 log(Φ(z2 ))h(z2 )[αw2 + h(z)]}.
2
α
1
2
Baseado na função escore, os elementos da matriz de informação observada
dos parâmetros do modelo podem ser estimados usando algoritmos iterativos.
A MIF segue tomando-se esperanças dos componentes acima (multiplicados
por n−1 ), é importantante no sentido de que a distribuição assintótica do
estimador de máxima verossimilança é normal com variância assintótica que
é o o inverso da MIF. Temos também que a MIF é não singular.
32
MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS
4.4
4.5
A transformação logarı́tmica
No caso de variáveis respostas tomando somente valores positivos, podemos
considerar a transformação Z = log(Y ), onde Z ∼ N (µ, σ 2 ).
Considerando agora que Z ∼ P N (µ, σ, α), nos obtemos o modelo logpotência-normal com parâmetros µ, σ e α, denotado por Y ∼ LP N (µ, σ, α).
A fdp para este modelo pode ser escrita como: ϕLP N (y; µ, σ, α) = ϕΦ (log(y); µ, σ, α)/y,
y > 0. A fda correspondente é dada por FY (y; α) = {Φ((log(y) − µ)/σ)}α .
Se os dados censurados em [0, ∞), com alta assimetria positiva podemos
substituir y por y + 1 dado que o logaritmo de c0 = 0 não existe.
Para dados duplamente censurados usamos a notação LP N DC(µ, σ, α).
A função log-verossimilhança para o modelo LPNDC com c0 = 0 é dado
por
`LP N (θ; Y) = −
X
log(y + 1) + `(θ; log(Y + 1)),
1
onde `(.) é a log-verossimilhança para o modelo PNDC, com z0 = −µ/σ,
z1i = (log(yi + 1) − µ)/σ e z2 = (log(c2 + 1) − µ)/σ. A função escore e
a matriz de informação observadas podem ser obtidas das correspondentes
para o modelo PNDC, substituindo h(z2 ) por hLP N (z2 ) = h(log(c2 + 1))/y e
r(z0 ) por rLP N (z0 ) = r(z0 )/y onde h(.) e r(.) são as funções de risco e risco
inverso do modelo PN.
4.5
O modelo Bernoulli duplamente censurado com
mistura potência-normal
Para as variáveis resposta distribuı́das no intervalo [0, 1] (c0 = 0 e c2 = 1)
o modelo tobit duplamente censurado pode não ser ótimo porque o excesso
de zeros e uns pode requerer modelos assimétricos capazes de captar tais
caracteristicas especiais.
Introduzimos então o modelo de mistura entre as variáveis resposta discreta e contı́nuas que segue o modelo potência-normal.
Consideramos que a massa pontual no zero pode ser modelada por uma
variável de Bernoulli com parâmetro γ, isto é, Ber(y; γ), e que a resposta
no intervalo (0, 1) pode ser modelada por uma distribuição α-potência (ou
log-α-potência) com parâmetro θ = (µ, σ, α)0 . A fdp correspondente para
este modelo pode ser escrita como
4.6
ESTIMAÇÃO


p(1 − γ),
,µ,σ,α)
g(yi ) = (1 − p) {F (zϕ2F)}(yαi−{F
(z0 )}α ,


pγ,
33
se yi = 0,
se 0 < yi < 1,
se yi = 1,
onde 0 < p, γ < 1, σ, α > 0 e µ ∈ R.
Temos também que se ϕF (yi , µ, σ, α) denota a fdp da distribuição potêncianormal. Como consequência da construção acima pode-se notar que P [y =
0] = p(1 − γ) e P [y = 1] = pγ. A fda de yi pode ser escrita como


p(1 − γ),
{F (zi )}α −{F (z0 )}α
FY (yi ; µ, σ, α) = p(1 − γ) + (1 − p) {F
(z2 )}α −{F (z0 )}α ,


1,
4.6
se yi ≤ 0,
se 0 < yi < 1,
se yi ≥ 1.
Estimação
Consideramos inicialmente que F = Φ, a fda da distribuição normal, de
modo que temos uma mistura entre a variável aleatória de Bernoulli com
parâmetro γ e a distribuição P N (µ, σ, α)). Denotamos este modelo por
M BP N (p, γ, µ, σ, α). Logo, para uma amostra de tamanho n,
= (y1 , . . . , yn )T
Py
n
da distribução M BPP
N (p, γ, µ, σ, α), denotamos por n0 = i=1 I0 (y), n1 =
P
n
n
I
(y)
e
n
=
01
i=1 I0,1 (y), onde IA (y) é a função indicadora do coni=1 1
junto A.
Assim, a função log-verossimilhança para θ = (p, γ, µ, σ, α) dado Y pode
ser escrita como:
`(θ; Y) = n01 log(p) + (n − n01 ) log(1 − p) + n1 log(γ) + n0 log(1 − γ)
X
{log(α) − log(σ) + log(φ(zi )) + (α − 1) log(Φ(zi ))
1
− log({Φ(z2 )}α − {Φ(z0 )}α )},
onde, zi = (yi − µ)/σ, i = 1, . . . , n.
Portanto, usando um enfoque similar ao de Pewsey et al. (2012), a
primeira derivada com respeito a p, γ, µ, σ e α pode ser escrita como
34
4.7
MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS
U (p) =
n01 n − n01
−
,
p
1−p
U (γ) =
U (ξ) = (n − n01 )
(
U (η) = −(n − n01 )
n1
n0
−
,
γ
1−γ
z − (α − 1)w
ϕΦ (c2 , θ) − ϕΦ (c0 , θ)
+
η
{Φ(z2 )}α − {Φ(z0 )}α
,
1 − z 2 + (α − 1)zw z2 ϕΦ (c2 , θ) − z0 ϕΦ (c0 , θ)
−
η
{Φ(z2 )}α − {Φ(z0 )}α
)
{Φ(z2 )}α log(Φ(z2 )) − {Φ(z0 )}α log(Φ(z0 ))
1
U (α) = (n − n01 ) u + −
α
{Φ(z2 )}α − {Φ(z0 )}α
,
,
onde wi = φ(zi )/Φ(zi ) e ui = log{Φ(zi )}, i = 1, . . . , n.
Então, o EMV para o parâmetro θ = (µ, σ, α)0 , é obtido resolvendo o sistema
de equações que seguem de igualar os escores acima a zero.
1
Então, obtemos as soluções para p̂ = nn01 , γ̂ = nn01
, correspondendo,
respectiveamente, a proporções de zeros e uns na subamostra de zeros e uns.
Segue que p̂ é um estimador não viciado para p. Para θ1 = (µ, σ, α)0 , o
sistema de equações não tem solução analı́tica, sendo portanto resolvida por
métodos numéricos.
4.7
Matriz de informação observada
Calculando a derivada segunda da log-verossimilhança obtemos os elementos
jpp , jγp , jγγ , jξξ , jξη , . . . , jαα , dados em Martinez et al. (2012b).
Pode-se mostrar que a matriz de informação esperada (MF) para θ =
(p, γ, µ, σ, α)0 é dada por



I(θ) = (1 − p) 


1
p(1−p)2
0
0
0
0
0
p
γ(1−γ)(1−p)
0
0
0
0
0
0
0
0
0
iµµ
iµσ
iµα
iµσ
iσσ
iσα
iµα
iσα
iαα ,






4.7
MATRIZ DE INFORMAÇÃO OBSERVADA
35
onde os seus elementos são dados em Martinez et al. (2012b).
Deste resultado segue que os parâmetros (p, γ)0 e (µ, σ, α)0 são ortogonais, de modo que a MIF é ortogonal em blocos, e pode ser escrita como
n
o
p
1
I(θ) = Diag{Ip,γ , Iµ,σ,α }, onde Ip,γ = Diag p(1−p)
, γ(1−γ)
.
Portanto, para n grande,
A
θ̂ → N5 (θ, Σθθ ),
implicando que θ̂ é consistente e assintoticamenete normal com matriz de co−1 , I −1 } = Diag{Σ , Σ
variâncias assintóticas Σθθ = I(θ)−1 = Diag{Ip,γ
p,γ
µ,σ,α }.
µ,σ,α
Note que parâmetros nos blocos podem ser estimados separadamente.
A aproximação normal N5 (θ, Σ(θ)) pode ser usada para construir intervalos de cofiança paraqθr , com coeficiente de confiança γ = 1 − α que são
dados por θˆr ∓ z1−α/2 σ̂(θˆr ), com os EMV e quantis da normal correspondentes.
Considerando a reparametrização δ1 = pγ e δ0 = pδ1 podemos escrever
o modelo como

se yi = 0,

δ0 ,
ϕΦ (yi ,ξ,η,α)
g(yi ) = (1 − δ0 − δ1 ) {Φ(z2 )}α −{Φ(z0 )}α , se 0 < yi < 1,


δ1 ,
se yi = 1,
onde 0 < δ0 = P [yi = 0], δ1 = prob[yi = 1] < 1 e 0 < δ0 + δ1 < 1.
A função log-verossimilhança para θ = (δ0 , δ1 , µ, σ, α)0 dado y é dada
por
`(θ; Y) = n0 log(δ0 ) + n1 log(δ1 ) + (n − n01 ) log(1 − δ0 − δ1 )
X
+
{log(α) − log(σ) + log (φ (zi ))
1
+(α − 1) log (Φ (zi )) − log({Φ(z2 )}α − {Φ(z0 )}α )},
os elementos do escore são:
36
4.7
MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS
U (δ0 ) =
n0
n − n01
−
,
δ0
1 − δ0 − δ1
U (δ1 ) =
n − n01
n1
−
,
δ1
1 − δ0 − δ1
U (µ) = (n − n01 )
(
U (σ) = −(n − n01 )
z − (α − 1)w
ϕΦ (c2 , θ) − ϕΦ (c0 , θ)
+
η
{Φ(z2 )}α − {Φ(z0 )}α
,
1 − z 2 + (α − 1)zw z2 ϕΦ (c2 , θ) − z0 ϕΦ (c0 , θ)
−
σ
{Φ(z2 )}α − {Φ(z0 )}α
)
1
{Φ(z2 )}α log(Φ(z2 )) − {Φ(z0 )}α log(Φ(z0 ))
U (α) = (n − n01 ) u + −
α
{Φ(z2 )}α − {Φ(z0 )}α
,
.
Das primeiras duas equações, obtem-se δ̂0 = n0 /n, proporção de zeros e
δ̂1 = n1 /n, a proporções de uns na amostra. Parâmetros restantes devem
ser estimados numericamente.
A MIF pode ser escrita como
I(θ) = Diag{Iδ0 ,δ1 , Iµ,σ,α },
onde os elementos de Iδ0 ,δ1 são dados por
iδ0 δ0 =
1 − δ1
,
δ0 (1 − δ0 − δ1 )
iδ1 δ0 =
1
1 − δ0 − δ1
e
iδ1 δ1 =
1 − δ0
,
δ1 (1 − δ0 − δ1 )
com Iµ,σ,α computado para o modelo M BP N (p, γ, µ, σ, α). Também temos
ortogonalidade.
4.8
37
MODELOS CENSURADOS PARA INFLAÇÃO DE ZEROS E UNS
Para n grande,
A
θ̂ → N5 (θ, Σθθ ),
com θ̂ consistente e assintoticamente normal, com
−1
Σθθ = I(θ)−1 = Diag{Iδ−1
, Iµ,σ,α
} = Diag{Σδ0 ,δ1 , Σµ,σ,α }
0 ,δ1
a varıância do EMV em grandes amostras.
4.8
Modelos censurados para inflação de zeros e
uns
Casos particulares são inflação de uns e zeros separadamente. Para o caso
de inflação de zeros, temos
(
δ0 ,
se yi = 0,
g(yi ) =
ϕΦ (yi ,µ,σ,α)
(1 − δ0 ) {Φ(z2 )}α −{Φ(z0 )}α , se 0 < yi ≤ 1.
onde 0 < δ0 = P [yi = 0] e 0 < δ0 < 1.
A função log-verossimilhança para θ = (δ0 , µ, σ, α)0 dado y é dada por
`(θ; Y) = n0 log(δ0 ) + (n − n0 ) log(1 − δ0 )
X
+
{log(α) − log(σ) + log (φ (zi ))
1
+(α − 1) log (Φ (zi )) − log({Φ(z2 )}α − {Φ(z0 )}α )},
de modo que os elementos da função escore são dados por
U (δ0 ) =
U (µ) = (n − n0 )
(
U (σ) = −(n − n0 )
n0 n − n0
−
,
δ0
1 − δ0
z − (α − 1)w
ϕΦ (c2 , θ) − ϕΦ (c0 , θ)
+
σ
{Φ(z2 )}α − {Φ(z0 )}α
,
1 − z 2 + (α − 1)zw z2 ϕΦ (c2 , θ) − z0 ϕΦ (c0 , θ)
−
σ
{Φ(z2 )}α − {Φ(z0 )}α
)
,
1
{Φ(z2 )}α log(Φ(z2 )) − {Φ(z0 )}α log(Φ(z0 ))
U (α) = (n − n0 ) u + −
.
α
{Φ(z2 )}α − {Φ(z0 )}α
38
4.9
MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS
Da primeira equação, obtemos o estimator δ̂0 = n0 /n, a proporção de zeros na amostra. Os parâmetros remanecentes requerem metódos numéricos.
Para o caso de inflação de uns, temos
(
δ1 ,
se yi = 1,
g(yi ) =
ϕΦ (yi ,µ,σ,α)
(1 − δ1 ) {Φ(z2 )}α −{Φ(z0 )}α , se 0 ≤ yi < 1,
onde 0 < δ1 = P [yi = 1] e 0 < δ1 < 1, levando a log-verossimilhança para
θ = (δ1 , µ, σ, α)0 dado y pode ser escrita como:
`(θ; Y) = n1 log(δ1 ) + (n − n1 ) log(1 − δ1 )
X
+
{log(α) − log(σ) + log(φ(zi ))
1
+(α − 1) log(Φ(zi )) − log({Φ(z2 )}α − {Φ(z0 )}α )},
de modo que os elementos da função escore são dados por
U (δ1 ) =
U (µ) = (n − n1 )
(
U (σ) = −(n − n1 )
n1 n − n1
−
,
δ1
1 − δ1
z − (α − 1)w
ϕΦ (c2 , θ) − ϕΦ (c0 , θ)
+
σ
{Φ(z2 )}α − {Φ(z0 )}α
,
1 − z 2 + (α − 1)zw z2 ϕΦ (c2 , θ) − z0 ϕΦ (c0 , θ)
−
σ
{Φ(z2 )}α − {Φ(z0 )}α
)
1
{Φ(z2 )}α log(Φ(z2 )) − {Φ(z0 )}α log(Φ(z0 ))
U (α) = (n − n1 ) u + −
α
{Φ(z2 )}α − {Φ(z0 )}α
,
.
Da primeira equação, obtemos o estimador δ̂1 = n1 /n, a proporção de
uns na amostra. Os outros parâmetros são estimados numericamente.
4.10
4.9
MISTURA BERNOULLI/LPN
39
Mistura Bernoulli/LPN
Considerando agora ϕF (yi , µ, σ, α)0 como a fdp do modelo LPN, o modelo
Bernoulli/LPN é obtido, que denotamos por M BLP N (p, γ, µ, σ, α). O modelo é importante na modelagem de dados com mais assimetria e curtose que
os correspondentes da distribuição normal.
A função de log-verossimilhança do modelo reparametrizado pode ser
escrita como
`M BLP N (θ; Y) = −
X
log(yi ) + `(θ; log(Y )),
1
onde `(.) é a função de log-verossimilhança do modelo MBPN e log(Y ) =
(log(y1 ), ..., log(yn ))0 . A função escore são como dadas para o modelo MBPN
model, onde zi = (log(yi ) − µ)/σ, i = 1, . . . , n.
4.10
Ilustração com dados reais
Nesta seção illustramos a utilidade das distribuições LPNDC e MBLPN para
o ajuste de dados reais. O conjunto de dados que analizamos corresponde
a proporção de mortes de crianças de menos de um ano por causa não esclarecidas nos 5561 municı́pios Brasileiros. Dados estão disponı́veis para
”download”no site http:www.datasus.gov.br. O conjunto de dados contém
3367 zeros (mortes esclarecidas) e 174 uns (mortes não esclarecidas).
Ospina (2008), desenvolve um modelo baseado na regressão beta para
modelar este tipo de dados com inflação de zeros e/ou uns. Como em Ospina (2008) assumimos a mistura de uma variável de Bernoulli para modelar
a parte discreta com a regressão beta para a parte contı́nua (entre zero e
um), que é denotada por BIZU (δ0 , δ1 , ξ, η). Para estimar os parâmetros do
modelo BIZU, a rotina GAMLSS no programa R pode ser usado. Nós desenvolvemos programas no R para ajustar modelos LPNDC e para o modelo
reparameterizado MBLPN.
Dada presença de ortogonalidade entre os subconjuntos dos parâmetros
para os modelos mistos, estimadores de máxima verossimilhaça para os
parâmetros δ0 e δ1 para os modelos BIZU e MBLPN coincidem e são dados por δ̂0 = 0.6055(0.0066) e δ̂1 = 0.0313(0.0023). Para a parte contı́nua,
40
MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS
4.11
os EMV sob o modelo BIZU são dados por µ̂ = 0.2974(0.0043) e σ̂ =
0.4562(0.0050). Por outro lado, para o modelo MBLPN os EMVs são dados
por µ̂ = −0.6779(0.0419), σ̂ = 0.4289(0.00001) e α̂ = 29.8227(1.1484).
Para o caso do modelo LPNDC, temos os seguintes EMVs µ̂ = −0.8137(0.1065),
η̂ = 0.5834(0.0259) e α̂ = 5.8809(1.4062). A porcentagem de zeros e uns na
amostra são 0.6055 e 0.0313, respectivamente, e da função de distribuição
acumulada obtem-se 0.6063 e 0.0284, respectivamente, revelando bom ajuste
do modelo.
EMVs para os parâmetros no modelo NDC são dados por µ̂ = −0.1556(0.0104)
e σ̂ = 0.5420(0.0099), enquanto que para o modelo LNDC as EMVs são dados por µ̂ = −0.1375(0.0068) e σ̂ = 0.3239(0.0057). Por outro lado, para
o modelo PNDC são dados por ξˆ = −0.9895(0.1447), η̂ = 0.7394(0.0335) e
α̂ = 5.2200(1.3687).
4.11
Testando modelos disjuntos
Para comparar os modelos MBLPN e LPNDC contra o modelo BIZU, um
enfoque para modelos disjuntos deve ser utilizado. Sendo Fθ e Gγ dois
modelos disjuntos, e f (yi |xi , θ) e g(yi |xi , β) as densidades correspondentes,
a estatı́stica da razão de verossimilhanças pode ser escrita como
LR(θ̂, β̂) ≡ `f (θ̂) − `g (β̂) =
n
X
log
i=1
f (yi |xi , θ̂)
g(yi |xi , β̂)
,
que não segue distribuição quiquadrado em grandes amostras.
Consideramos a proposta de Vuong (1989) baseada na divergência de
Kullback-Leibler (Kullback e Leibler, 1951). Baseando-se na distância entre
cada modelo e o verdadeiro processo gerando os dados, ou seja, h0 (yi , Xi ),
temos a estatı́stica
1 LR(θ̂, β̂)
TLR,N N = √
,
ω̂ 2
n
onde
n
1X
f (yi |xi , θ̂)
ω̂ =
log
n
g(yi |xi , β̂)
i=1
2
!2
n
−
1X
f (yi |xi , θ̂)
log
n
g(yi |xi , β̂)
i=1
!!2
4.12
CONCLUSÕES
é um estimator para a variância de
41
√1 LR(θ̂, β̂).
n
Mostra-se que, quando n → ∞,
d
TLR,N N → N (0, 1)
sob
f (yi |xi , θ)
H0 : E log
= 0,
g(yi |xi , β)
isto é, os modelos são equivalentes. Ao nı́vel de 5%, sendo z0.025 o valor
crı́tico, rejeitamos a equivalência se TLR,N N > z0.025 , (ou se TLR,N N <
−z0.025 ).
Para os dados em estudo, sendo Fθ a fda do modelo LPNDC e Gβ , do
modelo BIZU, o enfoque de Vuong leva ao valor observado TLR,N N = 21.8608
que é maior que o valor crı́tico z0.025 = 1.96 de modo que BIZU é o melhor
dos dois modelos.
De maneira similar, comparando os modelos MBLPN e BIZU, temos
que TLR,N N = −19.4777, favorecendo o modelo MBLPN levando então a
conclusão de que o modelo MBPLN produz melhor ajuste para os dados em
questão.
4.12
Conclusões
Discutimos uma alternativa para a regressão beta para a situação inflacionada de zeros e uns. O enfoque é baseado em uma extensão do modelo tobit com excesso de zeros que está desenvolvida em Moulton e Halsey
(1995). Parâmetros são estimados por MV e a matriz de informação observada (Hessiana) é usada para estimar variâncias assintóticas. Aplicação
a dados reais indica melhor desempenho do modelo proposto MBPLN, superando o modelo BIZU.
42
MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS
4.12
Capı́tulo 5
Modelos bimodais
censurados
Em estudos antiretrovirais de HIV, a concentração viral tem limite de deteção
(mı́nimo) podendo ser 20 ou de 50 copias por mililı́tro. O HIV-1 RNA
tem tipicamente dois valores modais correspondendo as concentrações virais
ótimas e subotimas, respectivamente. Os modelos podem ser vistos como extensões diretas do modelo tobit censurado adequados para o ajuste de dados
unimodais e bimodais simétricos e assimétricos. Assim, os modelos estendem o modelo tobit usual para situações bimodais simétricas e assimétricas.
EMV é implementada e MIF é derivada para tais modelos. Applicações a dados reais são implementadas ilustrando a performance bastante satisfatória
dos modelos considerados.
O problema da concentração de HIV RNA em amostras de sangue (escala
log10 ) de pacientes com HIV apresenta limite de deteção mı́nimo como no
problema da vacinação no Haiti; para o teste Roche Amplicor este limite é
da 50 copias/ml.
Este capı́tulo está direcionado para uma extensão do modelo tobit para
modelos simétricos e assimétricos bimodais. No estudo de Li et al. (2006),
conclui-se que a distribuição do HIV RNA (log10 ) é bimodal, a qual consideram ser uma mistura de duas distribuições normais, refletindo respostas
diferentes para terapias antiretrovirais (HAART). Como trabalhar com misturas de distribuições apresenta dificuldades (falta de identificabilidade, por
exemplo) (Marin et al., 2005), consideramos um caminho alternativo que
segue da extensão dos modelos normais-assimétricos e potência-normal. Faze43
44
5.2
MODELOS BIMODAIS CENSURADOS
mos uso de MV para estimação dos parâmetros. Julgamos ser factı́vel o uso
de inferência Bayesiana.
Seção 6.2 apresenta revisão básica de modelos bimodais simétricos e
assimétricos. A Seção 6.3 é direcionada a uma extensão do modelo normal usual para dados censurados (modelos tipo tobit) podendo incorporar
situações uni e bimodais. Estimação é considerada por MV e por métodos
Bayesianos. Seção 6.6 trata de uma aplicação a um conjunto de dados de
uma clı́nica na Colômbia.
5.1
Modelos assimétricos bimodais
Como visto anteriormente, Azzalini (1985) considera a seguinte representação
geral para uma distribuição assimétrica:
ϕ(z; λ) = 2f (z)G(λz),
z, λ ∈ R,
onde f é uma fdp simétrica em torno de zero e G é fda simétrica e absolutamente continua e λ é o parâmetro de assimetria. Mais resultados podem
ser vistos em Azzalini (1986), Henze (1986), Chiogna (1997) e Pewsey (2000).
Em particular, se f = φ e G = Φ, a fdp e fda da N(0,1), obtemos
ϕ(z; λ) = 2φ(z){Φ(λz)},
z ∈ R,
que denotamos por Z ∼ SN (λ).
5.2
Extensões bimodais para modelos simétricos
Uma modificação para tornar o modelo normal assimétrico bimodal, aparece
em Kim (2005),
f (z; λ) = cλ φ(z)Φ(λ|z|),
z ∈ R,
onde cλ é a constante de normalização, que não é simples de ser obtida.
Kim (2005) mostra que este modelo produz densidades simétricas. Uma
versão assimétrica do modelo de Kim aparece em Gomez et al. (2009), que
considera
f (z; λ) = cλ φ(z)Φ(λ|z|)Φ(βz),
z ∈ R,
5.2
EXTENSÕES BIMODAIS PARA MODELOS SIMÉTRICOS
45
onde cλ é a constante de normalização. Dada a dificuldade de se trabalhar
com o modelo acima devido a dificuldade de ser tarbalhar com a constante
de normalização, Martinez et al. (2012b) propõe uma modificação bimodal
(simétrica) no modelo potência-normal (PN) (Pewsey et al., 2012), considerando
f (z|α) = αcα φ(z){Φ(|z|)}α−1 ,
α > 0, com
2α−1
.
2α − 1
Extensão para o caso locação-escala segue fazendo X = ψ + ηZ.
Note que neste caso a constante de normalização é bastante simples.
A matriz de informação de Fisher para localização-escala é dada por


1/η 2
0
a01 /η

2/η 2
a11 /η
IF = 
2
(1 + 2(log2) .
cα =
Pode-se mostrar que
|IF | = 2.808/η 4 .
Para tornar o modelo bimodal assimétrico usamos o enfoque em Gomez
et al. (2009), que leva a fdp (Martinez et al., 2012b)
f (z|α, β) = 2αcα φ(z){Φ(|z|)}α−1 Φ(βz),
α > 0, z ∈ R, with
cα =
2α−1
.
2α − 1
A extensão locação-escala segue tomando X = ψ + ηZ. Maximização da
verossimilhança deve ser feita numericamente.
A matriz de informação de Fisher para o modelo de locação-escala é dada
por
q


1/η 2
0


2/η 2
IF = 

2
π /η
0
2/π
0
a01 /η


a11 /η


0
2
(1 + 2(log2) )
Pode-se mostra que
|IF | = −0.2999/η 4 6= 0.
46
5.2
MODELOS BIMODAIS CENSURADOS
Pode-se testar normalidade, i.e., H0 : α = 1.0, β = 0, usando a estatistica
da razão de verossimilhnaça.
5.2.1
Aplicação: Dados de poluição.
Apresentamos a seguir o ajuste dos modelos acima a um conjunto de dados
reais relacionados com (Y :) poluição nos EUA. O conjunto de dados é
apresentado a seguir.
67,54.7,7.0,48.5,14,17.2,20.7,13,43.4,40.2,38.9,54.5,59.8,48.3,
22.9,11.5,34.4,35.1,38.7,30.8,30.6,43.1,56.8,40.8,41.8,42.5,31.0,31.7,
30.2,25.9,49.2,37,35.9,15,30.2,7.2,36.2,45.5,7.8,33.4,36.1,40.2,
42.7,42.5,16.2,39,35,37,31.4,37.6,39.9,36.2,42.8,46.4,24.7,49.1,
46,35.9,7.8,48.2,15.2,32.5,44.7,42.2,38.8,17.4,40.8,29.1,14.6,59.2
Pode-se mostrar que ȳ = 34.9 e s2y = 187.8. Ajustando a normal
N (34.9; 187.80), nota-se que não é bom o ajuste deste modelos aos dados.
Nota-se também a partir do histograma que os dados apresentam bimodalidade, de modo que um modelo assimétrico apresentaria uma juste melhor
aos dados acima.
Ajustamos então no WinBugs o modelo
f (x|µ, σ, α, beta) ∝ 2αcα φ(z){Φ(|z|)}α−1 Φ(βz),
α > 0, z ∈ R, com z = (x − µ)/sigma).
Temos então a notação (µ, σ, α, β) = (mu, sig, lb, beta), com o código
z[i] < −(y[i] − mu)/sig
logLike[i] < −(−log(sig)) + log(lb) + (lb − 1) ∗ log(2)
−log(pow(2, lb) − 1) − (pow(z[i], 2)/2) + (lb − 1) ∗ log(phi(abs(y[i])))
+log(phi(beta ∗ z[i]))
que apresenta as estimativas
µ̂ = 22,
σ̂ = 14,
α̂ = 4.5,
β̂ = 1.0.
5.3
MODELO FLEXÍVEL NORMAL CENSURADO
47
Figura 5.1: Densidade estimada e histograma dos dados.
Veja os gráficos da fda acima para os valores estimados sobre o histograma dos dados. Existe indicação de melhor ajuste do modelo bimodal.
5.3
Modelo flexı́vel normal censurado
Nesta seção estendemos o modelo tobit usual para a situação normal bimodal. Tomando λ = 0 em Gomez et al. (2009), obtemos a fdp
f (y; λ) = cδ φ(|y| + δ),
onde δ é um número real e cδ = (2(1 − Φ(δ)))−1 é a constante de normalização. De maneira similar ao modelo acima, este model é bimodal para δ
menor que zero. Denominamos este modelo normal flexı́vel e denotamos por
F N (δ).
Considere agora que y ∗ denota a distribuição F N (δ) e que (y1∗ , y2∗ , ..., yn∗ ) é
uma amostra de uma variável aleatória onde somente valores y ∗ maiores que
a constante c são observados. Para valores y ∗ ≤ c somente o valor c é registrado. Deste modo, os valores observados são dados por
∗
yi , se yi∗ > c
yi =
c, se yi∗ ≤ c,
48
MODELOS BIMODAIS CENSURADOS
5.3
i = 1, 2, ..., n.
A amostra resultante é censurada à esquerda. Neste caso dizemos que a
variável aleatória Y tem distribuição censurada normal flexı́vel e denotamos
por CN F (δ). A distribuição desta variável aleatória é bimodal para valores
de δ menores que zero e unimodal para valores de δ maiores que zero. Para
δ = 0 temos o modelo normal usual.
5.3.1
Momentos
Os momentos de Z ∼ CF N (δ) são funções dos momentos da distribuição
normal, e são dados por
Z
µr (a) =
∞
z r φ(z)dz.
a
O r-ésimo momento da variável aleatória Z ∼ CF N (δ) são dados por
r
E(Z ) = µr = cδ
r X
r
k=0
k
(−δ)r−k µk (c + δ).
Para c = 0, segue que a esperança e variância da variável aleatória Z são
dadas por
µ = cδ [φ(δ) − δ(1 − Φ(δ))]
5.3.2
e
σ 2 = µ2 − µ2 = c2δ [2(1 − φ(δ))2 − φ2 (δ)].
Extensão para localização-escala
Para o modelo normal com média µ e variância σ 2 , dizemos que a variável X
segue a distribuição flexı́vel normal de localização-escala se sua fda é dada
por
x − µ
cδ
f (x; λ) = φ +δ ,
x ∈ R,
σ
σ com µ > 0 e σ parâmetros de localização e escala. Assim, definindo
yi =
xi , se xi > c
c, se xi ≤ c,
5.3
MODELO FLEXÍVEL NORMAL CENSURADO
49
obtemos a distribuição normal flexı́vel, que denotamos por N CF (µ, σ, δ).
Também, o r-ésimo momento da variável Y ∼ CN F (µ, σ, δ) é dado por:
r
E[Y ] = µr = cδ
r X
r
k
k=0
onde µr (a, b) =
5.3.3
Rb
a
δ
r−k
µ + σδ
r−k
µk −
, −δ + (−1) µk (δ) ,
σ
z r φ(z)dz.
Estimação
P
P
Denotamos por 0 a soma para as observações censuradas e 1 a soma para
as observações não censuradas. Assim, para observações com yi = 0 temos
que
µ + σδ
P [yi = 0] = P [xi ≤ 0] = cδ 1 − Φ
σ
e para yi > 0, a distribuição de yi é igual a distribuição de xi , isto é
yi ∼ N F (µ, σ, δ).
Para uma amostra de n unidades, y1 , y2 , ..., yn , a função de log-verossimilhança
para θ = (µ, σ, δ)0 é dada por
X
µ + σδ
`(θ; X) =
log cδ 1 − Φ
σ
0
X
+
[log(cδ ) − log(σ) + log(φ(|zi | + δ))] ,
1
yi −µ
σ ,
onde zi =
i = 1, ..., n.
Temos então o escore
φ
U (µ) = −
µ+σδ
σ
δX
n0
1 X yi − µ
+
sgn(yi − µ),
−
σ 1 − Φ µ+σδ
σ
σ
σ
σ
φ
µ+σδ
σ
1
1
n0 µ
n1
1 X yi − µ 2 δ X yi − µ −
U (σ) =
+
+
σ ,
σ 1 − Φ µ+σδ
σ
σ
σ
σ
σ
1
1
50
5.3
MODELOS BIMODAIS CENSURADOS
φ
U (δ) = −n0
µ+σδ
σ
1−Φ
µ+σδ
σ
+
X yi − µ nφ(δ)
−
σ − n1 δ,
1 − Φ(δ)
1
onde n0 e n1 como acima denotam o número de observações censuradas e
não censuradas, respectivamente. Igualando escore a zero obtem-se sistema
de equaç oes (com solução iterativa) que leva aos EMV. A função ”optim”do
R pode ser empregada.
5.3.4
Matriz de informação
Nesta subseção apresentamos as matrizes de informação esperadas e observadas para o modelo N F C(µ, σ, δ). Iniciamos com a matriz Hessiana,
a saber, a segunda derivada da função log-verossimilhança com respeito
aos parâmetros do modelo (multiplicada por (-1)), para as quais usamos a
notação jµµ , jηµ , jδµ jηη , jδσ e jδδ , levando as seguintes expressões:


µ+σδ
µ+σδ
φ
φ
σ
σ
n1 n0
µ + σδ
−
 ,
jµµ = 2 + 2
+
µ+σδ
σ
σ 1 − Φ µ+σδ
σ
1−Φ
σ
jηµ =
σ
µ+σδ
φ( µ+σδ
n0 µ φ( σ ) 2
n0 µ µ + σδ
σ )
−
]
(
(
)
−
1)
[
σ2 σ
σ
1 − Φ( µ+σδ ) σ 2 σ 1 − Φ( µ+σδ )
σ
+
σ
2 X yi − µ
σ2
σ
1
δ
− σ2
+
jηη
X
sgn(yi − µ),
1
2

µ+σδ
φ µ+σδ
φ
σ
σ
n0 µ
n µ
µ µ + σδ
+ 02 

= 2 1−
σ
σ
σ
σ σ 1 − Φ µ+σδ
1 − Φ µ+σδ
σ
σ
n1
3 X yi − µ 2 2δ X yi − µ + 2
− 2+ 2
σ ,
σ
σ
σ
σ
1
1
5.3
MODELO FLEXÍVEL NORMAL CENSURADO

jδµ = −
φ
µ+σδ
σ

φ
µ+σδ
σ
n0  µ + σδ
1X

+
sgn(yi − µ),
−
µ+σδ
σ
σ
σ
1 − Φ µ+σδ
1
−
Φ
1
σ
σ

jδσ
51
φ
µ+σδ
σ

φ
µ+σδ
σ
n0 µ  µ + σδ
1 X yi − µ 
−
=
−
σ ,
µ+σδ
σ
σ
σ
1 − Φ µ+σδ
1
−
Φ
1
σ
σ

jδδ = −n0 
φ
µ+σδ
σ

φ
µ+σδ
σ
µ + σδ

−
µ+σδ
σ
1 − Φ µ+σδ
1
−
Φ
σ
σ
+n δ −
φ(δ)
1 − Φ(δ)
φ(δ)
+ n1 .
1 − Φ(δ)
Para obter a matriz de informação observada avaliamos os elementos da
Hessiana acima nos EMVs. Para obter MIF calculamos os valores esperados
dos elementos da Hessiana acima, usando a notação iµµ , iηµ , iδµ iηη , iδσ e
iδδ , conforme pode ser visto em Martinez et al. (2012b).
iθr θp = n
−1
∂ 2 `(θ; x)
E −
∂θr ∂θp
, r, p = 1, 2, 3,
com θ1 = µ, θ2 = σ e θ3 = δ com:
iµµ


µ+σδ
φ
σ
1
µ + σδ
cδ
µ + σδ  µ + σδ
 ,
= 2 1 − cδ 1 − Φ
+ 2φ
−
+
σ
σ
σ
σ
σ
1 − Φ µ+σδ
σ

 

µ+σδ
φ
σ
cδ
µ + σδ  µ  µ + σδ
δcδ
µ + σδ


= 2φ
−
−1 − 2 1−Φ
σ
σ
σ
σ
σ
σ
1 − Φ µ+σδ
σ
2cδ
µ + σδ
µ + σδ
3
1
+ 2 φ
+ φ(δ) + δ Φ
+ Φ(δ) −
−√
,
σ
σ
σ
2
2π
iηµ
52
iηη =
iδµ


φ
µ+σδ
σ

µcδ
1
µ + σδ 
µ
µ + σδ
 − 2 +
φ
1 + −
+
2
µ+σδ
σ
σ
σ
σ
σ
1−Φ
σ
µ + σδ
cδ
2
2
−2δφ(δ)
+
(1
+
2δ
)
1
−
Φ
−
4δ
(1
−
Φ(δ))
+
σ2
σ
cδ
µ − σδ
µ + σδ
µ + σδ
2
3
+ 2δ φ
+ 3(1 + δ ) 1 − 2Φ(δ) + Φ
,
σ2
σ
σ
σ
cδ
= φ
σ
µ + σδ
σ

φ
µ+σδ
σ

c
− µ + σδ +
 + δ
µ+σδ
σ
σ
1−Φ
σ

φ
φ
µ + σδ
1−Φ
,
σ

µ + σδ  µ + σδ
δc
µ
+
σδ
cδ µ
δ
 −
φ
−
1−Φ
=
σ
σ
σ
σ
σ
1 − Φ µ+σδ
σ
cδ
µ + σδ
+
2δ (1 − Φ(δ)) − 2φ(δ) + φ
,
σ
σ
iδσ
5.4
MODELOS BIMODAIS CENSURADOS

µ+σδ
σ
µ+σδ
σ

µ + σδ  µ + σδ
φ(δ)
φ(δ)
 +
−
+
δ−
σ
σ
1 − Φ(δ)
1 − Φ(δ)
1 − Φ µ+σδ
σ
µ + σδ
+ 1 − cδ 1 − Φ
.
σ
iδδ = cδ φ
Mostramos que a MIF acima não é singular, de modo que o resultado
seguinte segue das condições de regularidade usuais.
Teorema 6.1. Se θ̂ é o EMV de θ, então
A
θ̂ → N3 (θ, IF (θ)−1 ),
de modo que a matriz de covariâncias assintóticas do EMV θ̂ é a matriz
inversa da MIF I(θ) a qual denotamos por Σθ = I(θ)−1 .
Segue do teorema que podemos testar normalidade (H0 : δ = 0) usando
a estatı́stica da razão de verossimilhanças. Tal resultado não vale, por exemplo, para o modelo em Arnold et al. (2009) para o qual a MIF é singular.
5.4
O MODELO BIMODAL SIMÉTRICO NORMAL CENSURADO
5.4
53
O modelo bimodal simétrico normal censurado
O modelo proposto por Kim (2005),
f (z; λ) = cλ φ(z)Φ(λ|z|),
onde λ é um número real,
cλ = 2π/(π + 2arctan(λ))
é a constante de normalização, é uma alternativa viável para o ajuste de
dados bimodais simétricos, com λ > 0. Usamos a notação T N (λ).
Pode-se estender o modelo para a situação onde parte das observações
são censuradas, considerando Z ∼ T N (λ), onde
yi =
zi , se zi > c
c, se zi ≤ c,
que denotamos por CT N (λ). Assim, para λ > 0 temos o modelo bimodal
simétrico.
A fdp para a variavel Y, truncada a direita, é dada por
f (y|y > c) =
2cλ φ(y)Φ(λ|y|)
,
1 + cλ [Φ(c) − 0.5 + π −1 arctan(λ) − 2T (c, λ)]
onde T (., λ) é a função de Owen (1956).
Os momentos da variável aleatória Y podem ser obtidos a partir dos
momentos da variável aleatória com densidade acima, levando aos seguintes
momentos marginais:
cλ
λ
√
E[Y ] = µ = √
+1 ,
2 2π
1 + λ2
1
1
λ
1
2
√
E[Y ] = cλ
+
arctan λ +
4 2π
2π 1 + λ2
e
cλ
3λ + 2λ3
E[Y 3 ] = √
.
2+
(1 + λ2 )3/2
2 2π
54
MODELOS BIMODAIS CENSURADOS
5.4
Temos também
4
E[Y ] = cλ
3
3
1 λ(2λ2 + 5)
.
+
arctan λ +
4 2π
2π (1 + λ2 )2
Temos então que a variância da variável Y é dada por
cλ
((π + 2 arctan λ)2
4π(π + 2 arctan λ)
2
2λ + 1
4λ
(π + arctan λ) − π
).
+√
1 + λ2
1 + λ2
σ2 =
5.4.1
Estimação por máxima verossimilhança
A extensão localização-escala para Kim (2005) pode ser escrita como
x − µ
cλ
x−µ
f (x; µ, σ, λ) = φ
Φ λ σ
σ
σ P
onde cλ = 2π/(π + 2 arctan(λ)) é a constante de normalização. Sendo 0 e
P
1 como nas seções anteriores, a função de log-verosssimilhança é dada por
`(θ; Y) =
X
0
h µ
µ i
1
−1
log
1 − cλ Φ
− 0.5 + π arctan(λ) − 2T
,λ
+
2
σ
σ
X
[log(cλ ) − log(σ) + log(φ(zi )) + log(Φ(λ|zi |))] ,
1
onde zi =
yi −µ
σ .
Assim, os elementos da função escore são dados por
2n0 cλ µ λµ
U (µ) = −
φ
Φ
σ∆
σ
σ
φ yiσ−µ
1 X yi − µ λ X
+
+
sgn(yi − µ) yi −µ ,
σ
σ
σ
Φ σ 1
1
2n0 µcλ µ λµ
n1
U (σ) =
φ
Φ
−
2
σ ∆
σ
σ
σ
y
−µ 2
1 X yi − µ
λ X yi − µ φ i σ
,
−
+
σ
σ
σ
σ Φ yiσ−µ 1
1
5.5
MODELO BIMODAL NORMAL-ASSIMÉTRICO
55
µ λµ ncλ
2n0 cλ
U (λ) = −
+
φ
φ
π(1 + λ2 ) (1 + λ2 )∆
σ
σ
X yi − µ φ yi −µ
σ
+
σ Φ yi −µ ,
σ
1
onde
h µ
µ i
∆ = 1 − cλ Φ
− 0.5 + π −1 arctan(λ) − 2T
,λ ,
σ
σ
onde n0 e n1 são como acima. Soluções para as equações obtidas igualando
os escores acima a zero devem ser resolvidas numericamente.
Os elementos da matriz Hessiana são dados em Martinez et al. (2012b).
Esta matriz também pode ser obtida diretamente do R quando se usa a
rotina ”optim”.
5.4.2
Matriz de informação esperada
A matriz de informação esperada (MIF) pode ser calculada a partir da
matriz de informação observada tomando esperança para cada um de seus
elementos, a saber
∂ 2 `(θ; x)
=E −
∂θr ∂θp
Iθr θp
, r, p = 1, 2, 3,
con θ1 = µ, θ2 = σ e θ3 = λ. Esta matriz é apresentada em Martinez et al.
(2012b).
5.5
Modelo bimodal normal-assimétrico
Como mencionado na seção anterior, o modelo bimodal lá apresentado ajusta
modelos simétricos. Não é, portanto, adequado para situações onde os dados
são assimétricos. Para tais situações, propomos usar o modelo proposto
em Arnold et al. (2009), que denotamos ET N (λ, β), de modo que para a
situação localização-escala, temos que X ∼ ET N (µ, σ, λ, β). Considerando
a situação censurada, onde
56
5.6
MODELOS BIMODAIS CENSURADOS
yi =
xi , se xi > c
c, se xi ≤ c,
Usamos a notação CET N (µ, σ, λ, β). Então, para c = 0, a contribuição
para a verossimilhança de observações menores ou iguais a zero é dada por
1
Ψ(0) = P [y = 0] = P [x ≤ 0] = 2cλ [
2
1−Φ
µ ,β + T
,λ ]
σ
σ
"
βµ 1
1
βµ 1
,
+S
, ,λ −
arctan
+2cλ −T
σ β
σ β
2π
−T
βµ
σ
Φ
µ σ
µ
βλ
p
1 + β 2 + λ2
!#
,
onde T e S são as funções de Owen (1956) e Steck (1958), respectivamentes,
definidas como:
Z
T (h, a) =
0
a
φ(h)φ(hx)
dx
1 + x2
Z
e
h
S(h, a, b) =
T (ax, b)φ(x)dx,
−∞
onde h é um número real e a, b são números reais positivos.
5.5.1
A função log-verossimilhança
Para uma amostra de tamanho n, X1 , X2 , ..., Xn a função log-verossimilhança para o vetor de parâmetros θ = (µ, σ, λ, β)0 dada a amostra Y1 , Y2 , ..., Yn
é dada por:
X
`(θ; Y) =
log(Ψ(0))
0
+
X
[log(2) + log(cλ ) − log(σ) + log(φ(zi )) + log(Φ(λ|zi |)) + log(Φ(βzi ))] ,
1
onde zi = yiσ−µ . A função escore e as matrizes de informação esperadas
e observadas podem ser obtidas por procedimentos similares as dos casos
anteriores. Estimadores de máxima verossimilhança são obtidos igualando
a zero a função escore.
ANALIZANDO UM CONJUNTO DE DADOS REAIS. CONCENTRAÇÃO DE HIV.
5.6
57
5.6
Analizando um conjunto de dados reais. Concentração de HIV.
Para ilustrar o potencial para aplicações dos modelos estudados no artigo,
consideramos uma amostra de 263 homens infectados com HIV, tratados com
terapia HAART por menos de uma ano no serviço hospitalar de SantanderColombia. Este conjunto de dados de alta confidencialidade contém as
variáveis idade, data de entrada no programa, sexo e carga viral de um total
de 1279 pacientes com AIDS. A carga viral foi medida pelo método ELISA
na escala log10 com limite de deteção mı́nimo (LDM) de 40 copias/ml. A
idade média é de 36.19 anos, onde o paciente mais novo tem menos de um
ano de idade e o paciente mais velho tem mais de 83 anos de idade.
Estatı́sticas descritivas para os√dados acima do LDM são apresentados
na tabela que segue. Quantidades b1 e b2 correspondem aos coeficientes de
assimetria e curtose amostrais para valores acima de log(40). Estatı́sticas
indicam que os dados apresentam alta assimetria positiva e baixa curtose
(comparado com modelo normal) indicando que um modelo simétrico pode
não ser a melhor escolha para ajustar os dados.
Consideramos então os modelos normal censurado (NC), normal-assimétrico
censurado (NAC), bimodal normal assimétrico censurado (BNAC) e bimodal
normal-assimétrico (BNA).
A próxima tabela apresenta estatı́sticas resumo para os dados estudados.
Tabela 5.1: Estatı́sticas
√ descritivas
y
s2y
b1
b2
1.7350 1.7397 0.5258 2.1346
Usando o critério AIC (Akaike, 1974), ou seja,
ˆ + 2p,
AIC = −2 ∗ `(·)
onde p é o número de parâmetros para o modelo considerado. Melhor modelo
apresenta menor AIC.
Assim, para formalmente testar bimodalidade, consideramos as hipóteses
H0 : λ = 0
versus
H1 : λ 6= 0,
58
5.6
MODELOS BIMODAIS CENSURADOS
que compara modelos NAC com modeol BNAC.
Para testar as hipóteses acima pode-se usar a ERV, a saber
Λ=
`N AC (θ̂)
`BN AC (θ̂)
,
de onde obtemos
−2 log(Λ) = −2(408.3129 − 414.7936) = 12.9614,
que é maior que o valor crı́tico de 5% da distribuição χ2 com um grau de
liberdade, a saber χ21;5% = 3.8414, fornecendo evidência do melhor ajuste do
modelo BNAC.
A tabela apresentada a seguir mostra estimadores de máxima verossimilhança e valores AIC para os modelos NC, NAC, BNC e BNAC, sendo este
último o que apresenta menor AIC (melhor modelo).
Embora λ é significantemente não nulo, o modelo BNAC apresenta melhor ajuste que o NAC.
Podemos testar
H0 : (λ, β) = (0, 0)
contra
H1 : (λ, β) 6= (0, 0),
comparando modelos CN com CETN.
Usando a ERV,
Λ=
`N C (θ̂)
`BN AC (θ̂)
,
que leva a
−2 log(Λ) = −2(408.3129 − 414.8078) = 12.9898,
maior que o valor crı́tico de 5% da distribuição χ2 com um grau de liberdade
a saber, χ21;5% = 3.8414, mostrando que BNAC é o melhor modelo.
O total de dados censurados corresponde a 39.92% da amostra sob estudo
e a porcentagem sob o BNAC é 39.93%. Por outro lado, pode-se mostrar
que sob o modelo CNA model, a porcentagem esperada é de 42.97%,.
5.7
DISCUSSÃO FINAL
Parâmetro
AIC
µ
σ
λ
δ
Tabela 5.2: Estimativas e ajustes.
Modelo NC
Modelo NAC
Modelo BNC
833.615
835.587
835.663
0.477(0.137)
1.689(1.147)
0.364(0.023)
1.978(0.121)
2.362(0.767)
1.961(0.109)
-0.861 (1.013)
38.658(10.367)
-2.2079(0.2196)
59
Modelo BNAC
824.6258
1.719(0.117)
2.108(0.169)
2.571(1.116)
-0.797(0.147)
Para n=106 mulheres infectadas e sob tratamento com terapia HAAR,
a idade média é de 30.75 anos, com 33.96% abaixo do LDM. O modelo
estimado usando EMV é dado por
CAN B(1.6306, 1.8201, 2.8874, −0.5936),
levando a estivativa de 32.95% abaixo do LDM.
5.7
Discussão final
Este capı́tulo apresenta uma série de modelos que podem ser usados sob
censura em situações de possı́vel bimodalidade. Assim, os modelos propostos
estendem o model tobit normal usual, originalmente proposto para situações
simétricas unimodais. Estimação por MV foi considerada e requer métodos
numéricos, dada a complexidade dos modelos. MIF e informação observada
são consideradas. Aplicação a dados reais indica boa performance do modelo
proposto.
60
MODELOS BIMODAIS CENSURADOS
5.7
Referências bibliográficas
Akaike, H. (1974). A new look at statistical model identification. IEEE
Transaction on Automatic Control. AU-19, 716–722.
Arellano-Valle, R.B. e Bolfarine, H. (1995). On Some Characterizations Of
The t-Distribution. Statistics and Probability Letters, 25, 79–85.
Arellano-Valle, R. e Azzalini, A.(2008). The centred parameterizatiion and
related quantities of the skew-t distribution. Journal of Multivariate
Analysis, 99, 1362-1382.
Arellano-Valle, R.B., Castro, L.M., González-Farı́as, G. e Muñoz-Gajardo,
K. (2012). Student-t censored regression model: properties and inference. Statistical Methods and Applications, 21, 453-473.
Arnold, B. C. (2004). discussion of Jones, M.C. Families of distribution
arising from distributions of order statistics. Test , 13, 23–25.
Azzalini, A. (1985). A class of distributions which includes the normal
ones. Scandinavian Journal of Statistics, 12, 171–178.
Azzalini, A. (1986). Further results on a class of distributions which includes the normal ones. Statistica, 46, 199–208.
Azzalini, A. and Capitanio, A. (1999). Statistical applications of the multivariate skew-normal distribution . Journal of the Royal Statistical
Society, 61, 579–602.
Bayes, C., Bazan, J. e Garcı́a, C. (2012). A New Robust Regression Model
for Proportions. Bayesian Analysis, 7, 841–866.
Bolfarine, H. and Sandoval, M. (2005). Introdução à inferência estatı́stica
. Sociedade Brasileira de Matemática.
61
62
REFERÊNCIAS BIBLIOGRÁFICAS
5.7
Branscum, A. J., Johnson, W. O. and Thurmond, M. C. (2007), Bayesian
beta regression: applications to household expenditure data and genetic distance between foot-and-mouth deseases viruses. Australian
and New Zealand Journal of Statistics, 49, 287–301.
Chai, H. e Bailey, K. (2008). Use of log-normal distribution in analysis
of continuous data with a discrete component at zero. Statistics in
Medicine, 27, 3643–3655.
Chao, E.C. (1998). Gibbs Sampling for Long-Term Survival Data with
Competing Risks. Biometrics, 54, 350–366.
Chiogna, M. (1997). Notes on estimation problems with scalar skew-normal
distributions. Relatório Técnico, 15, University of Padua, Dept. of
Statistical Sciences.
Cragg, J. (1971). Some statistical models for limited dependent variables
with application to the demand for durable goods. Econometrica, 39,
829-844.
Csiszár, I. (1967). Information-type measures of difference of probability
distributions and indirect observations. Studia Scientiarum Mathematicarum Hungarica, 2, 299–318.
Durrans, S. R. (1992). Distributions of fractional order statistics in hydrology. Water Resources Research, 28, 1649–1655.
Ferrari, S. and Cribari-Neto (2004). Beta regression for modelling rates
and proportions. Journal of Applied Statistics, 31 (7), 799-815.
Garay, A.M., Lachos, V.H. e Bolfarine, H. (2012). Bayesian zero-inflated
negative binomial regression models: estimation and case influence
diagnostics. Submetido para publicação,
Gómez, H. W., Venegas, O. and Bolfarine, H. (2007). Skew-symmetric
distributions generated by the distribution function of the normal distribution. Environmetrics, 18, 395–407.
Gómez, H.W., Elal-Olivero, D., Salinas, H.S. and Bolfarine, H. (2011).
Bimodal extension based on the skew-normal distribution with application to pollen data. Environmetrics, 22, 50–62.
Gupta, D. and Gupta, R. C. (2008). Analyzing skewed data by power
normal model. Test, 17, 197–210.
5.7
63
Hastings, W. (1970). Monte carlo sampling methods using markov chains
and their applications. Biometrika, 57, 97–109.
Henze, N. (1986). A probabilistic representation of the skew-normal distribution. Scandinavian Journal of Statistics, 13, 271–275.
Jones, M. C. (2004). Families of distributions arising from the distributions
of order statistics. Test, 13, 1–43.
Kim, H.J. (2005). Generalized skew-normal models: Properties and inference. Statistics, 40, 495–505.
Kotz, S., Kozubowski, T.J. e Podgórski, K. (2001). The Laplace Distribution and Generalizations: A Revisit with Applications to Communications, Economics, Engineering, and Finance, Boston: Birkhauser.
Kullback, S. e Leiber, R.A. (1951). On information and sufficiency. Annals
of Mathematical Statistics, 22,
Lee, D. e Neocleous, T. (2010). Bayesian quantile regression for count data
with application to environmental epidemiology. Journal of the Royal
Statistical Society, Series C, 59, 905–920.
Lehmann, E. L. (1953). The power of rank tests Annals of Statistics , 1,
23–43.
Li, X., Chu, H., Gallant, J.E. (2006). Bimodal virologic response to antiretroviral therapy for HIV infection: an application using a mixture
model with left censoring. J. Epidemiol. Commun. Health, 60, 811–
818.
Li, Q., Xi, R. e Lin, N. (2010). Bayesian regularized quantile regression.
Bayesian Analysis, 5, 533–556.
Lum, K. e Gelfand, A.E. (2012). Spatial Quantile Multiple Regression
Using the Asymmetric Laplace Process. Bayesian Analysis, 7, 1–24.
Marin, J.M., Mengersen, K. and Robert, C.P. (2005).Bayesian modelling
and inference on mixtures of distributions. Handbook of Statistics, 25,
Elsevier.
Martinez, G., Bolfarine, H. e Gomez, H. (2012a). Asymmetric regression models with limited responses with an application to antibody
response to vaccine. Biometrical Jounal. Aceito para publicação.
64
REFERÊNCIAS BIBLIOGRÁFICAS
5.7
Martinez, G., Gomez, H., Bolfarine, H. (2012b). Modelo α-potência inflacionado de zeros e uns. Em preparação.
Martinez, G., Bolfarine, H. e Gomez, H. (2013). The alpha-power tobit
model. Communication in Statistics. Aceito para publicação.
Meligkotsidou, L., Vrontos, I.D. e Vrontos, S.D. (2009). Quantile regression
analysis of hedge fund strategies. Journal of Empirical Finance, 16,
264–279.
Metropolis, N., Rosenbluth, A., Rosenbluth, M., Teller, A. and Teller, E.
(1953). Equations of state calculations by fast computing machines.
Journal of Chemical Physics, 21, 1087–92.
Moulton, L. e Halsey, N.A. (1995). A mixture model with detection limits
for regression analyses of antibody response to vaccine. Biometrics,
51, 1570–1578.
Mroz, T. (1987). The Sensitivity of an Empirical Model of Married Women’s
Hours of Work to Economic and Statistical Assumptions. Econometrica, 55, 765–799.
Mudholkar, G. S. and Hutson, A. D. (2000). The epsilon-skew-normal distribution for analyzing near-normal data. Journal of Statistical Planning and Inference, 83, 291–309.
Ospina R. (2008). Modelos de regressão beta inflacionados, Tese de doutorado,
Universidade de São Paulo, Brasil.
Ospina, R. and Ferrari, S. L. P. (2010). Inflated beta distributions. Statistical Papers, 51, (1), 111-126.
Peng, F. e Dey, D.K. (1995). Bayesian analysis of outlier problems using
divergence measures. The Canadian Journal of Statistics, 23, 199–
213.
Pewsey, A. (2000). Problems of inference for Azzalini’s skew-normal distribution. Journal of Applied Statistics, 27, 859–870.
Pewsey, A., Gómez, H. W. and Bolfarine, H. (2012). Likelihood-based
inference for distributions of fractional order statistics. Test, 21, 775789.
Sen, P.K. e Singer, J.(1993). Lange Sample Methods in Statistics: an
introdution with applications. ChapMan and Hall/CRC
5.7
65
Tobin, J. (1958). Estimation of relationships for limited dependent variables. Econometrica, 26, 24–36.
Vuong, Q. (1989). Likelihood ratio tests for model selection and nonested
hypotheses. Econometrica, 57, 307–333.

Documentos relacionados