Modelos de Regressão com Respostas Parciais, Heleno Bolfarine
Transcrição
Modelos de Regressão com Respostas Parciais, Heleno Bolfarine
MODELOS DE REGRESSÃO COM RESPOSTAS PARCIAIS Heleno Bolfarine Jorge Bazan ii MODELOS DE REGRESSÃO COM RESPOSTAS LIMITADAS E CENSURADAS H. Bolfarine Universidade de São Paulo Instituto de Matemática e Estatı́stica Departamento de Estatı́stica J. Bazan Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Matemática Aplicada e Estatı́stica iv Prefácio Neste trabalho, desenvolvemos análises Bayesiana e clássica para modelos de regressão com respostas limitadas ou censuradas.São consideradas extensões do modelo tobit usual normalmente distribuı́do em duas direções. A primeira considera modelos mais gerais que o modelo normal proporcionada pelo modelo potência-normal, o qual pode ajustar dados com certo grau de assimetria e bimodalidade. Uma outra direção em que estendemos o modelo está voltada para situações onde temos excesso (inflação) de zeros. No caso em que as observações são proporções (no intervalo (0, 1)), podemos ter dados com excesso de zeros e uns. Discute-se especificacação de prioris pouco informativas e algoritimos tipo MCMC para estimação dos parâmetros do modelo. Procedimentos de estimação alternativos são desenvolvidos usando o método de máxima verossimilhança. Aplicações a vários conjunto de dados são apresentadas. Um conjunto de dados, em especial, é o conjunto de dados sobre a resposta sorológica em um programa de vacinação contra sarampo no Haiti. Além disso, são estudadas aplicações a outros conjuntos de dados relacionados com os modelos considerados. Este manuscrito, direcionado a extensões do modelo tobit, está organizado da seguinte forma: o Capı́tulo 1 enfoca resultados básicos de modelos para dados censurados e truncados. No Capı́tulo 2 apresentamos uma breve revisão do modelo tobit com sugestões de extensões que podem ser consideradas substituindo-se a distribuição normal por modelos mais robustos e flexiveis como os modelos potência-normal (Pewsey et al., 2012) e t-Student. Aplicações a dados reais mostram bom desempenho dos modelos propostos. O Capı́tulo 3 está dedicado ao modelo tobit com excesso de zeros em que duas extensões são consideradas. Análise de dados reais são apresentadas ilustrando o bom desempenho dos modelos estudados. O Capı́tulo 4 discute modelos α-potência para dados duplamente censurados com ênfase nos casos (0, 1), com possı́veis excessos de zeros e uns. O Capı́tulo 5 estuda modelos bimodais censurados. Este texto está direcionado a alunos do último ano do bacharelado e inı́cio do mestrado em Estatı́stica. v vi Heleno Bolfarine [email protected] Jorge Bazan [email protected] São Carlos, SP, janeiro de 2013 Sumário 1 Dados limitados 1.1 Truncamento . . . . . . . . . . . . . . . . . . . 1.2 Censura . . . . . . . . . . . . . . . . . . . . . . 1.3 Resultados básicos sobre truncamento e censura 1.3.1 Distribuição normal truncada . . . . . . 1.3.2 Distribuição normal censurada . . . . . 1.4 Alguns conjuntos de dados . . . . . . . . . . . . 1.4.1 Vacinação no Haiti . . . . . . . . . . . . 1.4.2 Horas trabalhadas por ”donas”de casas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 2 3 3 4 4 2 O modelo tobit 2.1 O modelo tobit normal . . . . . . . . . . . . 2.2 Extensões robustas do modelo tobit . . . . 2.3 Aplicações . . . . . . . . . . . . . . . . . . . 2.3.1 Aplicação do modelo tobit-normal . 2.4 Aplicação do modelo tobit potência-normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 11 12 13 13 . . . . . 15 15 16 18 22 25 . . . . 27 27 29 29 32 3 O modelo tobit com excesso de zeros 3.1 Modelos com excesso de zeros . . . . 3.2 A distribuição log-α-potência . . . . 3.3 O modelo bernoulli/log-α-potência . 3.4 Aplicação: dados do Haiti . . . . . . 3.5 Aplicação: dados de Mroz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Modelo α-potência inflacionado de zeros e/ou uns 4.1 Modelos duplamente censurados . . . . . . . . . . . 4.2 Distribuições PN para dados censurados . . . . . . . 4.3 Modelo potência-normal duplamente censurado . . . 4.4 A transformação logarı́tmica . . . . . . . . . . . . . vii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii SUMÁRIO 4.5 O modelo Bernoulli duplamente censurado com mistura potêncianormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.6 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.7 Matriz de informação observada . . . . . . . . . . . . . . . . . 34 4.8 Modelos censurados para inflação de zeros e uns . . . . . . . 37 4.9 Mistura Bernoulli/LPN . . . . . . . . . . . . . . . . . . . . . 39 4.10 Ilustração com dados reais . . . . . . . . . . . . . . . . . . . . 39 4.11 Testando modelos disjuntos . . . . . . . . . . . . . . . . . . . 40 4.12 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5 Modelos bimodais censurados 5.1 Modelos assimétricos bimodais . . . . . . . . . . . . . . . . . 5.2 Extensões bimodais para modelos simétricos . . . . . . . . . . 5.2.1 Aplicação: Dados de poluição. . . . . . . . . . . . . . 5.3 Modelo flexı́vel normal censurado . . . . . . . . . . . . . . . . 5.3.1 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Extensão para localização-escala . . . . . . . . . . . . 5.3.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.4 Matriz de informação . . . . . . . . . . . . . . . . . . 5.4 O modelo bimodal simétrico normal censurado . . . . . . . . 5.4.1 Estimação por máxima verossimilhança . . . . . . . . 5.4.2 Matriz de informação esperada . . . . . . . . . . . . . 5.5 Modelo bimodal normal-assimétrico . . . . . . . . . . . . . . 5.5.1 A função log-verossimilhança . . . . . . . . . . . . . . 5.6 Analizando um conjunto de dados reais. Concentração de HIV. 5.7 Discussão final . . . . . . . . . . . . . . . . . . . . . . . . . . 43 44 44 46 47 48 48 49 50 53 54 55 55 56 57 59 Referências bibliográficas 61 Capı́tulo 1 Dados limitados A principal causa da ocorrência de dados incompletos é devido a (i) truncamento e (ii) censura. 1.1 Truncamento Truncamento ocorre quando algumas observações tanto na variável resposta como indepedentes (covariáveis, regressores) não estão disponı́veis. Por exemplo, a variável resposta (dependente) pode ser renda e somente pessoas com baixa (propriamente definida) renda são incluı́dadas na pesquisa. Portanto, truncamento ocorre quando a amostra é esolhida somente em parte da população. 1.2 Censura Censura ocorre quando dados sobre a variável dependente não estão disponı́veis para algumas unidades da amostra. Mas para estas unidades, os dados para a variáveis independentes (regressores) estão disponı́veis. por exemplo, pessoas de todos os nı́veis de renda são incluidas na amostra mas, por alguma razão, pessoas com alto nı́vel de renda tem a mesma codificada em R$100.000. Censura pode ser visto como um defeito na amostra - não havendo censura, amostra seria representativa. Truncamento em geral produz maior perda de informação. 1 2 1.3 DADOS LIMITADOS 1.3 Resultados básicos sobre truncamento e censura É comum considerar que a variável resposta (Y ) é normalmente distribuı́da com média µ e variância σ 2 , que denotamos por N (µ, σ 2 ), de tal forma que E[Y ] = µ V ar[Y ] = σ 2 . e O caso particular em que µ = 0 e σ = 1, ou seja, Z ∼ N (0, 1), temos a função de densidade de probabilidade (fdp) 1 2 f (z) = φ(z) = √ e−z /2 , 2π z ∈ R. A fdp de Y ∼ N (µ, σ 2 ) segue da tansformação Y = µ + σZ. A função de distribuição acumulada pode ser escrita como Φ(y) = P [Y ≤ y] = Φ((y − µ)/σ), de modo que P [Y ≥ y] = 1 − Φ((y − µ)/σ). 1.3.1 Distribuição normal truncada Para truncamento pela esquerda (s.p.g.), com ponto de trunamento ”c”, temos f (y|y > c) = f (y) , 1 − F (c) de modo que para Y ∼ N (µ, σ), f (y|y > c) = y−µ 1 σ φ( σ ) . 1 − Φ( c−µ σ ) Assim, a função de verossimilhança para uma amostra de tamanho n da distribuição normal truncada pode ser escrita como L(µ, σ) = n Y yi −µ 1 σ φ( σ ) . 1 − Φ( c−µ σ ) i=1 1.4 ALGUNS CONJUNTOS DE DADOS 3 Temos também E[y|y > c] = µ + σλ(αc ) e V ar[y|y > c] = σ 2 [1 − δ(αc )], onde αc = (c − µ)/σ, δ(αc ) = λ(αc )[λ(αc ) − αc ] e λ(αc ) = φ(αc ) , 1 − Φ(αc ) esta última sendo conhecida como razão de Mills. Os resultados para modelos de regressão seguem dos resultados acima substituindo µ = x0 β. 1.3.2 Distribuição normal censurada Quando a distribuição é censurada à esquerda no ponto ”c”, observações com valores menores ou iguais a c são substituidas por c ou seja, y= yi∗ , se yi∗ > c c, se yi∗ ≤ c. Se uma variável continua Y com fdp f (.), e c é uma constante, então para variáveis censuradas à esquerda f (y) = [f (yi)]Ii [F (c)]1−Ii , onde Ii = 1, se yi∗ > c 0, se yi∗ ≤ c, i = 1, . . . , n. O caso particular do modelo normal censurado segue tomando f = φ. 1.4 Alguns conjuntos de dados Alguns conjuntos de dados muito utilizados na literatura são descritos a seguir. 4 DADOS LIMITADOS 1.4.1 1.4 Vacinação no Haiti Dados contém informações sobre concentração de anticorpos em um grupo de 330 crianças de até um ano no Haiti após serem vacinadas contra o sarampo. As medições das concentrações são feitas por laboratórios com limite de deteção mı́nimo (LDM) de 0.1 mm/l (ou -2.16 na escala logaritmica). Isto significa que valores de concentrações iguais ou menores que 0.1 são reportadas como sendo 0.1. Temos informação sobre a concentração (Y - variável resposta) , tipo de vacina (X1 : Edmonton-Zagreb (1) e Schwarz (0)), dose (X2 : alta (1) e médio (1)) e sexo (X3 : masculino (O) e feminino (1)). O total de criana̧s no (ou abaixo do) limite de deteção é de 86. Um resumo dos dados é apresentado na tabela abaixo. Este conjunto de dados esta disponibilizado em Moulton and Halsey (1995). Da Tabela 1.1. temos então que a primeira criança tem concentração 0.1, tomou a vacina tipo 0 (Schwarz) com dose média e é do sexo masculino. Criança 1 2 3 ... 316 Tabela 1.1: Dados sobre vacinação no Haiti Concentração (Y ) Tipo (X1 ) Dose (X2 ) Sexo (X3 ) 0.1 0 0 0 0.1. 0 0 0 0.1 0 0 0 ... ... ... ... 15.475 1 0 0 Moulton and Halsey (1995) consideram uma distribuição log-normal para observações acima do LDM, e modelam o excesso de zeros com um modelo logito, extendendo a proposta de Cragg (1971). Como se depreende do histograma, a concentração de observações no LDM é bastante alta. 1.4.2 Horas trabalhadas por ”donas”de casas Este conjunto de dados (Mroz, 1987) foi tomado do estudo da dinâmica de renda de 1975 com 753 observações das quais 428 correspondem a mulheres (casadas) com Y horas trabalhadas (não nulas) e as 325 remanescentes, correspondem a mulheres que não trabalharam (Y=0). O conjunto de dados compreende um total de 19 variáveis das quais consideramos 1.4 ALGUNS CONJUNTOS DE DADOS 5 1. LPF: variável ”dummy”= 1 se esposa trabalhou em 1975; =0, caso contrário; 2. WHRS: horas trabalhadas pela esposa em 1975; 3. KL6: Número de criança com crianças menores que 6 anos no domicı́lio; 4. K618: Número de crianças com idade entre 6 e 18 anos no domicı́lio; 5. WA: Idade da esposa; 6. WE: Escolaridade da esposa, em anos; 7. WW: Salário da esposa em 1975. horas 1610 1656 1980 456 1568 2032 1440 1020 ... 0 Tabela 1.2: Dados kids5 kids618 -10.5 -9.2 -12.5 -0.6 -7.5 -8.1 -8.5 -13.3 -11.5 0.0 11.5 -10.3 -5.5 -11.0 11.5 -9.2 ... ... 0 3 sobre age 0.8 -0.2 0.8 -0.2 0.8 -0.2 -0.2 -0.2 ... 39 horas trabalhadas educ nwifeinc exper -1.4 -0.3 3.4 0.6 -0.3 -5.6 1.6 -0.3 4.4 1.6 -0.3 -4.6 0.6 1.7 -3.6 -1.4 -0.3 22.4 0.6 3.7 0.4 -1.4 -0.3 24.4 ... ... ... 9 28.3 12 6 DADOS LIMITADOS 1.4 Capı́tulo 2 O modelo tobit Neste capı́tulo discutimos alguns resultados básicos sobre o modelo tobit. Apresentamos inicialmente o modelo tobit normal, a função de verossimilhança e as equações de estimação correspondentes. Mencionamos também extensões robustas com a substituição da distribuição normal pelos modelos t-Student e potência-normal. 2.1 O modelo tobit normal Pesquisadores são frequentemente confrontados com dados para os quais a variável resposta tem um limite inferior (que pode ser considerado como zero, sem perda de generalidade) e toma este valor para uma parte considerável das unidades amostrais. Este é o caso, por exemplo, dos dados sobre horas trabalhadas por donas de casa (Mroz, 1987). Uma outra maneira é tratar os zeros como observações latentes (não observadas) contı́nuas. Esta idéia é popularizada em Tobin (1956) e o modelo resultante é chamado modelo tobit. Formalmente, dada a variável de interesse Y , o modelo tobit pode ser formulado como yi = 0, se wi ≤ 0 wi , se wi > 0, 7 8 2.1 O MODELO TOBIT onde a variável latente é wi = x0i β + i , com i ∼ N (0, σ 2 ), i = 1, . . . , n. Consequentemente, denotamos as respostas observadas por yi , o valor das k variáveis explanatórias para a i-ésima observação por xi ∈ Rk , os parâmetros de regressão por β = (β0 , β1 , . . . , βk )0 e o i-ésimo termo residual por i . Pode-se escrever o modelo acima como yio = Ii yi , yi = x0i β + i , onde Ii = I(yi > 0), com xi = (xi1 , . . . , xik )0 , i = 1, . . . , n. Com as suposições temos ind. yi ∼ N (x0i β, σ 2 ), i = 1, . . . , n. Note que, sendo yi ∼ N (µi , σ 2 ), temos que P [yi0 = 0] = P [yi ≤ 0] = 1 − Φ(µi /σ). Por outro lado, sendo yio > 0, temos d yio = yi , de modo que a função de verossimilhança pode ser escrita como LN (β, σ 2 ) = n Y 1 1 1 [1 − Φ( x0i β)]1−Ii [( φ( (yi − x0i β)]Ii , σ σ σ i=1 com φ e Φ sendo a fdp e a fda da N(0,1). Derivando a log-verossimilhança, temos as equações de verossimilhança σ2 = 1 0 y D(y − Xβ), n1 X0 (In − D)η = X0 D(y − Xβ), onde n1 = Pn i=1 Ii , D = diag(I1 , . . . , In ), η = (σr(−x1 β 0 /σ), . . . , σr(−x0n β/σ))0 , r(z) = φ(z) . Φ(z) 2.1 O MODELO TOBIT NORMAL 9 Como as equações acima são não lineares, métodos numéricos são necessários para a sua solução. Uma alternativa seria a maximização direta da função log-verossimilhança, o que pode ser implementado no aplicativo R. A partir da derivada da função escore (avaliada no estimador de máxima verossimilhança (EMV)), podemos obter a matriz de informação observada (MIO). Invertendo a MIO, temos estimativas consistentes para a matriz de covariâncias assintóticas dos parâmetros do modelo. Considerando a reparametrização γ = β/σ, τ = 1/σ, pode-se mostrar que as derivadas segundas podem ser escritas como n n i=1 i=1 X X ∂ 2 log LN =− (1 − Ii )r(−ci )(r(−ci ) − ci )xi x0i − Ii xi x0i , 0 ∂γ∂γ n X ∂ 2 log LN = Ii xi x0i , ∂γ∂τ i=1 n n1 X 2 ∂ 2 log LN = 2 − Ii yi , 0 ∂γ∂γ τ i=1 onde ci = x0i γ. A matriz de informação de Fisher (MIF) pode ser calculada a partir das derivadas segundas acima usando os seguintes resultados (Arellano-Valle et al., 2012): E[Ii ] = P [Yi > 0] = Φ(ci ), E[Ii Yi ] = E[Ii ]E[Yi |Yi > 0] = (1/τ )(ci Φ(ci ) + φ(ci )), 1 [(1 + ci )Φ(ci ) + c2i φ(ci )]. τ2 Para implementar o enfoque Bayesiano para o modelo tobit normal, pode-se usar o programa OpenBugs de duas maneiras diferentes. Uma das maneiras é entrar diretamente no OpenBugs usando E[Ii Yi2 ] = dummy[i] ∼ loglik(logLike[i]), 10 2.2 O MODELO TOBIT onde logLike[i] é o logaritimo da função de verossimilhança. Uma maneira alternativa é entrar com o modelo de regressão normal censurado, isto é yi |β, σ 2 ∼ N T (x0i β, σ 2 , A), com A = [0, ∞). Em geral, Y ∼ T N (x0i β, σ 2 , A) se fT N (y|µ, σ 2 , A) = c−1 fN (y|µ, σ 2 )I(y ∈ A), com Z fN (y|µ, σ 2 )dx. c= A A função de log-verossimilhança para o modelo tobit (para T=c) para a situação onde o erro i segue uma função de distribuição F , pode ser escrita como `(θ; Y ) = X (1 − Ii ) ln[F ( i X c−µ yi − µ )] + )} Ii {− ln(σ) + ln(f ( σ σ i onde f = F 0 , e Ii = 1, se yi∗ > c 0, se yi∗ ≤ c, A distribuição comumente usada com o modelo acima é a distribuição normal, isto é, X ∼ N (µ, σ 2 ), F 0 (x) = f (x) = √ 1 2πσ 2 e− (x−µ)2 2σ 2 . 2.2 EXTENSÕES ROBUSTAS DO MODELO TOBIT 2.2 11 Extensões robustas do modelo tobit Uma distribuição que pode ser empregada no lugar da distribuição normal é a distribuição t-Student com fdp Γ( ν+1 (z − µ)2 − ν+1 2 ) ) 2 , F 0 (z) = f (z) = √ (1 + νσ 2 νπσΓ( ν2 ) z ∈ R, onde Γ(.) é a função gamma. A distribuição t-Student vem sendo bastante utilizada na presença de observações extremas (”outliers”) e uma revisão bastante completa de sua mais importantes propriedades aparece em Arellano-Valle e Bolfarine (1995). Uma versão assimétrica do modelo tStudent é considerada em Gomea et al. (2007). Veja também Arellano-Valle et al. (2012). O modelo de regressão t-Student pode ser escrito através da hierarquia ind Yi |Vi = vi ∼ N (x0i β, vi−1 σ 2 ), iid Vi ∼ Gama(ν/2, ν/2), i = 1, . . . , n. Para implementar o enfoque Bayesiano e algoritmo EM, pode-se usar a verossimilhança completa n ν ν ν Y 1 − 12 vi (yi −x0i β)2 ( 2 ) 2 2 −1 −vi ν2 2σ √ Lc (θ) = ( )e . . ν vi e Γ( 2 ) 2πσ 2 i=1 Uma outra distribuição que pode ser usada é a distribuição α-potência (Pewsey et al., 2012). Uma variável aleatória Y segue a distribuição αpotência com parâmetros α, µ, σ, que denotamos por Y ∼ AP (µ, σ, α) se sua fdp é dada por f (y|µ, σ, µ) = 1 y−µ y − µ α−1 f( ){F ( )} , σ σ σ onde α ∈ R. Para o caso normal, isto é F = Φ, temos o modelo potência normal. Usamos a notação Y ∼ P N (µ, σ, α). Este modelo é proposto como uma alternativa ao modelo ”skew-normal”, com fdp f (y|λ) = 2φ(y)Φ(λy), 12 2.3 O MODELO TOBIT que apresenta algumas dificuldades como a singularidade da MIF (Azzalini, 1985). Isto implica, por exemplo, que a distribuição da estatı́stica da razão de verossimilhanças (ERV) não é assintoticamente distribuı́da com distribuição χ2 . Para o modelo potência-normal pode-se mostrar que a matriz de informação de Fisher para θ = (µ, σ, α = 1)0 é dada por 1 0 0.903192 σ2 2 0 −0.595636 . IF (θ) = σ2 0.903197 −0.595636 1 Pode-se verificar que |IF (θ)| = 0.013688/σ 4 . Então, para este modelo a matriz de informação de Fisher não é singular no ponto de simetria. Por outro lado, Azzalini (1985) mostra que o modelo ”skew normal”apresenta matriz de informação de Fisher singular. Isso implica que as condições usuais de regularidade (Bolfarine e Sandoval, 2005) não estão satisfeitas neste caso. Para o caso do modelo tobit (com T=c), a log-verossimilhança para o modelo α-potência pode ser escrita como X c−µ `(θ; Y ) = α (1 − Ii ) log F σ i X yi − µ yi − µ + + (α − 1) ln F , Ii log(α) − log(σ) + log f σ σ i onde Ii = 2.3 1, se yi > c 0, se yi ≤ c. Aplicações Nesta seção consideramos aplicações ao conjunto de dados usando o modelo tobit e o modelo tobit potência-normal. Os resultados a seguir aparecem em Martinez et al. (2013). 2.4 APLICAÇÃO DO MODELO TOBIT POTÊNCIA-NORMAL 2.3.1 13 Aplicação do modelo tobit-normal Vamos ilustrar uma aplicação do modelo tobit-normal para parte dos dados em Fair (1978). Para uma amostra de 601 homens e mulheres casados pela primeira vez, temos como variável resposta (Y), o número de casos extraconjugais. Parte das variáveis usadas no estudo foram as seguintes: Y : número de casos extraconjugais no ano anterior X1 : anos de casado X2 : idade X3 : religosidade (escala de 1 (ateu) a 5 (frequenta regularmente) X4 : avaliação casamento (escala de 1 (muito infeliz) a 5 (muito feliz) Dos 601 entrevistados, 451 não tiveram casos. Temos, portanto, dados com censura em zero. Tabela 2.1: Estatı́sticas descritivas para dados de Fair n Média Variância Assimetria curtose 601 7.45 17.11 0.1553 3.7 Note que existe indicação de assimetria e curtose acima do esperado para a distribuição normal. Temos também as estimativas: β̂0 = 9.08 (2.66), β̂1 = −0.16 (0.077), β̂2 = 0.54 (0.13), β̂3 = 1.72 (0.41), β̂4 = −2.26 (0.41), σ = 8.27 (0.55). Além disso, Log − lik = −706.4. Portanto as variáveis influenciam significativamente no número de casos extraconjugais. 2.4 Aplicação do modelo tobit potência-normal Para os dados de Fair (1978), usando o modelo tobit potência-normal (tobit/PN) temos α̂ = 10.26 (0.56), com Log − lik = −581.22, indicando forte evidência de que o modelo tobit/PN apresenta melhor ajuste para os dados 14 O MODELO TOBIT 2.4 de Fair. Não existem disferenças significativas nas estimativas dos outros parâmetros. Capı́tulo 3 O modelo tobit com excesso de zeros Neste capı́tulo consideramos modelos para a situação onde temos ajuste do modelo tobit com excesso de zeros. Basicamente, consideramos os modelos propostos em Moulton and Halsey (1995) e Cragg (1971). Discutimos estimação por métodos clássicos e Bayesianos. 3.1 Modelos com excesso de zeros Existem situações reais onde a quantidade de zeros é maior que o esperado com o modelo tobit-normal. Uma possibilidade é considerar que parte dos zeros observados vem de uma massa pontual concentrada no limite de detecção mı́nimo (LDM) não explicada pela distribuição correspondente à resposta não nula. O modelo tobit com excesso de zeros pode ser implementado considerando o enfoque em Moulton e Halsey (1995) que especifica para a resposta observada que g(yi ) = [qi + (1 − qi )F (T )](1 − Ii ) + (1 − qi )f (yi )Ii , onde 15 16 O MODELO TOBIT COM EXCESSO DE ZEROS Ii = 3.2 1, se yi > T 0, se yi ≤ T. A situação onde o ponto de truncamento é T = 0 é imediata. Covariadas podem ser associadas com qi através de uma função de distribuição (ligação) H, ou seja, qi = H(x0i β). Para o caso em que qi = q, isto é, a probabilidade de excesso de zeros é constante para as unidades amostrais, a função log-verossimilhança para uma amostra y = (y1 , . . . , yn )0 e vetor de parâmetros θ, pode ser escrita como l(θ|y) ∝ n X {(Ij − 1) log(q + (1 − q)F (yj )) + Ij log(1 − q) + log(f (yj ))}. j=1 Uma alternativa ao modelo de Moulton and Halsey (1995) é a alternativa proposta por Cragg (1971) onde é especificado que g(yi ) = qi (1 − Ii ) + (1 − qi )f (yi )Ii , i = 1, . . . , n, ou seja, os zeros observados são oriundos da massa pontual. Note que o caso particular do modelo tobit padrão segue como um caso particular dos modelos acima tomando qi = 0, i = 1, . . . , n. 3.2 A distribuição log-α-potência Conforme visto no capı́tulo anterior, o modelo tobit (potência) assimétrico (TPA) pode ser definido considerando F como sendo a fda da distribuição α-potência com fdp dada por fF (z) = αf (x)F (z)α−1 . No caso particular em que F 0 = f = φ, temos, como visto anteriormente, fN (z) = αφ(z)Φα−1 (z). A distribuição do tempo de vida de um equipamento e a concentração de um elemento quı́mico em amostras de solo (água ou sangue) é tipicamente distribuı́da de acordo com a distribuição log-normal. Em muitas dessas 3.2 A DISTRIBUIÇÃO LOG-α-POTÊNCIA 17 situações, contudo, a assimetria da distribuição pode estar acima do esperado com a distribuição log-normal. O modelo log-”skew-normal”é estudado em Gomez et al. (2011) do qual o modelo log-normal é um caso especial. Uma extensão do modelo log-normal para o modelo log-”skew-normal”é considerado em Chai e Bailey (2008). Contudo uma das dificuldades do modelo log − skew − normal (log-normal assimétrico) é o fato de sua matriz de informação de Fisher ser singular. A distribuição da estatı́stica da razão de verossimilhança para testar normalidade, por exemplo, não segue distribuição χ2 . Como uma alternativa a estas situações, consideramos o modelo logpotência-normal (”log-power-normal”) (LPN), que contém como caso particular a distribuição log-normal. Uma vantagem deste modelo é que ele contém um parâmetro de forma adicional, que o faz mais flexı́vel em termos de assimetria e curtose para ajustar dados experimentais como os considerados nestas notas. Dizemos que uma variável y, com suporte em R+ , segue uma distribuição log-α-potência univariada com parâmetro α, que denotamos por Y ∼ LAP (α), se a variável transformada X = log(Y ) ∼ AP (α). A fdp de uma variavel Y ∼ LAP (α) pode ser escrita como g(y; α) = α f (log(y)) {F (log(y))}α−1 , y y ∈ R+ , (3.1) onde F é uma função de distribuição absolutamente contı́nua com função de densidade f = F 0 . Nos referimos a esta distribuição como log-α-potência padrão. No caso especial em que f = φ(·) e F = Φ(·), as funções de densidade e de distribuição da normal padrão (N (0, 1)), respectivamente, a distribuição log-potência-normal segue, com fdp dada por g(y; α) = α φ(log(y)) {Φ(log(y))}α−1 , y y ∈ R+ , (3.2) que denotamos por Y ∼ LP N (α). Sua função de distribuição pode ser escrita como FY (y; α) = {Φ(log(y))}α , y ∈ R+ . (3.3) O método de inversão pode ser usado para gerar valores aleatórios da variável com distribuição LP N (α). Isto é, se U ∼ U (0, 1), a distribuição 18 O MODELO TOBIT COM EXCESSO DE ZEROS −1 3.3 1/α da variável aleatória Y = eΦ (U ) é (log-potência-normal) LPN com parâmetro α. Seja X ∼ P N (µ, σ, α), onde µ ∈ R é um parâmetro de localização e σ ∈ R+ é um parâmetro de escala. Então, a transformação X = log(Y ) leva ao modelo localização-escala log-potência-normal. Usamos a notação Y ∼ LP N (µ, σ, α). No caso particular em que α = 1, isto é, log(Y ) − µ ∼ N (0, 1), σ pode-se mostrar que (depois de algumas manipulações algébricas que) a matriz de informação de Fisher para θ = (µ, σ, α)0 é dada por 1/σ 2 0 a01 /σ 2/σ 2 a11 /σ , I(θ) = 0 a01 /σ a11 /σ 1 Z= onde akj = E{z k (φ(z)/Φ(z))j } for k = 0, 1, 2, 3 e j = 1, 2, que coincide com a matriz de informação de Fisher para a distribuição potência-normal (Pewsey et al., 2012). Assim, usando procedimentos numéricos, pode-se mostrar que |IF (θ)| = [2 − (a211 + 2a201 )]/σ 4 6= 0, de modo que a matriz de informação de Fisher é não singular para α = 1.0. A matriz de informação completa também foi derivada. Então, para n grande, A θ̂ −→ N3 (θ, IF (θ)−1 ), implicando na consistência e normalidade assintótica do EMV de θ, cuja variância assintótica d́ada por IF (θ)−1 . Como consequência desta propriedade importante, podemos testar (com o modelo LPN) log-normalidade (isto é, H0 : LP N = LN ), usando propriedades para grandes amostras da estatı́stica da RV que segue distribuição χ2 . Este não é o caso, por exemplo da distribuição LSN, para a qual a MIF é singular. A escolha de um modelo conveniente pode ser feito através dos valores de assimetria e curtose. 3.3 O modelo bernoulli/log-α-potência Uma extensão importante do modelo log-potência-normal para a situação de excesso de zeros é a extensão proposta em Cragg (1971), usualmente 3.3 O MODELO BERNOULLI/LOG-α-POTÊNCIA 19 chamado modelo de duas partes (two-part model), que estabelece uma maneira de relaxar a restrição do truncamento no modelo tobit. Sob o modelo Cragg (1971) a fdp de yi pode ser formalmente escrita como g(yi ) = pi Ii + (1 − pi )f (yi )(1 − Ii ), (3.4) onde pi é a probabilidade determinando a contribuição relativa da massa pontual na distribuição da mixtura, f é uma fdp com suporte positivo e, Ii = 0, se yi > 0 1, se yi ≤ 0. Neste modelo os dois componentes são determinados por processos estocásticos diferentes de modo que os componentes positivos vem da fdp f . Por outro lado um zero vem da massa pontual. Este modelo não considera contudo um limite de deteção mı́nimo e que parte das observações está abaixo deste limite. Moulton e Halsey (1995) generalizam o modelo em duas partes permitindo que parte das resposta limites resultam de censura intervalar de f . Isto significa que um zero pode vir da massa pontual ou pode ser um valor de f não definido precisamente em (0, T ), com T constante. Formalmente, g(yi ) = [pi + (1 − pi )F (T )]Ii + (1 − pi )f (yi )(1 − Ii ), (3.5) onde F é a fda de f. Então, uma grande quantidade de modelos são produzidos variando a densidade básica f e a função de ligação correspondente a pi . Diversos modelos hı́bridos podem ser considerados como os modelos probit/potêncianormal, logit/log-normal, logit/log-gamma e probit/log-skew-normal. Estes modelos foram considerados em aplicações práticas em biologia, economia, agricultura e muitas outras àreas (Chai and Bailey, 2008). Note que se pi = 0, i = 1, . . . , n, o modelo de Moulton e Halsey (1995) reduz-se ao modelo tobit usual (Tobin, 1958). No caso da medição de concentração de anticorpos por diferentes laboratórios, e considerando yi a resposta para a unidade i, é tipicamente de interesse a situação onde a distribuição de log(yi ) é função dos parâmetros β0 , ..., βp que estão relacionados através do modelo linear log(yi ) = β0 + β1 x1i + ... + βp xpi + i , 20 O MODELO TOBIT COM EXCESSO DE ZEROS 3.3 onde i ∼ P N (0, σ, α) e x1 , ..., xp são constantes fixas e conhecidas. Sob o modelo PN, Z E[i ] = ασ 1 Φ−1 (z)z α−1 dz 6= 0, 0 de modo que o valor esperado do termo do erro não é nulo como é o caso sob normalidade. Consequentemente, E[yi ] 6= x0i β e teremos que corrigir o parâmetro intercepto, isto é, β0∗ = β0 + µ , onde µ = E[i ]. Então, E[yi ] = x0i β ∗ , onde β ∗ = (β0∗ , β1 , ..., βp )0 . Consideramos agora extensões do modelo Bernoulli/LN para as situações dos modelos logito/LPN e probito/LPN, juntamente com covariadas em cada passo do modelo. Este desenvolvimento está apresentado em Martinez et al. (2012a). Inicialmente, suponhamos que todas as observações vem do modelo LPN com parâmetros de localização e escala µ e σ, respectivamente, mas sem covariadas. A contribuição para a verossimilhança de observações não censuradas, isto é, para y > T, pode ser representada como α φ [(log(y) − µ)/σ] {Φ[(log(y) − µ)/σ]}α−1 . σy Covariadas são introduzidas para ambas as partes do modelo, ou seja, para as variáveis D e Y , de modo que considerando a ligação logito para a variável D temos que logit{P [D = 1|x(1) ]} = x0(1) β(1) , onde x(1) é o vetor de covariáveis de dimensão p, associados com o vetor de parâmetros β(1) . Então, temos que τi = 1 − pi = exp(x0(1)i β (1) ) 1 + exp(x0(1)i β (1) ) , i = 1, . . . , n. 3.3 O MODELO BERNOULLI/LOG-α-POTÊNCIA 21 Correspondendo a parte LPN temos o vetor de covariáveis x(2) de dimensão q, possivelmente diferente de x(1) , onde temos o vetor de parâmetros β(2) , para os quais log(yi ) ∼ P N (x0(2)i β(2) , σ, α), yi > 0. Chamamos atenção para o fato que diferentes distribuições podem levar a modelos de regressão mais informativos (Chai and Bailey, 2008). O logaritimo da função de verossimilhança para θ = (β 0(1) β 0(2) , σ, α)0 dados X = (x1 , x2 ) e Y = (y1 , . . . , yn ), desprezando constantes não informativas, pode ser escrita como X `(θ; X, Y ) = Ii {log[1 + exp(x0(1)i β (1) ){Φ(zT i )}α ] i − log[1 + exp(x0(1)i β (1) )]} X + (1 − Ii ){log(α) − log(σyi ) i h i 1 +x0(1)i β (1) − log 1 + exp(x0(1)i β (1) ) − zi2 + (α − 1) log(Φ(zi ))}, 2 0 log(T )−x(2)i β (2) log(yi )−x0(2)i β (2) onde zT i = e z = . i σ σ Usando as equações acima, estimadores de máxima verossimilhança para os parâmetros do modelo podem ser calculados. Como a MIF para o modelo LPN é não singular, inferência em grandes amostras para o modelo Bernoulli/LPN podem ser implementadas para os EMV sob condições de regularidades usuais onde o EMV é assintoticamente normal com média θ e matriz de covariâncias igual a inversa da MIF, indicando otimalidade assintótica. Pode-se considerar extensões do modelo acima como a presença de interações. Considerando agora o modelo probit para a variável de Bernoulli D, temos que pi = P [yi = 0] = Φ(−x0(1)i β (1) ) = 1 − Φ(x0(1)i β (1) ) e log(yi ) ∼ AP N (x0(2)i β(2) , σ, α), yi > 0. 22 O MODELO TOBIT COM EXCESSO DE ZEROS 3.4 O logaritimo da função de verossimilhança (função log-verossimilhança), a menos de constantes, pode ser escrito como `(θ; X, Y ) = X io n h Ii log 1 + Φ(x0(1)i β (1) ){{Φ(zT i )}α − 1} , i + X (1−Ii ) log(α) − log(η) + log Φ(x0(1)i β (1) ) i onde zT i = log(T ) − x0(2)i β (2) 1 2 − zi + (α − 1) log(Φ(zi )) , 2 log(yi ) − x0(2)i β (2) e zi = . σ σ A função escore é obtida derivando-se a função de log-verossimilhança. A função log-verossimilhança do modelo tobit (com T=c) considerando que a distribuição do erro segue distribuição α-potência pode ser escrita como X c−µ `(θ; Y ) = α (1 − Ii ) log F + σ i X yi − ξ yi − µ + (α − 1) ln F Ii log(α) − log(σ) + log f σ σ i onde Ii = 1, se yi > c 0, se yi ≤ c. Casos particulares importantes seguem tomando f = φ e f = tν (µ, σ 2 ). 3.4 Aplicação: dados do Haiti Consideramos a ligação logito e a distribuição log-normal para parte positiva (incluindo respostas limitadas). Os dados são descritos em Moulton and Halsey (1995). Tabela 1 sintetiza resultados de estimação para os dados de vacinação no Haiti sob diferentes modelos considerando ou não mistura e censura. 3.4 APLICAÇÃO: DADOS DO HAITI 23 Variáveis: EZ (Tipo de vacina, 0: Schwarz, 1: Edmonston-Zagreb); HI (dose, 0: médio, 1: alto); FEM (sexo; 0: masculino, 1: feminino); INT: Termo constante. A tabela a seguir apresenta análises classica (EMV) e Bayesiana para os dados acima, considerado o modelo Bernoulli/log-normal. As estimativas das variâncias para o enfoque clássico são apresentadas em Moulton and Halsey (1995) de onde se conclui que das variáveis consideradas no estudo, TIPO e SEXO são significantes. 24 O MODELO TOBIT COM EXCESSO DE ZEROS 3.4 Tabela 3.1: Estimativas clássicas e Bayesianas Modelo Método INT A B C D E F G Clas Bay Clas Bay Clas Bay Clas Bay Clas Bay Clas Bay Clas Bay 1.198 1.227 1.178 1.226 0.732 0.813 0.765 0.910 0.648 0.678 Componente Bernoulli EZ HI FEM 0.843 0.950 0.932 1.112 0.830 0.893 0.431 0.445 0.433 0.439 0.426 0.440 -0.166 -0.244 -0.281 -0.425 Componente log-normal Component INT EZ HI FEM -0.979 -0.981 -1.287 0.340 0.182 0.115 -0.932 0.203 0.097 0.114 -0.273 -0.285 -0.327 -0.109 -0.037 0.290 -0.361 -0.083 -0.025 0.277 -0.274 -0.305 -0.304 -0.192 -0.063 0.329 -0.353 -0.199 -0.055 0.339 -0.404 0.279 -0.421 0.266 Tabela 3.2: Ajustes MV e Bayesianos Modelo −2 × loglik DIC pD A 1115.830 136.600 1.89 B 1113.180 120.560 5.17 C 1079.320 101.800 2.7 D 1075.620 104.500 5.79 E 1068.720 95.560 5.08 F 1063.360 94.470 9.07 G 1065.810 93.840 5.42 Estimadores dos parâmetros para ajustes da mistura logito/LN com um e dois componentes considerando inferência clássica e Bayesiana para os dados do Haiti. Comparações para dados do Haiti considerando inferência clássica e Bayesiana. Note que existe discordância entre os resultados clássicos e Bayesianos quanto ao ajuste do modelo. Para o enfoque Bayesiano, o melhor modelo é o modelo G (mais completo), enquanto que para o enfoque clássico o modelo que melhor se ajusta é o modelo F. A tabela a seguir apresenta resultados do ajuste Bayesiano dos modelos log-normal e log-potência-normal incluindo as estimativas dos desvios padrões. Note que o enfoque Bayesiano tanto para os modelos log-normal como log-potência-normal indicam significância das variáveis TIPO e SEXO. Para o modelo completo, Moulton e Halsey (1995) obtiveram os seguintes estimativas (Estimativa/DP): 3.5 APLICAÇÃO: DADOS DE MROZ 25 Tabela 3.3: Ajustes log-potência-normal e log-normal Model parameters α β(1)0 β(1)1 β(1)2 β(1)3 β(2)0 β(2)1 β(2)2 β(2)3 σ τ Dbar DIC EAIC EBIC mean 0.91 1.15 0.44 -0.42 -0.35 -0.20 -0.06 0.35 1.18 0.73 Log-Normal MC error P5 0.009 0.058 0.009 0.009 0.004 0.005 0.003 0.003 0.003 0.003 7687.00 7693.00 7705.00 7739.19 0.42 0.50 -0.06 -1.02 -0.66 -0.48 -0.34 0.07 1.06 0.57 P95 1.45 1.92 0.99 0.13 -0.07 0.08 0.22 0.63 1.32 0.89 mean 16.69 0.72 0.86 0.38 -0.26 -3.43 -0.14 0.01 0.25 1.87 0.30 Log-Potência-Normal MC error P5 P95 0.600 3.55 38.38 0.009 0.30 1.18 0.011 0.39 1.35 0.008 -0.07 0.85 0.009 -0.74 0.20 0.047 -4.94 -1.70 0.005 -0.37 0.10 0.005 -0.21 0.26 0.006 0.01 0.50 0.009 1.48 2.21 0.004 0.21 0.46 7681 7687 7701 7739.0 Componente Bernoulli: β̂(1)0 = .77(2.77), β̂(1)1 = .93(2.82), β̂(1)2 = .43(1.48), β̂(1)3 = −.28(2.82) Componente log-normal: β̂(2)0 = −.31(−1.89), β̂(2)1 = −.19(−1.20), β̂(2)2 = −.06(−.40), β̂(2)3 = −.33(2.06). Temos, portanto que os resultados clássicos e Bayesianos concordam quanto a significância dos parâmetros, havendo contudo diferença no melhor modelo ajustado. O enfoque Bayesiano recomenda o modelo G. 3.5 Aplicação: dados de Mroz Consideramos os dados de Mroz (1987), que analisa as informações de 753 mulheres casadas com idade entre 30 e 60 anos, com interesse na relação entre a oferta de trabalho e outras covariáveis, no ano de 1975. Para obter os dados, basta entrar no R com > library(sampleSelection) > data(Mroz87) 26 3.5 O MODELO TOBIT COM EXCESSO DE ZEROS As variáveis utilizadas no artigo são: Horas de trabalho (variável resposta), salário que não é devido ao trabalho da mulher, anos de educação, anos de experiência de trabalho, idade da mulher, número de crianças menores que 6 anos, nḿero de crianças entre 6 e 18 anos. Tabela 3.4: Bernoulli Estimadores Bayesianos para parâmetros do componente Parâmetro β1(1) β1(2) β1(3) β1(4) β1(5) β1(6) β1(7) β1(8) Média -0.05 -0.54 5.10 -3.80 6.50 11.90 1.54 9.3 D.P. 9.761 9.68 7.753 6.283 5.866 5.417 11.62 6.069 Q2.5% -19.31 -19.74 -12.41 -9.98 -8.25 0.023 -17.59 -0.61 Q97.5% 19.27 18.46 19.73 16.94 14.48 18.94 22.21 20.6 Note que H0 : β1(6) 6= 0 é significante, de modo que existe indicação de que existe excesso de zeros nos dados de Mroz (1976). Tabela 3.5: contı́nuo Estimadores Bayesianos para parâmetros do componente Parâmetro β2(1) β2(2) β2(3) β2(4) β2(5) β2(6) β2(7) β2(8) Média 0.8324 -5.715 3.111 -8.74 23.23 -6.308 38.18 0.7323 D.P. 9.921 9.885 9.462 3.444 8.355 4.128 7.592 0.3108 Q2.5% -19.0 -25.39 -15.05 -15.58 6.486 -14.13 21.87 0.168 Q97.5% 20.02 13.8 21.65 -1.978 39.15 1.763 52.86 1.389 Temos também que σ̂ = 1223, 0. Note que váriáveis significantes para a parte contı́nua são 1, 4, 5 e 6. Para a parte discreta (pontual), temos que a variável X5 é significativa ao nı́vel de 5%, indicando que existe excesso de zeros nos dados de Mroz. Capı́tulo 4 Modelo α-potência inflacionado de zeros e/ou uns Neste capı́tulo consideramos distribuições potência para modelar proporções ou taxas com inflação de zeros e/ou uns como uma alternativa ao modelo de regressão beta. Os modelos considerados são misturas de processos de Bernoulli para explicar o excesso de zeros e/ou uns e uma distribuição potência-normal limitada para explicar a resposta contı́nua. Consideramos os enfoques de máxima verossimilhança e Bayesiano para a estimação dos parâmetros. Matrizes de informação observadas (MIO) e esperadas (MIF) são derivadas, ilustrando aspectos interessantes destes modelos. Dada a flexibilidade da distribuição potência-normal, pode-se mostrar em um cenário prático que o modelo tobit modificado pode ser mais preciso que o modelo de regressão beta. 4.1 Modelos duplamente censurados Modelos estatı́sticos usados para explicar variáveis respostas no intervalo (0, 1) tem recebido considerável atenção na literatura estatı́stica recente. Entre outros, mencionamos, Ferrari e Cribari-Neto (2004), Brascum et al. (2007) e Bayes et al. (2012). Extensões deste modelos para situações com respostas no intervalos [0, 1], [0, 1) e (0, 1] são estudadas em Ospina e Ferrari 27 28 MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS 4.2 (2010). Variáveis deste tipo incluem, por exemplo, a proporção de mortes causadas pelo cigarro, a proporção de impostos gastos na educação, a proporção de renda familiar gasta em alimetação, etc. A situação da variável resposta com inflação de zeros e uns é relatado em um conjunto de dados sobre a porcentagem de mortes não explicadas nos municı́pios brasileiros durante o ano 2000 entre crianças com menos de uma ano de idade. Das 5561 observações coletadas, tem-se um total de 3367 zeros e 174 uns, que certamente deve ser incorporado no estudo. Para tratar deste cenário mais complexo uma extensão do modelo de regressão beta usual foi considerado in Ospina (2008) e Ospina e Ferrari (2010), levando a resultados bastante satisfatórios. Neste capı́tulo, propomos um enfoque alternativo ao descrito acima. Ele é uma extensão do modelo tobit censurado (Tobin, 1956) no intervalo [0, 1], para incorporar inflação de zeros e/ou uns. É considerado que parte dos zeros e/ou uns vem de uma variável Bernoulli ligando possı́veis excessos de zero e/ou uns com um grupo de covariáveis que podem influenciar na probabilidade de de ocorrência de tais valores. Por outro lado, as resposta contı́nuas podem ser modeladas usando a distribuição potêncianormal (Gupta e Gupta, 2008, Pewsey et al., 2012), que são mais flexı́veis que a distribuição normal em termos de assimetria e curtose com EMVs bem comportados para os quais as condições de regularidade estão satisfeitas. Além disso, a extensão do modelo tobit que propomos consiste em substituir a fda da distribuição normal pela fda da distribuição potência-normal que é quase tão simples de se trabalhar quanto o modelo normal usual. Uma alternativa é usar a distribuição normal assimétrica que apresenta as dificuldades já mencionadas anteriormente e além disso tem fda não tão simples de ser trabalhada. Definimos inicialmente o modelo tobit-potência-normal (TPN) duplamente censurado no intervalo (0, 1), extendendo o modelo tobit usual para situações duplamente censuradas. A seguir o modelo é extendido para situações com excesso de zeros e/ou uns. Situações com dados reais são analisadas. Introduzimos o modelo Bernoulli/tobit-potência-normal (Bernoulli/TPN), onde se trata o problema de estimação do ponto de vista Bayesiano. 4.3 4.2 DISTRIBUIÇÕES PN PARA DADOS CENSURADOS 29 Distribuições PN para dados censurados Em uma situação duplamente censurada, a variável resposta é restrita a tomar valores em um intervalo, e eventualmente pode tomar os valores limites para parte significante dos dados. Os valores limites são usualmente chamados de limites de deteção mı́nimo (LDm) e máximo (LDM), respectivamente. Temos então o modelo tobit duplamente censurado. O modelo tobit usual pode não ser adequado em situações onde os valores observados para a parte contı́nua dos dados apresentam assimetria e curtose maior do que é esperado para o modelo normal. Em tais situações, o modelo potência-normal pode ser uma alternativa viável. 4.3 Modelo potência-normal duplamente censurado Suponhamos que y ∗ ∼ P N (ξ, η; α). Considere uma amostra de tamanho n, (y1∗ , y2∗ , ..., yn∗ ) e que somente parte dos valores de y ∗ está entre constantes c0 e c2 . Para valores de y ∗ ≤ c0 somente o valor c0 é relatado enquanto que para valores de y ∗ ≥ c2 , somente o valor c2 é relatado. Podemos então escrever os dados observados como ∗ c0 , se yi ≤ c0 , yi = yi∗ , se c0 < yi∗ < c2 , c2 , se yi∗ ≥ c2 , i = 1, 2, ..., n. A amostra resultante é dita ser uma amostra PN duplamente censurada. Para observações yi = c0 , temos que P [yi = c0 ] = P [yi∗ ≤ c0 ] = {Φ (z0 )}α , onde z0 = (c0 − µ)/σ; com yi∗ = c2 temos P [yi = c2 ] = P [yi∗ ≥ c2 ] = 1 − {Φ (z2 )}α , onde z2 = (c2 − µ)/σ. Para respostas contı́nuas, isto é, c0 < yi∗ < c2 , temos que yi ∼ P N (µ, σ, α). Denotamos esta variável por P N DC(µ, σ, α). Particularmente, para α = 1, o modelo se reduz ao modelo tobit duplamente censurado. 30 4.3 MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS P P P Denotando por 0 , 1 and 2 , as somas correspondendo a y ∗ ≤ c0 , c0 < yi∗ < c2 e y ∗ ≥ c2 respectivamente, então, o logaritimo da função de verossimilhança correspondente a uma amostra de tamanho n para estimar θ = (µ, σ, α)0 pode ser escrita como X X `(θ; Y) = α log [Φ (z0 )] + log [1 − {Φ (z2 )}α ] 0 + X 2 {log(α) − log(σ) + log (φ (z1i )) + (α − 1) log (Φ (z1i ))} , 1 onde zi = (yi − µ)/σ, i = 1, . . . , n. Portanto, os elementos da função escore são dados por U (ξ) = − 1X 1X 1X r(z0 ) + {z1i − (α − 1)w1i } + h(z2 ), σ σ σ 0 1 2 1X 1X 1 X 2 r(z0 )z0 + −1 + z1i − (α − 1)z1i w1i + z2 h(z2 ), σ σ σ 0 1 2 X X1 X U (α) = log [Φ (z0 )]+ + log (Φ (z1i )) −α−1 log(Φ(z2 ))w2−1 h(z2 ), α U (η) = − 0 1 2 onde z0 = c0 − µ , σ z2 = c2 − µ , σ z1i = yi − µ , σ w2 = φ(z2 ) , Φ(z2 ) w1i = φ(z1i ) , Φ(z1i ) e h e r são as funções de risco, r(t) = φ(t)/Φ(t), e risco inverso h(t) = φ/(1 − Φ(t)). Pode-se mostrar que as elementos da matriz de informação observada são dados por jµµ = 1 X r(z0 ){z0 + α−1 r(z0 )} η2 0 1 X 2 + 2 {1 + (α − 1)[z1i w1i + w1i ]} σ 1 1 X + 2 {h(z2 )[−z2 + (α − 1)w2 + h(z2 )]}, σ 2 4.4 MODELO POTÊNCIA-NORMAL DUPLAMENTE CENSURADO jσµ = 31 1 X r(z0 ){−1 + z02 + α−1 z0 r(z0 )} η2 0 1 X 2 2 {2z1i + (α − 1)[−w1i + z1i w1i + z1i w1i ]} + 2 σ 1 1 X {h(z2 )[1 − z22 + (α − 1)z2 w2 + z2 h(z2 )]}, + 2 σ 2 jσσ = 1 X r(z0 ){−2z0 + α−1 z02 r(z0 ) + z03 r(z0 )} σ2 0 1 X + 2 {z2 h(z2 )[2 − z22 + (α − 1)z2 w2 + z2 h(z2 )]} σ 2 1 X 2 2 2 3 {−1 + 3z1i + (α − 1)[−2z1i w1i + z1i w1i + z1i w1i ]}, σ2 1 1X 1X 1 X r(z0 ) + w1i − {h(z2 )[α−1 ασ σ σ jαµ = 0 1 2 + log(Φ(z2 ))[1 + w2 ]]}, jασ = 1 X z0 r(z0 ) ασ 0 1X 1X + z1i w1i − {z2 h(z2 )[α−1 + log(Φ(z2 ))[1 + w2 ]]}, σ σ 1 jαα = 2 X 1 X −2 1 + α {w2−2 log(Φ(z2 ))h(z2 )[αw2 + h(z)]}. 2 α 1 2 Baseado na função escore, os elementos da matriz de informação observada dos parâmetros do modelo podem ser estimados usando algoritmos iterativos. A MIF segue tomando-se esperanças dos componentes acima (multiplicados por n−1 ), é importantante no sentido de que a distribuição assintótica do estimador de máxima verossimilança é normal com variância assintótica que é o o inverso da MIF. Temos também que a MIF é não singular. 32 MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS 4.4 4.5 A transformação logarı́tmica No caso de variáveis respostas tomando somente valores positivos, podemos considerar a transformação Z = log(Y ), onde Z ∼ N (µ, σ 2 ). Considerando agora que Z ∼ P N (µ, σ, α), nos obtemos o modelo logpotência-normal com parâmetros µ, σ e α, denotado por Y ∼ LP N (µ, σ, α). A fdp para este modelo pode ser escrita como: ϕLP N (y; µ, σ, α) = ϕΦ (log(y); µ, σ, α)/y, y > 0. A fda correspondente é dada por FY (y; α) = {Φ((log(y) − µ)/σ)}α . Se os dados censurados em [0, ∞), com alta assimetria positiva podemos substituir y por y + 1 dado que o logaritmo de c0 = 0 não existe. Para dados duplamente censurados usamos a notação LP N DC(µ, σ, α). A função log-verossimilhança para o modelo LPNDC com c0 = 0 é dado por `LP N (θ; Y) = − X log(y + 1) + `(θ; log(Y + 1)), 1 onde `(.) é a log-verossimilhança para o modelo PNDC, com z0 = −µ/σ, z1i = (log(yi + 1) − µ)/σ e z2 = (log(c2 + 1) − µ)/σ. A função escore e a matriz de informação observadas podem ser obtidas das correspondentes para o modelo PNDC, substituindo h(z2 ) por hLP N (z2 ) = h(log(c2 + 1))/y e r(z0 ) por rLP N (z0 ) = r(z0 )/y onde h(.) e r(.) são as funções de risco e risco inverso do modelo PN. 4.5 O modelo Bernoulli duplamente censurado com mistura potência-normal Para as variáveis resposta distribuı́das no intervalo [0, 1] (c0 = 0 e c2 = 1) o modelo tobit duplamente censurado pode não ser ótimo porque o excesso de zeros e uns pode requerer modelos assimétricos capazes de captar tais caracteristicas especiais. Introduzimos então o modelo de mistura entre as variáveis resposta discreta e contı́nuas que segue o modelo potência-normal. Consideramos que a massa pontual no zero pode ser modelada por uma variável de Bernoulli com parâmetro γ, isto é, Ber(y; γ), e que a resposta no intervalo (0, 1) pode ser modelada por uma distribuição α-potência (ou log-α-potência) com parâmetro θ = (µ, σ, α)0 . A fdp correspondente para este modelo pode ser escrita como 4.6 ESTIMAÇÃO p(1 − γ), ,µ,σ,α) g(yi ) = (1 − p) {F (zϕ2F)}(yαi−{F (z0 )}α , pγ, 33 se yi = 0, se 0 < yi < 1, se yi = 1, onde 0 < p, γ < 1, σ, α > 0 e µ ∈ R. Temos também que se ϕF (yi , µ, σ, α) denota a fdp da distribuição potêncianormal. Como consequência da construção acima pode-se notar que P [y = 0] = p(1 − γ) e P [y = 1] = pγ. A fda de yi pode ser escrita como p(1 − γ), {F (zi )}α −{F (z0 )}α FY (yi ; µ, σ, α) = p(1 − γ) + (1 − p) {F (z2 )}α −{F (z0 )}α , 1, 4.6 se yi ≤ 0, se 0 < yi < 1, se yi ≥ 1. Estimação Consideramos inicialmente que F = Φ, a fda da distribuição normal, de modo que temos uma mistura entre a variável aleatória de Bernoulli com parâmetro γ e a distribuição P N (µ, σ, α)). Denotamos este modelo por M BP N (p, γ, µ, σ, α). Logo, para uma amostra de tamanho n, = (y1 , . . . , yn )T Py n da distribução M BPP N (p, γ, µ, σ, α), denotamos por n0 = i=1 I0 (y), n1 = P n n I (y) e n = 01 i=1 I0,1 (y), onde IA (y) é a função indicadora do coni=1 1 junto A. Assim, a função log-verossimilhança para θ = (p, γ, µ, σ, α) dado Y pode ser escrita como: `(θ; Y) = n01 log(p) + (n − n01 ) log(1 − p) + n1 log(γ) + n0 log(1 − γ) X {log(α) − log(σ) + log(φ(zi )) + (α − 1) log(Φ(zi )) 1 − log({Φ(z2 )}α − {Φ(z0 )}α )}, onde, zi = (yi − µ)/σ, i = 1, . . . , n. Portanto, usando um enfoque similar ao de Pewsey et al. (2012), a primeira derivada com respeito a p, γ, µ, σ e α pode ser escrita como 34 4.7 MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS U (p) = n01 n − n01 − , p 1−p U (γ) = U (ξ) = (n − n01 ) ( U (η) = −(n − n01 ) n1 n0 − , γ 1−γ z − (α − 1)w ϕΦ (c2 , θ) − ϕΦ (c0 , θ) + η {Φ(z2 )}α − {Φ(z0 )}α , 1 − z 2 + (α − 1)zw z2 ϕΦ (c2 , θ) − z0 ϕΦ (c0 , θ) − η {Φ(z2 )}α − {Φ(z0 )}α ) {Φ(z2 )}α log(Φ(z2 )) − {Φ(z0 )}α log(Φ(z0 )) 1 U (α) = (n − n01 ) u + − α {Φ(z2 )}α − {Φ(z0 )}α , , onde wi = φ(zi )/Φ(zi ) e ui = log{Φ(zi )}, i = 1, . . . , n. Então, o EMV para o parâmetro θ = (µ, σ, α)0 , é obtido resolvendo o sistema de equações que seguem de igualar os escores acima a zero. 1 Então, obtemos as soluções para p̂ = nn01 , γ̂ = nn01 , correspondendo, respectiveamente, a proporções de zeros e uns na subamostra de zeros e uns. Segue que p̂ é um estimador não viciado para p. Para θ1 = (µ, σ, α)0 , o sistema de equações não tem solução analı́tica, sendo portanto resolvida por métodos numéricos. 4.7 Matriz de informação observada Calculando a derivada segunda da log-verossimilhança obtemos os elementos jpp , jγp , jγγ , jξξ , jξη , . . . , jαα , dados em Martinez et al. (2012b). Pode-se mostrar que a matriz de informação esperada (MF) para θ = (p, γ, µ, σ, α)0 é dada por I(θ) = (1 − p) 1 p(1−p)2 0 0 0 0 0 p γ(1−γ)(1−p) 0 0 0 0 0 0 0 0 0 iµµ iµσ iµα iµσ iσσ iσα iµα iσα iαα , 4.7 MATRIZ DE INFORMAÇÃO OBSERVADA 35 onde os seus elementos são dados em Martinez et al. (2012b). Deste resultado segue que os parâmetros (p, γ)0 e (µ, σ, α)0 são ortogonais, de modo que a MIF é ortogonal em blocos, e pode ser escrita como n o p 1 I(θ) = Diag{Ip,γ , Iµ,σ,α }, onde Ip,γ = Diag p(1−p) , γ(1−γ) . Portanto, para n grande, A θ̂ → N5 (θ, Σθθ ), implicando que θ̂ é consistente e assintoticamenete normal com matriz de co−1 , I −1 } = Diag{Σ , Σ variâncias assintóticas Σθθ = I(θ)−1 = Diag{Ip,γ p,γ µ,σ,α }. µ,σ,α Note que parâmetros nos blocos podem ser estimados separadamente. A aproximação normal N5 (θ, Σ(θ)) pode ser usada para construir intervalos de cofiança paraqθr , com coeficiente de confiança γ = 1 − α que são dados por θˆr ∓ z1−α/2 σ̂(θˆr ), com os EMV e quantis da normal correspondentes. Considerando a reparametrização δ1 = pγ e δ0 = pδ1 podemos escrever o modelo como se yi = 0, δ0 , ϕΦ (yi ,ξ,η,α) g(yi ) = (1 − δ0 − δ1 ) {Φ(z2 )}α −{Φ(z0 )}α , se 0 < yi < 1, δ1 , se yi = 1, onde 0 < δ0 = P [yi = 0], δ1 = prob[yi = 1] < 1 e 0 < δ0 + δ1 < 1. A função log-verossimilhança para θ = (δ0 , δ1 , µ, σ, α)0 dado y é dada por `(θ; Y) = n0 log(δ0 ) + n1 log(δ1 ) + (n − n01 ) log(1 − δ0 − δ1 ) X + {log(α) − log(σ) + log (φ (zi )) 1 +(α − 1) log (Φ (zi )) − log({Φ(z2 )}α − {Φ(z0 )}α )}, os elementos do escore são: 36 4.7 MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS U (δ0 ) = n0 n − n01 − , δ0 1 − δ0 − δ1 U (δ1 ) = n − n01 n1 − , δ1 1 − δ0 − δ1 U (µ) = (n − n01 ) ( U (σ) = −(n − n01 ) z − (α − 1)w ϕΦ (c2 , θ) − ϕΦ (c0 , θ) + η {Φ(z2 )}α − {Φ(z0 )}α , 1 − z 2 + (α − 1)zw z2 ϕΦ (c2 , θ) − z0 ϕΦ (c0 , θ) − σ {Φ(z2 )}α − {Φ(z0 )}α ) 1 {Φ(z2 )}α log(Φ(z2 )) − {Φ(z0 )}α log(Φ(z0 )) U (α) = (n − n01 ) u + − α {Φ(z2 )}α − {Φ(z0 )}α , . Das primeiras duas equações, obtem-se δ̂0 = n0 /n, proporção de zeros e δ̂1 = n1 /n, a proporções de uns na amostra. Parâmetros restantes devem ser estimados numericamente. A MIF pode ser escrita como I(θ) = Diag{Iδ0 ,δ1 , Iµ,σ,α }, onde os elementos de Iδ0 ,δ1 são dados por iδ0 δ0 = 1 − δ1 , δ0 (1 − δ0 − δ1 ) iδ1 δ0 = 1 1 − δ0 − δ1 e iδ1 δ1 = 1 − δ0 , δ1 (1 − δ0 − δ1 ) com Iµ,σ,α computado para o modelo M BP N (p, γ, µ, σ, α). Também temos ortogonalidade. 4.8 37 MODELOS CENSURADOS PARA INFLAÇÃO DE ZEROS E UNS Para n grande, A θ̂ → N5 (θ, Σθθ ), com θ̂ consistente e assintoticamente normal, com −1 Σθθ = I(θ)−1 = Diag{Iδ−1 , Iµ,σ,α } = Diag{Σδ0 ,δ1 , Σµ,σ,α } 0 ,δ1 a varıância do EMV em grandes amostras. 4.8 Modelos censurados para inflação de zeros e uns Casos particulares são inflação de uns e zeros separadamente. Para o caso de inflação de zeros, temos ( δ0 , se yi = 0, g(yi ) = ϕΦ (yi ,µ,σ,α) (1 − δ0 ) {Φ(z2 )}α −{Φ(z0 )}α , se 0 < yi ≤ 1. onde 0 < δ0 = P [yi = 0] e 0 < δ0 < 1. A função log-verossimilhança para θ = (δ0 , µ, σ, α)0 dado y é dada por `(θ; Y) = n0 log(δ0 ) + (n − n0 ) log(1 − δ0 ) X + {log(α) − log(σ) + log (φ (zi )) 1 +(α − 1) log (Φ (zi )) − log({Φ(z2 )}α − {Φ(z0 )}α )}, de modo que os elementos da função escore são dados por U (δ0 ) = U (µ) = (n − n0 ) ( U (σ) = −(n − n0 ) n0 n − n0 − , δ0 1 − δ0 z − (α − 1)w ϕΦ (c2 , θ) − ϕΦ (c0 , θ) + σ {Φ(z2 )}α − {Φ(z0 )}α , 1 − z 2 + (α − 1)zw z2 ϕΦ (c2 , θ) − z0 ϕΦ (c0 , θ) − σ {Φ(z2 )}α − {Φ(z0 )}α ) , 1 {Φ(z2 )}α log(Φ(z2 )) − {Φ(z0 )}α log(Φ(z0 )) U (α) = (n − n0 ) u + − . α {Φ(z2 )}α − {Φ(z0 )}α 38 4.9 MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS Da primeira equação, obtemos o estimator δ̂0 = n0 /n, a proporção de zeros na amostra. Os parâmetros remanecentes requerem metódos numéricos. Para o caso de inflação de uns, temos ( δ1 , se yi = 1, g(yi ) = ϕΦ (yi ,µ,σ,α) (1 − δ1 ) {Φ(z2 )}α −{Φ(z0 )}α , se 0 ≤ yi < 1, onde 0 < δ1 = P [yi = 1] e 0 < δ1 < 1, levando a log-verossimilhança para θ = (δ1 , µ, σ, α)0 dado y pode ser escrita como: `(θ; Y) = n1 log(δ1 ) + (n − n1 ) log(1 − δ1 ) X + {log(α) − log(σ) + log(φ(zi )) 1 +(α − 1) log(Φ(zi )) − log({Φ(z2 )}α − {Φ(z0 )}α )}, de modo que os elementos da função escore são dados por U (δ1 ) = U (µ) = (n − n1 ) ( U (σ) = −(n − n1 ) n1 n − n1 − , δ1 1 − δ1 z − (α − 1)w ϕΦ (c2 , θ) − ϕΦ (c0 , θ) + σ {Φ(z2 )}α − {Φ(z0 )}α , 1 − z 2 + (α − 1)zw z2 ϕΦ (c2 , θ) − z0 ϕΦ (c0 , θ) − σ {Φ(z2 )}α − {Φ(z0 )}α ) 1 {Φ(z2 )}α log(Φ(z2 )) − {Φ(z0 )}α log(Φ(z0 )) U (α) = (n − n1 ) u + − α {Φ(z2 )}α − {Φ(z0 )}α , . Da primeira equação, obtemos o estimador δ̂1 = n1 /n, a proporção de uns na amostra. Os outros parâmetros são estimados numericamente. 4.10 4.9 MISTURA BERNOULLI/LPN 39 Mistura Bernoulli/LPN Considerando agora ϕF (yi , µ, σ, α)0 como a fdp do modelo LPN, o modelo Bernoulli/LPN é obtido, que denotamos por M BLP N (p, γ, µ, σ, α). O modelo é importante na modelagem de dados com mais assimetria e curtose que os correspondentes da distribuição normal. A função de log-verossimilhança do modelo reparametrizado pode ser escrita como `M BLP N (θ; Y) = − X log(yi ) + `(θ; log(Y )), 1 onde `(.) é a função de log-verossimilhança do modelo MBPN e log(Y ) = (log(y1 ), ..., log(yn ))0 . A função escore são como dadas para o modelo MBPN model, onde zi = (log(yi ) − µ)/σ, i = 1, . . . , n. 4.10 Ilustração com dados reais Nesta seção illustramos a utilidade das distribuições LPNDC e MBLPN para o ajuste de dados reais. O conjunto de dados que analizamos corresponde a proporção de mortes de crianças de menos de um ano por causa não esclarecidas nos 5561 municı́pios Brasileiros. Dados estão disponı́veis para ”download”no site http:www.datasus.gov.br. O conjunto de dados contém 3367 zeros (mortes esclarecidas) e 174 uns (mortes não esclarecidas). Ospina (2008), desenvolve um modelo baseado na regressão beta para modelar este tipo de dados com inflação de zeros e/ou uns. Como em Ospina (2008) assumimos a mistura de uma variável de Bernoulli para modelar a parte discreta com a regressão beta para a parte contı́nua (entre zero e um), que é denotada por BIZU (δ0 , δ1 , ξ, η). Para estimar os parâmetros do modelo BIZU, a rotina GAMLSS no programa R pode ser usado. Nós desenvolvemos programas no R para ajustar modelos LPNDC e para o modelo reparameterizado MBLPN. Dada presença de ortogonalidade entre os subconjuntos dos parâmetros para os modelos mistos, estimadores de máxima verossimilhaça para os parâmetros δ0 e δ1 para os modelos BIZU e MBLPN coincidem e são dados por δ̂0 = 0.6055(0.0066) e δ̂1 = 0.0313(0.0023). Para a parte contı́nua, 40 MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS 4.11 os EMV sob o modelo BIZU são dados por µ̂ = 0.2974(0.0043) e σ̂ = 0.4562(0.0050). Por outro lado, para o modelo MBLPN os EMVs são dados por µ̂ = −0.6779(0.0419), σ̂ = 0.4289(0.00001) e α̂ = 29.8227(1.1484). Para o caso do modelo LPNDC, temos os seguintes EMVs µ̂ = −0.8137(0.1065), η̂ = 0.5834(0.0259) e α̂ = 5.8809(1.4062). A porcentagem de zeros e uns na amostra são 0.6055 e 0.0313, respectivamente, e da função de distribuição acumulada obtem-se 0.6063 e 0.0284, respectivamente, revelando bom ajuste do modelo. EMVs para os parâmetros no modelo NDC são dados por µ̂ = −0.1556(0.0104) e σ̂ = 0.5420(0.0099), enquanto que para o modelo LNDC as EMVs são dados por µ̂ = −0.1375(0.0068) e σ̂ = 0.3239(0.0057). Por outro lado, para o modelo PNDC são dados por ξˆ = −0.9895(0.1447), η̂ = 0.7394(0.0335) e α̂ = 5.2200(1.3687). 4.11 Testando modelos disjuntos Para comparar os modelos MBLPN e LPNDC contra o modelo BIZU, um enfoque para modelos disjuntos deve ser utilizado. Sendo Fθ e Gγ dois modelos disjuntos, e f (yi |xi , θ) e g(yi |xi , β) as densidades correspondentes, a estatı́stica da razão de verossimilhanças pode ser escrita como LR(θ̂, β̂) ≡ `f (θ̂) − `g (β̂) = n X log i=1 f (yi |xi , θ̂) g(yi |xi , β̂) , que não segue distribuição quiquadrado em grandes amostras. Consideramos a proposta de Vuong (1989) baseada na divergência de Kullback-Leibler (Kullback e Leibler, 1951). Baseando-se na distância entre cada modelo e o verdadeiro processo gerando os dados, ou seja, h0 (yi , Xi ), temos a estatı́stica 1 LR(θ̂, β̂) TLR,N N = √ , ω̂ 2 n onde n 1X f (yi |xi , θ̂) ω̂ = log n g(yi |xi , β̂) i=1 2 !2 n − 1X f (yi |xi , θ̂) log n g(yi |xi , β̂) i=1 !!2 4.12 CONCLUSÕES é um estimator para a variância de 41 √1 LR(θ̂, β̂). n Mostra-se que, quando n → ∞, d TLR,N N → N (0, 1) sob f (yi |xi , θ) H0 : E log = 0, g(yi |xi , β) isto é, os modelos são equivalentes. Ao nı́vel de 5%, sendo z0.025 o valor crı́tico, rejeitamos a equivalência se TLR,N N > z0.025 , (ou se TLR,N N < −z0.025 ). Para os dados em estudo, sendo Fθ a fda do modelo LPNDC e Gβ , do modelo BIZU, o enfoque de Vuong leva ao valor observado TLR,N N = 21.8608 que é maior que o valor crı́tico z0.025 = 1.96 de modo que BIZU é o melhor dos dois modelos. De maneira similar, comparando os modelos MBLPN e BIZU, temos que TLR,N N = −19.4777, favorecendo o modelo MBLPN levando então a conclusão de que o modelo MBPLN produz melhor ajuste para os dados em questão. 4.12 Conclusões Discutimos uma alternativa para a regressão beta para a situação inflacionada de zeros e uns. O enfoque é baseado em uma extensão do modelo tobit com excesso de zeros que está desenvolvida em Moulton e Halsey (1995). Parâmetros são estimados por MV e a matriz de informação observada (Hessiana) é usada para estimar variâncias assintóticas. Aplicação a dados reais indica melhor desempenho do modelo proposto MBPLN, superando o modelo BIZU. 42 MODELO α-POTÊNCIA INFLACIONADO DE ZEROS E/OU UNS 4.12 Capı́tulo 5 Modelos bimodais censurados Em estudos antiretrovirais de HIV, a concentração viral tem limite de deteção (mı́nimo) podendo ser 20 ou de 50 copias por mililı́tro. O HIV-1 RNA tem tipicamente dois valores modais correspondendo as concentrações virais ótimas e subotimas, respectivamente. Os modelos podem ser vistos como extensões diretas do modelo tobit censurado adequados para o ajuste de dados unimodais e bimodais simétricos e assimétricos. Assim, os modelos estendem o modelo tobit usual para situações bimodais simétricas e assimétricas. EMV é implementada e MIF é derivada para tais modelos. Applicações a dados reais são implementadas ilustrando a performance bastante satisfatória dos modelos considerados. O problema da concentração de HIV RNA em amostras de sangue (escala log10 ) de pacientes com HIV apresenta limite de deteção mı́nimo como no problema da vacinação no Haiti; para o teste Roche Amplicor este limite é da 50 copias/ml. Este capı́tulo está direcionado para uma extensão do modelo tobit para modelos simétricos e assimétricos bimodais. No estudo de Li et al. (2006), conclui-se que a distribuição do HIV RNA (log10 ) é bimodal, a qual consideram ser uma mistura de duas distribuições normais, refletindo respostas diferentes para terapias antiretrovirais (HAART). Como trabalhar com misturas de distribuições apresenta dificuldades (falta de identificabilidade, por exemplo) (Marin et al., 2005), consideramos um caminho alternativo que segue da extensão dos modelos normais-assimétricos e potência-normal. Faze43 44 5.2 MODELOS BIMODAIS CENSURADOS mos uso de MV para estimação dos parâmetros. Julgamos ser factı́vel o uso de inferência Bayesiana. Seção 6.2 apresenta revisão básica de modelos bimodais simétricos e assimétricos. A Seção 6.3 é direcionada a uma extensão do modelo normal usual para dados censurados (modelos tipo tobit) podendo incorporar situações uni e bimodais. Estimação é considerada por MV e por métodos Bayesianos. Seção 6.6 trata de uma aplicação a um conjunto de dados de uma clı́nica na Colômbia. 5.1 Modelos assimétricos bimodais Como visto anteriormente, Azzalini (1985) considera a seguinte representação geral para uma distribuição assimétrica: ϕ(z; λ) = 2f (z)G(λz), z, λ ∈ R, onde f é uma fdp simétrica em torno de zero e G é fda simétrica e absolutamente continua e λ é o parâmetro de assimetria. Mais resultados podem ser vistos em Azzalini (1986), Henze (1986), Chiogna (1997) e Pewsey (2000). Em particular, se f = φ e G = Φ, a fdp e fda da N(0,1), obtemos ϕ(z; λ) = 2φ(z){Φ(λz)}, z ∈ R, que denotamos por Z ∼ SN (λ). 5.2 Extensões bimodais para modelos simétricos Uma modificação para tornar o modelo normal assimétrico bimodal, aparece em Kim (2005), f (z; λ) = cλ φ(z)Φ(λ|z|), z ∈ R, onde cλ é a constante de normalização, que não é simples de ser obtida. Kim (2005) mostra que este modelo produz densidades simétricas. Uma versão assimétrica do modelo de Kim aparece em Gomez et al. (2009), que considera f (z; λ) = cλ φ(z)Φ(λ|z|)Φ(βz), z ∈ R, 5.2 EXTENSÕES BIMODAIS PARA MODELOS SIMÉTRICOS 45 onde cλ é a constante de normalização. Dada a dificuldade de se trabalhar com o modelo acima devido a dificuldade de ser tarbalhar com a constante de normalização, Martinez et al. (2012b) propõe uma modificação bimodal (simétrica) no modelo potência-normal (PN) (Pewsey et al., 2012), considerando f (z|α) = αcα φ(z){Φ(|z|)}α−1 , α > 0, com 2α−1 . 2α − 1 Extensão para o caso locação-escala segue fazendo X = ψ + ηZ. Note que neste caso a constante de normalização é bastante simples. A matriz de informação de Fisher para localização-escala é dada por 1/η 2 0 a01 /η 2/η 2 a11 /η IF = 2 (1 + 2(log2) . cα = Pode-se mostrar que |IF | = 2.808/η 4 . Para tornar o modelo bimodal assimétrico usamos o enfoque em Gomez et al. (2009), que leva a fdp (Martinez et al., 2012b) f (z|α, β) = 2αcα φ(z){Φ(|z|)}α−1 Φ(βz), α > 0, z ∈ R, with cα = 2α−1 . 2α − 1 A extensão locação-escala segue tomando X = ψ + ηZ. Maximização da verossimilhança deve ser feita numericamente. A matriz de informação de Fisher para o modelo de locação-escala é dada por q 1/η 2 0 2/η 2 IF = 2 π /η 0 2/π 0 a01 /η a11 /η 0 2 (1 + 2(log2) ) Pode-se mostra que |IF | = −0.2999/η 4 6= 0. 46 5.2 MODELOS BIMODAIS CENSURADOS Pode-se testar normalidade, i.e., H0 : α = 1.0, β = 0, usando a estatistica da razão de verossimilhnaça. 5.2.1 Aplicação: Dados de poluição. Apresentamos a seguir o ajuste dos modelos acima a um conjunto de dados reais relacionados com (Y :) poluição nos EUA. O conjunto de dados é apresentado a seguir. 67,54.7,7.0,48.5,14,17.2,20.7,13,43.4,40.2,38.9,54.5,59.8,48.3, 22.9,11.5,34.4,35.1,38.7,30.8,30.6,43.1,56.8,40.8,41.8,42.5,31.0,31.7, 30.2,25.9,49.2,37,35.9,15,30.2,7.2,36.2,45.5,7.8,33.4,36.1,40.2, 42.7,42.5,16.2,39,35,37,31.4,37.6,39.9,36.2,42.8,46.4,24.7,49.1, 46,35.9,7.8,48.2,15.2,32.5,44.7,42.2,38.8,17.4,40.8,29.1,14.6,59.2 Pode-se mostrar que ȳ = 34.9 e s2y = 187.8. Ajustando a normal N (34.9; 187.80), nota-se que não é bom o ajuste deste modelos aos dados. Nota-se também a partir do histograma que os dados apresentam bimodalidade, de modo que um modelo assimétrico apresentaria uma juste melhor aos dados acima. Ajustamos então no WinBugs o modelo f (x|µ, σ, α, beta) ∝ 2αcα φ(z){Φ(|z|)}α−1 Φ(βz), α > 0, z ∈ R, com z = (x − µ)/sigma). Temos então a notação (µ, σ, α, β) = (mu, sig, lb, beta), com o código z[i] < −(y[i] − mu)/sig logLike[i] < −(−log(sig)) + log(lb) + (lb − 1) ∗ log(2) −log(pow(2, lb) − 1) − (pow(z[i], 2)/2) + (lb − 1) ∗ log(phi(abs(y[i]))) +log(phi(beta ∗ z[i])) que apresenta as estimativas µ̂ = 22, σ̂ = 14, α̂ = 4.5, β̂ = 1.0. 5.3 MODELO FLEXÍVEL NORMAL CENSURADO 47 Figura 5.1: Densidade estimada e histograma dos dados. Veja os gráficos da fda acima para os valores estimados sobre o histograma dos dados. Existe indicação de melhor ajuste do modelo bimodal. 5.3 Modelo flexı́vel normal censurado Nesta seção estendemos o modelo tobit usual para a situação normal bimodal. Tomando λ = 0 em Gomez et al. (2009), obtemos a fdp f (y; λ) = cδ φ(|y| + δ), onde δ é um número real e cδ = (2(1 − Φ(δ)))−1 é a constante de normalização. De maneira similar ao modelo acima, este model é bimodal para δ menor que zero. Denominamos este modelo normal flexı́vel e denotamos por F N (δ). Considere agora que y ∗ denota a distribuição F N (δ) e que (y1∗ , y2∗ , ..., yn∗ ) é uma amostra de uma variável aleatória onde somente valores y ∗ maiores que a constante c são observados. Para valores y ∗ ≤ c somente o valor c é registrado. Deste modo, os valores observados são dados por ∗ yi , se yi∗ > c yi = c, se yi∗ ≤ c, 48 MODELOS BIMODAIS CENSURADOS 5.3 i = 1, 2, ..., n. A amostra resultante é censurada à esquerda. Neste caso dizemos que a variável aleatória Y tem distribuição censurada normal flexı́vel e denotamos por CN F (δ). A distribuição desta variável aleatória é bimodal para valores de δ menores que zero e unimodal para valores de δ maiores que zero. Para δ = 0 temos o modelo normal usual. 5.3.1 Momentos Os momentos de Z ∼ CF N (δ) são funções dos momentos da distribuição normal, e são dados por Z µr (a) = ∞ z r φ(z)dz. a O r-ésimo momento da variável aleatória Z ∼ CF N (δ) são dados por r E(Z ) = µr = cδ r X r k=0 k (−δ)r−k µk (c + δ). Para c = 0, segue que a esperança e variância da variável aleatória Z são dadas por µ = cδ [φ(δ) − δ(1 − Φ(δ))] 5.3.2 e σ 2 = µ2 − µ2 = c2δ [2(1 − φ(δ))2 − φ2 (δ)]. Extensão para localização-escala Para o modelo normal com média µ e variância σ 2 , dizemos que a variável X segue a distribuição flexı́vel normal de localização-escala se sua fda é dada por x − µ cδ f (x; λ) = φ +δ , x ∈ R, σ σ com µ > 0 e σ parâmetros de localização e escala. Assim, definindo yi = xi , se xi > c c, se xi ≤ c, 5.3 MODELO FLEXÍVEL NORMAL CENSURADO 49 obtemos a distribuição normal flexı́vel, que denotamos por N CF (µ, σ, δ). Também, o r-ésimo momento da variável Y ∼ CN F (µ, σ, δ) é dado por: r E[Y ] = µr = cδ r X r k k=0 onde µr (a, b) = 5.3.3 Rb a δ r−k µ + σδ r−k µk − , −δ + (−1) µk (δ) , σ z r φ(z)dz. Estimação P P Denotamos por 0 a soma para as observações censuradas e 1 a soma para as observações não censuradas. Assim, para observações com yi = 0 temos que µ + σδ P [yi = 0] = P [xi ≤ 0] = cδ 1 − Φ σ e para yi > 0, a distribuição de yi é igual a distribuição de xi , isto é yi ∼ N F (µ, σ, δ). Para uma amostra de n unidades, y1 , y2 , ..., yn , a função de log-verossimilhança para θ = (µ, σ, δ)0 é dada por X µ + σδ `(θ; X) = log cδ 1 − Φ σ 0 X + [log(cδ ) − log(σ) + log(φ(|zi | + δ))] , 1 yi −µ σ , onde zi = i = 1, ..., n. Temos então o escore φ U (µ) = − µ+σδ σ δX n0 1 X yi − µ + sgn(yi − µ), − σ 1 − Φ µ+σδ σ σ σ σ φ µ+σδ σ 1 1 n0 µ n1 1 X yi − µ 2 δ X yi − µ − U (σ) = + + σ , σ 1 − Φ µ+σδ σ σ σ σ σ 1 1 50 5.3 MODELOS BIMODAIS CENSURADOS φ U (δ) = −n0 µ+σδ σ 1−Φ µ+σδ σ + X yi − µ nφ(δ) − σ − n1 δ, 1 − Φ(δ) 1 onde n0 e n1 como acima denotam o número de observações censuradas e não censuradas, respectivamente. Igualando escore a zero obtem-se sistema de equaç oes (com solução iterativa) que leva aos EMV. A função ”optim”do R pode ser empregada. 5.3.4 Matriz de informação Nesta subseção apresentamos as matrizes de informação esperadas e observadas para o modelo N F C(µ, σ, δ). Iniciamos com a matriz Hessiana, a saber, a segunda derivada da função log-verossimilhança com respeito aos parâmetros do modelo (multiplicada por (-1)), para as quais usamos a notação jµµ , jηµ , jδµ jηη , jδσ e jδδ , levando as seguintes expressões: µ+σδ µ+σδ φ φ σ σ n1 n0 µ + σδ − , jµµ = 2 + 2 + µ+σδ σ σ 1 − Φ µ+σδ σ 1−Φ σ jηµ = σ µ+σδ φ( µ+σδ n0 µ φ( σ ) 2 n0 µ µ + σδ σ ) − ] ( ( ) − 1) [ σ2 σ σ 1 − Φ( µ+σδ ) σ 2 σ 1 − Φ( µ+σδ ) σ + σ 2 X yi − µ σ2 σ 1 δ − σ2 + jηη X sgn(yi − µ), 1 2 µ+σδ φ µ+σδ φ σ σ n0 µ n µ µ µ + σδ + 02 = 2 1− σ σ σ σ σ 1 − Φ µ+σδ 1 − Φ µ+σδ σ σ n1 3 X yi − µ 2 2δ X yi − µ + 2 − 2+ 2 σ , σ σ σ σ 1 1 5.3 MODELO FLEXÍVEL NORMAL CENSURADO jδµ = − φ µ+σδ σ φ µ+σδ σ n0 µ + σδ 1X + sgn(yi − µ), − µ+σδ σ σ σ 1 − Φ µ+σδ 1 − Φ 1 σ σ jδσ 51 φ µ+σδ σ φ µ+σδ σ n0 µ µ + σδ 1 X yi − µ − = − σ , µ+σδ σ σ σ 1 − Φ µ+σδ 1 − Φ 1 σ σ jδδ = −n0 φ µ+σδ σ φ µ+σδ σ µ + σδ − µ+σδ σ 1 − Φ µ+σδ 1 − Φ σ σ +n δ − φ(δ) 1 − Φ(δ) φ(δ) + n1 . 1 − Φ(δ) Para obter a matriz de informação observada avaliamos os elementos da Hessiana acima nos EMVs. Para obter MIF calculamos os valores esperados dos elementos da Hessiana acima, usando a notação iµµ , iηµ , iδµ iηη , iδσ e iδδ , conforme pode ser visto em Martinez et al. (2012b). iθr θp = n −1 ∂ 2 `(θ; x) E − ∂θr ∂θp , r, p = 1, 2, 3, com θ1 = µ, θ2 = σ e θ3 = δ com: iµµ µ+σδ φ σ 1 µ + σδ cδ µ + σδ µ + σδ , = 2 1 − cδ 1 − Φ + 2φ − + σ σ σ σ σ 1 − Φ µ+σδ σ µ+σδ φ σ cδ µ + σδ µ µ + σδ δcδ µ + σδ = 2φ − −1 − 2 1−Φ σ σ σ σ σ σ 1 − Φ µ+σδ σ 2cδ µ + σδ µ + σδ 3 1 + 2 φ + φ(δ) + δ Φ + Φ(δ) − −√ , σ σ σ 2 2π iηµ 52 iηη = iδµ φ µ+σδ σ µcδ 1 µ + σδ µ µ + σδ − 2 + φ 1 + − + 2 µ+σδ σ σ σ σ σ 1−Φ σ µ + σδ cδ 2 2 −2δφ(δ) + (1 + 2δ ) 1 − Φ − 4δ (1 − Φ(δ)) + σ2 σ cδ µ − σδ µ + σδ µ + σδ 2 3 + 2δ φ + 3(1 + δ ) 1 − 2Φ(δ) + Φ , σ2 σ σ σ cδ = φ σ µ + σδ σ φ µ+σδ σ c − µ + σδ + + δ µ+σδ σ σ 1−Φ σ φ φ µ + σδ 1−Φ , σ µ + σδ µ + σδ δc µ + σδ cδ µ δ − φ − 1−Φ = σ σ σ σ σ 1 − Φ µ+σδ σ cδ µ + σδ + 2δ (1 − Φ(δ)) − 2φ(δ) + φ , σ σ iδσ 5.4 MODELOS BIMODAIS CENSURADOS µ+σδ σ µ+σδ σ µ + σδ µ + σδ φ(δ) φ(δ) + − + δ− σ σ 1 − Φ(δ) 1 − Φ(δ) 1 − Φ µ+σδ σ µ + σδ + 1 − cδ 1 − Φ . σ iδδ = cδ φ Mostramos que a MIF acima não é singular, de modo que o resultado seguinte segue das condições de regularidade usuais. Teorema 6.1. Se θ̂ é o EMV de θ, então A θ̂ → N3 (θ, IF (θ)−1 ), de modo que a matriz de covariâncias assintóticas do EMV θ̂ é a matriz inversa da MIF I(θ) a qual denotamos por Σθ = I(θ)−1 . Segue do teorema que podemos testar normalidade (H0 : δ = 0) usando a estatı́stica da razão de verossimilhanças. Tal resultado não vale, por exemplo, para o modelo em Arnold et al. (2009) para o qual a MIF é singular. 5.4 O MODELO BIMODAL SIMÉTRICO NORMAL CENSURADO 5.4 53 O modelo bimodal simétrico normal censurado O modelo proposto por Kim (2005), f (z; λ) = cλ φ(z)Φ(λ|z|), onde λ é um número real, cλ = 2π/(π + 2arctan(λ)) é a constante de normalização, é uma alternativa viável para o ajuste de dados bimodais simétricos, com λ > 0. Usamos a notação T N (λ). Pode-se estender o modelo para a situação onde parte das observações são censuradas, considerando Z ∼ T N (λ), onde yi = zi , se zi > c c, se zi ≤ c, que denotamos por CT N (λ). Assim, para λ > 0 temos o modelo bimodal simétrico. A fdp para a variavel Y, truncada a direita, é dada por f (y|y > c) = 2cλ φ(y)Φ(λ|y|) , 1 + cλ [Φ(c) − 0.5 + π −1 arctan(λ) − 2T (c, λ)] onde T (., λ) é a função de Owen (1956). Os momentos da variável aleatória Y podem ser obtidos a partir dos momentos da variável aleatória com densidade acima, levando aos seguintes momentos marginais: cλ λ √ E[Y ] = µ = √ +1 , 2 2π 1 + λ2 1 1 λ 1 2 √ E[Y ] = cλ + arctan λ + 4 2π 2π 1 + λ2 e cλ 3λ + 2λ3 E[Y 3 ] = √ . 2+ (1 + λ2 )3/2 2 2π 54 MODELOS BIMODAIS CENSURADOS 5.4 Temos também 4 E[Y ] = cλ 3 3 1 λ(2λ2 + 5) . + arctan λ + 4 2π 2π (1 + λ2 )2 Temos então que a variância da variável Y é dada por cλ ((π + 2 arctan λ)2 4π(π + 2 arctan λ) 2 2λ + 1 4λ (π + arctan λ) − π ). +√ 1 + λ2 1 + λ2 σ2 = 5.4.1 Estimação por máxima verossimilhança A extensão localização-escala para Kim (2005) pode ser escrita como x − µ cλ x−µ f (x; µ, σ, λ) = φ Φ λ σ σ σ P onde cλ = 2π/(π + 2 arctan(λ)) é a constante de normalização. Sendo 0 e P 1 como nas seções anteriores, a função de log-verosssimilhança é dada por `(θ; Y) = X 0 h µ µ i 1 −1 log 1 − cλ Φ − 0.5 + π arctan(λ) − 2T ,λ + 2 σ σ X [log(cλ ) − log(σ) + log(φ(zi )) + log(Φ(λ|zi |))] , 1 onde zi = yi −µ σ . Assim, os elementos da função escore são dados por 2n0 cλ µ λµ U (µ) = − φ Φ σ∆ σ σ φ yiσ−µ 1 X yi − µ λ X + + sgn(yi − µ) yi −µ , σ σ σ Φ σ 1 1 2n0 µcλ µ λµ n1 U (σ) = φ Φ − 2 σ ∆ σ σ σ y −µ 2 1 X yi − µ λ X yi − µ φ i σ , − + σ σ σ σ Φ yiσ−µ 1 1 5.5 MODELO BIMODAL NORMAL-ASSIMÉTRICO 55 µ λµ ncλ 2n0 cλ U (λ) = − + φ φ π(1 + λ2 ) (1 + λ2 )∆ σ σ X yi − µ φ yi −µ σ + σ Φ yi −µ , σ 1 onde h µ µ i ∆ = 1 − cλ Φ − 0.5 + π −1 arctan(λ) − 2T ,λ , σ σ onde n0 e n1 são como acima. Soluções para as equações obtidas igualando os escores acima a zero devem ser resolvidas numericamente. Os elementos da matriz Hessiana são dados em Martinez et al. (2012b). Esta matriz também pode ser obtida diretamente do R quando se usa a rotina ”optim”. 5.4.2 Matriz de informação esperada A matriz de informação esperada (MIF) pode ser calculada a partir da matriz de informação observada tomando esperança para cada um de seus elementos, a saber ∂ 2 `(θ; x) =E − ∂θr ∂θp Iθr θp , r, p = 1, 2, 3, con θ1 = µ, θ2 = σ e θ3 = λ. Esta matriz é apresentada em Martinez et al. (2012b). 5.5 Modelo bimodal normal-assimétrico Como mencionado na seção anterior, o modelo bimodal lá apresentado ajusta modelos simétricos. Não é, portanto, adequado para situações onde os dados são assimétricos. Para tais situações, propomos usar o modelo proposto em Arnold et al. (2009), que denotamos ET N (λ, β), de modo que para a situação localização-escala, temos que X ∼ ET N (µ, σ, λ, β). Considerando a situação censurada, onde 56 5.6 MODELOS BIMODAIS CENSURADOS yi = xi , se xi > c c, se xi ≤ c, Usamos a notação CET N (µ, σ, λ, β). Então, para c = 0, a contribuição para a verossimilhança de observações menores ou iguais a zero é dada por 1 Ψ(0) = P [y = 0] = P [x ≤ 0] = 2cλ [ 2 1−Φ µ ,β + T ,λ ] σ σ " βµ 1 1 βµ 1 , +S , ,λ − arctan +2cλ −T σ β σ β 2π −T βµ σ Φ µ σ µ βλ p 1 + β 2 + λ2 !# , onde T e S são as funções de Owen (1956) e Steck (1958), respectivamentes, definidas como: Z T (h, a) = 0 a φ(h)φ(hx) dx 1 + x2 Z e h S(h, a, b) = T (ax, b)φ(x)dx, −∞ onde h é um número real e a, b são números reais positivos. 5.5.1 A função log-verossimilhança Para uma amostra de tamanho n, X1 , X2 , ..., Xn a função log-verossimilhança para o vetor de parâmetros θ = (µ, σ, λ, β)0 dada a amostra Y1 , Y2 , ..., Yn é dada por: X `(θ; Y) = log(Ψ(0)) 0 + X [log(2) + log(cλ ) − log(σ) + log(φ(zi )) + log(Φ(λ|zi |)) + log(Φ(βzi ))] , 1 onde zi = yiσ−µ . A função escore e as matrizes de informação esperadas e observadas podem ser obtidas por procedimentos similares as dos casos anteriores. Estimadores de máxima verossimilhança são obtidos igualando a zero a função escore. ANALIZANDO UM CONJUNTO DE DADOS REAIS. CONCENTRAÇÃO DE HIV. 5.6 57 5.6 Analizando um conjunto de dados reais. Concentração de HIV. Para ilustrar o potencial para aplicações dos modelos estudados no artigo, consideramos uma amostra de 263 homens infectados com HIV, tratados com terapia HAART por menos de uma ano no serviço hospitalar de SantanderColombia. Este conjunto de dados de alta confidencialidade contém as variáveis idade, data de entrada no programa, sexo e carga viral de um total de 1279 pacientes com AIDS. A carga viral foi medida pelo método ELISA na escala log10 com limite de deteção mı́nimo (LDM) de 40 copias/ml. A idade média é de 36.19 anos, onde o paciente mais novo tem menos de um ano de idade e o paciente mais velho tem mais de 83 anos de idade. Estatı́sticas descritivas para os√dados acima do LDM são apresentados na tabela que segue. Quantidades b1 e b2 correspondem aos coeficientes de assimetria e curtose amostrais para valores acima de log(40). Estatı́sticas indicam que os dados apresentam alta assimetria positiva e baixa curtose (comparado com modelo normal) indicando que um modelo simétrico pode não ser a melhor escolha para ajustar os dados. Consideramos então os modelos normal censurado (NC), normal-assimétrico censurado (NAC), bimodal normal assimétrico censurado (BNAC) e bimodal normal-assimétrico (BNA). A próxima tabela apresenta estatı́sticas resumo para os dados estudados. Tabela 5.1: Estatı́sticas √ descritivas y s2y b1 b2 1.7350 1.7397 0.5258 2.1346 Usando o critério AIC (Akaike, 1974), ou seja, ˆ + 2p, AIC = −2 ∗ `(·) onde p é o número de parâmetros para o modelo considerado. Melhor modelo apresenta menor AIC. Assim, para formalmente testar bimodalidade, consideramos as hipóteses H0 : λ = 0 versus H1 : λ 6= 0, 58 5.6 MODELOS BIMODAIS CENSURADOS que compara modelos NAC com modeol BNAC. Para testar as hipóteses acima pode-se usar a ERV, a saber Λ= `N AC (θ̂) `BN AC (θ̂) , de onde obtemos −2 log(Λ) = −2(408.3129 − 414.7936) = 12.9614, que é maior que o valor crı́tico de 5% da distribuição χ2 com um grau de liberdade, a saber χ21;5% = 3.8414, fornecendo evidência do melhor ajuste do modelo BNAC. A tabela apresentada a seguir mostra estimadores de máxima verossimilhança e valores AIC para os modelos NC, NAC, BNC e BNAC, sendo este último o que apresenta menor AIC (melhor modelo). Embora λ é significantemente não nulo, o modelo BNAC apresenta melhor ajuste que o NAC. Podemos testar H0 : (λ, β) = (0, 0) contra H1 : (λ, β) 6= (0, 0), comparando modelos CN com CETN. Usando a ERV, Λ= `N C (θ̂) `BN AC (θ̂) , que leva a −2 log(Λ) = −2(408.3129 − 414.8078) = 12.9898, maior que o valor crı́tico de 5% da distribuição χ2 com um grau de liberdade a saber, χ21;5% = 3.8414, mostrando que BNAC é o melhor modelo. O total de dados censurados corresponde a 39.92% da amostra sob estudo e a porcentagem sob o BNAC é 39.93%. Por outro lado, pode-se mostrar que sob o modelo CNA model, a porcentagem esperada é de 42.97%,. 5.7 DISCUSSÃO FINAL Parâmetro AIC µ σ λ δ Tabela 5.2: Estimativas e ajustes. Modelo NC Modelo NAC Modelo BNC 833.615 835.587 835.663 0.477(0.137) 1.689(1.147) 0.364(0.023) 1.978(0.121) 2.362(0.767) 1.961(0.109) -0.861 (1.013) 38.658(10.367) -2.2079(0.2196) 59 Modelo BNAC 824.6258 1.719(0.117) 2.108(0.169) 2.571(1.116) -0.797(0.147) Para n=106 mulheres infectadas e sob tratamento com terapia HAAR, a idade média é de 30.75 anos, com 33.96% abaixo do LDM. O modelo estimado usando EMV é dado por CAN B(1.6306, 1.8201, 2.8874, −0.5936), levando a estivativa de 32.95% abaixo do LDM. 5.7 Discussão final Este capı́tulo apresenta uma série de modelos que podem ser usados sob censura em situações de possı́vel bimodalidade. Assim, os modelos propostos estendem o model tobit normal usual, originalmente proposto para situações simétricas unimodais. Estimação por MV foi considerada e requer métodos numéricos, dada a complexidade dos modelos. MIF e informação observada são consideradas. Aplicação a dados reais indica boa performance do modelo proposto. 60 MODELOS BIMODAIS CENSURADOS 5.7 Referências bibliográficas Akaike, H. (1974). A new look at statistical model identification. IEEE Transaction on Automatic Control. AU-19, 716–722. Arellano-Valle, R.B. e Bolfarine, H. (1995). On Some Characterizations Of The t-Distribution. Statistics and Probability Letters, 25, 79–85. Arellano-Valle, R. e Azzalini, A.(2008). The centred parameterizatiion and related quantities of the skew-t distribution. Journal of Multivariate Analysis, 99, 1362-1382. Arellano-Valle, R.B., Castro, L.M., González-Farı́as, G. e Muñoz-Gajardo, K. (2012). Student-t censored regression model: properties and inference. Statistical Methods and Applications, 21, 453-473. Arnold, B. C. (2004). discussion of Jones, M.C. Families of distribution arising from distributions of order statistics. Test , 13, 23–25. Azzalini, A. (1985). A class of distributions which includes the normal ones. Scandinavian Journal of Statistics, 12, 171–178. Azzalini, A. (1986). Further results on a class of distributions which includes the normal ones. Statistica, 46, 199–208. Azzalini, A. and Capitanio, A. (1999). Statistical applications of the multivariate skew-normal distribution . Journal of the Royal Statistical Society, 61, 579–602. Bayes, C., Bazan, J. e Garcı́a, C. (2012). A New Robust Regression Model for Proportions. Bayesian Analysis, 7, 841–866. Bolfarine, H. and Sandoval, M. (2005). Introdução à inferência estatı́stica . Sociedade Brasileira de Matemática. 61 62 REFERÊNCIAS BIBLIOGRÁFICAS 5.7 Branscum, A. J., Johnson, W. O. and Thurmond, M. C. (2007), Bayesian beta regression: applications to household expenditure data and genetic distance between foot-and-mouth deseases viruses. Australian and New Zealand Journal of Statistics, 49, 287–301. Chai, H. e Bailey, K. (2008). Use of log-normal distribution in analysis of continuous data with a discrete component at zero. Statistics in Medicine, 27, 3643–3655. Chao, E.C. (1998). Gibbs Sampling for Long-Term Survival Data with Competing Risks. Biometrics, 54, 350–366. Chiogna, M. (1997). Notes on estimation problems with scalar skew-normal distributions. Relatório Técnico, 15, University of Padua, Dept. of Statistical Sciences. Cragg, J. (1971). Some statistical models for limited dependent variables with application to the demand for durable goods. Econometrica, 39, 829-844. Csiszár, I. (1967). Information-type measures of difference of probability distributions and indirect observations. Studia Scientiarum Mathematicarum Hungarica, 2, 299–318. Durrans, S. R. (1992). Distributions of fractional order statistics in hydrology. Water Resources Research, 28, 1649–1655. Ferrari, S. and Cribari-Neto (2004). Beta regression for modelling rates and proportions. Journal of Applied Statistics, 31 (7), 799-815. Garay, A.M., Lachos, V.H. e Bolfarine, H. (2012). Bayesian zero-inflated negative binomial regression models: estimation and case influence diagnostics. Submetido para publicação, Gómez, H. W., Venegas, O. and Bolfarine, H. (2007). Skew-symmetric distributions generated by the distribution function of the normal distribution. Environmetrics, 18, 395–407. Gómez, H.W., Elal-Olivero, D., Salinas, H.S. and Bolfarine, H. (2011). Bimodal extension based on the skew-normal distribution with application to pollen data. Environmetrics, 22, 50–62. Gupta, D. and Gupta, R. C. (2008). Analyzing skewed data by power normal model. Test, 17, 197–210. 5.7 63 Hastings, W. (1970). Monte carlo sampling methods using markov chains and their applications. Biometrika, 57, 97–109. Henze, N. (1986). A probabilistic representation of the skew-normal distribution. Scandinavian Journal of Statistics, 13, 271–275. Jones, M. C. (2004). Families of distributions arising from the distributions of order statistics. Test, 13, 1–43. Kim, H.J. (2005). Generalized skew-normal models: Properties and inference. Statistics, 40, 495–505. Kotz, S., Kozubowski, T.J. e Podgórski, K. (2001). The Laplace Distribution and Generalizations: A Revisit with Applications to Communications, Economics, Engineering, and Finance, Boston: Birkhauser. Kullback, S. e Leiber, R.A. (1951). On information and sufficiency. Annals of Mathematical Statistics, 22, Lee, D. e Neocleous, T. (2010). Bayesian quantile regression for count data with application to environmental epidemiology. Journal of the Royal Statistical Society, Series C, 59, 905–920. Lehmann, E. L. (1953). The power of rank tests Annals of Statistics , 1, 23–43. Li, X., Chu, H., Gallant, J.E. (2006). Bimodal virologic response to antiretroviral therapy for HIV infection: an application using a mixture model with left censoring. J. Epidemiol. Commun. Health, 60, 811– 818. Li, Q., Xi, R. e Lin, N. (2010). Bayesian regularized quantile regression. Bayesian Analysis, 5, 533–556. Lum, K. e Gelfand, A.E. (2012). Spatial Quantile Multiple Regression Using the Asymmetric Laplace Process. Bayesian Analysis, 7, 1–24. Marin, J.M., Mengersen, K. and Robert, C.P. (2005).Bayesian modelling and inference on mixtures of distributions. Handbook of Statistics, 25, Elsevier. Martinez, G., Bolfarine, H. e Gomez, H. (2012a). Asymmetric regression models with limited responses with an application to antibody response to vaccine. Biometrical Jounal. Aceito para publicação. 64 REFERÊNCIAS BIBLIOGRÁFICAS 5.7 Martinez, G., Gomez, H., Bolfarine, H. (2012b). Modelo α-potência inflacionado de zeros e uns. Em preparação. Martinez, G., Bolfarine, H. e Gomez, H. (2013). The alpha-power tobit model. Communication in Statistics. Aceito para publicação. Meligkotsidou, L., Vrontos, I.D. e Vrontos, S.D. (2009). Quantile regression analysis of hedge fund strategies. Journal of Empirical Finance, 16, 264–279. Metropolis, N., Rosenbluth, A., Rosenbluth, M., Teller, A. and Teller, E. (1953). Equations of state calculations by fast computing machines. Journal of Chemical Physics, 21, 1087–92. Moulton, L. e Halsey, N.A. (1995). A mixture model with detection limits for regression analyses of antibody response to vaccine. Biometrics, 51, 1570–1578. Mroz, T. (1987). The Sensitivity of an Empirical Model of Married Women’s Hours of Work to Economic and Statistical Assumptions. Econometrica, 55, 765–799. Mudholkar, G. S. and Hutson, A. D. (2000). The epsilon-skew-normal distribution for analyzing near-normal data. Journal of Statistical Planning and Inference, 83, 291–309. Ospina R. (2008). Modelos de regressão beta inflacionados, Tese de doutorado, Universidade de São Paulo, Brasil. Ospina, R. and Ferrari, S. L. P. (2010). Inflated beta distributions. Statistical Papers, 51, (1), 111-126. Peng, F. e Dey, D.K. (1995). Bayesian analysis of outlier problems using divergence measures. The Canadian Journal of Statistics, 23, 199– 213. Pewsey, A. (2000). Problems of inference for Azzalini’s skew-normal distribution. Journal of Applied Statistics, 27, 859–870. Pewsey, A., Gómez, H. W. and Bolfarine, H. (2012). Likelihood-based inference for distributions of fractional order statistics. Test, 21, 775789. Sen, P.K. e Singer, J.(1993). Lange Sample Methods in Statistics: an introdution with applications. ChapMan and Hall/CRC 5.7 65 Tobin, J. (1958). Estimation of relationships for limited dependent variables. Econometrica, 26, 24–36. Vuong, Q. (1989). Likelihood ratio tests for model selection and nonested hypotheses. Econometrica, 57, 307–333.