Arquivo para - Universidade Federal de São Carlos
Transcrição
Arquivo para - Universidade Federal de São Carlos
ISSN 0104-0499 UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS ESTIMAÇÃO BAYESIANA OBJETIVA DO MODELO DE REGRESSÃO DE FEIGL E ZELEN Teresa Cristina Martins Dias Vera Lucia D. Tomazella Eder Angelo Milani RELATÓRIO TÉCNICO DEPARTAMENTO DE ESTATÍSTICA TEORIA E MÉTODO– SÉRIE A Abril/2011 nº 240 Estimação Bayesiana Objetiva do Modelo de Regressão de Feigl e Zelen Teresa Cristina Martins Dias Vera Lucia D. Tomazella Eder Angelo Milani DEs - Universidade Federal de São Carlos Resumo Considerando um modelo de regressão exponencial para dados de tempo de vida com uma covariável x proposto por Feigl e Zelen (1965), nós utilizamos à abordagem Bayesiana para obter inferência para a função de sobrevivência no tempo t0 e com um valor da covariável especificada x0 . Em inferência Bayesiana a especificação da priori para os parâmetros de interesse pode ser complexa. Esta distribuição expressa o conhecimento ou ignorância a respeito dos parâmetros. Porém nem sempre é fácil caracterizar ou formular tal distribuição. A abordagem de priori de referência introduzida por Bernardo (1979) e modificada por Berger e Bernardo (1989, 1992a,b), é considerado e mostrado produzir inferências muito satisfatória. Neste trabalho nós ilustramos a metododlogia proposta considerando um conjunto de dados reais introduzido por Feigl e Zelen (1965) e um estudo de simulação, onde estimação e probabilidade de cobertura são considerados. Palavra Chaves: Análise de Referência Bayesiana, Modelo de Regressão, Priori de Referência, Sobrevivência. 1 Introdução A teoria para dados de sobrevivência tem sido bastante desenvolvida com o objetivo de estudar a função de risco/sobrevivência de um paciente ou sistema e aplicações podem ser encontradas nas mais diversas áreas, tais como, biologia, medicina, ciências sociais e engenharias. Na área médica, este estudo é denominado análise de sobrevivência e na área industrial é denominado análise de confiabilidade. Uma introdução às técnicas usadas em análise de dados de sobrevivência pode ser encontrada em Armitage e Berry (1987) e Altman (1991). Muitos textos apareceram nas décadas de 70 e 80, como por exemplo, Mann Schaffer 1 e Singpurwalla (1974), Clark (1975), Kalbfleisch e Prentice (1980), Nelson (1982) e Lawless (1982) (mais detalhes em Collet, 1994). Esta metodologia permite determinar quais variáveis afetam a forma da função de risco e obter estimativas desta função para cada indivíduo. A função de sobrevivência é definida como a probabilidade de uma observação (indivíduo) sobreviver mais que um determinado tempo t, ou seja, não falhar após certo tempo. Através da curva de sobrevivência pode-se comparar, por exemplo, dois ou mais tratamentos. Assim, uma curva de sobrevivência com declive acentuado representa baixa taxa ou curto tempo de vida, enquanto uma curva com aclive representa alta taxa ou longo tempo de vida. Este estudo envolve o acompanhamento de unidades (indivíduos) até a ocorrência de algum evento de interesse, por exemplo, a falha (morte) da unidade. Exemplos de tempos de falha incluem os períodos de vida de máquinas industriais até a quebra e os tempos de sobrevivência de pacientes em um estudo clínico até a morte. Muitas vezes, o objetivo da análise de sobrevivência está centrado no estudo da relação entre o tempo de ocorrência de um evento de interesse e as covariáveis explicativas. Neste contexto, modelos de regressão são utilizados para explicar a dependência entre o tempo e estas covariáveis. A literatura apresenta várias técnicas apropriadas para a análise de dados desta natureza, tais como: técnicas de regressão não-paramétrica (Miller, 1976; Buckley e James, 1979 e Lawless, 1982) e paramétrica (Feigl e Zelen, 1965 e Lawless, 1982). Entre esses modelos de regressão duas famílias de modelos são muito popular especialmente em aplicação médica: O modelo de risco proporcional para o tempo de vida T e o modelo de locação-escala para o lgarítmo de T (ver por exemplo, Lawless, 1982). Um caso especial o qual pertence as duas classe de modelos de regressão é dado pelo modelo de Feigl e Zelen, (1965), assumindo uma distribuição exponencial para T . Para o i-ésimo paciente, os autores trabalharam com a função de densidade de probabilidade exponencial na parametrização f (ti ; λi ) = λi exp{−λi ti }, t > 0, considerando a seguinte relação linear entre o tempo médio de sobrevivência e a covariável x, E[Ti ] = 1 = α + βxi . λi Para dados não censurados, os autores introduziram o modelo log-linear no qual 1 = α exp{βxi } λi e, Zippin e Armitage (1966) estenderam a análise para dados censurados. 2 (1) Neste trabalho, o interesse está em estimar a função de sobrevivência, assumindo que os tempos de vida de pacientes sob estudo (Feigl e Zelen, 1965) seguem uma distribuição exponencial e a relação dada na expressão (1). Para estimar os parâmetros envolvidos, utilizamos a metodologia Bayesiana objetiva introduzida por Bernardo (1979) e mais adiante desenvolvida por Berger e Bernardo (1989, 1992a, 1992c), sendo considerada um método para encontrar uma distribuição a posteriori objetiva. A teoria de informação estatística é usada para definir a distribuição a priori de referência, como uma função matemática que descreve a situação em que os dados dominarão o conhecimento a priori sobre a quantidade de interesse. Este trabalho está organizado da seguinte forma. Na Seção 2 apresentamos o modelo de regressão exponencial proposto por Feigl e Zelen (1965). Na Seção 3, descrevemos a construção da priori de referência para o caso de dois parâmetros e mostramos a construção das distribuição a priori de referência para o modelo estudado. Na Seção 4 ilustramos a teoria, sob a abordagem Bayesiana, com um estudo de simulação e uma aplicação com dados reais. As conclusões são apresentadas na Seção 5. 2 Modelo de Regressão de Feigl e Zelen Seja T uma variável aleatória não negativa denotando os tempos de sobrevivência, com distribuição exponencial cuja função de densidade de probabilidade é dada por: t 1 , f (t | λ) = exp − λ λ (2) sendo t ≥ 0 e λ > 0 o parâmetro desconhecido representando a taxa de falha constante. A partir de (2), o tempo médio de sobrevivência é dado por E(T ) = λ. Utilizando o modelo (1), proposto por Feigl e Zelen (1965), tal que λ = θ1 eθ2 x , θ1 > 0 e −∞ < θ2 < ∞, a função de densidade de probabilidade (2) para a nova parametrização é dada por, t 1 exp − θ2 x . f (t|θ1 , θ2 , x) = θ1 e θ 2 x θ1 e (3) A partir de (3) obtemos as funções de risco, h(t), e de sobrevivência, S(t), dadas por, 1 , θ1 e θ 2 x S(t|θ1 , θ2 , x) = exp − h(t|θ1 , θ2 , x) = 3 t θ1 e θ 2 x . (4) A função de verossimilhança para os parâmetros do modelo (3) é dada por, L(θ1 , θ2 ) = θ1−n exp{−θ2 nx̄ − n X ti }. θ1 exp θ2 xi i=1 (5) e, denotando l(θ1 , θ2 ) = log(L(θ1 , θ2 )) encontramos, l(θ1 , θ2 ) = −n log [θ1 ] − θ2 nx̄ − n X i=1 ti . θ1 e θ 2 x i (6) As primeiras e segundas derivadas para os parâmetros θ1 e θ2 , obtidas de (6) são, n ∂l(θ1 , θ2 ) n 1 X −θ2 xi ti e ; = − + 2 ∂θ1 θ1 θ1 i=1 (7) n n X 1 X ∂l(θ1 , θ2 ) ti xi e−θ2 xi ; = − xi + ∂θ2 θ1 i=1 i=1 n ∂l(θ1 , θ2 ) n 2 X −θ2 xi ti e ; = 2− 3 ∂θ12 θ1 θ1 i=1 (8) (9) n 1 X 2 −θ2 xi ∂l(θ1 , θ2 ) t i xi e ; = − ∂θ22 θ1 i=1 (10) n ∂l(θ1 , θ2 ) 1 X = − 2 ti xi e−θ2 xi . ∂θ1 ∂θ2 θ1 i=1 (11) A matriz de informação de Fisher e sua inversa, construídas a partir das equações (7) a (11), são dadas, respectivamente, por H(θ1 , θ2 ) = e nx̄ θ1 para x̄ = Pn i=1 n xi H ∗ = H −1 (θ1 , θ2 ) = e s2 = Pn i=1 (xi −x̄) n 2 nx̄ θ1 n θ12 Pn 2 i=1 xi θ12 Pn i=1 ns2 − θs12x̄ x2i (12) − θs12x̄ 1 s2 . Os parâmetros do modelo de Feigl e Zelen (1965), assim como a função de sobrevivência, podem ser estimados utilizando as matrizes H e H ∗ dadas em (12) e (13), respectivamente. Como o interesse está em estimar a função de sobrevivência (4), especificamente em t0 e x0 , a função de sobrevivência, neste cenário, é escrita da seguinte forma, t S(t0 ) = P [T > t0 ] = exp − θ2 x0 . θ1 e 4 (13) Chamando S(t0 ) = S e considerando a reparametrização, o n S = exp − tθ0 x θ1 e 2 0 (14) φ = θ2 . obtemos, θ1 = t0 − log(S)eφx0 θ2 = φ. Para o modelo (3) e a reparametrização dada em (14), a função de verossimilhança para S e φ é dada por, # n X log(S) n L(S, φ) = t−n ti exp(φ(x0 − xi )) . 0 [−log(S)] exp[nφ(x0 − x̄)] exp t0 i=1 " (15) A matriz de informação de Fisher em termos dos parâmetros S e φ pode ser obtida da seguinte forma, I(S, φ) = J t H(θ1 , θ2 )J sendo J = ∂(θ1 ,θ2 ) ∂(S,φ) o jacobiano da transformação inversa. Assim, é possível escrever a matriz de informação de Fisher e sua inversa, dadas respectivamente por, e I(S, φ) = n(x0 −x̄) S log(S) ∗ −1 I (S, φ) = I (S, φ) = 3 n(x0 −x̄) S log(S) n S 2 (log(S))2 nx0 − 2nx0 x + −S 2 (log(S))2 (nx0 (x0 −2x̄)+ P 2 n(nx̄2 − n i=1 xi ) S log(S)(x̄−x0 ) P 2 nx̄2 + n i=1 xi Pn Pn i=1 2 i=1 xi ) x2i S log(S)(x̄−x0 ) P 2 −nx̄2 + n i=1 xi −nx̄2 + 1 P n i=1 x2i . Análise de Referência A análise de referência produz inferência Bayesiana objetiva no sentido de que a afirmação inferencial depende somente do modelo assumido e dos dados observados. A teoria de informação estatística é usada para definir a priori de referência como uma função matemática 5 que descreve a situação na qual os dados dominarão melhor o conhecimento a priori sobre a quantidade de interesse. Esta metodologia foi introduzido por Bernardo (1979) e mais adiante desenvolvido por Berger e Bernardo (1989, 1992a, 1992b, 1992c). Uma característica importante na abordagem de Berger - Bernardo para construir uma priori não-informativa é o tratamento diferenciado para os parâmetros de interesse e os parâmetros nuisance. Quando existe um parâmetro nuisance, devemos estabelecer uma parametrização ordenada, com o parâmetro de interesse apontado. Neste trabalho, consideramos apenas o caso regular, onde a normalidade assintótica da distribuição a posteriori conjunta poderá ser estabelecida. Preposição 3.1: Seja p(x|φ, λ), (φ, λ) ∈ Φ × Λ ⊆ R × R um modelo de probabilidade com dois parâmetros φ e λ, assumindo valores em R, sendo φ o parâmetro de interesse e λ o parâmetro nuisance. Considere H(φ, λ) a matriz de informação de Fisher em termos de φ e λ e S(φ, λ) = H −1 (φ, λ). A distribuição a posteriori de (φ, λ) é assintoticamente normal com média dada pelos estimadores de máxima verossimilhança (φ̂, λ̂) e matriz de covariância S(φ̂, λ̂). Segue que 1. a função a priori de referencia condicional de λ dado φ é π(λ|φ) ∝ h22 (φ, λ)1/2 , λ ∈ Λ(φ) 2. se π(λ|φ) não é própria, uma aproximação compacta {Λi (φ), i = 1, 2, · · · } para Λ(φ) é necessária e a priori de referência de λ dado φ é dada por πi (λ|φ) = R h22 (φ, λ)1/2 dλ, λ ∈ Λi (φ) h (φ, λ)1/2 Λi (φ) 22 3. dentro de cada Λi (φ), a função a priori de referência marginal de φ é obtida por, Z h i −1/2 πi (φ) ∝ exp πi (λ|φ) log s11 (φ, λ) dλ Λi (φ) sendo s11 (φ, λ) = hφ (φ, λ) = h11 − h12 h−1 22 h21 −1/2 4. a distribuição a posteriori de referência de φ dado os dados {x1 , · · · , xn } é ( n (Z ) ) Y π(φ|x1 , · · · , xn ) ∝ π(φ) π(xl |φ, λ) π(λ|φ)dλ . Λ(φ) l=1 A justificativa eurística desta proposição pode ser vista em Bernardo (2005). 6 Sob condições de regularidade (ver Bernardo, 2005 e Berger et al., 2005) a priori de referência pode ser reescrita como o produto de duas funções de parâmetros independentes, como segue. Corolário 3.1: Se o espaço do parâmetro nuisance Λ(φ) = Λ é independente de φ, e a 1/2 funções s11 (φ, λ) e h22 (φ, λ) fatoriza na forma −1/2 {s11 (φ, λ)}−1/2 = f1 (φ)g1 (λ) e {h22 (φ, λ)}1/2 = f2 (φ)g2 (λ), então, π(φ) ∝ f1 (φ) e π (λ|φ) ∝ g2 (λ) , a função a priori de referência relativa ao parâmetro ordenado (φ, λ) é dada por π (φ, λ) = f1 (φ) g2 (λ) e nesse caso não existe a necessidade de uma aproximação compacta, mesmo se a priori de referência não for propria (Bernardo e Smith, 1994). Prova: Ver Teorema 12 em Bernardo (2005) 3.1 Inferência para os parâmetros do modelo Para o modelo (3), considere θ1 como parâmetro de interesse e θ2 como parâmetro nuisance, a matriz de informação de Fisher H(θ1 , θ2 ) e a inversa H ∗ (θ1 , θ2 ) dadas respectivamente em (12) e (13). Usando o Corolário 3.1, a distribuição a priori de referência condicional para θ2 dado θ1 é π(θ2 | θ1 ) = g2 (θ2 ) ∝ 1 e a distribuição a priori marginal para θ1 é π(θ1 ) = f1 (θ1 ) ∝ 1 . θ1 Assim a distribuição a priori de referência conjunta para θ1 e θ2 é π(θ1 , θ2 ) ∝ 1 . θ1 (16) A distribuição a posteriori de referência conjunta construída a partir da função de verossimilhança (5) e da função a priori de referência conjunta para θ1 e θ2 (16), é dada por, ( ) n 1 X −θ2 xi 1 ti e . (17) π(θ1 , θ2 |t, x) ∝ −(n+1) exp −nx̄θ2 − θ1 i=1 θ1 A partir de (17) obtemos as distribuições a posteriori condicionais para θ1 e θ2 , dadas respectivamente por, π(θ1 |θ2 , t, x) ∝ 1 −(n+1) θ1 n 1 X −θ2 xi ti e exp − θ1 i=1 ( 7 ) . e n 1 X −θ2 xi ti e π(θ2 |θ1 , t, x) ∝ exp −nx̄θ2 − θ1 i=1 ( 3.2 ) . Inferência para a função de sobrevivência do modelo Considerando a reparametrização dado em 14, onde S e φ são os parâmetros de interesse 1 e nuisance, respectivamente e o corolário 3.1, temos que π(S) = f1 (S) ∝ − S log(S) e π(φ|S) = g2 (φ) ∝ 1. Portanto, a distribuição a priori conjunta para S e φ é π(S, φ) ∝ − 1 . S log(S) (18) A Figura 1 mostra o comportamento da função a priori de referência para o parâmetro S. Π@SD 120 100 80 60 40 20 0.2 0.4 0.6 1 0.8 S Figura 1: Função a priori de referência para S. A distribuição a posteriori de referência conjunta para S e φ, construída a partir da função de verossimilhança dada em (15) e da função a priori de referência conjunta dada em (18) é dada por, π(S, φ|t, x) ∝ S A(φ)−1 (− log(S))n−1 exp para A(φ) = 1 t0 Pn i=1 ti e −(xi −x0 )φ " nx0 − n X xi i=1 ! # φ , , 0 ≤ S ≤ 1 e −∞ ≤ φ ≤ ∞. As distribuições a posteriori condicionais para S e φ são dadas respectivamente por, π(S|φ, t, x) ∝ S A(φ)−1 (− log(S))n−1 e π(φ|S, t, x) ∝ S A(φ)−1 exp " 8 nx0 − n X i=1 xi ! # φ . (19) A distribuição a posteriori marginal, é encontrada integrando a densidade a posteriori conjunta dada em (19) com relação aos demais parâmetros. O mesmo procedimento é aplicado para θ1 e θ2 . A solução analítica para estas equações é obtida integrando as expressões; porém tais integrações são complexas. Logo, o método MCMC (Gamerman e Lopes, 2002) é utilizado para, a partir da distribuição a posteriori conjunta, obtermos as estimativas para os parâmetros de interesse. Para ilustrar a metodologia, apresentamos um estudo com dados simulados e uma aplicação com dados reais (Fiegl e Zelen, 1965). Os resultados foram obtidos no software R Development Core Team (2010). 4 Um Estudo de Simulação O estudo de simulação foi realizado com diferentes tamanho de amostras n = 30, 50, 100 e 200. Para a geração dos tempos utilizamos o método da função inversa fixando θ1 = 80 e θ2 = −0, 5. Para cada um dos tamanhos amostrais, obtivemos amostras com 100.000 iterações das distribuições a posteriori marginais de θ1 e θ2 utilizando o algoritmo de MetropolisHastings (Gamerman e Lopes, 2002). Os resultados apresentados na Tabela 1 foram baseados em cadeias geradas com 100.000, iterações, com burn in de 5.000 e salto igual a 10, resultando em uma amostra com 9.500 iterações. A convergência foi verificada utilizando o método de Geweke (1992). Tabela 1: Resumos a posteriori para θ1 e θ2 . θ1 θ2 n Média DP IC-95% Média DP IC-95% 30 88, 94 13, 03 [67, 27 ; 117, 78] −0, 420 0, 143 [−0, 699 ; −0, 142] 50 87, 86 10, 01 [70, 52 ; 109, 57] −0, 497 0, 112 [−0, 717 ; −0, 275] 100 77, 18 7, 85 [63, 42 ; 94, 28] −0, 480 0, 098 [−0, 674 ; −0, 289] 200 81, 81 6, 07 [71, 08 ; 93, 96] −0, 507 0, 067 [−0, 636 ; −0, 376] Considerando que o interesse está na função de sobrevivência, para os mesmos conjuntos de dados gerados, obtivemos uma amostra das distribuições a posteriori marginais de S e 100 = 0.20 e φ, para cada n, no tempo t0 = 100 e no valor x0 = 0, 5, onde S = exp − 80e −1 9 φ = −0.5. As estimativas para os parâmetros S e φ são mostradas na Tabela 2. Tabela 2: Resumos a posteriori para S e φ. S φ n Média DP IC-95% Média DP IC-95% 30 0, 249 0, 056 [0, 148 ; 0, 370] −0, 418 0, 137 [−0, 697 ; −0, 149] 50 0, 231 0, 043 [0, 153 ; 0, 320] −0, 497 0, 109 [−0, 710 ; −0, 288] 100 0, 192 0, 036 [0, 127 ; 0, 268] −0, 481 0, 096 [−0, 671 ; −0, 296] 200 0, 206 0, 025 [0, 159 ; 0, 259] −0, 505 0, 066 [−0, 635 ; −0, 374] Observamos pelas Tabelas 1 e 2 que para tamanho de amostra pequeno ou moderado as estimativas estão razoáveis; porém, as estimativas dos parâmetros ficam mais próximas dos verdadeiros valores quando aumentamos o tamanho da amostra. Este fato ocorre para todos os parâmetros. Calculamos a probabilidade de cobertura e o tamanho do intervalo de confiança, para os diversos tamanhos de amostra, para os parâmetros θ1 e θ2 ou S e φ (Tabelas 3 e 4). Observamos nestas tabelas que a probabilidade de cobertura aumenta e os amplitude dos intervalos de credibilidade diminui com o aumento do tamanho da amostra. Notamos que os resultados encontrados para θ2 e φ estão muito próximos, indicando que a escolha de estimar S ou θ1 não afeta na estimação do outro parâmetro. Tabela 3: Probabilidade de cobertura e Amplitude do IC para θ1 e θ2 . θ1 n θ2 Prob. de Cobertura Amplitude Prob. de Cobertura Amplitude 30 0, 9562 60, 5873 0, 9227 0, 7763 50 0, 9544 46, 2565 0, 9544 0, 5838 100 0, 9519 32, 0341 0, 9541 0, 3982 200 0, 9671 22, 4740 0, 9574 0, 2815 10 Tabela 4: Probabilidade de cobertura e Amplitude do IC para S e φ. S n 4.1 φ Prob. de Cobertura Amplitude Prob. de Cobertura Amplitude 30 0, 9473 0, 2516 0, 9452 0, 7750 50 0, 9431 0, 1963 0, 9343 0, 5798 100 0, 9413 0, 1401 0, 9608 0, 4059 200 0, 9502 0, 1001 0, 9653 0, 2812 Aplicação com os Dados de Feigl e Zelen Os dados de Feigl e Zelen (1965) consistem de tempos de sobrevivência (em semanas) de pacientes com leucemia e uma variável concomitante WBC, representando a contagem de glóbulos brancos por 10.000 unidades na célula dos pacientes. Baseado no exame das células com leucemia, os pacientes foram classificados como AG positivo e AG negativo. Na Tabela 5, temos os dados de 17 pacientes com AG positivo. Tabela 5: Dados de pacientes com leucemia (AG positivo). WBC/10.000 tempo WBC/10.000 tempo 0,230 65 0,700 143 0,075 156 0,940 56 0,430 100 3,200 26 0,260 134 3,500 22 0,600 16 10,000 1 1,050 108 10,000 1 1,000 121 5,200 5 1,700 4 10,000 65 0,540 39 A partir do modelo (3) e sendo x o logaritmo da contagem de glóbulos brancos medidos em unidades de 10.000, θ1 representa o tempo médio de sobrevivência de um paciente com a 11 contagem de glóbulos brancos com 10.000 unidades e θ2 representa o ganho no tempo médio de sobrevivência correspondente a um acréscimo no percentual da contagem de glóbulos brancos. Analogamente ao estudo de simulação, construímos as cadeias a partir da distribuição a posteriori. Considerando um tempo de aproximadamente dois anos (t0 = 96), a função de sobrevivência em pacientes com a contagem de glóbulos brancos igual a 50.000 unidades é ). dada por S = exp (− θ196 5θ2 As medidas resumo para os parâmetros θ1 e θ2 e para S e φ são apresentadas, respectivamente, nas Tabelas 6 e 7. Tabela 6: Resumos a posteriori para θ1 e θ2 . Média DP IC-95% Geweke θ1 86,3200 16,9887 [ 56,9355 ; 123,4608 ] -0,0875 θ2 -0,1537 0,0418 [-0,2318 ; -0,0683] 0,5172 Tabela 7: Resumos a posteriori para S e φ. Média DP IC-95% Geweke S 0,0858 0,0389 [ 0,0228 ; 0,1707] -1,5860 φ -0,1572 0,0430 [-0,2414 ; -0,0739] -1,3310 Os resumos a posteriori para os parâmetros encontramos nas Tabelas 6 e 7 mostra que os resultados obtidos para θ2 e φ são muito próximos, o que já era esperado, visto a reparametrização adotada em (14). Além disso, observamos que a probabilidade de um indivíduo sobreviver além do tempo t0 = 96 sabendo que a quantidade de glóbulos brancos é igual a 50.000 unidades é de 0, 0858. 5 Conclusão Neste trabalho consideramos o modelo de Regressão de Feigl e Zelen (1965), onde con- seguimos obter inferências para os parâmetros de interesse e para a função de sobrevivência no tempo t0 . Utilizamos a abordagem de análise de referência, pois essa teoria fornece um 12 método para obtenção de uma distribuição a priori não informativa e produz inferência bayesiana propria para o problema de regressão exponencial. O método MCMC foi utilizado para obtenção das posteriori marginais. Com os dados simulados, verificamos a adequabilidade do modelo, sendo que os resultados encontrados foram satisfatórios. Também consideramos um conjunto de dados reais proposto por Feigl e Zelen (1965) para ilustrar a metodologia proposta. Finalmente é importante enfatizar que sumarizamos a derivação da distribuição a posteriori de referência para o caso de dois parâmetros, o qual fornece soluções bayesiana para problemas que não tem uma priori subjetiva. Isto tem sido um assunto polémico entre muitos estatísticos, a escolha responsável e cuidadosa de uma priori não subjetiva pode ser uma melhor alternativa. Além disso, esta metodologia generaliza algumas alternativas propostas anteriormente, como por exemplo a distribuição a priori de Jeffreys 6 Referências Bibliográficas 1. Berger, J. O. and Bernardo, J. M. (1989). Estimating a product of means: Bayesian analysis with reference priors. J. Amer. Statist. Assoc. 84, 200–207. 2. Berger, J. O. and Bernardo, J. M. (1992a). Ordered group reference priors with applications to a multinomial problem. Biometrika 79, 25–37. 3. Berger, J. O. and Bernardo, J. M. (1992b). Reference priors in a variance components problem. Bayesian Analysis in Statistics and Econometrics (P. K. Goel and N. S. Iyengar, eds.) Berlin: Springer, 323–340. 4. Berger, J. O. and Bernardo, J. M. (1992c). On the development of reference priors. Bayesian Statistics 4 (J. M. Bernardo, J. O. Berger, A. P. Dawid and A. F. M. Smith, eds.) Oxford: University Press, 35–60 (with discussion). 5. Berger J. O., Bernardo J. M. Sun D. (2008). The formal definition of reference priors. Submitted of Annals of Statistics 36. 6. Berger, J. O., Bernardo, J. M. and Sun, D. (2005). Reference priors from first principles: A general definition. Tech. Rep., SAMSI, NC, USA. 13 7. Bernardo, J. M. (1979). Reference posterior distributions for Bayesian inference. J. Roy. Statist. Soc. B 41, 113Ű147 (with discussion). Reprinted in Bayesian Inference (N. G. Polson and G. C. Tiao, eds.) Brookfield, VT: Edward Elgar, 1995, 229Ű263. 8. Berger J. O., Bernardo J. M. Sun D.; The Formal Definition of Reference Priors. The Annals of Statistics, Vol. 37, No. 2, pp.905-938, 2009. 9. Berger, J. O., Bernardo, J. M.; Sun, D., Reference priors from first principles: A general definition. Tech. Rep., SAMSI, NC, USA, 2005. 10. Berger J., The Case for Objective Bayesian Analysis. Bayesian Analysis, 2006. 11. Bernardo, J. M., Reference Analysis, Handbook of Statistics 25 (D. K. Dey and C. R. Rao, eds), pp. 17-90. Elsevier,2005. 12. Bernardo, J. M.; Smith, A. F. M., Bayesian Theory, Chichester: Wiley, 1994. 13. Buckley, J.; James, I., Linear regression with censored data, Biometrika 66, 429-436, 1979. 14. Collet, D. , Modelling Survival Data in Medical Research, Chapman & Hall, 1994. 15. Feigl, P.; Zelen, M., Estimation of exponencial survival probabilities with concomitant information, Biometrics, Vol. 21, pp.826-838, 1965. 16. Gamerman, D.; Lopes, H.; Markov Chain Monte Carlo, Stochastic Simulation for Bayesian Inference, 2002. 17. Gelman, A.; Rubin, D. R., A single series from the Gibbs sampler provides a false sense of security. Bayesian Statistics 4, pp. 625-631. Oxford: university Press, 1992. 18. Geweke, J., Evaluating the accuracy of sampling-based approaches to the calculation of posterior moments. In Bayesian Statistics 4, pp. 169-193, 1992. 19. Hastings, W. K., Monte Carlo sampling methods using Markov chains and their applications, Biometrika, Vo. 57, No. 1, pp. 97-109, 1970. 20. Jeffreys, H., Theory of Probability, 3rd edition, Oxford: Claredon Press, 1961. 21. Lawless, J. F., Statistical Models and Methods for Lifetime Data, New York: John Wiley & Sons., 580 p., 1982. 14 22. Miller, R. G., Least squares regression with censored data. Biometrika 63 pp. 449-464, 1976. 23. R Development Core Team, R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, URL: http://www.Rproject.org/ 2010. 24. Tibshirani, R., Noninformative priors for one patameter of many, Biometrika 76, pp. 604-608, 1989. 25. Zippin, C.; Armitage, P. Use of concomitant variables and incomplete survival information in the estimation of an exponential survival parameter, Biometrics, pp. 665-672, 1966. 26. Weibull, W., A statistical distribution of wide applicability, Journal of Applied Mechanics, Vol. 18, pp. 293-297, , 1951. 15 PUBLICAÇÕES 2011 . LOUZADA-NETO, F.; MARCHI, V.; ROMAN, M.; “The Exponentiated ExponentialGeometric Distribution: A distribution with decreasing, increasing and unimodal hazard function” Janeiro/2011 Nº 235 . LOUZADA-NETO, F; SUZUKI, A. K.; CANCHO, V. G.; “The FGM Long-Term Bivariate Survival Copula Model: Modeling, Bayesian Estimation and case influence diagnostics” Janeiro/2011 Nº 236 . CALSAVARA, V. F.; TOMAZELLA, V. L. D.; FOGO, J. C.; “Modelos de Sobrevivência com Fração de Cura para Dados de Tempo de Vida Weibull Modificada Generalizada” Fevereiro/2011 Nº 237 . CALSAVARA, V. F.; TOMAZELLA, V. L. D.; FOGO, J. C.; “O Efeito do Termo de Fragilidade no Modelo de Mistura Padrão”, Fevereiro/2011 Nº 238 . MILANI, E. A., TOMAZELLA, V. L. D., DIAS, T. C. M., LOUZADA, F. “The generalized time-dependent logistic frailty model: na application to a population-based prospective study of incidente cases of lung cancer diagnosed in Northern Ireland” Março/2011 Nº 239
Documentos relacionados
- Evolvedoc - Sistema de compartilhamento de trabalhos
referida estação hidrométrica. Nesse estudo, concluiu-se que até à construção da maior dessas três barragens, no rio Itajaí do Norte, em 1992, as barragens existentes não modificavam significativa...
Leia mais