Arquivo para - Universidade Federal de São Carlos

Transcrição

ISSN 0104-0499
UNIVERSIDADE FEDERAL DE SÃO CARLOS
CENTRO DE CIÊNCIAS EXATAS E
TECNOLÓGICAS
ESTIMAÇÃO BAYESIANA OBJETIVA DO MODELO
DE REGRESSÃO DE FEIGL E ZELEN
Teresa Cristina Martins Dias
Vera Lucia D. Tomazella
Eder Angelo Milani
RELATÓRIO TÉCNICO
DEPARTAMENTO DE ESTATÍSTICA
TEORIA E MÉTODO– SÉRIE A
Abril/2011
nº 240
Estimação Bayesiana Objetiva do Modelo de
Regressão de Feigl e Zelen
Teresa Cristina Martins Dias
Vera Lucia D. Tomazella
Eder Angelo Milani
DEs - Universidade Federal de São Carlos
Resumo
Considerando um modelo de regressão exponencial para dados de tempo de vida com uma
covariável x proposto por Feigl e Zelen (1965), nós utilizamos à abordagem Bayesiana para
obter inferência para a função de sobrevivência no tempo t0 e com um valor da covariável
especificada x0 . Em inferência Bayesiana a especificação da priori para os parâmetros de
interesse pode ser complexa. Esta distribuição expressa o conhecimento ou ignorância a respeito dos parâmetros. Porém nem sempre é fácil caracterizar ou formular tal distribuição. A
abordagem de priori de referência introduzida por Bernardo (1979) e modificada por Berger
e Bernardo (1989, 1992a,b), é considerado e mostrado produzir inferências muito satisfatória. Neste trabalho nós ilustramos a metododlogia proposta considerando um conjunto de
dados reais introduzido por Feigl e Zelen (1965) e um estudo de simulação, onde estimação
e probabilidade de cobertura são considerados.
Palavra Chaves: Análise de Referência Bayesiana, Modelo de Regressão, Priori de Referência, Sobrevivência.
1
Introdução
A teoria para dados de sobrevivência tem sido bastante desenvolvida com o objetivo
de estudar a função de risco/sobrevivência de um paciente ou sistema e aplicações podem
ser encontradas nas mais diversas áreas, tais como, biologia, medicina, ciências sociais e
engenharias. Na área médica, este estudo é denominado análise de sobrevivência e na área
industrial é denominado análise de confiabilidade. Uma introdução às técnicas usadas em
análise de dados de sobrevivência pode ser encontrada em Armitage e Berry (1987) e Altman
(1991). Muitos textos apareceram nas décadas de 70 e 80, como por exemplo, Mann Schaffer
1
e Singpurwalla (1974), Clark (1975), Kalbfleisch e Prentice (1980), Nelson (1982) e Lawless
(1982) (mais detalhes em Collet, 1994).
Esta metodologia permite determinar quais variáveis afetam a forma da função de risco
e obter estimativas desta função para cada indivíduo. A função de sobrevivência é definida
como a probabilidade de uma observação (indivíduo) sobreviver mais que um determinado
tempo t, ou seja, não falhar após certo tempo. Através da curva de sobrevivência pode-se
comparar, por exemplo, dois ou mais tratamentos. Assim, uma curva de sobrevivência com
declive acentuado representa baixa taxa ou curto tempo de vida, enquanto uma curva com
aclive representa alta taxa ou longo tempo de vida. Este estudo envolve o acompanhamento
de unidades (indivíduos) até a ocorrência de algum evento de interesse, por exemplo, a falha
(morte) da unidade. Exemplos de tempos de falha incluem os períodos de vida de máquinas
industriais até a quebra e os tempos de sobrevivência de pacientes em um estudo clínico até
a morte.
Muitas vezes, o objetivo da análise de sobrevivência está centrado no estudo da relação
entre o tempo de ocorrência de um evento de interesse e as covariáveis explicativas. Neste
contexto, modelos de regressão são utilizados para explicar a dependência entre o tempo e
estas covariáveis. A literatura apresenta várias técnicas apropriadas para a análise de dados
desta natureza, tais como: técnicas de regressão não-paramétrica (Miller, 1976; Buckley e
James, 1979 e Lawless, 1982) e paramétrica (Feigl e Zelen, 1965 e Lawless, 1982). Entre esses
modelos de regressão duas famílias de modelos são muito popular especialmente em aplicação
médica: O modelo de risco proporcional para o tempo de vida T e o modelo de locação-escala
para o lgarítmo de T (ver por exemplo, Lawless, 1982).
Um caso especial o qual pertence as duas classe de modelos de regressão é dado pelo
modelo de Feigl e Zelen, (1965), assumindo uma distribuição exponencial para T . Para
o i-ésimo paciente, os autores trabalharam com a função de densidade de probabilidade
exponencial na parametrização f (ti ; λi ) = λi exp{−λi ti }, t > 0, considerando a seguinte
relação linear entre o tempo médio de sobrevivência e a covariável x,
E[Ti ] =
1
= α + βxi .
λi
Para dados não censurados, os autores introduziram o modelo log-linear no qual
1
= α exp{βxi }
λi
e, Zippin e Armitage (1966) estenderam a análise para dados censurados.
2
(1)
Neste trabalho, o interesse está em estimar a função de sobrevivência, assumindo que
os tempos de vida de pacientes sob estudo (Feigl e Zelen, 1965) seguem uma distribuição
exponencial e a relação dada na expressão (1). Para estimar os parâmetros envolvidos,
utilizamos a metodologia Bayesiana objetiva introduzida por Bernardo (1979) e mais adiante
desenvolvida por Berger e Bernardo (1989, 1992a, 1992c), sendo considerada um método
para encontrar uma distribuição a posteriori objetiva. A teoria de informação estatística é
usada para definir a distribuição a priori de referência, como uma função matemática que
descreve a situação em que os dados dominarão o conhecimento a priori sobre a quantidade
de interesse.
Este trabalho está organizado da seguinte forma. Na Seção 2 apresentamos o modelo
de regressão exponencial proposto por Feigl e Zelen (1965). Na Seção 3, descrevemos a
construção da priori de referência para o caso de dois parâmetros e mostramos a construção
das distribuição a priori de referência para o modelo estudado. Na Seção 4 ilustramos a
teoria, sob a abordagem Bayesiana, com um estudo de simulação e uma aplicação com dados
reais. As conclusões são apresentadas na Seção 5.
2
Modelo de Regressão de Feigl e Zelen
Seja T uma variável aleatória não negativa denotando os tempos de sobrevivência, com
distribuição exponencial cuja função de densidade de probabilidade é dada por:
t
1
,
f (t | λ) = exp −
λ
λ
(2)
sendo t ≥ 0 e λ > 0 o parâmetro desconhecido representando a taxa de falha constante. A
partir de (2), o tempo médio de sobrevivência é dado por E(T ) = λ.
Utilizando o modelo (1), proposto por Feigl e Zelen (1965), tal que λ = θ1 eθ2 x , θ1 > 0 e
−∞ < θ2 < ∞, a função de densidade de probabilidade (2) para a nova parametrização é
dada por,
t
1
exp − θ2 x .
f (t|θ1 , θ2 , x) =
θ1 e θ 2 x
θ1 e
(3)
A partir de (3) obtemos as funções de risco, h(t), e de sobrevivência, S(t), dadas por,
1
,
θ1 e θ 2 x
S(t|θ1 , θ2 , x) = exp −
h(t|θ1 , θ2 , x) =
3
t
θ1 e θ 2 x
.
(4)
A função de verossimilhança para os parâmetros do modelo (3) é dada por,
L(θ1 , θ2 ) =
θ1−n
exp{−θ2 nx̄ −
n
X
ti
}.
θ1 exp θ2 xi
i=1
(5)
e, denotando l(θ1 , θ2 ) = log(L(θ1 , θ2 )) encontramos,
l(θ1 , θ2 ) = −n log [θ1 ] − θ2 nx̄ −
n
X
i=1
ti
.
θ1 e θ 2 x i
(6)
As primeiras e segundas derivadas para os parâmetros θ1 e θ2 , obtidas de (6) são,
n
∂l(θ1 , θ2 )
n
1 X −θ2 xi
ti e
;
= − + 2
∂θ1
θ1 θ1 i=1
(7)
n
n
X
1 X
∂l(θ1 , θ2 )
ti xi e−θ2 xi ;
= −
xi +
∂θ2
θ1 i=1
i=1
n
∂l(θ1 , θ2 )
n
2 X −θ2 xi
ti e
;
= 2− 3
∂θ12
θ1 θ1 i=1
(8)
(9)
n
1 X 2 −θ2 xi
∂l(θ1 , θ2 )
t i xi e
;
= −
∂θ22
θ1 i=1
(10)
n
∂l(θ1 , θ2 )
1 X
= − 2
ti xi e−θ2 xi .
∂θ1 ∂θ2
θ1 i=1
(11)
A matriz de informação de Fisher e sua inversa, construídas a partir das equações (7) a
(11), são dadas, respectivamente, por


H(θ1 , θ2 ) = 
e
nx̄
θ1

para x̄ =
Pn
i=1
n
xi

H ∗ = H −1 (θ1 , θ2 ) = 
e s2 =
Pn
i=1 (xi −x̄)
n
2
nx̄
θ1
n
θ12
Pn
2
i=1 xi
θ12
Pn
i=1
ns2
− θs12x̄
x2i

(12)


− θs12x̄
1
s2



.
Os parâmetros do modelo de Feigl e Zelen (1965), assim como a função de sobrevivência,
podem ser estimados utilizando as matrizes H e H ∗ dadas em (12) e (13), respectivamente.
Como o interesse está em estimar a função de sobrevivência (4), especificamente em t0 e
x0 , a função de sobrevivência, neste cenário, é escrita da seguinte forma,
t
S(t0 ) = P [T > t0 ] = exp − θ2 x0 .
θ1 e
4
(13)
Chamando S(t0 ) = S e considerando a reparametrização,

o
n

 S = exp − tθ0 x
θ1 e 2 0
(14)

 φ = θ2 .
obtemos,


 θ1 =
t0
− log(S)eφx0

 θ2 = φ.
Para o modelo (3) e a reparametrização dada em (14), a função de verossimilhança para
S e φ é dada por,
#
n
X
log(S)
n
L(S, φ) = t−n
ti exp(φ(x0 − xi )) .
0 [−log(S)] exp[nφ(x0 − x̄)] exp
t0 i=1
"
(15)
A matriz de informação de Fisher em termos dos parâmetros S e φ pode ser obtida da
seguinte forma,
I(S, φ) = J t H(θ1 , θ2 )J
sendo J =
∂(θ1 ,θ2 )
∂(S,φ)
o jacobiano da transformação inversa. Assim, é possível escrever a matriz
de informação de Fisher e sua inversa, dadas respectivamente por,


e



I(S, φ) = 


n(x0 −x̄)
S log(S)




∗
−1
I (S, φ) = I (S, φ) = 


3
n(x0 −x̄)
S log(S)
n
S 2 (log(S))2
nx0 − 2nx0 x +
−S 2 (log(S))2 (nx0 (x0 −2x̄)+
P
2
n(nx̄2 − n
i=1 xi )
S log(S)(x̄−x0 )
P
2
nx̄2 + n
i=1 xi
Pn
Pn
i=1
2
i=1 xi )
x2i






S log(S)(x̄−x0 )
P
2
−nx̄2 + n
i=1 xi
−nx̄2 +
1
P
n
i=1
x2i




.


Análise de Referência
A análise de referência produz inferência Bayesiana objetiva no sentido de que a afirmação
inferencial depende somente do modelo assumido e dos dados observados. A teoria de informação estatística é usada para definir a priori de referência como uma função matemática
5
que descreve a situação na qual os dados dominarão melhor o conhecimento a priori sobre
a quantidade de interesse. Esta metodologia foi introduzido por Bernardo (1979) e mais
adiante desenvolvido por Berger e Bernardo (1989, 1992a, 1992b, 1992c). Uma característica
importante na abordagem de Berger - Bernardo para construir uma priori não-informativa é o
tratamento diferenciado para os parâmetros de interesse e os parâmetros nuisance. Quando
existe um parâmetro nuisance, devemos estabelecer uma parametrização ordenada, com o
parâmetro de interesse apontado. Neste trabalho, consideramos apenas o caso regular, onde
a normalidade assintótica da distribuição a posteriori conjunta poderá ser estabelecida.
Preposição 3.1: Seja p(x|φ, λ), (φ, λ) ∈ Φ × Λ ⊆ R × R um modelo de probabilidade
com dois parâmetros φ e λ, assumindo valores em R, sendo φ o parâmetro de interesse e λ
o parâmetro nuisance. Considere H(φ, λ) a matriz de informação de Fisher em termos de φ
e λ e S(φ, λ) = H −1 (φ, λ). A distribuição a posteriori de (φ, λ) é assintoticamente normal
com média dada pelos estimadores de máxima verossimilhança (φ̂, λ̂) e matriz de covariância
S(φ̂, λ̂). Segue que
1. a função a priori de referencia condicional de λ dado φ é
π(λ|φ) ∝ h22 (φ, λ)1/2 ,
λ ∈ Λ(φ)
2. se π(λ|φ) não é própria, uma aproximação compacta {Λi (φ), i = 1, 2, · · · } para Λ(φ) é
necessária e a priori de referência de λ dado φ é dada por
πi (λ|φ) = R
h22 (φ, λ)1/2
dλ, λ ∈ Λi (φ)
h (φ, λ)1/2
Λi (φ) 22
3. dentro de cada Λi (φ), a função a priori de referência marginal de φ é obtida por,
Z
h
i −1/2
πi (φ) ∝ exp
πi (λ|φ) log s11 (φ, λ) dλ
Λi (φ)
sendo s11 (φ, λ) = hφ (φ, λ) = h11 − h12 h−1
22 h21
−1/2
4. a distribuição a posteriori de referência de φ dado os dados {x1 , · · · , xn } é
( n
(Z
)
)
Y
π(φ|x1 , · · · , xn ) ∝ π(φ)
π(xl |φ, λ) π(λ|φ)dλ .
Λ(φ)
l=1
A justificativa eurística desta proposição pode ser vista em Bernardo (2005).
6
Sob condições de regularidade (ver Bernardo, 2005 e Berger et al., 2005) a priori de
referência pode ser reescrita como o produto de duas funções de parâmetros independentes,
como segue.
Corolário 3.1: Se o espaço do parâmetro nuisance Λ(φ) = Λ é independente de φ, e a
1/2
funções s11 (φ, λ) e h22 (φ, λ) fatoriza na forma
−1/2
{s11 (φ, λ)}−1/2 = f1 (φ)g1 (λ) e {h22 (φ, λ)}1/2 = f2 (φ)g2 (λ),
então,
π(φ) ∝ f1 (φ) e π (λ|φ) ∝ g2 (λ) ,
a função a priori de referência relativa ao parâmetro ordenado (φ, λ) é dada por
π (φ, λ) = f1 (φ) g2 (λ)
e nesse caso não existe a necessidade de uma aproximação compacta, mesmo se a priori de
referência não for propria (Bernardo e Smith, 1994).
Prova: Ver Teorema 12 em Bernardo (2005)
3.1
Inferência para os parâmetros do modelo
Para o modelo (3), considere θ1 como parâmetro de interesse e θ2 como parâmetro nuisance, a matriz de informação de Fisher H(θ1 , θ2 ) e a inversa H ∗ (θ1 , θ2 ) dadas respectivamente
em (12) e (13). Usando o Corolário 3.1, a distribuição a priori de referência condicional
para θ2 dado θ1 é π(θ2 | θ1 ) = g2 (θ2 ) ∝ 1 e a distribuição a priori marginal para θ1 é
π(θ1 ) = f1 (θ1 ) ∝
1
.
θ1
Assim a distribuição a priori de referência conjunta para θ1 e θ2 é
π(θ1 , θ2 ) ∝
1
.
θ1
(16)
A distribuição a posteriori de referência conjunta construída a partir da função de verossimilhança (5) e da função a priori de referência conjunta para θ1 e θ2 (16), é dada por,
(
)
n
1 X −θ2 xi
1
ti e
.
(17)
π(θ1 , θ2 |t, x) ∝ −(n+1) exp −nx̄θ2 −
θ1 i=1
θ1
A partir de (17) obtemos as distribuições a posteriori condicionais para θ1 e θ2 , dadas
respectivamente por,
π(θ1 |θ2 , t, x) ∝
1
−(n+1)
θ1
n
1 X −θ2 xi
ti e
exp −
θ1 i=1
(
7
)
.
e
n
1 X −θ2 xi
ti e
π(θ2 |θ1 , t, x) ∝ exp −nx̄θ2 −
θ1 i=1
(
3.2
)
.
Inferência para a função de sobrevivência do modelo
Considerando a reparametrização dado em 14, onde S e φ são os parâmetros de interesse
1
e nuisance, respectivamente e o corolário 3.1, temos que π(S) = f1 (S) ∝ − S log(S)
e π(φ|S) =
g2 (φ) ∝ 1. Portanto, a distribuição a priori conjunta para S e φ é
π(S, φ) ∝ −
1
.
S log(S)
(18)
A Figura 1 mostra o comportamento da função a priori de referência para o parâmetro
S.
Π@SD
120
100
80
60
40
20
0.2
0.4
0.6
1
0.8
S
Figura 1: Função a priori de referência para S.
A distribuição a posteriori de referência conjunta para S e φ, construída a partir da função
de verossimilhança dada em (15) e da função a priori de referência conjunta dada em (18) é
dada por,
π(S, φ|t, x) ∝ S A(φ)−1 (− log(S))n−1 exp
para A(φ) =
1
t0
Pn
i=1 ti e
−(xi −x0 )φ
"
nx0 −
n
X
xi
i=1
! #
φ ,
, 0 ≤ S ≤ 1 e −∞ ≤ φ ≤ ∞.
As distribuições a posteriori condicionais para S e φ são dadas respectivamente por,
π(S|φ, t, x) ∝ S A(φ)−1 (− log(S))n−1
e
π(φ|S, t, x) ∝ S A(φ)−1 exp
"
8
nx0 −
n
X
i=1
xi
! #
φ .
(19)
A distribuição a posteriori marginal, é encontrada integrando a densidade a posteriori
conjunta dada em (19) com relação aos demais parâmetros. O mesmo procedimento é aplicado
para θ1 e θ2 . A solução analítica para estas equações é obtida integrando as expressões;
porém tais integrações são complexas. Logo, o método MCMC (Gamerman e Lopes, 2002)
é utilizado para, a partir da distribuição a posteriori conjunta, obtermos as estimativas para
os parâmetros de interesse.
Para ilustrar a metodologia, apresentamos um estudo com dados simulados e uma aplicação com dados reais (Fiegl e Zelen, 1965). Os resultados foram obtidos no software R
Development Core Team (2010).
4
Um Estudo de Simulação
O estudo de simulação foi realizado com diferentes tamanho de amostras n = 30, 50, 100
e 200. Para a geração dos tempos utilizamos o método da função inversa fixando θ1 = 80 e
θ2 = −0, 5. Para cada um dos tamanhos amostrais, obtivemos amostras com 100.000 iterações
das distribuições a posteriori marginais de θ1 e θ2 utilizando o algoritmo de MetropolisHastings (Gamerman e Lopes, 2002).
Os resultados apresentados na Tabela 1 foram baseados em cadeias geradas com 100.000,
iterações, com burn in de 5.000 e salto igual a 10, resultando em uma amostra com 9.500
iterações. A convergência foi verificada utilizando o método de Geweke (1992).
Tabela 1: Resumos a posteriori para θ1 e θ2 .
θ1
θ2
n
Média
DP
IC-95%
Média
DP
IC-95%
30
88, 94
13, 03
[67, 27 ; 117, 78]
−0, 420
0, 143
[−0, 699 ; −0, 142]
50
87, 86
10, 01
[70, 52 ; 109, 57]
−0, 497
0, 112
[−0, 717 ; −0, 275]
100
77, 18
7, 85
[63, 42 ; 94, 28]
−0, 480
0, 098
[−0, 674 ; −0, 289]
200
81, 81
6, 07
[71, 08 ; 93, 96]
−0, 507
0, 067
[−0, 636 ; −0, 376]
Considerando que o interesse está na função de sobrevivência, para os mesmos conjuntos
de dados gerados, obtivemos uma amostra das distribuições a posteriori marginais de S e
100 = 0.20 e
φ, para cada n, no tempo t0 = 100 e no valor x0 = 0, 5, onde S = exp − 80e
−1
9
φ = −0.5. As estimativas para os parâmetros S e φ são mostradas na Tabela 2.
Tabela 2: Resumos a posteriori para S e φ.
S
φ
n
Média
DP
IC-95%
Média
DP
IC-95%
30
0, 249
0, 056
[0, 148 ; 0, 370]
−0, 418
0, 137
[−0, 697 ; −0, 149]
50
0, 231
0, 043
[0, 153 ; 0, 320]
−0, 497
0, 109
[−0, 710 ; −0, 288]
100
0, 192
0, 036
[0, 127 ; 0, 268]
−0, 481
0, 096
[−0, 671 ; −0, 296]
200
0, 206
0, 025
[0, 159 ; 0, 259]
−0, 505
0, 066
[−0, 635 ; −0, 374]
Observamos pelas Tabelas 1 e 2 que para tamanho de amostra pequeno ou moderado as
estimativas estão razoáveis; porém, as estimativas dos parâmetros ficam mais próximas dos
verdadeiros valores quando aumentamos o tamanho da amostra. Este fato ocorre para todos
os parâmetros.
Calculamos a probabilidade de cobertura e o tamanho do intervalo de confiança, para
os diversos tamanhos de amostra, para os parâmetros θ1 e θ2 ou S e φ (Tabelas 3 e 4).
Observamos nestas tabelas que a probabilidade de cobertura aumenta e os amplitude dos
intervalos de credibilidade diminui com o aumento do tamanho da amostra. Notamos que os
resultados encontrados para θ2 e φ estão muito próximos, indicando que a escolha de estimar
S ou θ1 não afeta na estimação do outro parâmetro.
Tabela 3: Probabilidade de cobertura e Amplitude do IC para θ1 e θ2 .
θ1
n
θ2
Prob. de Cobertura Amplitude
Prob. de Cobertura
Amplitude
30
0, 9562
60, 5873
0, 9227
0, 7763
50
0, 9544
46, 2565
0, 9544
0, 5838
100
0, 9519
32, 0341
0, 9541
0, 3982
200
0, 9671
22, 4740
0, 9574
0, 2815
10
Tabela 4: Probabilidade de cobertura e Amplitude do IC para S e φ.
S
n
4.1
φ
Prob. de Cobertura Amplitude
Prob. de Cobertura
Amplitude
30
0, 9473
0, 2516
0, 9452
0, 7750
50
0, 9431
0, 1963
0, 9343
0, 5798
100
0, 9413
0, 1401
0, 9608
0, 4059
200
0, 9502
0, 1001
0, 9653
0, 2812
Aplicação com os Dados de Feigl e Zelen
Os dados de Feigl e Zelen (1965) consistem de tempos de sobrevivência (em semanas)
de pacientes com leucemia e uma variável concomitante WBC, representando a contagem de
glóbulos brancos por 10.000 unidades na célula dos pacientes. Baseado no exame das células
com leucemia, os pacientes foram classificados como AG positivo e AG negativo. Na Tabela
5, temos os dados de 17 pacientes com AG positivo.
Tabela 5: Dados de pacientes com leucemia (AG positivo).
WBC/10.000
tempo
WBC/10.000
tempo
0,230
65
0,700
143
0,075
156
0,940
56
0,430
100
3,200
26
0,260
134
3,500
22
0,600
16
10,000
1
1,050
108
10,000
1
1,000
121
5,200
5
1,700
4
10,000
65
0,540
39
A partir do modelo (3) e sendo x o logaritmo da contagem de glóbulos brancos medidos
em unidades de 10.000, θ1 representa o tempo médio de sobrevivência de um paciente com a
11
contagem de glóbulos brancos com 10.000 unidades e θ2 representa o ganho no tempo médio
de sobrevivência correspondente a um acréscimo no percentual da contagem de glóbulos
brancos.
Analogamente ao estudo de simulação, construímos as cadeias a partir da distribuição a
posteriori. Considerando um tempo de aproximadamente dois anos (t0 = 96), a função de
sobrevivência em pacientes com a contagem de glóbulos brancos igual a 50.000 unidades é
).
dada por S = exp (− θ196
5θ2
As medidas resumo para os parâmetros θ1 e θ2 e para S e φ são apresentadas, respectivamente, nas Tabelas 6 e 7.
Tabela 6: Resumos a posteriori para θ1 e θ2 .
Média
DP
IC-95%
Geweke
θ1
86,3200
16,9887
[ 56,9355 ; 123,4608 ]
-0,0875
θ2
-0,1537
0,0418
[-0,2318 ; -0,0683]
0,5172
Tabela 7: Resumos a posteriori para S e φ.
Média
DP
IC-95%
Geweke
S
0,0858
0,0389
[ 0,0228 ; 0,1707]
-1,5860
φ
-0,1572
0,0430
[-0,2414 ; -0,0739]
-1,3310
Os resumos a posteriori para os parâmetros encontramos nas Tabelas 6 e 7 mostra que
os resultados obtidos para θ2 e φ são muito próximos, o que já era esperado, visto a reparametrização adotada em (14). Além disso, observamos que a probabilidade de um indivíduo
sobreviver além do tempo t0 = 96 sabendo que a quantidade de glóbulos brancos é igual a
50.000 unidades é de 0, 0858.
5
Conclusão
Neste trabalho consideramos o modelo de Regressão de Feigl e Zelen (1965), onde con-
seguimos obter inferências para os parâmetros de interesse e para a função de sobrevivência
no tempo t0 . Utilizamos a abordagem de análise de referência, pois essa teoria fornece um
12
método para obtenção de uma distribuição a priori não informativa e produz inferência bayesiana propria para o problema de regressão exponencial. O método MCMC foi utilizado para
obtenção das posteriori marginais.
Com os dados simulados, verificamos a adequabilidade do modelo, sendo que os resultados
encontrados foram satisfatórios. Também consideramos um conjunto de dados reais proposto
por Feigl e Zelen (1965) para ilustrar a metodologia proposta.
Finalmente é importante enfatizar que sumarizamos a derivação da distribuição a posteriori de referência para o caso de dois parâmetros, o qual fornece soluções bayesiana para
problemas que não tem uma priori subjetiva. Isto tem sido um assunto polémico entre muitos estatísticos, a escolha responsável e cuidadosa de uma priori não subjetiva pode ser uma
melhor alternativa. Além disso, esta metodologia generaliza algumas alternativas propostas
anteriormente, como por exemplo a distribuição a priori de Jeffreys
6
Referências Bibliográficas
1. Berger, J. O. and Bernardo, J. M. (1989). Estimating a product of means: Bayesian
analysis with reference priors. J. Amer. Statist. Assoc. 84, 200–207.
2. Berger, J. O. and Bernardo, J. M. (1992a). Ordered group reference priors with applications to a multinomial problem. Biometrika 79, 25–37.
3. Berger, J. O. and Bernardo, J. M. (1992b). Reference priors in a variance components
problem. Bayesian Analysis in Statistics and Econometrics (P. K. Goel and N. S.
Iyengar, eds.) Berlin: Springer, 323–340.
4. Berger, J. O. and Bernardo, J. M. (1992c). On the development of reference priors.
Bayesian Statistics 4 (J. M. Bernardo, J. O. Berger, A. P. Dawid and A. F. M. Smith,
eds.) Oxford: University Press, 35–60 (with discussion).
5. Berger J. O., Bernardo J. M. Sun D. (2008). The formal definition of reference priors.
Submitted of Annals of Statistics 36.
6. Berger, J. O., Bernardo, J. M. and Sun, D. (2005). Reference priors from first principles:
A general definition. Tech. Rep., SAMSI, NC, USA.
13
7. Bernardo, J. M. (1979). Reference posterior distributions for Bayesian inference. J.
Roy. Statist. Soc. B 41, 113Ű147 (with discussion). Reprinted in Bayesian Inference
(N. G. Polson and G. C. Tiao, eds.) Brookfield, VT: Edward Elgar, 1995, 229Ű263.
8. Berger J. O., Bernardo J. M. Sun D.; The Formal Definition of Reference Priors. The
Annals of Statistics, Vol. 37, No. 2, pp.905-938, 2009.
9. Berger, J. O., Bernardo, J. M.; Sun, D., Reference priors from first principles: A general
definition. Tech. Rep., SAMSI, NC, USA, 2005.
10. Berger J., The Case for Objective Bayesian Analysis. Bayesian Analysis, 2006.
11. Bernardo, J. M., Reference Analysis, Handbook of Statistics 25 (D. K. Dey and C. R.
Rao, eds), pp. 17-90. Elsevier,2005.
12. Bernardo, J. M.; Smith, A. F. M., Bayesian Theory, Chichester: Wiley, 1994.
13. Buckley, J.; James, I., Linear regression with censored data, Biometrika 66, 429-436,
1979.
14. Collet, D. , Modelling Survival Data in Medical Research, Chapman & Hall, 1994.
15. Feigl, P.; Zelen, M., Estimation of exponencial survival probabilities with concomitant
information, Biometrics, Vol. 21, pp.826-838, 1965.
16. Gamerman, D.; Lopes, H.; Markov Chain Monte Carlo, Stochastic Simulation for Bayesian Inference, 2002.
17. Gelman, A.; Rubin, D. R., A single series from the Gibbs sampler provides a false sense
of security. Bayesian Statistics 4, pp. 625-631. Oxford: university Press, 1992.
18. Geweke, J., Evaluating the accuracy of sampling-based approaches to the calculation
of posterior moments. In Bayesian Statistics 4, pp. 169-193, 1992.
19. Hastings, W. K., Monte Carlo sampling methods using Markov chains and their applications, Biometrika, Vo. 57, No. 1, pp. 97-109, 1970.
20. Jeffreys, H., Theory of Probability, 3rd edition, Oxford: Claredon Press, 1961.
21. Lawless, J. F., Statistical Models and Methods for Lifetime Data, New York: John
Wiley & Sons., 580 p., 1982.
14
22. Miller, R. G., Least squares regression with censored data. Biometrika 63 pp. 449-464,
1976.
23. R Development Core Team, R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, URL: http://www.Rproject.org/ 2010.
24. Tibshirani, R., Noninformative priors for one patameter of many, Biometrika 76, pp.
604-608, 1989.
25. Zippin, C.; Armitage, P. Use of concomitant variables and incomplete survival information in the estimation of an exponential survival parameter, Biometrics, pp. 665-672,
1966.
26. Weibull, W., A statistical distribution of wide applicability, Journal of Applied Mechanics, Vol. 18, pp. 293-297, , 1951.
15
PUBLICAÇÕES 2011
. LOUZADA-NETO, F.; MARCHI, V.; ROMAN, M.; “The Exponentiated ExponentialGeometric Distribution: A distribution with decreasing, increasing and unimodal hazard
function” Janeiro/2011 Nº 235
. LOUZADA-NETO, F; SUZUKI, A. K.; CANCHO, V. G.; “The FGM Long-Term
Bivariate Survival Copula Model: Modeling, Bayesian Estimation and case influence
diagnostics” Janeiro/2011 Nº 236
. CALSAVARA, V. F.; TOMAZELLA, V. L. D.; FOGO,
J. C.; “Modelos de
Sobrevivência com Fração de Cura para Dados de Tempo de Vida Weibull Modificada
Generalizada” Fevereiro/2011 Nº 237
. CALSAVARA, V. F.; TOMAZELLA, V. L. D.; FOGO, J. C.; “O Efeito do Termo de
Fragilidade no Modelo de Mistura Padrão”, Fevereiro/2011 Nº 238
. MILANI, E. A., TOMAZELLA, V. L. D., DIAS, T. C. M., LOUZADA, F. “The
generalized time-dependent logistic frailty model: na application to a population-based
prospective study of incidente cases of lung cancer diagnosed in Northern Ireland”
Março/2011 Nº 239

Arquivo para - Universidade Federal de São Carlos

Transcrição

Documentos relacionados

universidade estadual paulista

inferência bayesiana

FISPQ - Alamos Brasil

- Evolvedoc - Sistema de compartilhamento de trabalhos

Boletim Semanal do RC SBC Norte

Introdução ao cálculo estocástico e o lema de Ito

Sorocaba, segunda-feira, 1 de outubro de 2012

Outono de 2013 - Sociedade Portuguesa de Estatística

Rey Castro traz Pedro La Colina y Sexteto Cañaveral

Qual a Origem do conhecimento?

1. A distinção husserliana entre a priori material e formal

Sorocaba, segunda-feira, 20 de agosto de 2012

resultados exposição nacional 2012

Boletim Semanal do RC SBC Norte