MCMC - DME – IM – UFRJ

Transcrição

1.
Cadeias de Markov
1.
Cadeias de Markov
Cadeia de Markov → Sequência de variáveis aleatórias {Xj : j ∈ N +}
tal que,
p(xj | xj−1, ..., x1) = p(xj | xj−1), ∀j
S → Espaço de estados: conjunto de possı́veis valores de X.
1.
Cadeias de Markov
tal que,
p(xj | xj−1, ..., x1) = p(xj | xj−1), ∀j
Distribuição conjunta da Cadeia de Markov:
p(x1, x2, ...) =
∞
Y
j=1
com valor inicial x0
p(xj | xj−1)
1.
Cadeias de Markov
tal que,
p(xj | xj−1, ..., x1) = p(xj | xj−1), ∀j
Distribuição conjunta da Cadeia de Markov:
p(x1, x2, ...) =
∞
Y
p(xj | xj−1)
j=1
com valor inicial x0
Qj → Matriz de transição na iteração j
(j)
qi,k = p(Xj = sk | Xj−1 = si), S = {s1, s2, ...}
Cadeia Homogênea: Qj = Q, para todo j.
2.
Monte Carlo em Cadeias de Markov
2.
O MCMC permite a simulação de distribuições de forma indireta
2.
A idéia é construir uma cadeia de Markov fácil de ser simulada, e com
distribuição de equilı́brio igual à de interesse
2.
Após um número suficientemente grande de iterações, a cadeia converge
para a distribuição de interesse
2.
Largamente usados na estatı́stica Bayesiana para simular de p(θ | Y ) cuja
geração direta é complicada.
2.
Largamente usados na estatı́stica Bayesiana para simular de p(θ | Y ) cuja
geração direta é complicada.
Referência: Gamerman (1999)
Algoritmo de Metropolis-Hastings
Utiliza uma função de transição de x para y: q(x, y)
A função q(x, .) define uma distribuição condicional que governa as transições
do estado x
do estado x
Propriedades:
do estado x
Propriedades:
R
→ q(x, y)dy = 1;
do estado x
Propriedades:
R
→ q(x, y)dy = 1;
→ q(x, y) pode ser avaliada para todo x e y;
do estado x
Propriedades:
R
→ q(x, y)dy = 1;
→ q(x, y) pode ser avaliada para todo x e y;
→ para cada x, é possı́vel simular realizações da distribuição que tem
densidade q(x, ·).
Parâmetros do modelo: θ = (θ1, ..., θp)
O algoritmo é inicializado a partir de um ponto artitrário θ(0)
1. Faça j = 1
1. Faça j = 1
2. Simule θ(j) ∼ q(θ(j−1), ·)
1. Faça j = 1
2. Simule θ(j) ∼ q(θ(j−1), ·)
3. Avalie a razão de Hastings R =
p(θ(j) )q(θ(j) ,θ(j−1) )
p(θ(j−1) )q(θ(j−1) ,θ(j) )
1. Faça j = 1
2. Simule θ(j) ∼ q(θ(j−1), ·)
p(θ(j) )q(θ(j) ,θ(j−1) )
p(θ(j−1) )q(θ(j−1) ,θ(j) )
4. O próximo ponto da cadeia é igual a θ(j) com probabilidade min(1, R),
e é igual a θ(j−1) com probabilidade complementar a essa.
1. Faça j = 1
2. Simule θ(j) ∼ q(θ(j−1), ·)
p(θ(j) )q(θ(j) ,θ(j−1) )
p(θ(j−1) )q(θ(j−1) ,θ(j) )
5. Faça j = j + 1 e retorne ao passo 2.
1. Faça j = 1
2. Simule θ(j) ∼ q(θ(j−1), ·)
p(θ(j) )q(θ(j) ,θ(j−1) )
p(θ(j−1) )q(θ(j−1) ,θ(j) )
5. Faça j = j + 1 e retorne ao passo 2.
os valores simulados após a convergência podem ser considerados como
amostras da densidade de interesse.
Metropolis-Hastings com uma variável por vez
suponha que não é possı́vel (ou custoso) amostrar da densidade conjunta
de θ = (θ1, ..., θp)
de θ = (θ1, ..., θp)
Uma alternativa é atualizar cada parâmetro separadamente
de θ = (θ1, ..., θp)
1. Faça j = 1, i = 1
de θ = (θ1, ..., θp)
1. Faça j = 1, i = 1
(j)
(j−1)
2. Simule θi ∼ qi (θi
(j)
(j)
(j)
(j)
(j−1)
(j−1)
, ·; Θ−i ) e defina Θ−i = (θ1 , ..., θi−1 , θi+1 , ..., θp
)
de θ = (θ1, ..., θp)
1. Faça j = 1, i = 1
(j)
(j−1)
(j)
(j)
(j)
(j)
(j−1)
(j−1)
(j) (j)
(j) (j−1)
(j)
;Θ−i )
(j) (j−1)
(j−1) (j)
(j)
p(Θ−i ,θi
)qi (θi
,θi ;Θ−i )
p(Θ−i ,θi )qi (θi ,θi
)
de θ = (θ1, ..., θp)
1. Faça j = 1, i = 1
(j)
(j−1)
(j)
(j)
(j)
(j)
(j)
(j)
(j−1)
(j−1)
)
(j) (j)
(j) (j−1)
(j)
;Θ−i )
(j) (j−1)
(j−1) (j)
(j)
p(Θ−i ,θi
)qi (θi
,θi ;Θ−i )
4. (Θ−i , θi ) será o novo ponto da cadeia com probabilidade min(1, R), que per(j) (j−1)
manecerá em (Θ−i , θi
) com probabilidade complementar.
de θ = (θ1, ..., θp)
1. Faça j = 1, i = 1
(j)
(j−1)
(j)
(j)
(j)
(j)
(j)
(j−1)
(j−1)
)
(j) (j)
(j) (j−1)
(j)
;Θ−i )
(j) (j−1)
(j−1) (j)
(j)
p(Θ−i ,θi
)qi (θi
,θi ;Θ−i )
(j)
5. Se i < p faça i = i + 1 e retorne ao passo 2.
de θ = (θ1, ..., θp)
1. Faça j = 1, i = 1
(j)
(j−1)
(j)
(j)
(j)
(j)
(j)
(j)
(j−1)
(j−1)
(j)
(j)
(j−1)
(j)
(j−1)
p(Θ−i ,θi
(j−1)
)qi (θi
(j)
)
(j)
;Θ−i )
(j)
(j)
,θi ;Θ−i )
5. Se i < p faça i = i + 1 e retorne ao passo 2.
6. Faça j = j + 1 e i = 1.
Outra possibilidade é a de dividir o vetor paramétrico θ = (θ1, ..., θp) em
blocos
blocos
• Parâmetros atualizados conjuntamente dentro de cada bloco
blocos
• Cada bloco é amostrado separadamente
blocos
• Cada bloco é amostrado separadamente
Terı́amos então uma mistura desses dois algoritmos.
Amostrador de Gibbs
Amostrador de Gibbs
Transição de um estado a outro feita através de distribuições condicionais
completas.
Amostrador de Gibbs
completas.
Caso particular do algoritmo de Metropolis-Hastings com uma variável
(j)
(j)
por vez, fazendo qi(θi, ·; Θ−i ) = p(· | Θ−i )
Amostrador de Gibbs
completas.
(j)
(j)
a razão de Hastings é igual a 1, e a proposta será sempre aceita.
Amostrador de Gibbs
completas.
(j)
(j)
arbitrando um valor inicial θ(0), a atualização é dada por:
Amostrador de Gibbs
completas.
(j)
(j)
1. Faça j = 1, i = 1
Amostrador de Gibbs
completas.
(j)
(j)
1. Faça j = 1, i = 1
(j)
(j)
2. Simule θi ∼ p(· | Θ−i )
Amostrador de Gibbs
completas.
(j)
(j)
1. Faça j = 1, i = 1
(j)
(j)
3. Se i < p faça i = i + 1 e retorne ao passo 2
Amostrador de Gibbs
completas.
(j)
(j)
1. Faça j = 1, i = 1
(j)
(j)
3. Se i < p faça i = i + 1 e retorne ao passo 2
4. Faça j = j + 1 e i = 1
Diagnósticos de convergência
Geweke(1992)
Geweke(1992)
Idéia: Após a convergência o comportamento da Cadeia deve ser estacionário
Geweke(1992)
→ Amostras do inı́cio e do final da cadeia após estacionariedade devem
ser similares
Geweke(1992)
ser similares
A diferença padronizada entre as médias amostrais tem distribuição aproximadamente N (0, 1).
Geweke(1992)
ser similares
A diferença padronizada entre as médias amostrais tem distribuição aproximadamente N (0, 1).
Gelman e Rubin (1992)
Idéia: Rodar algumas cadeias em paralelo e avaliar se seus comportamentos são semelhantes, para evitar ótimos locais
Sugestão: Trabalhar com fator de redução potencial de escala, dado por:
F =
p
V /W , ondeV = (1 − 1/n)W + (1/n)B
F =
p
V /W , ondeV = (1 − 1/n)W + (1/n)B
W: Variância dentro das cadeias
F =
p
V /W , ondeV = (1 − 1/n)W + (1/n)B
B: Variância entre as cadeias
F =
p
V /W , ondeV = (1 − 1/n)W + (1/n)B
Em geral, F > 1. Valores aceitáveis são menores que 1, 2
F =
p
V /W , ondeV = (1 − 1/n)W + (1/n)B
Em geral, F > 1. Valores aceitáveis são menores que 1, 2
Monitoração informal da convergência
Gelfand e Smith sugerem técnicas gráficas
Considere m cadeias paralelas
A cada k iterações fazer um histograma dos m valores
Histogramas parecidos: indı́cio de convergência
k pequeno : influência da autocorrelação
k pequeno : influência da autocorrelação
k muito grande: desnecessário

MCMC - DME – IM – UFRJ

Transcrição

Documentos relacionados

A distribuiç ˜ao Weibull inversa generalizada na modelagem de

Nota de Alta

SHELLAC 78`

A distribuiç ˜ao Weibull inversa generalizada na

Bolo do Caco Bimby: 27 min Ingredientes: 1 c. café sal

Reitores na Moncloa - Duvi

Inteligência Artificial

RAFAEL CUNHA DE ALMEIDA

1a Frequência — 2002/2003

Curso de F´ısica Estat´ıstica

142558

Análise de dados categorizados com omissão em variáveis