Aula 3 - PROCC

Transcrição

Aula 3 - PROCC
Análise multinı́vel: O básico
Leo Bastos
Fundação Oswaldo Cruz
Leo Bastos (PROCC/Fiocruz)
Dados binários
1 / 35
Outline
1
Modelos multinı́vel
2
Tipos de dados
Dados agrupados
Medidas repetidas
Dados seccionais ao longo do tempo
Outras estruturas não-aninhadas
3
Custos e benefı́cios da modelagem multinı́vel
4
Visualizando dados multinı́vel
Leo Bastos (PROCC/Fiocruz)
Dados binários
2 / 35
Notação
Suponha que Yi é o IMC de um participante de um estudo
multicêntrico
Xi é a idade desse indivı́duo
j = {1, 2, . . . , J} representa os centros participantes do estudo.
A notação:
j[i]
representa o centro que o indivı́duo i participa.
Suponha que os indivı́duos 1 e 2 pertençam ao centro 1, e o indivı́duo
3, pertença ao centro 3, logo:
j[1] = 1
j[2] = 1
j[3] = 2
Leo Bastos (PROCC/Fiocruz)
Dados binários
4 / 35
Exemplo: IMC x Idade x Centro
30
4
35
40
45
50
55
60
5
6
32
30
28
IMC(Kg m2)
26
24
1
2
3
32
30
28
26
24
30
35
40
45
50
55
60
30
35
40
45
50
55
60
Idade (anos)
Leo Bastos (PROCC/Fiocruz)
Dados binários
5 / 35
Modelos multinı́vel
Em um modelo multinı́vel, os parâmetros do modelo pode estar em
nı́veis hierárquicos distintos, no caso do exemplo, pode-se ter efeitos
associados a cada centro.
Tipos de modelos multinı́vel:
Modelo usual:
Yi = α + βXi
onde Yij é a nota final do aluno i da escola j, e Xij é sua nota de
entrada.
Modelo com intercepto variando:
Yi = αj[i] + βXi
Modelo com coeficiente variando:
Yi = α + βj[i] Xi
Modelo com intercepto e coeficiente variando:
Yi = αj + βj[i] Xi
Leo Bastos (PROCC/Fiocruz)
Dados binários
6 / 35
Exemplo: IMC x Idade x Centro
Efeitos fixos
30
4
35
40
45
50
55
60
5
6
32
30
28
IMC(Kg m2)
26
24
1
2
3
32
30
28
26
24
30
35
40
45
50
55
60
30
35
40
45
50
55
60
Idade (anos)
Leo Bastos (PROCC/Fiocruz)
Dados binários
7 / 35
Exemplo: IMC x Idade x Centro
Interceto variando
30
4
35
40
45
50
55
60
5
6
32
30
28
IMC(Kg m2)
26
24
1
2
3
32
30
28
26
24
30
35
40
45
50
55
60
30
35
40
45
50
55
60
Idade (anos)
Leo Bastos (PROCC/Fiocruz)
Dados binários
8 / 35
Exemplo: IMC x Idade x Centro
Coeficiente variando
30
4
35
40
45
50
55
60
5
6
32
30
28
IMC(Kg m2)
26
24
1
2
3
32
30
28
26
24
30
35
40
45
50
55
60
30
35
40
45
50
55
60
Idade (anos)
Leo Bastos (PROCC/Fiocruz)
Dados binários
9 / 35
Exemplo: IMC x Idade x Centro
Interceto e coeficiente variando
30
4
35
40
45
50
55
60
5
6
32
30
28
IMC(Kg m2)
26
24
1
2
3
32
30
28
26
24
30
35
40
45
50
55
60
30
35
40
45
50
55
60
Idade (anos)
Leo Bastos (PROCC/Fiocruz)
Dados binários
10 / 35
Dados agrupados
Considere um estudo observacional para estimar o efeito de polı́ticas
municipais no reforço do pagamento de pensão alimentı́cia.
Várias estratégias são utilizadas para encorajar ou forçar os pais a
pagarem a pensão;
Foi considerado uma amostra de 1367 mães solteiras de recem
nascidos em 20 cidades;
A variável de exposição é uma medida de esforço de polı́ticas de
pensão para cada cidade.
Outras variáveis no nı́vel de cidade e da mãe são usadas como
preditores.
Leo Bastos (PROCC/Fiocruz)
Dados binários
12 / 35
Os dados
Leo Bastos (PROCC/Fiocruz)
Dados binários
13 / 35
Os dados por nı́vel
Leo Bastos (PROCC/Fiocruz)
Dados binários
14 / 35
Dados agrupados: Modelo
Para esse exemplo o modelo seria:
P(Yi = 1) = logit −1 (Xi β + αj[i] ),
j = 1, 2, . . . , 1369,
onde Xi são as variáveis no nı́vel indivı́dual e j[i] o ı́ndice da cidade.
O segundo nı́vel da modelagem
αj ∼ N(Uj γ, σα2 ),
j = 1, 2, . . . , 20,
onde Uj é a matriz de preditores no nı́vel da cidade, γ coeficientes no nı́vel
da cidade, e σα o d.p. do erro não explicado variáveis preditoras no nı́vel
de cidade.
Leo Bastos (PROCC/Fiocruz)
Dados binários
15 / 35
Medidas repetidas
Outro tipo de dados com estrutura multinı́vel involve medidas repetidas de
uma mesma pessoa
Exemplo: um estudo longitudinal Australiano sobre o hábito de fumar em
adolescentes.
2000 adolescentes foram acompanhados por três anos e o padrão de uso
do cigarro registado a cada seis meses.
O interesse é prever o comportamento dos adolescentes baseado no perfil
dos pais.
Leo Bastos (PROCC/Fiocruz)
Dados binários
16 / 35
Os dados por nı́vel
Leo Bastos (PROCC/Fiocruz)
Dados binários
17 / 35
O modelo
P(Yi = 1) = logit −1 (αj[i] + β1 psmokej[i] + β2 femalej[i] +
+(β3 + β4 femalej[i] ) ∗ ti
psmoke é o número de pais que fumam, female é um indicador de sexo, t
é o tempo e j[i] ı́ndice de indivı́duo.
β3 é o efeito de tendência no tempo para meninos;
β3 + β4 é o efeito de tendência no tempo para meninas;
Leo Bastos (PROCC/Fiocruz)
Dados binários
18 / 35
Dados seccionais ao longo do tempo
Proporção de penas de morte por em cada um dos 34 estados americanos
que permitem pena de morte em 23 anos (1973-1995)
Yi ∼ Binomial(ni , θi )
Modelo simples (relação linear)
logit(θi ) = β0 + β1 anoi
Modelo multinı́vel (relação linear)
logit(θi ) = β0 + αj[i] + βj[i] anoi
variáveis no nı́vel de estado podem ser incluı́das em αj
Modelo multinı́vel
logit(θi ) = β0 + αj[i] + βano[i]
variáveis no nı́vel temporal podem ser incluı́das em βano
Leo Bastos (PROCC/Fiocruz)
Dados binários
19 / 35
Outras estruturas não-aninhadas
Suponha um estudo de salário por profissão nos estados do paı́s.
Um amostra de 2000 pessoas foi selecionada no páis em 20 profissões nos
26 estados.
A renda vai depender de caracterı́sticas individuais, de caracterı́stica da
profissão e de caracterı́sticas do estado.
yi = Xi β + αj[i] + γk[i] + ei ,
i = 1, 2, . . . , 2000
onde j[i] é um ı́ndice de profissão e k[i] é um ı́ndice de estado.
Caracterı́sticas da profissão são incluı́das no modelo via αj
αj = a + Uj b + uj ,
uj ∼ N(0, σα2 )
Caracterı́stica do estado são modeladas por
γk = c + Vk d + vj ,
Leo Bastos (PROCC/Fiocruz)
Dados binários
vj ∼ N(0, σγ2 )
20 / 35
Vantagens da regressão clássica
Antes de olharmos a modelagem multinı́vel, o que pode ser feito na
modelagem usual:
Prediction for continuous or discrete outcomes
Fitting of nonlinear relations using transformations,
Inclusion of categorical predictors using indicator variables,
Modeling of interactions between inputs,
Causal inference (under appropriate conditions).
Leo Bastos (PROCC/Fiocruz)
Dados binários
22 / 35
Motivação para a modelagem multinı́vel
Contabilizar a variação no nı́vel individual e no(s) nı́vel(is) do(s)
grupo(s) ao estimar os coeficientes de regressão;
Modelar a variação entre os coeficientes de regressão no nı́vel
individual.
Estimar coeficientes de regressão para grupos particulares
Leo Bastos (PROCC/Fiocruz)
Dados binários
23 / 35
Desvantagens para a modelagem multinı́vel
Complexidade dos modelos
Os modelos ficam mais complexos em termos de interpretação, por
outro lado são bem mais realistas.
Suposições adicionais
Ao ajustar modelos lineares em cada nı́vel, estamos fazendo as
mesmas suposições de antes (independência, normalidade, variância
constante ) mas agora dentro e entre os nı́veis.
Leo Bastos (PROCC/Fiocruz)
Dados binários
24 / 35
Quando a modelagem multinı́vel faz diferença?
Para facilitar suponha que temos somente dois nı́veis.
Não faz diferença, ou faz pouca diferença, se
Se tivermos pouca variação entre grupos (regressão usual para os
indivı́duos)
Se há muita variação entre grupos (regressão usual no nı́vel de grupo)
Se os coeficientes entre grupos forem os mesmos
Quando o número de grupos é pequeno***
Leo Bastos (PROCC/Fiocruz)
Dados binários
25 / 35
Quando a modelagem multinı́vel faz diferença?
Por outro lado
Se há informação tanto para o nı́vel indivı́dual quanto para o nı́vel dos
grupos
Se o número de grupos não é baixo (> 5)
Se há motivos para acreditar que o desfecho seja diferente entre
grupos
A modelagem multinı́vel pode
trazer informação relevante no nı́vel individual e dos grupos
evitar uma falácia ecológica
incorporar estruturas de dependência mais complexas (tempo, espaço,
redes sociais,...)
Leo Bastos (PROCC/Fiocruz)
Dados binários
26 / 35
Exemplo: Radônio em Minesota
Cada unidade é uma casa onde foi medido
Nı́vel de radônio
Local da medição: floor = [0 (porão), 1 (1o andar)]
As casas estão agrupadas em condados
Nome e número dos condados
Nı́vel de urânio no solo do condado
Leo Bastos (PROCC/Fiocruz)
Dados binários
28 / 35
Exemplo: Radônio em Minesota
# Lendo os dados
radon <- read.table("http://goo.gl/PBvm1A")
# Vendo o que foi lido
str(radon)
## 'data.frame': 919 obs. of 7 variables:
## $ radon
: num 2.2 2.2 2.9 1 3.1 2.5 1.5 1 0.7 1.2 ..
## $ log.radon : num 0.788 0.788 1.065 0 1.131 ...
## $ floor
: int 1 0 0 0 0 0 0 0 0 0 ...
## $ county.name: Factor w/ 85 levels "AITKIN
",
## $ county
: int 1 1 1 1 2 2 2 2 2 2 ...
## $ uranium
: num 0.502 0.502 0.502 0.502 0.429 ...
## $ log.uranium: num -0.689 -0.689 -0.689 -0.689 -0.847 ...
Leo Bastos (PROCC/Fiocruz)
Dados binários
29 / 35
## Media do (log) do radonio por local de medicao
tapply(X = radon$radon, INDEX = radon$floor, FUN = mean)
##
0
1
## 5.065666 3.278431
## Media do (log) do uranio por local de medicao***
tapply(X = radon$uranium, INDEX = radon$floor, FUN = mean)
##
0
1
## 0.9277883 0.9645683
Leo Bastos (PROCC/Fiocruz)
Dados binários
30 / 35
## Análise agregada
## Proporç~
ao de coletas no primeiros andar nos condados
propFloor <- tapply(X = radon$floor,
INDEX = radon$county.name, FUN = mean)
## Média do nivel de rad^
onio por condado
medialogRadon <- tapply(X = radon$log.radon,
INDEX = radon$county.name, FUN = mean)
Leo Bastos (PROCC/Fiocruz)
Dados binários
31 / 35
1.5
1.0
0.5
medialogRadon
2.0
2.5
plot(medialogRadon ~ propFloor)
0.0
0.2
0.4
0.6
propFloor
Leo Bastos (PROCC/Fiocruz)
Dados binários
32 / 35
require(lattice)
# Dados individuais
xyplot( log.radon ~ floor , data = radon, xlim = c(-.4,1.4))
# Dados inviduais separados por andar em todos os condados
xyplot( log.radon ~ floor | county.name, group = floor, data =
pch = 19, xlim = c(-.4,1.4))
Leo Bastos (PROCC/Fiocruz)
Dados binários
33 / 35
4
log.radon
2
0
−2
0.0
0.5
1.0
floor
Leo Bastos (PROCC/Fiocruz)
Dados binários
34 / 35
0.0 0.5 1.0
0.0 0.5 1.0
WASECAWASHINGTON
WATONWAN WILKIN
4
2
0
−2
ROSEAU
0.0 0.5 1.0
WINONA WRIGHTYELLOW MEDICINE
SCOTT SHERBURNESIBLEY STEARNS STEELE STEVENS ST LOUIS SWIFT
NORMAN OLMSTED OTTER TAIL
PENNINGTONPINE
log.radon
4
2
0
−2
LINCOLN
LYON
CLAY
AITKIN
4
2
0
−2
ITASCA
0.0 0.5 1.0
RAMSEY REDWOOD RENVILLE RICE
4
2
0
−2
ROCK
MURRAY NICOLLET NOBLES
DODGE DOUGLAS FARIBAULTFILLMOREFREEBORN
GOODHUEHENNEPIN
BECKER BELTRAMI BENTON BIG STONE
BLUE EARTH
BROWN
0.0 0.5 1.0
TRAVERSEWABASHA WADENA
4
2
0
−2
JACKSON KANABEC KANDIYOHIKITTSONKOOCHICHING
LAC QUI PARLE
LAKE LAKE OF THE LE
WOODS
SUEUR
CLEARWATER
COOK COTTONWOOD
CROW WINGDAKOTA
ANOKA
POPE
MAHNOMEN
MARSHALL MARTIN MCLEOD MEEKER MILLE LACS
MORRISONMOWER
HOUSTON HUBBARD ISANTI
4
2
0
−2
PIPESTONE POLK
TODD
0.0 0.5 1.0
0.0 0.5 1.0
CARLTON CARVER
0.0 0.5 1.0
CASS
4
2
0
−2
CHIPPEWACHISAGO
0.0 0.5 1.0
0.0 0.5 1.0
floor
Leo Bastos (PROCC/Fiocruz)
Dados binários
35 / 35