Aula 3 - PROCC
Transcrição
Aula 3 - PROCC
Análise multinı́vel: O básico Leo Bastos Fundação Oswaldo Cruz Leo Bastos (PROCC/Fiocruz) Dados binários 1 / 35 Outline 1 Modelos multinı́vel 2 Tipos de dados Dados agrupados Medidas repetidas Dados seccionais ao longo do tempo Outras estruturas não-aninhadas 3 Custos e benefı́cios da modelagem multinı́vel 4 Visualizando dados multinı́vel Leo Bastos (PROCC/Fiocruz) Dados binários 2 / 35 Notação Suponha que Yi é o IMC de um participante de um estudo multicêntrico Xi é a idade desse indivı́duo j = {1, 2, . . . , J} representa os centros participantes do estudo. A notação: j[i] representa o centro que o indivı́duo i participa. Suponha que os indivı́duos 1 e 2 pertençam ao centro 1, e o indivı́duo 3, pertença ao centro 3, logo: j[1] = 1 j[2] = 1 j[3] = 2 Leo Bastos (PROCC/Fiocruz) Dados binários 4 / 35 Exemplo: IMC x Idade x Centro 30 4 35 40 45 50 55 60 5 6 32 30 28 IMC(Kg m2) 26 24 1 2 3 32 30 28 26 24 30 35 40 45 50 55 60 30 35 40 45 50 55 60 Idade (anos) Leo Bastos (PROCC/Fiocruz) Dados binários 5 / 35 Modelos multinı́vel Em um modelo multinı́vel, os parâmetros do modelo pode estar em nı́veis hierárquicos distintos, no caso do exemplo, pode-se ter efeitos associados a cada centro. Tipos de modelos multinı́vel: Modelo usual: Yi = α + βXi onde Yij é a nota final do aluno i da escola j, e Xij é sua nota de entrada. Modelo com intercepto variando: Yi = αj[i] + βXi Modelo com coeficiente variando: Yi = α + βj[i] Xi Modelo com intercepto e coeficiente variando: Yi = αj + βj[i] Xi Leo Bastos (PROCC/Fiocruz) Dados binários 6 / 35 Exemplo: IMC x Idade x Centro Efeitos fixos 30 4 35 40 45 50 55 60 5 6 32 30 28 IMC(Kg m2) 26 24 1 2 3 32 30 28 26 24 30 35 40 45 50 55 60 30 35 40 45 50 55 60 Idade (anos) Leo Bastos (PROCC/Fiocruz) Dados binários 7 / 35 Exemplo: IMC x Idade x Centro Interceto variando 30 4 35 40 45 50 55 60 5 6 32 30 28 IMC(Kg m2) 26 24 1 2 3 32 30 28 26 24 30 35 40 45 50 55 60 30 35 40 45 50 55 60 Idade (anos) Leo Bastos (PROCC/Fiocruz) Dados binários 8 / 35 Exemplo: IMC x Idade x Centro Coeficiente variando 30 4 35 40 45 50 55 60 5 6 32 30 28 IMC(Kg m2) 26 24 1 2 3 32 30 28 26 24 30 35 40 45 50 55 60 30 35 40 45 50 55 60 Idade (anos) Leo Bastos (PROCC/Fiocruz) Dados binários 9 / 35 Exemplo: IMC x Idade x Centro Interceto e coeficiente variando 30 4 35 40 45 50 55 60 5 6 32 30 28 IMC(Kg m2) 26 24 1 2 3 32 30 28 26 24 30 35 40 45 50 55 60 30 35 40 45 50 55 60 Idade (anos) Leo Bastos (PROCC/Fiocruz) Dados binários 10 / 35 Dados agrupados Considere um estudo observacional para estimar o efeito de polı́ticas municipais no reforço do pagamento de pensão alimentı́cia. Várias estratégias são utilizadas para encorajar ou forçar os pais a pagarem a pensão; Foi considerado uma amostra de 1367 mães solteiras de recem nascidos em 20 cidades; A variável de exposição é uma medida de esforço de polı́ticas de pensão para cada cidade. Outras variáveis no nı́vel de cidade e da mãe são usadas como preditores. Leo Bastos (PROCC/Fiocruz) Dados binários 12 / 35 Os dados Leo Bastos (PROCC/Fiocruz) Dados binários 13 / 35 Os dados por nı́vel Leo Bastos (PROCC/Fiocruz) Dados binários 14 / 35 Dados agrupados: Modelo Para esse exemplo o modelo seria: P(Yi = 1) = logit −1 (Xi β + αj[i] ), j = 1, 2, . . . , 1369, onde Xi são as variáveis no nı́vel indivı́dual e j[i] o ı́ndice da cidade. O segundo nı́vel da modelagem αj ∼ N(Uj γ, σα2 ), j = 1, 2, . . . , 20, onde Uj é a matriz de preditores no nı́vel da cidade, γ coeficientes no nı́vel da cidade, e σα o d.p. do erro não explicado variáveis preditoras no nı́vel de cidade. Leo Bastos (PROCC/Fiocruz) Dados binários 15 / 35 Medidas repetidas Outro tipo de dados com estrutura multinı́vel involve medidas repetidas de uma mesma pessoa Exemplo: um estudo longitudinal Australiano sobre o hábito de fumar em adolescentes. 2000 adolescentes foram acompanhados por três anos e o padrão de uso do cigarro registado a cada seis meses. O interesse é prever o comportamento dos adolescentes baseado no perfil dos pais. Leo Bastos (PROCC/Fiocruz) Dados binários 16 / 35 Os dados por nı́vel Leo Bastos (PROCC/Fiocruz) Dados binários 17 / 35 O modelo P(Yi = 1) = logit −1 (αj[i] + β1 psmokej[i] + β2 femalej[i] + +(β3 + β4 femalej[i] ) ∗ ti psmoke é o número de pais que fumam, female é um indicador de sexo, t é o tempo e j[i] ı́ndice de indivı́duo. β3 é o efeito de tendência no tempo para meninos; β3 + β4 é o efeito de tendência no tempo para meninas; Leo Bastos (PROCC/Fiocruz) Dados binários 18 / 35 Dados seccionais ao longo do tempo Proporção de penas de morte por em cada um dos 34 estados americanos que permitem pena de morte em 23 anos (1973-1995) Yi ∼ Binomial(ni , θi ) Modelo simples (relação linear) logit(θi ) = β0 + β1 anoi Modelo multinı́vel (relação linear) logit(θi ) = β0 + αj[i] + βj[i] anoi variáveis no nı́vel de estado podem ser incluı́das em αj Modelo multinı́vel logit(θi ) = β0 + αj[i] + βano[i] variáveis no nı́vel temporal podem ser incluı́das em βano Leo Bastos (PROCC/Fiocruz) Dados binários 19 / 35 Outras estruturas não-aninhadas Suponha um estudo de salário por profissão nos estados do paı́s. Um amostra de 2000 pessoas foi selecionada no páis em 20 profissões nos 26 estados. A renda vai depender de caracterı́sticas individuais, de caracterı́stica da profissão e de caracterı́sticas do estado. yi = Xi β + αj[i] + γk[i] + ei , i = 1, 2, . . . , 2000 onde j[i] é um ı́ndice de profissão e k[i] é um ı́ndice de estado. Caracterı́sticas da profissão são incluı́das no modelo via αj αj = a + Uj b + uj , uj ∼ N(0, σα2 ) Caracterı́stica do estado são modeladas por γk = c + Vk d + vj , Leo Bastos (PROCC/Fiocruz) Dados binários vj ∼ N(0, σγ2 ) 20 / 35 Vantagens da regressão clássica Antes de olharmos a modelagem multinı́vel, o que pode ser feito na modelagem usual: Prediction for continuous or discrete outcomes Fitting of nonlinear relations using transformations, Inclusion of categorical predictors using indicator variables, Modeling of interactions between inputs, Causal inference (under appropriate conditions). Leo Bastos (PROCC/Fiocruz) Dados binários 22 / 35 Motivação para a modelagem multinı́vel Contabilizar a variação no nı́vel individual e no(s) nı́vel(is) do(s) grupo(s) ao estimar os coeficientes de regressão; Modelar a variação entre os coeficientes de regressão no nı́vel individual. Estimar coeficientes de regressão para grupos particulares Leo Bastos (PROCC/Fiocruz) Dados binários 23 / 35 Desvantagens para a modelagem multinı́vel Complexidade dos modelos Os modelos ficam mais complexos em termos de interpretação, por outro lado são bem mais realistas. Suposições adicionais Ao ajustar modelos lineares em cada nı́vel, estamos fazendo as mesmas suposições de antes (independência, normalidade, variância constante ) mas agora dentro e entre os nı́veis. Leo Bastos (PROCC/Fiocruz) Dados binários 24 / 35 Quando a modelagem multinı́vel faz diferença? Para facilitar suponha que temos somente dois nı́veis. Não faz diferença, ou faz pouca diferença, se Se tivermos pouca variação entre grupos (regressão usual para os indivı́duos) Se há muita variação entre grupos (regressão usual no nı́vel de grupo) Se os coeficientes entre grupos forem os mesmos Quando o número de grupos é pequeno*** Leo Bastos (PROCC/Fiocruz) Dados binários 25 / 35 Quando a modelagem multinı́vel faz diferença? Por outro lado Se há informação tanto para o nı́vel indivı́dual quanto para o nı́vel dos grupos Se o número de grupos não é baixo (> 5) Se há motivos para acreditar que o desfecho seja diferente entre grupos A modelagem multinı́vel pode trazer informação relevante no nı́vel individual e dos grupos evitar uma falácia ecológica incorporar estruturas de dependência mais complexas (tempo, espaço, redes sociais,...) Leo Bastos (PROCC/Fiocruz) Dados binários 26 / 35 Exemplo: Radônio em Minesota Cada unidade é uma casa onde foi medido Nı́vel de radônio Local da medição: floor = [0 (porão), 1 (1o andar)] As casas estão agrupadas em condados Nome e número dos condados Nı́vel de urânio no solo do condado Leo Bastos (PROCC/Fiocruz) Dados binários 28 / 35 Exemplo: Radônio em Minesota # Lendo os dados radon <- read.table("http://goo.gl/PBvm1A") # Vendo o que foi lido str(radon) ## 'data.frame': 919 obs. of 7 variables: ## $ radon : num 2.2 2.2 2.9 1 3.1 2.5 1.5 1 0.7 1.2 .. ## $ log.radon : num 0.788 0.788 1.065 0 1.131 ... ## $ floor : int 1 0 0 0 0 0 0 0 0 0 ... ## $ county.name: Factor w/ 85 levels "AITKIN ", ## $ county : int 1 1 1 1 2 2 2 2 2 2 ... ## $ uranium : num 0.502 0.502 0.502 0.502 0.429 ... ## $ log.uranium: num -0.689 -0.689 -0.689 -0.689 -0.847 ... Leo Bastos (PROCC/Fiocruz) Dados binários 29 / 35 ## Media do (log) do radonio por local de medicao tapply(X = radon$radon, INDEX = radon$floor, FUN = mean) ## 0 1 ## 5.065666 3.278431 ## Media do (log) do uranio por local de medicao*** tapply(X = radon$uranium, INDEX = radon$floor, FUN = mean) ## 0 1 ## 0.9277883 0.9645683 Leo Bastos (PROCC/Fiocruz) Dados binários 30 / 35 ## Análise agregada ## Proporç~ ao de coletas no primeiros andar nos condados propFloor <- tapply(X = radon$floor, INDEX = radon$county.name, FUN = mean) ## Média do nivel de rad^ onio por condado medialogRadon <- tapply(X = radon$log.radon, INDEX = radon$county.name, FUN = mean) Leo Bastos (PROCC/Fiocruz) Dados binários 31 / 35 1.5 1.0 0.5 medialogRadon 2.0 2.5 plot(medialogRadon ~ propFloor) 0.0 0.2 0.4 0.6 propFloor Leo Bastos (PROCC/Fiocruz) Dados binários 32 / 35 require(lattice) # Dados individuais xyplot( log.radon ~ floor , data = radon, xlim = c(-.4,1.4)) # Dados inviduais separados por andar em todos os condados xyplot( log.radon ~ floor | county.name, group = floor, data = pch = 19, xlim = c(-.4,1.4)) Leo Bastos (PROCC/Fiocruz) Dados binários 33 / 35 4 log.radon 2 0 −2 0.0 0.5 1.0 floor Leo Bastos (PROCC/Fiocruz) Dados binários 34 / 35 0.0 0.5 1.0 0.0 0.5 1.0 WASECAWASHINGTON WATONWAN WILKIN 4 2 0 −2 ROSEAU 0.0 0.5 1.0 WINONA WRIGHTYELLOW MEDICINE SCOTT SHERBURNESIBLEY STEARNS STEELE STEVENS ST LOUIS SWIFT NORMAN OLMSTED OTTER TAIL PENNINGTONPINE log.radon 4 2 0 −2 LINCOLN LYON CLAY AITKIN 4 2 0 −2 ITASCA 0.0 0.5 1.0 RAMSEY REDWOOD RENVILLE RICE 4 2 0 −2 ROCK MURRAY NICOLLET NOBLES DODGE DOUGLAS FARIBAULTFILLMOREFREEBORN GOODHUEHENNEPIN BECKER BELTRAMI BENTON BIG STONE BLUE EARTH BROWN 0.0 0.5 1.0 TRAVERSEWABASHA WADENA 4 2 0 −2 JACKSON KANABEC KANDIYOHIKITTSONKOOCHICHING LAC QUI PARLE LAKE LAKE OF THE LE WOODS SUEUR CLEARWATER COOK COTTONWOOD CROW WINGDAKOTA ANOKA POPE MAHNOMEN MARSHALL MARTIN MCLEOD MEEKER MILLE LACS MORRISONMOWER HOUSTON HUBBARD ISANTI 4 2 0 −2 PIPESTONE POLK TODD 0.0 0.5 1.0 0.0 0.5 1.0 CARLTON CARVER 0.0 0.5 1.0 CASS 4 2 0 −2 CHIPPEWACHISAGO 0.0 0.5 1.0 0.0 0.5 1.0 floor Leo Bastos (PROCC/Fiocruz) Dados binários 35 / 35