unalmed.edu.co
Transcrição
unalmed.edu.co
ENCE – Escola Nacional de Ciências Estatísticas Ajustando Modelos a Dados Amostrais Complexos: Uma Revisão Pedro Luis do Nascimento Silva Escola Nacional de Ciências Estatística - ENCE Seminário IASI de Estadística Aplicada Medellín, Colômbia, Julho de 2010 ©2010 Pedro Luis do Nascimento Silva ENCE – Escola Nacional de Ciências Estatísticas Dados Amostrais Complexos Métodos estatísticos tradicionais vêm sendo cada vez mais empregados para analisar dados de amostras complexas. Modelos lineares generalizados, modelos hierárquicos (multi-nível) ou de análise de sobrevivência são comumente aplicados a microdados de pesquisas amostrais. Estes métodos foram propostos em contexto que não é específico para o caso de observações de pesquisas amostrais complexas. Dados de pesquisas amostrais são ‘complexos’ porque as pesquisas de onde são obtidos geralmente envolvem: estratificação, conglomeração, probabilidades desiguais de seleção, observações com pesos desiguais, e ajustes para compensar não resposta, entre outros ajustes. 2 ENCE – Escola Nacional de Ciências Estatísticas Por que usamos planos amostrais complexos? 1. Para um custo total fixado, planos complexos podem fornecer mais informação que amostragem aleatória simples. 2. Amostragem aleatória simples das unidades de pesquisa é geralmente impossível na prática, devido não haver cadastros adequados para a amostragem. 3. Em muitas situações é de interesse representar na amostra estruturas de grupos existentes na população, seja mediante estratificação, seja mediante amostragem conglomerada. 3 ENCE – Escola Nacional de Ciências Estatísticas Dados Amostrais Complexos Variáveis num arquivo de dados de pessoas em pesquisa domiciliar típica: Estrato UPA Domicílio Pessoa Peso Y1 ... YJ Variáveis Y1, ..., YJ são variáveis de pesquisa consideradas de interesse na análise (Renda, Despesa, Sexo, Idade, Educação, Status ocupacional, etc.). Variáveis de estratificação, conglomeração e peso são muitas vezes ignoradas na análise. Isto está OK? Geralmente NÃO. Vamos rever aqui as abordagens alternativas disponíveis para permitir considerar na análise o fato de que dados provêm de amostras complexas. 4 ENCE – Escola Nacional de Ciências Estatísticas Usos dos dados de pesquisas amostrais complexas Descritivos: estimação de médias, totais, proporções, taxas e razões. Aspectos do plano amostral são geralmente considerados na estimação de medidas descritivas da população e da precisão das estimativas. Analíticos: formulação, seleção, ajuste e interpretação de modelos. Aspectos do plano amostral muitas vezes ignorados na formulação, ajuste, teste e diagnóstico de modelos. Razões: • Desconhecimento de alternativas; • Procedimentos estatísticos padrões disponíveis nos sistemas genéricos não incorporam recursos / métodos para lidar com amostras complexas; • Maior complexidade das abordagens de análise; 5 ENCE – Escola Nacional de Ciências Estatísticas Abordagens para analisar dados de amostras complexas Vamos rever aqui quatro abordagens alternativas para usos analíticos de dados amostrais: • Pseudo-verossimilhança (PV); • Verossimilhança da amostra (VA); • Verossimilhança com informação completa (VIC); • Inferência Bayesiana (IB). 6 ENCE – Escola Nacional de Ciências Estatísticas Referencial para a inferência U = {1,… , N } população finita com N unidades; N = tamanho da população (pode ser desconhecido); s ⊂ U representa uma amostra de n unidades de U; Y denota um vetor J×1 de variáveis de pesquisa que são medidas na pesquisa e que são de interesse na análise; y1,…, y N representam os valores que Y toma para as unidades em U; yU = ( y1,…, y N )′ matriz com N linhas e J colunas contendo valores de Y para as N unidades da população U realização da matriz aleatória YU. ys = ( yk1 ,… , ykn )′ matriz com n linhas e J colunas contendo valores de Y para as n unidades da amostra s realização da matriz aleatória Ys. 7 ENCE – Escola Nacional de Ciências Estatísticas Amostragem probabilística População Finita U yU = ( y1,…, y N )′ Plano amostral p(s) Dados amostrais ys = ( yk1 ,… , ykn )′ 8 ENCE – Escola Nacional de Ciências Estatísticas Amostragem probabilística e usos descritivos Usos descritivos de amostras geralmente tomam como parâmetro de interesse alguma função dos valores y1,…, y N , que são considerados fixos (embora desconhecidos). 1 Exemplo: θ = g ( y1,… , y N ) = ∑ k∈U yk é a média populacional. N Inferência baseada no plano amostral: ‘distribuição de aleatorização’. Livre de modelos ou de hipóteses sobre a distribuição dos valores de Y na população. Literatura típica: Cochran (1977), Kish (1965), etc. Mais recentemente, modelos usados para apoiar desenvolvimento de estimadores: abordagem ‘model assisted’ – Särndal et al (1992). 9 ENCE – Escola Nacional de Ciências Estatísticas Modelagem Usual Ignorando Amostragem Complexa Para usos analíticos de amostras, os parâmetros são definidos com respeito a um modelo. Em análises que sigam procedimentos padrões, tal modelo descreve o processo estocástico gerador dos valores ys = ( yk1 ,… , ykn )′ na amostra s. Modelo paramétrico f ( y s ;θ ) Amostra s ys = ( yk1 ,… , ykn )′ 10 ENCE – Escola Nacional de Ciências Estatísticas Modelagem Usual Ignorando Amostragem Complexa Esta abordagem implica aceitar a hipótese de que a distribuição dos dados da amostra é a mesma que a distribuição dos dados populacionais (plano amostral é ignorável na análise). Inferência para o parâmetro Ɵ que especifica a distribuição amostral é feita usando métodos usuais (p.ex. máxima verossimilhança). Estimativas de Ɵ e de sua precisão são usadas para inferir também sobre o parâmetro que governa a distribuição dos dados populacionais. Tal abordagem não se justifica em muitas situações práticas de pesquisa, como amplamente demonstrado (Skinner, Holt & Smith, 1989; Kish & Frankel, 1974). Em pesquisas amostrais de populações finitas, é fundamental explicitar o modelo que descreve a população. 11 ENCE – Escola Nacional de Ciências Estatísticas Modelo de Superpopulação Para usos analíticos de dados de pesquisas amostrais complexas, os parâmetros são definidos com respeito a um modelo de superpopulação. Tal modelo descreve o processo estocástico gerador dos valores y1,…, y N na população finita U. Modelo paramétrico fU ( yU ;θ ) População Finita U yU = ( y1,…, y N )′ 12 ENCE – Escola Nacional de Ciências Estatísticas Modelo de Superpopulação Para usos analíticos de dados de pesquisas amostrais complexas, os parâmetros são definidos com respeito a um modelo de superpopulação. Tal modelo descreve o processo estocástico gerador dos valores y1,…, y N na população finita U. Modelo paramétrico fU ( yU ;θ ) Porém não vamos observar todos os valores populacionais, mas somente uma amostra deles. População Finita U yU = ( y1,…, y N )′ 13 ENCE – Escola Nacional de Ciências Estatísticas Referencial para a inferência (2) Notação adicional ik = I ( k ∈ s ) é o indicador de que a unidade k pertence a s; iU = (i1,…, iN )′ vetor com N linhas contendo os indicadores de inclusão para as N unidades da população U realização da matriz aleatória IU. f (iU ) representa o mecanismo de amostragem probabilística = equivalente a especificar p(s). Inferência considerando tanto o modelo de superpopulação como o plano amostral requer especificar distribuição conjunta para a matriz (YU , IU ) . 14 ENCE – Escola Nacional de Ciências Estatísticas Inferência Considerando o Plano Amostral Modelo paramétrico fU ( yU ;θ ) População Finita U yU = ( y1,…, y N )′ Dados amostrais ys = ( yk1 ,…, ykn )′ e iU Plano amostral f (iU ) 15 ENCE – Escola Nacional de Ciências Estatísticas Planos amostrais informativos Se admitimos que o plano amostral depende diretamente das variáveis de pesquisa Y, podemos escrever f (iU YU = yU ) , caso em que o plano amostral é dito informativo. Exemplo: Estudos de caso-controle. A distribuição conjunta de (YU , IU ) é dada nesse caso por: fU ( yU , iU ;θ ) = f (iU YU = yU ) fU ( yU ;θ ) Dois modelos são necessários: • um para a distribuição populacional das variáveis de pesquisa [ fU ( yU ;θ ) ]; e • outro para representar como seria o plano amostral [ f (iU YU ) ] sob realizações alternativas destas variáveis na população. Pesquisas amostrais com planos informativos deste tipo são raras. 16 ENCE – Escola Nacional de Ciências Estatísticas Planos amostrais não-informativos Planos amostrais para os quais f (iU YU = yU ) = f (iU ) são ditos não informativos. Nesses casos, podemos escrever a distribuição conjunta de (YU , IU ) como fU ( yU , iU ;θ ) = fU ( yU ;θ ) f (iU ) Pesquisas amostrais com planos não informativos deste tipo também são raras (ex. Amostragem aleatória simples). É mais comum encontrar pesquisas em que os planos amostrais dependem de variáveis de desenho Z, cujos valores populacionais representamos por z1,…, z N , e que podem ser colecionados na matriz zU = ( z1,…, z N )′ . 17 ENCE – Escola Nacional de Ciências Estatísticas Planos amostrais condicionalmente não-informativos Um plano amostral é não informativo condicionalmente em Z quando podemos modelar a distribuição conjunta de (YU , IU ) dado ZU = zU como: fU ( yU , iU ZU = zU ;φ ) = fU ( yU ZU = zU ;φ ) f (iU ZU = zU ) Isto é, as distribuições de YU e de IU são condicionalmente independentes dado ZU = zU . Note que esta situação afeta a especificação dos parâmetros de interesse do modelo. 18 ENCE – Escola Nacional de Ciências Estatísticas Abordagem de análise desagregada Quando se usa o modelo fU ( yU ZU = zU ;φ ) diz-se que a análise é desagregada. Em muitas pesquisas sociais as variáveis de desenho definem subgrupos na população, tais como estratos ou conglomerados. Análise desagregada consiste essencialmente em especificar modelos que admitem diferentes distribuições das variáveis de pesquisa dentro e entre estes subgrupos. Exemplo: Amostragem estratificada, com zk = indicador de pertinência aos estratos. Neste caso, uma análise de regressão entre variáveis de pesquisa obrigaria à inclusão das variáveis de estratificação Z como covariáveis no modelo. Mas isto pode não ser desejável do ponto de vista científico: o modelo de interesse não tem porque depender de variáveis de desenho! 19 ENCE – Escola Nacional de Ciências Estatísticas Abordagem de análise agregada Análises que não condicionam no valor das variáveis de desenho são ditas agregadas, e dependem da especificação de mais um modelo: fU ( zU ;ψ ) . Neste caso, o parâmetro de interesse θ caracteriza a distribuição marginal de Y na população, dada por: fU ( yU ;θ ) = ∫ fU ( yU zU ;φ ) fU ( zU ;ψ )dzU A distribuição conjunta de (YU , IU , ZU ) é dada por: fU ( yU , zU , iU ) = f (iU yU , zU ) fU ( yU zU ;φ ) fU ( zU ;ψ ) Se o plano amostral é não informativo [ f (iU yU , zU ) = f (iU zU ) ] então iU é estatística ancilar para inferência sobre θ. 20 ENCE – Escola Nacional de Ciências Estatísticas Pseudo-verossimilhança (PV) Binder (1983); Godambe & Thompson (1986) Primeira abordagem sistemática para incorporar efeitos da amostragem no uso analítico de dados amostrais. Abordagem que suporta procedimentos incorporados em pacotes estatísticos para análise de dados amostrais complexos. Baseia-se em idéia simples: estimar as equações de verossimilhança do modelo de superpopulação. Suponha que Yk são IID com distribuição populacional fU ( yk ;θ ) . Supondo que os N valores em yU pudessem ser observados, a logverossimilhança ‘do censo’ para θ seria dada por: LU (θ ; yU ) = ∑ k∈U log [ fU ( yk ;θ ) ] 21 ENCE – Escola Nacional de Ciências Estatísticas Pseudo-verossimilhança Em problemas ‘regulares’, um estimador de máxima verossimilhança do censo para θ poderia ser obtido resolvendo as equações: ∑ k∈U ∂ log [ fU ( yk ;θ )] / ∂θ = ∑ k∈U uk (θ ) = 0 A solução θU para a equação corresponde a uma função dos valores de Y na população, e pode ser vista na abordagem de aleatorização como uma quantidade populacional a ser estimada usando os dados na amostra s. Podemos conceber ∑ k∈U uk (θ ) como um mero total populacional dos escores uk (θ ) , e estimar esta soma considerando o plano amostral. A solução θˆw das equações de pseudo-verossimilhança dadas por: ∑ k∈s wk ∂ log [ fU ( yk ;θ )] / ∂θ = ∑ k∈s wk uk (θ ) = 0 leva a um estimador de máxima pseudo verossimilhança para θU (ou θ). wk representa o peso amostral da observação k. 22 ENCE – Escola Nacional de Ciências Estatísticas Verossimilhança da Amostra (VA) Krieger & Pfeffermann (1992, 1997); Pfeffermann et al. (1998) Idéia básica: aproximar a distribuição dos dados amostrais, mediante modelagem do impacto do plano amostral sobre a distribuição populacional de interesse obtém-se assim a distribuição amostral. Suponha que os valores de (Yk , Z k ) , k ∈ U representam N observações independentes e identicamente distribuídas com distribuição dada por fU ( yk , zk ;φ ,ψ ) = fU ( yk zk ;φ ) fU ( zk ;ψ ) Segue-se que: fU ( yU , zU ;φ ,ψ ) = ∏ k∈U fU ( yk , zk ;φ ,ψ ) =∏ k∈U fU ( yk zk ;φ ) fU ( zk ;ψ ) 23 ENCE – Escola Nacional de Ciências Estatísticas Verossimilhança da Amostra (VA) Sob a hipótese de que I k ⊥ I ( yk , zk ),( y , z ) para quaisquer k ≠ ∈ U , segue-se que a distribuição conjunta de (Yk , Z k ) k ∈ s é dada por: f s ( yk , zk ;φ ,ψ ) = fU ( yk , zk I k = 1) Pr ( I k = 1 Yk = yk , Z k = zk ) fU ( yk zk ;φ ) fU ( zk ;ψ ) = Pr ( I k = 1) e também que (Yk , Z k ) ⊥ (Y , Z ) iU para quaisquer k ≠ ∈ U . Logo a verossimilhança da amostra para (φ ,ψ ) é dada por Pr ( I k = 1 Yk = yk , Z k = zk ) Ls (φ ,ψ ) = ∏ k∈s fU ( yk zk ;φ ) fU ( zk ;ψ ) Pr ( I k = 1) e (φ ,ψ ) podem ser estimados maximizando a verossimilhança da amostra. 24 ENCE – Escola Nacional de Ciências Estatísticas Verossimilhança com Informação Completa (VIC) Breckling et al (1994) Nesta abordagem, um passo importante é a identificação de quais são os dados disponíveis para inferência: • ys = ( yk1 ,… , ykn )′ valores das variáveis de interesse na amostra; • yc a matriz complemento formada com as linhas de yU que NÃO são obervadas na amostra; • zU = ( z1,…, z N )′ valores das variáveis de desenho na população; • iU valores dos indicadores de inclusão para as unidades em U. Sob planos amostrais informativos, a função de verossimilhança para o vetor de parâmetros (φ ,ψ ) = γ é dada por: Ls (φ ,ψ ys , zU , iU ) ∝ fU ( ys , iU , zU ;φ ,ψ ) = ∫ fU ( ys , yc , iU , zU ;φ ,ψ )dyc 25 ENCE – Escola Nacional de Ciências Estatísticas Verossimilhança com Informação Completa (VIC) Estimadores de máxima verossimilhança com informação completa γˆ para o vetor de parâmetros γ = (φ ,ψ ) podem ser obtidos em casos regulares resolvendo a equação: EU ∂γ log fU (YU , ZU , IU ; γ ) ys , zU , iU = 0 26 ENCE – Escola Nacional de Ciências Estatísticas Inferência Bayesiana Little (2003) A idéia é usar a verossimilhança com informação completa dada por: Ls (φ ,ψ ys , zU , iU ) ∝ fU ( ys , iU , zU ;φ ,ψ ) = ∫ fU ( ys , yc , iU , zU ;φ ,ψ )dyc Combinando-a com distribuições a priori para os parâmetros p (φ ,ψ zU ) . Inferência para γ = (φ ,ψ ) é baseada na distribuição a posteriori p (φ ,ψ ys , zU , iU ) ∝ p (φ ,ψ zU ) Ls (φ ,ψ ys , zU , iU ) 27 ENCE – Escola Nacional de Ciências Estatísticas Comparação das abordagens PV estima equações de verossimilhança do censo usando pesos derivados do plano amostral. VA aproxima a verossimilhança da amostra e então aplica máxima verossimilhança para estimar parâmetros do modelo de superpopulação. VIC e IB buscam incorporar toda a informação disponível na inferência, e assumem informação completa sobre variáveis de desenho na população. Diferem na interpretação dos parâmetros e na abordagem de inferência. 28 ENCE – Escola Nacional de Ciências Estatísticas Comparação das abordagens PV está disponível em vários pacotes computacionais, para muitos modelos comumente ajustados a dados de pesquisas amostrais. Permite inferências assintóticas adequadas para o modelo populacional, mas carece de diagnósticos de qualidade do ajuste deste modelo. PV leva a estimadores menos eficientes, mas supostamente mais robustos contra inadequação dos modelos ajustados. VA, VIC e IB carecem de ferramentas gerais de ajuste, dependendo de especificação cuidadosa e maior esforço computacional para ajustar modelos. VIC e IB assumem informação completa sobre variáveis de desenho Z. VA requer apenas modelar probabilidades de inclusão na amostra. Todas estas abordagens fornecem instrumentos de diagnóstico clássicos para avaliar qualidade de ajuste. 29 ENCE – Escola Nacional de Ciências Estatísticas Que fazer na prática? (1) Identificar aspectos e informações sobre a estrutura do plano amostral existentes nos arquivos de dados e documentação das pesquisas. (2) Para planos amostrais informativos, essencial usar métodos que incorporem aspectos e informações sobre o plano amostral na análise usando alguma das abordagens descritas. (3) Selecionar métodos de análise adequados dependendo da análise de interesse e dos aspectos do plano amostral. (4) Realizar análise usando métodos e software apropriado. (5) Interpretar resultados e verificar análise, reformulando modelo quando necessário. 30 ENCE – Escola Nacional de Ciências Estatísticas Referências Binder, D.A. (1983). On the variances of asymptotically normal estimators from complex surveys. Int. Stat. Review, 51, 279-292. Breckling, J.U., Chambers, R.L., Dorfman, A., Tam, S.M. e Welsh, A.H. (1994). Maximum likelihood inference from survey data. Int. Stat. Review, 62, 349-363. Godambe, V.P. e Thompson, M.E. (1986). Parameters of super populations and survey population: their relationship and estimation. Int. Stat. Review, 54, 37-59. Krieger, A.M. e Pfeffermann, D. (1992). Maximum likelihood from complex sample surveys. Survey Methodology, 18, 225-239. Krieger, A.M. e Pfeffermann, D. (1997). Testing of distribution functions from complex sample surveys. Journal of Official Statistics, 13, 123-142. Little, R.J.A. (2003). The Bayesian approach to sample survey inference. In Chambers, R.L. e Skinner, C.J., eds, Analysis of survey data, Chichester, John Wiley & Sons. Pfeffermann, D., Krieger, A.M. e Rinott, Y. (1998). Parametric distributions of complex survey data under informative probability sampling. Statistica Sinica, 8 , 1087-1114. 31
Documentos relacionados
Page 1 of 9 Currículo do Sistema de Currículos Lattes (Pedro Luis
Currículo do Sistema de Currículos Lattes (Pedro Luis do Nascimento Silva)
Leia mais