unalmed.edu.co

Transcrição

unalmed.edu.co
ENCE – Escola Nacional de Ciências Estatísticas
Ajustando Modelos a Dados Amostrais Complexos:
Uma Revisão
Pedro Luis do Nascimento Silva
Escola Nacional de Ciências Estatística - ENCE
Seminário IASI de Estadística Aplicada
Medellín, Colômbia, Julho de 2010
©2010 Pedro Luis do Nascimento Silva
ENCE – Escola Nacional de Ciências Estatísticas
Dados Amostrais Complexos
Métodos estatísticos tradicionais vêm sendo cada vez mais empregados
para analisar dados de amostras complexas.
Modelos lineares generalizados, modelos hierárquicos (multi-nível) ou
de análise de sobrevivência são comumente aplicados a microdados de
pesquisas amostrais.
Estes métodos foram propostos em contexto que não é específico para o
caso de observações de pesquisas amostrais complexas.
Dados de pesquisas amostrais são ‘complexos’ porque as pesquisas de onde
são obtidos geralmente envolvem:
estratificação,
conglomeração,
probabilidades desiguais de seleção,
observações com pesos desiguais, e
ajustes para compensar não resposta, entre outros ajustes.
2
ENCE – Escola Nacional de Ciências Estatísticas
Por que usamos planos amostrais complexos?
1. Para um custo total fixado, planos complexos podem fornecer mais
informação que amostragem aleatória simples.
2. Amostragem aleatória simples das unidades de pesquisa é geralmente
impossível na prática, devido não haver cadastros adequados para a
amostragem.
3. Em muitas situações é de interesse representar na amostra estruturas
de grupos existentes na população, seja mediante estratificação, seja
mediante amostragem conglomerada.
3
ENCE – Escola Nacional de Ciências Estatísticas
Dados Amostrais Complexos
Variáveis num arquivo de dados de pessoas em pesquisa domiciliar
típica:
Estrato UPA Domicílio Pessoa Peso
Y1
...
YJ
Variáveis Y1, ..., YJ são variáveis de pesquisa consideradas de interesse na
análise (Renda, Despesa, Sexo, Idade, Educação, Status ocupacional, etc.).
Variáveis de estratificação, conglomeração e peso são muitas vezes
ignoradas na análise.
Isto está OK? Geralmente NÃO.
Vamos rever aqui as abordagens alternativas disponíveis para permitir
considerar na análise o fato de que dados provêm de amostras complexas.
4
ENCE – Escola Nacional de Ciências Estatísticas
Usos dos dados de pesquisas amostrais complexas
Descritivos: estimação de médias, totais, proporções, taxas e razões.
Aspectos do plano amostral são geralmente considerados na estimação de
medidas descritivas da população e da precisão das estimativas.
Analíticos: formulação, seleção, ajuste e interpretação de modelos.
Aspectos do plano amostral muitas vezes ignorados na formulação, ajuste,
teste e diagnóstico de modelos.
Razões:
• Desconhecimento de alternativas;
• Procedimentos estatísticos padrões disponíveis nos sistemas genéricos
não incorporam recursos / métodos para lidar com amostras complexas;
• Maior complexidade das abordagens de análise;
5
ENCE – Escola Nacional de Ciências Estatísticas
Abordagens para analisar dados de amostras complexas
Vamos rever aqui quatro abordagens alternativas para usos analíticos de
dados amostrais:
• Pseudo-verossimilhança (PV);
• Verossimilhança da amostra (VA);
• Verossimilhança com informação completa (VIC);
• Inferência Bayesiana (IB).
6
ENCE – Escola Nacional de Ciências Estatísticas
Referencial para a inferência
U = {1,… , N } população finita com N unidades;
N = tamanho da população (pode ser desconhecido);
s ⊂ U representa uma amostra de n unidades de U;
Y denota um vetor J×1 de variáveis de pesquisa que são medidas na
pesquisa e que são de interesse na análise;
y1,…, y N representam os valores que Y toma para as unidades em U;
yU = ( y1,…, y N )′ matriz com N linhas e J colunas contendo valores de Y
para as N unidades da população U realização da matriz aleatória YU.
ys = ( yk1 ,… , ykn )′ matriz com n linhas e J colunas contendo valores de Y
para as n unidades da amostra s realização da matriz aleatória Ys.
7
ENCE – Escola Nacional de Ciências Estatísticas
Amostragem probabilística
População Finita U
yU = ( y1,…, y N )′
Plano amostral
p(s)
Dados amostrais
ys = ( yk1 ,… , ykn )′
8
ENCE – Escola Nacional de Ciências Estatísticas
Amostragem probabilística e usos descritivos
Usos descritivos de amostras geralmente tomam como parâmetro de
interesse alguma função dos valores y1,…, y N , que são considerados fixos
(embora desconhecidos).
1
Exemplo: θ = g ( y1,… , y N ) = ∑ k∈U yk é a média populacional.
N
Inferência baseada no plano amostral: ‘distribuição de aleatorização’.
Livre de modelos ou de hipóteses sobre a distribuição dos valores de Y na
população.
Literatura típica: Cochran (1977), Kish (1965), etc.
Mais recentemente, modelos usados para apoiar desenvolvimento de
estimadores: abordagem ‘model assisted’ – Särndal et al (1992).
9
ENCE – Escola Nacional de Ciências Estatísticas
Modelagem Usual Ignorando Amostragem Complexa
Para usos analíticos de amostras, os parâmetros são definidos com respeito
a um modelo.
Em análises que sigam procedimentos padrões, tal modelo descreve o
processo estocástico gerador dos valores ys = ( yk1 ,… , ykn )′ na amostra s.
Modelo paramétrico
f ( y s ;θ )
Amostra s
ys = ( yk1 ,… , ykn )′
10
ENCE – Escola Nacional de Ciências Estatísticas
Modelagem Usual Ignorando Amostragem Complexa
Esta abordagem implica aceitar a hipótese de que a distribuição dos dados
da amostra é a mesma que a distribuição dos dados populacionais
(plano amostral é ignorável na análise).
Inferência para o parâmetro Ɵ que especifica a distribuição amostral é
feita usando métodos usuais (p.ex. máxima verossimilhança).
Estimativas de Ɵ e de sua precisão são usadas para inferir também sobre o
parâmetro que governa a distribuição dos dados populacionais.
Tal abordagem não se justifica em muitas situações práticas de pesquisa,
como amplamente demonstrado (Skinner, Holt & Smith, 1989; Kish &
Frankel, 1974).
Em pesquisas amostrais de populações finitas, é fundamental explicitar o
modelo que descreve a população.
11
ENCE – Escola Nacional de Ciências Estatísticas
Modelo de Superpopulação
Para usos analíticos de dados de pesquisas amostrais complexas, os
parâmetros são definidos com respeito a um modelo de superpopulação.
Tal modelo descreve o processo estocástico gerador dos valores y1,…, y N
na população finita U.
Modelo paramétrico
fU ( yU ;θ )
População Finita U
yU = ( y1,…, y N )′
12
ENCE – Escola Nacional de Ciências Estatísticas
Modelo de Superpopulação
Para usos analíticos de dados de pesquisas amostrais complexas, os
parâmetros são definidos com respeito a um modelo de superpopulação.
Tal modelo descreve o processo estocástico gerador dos valores y1,…, y N
na população finita U.
Modelo paramétrico
fU ( yU ;θ )
Porém não vamos
observar todos os
valores populacionais,
mas somente uma
amostra deles.
População Finita U
yU = ( y1,…, y N )′
13
ENCE – Escola Nacional de Ciências Estatísticas
Referencial para a inferência (2)
Notação adicional
ik = I ( k ∈ s ) é o indicador de que a unidade k pertence a s;
iU = (i1,…, iN )′ vetor com N linhas contendo os indicadores de inclusão
para as N unidades da população U realização da matriz aleatória IU.
f (iU ) representa o mecanismo de amostragem probabilística =
equivalente a especificar p(s).
Inferência considerando tanto o modelo de superpopulação como o plano
amostral requer especificar distribuição conjunta para a matriz (YU , IU ) .
14
ENCE – Escola Nacional de Ciências Estatísticas
Inferência Considerando o Plano Amostral
Modelo paramétrico
fU ( yU ;θ )
População Finita U
yU = ( y1,…, y N )′
Dados amostrais
ys = ( yk1 ,…, ykn )′ e iU
Plano amostral
f (iU )
15
ENCE – Escola Nacional de Ciências Estatísticas
Planos amostrais informativos
Se admitimos que o plano amostral depende diretamente das variáveis de
pesquisa Y, podemos escrever f (iU YU = yU ) , caso em que o plano
amostral é dito informativo.
Exemplo: Estudos de caso-controle.
A distribuição conjunta de (YU , IU ) é dada nesse caso por:
fU ( yU , iU ;θ ) = f (iU YU = yU ) fU ( yU ;θ )
Dois modelos são necessários:
• um para a distribuição populacional das variáveis de pesquisa
[ fU ( yU ;θ ) ]; e
• outro para representar como seria o plano amostral [ f (iU YU ) ] sob
realizações alternativas destas variáveis na população.
Pesquisas amostrais com planos informativos deste tipo são raras.
16
ENCE – Escola Nacional de Ciências Estatísticas
Planos amostrais não-informativos
Planos amostrais para os quais f (iU YU = yU ) = f (iU ) são ditos não
informativos.
Nesses casos, podemos escrever a distribuição conjunta de (YU , IU ) como
fU ( yU , iU ;θ ) = fU ( yU ;θ ) f (iU )
Pesquisas amostrais com planos não informativos deste tipo também são
raras (ex. Amostragem aleatória simples).
É mais comum encontrar pesquisas em que os planos amostrais dependem
de variáveis de desenho Z, cujos valores populacionais representamos por
z1,…, z N , e que podem ser colecionados na matriz zU = ( z1,…, z N )′ .
17
ENCE – Escola Nacional de Ciências Estatísticas
Planos amostrais condicionalmente não-informativos
Um plano amostral é não informativo condicionalmente em Z quando
podemos modelar a distribuição conjunta de (YU , IU ) dado ZU = zU como:
fU ( yU , iU ZU = zU ;φ ) = fU ( yU ZU = zU ;φ ) f (iU ZU = zU )
Isto é, as distribuições de YU e de IU são condicionalmente independentes
dado ZU = zU .
Note que esta situação afeta a especificação dos parâmetros de interesse
do modelo.
18
ENCE – Escola Nacional de Ciências Estatísticas
Abordagem de análise desagregada
Quando se usa o modelo fU ( yU ZU = zU ;φ ) diz-se que a análise é
desagregada.
Em muitas pesquisas sociais as variáveis de desenho definem subgrupos
na população, tais como estratos ou conglomerados.
Análise desagregada consiste essencialmente em especificar modelos que
admitem diferentes distribuições das variáveis de pesquisa dentro e entre
estes subgrupos.
Exemplo: Amostragem estratificada, com zk = indicador de pertinência aos
estratos.
Neste caso, uma análise de regressão entre variáveis de pesquisa obrigaria à
inclusão das variáveis de estratificação Z como covariáveis no modelo.
Mas isto pode não ser desejável do ponto de vista científico: o modelo de
interesse não tem porque depender de variáveis de desenho!
19
ENCE – Escola Nacional de Ciências Estatísticas
Abordagem de análise agregada
Análises que não condicionam no valor das variáveis de desenho são ditas
agregadas, e dependem da especificação de mais um modelo: fU ( zU ;ψ ) .
Neste caso, o parâmetro de interesse θ caracteriza a distribuição marginal
de Y na população, dada por:
fU ( yU ;θ ) = ∫ fU ( yU zU ;φ ) fU ( zU ;ψ )dzU
A distribuição conjunta de (YU , IU , ZU ) é dada por:
fU ( yU , zU , iU ) = f (iU yU , zU ) fU ( yU zU ;φ ) fU ( zU ;ψ )
Se o plano amostral é não informativo [ f (iU yU , zU ) = f (iU zU ) ] então
iU é estatística ancilar para inferência sobre θ.
20
ENCE – Escola Nacional de Ciências Estatísticas
Pseudo-verossimilhança (PV)
Binder (1983); Godambe & Thompson (1986)
Primeira abordagem sistemática para incorporar efeitos da amostragem
no uso analítico de dados amostrais.
Abordagem que suporta procedimentos incorporados em pacotes
estatísticos para análise de dados amostrais complexos.
Baseia-se em idéia simples: estimar as equações de verossimilhança do
modelo de superpopulação.
Suponha que Yk são IID com distribuição populacional fU ( yk ;θ ) .
Supondo que os N valores em yU pudessem ser observados, a logverossimilhança ‘do censo’ para θ seria dada por:
LU (θ ; yU ) = ∑ k∈U log [ fU ( yk ;θ ) ]
21
ENCE – Escola Nacional de Ciências Estatísticas
Pseudo-verossimilhança
Em problemas ‘regulares’, um estimador de máxima verossimilhança do
censo para θ poderia ser obtido resolvendo as equações:
∑ k∈U ∂ log [ fU ( yk ;θ )] / ∂θ = ∑ k∈U uk (θ ) = 0
A solução θU para a equação corresponde a uma função dos valores de Y
na população, e pode ser vista na abordagem de aleatorização como uma
quantidade populacional a ser estimada usando os dados na amostra s.
Podemos conceber ∑ k∈U uk (θ ) como um mero total populacional dos
escores uk (θ ) , e estimar esta soma considerando o plano amostral.
A solução θˆw das equações de pseudo-verossimilhança dadas por:
∑ k∈s wk ∂ log [ fU ( yk ;θ )] / ∂θ = ∑ k∈s wk uk (θ ) = 0
leva a um estimador de máxima pseudo verossimilhança para θU (ou θ).
wk representa o peso amostral da observação k.
22
ENCE – Escola Nacional de Ciências Estatísticas
Verossimilhança da Amostra (VA)
Krieger & Pfeffermann (1992, 1997); Pfeffermann et al. (1998)
Idéia básica: aproximar a distribuição dos dados amostrais, mediante
modelagem do impacto do plano amostral sobre a distribuição populacional
de interesse obtém-se assim a distribuição amostral.
Suponha que os valores de (Yk , Z k ) , k ∈ U representam N observações
independentes e identicamente distribuídas com distribuição dada por
fU ( yk , zk ;φ ,ψ ) = fU ( yk zk ;φ ) fU ( zk ;ψ )
Segue-se que:
fU ( yU , zU ;φ ,ψ ) = ∏ k∈U fU ( yk , zk ;φ ,ψ )
=∏ k∈U fU ( yk zk ;φ ) fU ( zk ;ψ )
23
ENCE – Escola Nacional de Ciências Estatísticas
Verossimilhança da Amostra (VA)
Sob a hipótese de que I k ⊥ I ( yk , zk ),( y , z ) para quaisquer k ≠ ∈ U ,
segue-se que a distribuição conjunta de (Yk , Z k ) k ∈ s é dada por:
f s ( yk , zk ;φ ,ψ ) = fU ( yk , zk I k = 1)
Pr ( I k = 1 Yk = yk , Z k = zk )
fU ( yk zk ;φ ) fU ( zk ;ψ )
=
Pr ( I k = 1)
e também que (Yk , Z k ) ⊥ (Y , Z ) iU para quaisquer k ≠ ∈ U .
Logo a verossimilhança da amostra para (φ ,ψ ) é dada por
Pr ( I k = 1 Yk = yk , Z k = zk )
Ls (φ ,ψ ) = ∏ k∈s
fU ( yk zk ;φ ) fU ( zk ;ψ )
Pr ( I k = 1)
e (φ ,ψ ) podem ser estimados maximizando a verossimilhança da amostra.
24
ENCE – Escola Nacional de Ciências Estatísticas
Verossimilhança com Informação Completa (VIC)
Breckling et al (1994)
Nesta abordagem, um passo importante é a identificação de quais são os
dados disponíveis para inferência:
• ys = ( yk1 ,… , ykn )′ valores das variáveis de interesse na amostra;
• yc a matriz complemento formada com as linhas de yU que NÃO
são obervadas na amostra;
• zU = ( z1,…, z N )′ valores das variáveis de desenho na população;
• iU valores dos indicadores de inclusão para as unidades em U.
Sob planos amostrais informativos, a função de verossimilhança para o
vetor de parâmetros (φ ,ψ ) = γ é dada por:
Ls (φ ,ψ ys , zU , iU ) ∝ fU ( ys , iU , zU ;φ ,ψ )
= ∫ fU ( ys , yc , iU , zU ;φ ,ψ )dyc
25
ENCE – Escola Nacional de Ciências Estatísticas
Verossimilhança com Informação Completa (VIC)
Estimadores de máxima verossimilhança com informação completa γˆ para
o vetor de parâmetros γ = (φ ,ψ ) podem ser obtidos em casos regulares
resolvendo a equação:
EU ∂γ log fU (YU , ZU , IU ; γ ) ys , zU , iU  = 0
26
ENCE – Escola Nacional de Ciências Estatísticas
Inferência Bayesiana
Little (2003)
A idéia é usar a verossimilhança com informação completa dada por:
Ls (φ ,ψ ys , zU , iU ) ∝ fU ( ys , iU , zU ;φ ,ψ )
= ∫ fU ( ys , yc , iU , zU ;φ ,ψ )dyc
Combinando-a com distribuições a priori para os parâmetros p (φ ,ψ zU ) .
Inferência para γ = (φ ,ψ ) é baseada na distribuição a posteriori
p (φ ,ψ ys , zU , iU ) ∝ p (φ ,ψ zU ) Ls (φ ,ψ ys , zU , iU )
27
ENCE – Escola Nacional de Ciências Estatísticas
Comparação das abordagens
PV estima equações de verossimilhança do censo usando pesos
derivados do plano amostral.
VA aproxima a verossimilhança da amostra e então aplica máxima
verossimilhança para estimar parâmetros do modelo de superpopulação.
VIC e IB buscam incorporar toda a informação disponível na inferência,
e assumem informação completa sobre variáveis de desenho na população.
Diferem na interpretação dos parâmetros e na abordagem de inferência.
28
ENCE – Escola Nacional de Ciências Estatísticas
Comparação das abordagens
PV está disponível em vários pacotes computacionais, para muitos modelos
comumente ajustados a dados de pesquisas amostrais.
Permite inferências assintóticas adequadas para o modelo populacional,
mas carece de diagnósticos de qualidade do ajuste deste modelo.
PV leva a estimadores menos eficientes, mas supostamente mais
robustos contra inadequação dos modelos ajustados.
VA, VIC e IB carecem de ferramentas gerais de ajuste, dependendo de
especificação cuidadosa e maior esforço computacional para ajustar
modelos.
VIC e IB assumem informação completa sobre variáveis de desenho Z.
VA requer apenas modelar probabilidades de inclusão na amostra.
Todas estas abordagens fornecem instrumentos de diagnóstico clássicos
para avaliar qualidade de ajuste.
29
ENCE – Escola Nacional de Ciências Estatísticas
Que fazer na prática?
(1) Identificar aspectos e informações sobre a estrutura do plano amostral
existentes nos arquivos de dados e documentação das pesquisas.
(2) Para planos amostrais informativos, essencial usar métodos que
incorporem aspectos e informações sobre o plano amostral na análise
usando alguma das abordagens descritas.
(3) Selecionar métodos de análise adequados dependendo da análise de
interesse e dos aspectos do plano amostral.
(4) Realizar análise usando métodos e software apropriado.
(5) Interpretar resultados e verificar análise, reformulando modelo
quando necessário.
30
ENCE – Escola Nacional de Ciências Estatísticas
Referências
Binder, D.A. (1983). On the variances of asymptotically normal estimators from complex
surveys. Int. Stat. Review, 51, 279-292.
Breckling, J.U., Chambers, R.L., Dorfman, A., Tam, S.M. e Welsh, A.H. (1994).
Maximum likelihood inference from survey data. Int. Stat. Review, 62, 349-363.
Godambe, V.P. e Thompson, M.E. (1986). Parameters of super populations and survey
population: their relationship and estimation. Int. Stat. Review, 54, 37-59.
Krieger, A.M. e Pfeffermann, D. (1992). Maximum likelihood from complex sample
surveys. Survey Methodology, 18, 225-239.
Krieger, A.M. e Pfeffermann, D. (1997). Testing of distribution functions from complex
sample surveys. Journal of Official Statistics, 13, 123-142.
Little, R.J.A. (2003). The Bayesian approach to sample survey inference. In Chambers,
R.L. e Skinner, C.J., eds, Analysis of survey data, Chichester, John Wiley & Sons.
Pfeffermann, D., Krieger, A.M. e Rinott, Y. (1998). Parametric distributions of complex
survey data under informative probability sampling. Statistica Sinica, 8 , 1087-1114.
31

Documentos relacionados

Page 1 of 9 Currículo do Sistema de Currículos Lattes (Pedro Luis

Page 1 of 9 Currículo do Sistema de Currículos Lattes (Pedro Luis Currículo do Sistema de Currículos Lattes (Pedro Luis do Nascimento Silva)

Leia mais