Quantis residuais - Departamento de Estatística

Transcrição

Quantis residuais - Departamento de Estatística
Quantis residuais
Luziane Franciscon
Acadêmica de Estatı́stica
Universidade Federal do Paraná
Orientador:
Fernando Lucambio
Departamento de Estatı́stica
Universidade Federal do Paraná
Resumo
Uma etapa importante de qualquer análise de regressão é a chamada análise
de resı́duos. O objetivo deste trabalho é apresentar um novo conceito de resı́duo,
os resı́duos quantis e mostrar, através de simulações, que eles se comportam
como verdadeiros resı́duos contı́nuos no caso de modelos de regressão com resposta discreta. Além disso, mostraremos a diferença dos resı́duos quantis com
o resı́duos deviance em dados simulados e em um exemplo real.
1
Modelo de Regressão Linear
Este modelo estatı́stico descreve a relação entre duas variáveis, a variável Y , chamada
variável resposta, que pode ser explicada pela variável X, chamada variável auxiliar
ou covariável. Neste trabalho consideramos os modelos de regressão linear em um
contexto mais amplo, no qual a distribuição de probabilidade associada à variável
resposta pode ser discreta ou contı́nua, estes são os chamados modelos de regressão
generalizados.
Uma etapa importante de qualquer análise de regressão é a verificação das suposições do modelo proposto e a anaálise dos resı́duos é uma ferramenta muito útil
neste sentido. O resı́duo para a i-ésima observação pode ser definido como uma função
do tipo ri = r(yi , µ
bi ), onde µ
bi é o valor esperado ou valor ajustado pelo modelo. O
que se procura medir com os resı́duos é a possı́vel discrepância entre o valor observado e o valor ajustado da i-ésima observação. A definição mais usual de resı́duo é
dada por ri = yi − µ
bi , conhecido como resı́duo ordinário, há outras formas de definir
resı́duo, em particular trabalharemos com os chamados resı́duos deviance, os quais
definiremos adiante.
1.1
Modelos lineares generalizados
Existe uma vasta literatura no assunto e a referência mais completa é o livro de
McCullagh & Nelder (1989), no qual baseamos nosso estudo.
Sejam Y1 , · · · , Yn variáveis aleatórias independentes, cada uma com função de
densidade ou de probabilidade na famı́lia exponencial escrita como
f (yi ; θi , φ) = exp[φ{yi θi − b(θi ) + c(yi )} + a(yi , φ)],
(1)
onde E{Yi } = db(θi )/dθi , que denotaremos por µi , var{Yi } = φ−1 Vi , Vi = dµi /dθi é a
função de variância, θ = θ(β) é o parâmetro canônico e φ é o parâmetro de dispersão
(φ > 0) que, em geral, é desconhecido (i = 1, 2, · · · , n).
Os modelos lineares generalizados são definidos por (1) e pelo componente sistemático
g(µi ) = ηi ,
(2)
onde ηi = xi β é o preditor linear, β = (β1 , · · · , βp )> , p < n, é o vetor dos parâmetros
da regressão a serem estimados, xi = (xi1 , · · · , xip ) representa os valores de p variáveis
1
explicativas e g(·) uma função monótona e diferenciável, denominada função de
ligação.
Como exemplos ou casos particulares de distribuições que pertencem à famı́lia
exponencial (1) podemos mencionar a distribuição normal, normal inversa, Poisson e
binomial, dentre outras, obtendo-se os modelos de regressão linear múltipla, regressão
normal inversa, regressão Poisson, regressão logı́stica e outros.
As funções de ligação mais utilizadas são obtidas quando o parâmetro canônico
coincide com o preditor linear, isto é, quando θ = η e a função de ligação nestas
situações é chamada de ligação canônica. As ligações canônicas para os modelos
mencionados são, respectivamente, dadas por
½
¾
µ
1
= η·
µ = η, µ = 2 , log µ = η e log
η
1−µ
No contexto de modelos lineares generalizados, diversas definições de resı́duos
são usadas. Aqui consideraremos os resı́duos deviance que, para a i-ésima observação
é dado por
rd,i = d(yi , µ
bi )1/2 sign(yi − µ
bi ),
onde d(y, µ) é a função deviance, definida como
d(y, µ) = 2{t(y, y) − t(y, µ)},
sendo t(y, y) = yθ − b(θ).
O resı́duo deviance tem distribuição exata normal no caso da regressão normal
e na regressão normal inversa (Williams, 1987).
2
Quantis Residuais
Na Seção 1.1 definimos os resı́duos deviance que, como mencionado anteriormente, é
um dos possı́veis a serem considerados. Nesta seção introduzimos um novo conceito
de resı́duo, proposto por Dunn & Smyth (1996).
São baseados na idéia de inverter a função de distribuição estimada para cada
observação e assim obter resı́duos cuja função de densidade é exatamente a normal.
2
Quantis residuais são resı́duos usados em modelos lineares generalizados em situações
de grande dispersão quando os resı́duos deviance podem não ser normais.
No caso de distribuições discretas, como a binomial e a Poisson, os resı́duos
quantis podem não ser contı́nuos e, então, algum procedimento de aleatorização é
introduzido para produzir resı́duos normais contı́nuos. Os resı́duos quantis são os
únicos resı́duos úteis para dados binomiais e Poisson se a variável resposta assume
um número pequeno de valores distintos.
Definição 2.1 Seja F (y; µ, φ) a função de distribuição acumulada de Y , com função
de densidade f (y; µ, φ). Dado que F é contı́nua, então F (Y ; µ, φ) está uniformemente
distribuı́da no intervalo (0,1). Neste caso os quantis residuais são definidos como:
rq,i = Φ−1 {F (Yi ; µ
bi , φbi )}·
(3)
Nesta definição, Φ é a função de distribuição acumulada da normal padrão.
Devemos lembrar aqui que se F ∼ U(0, 1) e se r = Φ−1 (F ), então Φ é a função
de distribuição da variável aleatória r (Rohatgi, 1976). Utilizando este resultado
provamos que rq,i tem, assintoticamente, distribuição normal padrão se βb e φb são
estimadores consistentes de β e φ, respectivamente.
Se F não for contı́nua, uma definição mais geral dos quantis residuais é necessária.
Seja ai = limy→yi F (y; µbi , φbi ) e bi = F (yi ; µbi , φbi ). A definição de quantil residual para
yi é
rq,i = Φ−1 (ui )
onde ui é uma variável uniforme no intervalo (ai , bi ).
Tanto para F contı́nua quanto para F discreta observamos que E{rq,i } = 0 e que
var{rq,i } = 1, portanto, se β e φ forem estimados utilizando estimadores consistentes
então rq,i ∼ N (0, 1), em probabilidade.
2.1
Exemplo
Mostraremos a seguir que, em em determinadas situações, podemos não perceber
comportamentos anômalos nos resı́duos se utilizamos o resı́duo deviance, em compensação, os resı́duos quantis nos permitem realizar análises minusiosas. Utilizaremos
para mostrar isso dados simulados.
3
1 2
−3
−1
Quantil residual
3
2
1
−1
Resíduo deviance
Figura 1: Gráficos comprativos dos resı́duos deviance e quantis residuais em dados
simulados
−0.2
0.0 0.1 0.2
−0.2
−0.2
0.0 0.1 0.2
2
1
0
−2
0
2
4
Quantil residual
Covariável
−2
Resíduo deviance
Covariável
0.0 0.1 0.2
−0.2
Covariável
0.0 0.1 0.2
Covariável
Simulamos de dados binomiais, utilizando regressão logı́stica, considerando 60
observações, nas quais a variável resposta são independentes com n = 3 e log{pi /(1 −
pi )} = β0 + β1 xi , onde xi é a covariável.
Na Figura 1, nos dois primeiros gráficos, temos os resı́duos deviance e os resı́duos
quantis supondo que no preditor linear a covariável aparece de maneira linear. Observemos que no primeiro destes gráficos os pontos estendem-se em quatro curvas
paralelas, correspondendo aos quatro possı́veis valores da variável resposta. As curvas formadas dificultam a visualização de algum outro padrão nos dados. O segundo
gráfico exibe os quantis residuais e nele nota-se que os resı́duos apresentam um padrão
quadrático. Os dados deste exemplo foram, de fato, simulados com log{pi /(1 − pi )}
dependendo quadraticamente de xi .
4
A segunda linha de gráficos, também na Figura 1, apresenta os resı́duos deviance
e os quantis residuais quando o ajuste do modelo logı́stico foi realizado com termo
quadrático em x no preditor linear. Observemos que os resı́duos deviance mostra
curvas em quanto que os quantis residuais mostram dispersão aleatória.
3
Diabetes mellitus nas ı́ndias de Pima
A base de dados do diabetes nas ı́ndias de Pima, população residente perto de
Phoenix, Arizona, nos Estados Unidos é datada de maio de 1990, sendo estes dados
provenientes de um levantemento amostral no qual os indivı́duos foram aleatoriamente
escolhidos e de forma representativa National Institutes of Health (1990).
1
0
−1
−2
Deviance Residual
2
3
Figura 2: Gráficos dos resı́duos deviance no estudo do diabetes nas ı́ndias de Pima
0
200
400
600
Índice
Diversas informações foram coletadas das 768 ı́ndias, tendo por objetivo investigar quais são significativas para explicar a presença ou ausência do diabetes mellitus.
Um modelo de regressão logı́stica foi proposto e ajustado, obténdo-se que o modelo
selecionado depende ı́ndice de massa corporal, da concentração de glicose, da heredi5
tariedade e do número de vezes grávida. Na Figura 2 podemos observar os resı́duos
deviance deste modelo, os quais mostram-se satisfatórios quanto à normalidade.
1
0
−1
−3
−2
Quantis Residuais
2
3
Figura 3: Gráficos dos quantis residuais no estudo do diabetes nas ı́ndias de Pima
0
200
400
600
Índice
Comparativamente, observemos a Figura 2, nela apresentamos os resı́duos quantis para o mesmo modelo selecionado. Observemos que nesta figura o padrão aleatório
dos resı́duos é mais evidente daquele mostrado pelos resı́duos deviance.
4
Conclusões
No trabalho apresentamos um novo resı́duo nos modelos lineares generalizados, particularmente útil nos modelos de regressão discretos. Este resı́duo, também com
distribuição limite normal padrão, nos permite detectar possı́veis padrões anômalos
de comportamento nos resı́duos e, desta forma, poder melhorar o ajuste do modelo
de regressão proposto. Os quantis residuais apresentam-se como a única opção de
resı́duos quando a resposta é discreta e assume poucos valores distintos.
6
Devemos resaltar que utilizamos procedimentos de aleatorização para obter
resı́duos contı́nuos quando a resposta é discreta. Isto significa que os quantis residuais
podem variar de uma realização a outra, nos exemplos apresentados somente foi utilizada uma realização. Em situações práticas é aconselhado fazer quatro realizações
dos quantis residuais para detectar padrões nos resı́duos.
Para finalizar, prestemos atenção no detalhe de ter utilizado a função de distribuição acumulada normal padrão para definir os resı́duos quantis, a princı́pio qualquer outra função de distribuição acumuada pode ser utilizada com esse objetivo,
porém estamos acostumados a utilizar como referência nas análises de resı́duos a
distribuição normal padrão, é por isso que a recomendamos.
Referências
Dunn, P.K. & Smyth, G.K. (1996). Randomized quantile residuals. Journal of Computational and Graphical , 5, 1–10.
McCullagh, P. & Nelder, J.A. (1989). Generalized Linear Models. Chapman and Hall,
Oxford.
National Institutes of Health (1990). The Pima indians pathfinder for health.
Disponı́vel em http://diabetes.niddk.nih.gov/dm/pubs/pima/index.htm.
Rohatgi, V.K. (1976). An Introduction to Probability Theory and Mathematical Statistics. New York: John Wiley & Sons.
Williams, D.A. (1987). Generalized linear model diagnostics using the deviance and
single case deletions. Applied Statistics, 36(2), 181–191.
7