Quantis residuais - Departamento de Estatística
Transcrição
Quantis residuais - Departamento de Estatística
Quantis residuais Luziane Franciscon Acadêmica de Estatı́stica Universidade Federal do Paraná Orientador: Fernando Lucambio Departamento de Estatı́stica Universidade Federal do Paraná Resumo Uma etapa importante de qualquer análise de regressão é a chamada análise de resı́duos. O objetivo deste trabalho é apresentar um novo conceito de resı́duo, os resı́duos quantis e mostrar, através de simulações, que eles se comportam como verdadeiros resı́duos contı́nuos no caso de modelos de regressão com resposta discreta. Além disso, mostraremos a diferença dos resı́duos quantis com o resı́duos deviance em dados simulados e em um exemplo real. 1 Modelo de Regressão Linear Este modelo estatı́stico descreve a relação entre duas variáveis, a variável Y , chamada variável resposta, que pode ser explicada pela variável X, chamada variável auxiliar ou covariável. Neste trabalho consideramos os modelos de regressão linear em um contexto mais amplo, no qual a distribuição de probabilidade associada à variável resposta pode ser discreta ou contı́nua, estes são os chamados modelos de regressão generalizados. Uma etapa importante de qualquer análise de regressão é a verificação das suposições do modelo proposto e a anaálise dos resı́duos é uma ferramenta muito útil neste sentido. O resı́duo para a i-ésima observação pode ser definido como uma função do tipo ri = r(yi , µ bi ), onde µ bi é o valor esperado ou valor ajustado pelo modelo. O que se procura medir com os resı́duos é a possı́vel discrepância entre o valor observado e o valor ajustado da i-ésima observação. A definição mais usual de resı́duo é dada por ri = yi − µ bi , conhecido como resı́duo ordinário, há outras formas de definir resı́duo, em particular trabalharemos com os chamados resı́duos deviance, os quais definiremos adiante. 1.1 Modelos lineares generalizados Existe uma vasta literatura no assunto e a referência mais completa é o livro de McCullagh & Nelder (1989), no qual baseamos nosso estudo. Sejam Y1 , · · · , Yn variáveis aleatórias independentes, cada uma com função de densidade ou de probabilidade na famı́lia exponencial escrita como f (yi ; θi , φ) = exp[φ{yi θi − b(θi ) + c(yi )} + a(yi , φ)], (1) onde E{Yi } = db(θi )/dθi , que denotaremos por µi , var{Yi } = φ−1 Vi , Vi = dµi /dθi é a função de variância, θ = θ(β) é o parâmetro canônico e φ é o parâmetro de dispersão (φ > 0) que, em geral, é desconhecido (i = 1, 2, · · · , n). Os modelos lineares generalizados são definidos por (1) e pelo componente sistemático g(µi ) = ηi , (2) onde ηi = xi β é o preditor linear, β = (β1 , · · · , βp )> , p < n, é o vetor dos parâmetros da regressão a serem estimados, xi = (xi1 , · · · , xip ) representa os valores de p variáveis 1 explicativas e g(·) uma função monótona e diferenciável, denominada função de ligação. Como exemplos ou casos particulares de distribuições que pertencem à famı́lia exponencial (1) podemos mencionar a distribuição normal, normal inversa, Poisson e binomial, dentre outras, obtendo-se os modelos de regressão linear múltipla, regressão normal inversa, regressão Poisson, regressão logı́stica e outros. As funções de ligação mais utilizadas são obtidas quando o parâmetro canônico coincide com o preditor linear, isto é, quando θ = η e a função de ligação nestas situações é chamada de ligação canônica. As ligações canônicas para os modelos mencionados são, respectivamente, dadas por ½ ¾ µ 1 = η· µ = η, µ = 2 , log µ = η e log η 1−µ No contexto de modelos lineares generalizados, diversas definições de resı́duos são usadas. Aqui consideraremos os resı́duos deviance que, para a i-ésima observação é dado por rd,i = d(yi , µ bi )1/2 sign(yi − µ bi ), onde d(y, µ) é a função deviance, definida como d(y, µ) = 2{t(y, y) − t(y, µ)}, sendo t(y, y) = yθ − b(θ). O resı́duo deviance tem distribuição exata normal no caso da regressão normal e na regressão normal inversa (Williams, 1987). 2 Quantis Residuais Na Seção 1.1 definimos os resı́duos deviance que, como mencionado anteriormente, é um dos possı́veis a serem considerados. Nesta seção introduzimos um novo conceito de resı́duo, proposto por Dunn & Smyth (1996). São baseados na idéia de inverter a função de distribuição estimada para cada observação e assim obter resı́duos cuja função de densidade é exatamente a normal. 2 Quantis residuais são resı́duos usados em modelos lineares generalizados em situações de grande dispersão quando os resı́duos deviance podem não ser normais. No caso de distribuições discretas, como a binomial e a Poisson, os resı́duos quantis podem não ser contı́nuos e, então, algum procedimento de aleatorização é introduzido para produzir resı́duos normais contı́nuos. Os resı́duos quantis são os únicos resı́duos úteis para dados binomiais e Poisson se a variável resposta assume um número pequeno de valores distintos. Definição 2.1 Seja F (y; µ, φ) a função de distribuição acumulada de Y , com função de densidade f (y; µ, φ). Dado que F é contı́nua, então F (Y ; µ, φ) está uniformemente distribuı́da no intervalo (0,1). Neste caso os quantis residuais são definidos como: rq,i = Φ−1 {F (Yi ; µ bi , φbi )}· (3) Nesta definição, Φ é a função de distribuição acumulada da normal padrão. Devemos lembrar aqui que se F ∼ U(0, 1) e se r = Φ−1 (F ), então Φ é a função de distribuição da variável aleatória r (Rohatgi, 1976). Utilizando este resultado provamos que rq,i tem, assintoticamente, distribuição normal padrão se βb e φb são estimadores consistentes de β e φ, respectivamente. Se F não for contı́nua, uma definição mais geral dos quantis residuais é necessária. Seja ai = limy→yi F (y; µbi , φbi ) e bi = F (yi ; µbi , φbi ). A definição de quantil residual para yi é rq,i = Φ−1 (ui ) onde ui é uma variável uniforme no intervalo (ai , bi ). Tanto para F contı́nua quanto para F discreta observamos que E{rq,i } = 0 e que var{rq,i } = 1, portanto, se β e φ forem estimados utilizando estimadores consistentes então rq,i ∼ N (0, 1), em probabilidade. 2.1 Exemplo Mostraremos a seguir que, em em determinadas situações, podemos não perceber comportamentos anômalos nos resı́duos se utilizamos o resı́duo deviance, em compensação, os resı́duos quantis nos permitem realizar análises minusiosas. Utilizaremos para mostrar isso dados simulados. 3 1 2 −3 −1 Quantil residual 3 2 1 −1 Resíduo deviance Figura 1: Gráficos comprativos dos resı́duos deviance e quantis residuais em dados simulados −0.2 0.0 0.1 0.2 −0.2 −0.2 0.0 0.1 0.2 2 1 0 −2 0 2 4 Quantil residual Covariável −2 Resíduo deviance Covariável 0.0 0.1 0.2 −0.2 Covariável 0.0 0.1 0.2 Covariável Simulamos de dados binomiais, utilizando regressão logı́stica, considerando 60 observações, nas quais a variável resposta são independentes com n = 3 e log{pi /(1 − pi )} = β0 + β1 xi , onde xi é a covariável. Na Figura 1, nos dois primeiros gráficos, temos os resı́duos deviance e os resı́duos quantis supondo que no preditor linear a covariável aparece de maneira linear. Observemos que no primeiro destes gráficos os pontos estendem-se em quatro curvas paralelas, correspondendo aos quatro possı́veis valores da variável resposta. As curvas formadas dificultam a visualização de algum outro padrão nos dados. O segundo gráfico exibe os quantis residuais e nele nota-se que os resı́duos apresentam um padrão quadrático. Os dados deste exemplo foram, de fato, simulados com log{pi /(1 − pi )} dependendo quadraticamente de xi . 4 A segunda linha de gráficos, também na Figura 1, apresenta os resı́duos deviance e os quantis residuais quando o ajuste do modelo logı́stico foi realizado com termo quadrático em x no preditor linear. Observemos que os resı́duos deviance mostra curvas em quanto que os quantis residuais mostram dispersão aleatória. 3 Diabetes mellitus nas ı́ndias de Pima A base de dados do diabetes nas ı́ndias de Pima, população residente perto de Phoenix, Arizona, nos Estados Unidos é datada de maio de 1990, sendo estes dados provenientes de um levantemento amostral no qual os indivı́duos foram aleatoriamente escolhidos e de forma representativa National Institutes of Health (1990). 1 0 −1 −2 Deviance Residual 2 3 Figura 2: Gráficos dos resı́duos deviance no estudo do diabetes nas ı́ndias de Pima 0 200 400 600 Índice Diversas informações foram coletadas das 768 ı́ndias, tendo por objetivo investigar quais são significativas para explicar a presença ou ausência do diabetes mellitus. Um modelo de regressão logı́stica foi proposto e ajustado, obténdo-se que o modelo selecionado depende ı́ndice de massa corporal, da concentração de glicose, da heredi5 tariedade e do número de vezes grávida. Na Figura 2 podemos observar os resı́duos deviance deste modelo, os quais mostram-se satisfatórios quanto à normalidade. 1 0 −1 −3 −2 Quantis Residuais 2 3 Figura 3: Gráficos dos quantis residuais no estudo do diabetes nas ı́ndias de Pima 0 200 400 600 Índice Comparativamente, observemos a Figura 2, nela apresentamos os resı́duos quantis para o mesmo modelo selecionado. Observemos que nesta figura o padrão aleatório dos resı́duos é mais evidente daquele mostrado pelos resı́duos deviance. 4 Conclusões No trabalho apresentamos um novo resı́duo nos modelos lineares generalizados, particularmente útil nos modelos de regressão discretos. Este resı́duo, também com distribuição limite normal padrão, nos permite detectar possı́veis padrões anômalos de comportamento nos resı́duos e, desta forma, poder melhorar o ajuste do modelo de regressão proposto. Os quantis residuais apresentam-se como a única opção de resı́duos quando a resposta é discreta e assume poucos valores distintos. 6 Devemos resaltar que utilizamos procedimentos de aleatorização para obter resı́duos contı́nuos quando a resposta é discreta. Isto significa que os quantis residuais podem variar de uma realização a outra, nos exemplos apresentados somente foi utilizada uma realização. Em situações práticas é aconselhado fazer quatro realizações dos quantis residuais para detectar padrões nos resı́duos. Para finalizar, prestemos atenção no detalhe de ter utilizado a função de distribuição acumulada normal padrão para definir os resı́duos quantis, a princı́pio qualquer outra função de distribuição acumuada pode ser utilizada com esse objetivo, porém estamos acostumados a utilizar como referência nas análises de resı́duos a distribuição normal padrão, é por isso que a recomendamos. Referências Dunn, P.K. & Smyth, G.K. (1996). Randomized quantile residuals. Journal of Computational and Graphical , 5, 1–10. McCullagh, P. & Nelder, J.A. (1989). Generalized Linear Models. Chapman and Hall, Oxford. National Institutes of Health (1990). The Pima indians pathfinder for health. Disponı́vel em http://diabetes.niddk.nih.gov/dm/pubs/pima/index.htm. Rohatgi, V.K. (1976). An Introduction to Probability Theory and Mathematical Statistics. New York: John Wiley & Sons. Williams, D.A. (1987). Generalized linear model diagnostics using the deviance and single case deletions. Applied Statistics, 36(2), 181–191. 7