Quantis residuais - Departamento de Estatística

Transcrição

Quantis residuais
Luziane Franciscon
Acadêmica de Estatı́stica
Universidade Federal do Paraná
Orientador:
Fernando Lucambio
Departamento de Estatı́stica
Universidade Federal do Paraná
Resumo
Uma etapa importante de qualquer análise de regressão é a chamada análise
de resı́duos. O objetivo deste trabalho é apresentar um novo conceito de resı́duo,
os resı́duos quantis e mostrar, através de simulações, que eles se comportam
como verdadeiros resı́duos contı́nuos no caso de modelos de regressão com resposta discreta. Além disso, mostraremos a diferença dos resı́duos quantis com
o resı́duos deviance em dados simulados e em um exemplo real.
1
Modelo de Regressão Linear
Este modelo estatı́stico descreve a relação entre duas variáveis, a variável Y , chamada
variável resposta, que pode ser explicada pela variável X, chamada variável auxiliar
ou covariável. Neste trabalho consideramos os modelos de regressão linear em um
contexto mais amplo, no qual a distribuição de probabilidade associada à variável
resposta pode ser discreta ou contı́nua, estes são os chamados modelos de regressão
generalizados.
Uma etapa importante de qualquer análise de regressão é a verificação das suposições do modelo proposto e a anaálise dos resı́duos é uma ferramenta muito útil
neste sentido. O resı́duo para a i-ésima observação pode ser definido como uma função
do tipo ri = r(yi , µ
bi ), onde µ
bi é o valor esperado ou valor ajustado pelo modelo. O
que se procura medir com os resı́duos é a possı́vel discrepância entre o valor observado e o valor ajustado da i-ésima observação. A definição mais usual de resı́duo é
dada por ri = yi − µ
bi , conhecido como resı́duo ordinário, há outras formas de definir
resı́duo, em particular trabalharemos com os chamados resı́duos deviance, os quais
definiremos adiante.
1.1
Modelos lineares generalizados
Existe uma vasta literatura no assunto e a referência mais completa é o livro de
McCullagh & Nelder (1989), no qual baseamos nosso estudo.
Sejam Y1 , · · · , Yn variáveis aleatórias independentes, cada uma com função de
densidade ou de probabilidade na famı́lia exponencial escrita como
f (yi ; θi , φ) = exp[φ{yi θi − b(θi ) + c(yi )} + a(yi , φ)],
(1)
onde E{Yi } = db(θi )/dθi , que denotaremos por µi , var{Yi } = φ−1 Vi , Vi = dµi /dθi é a
função de variância, θ = θ(β) é o parâmetro canônico e φ é o parâmetro de dispersão
(φ > 0) que, em geral, é desconhecido (i = 1, 2, · · · , n).
Os modelos lineares generalizados são definidos por (1) e pelo componente sistemático
g(µi ) = ηi ,
(2)
onde ηi = xi β é o preditor linear, β = (β1 , · · · , βp )> , p < n, é o vetor dos parâmetros
da regressão a serem estimados, xi = (xi1 , · · · , xip ) representa os valores de p variáveis
1
explicativas e g(·) uma função monótona e diferenciável, denominada função de
ligação.
Como exemplos ou casos particulares de distribuições que pertencem à famı́lia
exponencial (1) podemos mencionar a distribuição normal, normal inversa, Poisson e
binomial, dentre outras, obtendo-se os modelos de regressão linear múltipla, regressão
normal inversa, regressão Poisson, regressão logı́stica e outros.
As funções de ligação mais utilizadas são obtidas quando o parâmetro canônico
coincide com o preditor linear, isto é, quando θ = η e a função de ligação nestas
situações é chamada de ligação canônica. As ligações canônicas para os modelos
mencionados são, respectivamente, dadas por
½
¾
µ
1
= η·
µ = η, µ = 2 , log µ = η e log
η
1−µ
No contexto de modelos lineares generalizados, diversas definições de resı́duos
são usadas. Aqui consideraremos os resı́duos deviance que, para a i-ésima observação
é dado por
rd,i = d(yi , µ
bi )1/2 sign(yi − µ
bi ),
onde d(y, µ) é a função deviance, definida como
d(y, µ) = 2{t(y, y) − t(y, µ)},
sendo t(y, y) = yθ − b(θ).
O resı́duo deviance tem distribuição exata normal no caso da regressão normal
e na regressão normal inversa (Williams, 1987).
2
Quantis Residuais
Na Seção 1.1 definimos os resı́duos deviance que, como mencionado anteriormente, é
um dos possı́veis a serem considerados. Nesta seção introduzimos um novo conceito
de resı́duo, proposto por Dunn & Smyth (1996).
São baseados na idéia de inverter a função de distribuição estimada para cada
observação e assim obter resı́duos cuja função de densidade é exatamente a normal.
2
Quantis residuais são resı́duos usados em modelos lineares generalizados em situações
de grande dispersão quando os resı́duos deviance podem não ser normais.
No caso de distribuições discretas, como a binomial e a Poisson, os resı́duos
quantis podem não ser contı́nuos e, então, algum procedimento de aleatorização é
introduzido para produzir resı́duos normais contı́nuos. Os resı́duos quantis são os
únicos resı́duos úteis para dados binomiais e Poisson se a variável resposta assume
um número pequeno de valores distintos.
Definição 2.1 Seja F (y; µ, φ) a função de distribuição acumulada de Y , com função
de densidade f (y; µ, φ). Dado que F é contı́nua, então F (Y ; µ, φ) está uniformemente
distribuı́da no intervalo (0,1). Neste caso os quantis residuais são definidos como:
rq,i = Φ−1 {F (Yi ; µ
bi , φbi )}·
(3)
Nesta definição, Φ é a função de distribuição acumulada da normal padrão.
Devemos lembrar aqui que se F ∼ U(0, 1) e se r = Φ−1 (F ), então Φ é a função
de distribuição da variável aleatória r (Rohatgi, 1976). Utilizando este resultado
provamos que rq,i tem, assintoticamente, distribuição normal padrão se βb e φb são
estimadores consistentes de β e φ, respectivamente.
Se F não for contı́nua, uma definição mais geral dos quantis residuais é necessária.
Seja ai = limy→yi F (y; µbi , φbi ) e bi = F (yi ; µbi , φbi ). A definição de quantil residual para
yi é
rq,i = Φ−1 (ui )
onde ui é uma variável uniforme no intervalo (ai , bi ).
Tanto para F contı́nua quanto para F discreta observamos que E{rq,i } = 0 e que
var{rq,i } = 1, portanto, se β e φ forem estimados utilizando estimadores consistentes
então rq,i ∼ N (0, 1), em probabilidade.
2.1
Exemplo
Mostraremos a seguir que, em em determinadas situações, podemos não perceber
comportamentos anômalos nos resı́duos se utilizamos o resı́duo deviance, em compensação, os resı́duos quantis nos permitem realizar análises minusiosas. Utilizaremos
para mostrar isso dados simulados.
3
1 2
−3
−1
Quantil residual
3
2
1
−1
Resíduo deviance
Figura 1: Gráficos comprativos dos resı́duos deviance e quantis residuais em dados
simulados
−0.2
0.0 0.1 0.2
−0.2
−0.2
0.0 0.1 0.2
2
1
0
−2
0
2
4
Quantil residual
Covariável
−2
Resíduo deviance
Covariável
0.0 0.1 0.2
−0.2
Covariável
0.0 0.1 0.2
Covariável
Simulamos de dados binomiais, utilizando regressão logı́stica, considerando 60
observações, nas quais a variável resposta são independentes com n = 3 e log{pi /(1 −
pi )} = β0 + β1 xi , onde xi é a covariável.
Na Figura 1, nos dois primeiros gráficos, temos os resı́duos deviance e os resı́duos
quantis supondo que no preditor linear a covariável aparece de maneira linear. Observemos que no primeiro destes gráficos os pontos estendem-se em quatro curvas
paralelas, correspondendo aos quatro possı́veis valores da variável resposta. As curvas formadas dificultam a visualização de algum outro padrão nos dados. O segundo
gráfico exibe os quantis residuais e nele nota-se que os resı́duos apresentam um padrão
quadrático. Os dados deste exemplo foram, de fato, simulados com log{pi /(1 − pi )}
dependendo quadraticamente de xi .
4
A segunda linha de gráficos, também na Figura 1, apresenta os resı́duos deviance
e os quantis residuais quando o ajuste do modelo logı́stico foi realizado com termo
quadrático em x no preditor linear. Observemos que os resı́duos deviance mostra
curvas em quanto que os quantis residuais mostram dispersão aleatória.
3
Diabetes mellitus nas ı́ndias de Pima
A base de dados do diabetes nas ı́ndias de Pima, população residente perto de
Phoenix, Arizona, nos Estados Unidos é datada de maio de 1990, sendo estes dados
provenientes de um levantemento amostral no qual os indivı́duos foram aleatoriamente
escolhidos e de forma representativa National Institutes of Health (1990).
1
0
−1
−2
Deviance Residual
2
3
Figura 2: Gráficos dos resı́duos deviance no estudo do diabetes nas ı́ndias de Pima
0
200
400
600
Índice
Diversas informações foram coletadas das 768 ı́ndias, tendo por objetivo investigar quais são significativas para explicar a presença ou ausência do diabetes mellitus.
Um modelo de regressão logı́stica foi proposto e ajustado, obténdo-se que o modelo
selecionado depende ı́ndice de massa corporal, da concentração de glicose, da heredi5
tariedade e do número de vezes grávida. Na Figura 2 podemos observar os resı́duos
deviance deste modelo, os quais mostram-se satisfatórios quanto à normalidade.
1
0
−1
−3
−2
Quantis Residuais
2
3
Figura 3: Gráficos dos quantis residuais no estudo do diabetes nas ı́ndias de Pima
0
200
400
600
Índice
Comparativamente, observemos a Figura 2, nela apresentamos os resı́duos quantis para o mesmo modelo selecionado. Observemos que nesta figura o padrão aleatório
dos resı́duos é mais evidente daquele mostrado pelos resı́duos deviance.
4
Conclusões
No trabalho apresentamos um novo resı́duo nos modelos lineares generalizados, particularmente útil nos modelos de regressão discretos. Este resı́duo, também com
distribuição limite normal padrão, nos permite detectar possı́veis padrões anômalos
de comportamento nos resı́duos e, desta forma, poder melhorar o ajuste do modelo
de regressão proposto. Os quantis residuais apresentam-se como a única opção de
resı́duos quando a resposta é discreta e assume poucos valores distintos.
6
Devemos resaltar que utilizamos procedimentos de aleatorização para obter
resı́duos contı́nuos quando a resposta é discreta. Isto significa que os quantis residuais
podem variar de uma realização a outra, nos exemplos apresentados somente foi utilizada uma realização. Em situações práticas é aconselhado fazer quatro realizações
dos quantis residuais para detectar padrões nos resı́duos.
Para finalizar, prestemos atenção no detalhe de ter utilizado a função de distribuição acumulada normal padrão para definir os resı́duos quantis, a princı́pio qualquer outra função de distribuição acumuada pode ser utilizada com esse objetivo,
porém estamos acostumados a utilizar como referência nas análises de resı́duos a
distribuição normal padrão, é por isso que a recomendamos.
Referências
Dunn, P.K. & Smyth, G.K. (1996). Randomized quantile residuals. Journal of Computational and Graphical , 5, 1–10.
McCullagh, P. & Nelder, J.A. (1989). Generalized Linear Models. Chapman and Hall,
Oxford.
National Institutes of Health (1990). The Pima indians pathfinder for health.
Disponı́vel em http://diabetes.niddk.nih.gov/dm/pubs/pima/index.htm.
Rohatgi, V.K. (1976). An Introduction to Probability Theory and Mathematical Statistics. New York: John Wiley & Sons.
Williams, D.A. (1987). Generalized linear model diagnostics using the deviance and
single case deletions. Applied Statistics, 36(2), 181–191.
7

Quantis residuais - Departamento de Estatística

Transcrição

Documentos relacionados

Lista de exercícios 03

Uso de Métodos de Seleç ˜ao Stepwise para Dados - CEAD

features informações do modelo processador bandas

Bolo do Caco Bimby: 27 min Ingredientes: 1 c. café sal

ideias de cabeceira

CRM e Prospecç˜ao de Dados - CRM e Prospecção de Dados

Exercıcios de Análise Infinitesimal I / Cálculo I

Exame de Ingresso na Pós-graduaç˜ao

Sabendo que 1 pé tem 30,48 cm e que 1 polegada tem 2,54 cm

Variáveis Aleatórias

DComp-TR-001/2014