Modelos Lineares Generalizados

Transcrição

FCT/UNL, Inferência e Modelação estatı́stica
MLE
1 Introdução
De acordo com [Agr07, p. 72], todos os modelos lineares generalizados têm três componentes: a componente aleatória que identifica a variável aleatória Y assumindo uma
dada distribuição; a componente sistemática que especifica as variáveis explicativas e,
por último, a ligação que dá a relação funcional entre a componente sistemática e o valor
esperado da componente aleatória. Seguidamente desenvolveremos estas ideias.
Um modelo linear generalizado (GLM de Generalized Linear Model em Inglês), tem
muitas semelhanças com um modelo linear usual. Assim - numa primeira aproximação podemos descrever um GLM – a que chamaremos GLM ocasional – a partir da estrutura dos dados e das correspondentes observações descritas seguidamente. Os conceitos
relevantes no contexto dos GLM serão detalhados progressivamente.
1. O modelo constituı́do pelas variáveis aleatórias Y, X1 , X2 , . . . , XN em que Y , a
variável independente tem uma relação funcional com as variáveis X1 , X2 , . . . , XN ,
os preditores, que podem não ser independentes entre si - por exemplo, pode terse que X1 = X2 · X3 .
Y = (Y1, Y2, . . . Ym) de Y
2. As observações, isto é, as amostras,
i ∈ {1, 2, . . . , N } i = (Xi,1 , Xi,2 , . . . Xi,m )
origem aos dados:
y1 x1,1 x2,1
y2 x1,2 x2,2
... ...
...
ym x1,m x2,m
X
e, para cada
amostra de Xi , cujas realizações dão
...
...
...
...
xN,1
xN,2
...
xN,m .
(1)
3. Uma relação linear entre as variáveis aleatórias X1 , X2 , . . . , XN também denominadas factores do modelo e uma função h, denominada a função de ligação do
modelo, aplicada à esperança condicional da variável dependente Y :
E
h ( [Yj | X1,j , X2,j , . . . XN,j ]) = α0 + α1 X1,j + α2 X2,j + · · · + αN XN,j
(2)
em que α0 , α1 , . . . , αN são parâmetros do modelo 1 .
1
Na fórmula acima (2), a expressão
dadas X1 , X2 , . . . XN .
E [Y | X1 , X2 , . . . XN ] representa a esperança condicional de Y
1
Capı́tulo II
Secção: 2
4. Condições que asseguram a coerência da definição a saber:
(a) A variável aleatória Y tem tipo exponencial(ver o desenvolvimento deste
conceito na secção 5); cada distribuição de tipo exponencial tem um parâmetro
natural que é dado por uma função da média da distribuição.
(b) A função de ligação h que seja função do parâmetro natural da distribuição é
a função de ligação canónica.
Observação 1. Note-se que a fórmula (2) é equivalente a
E
h ( [Yj | X1,j = a1 , X2,j = a2 , . . . XN,j = aN ]) = α0 + α1 a1 + α2 a2 + · · · + αN aN
(3)
em que, tal como acima, α0 , α1 , . . . , αN são parâmetros do modelo e em que para cada
i ∈ {1, 2, . . . , N } ai ∈ Xi,j (Ω), isto é, os ai são quaisquer elementos dos contradomı́nios
respectivos de cada uma das respectivas variáveis aleatórias Xi,j .
Observação 2. Suponhamos que α
b0 , α
b1 , . . . , α
bN designam os valores estimados dos parâmetros do modelo descritos em (2) ou (3) a partir dos dados (1). Veremos adiante a forma
natural de estimar estes parâmetros que decorre do método da máxima verosimilhança.
É natural que para cada j ∈ {1, 2, . . . , m} exista j um erro de ajustamento – ou um
resı́duo – tal que se verifique para j ∈ {i, 2, . . . , m}:
E
h ( [Yj | X1,j = x1,j , X2,j = x2,j , . . . XN,j = xN,j ]) = α
b0 + α
b1 x1,j + · · · + α
bN xN,j + j
de onde resultará, se h for invertı́vel,
E [Yj | X1,j = x1,j , . . . XN,j = xN,j ] = h−1 (bα0 + αb1x1,j + · · · + αbN xN,j + j ) ,
o que no caso em que h−1 não é linear faz com que os resı́duos não sejam aditivos. Tal
como noutros modelos estatı́sticos estudos sobre os resı́duos podem aferir a qualidade do
ajustamento do modelo com os parâmetros estimados. Mas não serão os resı́duos – tal
como os definimos acima – os mais adequados para aferir a qualidade do ajustamento
(ver a secção 5).
2 Distribuições de tipo exponencial
Nesta secção vamos desenvolver as principais propriedades das distribuições de tipo
exponencial.
Definição 1 (Distribuição de Tipo Exponencial). Uma variável aleatória Y tem
distribuição de Tipo Exponencial se e só se a sua densidade fY – no caso contı́nuo
– (ou a sua função de probabilidade, no caso discreto) se puder representar na forma,
yθ − b(θ)
+ c(y, φ) ,
(4)
fY (y) = fYθ,φ (y) = exp
a(φ)
em que θ e φ são parâmetros e a, b e c são funções regulares. O parâmetro θ é
denominado o parâmetro natural da famı́lia exponencial.
IME
2
16 de Outubro de 2015
Capı́tulo II
Secção: 2
Observação 3. O parâmetro φ supõe-se conhecido; caso contrário é considerado um
nuisance parameter e é estimado previamente ao resto do estudo estatı́co.
Na tabela seguinte podem ver-se alguns exemplos de distribuições de tipo exponencial
com os parâmetros e as funções a e b indicadas. Para um exemplo de como se podem
obter estes termos da decomposição da densidade da distribuição veja-se a proposição 1.
Distribuição de Y
Poisson P(λ)
Bernoulli B(π)
Normal N(µ, σ)
Gama G(α, β)
E
θ = θ( [Y ])
log(λ)
π
log 1−π
b(θ)
eθ
µ
−1/α
θ2 /2
log 1 + eθ
− log(−θ)
a(φ)
1
1
σ2
1/β
Tabela 1: Exemplos de distribuições de tipo exponencial com os parâmetros e as funções.
Proposição 1 (Forma Canónica). No caso em que a(φ) = φ – sendo φ, neste caso,
denominado parâmetro de dispersão – uma variável aleatória Y tem distribuição
de tipo exponencial se e só se a sua densidade fY se pode representar na forma
fY (y) = r(θ)s(y) exp [yQ(θ)] ,
(5)
em que r, s e Q são funções regulares.
Demonstração. É imediato se se considerar, na fórmula (5), as definições seguintes:
θ
b(θ)
Q(θ) = , r(θ) = exp −
, s(y) = exp [c(y, φ)] .
φ
φ
Exemplo 1 (A distribuição Binomial). Seja Y _ B(M, π) isto é, com distribuição
binomial de parâmetros M e π. Verifique que Y tem uma distribuição de tipo
exponencial.
Resolução: Com efeito, dado que,
∀k ∈ {0, 1, . . . , M } fY (k) =
P[Y = k] =
M k
π (1 − π)M −k ,
k
e que podemos representar esta função de probabilidade
M
π
M
fY (k) = exp log
exp log(1 − π) exp k log
,
k
1−π
IME
3
Capı́tulo II
Secção: 2
fica claro que com
M
φ = 1, r(θ) = exp log(1 − π)
M
π
,
, s(k) = exp log
, Q(θ) = log
1−π
k
se tem a representação de fY na forma canónica.
♦
Exercı́cio 1 (Exemplos de distribuições de tipo exponencial). Mostre que a distribuição normal é de tipo
exponencial. Exprima a densidade na forma canónica explicitando as funções r, s e Q correspondentes.
Mesma questão para a distribuição binomial.
Uma das justificações para o parâmetro θ se denominar parâmetro natural da distribuição advém do resultado seguinte.
Teorema 1 (Média e Variância). Seja Y uma variável aleatória com distribuição
de tipo exponencial de acordo com as notações da definição 1. Então:
d b(θ)
E[Y ] = db(θ)
, V[Y ] = a(φ) 2
.
dθ
d θ
2
(6)
Demonstração. Suponhamos que a variável Y é contı́nua. Dado que fYθ,φ é uma densidade, tem-se que:
Z
1=
fYθ,φ (y)dy .
R
Derivando a expressão acima em ordem ao parâmetro θ teremos, aplicando um resultado
conhecido de derivação de um integral em ordem a um parâmetro (veja-se o teorema 2
em apêndice),
Z
Z
d
d θ,φ θ,φ
0=
fY (y)dy =
f (y) dy .
(7)
dθ R
R dθ Y
Dado que
d θ,φ d
yθ − b(θ)
f (y) =
exp
+ c(y, φ) =
dθ Y
dθ
a(φ)
1
db(θ)
yθ − b(θ)
=
y−
exp
+ c(y, φ) =
a(φ)
dθ
a(φ)
y θ,φ
1 db(θ) θ,φ
=
fY (y) −
f (y) ,
a(φ)
a(φ) dθ Y
tem-se que, usando a fórmula (7) e supondo que a(φ) 6= 0,
Z
Z
db(θ)
θ,φ
yfY (y)dy −
fYθ,φ (y)dy = 0 ,
dθ
R
R
de onde resulta
IME
E[Y ] =
Z
R
yfYθ,φ (y)dy =
4
db(θ)
,
dθ
Capı́tulo II
Secção: 3
tal como figura no enunciado. Para demonstrar a fórmula relativa à variância o procedimento é semelhante. Assim,
y θ,φ
d2 θ,φ d
1 db(θ) θ,φ
f (y) =
f (y) −
f (y) =
dθ2 Y
dθ a(φ) Y
a(φ) dθ Y
y θ,φ
y
1 db(θ) θ,φ
=
fY (y) −
fY (y) −
a(φ) a(φ)
a(φ) dθ
2
d b(θ) θ,φ
db(θ)
y θ,φ
1
1 db(θ) θ,φ
f (y) +
−
f (y) −
f (y)
=
a(φ)
dθ2 Y
dθ
a(φ) Y
a(φ) dθ Y
y 2 θ,φ
y db(θ) θ,φ
1 d2 b(θ) θ,φ
=
f
(y)
−
f (y)−
f
(y)
−
a(φ)2 Y
a(φ)2 dθ Y
a(φ) dθ2 Y
y db(θ) θ,φ
db(θ) 2 θ,φ
1
−
f (y) +
fY (y) ,
a(φ)2 dθ Y
a(φ)2
dθ
ou seja em resumo,
θ,φ
θ,φ
θ,φ
θ,φ
d2 θ,φ y 2 fY (y) 2yfY (y) db(θ) fY (y) d2 b(θ) fY (y) db(θ) 2
(y)
=
f
−
−
+
.
dθ2 Y
a(φ)2
a(φ)2
dθ
a(φ) dθ2
a(φ)2
dθ
Obviamente que se tem que:
d2 θ,φ f (y) dy ,
dθ2 Y
Z
0=
R
pelo que, supondo mais uma vez que a(φ) 6= 0 e usando o facto de fY ser uma densidade,
Z
0=
R
y 2 fYθ,φ (y)dy
db(θ)
−2
dθ
Z
R
yfYθ,φ (y)dy
d2 b(θ)
− a(φ)
+
dθ2
db(θ)
dθ
2
,
ou seja ainda, usando o resultado do teorema já obtido,
E[Y
2
Z
]=
R
y 2 fYθ,φ (y)dy
=2
db(θ)
dθ
2
d2 b(θ)
+ a(φ)
−
dθ2
db(θ)
dθ
2
,
de onde se conclui que
V[Y ] = E[Y 2] − E[Y ]2 = a(φ) d dθb(θ)
,
2
2
tal como se indicou no enunciado. A demonstração para o caso de uma variável aleatória
discreta é semelhante sendo que a condição de partida é que se se tiver Y (Ω) = I ⊆ ,
X
X
fY (k) =
[Y = k] = 1
N
P
k∈I
k∈I
dado que fY representa, neste caso, uma função de probabilidade.
IME
5
Capı́tulo II
Secção: 3
3 A função de ligação canónica
Nesta secção definimos precisamente a função de ligação canónica de um modelo GLM
socorrendo-nos de uma segunda interpretação de um tal modelo. Note-se que os pressupostos com que definimos o modelo GLM ocasional podem ter uma interpretação diferente se supusermos que os dados resultam de uma experiência planeada previamente.
Esta interpretação dá origem a um modelo que denominaremos GLM controlado 2 .
Neste modelo a estrutura das observações apenas comporta a variável resposta ou independente dado que se considera que os valores, do que no modelo GLM ocasional eram as
variáveis independentes, são agora valores previamente fixados de acordo com o desenho
intencional da experiência.
1. A matriz de desenho da experiência é

1 x1,1
 1 x1,2
X=
 ... ...
1 x1,m
dada por
x2,1
x2,2
...
x2,m
...
...
...
...

xN,1
xN,2 
 .
... 
xN,m
(8)
2. Os dados y1 , y2 , . . . ym resultam da realização das observações, isto é da realização de uma amostra
= Y1 , Y2 , . . . Ym da variável aleatória Y , isto é, tal que
para ω ∈ Ω
Y1 (ω) = y1 , Y2 (ω) = y2 , . . . Ym (ω) = ym
(9)
Y
3. Uma relação entre a matriz de desenho da experiência X e uma função Hh ,
denominada a função de ligação do modelo, aplicada à esperança do vector
Y = (Y1 , Y2 , . . . Ym )t das observações da variável dependente Y :
E
Hh ( [Y ]) = XA
(10)
em que A = (α0 , α1 , . . . , αN )t é o vector dos parâmetros do modelo e em que
Hh (y1 , y2 , . . . ym ) = (h(y1 ), h(y2 ), . . . h(ym )) ,
sendo h a função de ligação univariada.
4. As condições de coerência entre a distribuição de Y e a função de ligação.
(a) A variável aleatória Y tem tipo exponencial de acordo com a definição 1
sendo θ o parâmetro natural.
(b) Atendendo ao teorema 1 em que
variadda h tal que
E
E [Y ] = db(θ)/dθ, a função de ligação uni
h ( [Y ]) = h
db(θ)
dθ
=θ,
2
A distinção entre um modelo controlado e um modelo ocasional – referido na secção 1 – é feita também
em [Pru11, p. 357] sendo que o modelo que denominámos ocasional é referido como observational study.
IME
6
Capı́tulo II
Secção: 4
isto é, tal que h seja bijectiva e admita uma inversa h−1 verificando
h−1 =
db(θ)
,
dθ
(11)
designa-se por função de ligação canónica do modelo.
Observação 4. Note-se que a fórmula (10) se pode representar na forma
 

α0 + α1 x1,1 + +α2 x2,1 + · · · + αN xN,1
h ( [Y1 ])
 h ( [Y2 ])   α0 + α1 x1,2 + +α2 x2,2 + · · · + αN xN,2
=

 

...
...
α0 + α1 x1,m + +α2 x2,m + · · · + αN xN,m
h ( [Ym ])
E
E
E


 ,

(12)
ou seja, para cada j ∈ {1, . . . , m},
E
h ( [Yj ]) = α0 + α1 x1,j + +α2 x2,j + · · · + αN xN,j .
(13)
Observação 5. A importância de considerar as funções de ligação canónicas advém da
simplificaçâo que trazem ao cálculo dos estimadores dos parâmetros dos modelos GLM.
4 A estimação nos modelos lineares generalizados
A estimação dos parâmetros num modelo linear generalizado faz-se pelo método de
máxima verosimilhança3 . Retomando as notações da secção 3, temos na fórmula (10) o
preditor linear comm componentes
E
Hh ( [Y ]) = XA
R
sendo que com a função de ligação canónica univariada do modelo h ∈ C 2 ( ), se verifica,
db(θj )
h ( [Yj ]) = h
= θj .
dθj
E
Para m observações – independentes dado provirem de uma amostra – tendo em conta
que θ = (θ1 , θ2 , . . . θm )t depende de A = (α0 , α1 , . . . , αN )t , a logverosimilhança l(A)
escreve-se,
(A) =
l
m
X
j=1
m X
yj θj − b(θj )
θ ,φ
+ c(yj , φ) .
log fYj (yj ) =
a(φ)
(14)
j=1
θ ,φ
Sendo para abreviar a notação lj := log fYj (yj ) e µj =
E [Yj ], determine-se
∂lj
∂lj ∂θj ∂µj ∂h(µj )
=
.
∂αi
∂θj ∂µj ∂h(µj ) ∂αi
3
A exposição que se segue é inspirada em http://wikistat.fr/pdf/st-m-modlin-mlg.pdf
IME
7
Capı́tulo II
Secção: 5
Dado que se tem com b0 (θj ) := db(θj )/dθj e b00 (θj ) := d2 b(θj )/dθj2 ,
yj − b0 (θj )
yj − µj
∂lj
=
=
,
∂θj
a(φ)
a(φ)
V
db0 (θj )
[Yj ]
∂µj
=
= b00 (θj ) =
,
∂θj
dθj
a(φ)
que, devido à fórmula (13),
∂h(µj )
= xi,j ,
∂αi
e uma vez que a derivada seguinte depende da função de ligação h,
∂µj
,
∂h(µj )
temos o resultado importante seguinte.
Proposição 2. As equações de verosimilhança são dadas por
m X
yj − µj
∂µj
xi,j
= 0 i = 1, 2, . . . N .
[Yj ]
∂h(µj )
j=1
V
(15)
Observação 6. Estas equações são não lineares em A pelo que devem ser resolvidas por
métodos iterativos – Newton-Raphson ou Scores de Fisher – pelo que desenvolveremos
este tema adiante. Dado que definem um estimador da máxima verosimilhança, para o
vector dos parâmetros A, este estimador é consistente e assimptoticamente normal (ver
[Lin05, p. 136] ou [IM90, p. 89]) permitindo assim a construção de testes de hipóteses.
5 Métodos para aferir a qualidade do ajustamento
Para aferir a qualidade do ajustamento usam-se sobretudo os desvios e noções relativas
a resı́duos modificados.
5.1 Desvios: a Deviance
Compara-se o modelo estimado com o modelo saturado (ou modelo perfeito ou ainda
modelo completo), isto é com o modelo em que o número de observações iguala o número
de parâmetros, ou seja, o modelo em que o valor médio da variável coincide com o valor
observado da variável, isto é, [Yi ] = yi (ver [Gil00, p. 56]).
E
Definição 2 (Deviance). Sejam l a logverosimilhança do modelo estimado com a
totalidade das observações disponı́veis e lSat a logverosimilhança do modelo saturado.
Então a deviance
é dada por
= −2 l − lSat .
(16)
D
D
IME
8
Capı́tulo II
Secção: 5
Observação 7. A deviance é pois o logaritmo do quadrado da razão das verosimilhanças.
Nos GLM é usado em vez da soma dos quadrados usual no caso Gaussiano. Pela sua
natureza a deviance permite testes do tipo razão de verosimilhanças (ver [IM90, p. 204]).
Y
Proposição 3 (Deviance no modelo de Poisson). Seja Y _ P(λ),
=
(Y1 , Y2 , . . . , Ym ) uma amostra de Y , e os dados y1 , y2 , . . . , ym provenientes de uma
realização da amostra . Então
Y
D = −2
l
− lSat
m X
yj
=2
λj − yj + yj log
λj
j=1
Demonstração. Temos que no caso do modelo ser um GLM se tem para cada dado yj
uma concretização λj de λ dado que [Yj ] = λj ,


m
yj
Y
λ
=
l = l((y1 , . . . , ym ), (λ1 , . . . λm )) = log 
e−λ
yj !
E
j=1
=
m
X
[−λj + yj log(λj ) + log(yj !)] .
j=1
Agora, por definição, o modelo saturado corresponde a ter (y1 , y2 , . . . , ym ) = (λ1 , λ2 , . . . λm )
pelo que:
m
X
lSat =
[−yj + yj log(yj ) + log(yj !)] ,
j=1
pelo que
D = −2
l
− lSat = −2
m
X
[−λj + yj log(λj ) + log(yj !) − (−yj + yj log(yj ) + log(yj !))] =
j=1
=2
m X
λj − yj + yj log
j=1
yj
λj
,
tal como anunciado.
Na tabela 2 (confira-se com [Gil00, p. 58]) figuram as funções de desvio calculadas
para diferentes distribuições de tipo exponencial; as justificações são semelhantes à que
apresentámos, para a distribuição de Poisson, na proposição 3 .
Observação 8. Note-se que a deviance para o modelo saturado nocaso Bernoulli é:


m
Y
y
lSat = log 
yj j (1 − yj )(1−yj )  = log(1) = 0 .
j=1
Veja-se, por exemplo, [jHLS13, p. 12].
IME
9
Capı́tulo II
Distribuição
Ligação h
Poisson P(λ)
h(λ) = log(λ)
π
h(π) = log 1−π
π
h(π) = log 1−π
Bernoulli B(π)
Binomial B(M, π)
Normal N(µ, σ)
Gama G(α, β)
h(µ) = µ
h(α) = − α1
Secção: 5
D
Deviance (desvio)
h
i
P
yj
2 m
y
log
+
λ
−
y
j
j
j
j=1
λj
y
Pm
j
yj
1−yj (1−yj )
2 j=1 log πj
+ log 1−πj
Pm
yj yj
Mj −yj (Mj −yj )
2 j=1 log πj
+ log Mj −πj
Pm
2
j=1 |yj − µj | i
Pm h
yj −αj
yj
2 j=1 − log αj + αj
Bin. Neg. B− (r, π)
Tabela 2: Funções de Ligação (link ) e desvios (deviances) para algumas distribuições de
tipo exponencial
Proposição 4. Quando m o número de observações tende para infinito a deviance
tem distribuição assimptótica χ2m−(N +1) , isto é a distribuição do χ2 com m−(N +1)
graus de liberdade, em que N + 1 é o número de parâmetros.
Observação 9. A proposição 4 permite construir um teste de rejeição do modelo consoante a deviance seja considerada – ou não – significativa; se a deviance exceder um
α-percentil de um χ2m−(N +1) , podemos afirmar com uma margem de erro α que o modelo
saturado difere significativamente do modelo nulo, isto é, o modelo sem preditores, só
com o termo constante. A aproximação do χ2 é considerada por muitos autores, em
muitos casos, como duvidosa.
5.2 Resı́duos de Pearson
Vamos detalhar os resı́duos de Pearson no caso binomial seguindo [Lon97, p. 98]. Retomando as notações da secção 1, a introdução, seja i = (Xi,1 , Xi,2 , . . . Xi,m ) a amostra
das variáveis preditoras e
= (Y1 , Y2 , . . . Ym ) a amostra da variável dependente. Para
j ∈ {1, 2, . . . m} seja
X
Y
Xx = {X1,j = x1,j , X2,j = x2,j , . . . , XN,j ) = xN,j }
em que para i ∈ {1, 2, . . . N } se tem xi,j ∈ Xi (Ω). Tem-se então que, ara j ∈ {1, 2, . . . m},
πj =
E [Yj | Xx] = P [Yj = 1 | Xx] .
Por outro lado tem-se que dado que Yj _ B(πj ),
V [Yj | Xx] = πj (1 − πj ) ,
tem-se a definição seguinte.
IME
10
Capı́tulo II
Secção: 5
Definição 3 (Resı́duos de Pearson). Sendo para cada j ∈ {1, 2, . . . m} a probabilidade estimada dada por π
bj , tem-se que
rjP := p
yj − π
bj
,
π
bj (1 − π
bj )
(17)
sendo que um valor significativo de rjP sugere que o modelo falha no ajustamento
ao dado de ordem j.
Observação 10. Com o objectivo de garantir boas propriedades estatı́sticas usam-se os
resı́duos de Pearson estandardizados que notaremos rjP-Est (veja-se [Lon97, p. 99]). No
entanto, na prática, os valores de rjP e rjP-Est são frequentemente semelhantes.
-2
0
Resíduos Pearson
2
0
-4
-2
residuals(fit, type = "pearson")
2
4
4
Na figura 1 figuram os resı́duos de Pearson para o exemplo prático detalhado na
secção 6.2.
0
50
100
150
200
250
300
-30
Index
-20
-10
0
10
Valores estimados
Figura 1: Resı́duos de Pearson e Resı́duos de Pearson em função dos valores estimados
5.3 Resı́duos do Desvio
D
Dado que a deviance
é uma soma de termos dj , j = 1, . . . , m (veja-se, por exemplo a
tabela 2) cada termo pode ser interpretado como a contribuição da observação j para a
deviance total. Se definirmos
p
rdj := dj sinal(yj − π
bj ) ,
temos uma forma de efectuar um diagnóstico sobre a qualidade da parte linear do ajustamento.
IME
11
Capı́tulo II
Secção: 6
Observação 11. Note-se que com esta definição,
D=
m
X
dj =
j=1
m
X
rd2j ,
j=1
pelo que a deviance ”funciona”como uma soma de quadrados dos erros.
5.4 Distância de Cook
Ver [Pru11, p. 357]
5.5 AIC – Akaike Information Criterion
Em [Gil00, p. 64] define-se o AIC como sendo,
b − 2(N + 1)
AIC := −2 log L Y, A
b é o valor da máxima verosimilhança do modelo – o vector dos parâmetros
em que L Y, A
b e o vector das observações é Y – e N + 1 é o número de parâmetros do
estimados é A
modelo.
5.6 BIC – Bayesian Information Criterion
Em [Gil00, p. 64] define-se o BIC
b − (N + 1) log (m)
BIC := −2 log L Y, A
b é o valor da máxima verosimilhança do modelo – o vector dos parâmetros
em que L Y, A
b e o vector das observações é Y – o número de parâmetros do modelo é
estimados é A
N + 1 e m é o número de observações.
6 O modelo Logit
Um dos principais exemplos de GLM é o seguinte 4 . Suponhamos que se observa uma
propriedade que um elemento de uma população pode ou não ter; o modelo natural
para esse fenómeno é uma variável aleatória Y _ B(π) com distribuição binomial de
parâmetro π em que consideramos que 1 representa o termos observado a propriedade e
0 representa o não termos observado a propriedade, convencionando-se que:
P [Y = 1] = π , P [Y = 0] = 1 − π .
Suponhamos que se pretende quantificar a variação de Y como função das variações
de outras variáveis X1 , X2 , . . . , XN que supomos também observadas – ou, alternativamente, às quais podemos atribuir determinados valores – observando em seguida se, com
4
Uma referência muito completa sobre este modelo é [Col02].
IME
12
Capı́tulo II
Secção: 6
esses valores, o elemento da população verifica — ou não – a propriedade. Se procurararmos um modelo para a probabilidade de observar a propriedade é natural supor
que, sendo B = (b1 , b2 , . . . , bN )t , se X1 = b1 , X2 = b2 , . . . , XN = bN se verifique para
α0 , α1 , . . . , αN ∈ ,
πB = α0 + α1 b1 + α2 b2 + · · · αN bN .
(18)
R
Este
PN modelo não é satisfatório dado que, na fórmula (18), πA ∈ [0, 1] e também α0 +
. Seja, então h uma função estritamente monótona e regular tal que
i=1 αi ai ∈
h : [0, 1] 7→ . O modelo dado pela fórmula (19) seguinte – em vez do modelo dado
pelaa fórmula (18) – já faz mais sentido.
R
R
h(πB ) = α0 + α1 b1 + α2 b2 + · · · αN bN .
(19)
Uma escolha intuitiva para a função h é a função inversa da Logı́stica dada por
π
h(π) = log
.
1−π
Funçã o Logí
stica
Inversa da Funçã o Logí
stica
1
1
5-10 x
ã
1.0
2-
+1
x
log
5
1-x
3.0
0.8
2.5
0.6
2.0
1.5
0.4
1.0
0.2
0.5
0.2
0.4
0.6
0.8
1.0
x
0.2
Figura 2: Exemplo de função logı́stica h−1 (x) =
x
log( 1−x
) a
− b , para a = 10, b = −5.
b
1
e−ax−b +1
0.4
0.6
0.8
1.0
e da sua inversa h(x) =
Dado que a função h é invertı́vel tem-se que
πB = h−1 (α0 + α1 b1 + · · · αN bN ) =
eα0 +α1 b1 +···αN bN
,
1 + eα0 +α1 b1 +···αN bN
(20)
ou seja, conseguimos recuperar πB como função não linear dos parâmetros e dos factores.
b = (b
Observação 12 (Resı́duos usuais não aditivos). Suponhamos que A
α0 , α
b1 , . . . , α
bN )
é um vector de parâmetros estimados. Em resultado da fórmula (19) é natural ter, para
um dado erro εB ,
h(πB ) = α
b0 + α
b1 b1 + α
b2 b2 + · · · α
bN bN + εB ,
IME
13
x
Capı́tulo II
Secção: 6
donde resulta, à semelhnaça da fórmula (20),
πB = h−1 (b
α0 + α
b1 b1 + · · · α
bN bN + εB ) =
eαb0 +bα1 b1 +···bαN bN +εB
,
1 + eαb0 +bα1 b1 +···bαN bN +εB
ou seja, os resı́duos resultantes da estimação dos parâmetros não afectam πB de forma
aditiva.
Definição 4 (Modelo Logit). Se Y _ B(π), isto é se a variável Y tiver distribuição
binomial de parâmetro π e se a função de ligação for a função h(x) = log (x/(1 − x))
temos um modelo Logit.
6.1 Estimação dos parâmetros no modelo Logit
Veja-se [Col02, p. 59–60].
6.2 Exemplo de aplicação do modelo Logit com o R
Para efectuar um ajustamento de uma regressão logı́stica o código R pode ser o seguinte.
O comando para o ajustamento está na linha 5. Os dados são os resultantes da simulação
com o Mathematica.
1
2
3
4
5
6
7
8
9
10
11
mydata ← read.csv ( " dada.csv " , header = FALSE )
# Modelo Logit
# V8 resposta bin \ ’ aria
# V1-V7 preditores
fit ← glm ( V8∼V1 + V2 + V3 + V4 + V5 + V6 + V7 , data = mydata , family = binomial () )
summary ( fit ) # resultados
confint ( fit ) # 95% intervalo de confian \ c { c } a para os coeficientes
exp ( coef ( fit ) ) # coeficientes exponenciados
exp ( confint ( fit ) ) # 95% intervalo de confianc { c } a para os
coeficientes exponenciados
predict ( fit , type = " response " ) # valores previstos pelo modelo
residuals ( fit , type = " deviance " ) # res \ ’{\ i } duos
Listing 1: Regressão Logı́stica
Sendo que os primeiros resultados são:
1
2
3
4
5
6
7
8
9
10
Call : glm ( formula = V8 ∼ V1 + V2 + V3 + V4 + V5 + V6 + V7 , family
= binomial () , data = mydata )
Deviance Residuals :
Min
1Q
Median
3Q
Max
-2.25637 -0.17532 -0.01637
0 .00563
2 .39880
Coefficients :
Estimate Std. Error z value Pr ( >| z |)
( Intercept ) -60.456
1322 .922 -0.046
0 .964
V1
-1.189
8 .125 -0.146
0 .884
V2
16 .152
3 .822
4 .226 2 .38e-05 ***
V3
28 .869
1392 .520
0 .021
0 .983
IME
14
Capı́tulo II
11
12
13
14
15
16
17
18
19
20
21
Secção: 6
V4
10 .424
1 .803
5 .782 7 .40e-09 ***
V5
16 .721
3 .151
5 .307 1 .12e-07 ***
V6
6 .919
1 .475
4 .692 2 .71e-06 ***
V7
18 .350
4 .420
4 .152 3 .30e-05 ***
--Signif. codes : 0 *** 0 .001 ** 0 .01 * 0 .05 . 0 .1
1
( Dispersion parameter for binomial family taken to be 1)
Null deviance : 337 .40 on 299 degrees of freedom
Residual deviance : 115 .54 on 292 degrees of freedom
AIC : 131 .54
Number of Fisher Scoring iterations : 17
Listing 2: Resultado da regressão Logı́stica
Dos resultados acima pode concluir-se que os preditores V2, e V4 a V7 são estatisticamente significativos.
1
2
> wald.test ( b = coef ( fit ) , Sigma = vcov ( fit ) , Terms = 2:7)
Chi-squared test : X2 = 51 .3 , df = 6 , P ( > X2 ) = 2 .6e-09
Listing 3: Teste de Wald e resultado
Com o teste de Wald, o efeito global dos termos V2 a V7 é estatisticamente significativo.
1
2
3
4
5
6
7
8
> with ( fit , null.deviance - deviance )
[1] 221 .8652
> with ( fit , df.null - df.residual )
[1] 7
> with ( fit , pchisq ( null.deviance - deviance , df.null - df.residual
, lower.tail = FALSE ) )
[1] 2 .651357e-44
> logLik ( fit )
’ log Lik. ’ -57.76795 ( df =8)
Listing 4: Teste da Deviance com resultados
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
fit ← glm ( V8∼V2 + V4 + V5 + V6 + V7 , data = mydata , family = binomial () ) #
ajustamento
summary ( fit )
Call :
glm ( formula = V8 ∼ V2 + V4 + V5 + V6 + V7 , family = binomial () ,
data = mydata )
Deviance Residuals :
Min
1Q
Median
-3.5402 -0.3366 -0.0590
3Q
0 .0462
Max
2 .3515
Coefficients :
Estimate Std. Error z value Pr ( >| z |)
( Intercept ) -24.820
3 .219 -7.712 1 .24e-14 ***
V2
8 .694
1 .859
4 .676 2 .93e-06 ***
V4
9 .061
1 .580
5 .736 9 .70e-09 ***
V5
12 .679
2 .068
6 .132 8 .67e-10 ***
V6
6 .352
1 .326
4 .790 1 .67e-06 ***
IME
15
Capı́tulo II
Secção: 6
Normal Q-Q
Residuals vs Fitted
270
38
1
-2
-2
-1
0
0
-1
Residuals
1
Std. deviance resid.
2
2
38
270
128
128
-30
-20
-10
0
-3
10
-2
-1
Scale-Location
2
3
128
4
1.5
1
Residuals vs Leverage
38
270
98
1
0.5
0
Std. Pearson resid.
1.0
2
270
0.5
1
0.5
0
Theoretical Quantiles
glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7)
Predicted values
glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7)
-4
0.0
-2
238
-30
-20
-10
0
10
Cook's distance
0.0
Predicted values
glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7)
0.2
0.4
0.6
0.8
Leverage
glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7)
Figura 3: Gráficos do ajustamento com as 7 variáveis
18
19
20
21
22
23
24
25
26
27
28
V7
11 .677
2 .556
4 .569 4 .91e-06 ***
--Signif. codes : 0 *** 0 .001 ** 0 .01 * 0 .05 . 0 .1
1
( Dispersion parameter for binomial family taken to be 1)
Null deviance : 337 .40
Residual deviance : 145 .39
AIC : 157 .39
on 299
on 294
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations : 7
IME
16
Capı́tulo II
Listing 5: Resultado da regressão Logı́stica com 5 variáveis
Normal Q-Q
3
3
Residuals vs Fitted
38
0
-1
-1
-2
-2
Residuals
0
1
1
2
2
38
191
-3
-3
191
118
-4
118
-15
-10
-5
0
5
-3
-2
Predicted values
glm(V8 ~ V2 + V4 + V5 + V6 + V7)
-1
0
1
2
3
Theoretical Quantiles
glm(V8 ~ V2 + V4 + V5 + V6 + V7)
Scale-Location
Residuals vs Leverage
5
118
191
0
1.5
1
0.5
98
38
-5
-10
Std. Pearson resid.
191
-15
1.0
0.5
1
-20
0.5
118
-25
30
31
Secção: 6
> wald.test ( b = coef ( fit ) , Sigma = vcov ( fit ) , Terms = 1:5) #
Needs packages ( aod )
Chi-squared test :
X2 = 64 .5 , df = 5 , P ( > X2 ) = 1 .4e-12
0.0
29
-15
-10
-5
0
5
Cook's distance
0.0
Predicted values
glm(V8 ~ V2 + V4 + V5 + V6 + V7)
0.1
0.2
0.3
Leverage
glm(V8 ~ V2 + V4 + V5 + V6 + V7)
Figura 4: Gráficos do ajustamento com as variáveis 2,4,5,6,7
Apêndice
Nesta secção enunciamos resultados que são úteis para o desenvolvimento do texto acima.
O primeiro resultado permite a derivação de um integral em quea função integranda
IME
17
Capı́tulo II
Secção: 7
depende de um parâmetro.
Teorema 2 (O teorema de derivação do integral relativamente a um parâmetro
da função integranda). Seja (X, A, µ) um espaço de medida, U um aberto de
e
f : X × U 7→ uma função tal que:
R
R
(i) Para qualquer t0 ∈ U , a função f (·, t0 ) : X 7→
R é integrável.
(ii) f é derivável em qualquer t0 ∈ U ,
d
f (x, t0 + h) − f (x, t0 )
d
∀x ∈ X,
:= lim
f (x, t0 ) := f (x, t)
∈
h→0,h6=0
dt
dt
h
t=t0
R.
e esta derivada é uma função (de x ∈ X) integrável.
(iii) Existe uma função F : X 7→
R+ integrável tal que
d
∀t ∈ U f (x, t) ≤ F (x)
dt
Então
d
dt
Z
X
f (x, t)dµ(x)
Z
=
t=t0
X
d
f (x, t0 )dµ(x)
dt
Demonstração. Resulta de uma aplicação do teorema dos valores intermediários e do
teorema da convergência dominada de Lebesgue (ver [Lan69, p. 375]).
7 Exercı́cios
As notas à margem assinalam a dificuldade dos exercı́cios graduada de [1] - aplicações
imediatas dos conceitos introduzidos - até [3] - exercı́cios que podem requerer domı́nio
de conceitos estudados noutras unidades curriculares.
Exercı́cio 2 (Tipo exponencial: Bernoulli). Seja Y _ B(π), isto é, uma variável de Bernoulli de
parâmetro π.
[1]
1. Mostre que:
fYπ (k) =
P [Y
= k] = (1 − π) exp k log
π
1−π
,
e deduza que Y é de tipo exponencial.
2. Justifique que θ = log(π/(1 − π)) é o parâmetro natural da distribuição de Bernoulli.
3. Justifique que a função logit é a função de ligação canónica correspondente.
Exercı́cio 3 (Tipo exponencial: Poisson). Seja Y _ P(λ), isto é, uma variável de Poisson de parâmetro
λ.
1. Mostre que:
fYλ (k) =
P [Y
= k] = exp (−λ)
1
exp (k log(λ)) ,
k!
e deduza que Y é de tipo exponencial.
IME
18
[1]
Capı́tulo II
Secção: 8
2. Justifique que θ = log(λ) é o parâmetro natural da distribuição de Poisson.
3. Justifique que a função log é a função de ligação canónica correspondente.
Exercı́cio 4 (Tipo exponencial: gama). Mostre que a distribuição gama é de tipo exponencial. Indique
a respectiva representação canónica, qual o parâmetro natural e a função de ligação canónica.
[1]
Exercı́cio 5 (Uma demonstração). Demonstre o teorema 2.
[3]
Exercı́cio 6 (Verosimilhança nos modelos exponenciais). Seja Y uma variável aleatória de tipo exponencial. Considere
= (Y1 , Y2 , . . . , Ym ) uma amostra de Y que tem como realização {y1 , y2 , . . . , ym } ∈
Y (Ω). Seja θ ∈ Θ ⊆ d o parâmetro de Y .
[1]
Y
R
1. Dê uma expressão para a verosimilhança de Y para a amostra
Y e para os dados {y1 , y2 , . . . , ym }.
2. Defina o estimador de máxima verosimilhança de θ, enunciando as propriedades suficientes sobre
a lei de Y e sobre Θ que garantem a existência desse estimador.
3. Enuncie as propriedades do estimador de máxima verosimilhança de θ que considera mais importantes.
Exercı́cio 7 (Deviance em modelos exponenciais). Confirme os resultados apresentados para a deviance
nos modelos que figuram na tabela 2.
8 Comentários sobre as referências
Nesta secção fazem-se breves comentários às referências indicadas com o fim de encorajar
a sua consulta.
• [HE06] Um texto que também auxilia a familiarização com as principais técnicas
estatı́sticas usando o software R.
• [Pru11] É um texto recente onde as principais técnicas estatı́sticas podem ser exploradas com o auxı́lio do software R.
• [Wil01] Um curso sobre Estatı́stica por um eminente probabilista; um olhar crı́tico
e profundo sobre muitos conceitos.
• [MN89] É a obra dos autores que introduziram os princiapais conceitos estudados
neste capı́tulo.
• [Agr07] Obra em que é dado mais enfâse à discussão aprofundada das caracteı́sticas
próprias de cada um dos muitos exemplos práticos apresentados ilustrando muitos
problemas práticos e os modelos mais adequados.
• [Gil00] Apresentação sucinta e bastante completa dos GLM, contendo alguns dos
detalhes técnicos mais importantes.
• [jHLS13] A regressão logı́stica é explicada sem grande detalhe técnico mas pondo
em evidências as principais ideias e a forma de interpretar os resultados das
análises.
• [Lon97] Obra completa com bastante detalhe técnico e análises que permitem uma
melhor compreensão das técnicas e métodos apresentados.
IME
19
[1]
Capı́tulo II
Secção: 8
Referências
[Agr07] A. Agresti. An Introduction to Categorical Data Analysis. Wiley Series in
Probability and Statistics. Wiley, 2007.
[Col02] D. Collett. Modelling Binary Data, Second Edition. Chapman & Hall/CRC
Texts in Statistical Science. Taylor & Francis, 2002.
[Gil00] J. Gill. Generalized Linear Models: A Unified Approach. Quantitative Applications in the Social Sciences. SAGE Publications, 2000.
[HE06] T. Hothorn and B.S. Everitt. A Handbook of Statistical Analyses Using R. CRC
Press, 2006.
[IM90] G.I. Ivchenko and Yu.I. Medvedev. Mathematical Statistics. Mir Publishers
Moscow, 1990.
[jHLS13] David W. jun. Hosmer, Stanley Lemeshow, and Rodney X. Sturdivant. Applied
logistic regression. 3rd ed. Hoboken, NJ: John Wiley & Sons, 3rd ed. edition,
2013.
[Lan69] S. Lang. Analysis II. Number v. 2 in Addison-Wesley series in mathematics.
Addison-Wesley Pub. Co., 1969.
[Lin05] Yu. N. Lin’kov. Lectures in mathematical statistics. Parts 1 and 2. Translated
from the Russian original by Oleg Klesov and Vladimir Zayats. Providence, RI:
American Mathematical Society (AMS), 2005.
[Lon97] J.Scott Long. Regression models for categorical and limited dependent variables.
Thousand Oaks, CA: SAGE Publications, 1997.
[MN89] P. McCullagh and J.A. Nelder. Generalized Linear Models, Second Edition.
Chapman & Hall/CRC Monographs on Statistics & Applied Probability. Taylor
& Francis, 1989.
[Pru11] Randall Pruim. Foundations and Applications of Statistics: An Introduction
Using R. Pure and Applied Undergraduate Texts. American Mathematical
Society, 2011.
[Wil01] D. Williams. Weighing the Odds: A Course in Probability and Statistics. Cambridge University Press, 2001.
IME
20

Modelos Lineares Generalizados

Transcrição

Documentos relacionados

Sabendo que 1 pé tem 30,48 cm e que 1 polegada tem 2,54 cm

A distribuiç ˜ao Weibull inversa generalizada na

Lista de exercícios 03

( MODELO DE PEDIDO DE DEMISSÃO) (para quem vai cumprir aviso)

Teste 1 (Ver. A)

MATEMÁTICA - UFJF/SIGA

AV - Profmat

A distribuiç ˜ao Weibull inversa generalizada na modelagem de

Funç˜oes de Varias Variáveis - FVV - Noturno (2008) Profs. Stilante

Princ´ıpios de Desenvolvimento de Algoritmos 1 Objetivo 2

Modelos de regressão log-Birnbaum