Modelos Lineares Generalizados
Transcrição
Modelos Lineares Generalizados
Modelos Lineares Generalizados FCT/UNL, Inferência e Modelação estatı́stica MLE 1 Introdução De acordo com [Agr07, p. 72], todos os modelos lineares generalizados têm três componentes: a componente aleatória que identifica a variável aleatória Y assumindo uma dada distribuição; a componente sistemática que especifica as variáveis explicativas e, por último, a ligação que dá a relação funcional entre a componente sistemática e o valor esperado da componente aleatória. Seguidamente desenvolveremos estas ideias. Um modelo linear generalizado (GLM de Generalized Linear Model em Inglês), tem muitas semelhanças com um modelo linear usual. Assim - numa primeira aproximação podemos descrever um GLM – a que chamaremos GLM ocasional – a partir da estrutura dos dados e das correspondentes observações descritas seguidamente. Os conceitos relevantes no contexto dos GLM serão detalhados progressivamente. 1. O modelo constituı́do pelas variáveis aleatórias Y, X1 , X2 , . . . , XN em que Y , a variável independente tem uma relação funcional com as variáveis X1 , X2 , . . . , XN , os preditores, que podem não ser independentes entre si - por exemplo, pode terse que X1 = X2 · X3 . Y = (Y1, Y2, . . . Ym) de Y 2. As observações, isto é, as amostras, i ∈ {1, 2, . . . , N } i = (Xi,1 , Xi,2 , . . . Xi,m ) origem aos dados: y1 x1,1 x2,1 y2 x1,2 x2,2 ... ... ... ym x1,m x2,m X e, para cada amostra de Xi , cujas realizações dão ... ... ... ... xN,1 xN,2 ... xN,m . (1) 3. Uma relação linear entre as variáveis aleatórias X1 , X2 , . . . , XN também denominadas factores do modelo e uma função h, denominada a função de ligação do modelo, aplicada à esperança condicional da variável dependente Y : E h ( [Yj | X1,j , X2,j , . . . XN,j ]) = α0 + α1 X1,j + α2 X2,j + · · · + αN XN,j (2) em que α0 , α1 , . . . , αN são parâmetros do modelo 1 . 1 Na fórmula acima (2), a expressão dadas X1 , X2 , . . . XN . E [Y | X1 , X2 , . . . XN ] representa a esperança condicional de Y 1 Capı́tulo II Modelos Lineares Generalizados Secção: 2 4. Condições que asseguram a coerência da definição a saber: (a) A variável aleatória Y tem tipo exponencial(ver o desenvolvimento deste conceito na secção 5); cada distribuição de tipo exponencial tem um parâmetro natural que é dado por uma função da média da distribuição. (b) A função de ligação h que seja função do parâmetro natural da distribuição é a função de ligação canónica. Observação 1. Note-se que a fórmula (2) é equivalente a E h ( [Yj | X1,j = a1 , X2,j = a2 , . . . XN,j = aN ]) = α0 + α1 a1 + α2 a2 + · · · + αN aN (3) em que, tal como acima, α0 , α1 , . . . , αN são parâmetros do modelo e em que para cada i ∈ {1, 2, . . . , N } ai ∈ Xi,j (Ω), isto é, os ai são quaisquer elementos dos contradomı́nios respectivos de cada uma das respectivas variáveis aleatórias Xi,j . Observação 2. Suponhamos que α b0 , α b1 , . . . , α bN designam os valores estimados dos parâmetros do modelo descritos em (2) ou (3) a partir dos dados (1). Veremos adiante a forma natural de estimar estes parâmetros que decorre do método da máxima verosimilhança. É natural que para cada j ∈ {1, 2, . . . , m} exista j um erro de ajustamento – ou um resı́duo – tal que se verifique para j ∈ {i, 2, . . . , m}: E h ( [Yj | X1,j = x1,j , X2,j = x2,j , . . . XN,j = xN,j ]) = α b0 + α b1 x1,j + · · · + α bN xN,j + j de onde resultará, se h for invertı́vel, E [Yj | X1,j = x1,j , . . . XN,j = xN,j ] = h−1 (bα0 + αb1x1,j + · · · + αbN xN,j + j ) , o que no caso em que h−1 não é linear faz com que os resı́duos não sejam aditivos. Tal como noutros modelos estatı́sticos estudos sobre os resı́duos podem aferir a qualidade do ajustamento do modelo com os parâmetros estimados. Mas não serão os resı́duos – tal como os definimos acima – os mais adequados para aferir a qualidade do ajustamento (ver a secção 5). 2 Distribuições de tipo exponencial Nesta secção vamos desenvolver as principais propriedades das distribuições de tipo exponencial. Definição 1 (Distribuição de Tipo Exponencial). Uma variável aleatória Y tem distribuição de Tipo Exponencial se e só se a sua densidade fY – no caso contı́nuo – (ou a sua função de probabilidade, no caso discreto) se puder representar na forma, yθ − b(θ) + c(y, φ) , (4) fY (y) = fYθ,φ (y) = exp a(φ) em que θ e φ são parâmetros e a, b e c são funções regulares. O parâmetro θ é denominado o parâmetro natural da famı́lia exponencial. IME 2 16 de Outubro de 2015 Capı́tulo II Modelos Lineares Generalizados Secção: 2 Observação 3. O parâmetro φ supõe-se conhecido; caso contrário é considerado um nuisance parameter e é estimado previamente ao resto do estudo estatı́co. Na tabela seguinte podem ver-se alguns exemplos de distribuições de tipo exponencial com os parâmetros e as funções a e b indicadas. Para um exemplo de como se podem obter estes termos da decomposição da densidade da distribuição veja-se a proposição 1. Distribuição de Y Poisson P(λ) Bernoulli B(π) Normal N(µ, σ) Gama G(α, β) E θ = θ( [Y ]) log(λ) π log 1−π b(θ) eθ µ −1/α θ2 /2 log 1 + eθ − log(−θ) a(φ) 1 1 σ2 1/β Tabela 1: Exemplos de distribuições de tipo exponencial com os parâmetros e as funções. Proposição 1 (Forma Canónica). No caso em que a(φ) = φ – sendo φ, neste caso, denominado parâmetro de dispersão – uma variável aleatória Y tem distribuição de tipo exponencial se e só se a sua densidade fY se pode representar na forma fY (y) = r(θ)s(y) exp [yQ(θ)] , (5) em que r, s e Q são funções regulares. Demonstração. É imediato se se considerar, na fórmula (5), as definições seguintes: θ b(θ) Q(θ) = , r(θ) = exp − , s(y) = exp [c(y, φ)] . φ φ Exemplo 1 (A distribuição Binomial). Seja Y _ B(M, π) isto é, com distribuição binomial de parâmetros M e π. Verifique que Y tem uma distribuição de tipo exponencial. Resolução: Com efeito, dado que, ∀k ∈ {0, 1, . . . , M } fY (k) = P[Y = k] = M k π (1 − π)M −k , k e que podemos representar esta função de probabilidade M π M fY (k) = exp log exp log(1 − π) exp k log , k 1−π IME 3 16 de Outubro de 2015 Capı́tulo II Modelos Lineares Generalizados Secção: 2 fica claro que com M φ = 1, r(θ) = exp log(1 − π) M π , , s(k) = exp log , Q(θ) = log 1−π k se tem a representação de fY na forma canónica. ♦ Exercı́cio 1 (Exemplos de distribuições de tipo exponencial). Mostre que a distribuição normal é de tipo exponencial. Exprima a densidade na forma canónica explicitando as funções r, s e Q correspondentes. Mesma questão para a distribuição binomial. Uma das justificações para o parâmetro θ se denominar parâmetro natural da distribuição advém do resultado seguinte. Teorema 1 (Média e Variância). Seja Y uma variável aleatória com distribuição de tipo exponencial de acordo com as notações da definição 1. Então: d b(θ) E[Y ] = db(θ) , V[Y ] = a(φ) 2 . dθ d θ 2 (6) Demonstração. Suponhamos que a variável Y é contı́nua. Dado que fYθ,φ é uma densidade, tem-se que: Z 1= fYθ,φ (y)dy . R Derivando a expressão acima em ordem ao parâmetro θ teremos, aplicando um resultado conhecido de derivação de um integral em ordem a um parâmetro (veja-se o teorema 2 em apêndice), Z Z d d θ,φ θ,φ 0= fY (y)dy = f (y) dy . (7) dθ R R dθ Y Dado que d θ,φ d yθ − b(θ) f (y) = exp + c(y, φ) = dθ Y dθ a(φ) 1 db(θ) yθ − b(θ) = y− exp + c(y, φ) = a(φ) dθ a(φ) y θ,φ 1 db(θ) θ,φ = fY (y) − f (y) , a(φ) a(φ) dθ Y tem-se que, usando a fórmula (7) e supondo que a(φ) 6= 0, Z Z db(θ) θ,φ yfY (y)dy − fYθ,φ (y)dy = 0 , dθ R R de onde resulta IME E[Y ] = Z R yfYθ,φ (y)dy = 4 db(θ) , dθ 16 de Outubro de 2015 Capı́tulo II Modelos Lineares Generalizados Secção: 3 tal como figura no enunciado. Para demonstrar a fórmula relativa à variância o procedimento é semelhante. Assim, y θ,φ d2 θ,φ d 1 db(θ) θ,φ f (y) = f (y) − f (y) = dθ2 Y dθ a(φ) Y a(φ) dθ Y y θ,φ y 1 db(θ) θ,φ = fY (y) − fY (y) − a(φ) a(φ) a(φ) dθ 2 d b(θ) θ,φ db(θ) y θ,φ 1 1 db(θ) θ,φ f (y) + − f (y) − f (y) = a(φ) dθ2 Y dθ a(φ) Y a(φ) dθ Y y 2 θ,φ y db(θ) θ,φ 1 d2 b(θ) θ,φ = f (y) − f (y)− f (y) − a(φ)2 Y a(φ)2 dθ Y a(φ) dθ2 Y y db(θ) θ,φ db(θ) 2 θ,φ 1 − f (y) + fY (y) , a(φ)2 dθ Y a(φ)2 dθ ou seja em resumo, θ,φ θ,φ θ,φ θ,φ d2 θ,φ y 2 fY (y) 2yfY (y) db(θ) fY (y) d2 b(θ) fY (y) db(θ) 2 (y) = f − − + . dθ2 Y a(φ)2 a(φ)2 dθ a(φ) dθ2 a(φ)2 dθ Obviamente que se tem que: d2 θ,φ f (y) dy , dθ2 Y Z 0= R pelo que, supondo mais uma vez que a(φ) 6= 0 e usando o facto de fY ser uma densidade, Z 0= R y 2 fYθ,φ (y)dy db(θ) −2 dθ Z R yfYθ,φ (y)dy d2 b(θ) − a(φ) + dθ2 db(θ) dθ 2 , ou seja ainda, usando o resultado do teorema já obtido, E[Y 2 Z ]= R y 2 fYθ,φ (y)dy =2 db(θ) dθ 2 d2 b(θ) + a(φ) − dθ2 db(θ) dθ 2 , de onde se conclui que V[Y ] = E[Y 2] − E[Y ]2 = a(φ) d dθb(θ) , 2 2 tal como se indicou no enunciado. A demonstração para o caso de uma variável aleatória discreta é semelhante sendo que a condição de partida é que se se tiver Y (Ω) = I ⊆ , X X fY (k) = [Y = k] = 1 N P k∈I k∈I dado que fY representa, neste caso, uma função de probabilidade. IME 5 16 de Outubro de 2015 Capı́tulo II Modelos Lineares Generalizados Secção: 3 3 A função de ligação canónica Nesta secção definimos precisamente a função de ligação canónica de um modelo GLM socorrendo-nos de uma segunda interpretação de um tal modelo. Note-se que os pressupostos com que definimos o modelo GLM ocasional podem ter uma interpretação diferente se supusermos que os dados resultam de uma experiência planeada previamente. Esta interpretação dá origem a um modelo que denominaremos GLM controlado 2 . Neste modelo a estrutura das observações apenas comporta a variável resposta ou independente dado que se considera que os valores, do que no modelo GLM ocasional eram as variáveis independentes, são agora valores previamente fixados de acordo com o desenho intencional da experiência. 1. A matriz de desenho da experiência é 1 x1,1 1 x1,2 X= ... ... 1 x1,m dada por x2,1 x2,2 ... x2,m ... ... ... ... xN,1 xN,2 . ... xN,m (8) 2. Os dados y1 , y2 , . . . ym resultam da realização das observações, isto é da realização de uma amostra = Y1 , Y2 , . . . Ym da variável aleatória Y , isto é, tal que para ω ∈ Ω Y1 (ω) = y1 , Y2 (ω) = y2 , . . . Ym (ω) = ym (9) Y 3. Uma relação entre a matriz de desenho da experiência X e uma função Hh , denominada a função de ligação do modelo, aplicada à esperança do vector Y = (Y1 , Y2 , . . . Ym )t das observações da variável dependente Y : E Hh ( [Y ]) = XA (10) em que A = (α0 , α1 , . . . , αN )t é o vector dos parâmetros do modelo e em que Hh (y1 , y2 , . . . ym ) = (h(y1 ), h(y2 ), . . . h(ym )) , sendo h a função de ligação univariada. 4. As condições de coerência entre a distribuição de Y e a função de ligação. (a) A variável aleatória Y tem tipo exponencial de acordo com a definição 1 sendo θ o parâmetro natural. (b) Atendendo ao teorema 1 em que variadda h tal que E E [Y ] = db(θ)/dθ, a função de ligação uni h ( [Y ]) = h db(θ) dθ =θ, 2 A distinção entre um modelo controlado e um modelo ocasional – referido na secção 1 – é feita também em [Pru11, p. 357] sendo que o modelo que denominámos ocasional é referido como observational study. IME 6 16 de Outubro de 2015 Capı́tulo II Modelos Lineares Generalizados Secção: 4 isto é, tal que h seja bijectiva e admita uma inversa h−1 verificando h−1 = db(θ) , dθ (11) designa-se por função de ligação canónica do modelo. Observação 4. Note-se que a fórmula (10) se pode representar na forma α0 + α1 x1,1 + +α2 x2,1 + · · · + αN xN,1 h ( [Y1 ]) h ( [Y2 ]) α0 + α1 x1,2 + +α2 x2,2 + · · · + αN xN,2 = ... ... α0 + α1 x1,m + +α2 x2,m + · · · + αN xN,m h ( [Ym ]) E E E , (12) ou seja, para cada j ∈ {1, . . . , m}, E h ( [Yj ]) = α0 + α1 x1,j + +α2 x2,j + · · · + αN xN,j . (13) Observação 5. A importância de considerar as funções de ligação canónicas advém da simplificaçâo que trazem ao cálculo dos estimadores dos parâmetros dos modelos GLM. 4 A estimação nos modelos lineares generalizados A estimação dos parâmetros num modelo linear generalizado faz-se pelo método de máxima verosimilhança3 . Retomando as notações da secção 3, temos na fórmula (10) o preditor linear comm componentes E Hh ( [Y ]) = XA R sendo que com a função de ligação canónica univariada do modelo h ∈ C 2 ( ), se verifica, db(θj ) h ( [Yj ]) = h = θj . dθj E Para m observações – independentes dado provirem de uma amostra – tendo em conta que θ = (θ1 , θ2 , . . . θm )t depende de A = (α0 , α1 , . . . , αN )t , a logverosimilhança l(A) escreve-se, (A) = l m X j=1 m X yj θj − b(θj ) θ ,φ + c(yj , φ) . log fYj (yj ) = a(φ) (14) j=1 θ ,φ Sendo para abreviar a notação lj := log fYj (yj ) e µj = E [Yj ], determine-se ∂lj ∂lj ∂θj ∂µj ∂h(µj ) = . ∂αi ∂θj ∂µj ∂h(µj ) ∂αi 3 A exposição que se segue é inspirada em http://wikistat.fr/pdf/st-m-modlin-mlg.pdf IME 7 16 de Outubro de 2015 Capı́tulo II Modelos Lineares Generalizados Secção: 5 Dado que se tem com b0 (θj ) := db(θj )/dθj e b00 (θj ) := d2 b(θj )/dθj2 , yj − b0 (θj ) yj − µj ∂lj = = , ∂θj a(φ) a(φ) V db0 (θj ) [Yj ] ∂µj = = b00 (θj ) = , ∂θj dθj a(φ) que, devido à fórmula (13), ∂h(µj ) = xi,j , ∂αi e uma vez que a derivada seguinte depende da função de ligação h, ∂µj , ∂h(µj ) temos o resultado importante seguinte. Proposição 2. As equações de verosimilhança são dadas por m X yj − µj ∂µj xi,j = 0 i = 1, 2, . . . N . [Yj ] ∂h(µj ) j=1 V (15) Observação 6. Estas equações são não lineares em A pelo que devem ser resolvidas por métodos iterativos – Newton-Raphson ou Scores de Fisher – pelo que desenvolveremos este tema adiante. Dado que definem um estimador da máxima verosimilhança, para o vector dos parâmetros A, este estimador é consistente e assimptoticamente normal (ver [Lin05, p. 136] ou [IM90, p. 89]) permitindo assim a construção de testes de hipóteses. 5 Métodos para aferir a qualidade do ajustamento Para aferir a qualidade do ajustamento usam-se sobretudo os desvios e noções relativas a resı́duos modificados. 5.1 Desvios: a Deviance Compara-se o modelo estimado com o modelo saturado (ou modelo perfeito ou ainda modelo completo), isto é com o modelo em que o número de observações iguala o número de parâmetros, ou seja, o modelo em que o valor médio da variável coincide com o valor observado da variável, isto é, [Yi ] = yi (ver [Gil00, p. 56]). E Definição 2 (Deviance). Sejam l a logverosimilhança do modelo estimado com a totalidade das observações disponı́veis e lSat a logverosimilhança do modelo saturado. Então a deviance é dada por = −2 l − lSat . (16) D D IME 8 16 de Outubro de 2015 Capı́tulo II Modelos Lineares Generalizados Secção: 5 Observação 7. A deviance é pois o logaritmo do quadrado da razão das verosimilhanças. Nos GLM é usado em vez da soma dos quadrados usual no caso Gaussiano. Pela sua natureza a deviance permite testes do tipo razão de verosimilhanças (ver [IM90, p. 204]). Y Proposição 3 (Deviance no modelo de Poisson). Seja Y _ P(λ), = (Y1 , Y2 , . . . , Ym ) uma amostra de Y , e os dados y1 , y2 , . . . , ym provenientes de uma realização da amostra . Então Y D = −2 l − lSat m X yj =2 λj − yj + yj log λj j=1 Demonstração. Temos que no caso do modelo ser um GLM se tem para cada dado yj uma concretização λj de λ dado que [Yj ] = λj , m yj Y λ = l = l((y1 , . . . , ym ), (λ1 , . . . λm )) = log e−λ yj ! E j=1 = m X [−λj + yj log(λj ) + log(yj !)] . j=1 Agora, por definição, o modelo saturado corresponde a ter (y1 , y2 , . . . , ym ) = (λ1 , λ2 , . . . λm ) pelo que: m X lSat = [−yj + yj log(yj ) + log(yj !)] , j=1 pelo que D = −2 l − lSat = −2 m X [−λj + yj log(λj ) + log(yj !) − (−yj + yj log(yj ) + log(yj !))] = j=1 =2 m X λj − yj + yj log j=1 yj λj , tal como anunciado. Na tabela 2 (confira-se com [Gil00, p. 58]) figuram as funções de desvio calculadas para diferentes distribuições de tipo exponencial; as justificações são semelhantes à que apresentámos, para a distribuição de Poisson, na proposição 3 . Observação 8. Note-se que a deviance para o modelo saturado nocaso Bernoulli é: m Y y lSat = log yj j (1 − yj )(1−yj ) = log(1) = 0 . j=1 Veja-se, por exemplo, [jHLS13, p. 12]. IME 9 16 de Outubro de 2015 Capı́tulo II Modelos Lineares Generalizados Distribuição Ligação h Poisson P(λ) h(λ) = log(λ) π h(π) = log 1−π π h(π) = log 1−π Bernoulli B(π) Binomial B(M, π) Normal N(µ, σ) Gama G(α, β) h(µ) = µ h(α) = − α1 Secção: 5 D Deviance (desvio) h i P yj 2 m y log + λ − y j j j j=1 λj y Pm j yj 1−yj (1−yj ) 2 j=1 log πj + log 1−πj Pm yj yj Mj −yj (Mj −yj ) 2 j=1 log πj + log Mj −πj Pm 2 j=1 |yj − µj | i Pm h yj −αj yj 2 j=1 − log αj + αj Bin. Neg. B− (r, π) Tabela 2: Funções de Ligação (link ) e desvios (deviances) para algumas distribuições de tipo exponencial Proposição 4. Quando m o número de observações tende para infinito a deviance tem distribuição assimptótica χ2m−(N +1) , isto é a distribuição do χ2 com m−(N +1) graus de liberdade, em que N + 1 é o número de parâmetros. Observação 9. A proposição 4 permite construir um teste de rejeição do modelo consoante a deviance seja considerada – ou não – significativa; se a deviance exceder um α-percentil de um χ2m−(N +1) , podemos afirmar com uma margem de erro α que o modelo saturado difere significativamente do modelo nulo, isto é, o modelo sem preditores, só com o termo constante. A aproximação do χ2 é considerada por muitos autores, em muitos casos, como duvidosa. 5.2 Resı́duos de Pearson Vamos detalhar os resı́duos de Pearson no caso binomial seguindo [Lon97, p. 98]. Retomando as notações da secção 1, a introdução, seja i = (Xi,1 , Xi,2 , . . . Xi,m ) a amostra das variáveis preditoras e = (Y1 , Y2 , . . . Ym ) a amostra da variável dependente. Para j ∈ {1, 2, . . . m} seja X Y Xx = {X1,j = x1,j , X2,j = x2,j , . . . , XN,j ) = xN,j } em que para i ∈ {1, 2, . . . N } se tem xi,j ∈ Xi (Ω). Tem-se então que, ara j ∈ {1, 2, . . . m}, πj = E [Yj | Xx] = P [Yj = 1 | Xx] . Por outro lado tem-se que dado que Yj _ B(πj ), V [Yj | Xx] = πj (1 − πj ) , tem-se a definição seguinte. IME 10 16 de Outubro de 2015 Capı́tulo II Modelos Lineares Generalizados Secção: 5 Definição 3 (Resı́duos de Pearson). Sendo para cada j ∈ {1, 2, . . . m} a probabilidade estimada dada por π bj , tem-se que rjP := p yj − π bj , π bj (1 − π bj ) (17) sendo que um valor significativo de rjP sugere que o modelo falha no ajustamento ao dado de ordem j. Observação 10. Com o objectivo de garantir boas propriedades estatı́sticas usam-se os resı́duos de Pearson estandardizados que notaremos rjP-Est (veja-se [Lon97, p. 99]). No entanto, na prática, os valores de rjP e rjP-Est são frequentemente semelhantes. -2 0 Resíduos Pearson 2 0 -4 -2 residuals(fit, type = "pearson") 2 4 4 Na figura 1 figuram os resı́duos de Pearson para o exemplo prático detalhado na secção 6.2. 0 50 100 150 200 250 300 -30 Index -20 -10 0 10 Valores estimados Figura 1: Resı́duos de Pearson e Resı́duos de Pearson em função dos valores estimados 5.3 Resı́duos do Desvio D Dado que a deviance é uma soma de termos dj , j = 1, . . . , m (veja-se, por exemplo a tabela 2) cada termo pode ser interpretado como a contribuição da observação j para a deviance total. Se definirmos p rdj := dj sinal(yj − π bj ) , temos uma forma de efectuar um diagnóstico sobre a qualidade da parte linear do ajustamento. IME 11 16 de Outubro de 2015 Capı́tulo II Modelos Lineares Generalizados Secção: 6 Observação 11. Note-se que com esta definição, D= m X dj = j=1 m X rd2j , j=1 pelo que a deviance ”funciona”como uma soma de quadrados dos erros. 5.4 Distância de Cook Ver [Pru11, p. 357] 5.5 AIC – Akaike Information Criterion Em [Gil00, p. 64] define-se o AIC como sendo, b − 2(N + 1) AIC := −2 log L Y, A b é o valor da máxima verosimilhança do modelo – o vector dos parâmetros em que L Y, A b e o vector das observações é Y – e N + 1 é o número de parâmetros do estimados é A modelo. 5.6 BIC – Bayesian Information Criterion Em [Gil00, p. 64] define-se o BIC b − (N + 1) log (m) BIC := −2 log L Y, A b é o valor da máxima verosimilhança do modelo – o vector dos parâmetros em que L Y, A b e o vector das observações é Y – o número de parâmetros do modelo é estimados é A N + 1 e m é o número de observações. 6 O modelo Logit Um dos principais exemplos de GLM é o seguinte 4 . Suponhamos que se observa uma propriedade que um elemento de uma população pode ou não ter; o modelo natural para esse fenómeno é uma variável aleatória Y _ B(π) com distribuição binomial de parâmetro π em que consideramos que 1 representa o termos observado a propriedade e 0 representa o não termos observado a propriedade, convencionando-se que: P [Y = 1] = π , P [Y = 0] = 1 − π . Suponhamos que se pretende quantificar a variação de Y como função das variações de outras variáveis X1 , X2 , . . . , XN que supomos também observadas – ou, alternativamente, às quais podemos atribuir determinados valores – observando em seguida se, com 4 Uma referência muito completa sobre este modelo é [Col02]. IME 12 16 de Outubro de 2015 Capı́tulo II Modelos Lineares Generalizados Secção: 6 esses valores, o elemento da população verifica — ou não – a propriedade. Se procurararmos um modelo para a probabilidade de observar a propriedade é natural supor que, sendo B = (b1 , b2 , . . . , bN )t , se X1 = b1 , X2 = b2 , . . . , XN = bN se verifique para α0 , α1 , . . . , αN ∈ , πB = α0 + α1 b1 + α2 b2 + · · · αN bN . (18) R Este PN modelo não é satisfatório dado que, na fórmula (18), πA ∈ [0, 1] e também α0 + . Seja, então h uma função estritamente monótona e regular tal que i=1 αi ai ∈ h : [0, 1] 7→ . O modelo dado pela fórmula (19) seguinte – em vez do modelo dado pelaa fórmula (18) – já faz mais sentido. R R h(πB ) = α0 + α1 b1 + α2 b2 + · · · αN bN . (19) Uma escolha intuitiva para a função h é a função inversa da Logı́stica dada por π h(π) = log . 1−π Funçã o Logí stica Inversa da Funçã o Logí stica 1 1 5-10 x ã 1.0 2- +1 x log 5 1-x 3.0 0.8 2.5 0.6 2.0 1.5 0.4 1.0 0.2 0.5 0.2 0.4 0.6 0.8 1.0 x 0.2 Figura 2: Exemplo de função logı́stica h−1 (x) = x log( 1−x ) a − b , para a = 10, b = −5. b 1 e−ax−b +1 0.4 0.6 0.8 1.0 e da sua inversa h(x) = Dado que a função h é invertı́vel tem-se que πB = h−1 (α0 + α1 b1 + · · · αN bN ) = eα0 +α1 b1 +···αN bN , 1 + eα0 +α1 b1 +···αN bN (20) ou seja, conseguimos recuperar πB como função não linear dos parâmetros e dos factores. b = (b Observação 12 (Resı́duos usuais não aditivos). Suponhamos que A α0 , α b1 , . . . , α bN ) é um vector de parâmetros estimados. Em resultado da fórmula (19) é natural ter, para um dado erro εB , h(πB ) = α b0 + α b1 b1 + α b2 b2 + · · · α bN bN + εB , IME 13 16 de Outubro de 2015 x Capı́tulo II Modelos Lineares Generalizados Secção: 6 donde resulta, à semelhnaça da fórmula (20), πB = h−1 (b α0 + α b1 b1 + · · · α bN bN + εB ) = eαb0 +bα1 b1 +···bαN bN +εB , 1 + eαb0 +bα1 b1 +···bαN bN +εB ou seja, os resı́duos resultantes da estimação dos parâmetros não afectam πB de forma aditiva. Definição 4 (Modelo Logit). Se Y _ B(π), isto é se a variável Y tiver distribuição binomial de parâmetro π e se a função de ligação for a função h(x) = log (x/(1 − x)) temos um modelo Logit. 6.1 Estimação dos parâmetros no modelo Logit Veja-se [Col02, p. 59–60]. 6.2 Exemplo de aplicação do modelo Logit com o R Para efectuar um ajustamento de uma regressão logı́stica o código R pode ser o seguinte. O comando para o ajustamento está na linha 5. Os dados são os resultantes da simulação com o Mathematica. 1 2 3 4 5 6 7 8 9 10 11 mydata ← read.csv ( " dada.csv " , header = FALSE ) # Modelo Logit # V8 resposta bin \ ’ aria # V1-V7 preditores fit ← glm ( V8∼V1 + V2 + V3 + V4 + V5 + V6 + V7 , data = mydata , family = binomial () ) summary ( fit ) # resultados confint ( fit ) # 95% intervalo de confian \ c { c } a para os coeficientes exp ( coef ( fit ) ) # coeficientes exponenciados exp ( confint ( fit ) ) # 95% intervalo de confianc { c } a para os coeficientes exponenciados predict ( fit , type = " response " ) # valores previstos pelo modelo residuals ( fit , type = " deviance " ) # res \ ’{\ i } duos Listing 1: Regressão Logı́stica Sendo que os primeiros resultados são: 1 2 3 4 5 6 7 8 9 10 Call : glm ( formula = V8 ∼ V1 + V2 + V3 + V4 + V5 + V6 + V7 , family = binomial () , data = mydata ) Deviance Residuals : Min 1Q Median 3Q Max -2.25637 -0.17532 -0.01637 0 .00563 2 .39880 Coefficients : Estimate Std. Error z value Pr ( >| z |) ( Intercept ) -60.456 1322 .922 -0.046 0 .964 V1 -1.189 8 .125 -0.146 0 .884 V2 16 .152 3 .822 4 .226 2 .38e-05 *** V3 28 .869 1392 .520 0 .021 0 .983 IME 14 16 de Outubro de 2015 Capı́tulo II 11 12 13 14 15 16 17 18 19 20 21 Modelos Lineares Generalizados Secção: 6 V4 10 .424 1 .803 5 .782 7 .40e-09 *** V5 16 .721 3 .151 5 .307 1 .12e-07 *** V6 6 .919 1 .475 4 .692 2 .71e-06 *** V7 18 .350 4 .420 4 .152 3 .30e-05 *** --Signif. codes : 0 *** 0 .001 ** 0 .01 * 0 .05 . 0 .1 1 ( Dispersion parameter for binomial family taken to be 1) Null deviance : 337 .40 on 299 degrees of freedom Residual deviance : 115 .54 on 292 degrees of freedom AIC : 131 .54 Number of Fisher Scoring iterations : 17 Listing 2: Resultado da regressão Logı́stica Dos resultados acima pode concluir-se que os preditores V2, e V4 a V7 são estatisticamente significativos. 1 2 > wald.test ( b = coef ( fit ) , Sigma = vcov ( fit ) , Terms = 2:7) Chi-squared test : X2 = 51 .3 , df = 6 , P ( > X2 ) = 2 .6e-09 Listing 3: Teste de Wald e resultado Com o teste de Wald, o efeito global dos termos V2 a V7 é estatisticamente significativo. 1 2 3 4 5 6 7 8 > with ( fit , null.deviance - deviance ) [1] 221 .8652 > with ( fit , df.null - df.residual ) [1] 7 > with ( fit , pchisq ( null.deviance - deviance , df.null - df.residual , lower.tail = FALSE ) ) [1] 2 .651357e-44 > logLik ( fit ) ’ log Lik. ’ -57.76795 ( df =8) Listing 4: Teste da Deviance com resultados 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 fit ← glm ( V8∼V2 + V4 + V5 + V6 + V7 , data = mydata , family = binomial () ) # ajustamento summary ( fit ) Call : glm ( formula = V8 ∼ V2 + V4 + V5 + V6 + V7 , family = binomial () , data = mydata ) Deviance Residuals : Min 1Q Median -3.5402 -0.3366 -0.0590 3Q 0 .0462 Max 2 .3515 Coefficients : Estimate Std. Error z value Pr ( >| z |) ( Intercept ) -24.820 3 .219 -7.712 1 .24e-14 *** V2 8 .694 1 .859 4 .676 2 .93e-06 *** V4 9 .061 1 .580 5 .736 9 .70e-09 *** V5 12 .679 2 .068 6 .132 8 .67e-10 *** V6 6 .352 1 .326 4 .790 1 .67e-06 *** IME 15 16 de Outubro de 2015 Capı́tulo II Modelos Lineares Generalizados Secção: 6 Normal Q-Q Residuals vs Fitted 270 38 1 -2 -2 -1 0 0 -1 Residuals 1 Std. deviance resid. 2 2 38 270 128 128 -30 -20 -10 0 -3 10 -2 -1 Scale-Location 2 3 128 4 1.5 1 Residuals vs Leverage 38 270 98 1 0.5 0 Std. Pearson resid. 1.0 2 270 0.5 1 0.5 Std. deviance resid. 0 Theoretical Quantiles glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7) Predicted values glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7) -4 0.0 -2 238 -30 -20 -10 0 10 Cook's distance 0.0 Predicted values glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7) 0.2 0.4 0.6 0.8 Leverage glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7) Figura 3: Gráficos do ajustamento com as 7 variáveis 18 19 20 21 22 23 24 25 26 27 28 V7 11 .677 2 .556 4 .569 4 .91e-06 *** --Signif. codes : 0 *** 0 .001 ** 0 .01 * 0 .05 . 0 .1 1 ( Dispersion parameter for binomial family taken to be 1) Null deviance : 337 .40 Residual deviance : 145 .39 AIC : 157 .39 on 299 on 294 degrees of freedom degrees of freedom Number of Fisher Scoring iterations : 7 IME 16 16 de Outubro de 2015 Capı́tulo II Listing 5: Resultado da regressão Logı́stica com 5 variáveis Normal Q-Q 3 3 Residuals vs Fitted 38 0 -1 -1 -2 -2 Residuals 0 Std. deviance resid. 1 1 2 2 38 191 -3 -3 191 118 -4 118 -15 -10 -5 0 5 -3 -2 Predicted values glm(V8 ~ V2 + V4 + V5 + V6 + V7) -1 0 1 2 3 Theoretical Quantiles glm(V8 ~ V2 + V4 + V5 + V6 + V7) Scale-Location Residuals vs Leverage 5 118 191 0 1.5 1 0.5 98 38 -5 -10 Std. Pearson resid. 191 -15 1.0 Std. deviance resid. 0.5 1 -20 0.5 118 -25 30 31 Secção: 6 > wald.test ( b = coef ( fit ) , Sigma = vcov ( fit ) , Terms = 1:5) # Needs packages ( aod ) Chi-squared test : X2 = 64 .5 , df = 5 , P ( > X2 ) = 1 .4e-12 0.0 29 Modelos Lineares Generalizados -15 -10 -5 0 5 Cook's distance 0.0 Predicted values glm(V8 ~ V2 + V4 + V5 + V6 + V7) 0.1 0.2 0.3 Leverage glm(V8 ~ V2 + V4 + V5 + V6 + V7) Figura 4: Gráficos do ajustamento com as variáveis 2,4,5,6,7 Apêndice Nesta secção enunciamos resultados que são úteis para o desenvolvimento do texto acima. O primeiro resultado permite a derivação de um integral em quea função integranda IME 17 16 de Outubro de 2015 Capı́tulo II Modelos Lineares Generalizados Secção: 7 depende de um parâmetro. Teorema 2 (O teorema de derivação do integral relativamente a um parâmetro da função integranda). Seja (X, A, µ) um espaço de medida, U um aberto de e f : X × U 7→ uma função tal que: R R (i) Para qualquer t0 ∈ U , a função f (·, t0 ) : X 7→ R é integrável. (ii) f é derivável em qualquer t0 ∈ U , d f (x, t0 + h) − f (x, t0 ) d ∀x ∈ X, := lim f (x, t0 ) := f (x, t) ∈ h→0,h6=0 dt dt h t=t0 R. e esta derivada é uma função (de x ∈ X) integrável. (iii) Existe uma função F : X 7→ R+ integrável tal que d ∀t ∈ U f (x, t) ≤ F (x) dt Então d dt Z X f (x, t)dµ(x) Z = t=t0 X d f (x, t0 )dµ(x) dt Demonstração. Resulta de uma aplicação do teorema dos valores intermediários e do teorema da convergência dominada de Lebesgue (ver [Lan69, p. 375]). 7 Exercı́cios As notas à margem assinalam a dificuldade dos exercı́cios graduada de [1] - aplicações imediatas dos conceitos introduzidos - até [3] - exercı́cios que podem requerer domı́nio de conceitos estudados noutras unidades curriculares. Exercı́cio 2 (Tipo exponencial: Bernoulli). Seja Y _ B(π), isto é, uma variável de Bernoulli de parâmetro π. [1] 1. Mostre que: fYπ (k) = P [Y = k] = (1 − π) exp k log π 1−π , e deduza que Y é de tipo exponencial. 2. Justifique que θ = log(π/(1 − π)) é o parâmetro natural da distribuição de Bernoulli. 3. Justifique que a função logit é a função de ligação canónica correspondente. Exercı́cio 3 (Tipo exponencial: Poisson). Seja Y _ P(λ), isto é, uma variável de Poisson de parâmetro λ. 1. Mostre que: fYλ (k) = P [Y = k] = exp (−λ) 1 exp (k log(λ)) , k! e deduza que Y é de tipo exponencial. IME 18 16 de Outubro de 2015 [1] Capı́tulo II Modelos Lineares Generalizados Secção: 8 2. Justifique que θ = log(λ) é o parâmetro natural da distribuição de Poisson. 3. Justifique que a função log é a função de ligação canónica correspondente. Exercı́cio 4 (Tipo exponencial: gama). Mostre que a distribuição gama é de tipo exponencial. Indique a respectiva representação canónica, qual o parâmetro natural e a função de ligação canónica. [1] Exercı́cio 5 (Uma demonstração). Demonstre o teorema 2. [3] Exercı́cio 6 (Verosimilhança nos modelos exponenciais). Seja Y uma variável aleatória de tipo exponencial. Considere = (Y1 , Y2 , . . . , Ym ) uma amostra de Y que tem como realização {y1 , y2 , . . . , ym } ∈ Y (Ω). Seja θ ∈ Θ ⊆ d o parâmetro de Y . [1] Y R 1. Dê uma expressão para a verosimilhança de Y para a amostra Y e para os dados {y1 , y2 , . . . , ym }. 2. Defina o estimador de máxima verosimilhança de θ, enunciando as propriedades suficientes sobre a lei de Y e sobre Θ que garantem a existência desse estimador. 3. Enuncie as propriedades do estimador de máxima verosimilhança de θ que considera mais importantes. Exercı́cio 7 (Deviance em modelos exponenciais). Confirme os resultados apresentados para a deviance nos modelos que figuram na tabela 2. 8 Comentários sobre as referências Nesta secção fazem-se breves comentários às referências indicadas com o fim de encorajar a sua consulta. • [HE06] Um texto que também auxilia a familiarização com as principais técnicas estatı́sticas usando o software R. • [Pru11] É um texto recente onde as principais técnicas estatı́sticas podem ser exploradas com o auxı́lio do software R. • [Wil01] Um curso sobre Estatı́stica por um eminente probabilista; um olhar crı́tico e profundo sobre muitos conceitos. • [MN89] É a obra dos autores que introduziram os princiapais conceitos estudados neste capı́tulo. • [Agr07] Obra em que é dado mais enfâse à discussão aprofundada das caracteı́sticas próprias de cada um dos muitos exemplos práticos apresentados ilustrando muitos problemas práticos e os modelos mais adequados. • [Gil00] Apresentação sucinta e bastante completa dos GLM, contendo alguns dos detalhes técnicos mais importantes. • [jHLS13] A regressão logı́stica é explicada sem grande detalhe técnico mas pondo em evidências as principais ideias e a forma de interpretar os resultados das análises. • [Lon97] Obra completa com bastante detalhe técnico e análises que permitem uma melhor compreensão das técnicas e métodos apresentados. IME 19 16 de Outubro de 2015 [1] Capı́tulo II Modelos Lineares Generalizados Secção: 8 Referências [Agr07] A. Agresti. An Introduction to Categorical Data Analysis. Wiley Series in Probability and Statistics. Wiley, 2007. [Col02] D. Collett. Modelling Binary Data, Second Edition. Chapman & Hall/CRC Texts in Statistical Science. Taylor & Francis, 2002. [Gil00] J. Gill. Generalized Linear Models: A Unified Approach. Quantitative Applications in the Social Sciences. SAGE Publications, 2000. [HE06] T. Hothorn and B.S. Everitt. A Handbook of Statistical Analyses Using R. CRC Press, 2006. [IM90] G.I. Ivchenko and Yu.I. Medvedev. Mathematical Statistics. Mir Publishers Moscow, 1990. [jHLS13] David W. jun. Hosmer, Stanley Lemeshow, and Rodney X. Sturdivant. Applied logistic regression. 3rd ed. Hoboken, NJ: John Wiley & Sons, 3rd ed. edition, 2013. [Lan69] S. Lang. Analysis II. Number v. 2 in Addison-Wesley series in mathematics. Addison-Wesley Pub. Co., 1969. [Lin05] Yu. N. Lin’kov. Lectures in mathematical statistics. Parts 1 and 2. Translated from the Russian original by Oleg Klesov and Vladimir Zayats. Providence, RI: American Mathematical Society (AMS), 2005. [Lon97] J.Scott Long. Regression models for categorical and limited dependent variables. Thousand Oaks, CA: SAGE Publications, 1997. [MN89] P. McCullagh and J.A. Nelder. Generalized Linear Models, Second Edition. Chapman & Hall/CRC Monographs on Statistics & Applied Probability. Taylor & Francis, 1989. [Pru11] Randall Pruim. Foundations and Applications of Statistics: An Introduction Using R. Pure and Applied Undergraduate Texts. American Mathematical Society, 2011. [Wil01] D. Williams. Weighing the Odds: A Course in Probability and Statistics. Cambridge University Press, 2001. IME 20 16 de Outubro de 2015