Regressão Linear Múltipla
Transcrição
Regressão Linear Múltipla
I Engenharia de Processos e Sistemas Modelação matemática de base estatística/empírica: Construção de modelos empíricos usando metodologias de regressão linear Marco Reis:2014 © Construção de modelos empíricos usando metodologias de regressão linear Objectivos: • • • • • • • • • MSR 2010 © Identificar a componente estrutural/determinística e aleatória/estocástica do modelo de RL; Compreender o que é um modelo de RL e o seu âmbito de aplicação; Perceber como se estimam os parâmetros de um modelo de RL e saber quais os pressupostos subjacentes ao modelo estimado; Interpretar os IC para os coeficientes do modelo (parte estrutural); Interpretar os IC para a resposta média e de previsão; Saber como validar um modelo de RL; Compreender a origem do problema da colinearidade e como o diagnosticar; Saber os passos a seguir na construção de uma modelo de RL Distinguir os vários métodos de selecção de variáveis Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 3 Metodologias de Modelação Variáveis associadas ao que entra no processo (x’s) Variáveis associadas ao que sai do processo (y’s) Processo Genérico X’s “Inputs” Predictores Regressores Variáveis de entrada Variáveis independentes Variáveis ligadas a parâmetros do processo (x’s) Y’s “Outputs” Respostas Variáveis de saída Variáveis dependentes Objectivo: construir um modelo que relacione as variáveis de entrada (x’s) com as de saída (y’s). MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 4 Metodologias de Modelação “Knowledge intensive” “Data intensive” Modelos baseados em dados Modelos baseados em primeiros princípios → muito poucas hipóteses são colocadas → Estrutura completamente definida dV F0 F dt quanto à estrutura do modelo F0, T0, CA0 dVCA F0C A0 FC A k0e E / RT C AV dt Fcj, Tcj dVT H UA F0T0 FT k e E / RT C AV (T Tcj ) dt C p 0 C p dVcjTcj dt Y E(Y|x) LC TC Fcj, Tcj,0 UA Fcj (Tcj ,0 Tcj ) (T Tcj ) j C p ,cj F, T, CA F Fset Kc 2 Vset V Y E(Y|x) x Fcj Fcj ,set Kc1 Tset T x MSR 2010 © X X Engenharia de Processos e Sistemas Modelos empíricos → Algumas restrições quanto à estrutura doGEPSI/CIEPQPF modelo DEQ-FCTUC 5 “The curse of dimensionality” 1D: Com N pontos, consegue-se a seguinte taxa de amostragem, numa linha de comprimento L: 1 2 3 … … N 0 L N TA L MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 6 “The curse of dimensionality” 2D: Com N pontos, consegue-se a seguinte taxa de amostragem, num quadrado de lado L: N TA 2 L Para garantir igual cobertura, ter-se-ia de usar N2 pontos MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 7 “The curse of dimensionality” 3D: Com N pontos, consegue-se a seguinte taxa de amostragem, num cubo de lado L: N TA 3 L Para garantir igual cobertura, ter-se-ia de usar N3 pontos MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 8 “The curse of dimensionality” m-D: Com N pontos, consegue-se a seguinte taxa de amostragem, num hipercubo de lado L: N TA m L Para garantir igual cobertura, ter-se-ia de usar Nm pontos MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 9 Metodologias de Modelação Utilidade dos modelos: MSR 2010 © Previsão de valores futuros de uma variável de saída; Medição do efeito associado a mudanças processuais; Controlo e/ou monitorização do processo; Optimização do processo; … Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 10 Regressão (Previsão) vs Classificação Regressão (Previsão): As saídas do modelo são variáveis quantitativas; Classificação: As saídas do modelo são variáveis qualitativas (classes ou categorias) MSR 2010 © Qualidade do produto (Mau, Intermédio, Bom); Reconhecimento de caracteres (padrões); … Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 11 Regressão (Previsão) Treino do modelo vs Teste do modelo Observ. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X1 0,165 0,178 0,102 0,191 0,239 0,178 0,193 0,164 0,129 0,193 0,154 0,065 0,144 0,138 0,219 X2 0,11 0,14 0,089 0,107 0,146 0,115 0,089 0,113 0,098 0,134 0,071 0,053 0,078 0,118 0,145 X3 0,075 0,105 0,068 0,06 0,094 0,078 0,041 0,078 0,074 0,093 0,03 0,036 0,043 0,093 0,101 X4 0,053 0,077 0,048 0,046 0,067 0,056 0,03 0,056 0,057 0,066 0,016 0,025 0,028 0,063 0,07 Observ. 16 17 18 19 20 21 23 24 25 X1 0,146 0,128 0,107 0,146 0,105 0,152 0,139 0,108 0,12 X2 0,17 0,144 0,105 0,174 0,126 0,205 0,207 0,162 0,187 X3 0,134 0,125 0,102 0,136 0,094 0,128 0,109 0,082 0,083 X4 0,103 0,101 0,081 0,099 0,068 0,081 0,057 0,04 0,038 X Xnew Modelo (β^0, β^1,…, β^m,σ^ 2) Observ. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Y 0,456 0,456 0,152 0,76 0,76 0,608 0,76 0,456 0,304 0,608 0,608 0,152 0,608 0,304 0,76 Y I. Treino/Estimação Modelo (β^0, β^1,…, β^m,σ^ 2) ? II. Teste/Previsão MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 12 Classificação Treino do modelo vs Teste do modelo Observ. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X1 0,165 0,178 0,102 0,191 0,239 0,178 0,193 0,164 0,129 0,193 0,154 0,065 0,144 0,138 0,219 X2 0,11 0,14 0,089 0,107 0,146 0,115 0,089 0,113 0,098 0,134 0,071 0,053 0,078 0,118 0,145 X3 0,075 0,105 0,068 0,06 0,094 0,078 0,041 0,078 0,074 0,093 0,03 0,036 0,043 0,093 0,101 X4 0,053 0,077 0,048 0,046 0,067 0,056 0,03 0,056 0,057 0,066 0,016 0,025 0,028 0,063 0,07 Observ. 16 17 18 19 20 21 23 24 25 X1 0,146 0,128 0,107 0,146 0,105 0,152 0,139 0,108 0,12 X2 0,17 0,144 0,105 0,174 0,126 0,205 0,207 0,162 0,187 X3 0,134 0,125 0,102 0,136 0,094 0,128 0,109 0,082 0,083 X4 0,103 0,101 0,081 0,099 0,068 0,081 0,057 0,04 0,038 X Xnew Modelo I. Treino/Estimação Modelo Observ. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 C A A B A B B A A B B B A B A A C ? II. Teste/Previsão MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 13 Regressão Linear Múltipla O modelo de regressão linear múltipla Componente estocástica Componente estrutural Yi 0 1 xi1 2 xi 2 Propriedades do termo εi (pressupostos): variância dos resíduos é constante; todos os resíduos são independentes; seguem uma lei normal com média nula. MSR 2010 © m xim i Pressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros). Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 14 Regressão Linear Múltipla Yi 0 1 xi1 2 xi 2 m xim i β0 - Intercepção na origem (“intercept”, “constant”); βi – Coeficientes de regressão parciais (“partial regression coefficients”). MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 15 Regressão Linear Múltipla Pode ser usado para descrever relações nãolineares, e.g: y 0 1 x1 2 x2 11 x12 22 x22 12 x1 x2 Assume que os X’s estão isentos de qualquer erro. MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 16 Regressão Linear Múltipla Notação matricial Y1 1 x11 Yn 1 xn1 x1m 0 1 xnm m n Y XB E MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 17 Regressão Linear Múltipla Estimação do modelo de regressão linear múltipla: Mínimos quadrados Bˆ Min B i.e., MSR 2010 © n Y i i 1 0 1 x1i 2 x2i m xmi 2 T ˆ B Min Y XB Y XB B Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 18 Regressão Linear Múltipla Estimação de parâmetros em RLM Minimizar a soma dos desvios quadráticos (verticais …) 3D Surface Plot Y=105,1527+0,2131*X1+0,4855*X2 195 190 185 180 175 170 165 160 155 MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 19 Regressão Linear Múltipla Métodos dos mínimos quadrados: Solução: CN de optimalidade Equações normais do método dos mínimos quadrados MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 20 Regressão Linear Múltipla Solução (notação matricial): T ˆ B X X X Y T MSR 2010 © 1 Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 21 Regressão Linear Múltipla Estimativa da variância do termo estocástico do modelo de regressão linear múltipla: N ˆ 2 MSR 2010 © 2 ˆ i SSr N m 1 N m 1 i 1 N – número de observações m – número de variáveis Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 22 Inferência em Regressão Linear Múltipla •Montegomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression Analysis. Wiley. 4th ed. •Montgomery, D.C.; G.C. Runger, 1999, Applied Statistics and Probability for Engineers, 2nd ed., Wiley, NY •Draper, N.R.; H. Smith, 1998, Applied Regression Analysis, 3rd ed., Wiley, NY MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 23 Regressão Linear Múltipla Inferência Propriedades das estimativas dos parâmetros Seguem uma distribuição normal multivariada: 2 ˆ B ~ N B, X X MSR 2010 © T 1 Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 24 Regressão Linear Múltipla Inferência ANOVA Teste à significância do modelo de regressão linear múltipla: Regressão H0: β1 = β2 = … βm = 0 H1: βj ≠ 0 para pelo menos um j GEPSI/CIEPQPF MSR 2009DEQ-FCTUC Regressão Linear Múltipla Inferência Decomposição ANOVA da variabilidade (soma dos quadrados) total (SSt), em termos da componente explicada pelo modelo de regressão (SSreg) e da componente residual (SSr): n y y i i 1 Variação Total SSt Variabilidade observada Regressão = 2 n n yˆi y yi yˆi i 1 2 2 i 1 Variação devida à Regressão SSreg Variabilidade explicada pelo modelo (parte estrutural do modelo de regressão) Variação Residual SSr Variabilidade não explicada + pelo modelo (parte estocástica do modelo de regressão) GEPSI/CIEPQPF MSR 2009DEQ-FCTUC Regressão Linear Múltipla Inferência Tabela ANOVA em regressão linear múltipla: Fontes de Variação (1) Regressão Residual Total Variações (Somas de quadrados) (2) SSreg SSr SSt Graus de Liberdade (3) p n–p–1 N–1 p = # variáveis de entrada ou regressores = # parâmetros – 1 Regressão Médias das Somas dos Quadrados (4) Estatística de Teste (F) MSreg s2 MSreg / s2 F0 (5) SSreg p SSr N p 1 GEPSI/CIEPQPF MSR 2009DEQ-FCTUC Regressão Linear Múltipla Métricas de Qualidade do Modelo Coeficiente de determinação (R2) Uma medida da qualidade do modelo (0≤ R2≤1) Definição geral (modelos univariados/multivariados) SSreg SSr R 1 SSt SSt 2 (Fracção da variabilidade total que é explicada pelo modelo) MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 28 Regressão Linear Múltipla Métricas de Qualidade do Modelo O coeficiente R2 permite aferir sobre a qualidade do ajuste, aumentando sempre que se adiciona mais uma variável Mesmo que uma variável não esteja relacionada com a resposta, há sempre uma pequena parte da sua variabilidade que aquela ajuda a explicar, por alinhamentos aleatórios com Y. Estas variáveis não trazem nada de novo para o modelo em termos de previsões futuras, tendo pelo contrário uma acção prejudicial e destabilizadora. Para aferir sobre a qualidade do modelo é pois importante penalizar a métrica de qualidade com o número de variáveis utilizado. MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 29 Regressão Linear Múltipla Métricas de Qualidade do Modelo R2 ajustado (R2adj) Penaliza a introdução de termos adicionais no modelo Previne “overfitting” e a utilização de regressores com pouco potencial explicativo da variabilidade da resposta 2 adj R MSR 2010 © 1 SSr N p 1 SSt N 1 1 N 1 1 R N p 1 Engenharia de Processos e Sistemas 2 GEPSI/CIEPQPF DEQ-FCTUC 30 Regressão Linear Múltipla Inferência TH aos coeficientes individuais Para analisar a significância de alguns parâmetros em particular. Nas condições do modelo de regressão ser válido: MSR 2010 © Os parâmetros seguem distribuições normais; A sua média é centrada nos valores exactos e a sua variância é dada pelos elementos diagonais da matriz de variâncias-covariâncias. Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 31 Valor de prova (p-value) Probabilidade de obter um desvio maior ou igual ao verificado, se H0 for válida! GEPSI/CIEPQPF DEQ-FCTUC H 0 : i 0 H 1: i 0 f x Amostra 1 Amostra 2 Amostra 3 0 ˆi1 ˆi 2 ˆi3 ˆi Teste bilateral: Pr(|ET|>ET0 |H0 verdadeira) GEPSI/CIEPQPF DEQ-FCTUC H 0 : i 0 H 1: i 0 f x Amostra 1 Amostra 2 Amostra 3 0 ˆi1 ˆi 2 ˆi3 ˆi Teste Unilateral à direita: Pr(ET>ET0 |H0 verdadeira); Teste Unilateral à esquerda: Pr(ET<ET0 |H0 verdadeira); GEPSI/CIEPQPF DEQ-FCTUC Regressão Linear Múltipla Inferência TH (parâmetros individuais): Estatística de teste Elemento jj da matriz de variâncias-covarâncias Rejeitar H0 se |t0| > t/2,n-p-1. Alternativamente, usar abordagem baseada em IC … MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 35 Regressão Linear Múltipla Inferência IC para os parâmetros do modelo de regressão múltipla IC(βj ,(1-α)x100%): ˆ j t 2, N p 1 ˆ 2C jj j ˆ j t 2, N p 1 ˆ 2C jj Elemento jj da matriz de variâncias-covarâncias MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 36 Regressão Linear Univariada Inferência em regressão linear IC para a média e intervalo de previsão Intervalo de previsão Intervalo de confiança para a média MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 37 Regressão Linear Múltipla Inferência IC para a resposta média ˆY |x t 2, N p 1 ˆ x 2 T 0 0 X X T 1 x0 Y |x0 ˆY |x0 t 2, N p 1 ˆ x 2 T 0 X X T 1 x0 Intervalo de previsão yˆ0 t 2, N p 1 ˆ 1 x 2 T 0 X X T 1 x0 y0 yˆ0 t 2, N p 1 ˆ 1 x 2 T 0 X X T 1 x0 yˆ0 x0 ˆ ˆY |x0 MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 38 Regressão Linear Univariada Inferência em regressão linear Exemplo 1 Pretende-se determinar a influência de três parâmetros processuais (X1, X2 e X3) numa variável de qualidade do produto (Y). Para tal, recolheram-se dados do processo durante períodos de laboração normal, com os quais se construiu uma base de dados. Utilize esta base de dados para estimar um modelo empírico para o processo em causa, e determine quais o(s) parâmetro(s) que mais influenciam a variável de qualidade. MSR 2009-2012 Regressão Linear Univariada GEPSI/CIEPQPF DEQ-FCTUC 39 Regressão Linear Múltipla Gráficos Matrix Plot of Y-Answer Tim; X1-Number of; X2-Calls per; X3-Time per 100 110 120 5 6 7 50 30 Y-Answer Time (Average) (secs) 10 120 110 100 X1-Number of personnel Y vs X1 1380 1320 X2-Calls per hour (average) 1260 7 6 5 X3-Time per call (average mins) Y vs X3 10 30 X1 vs X3 50 1260 40 Regressão 1320 1380 GEPSI/CIEPQPF MSR 2009DEQ-FCTUC Regressão Linear Múltipla MINITAB: Stat > Regression > Regression … Não é significativamente ≠ 0! R-Sq subiu, mas R-Sq(adj) desceu. O modelo é significante: pelo menos um coeficiente de uma variável é diferente de zero. 41 Regressão GEPSI/CIEPQPF MSR 2009DEQ-FCTUC GEPSI/CIEPQPF DEQ-FCTUC O Problema da Colinearidade MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 43 Regressão Linear Múltipla Colinearidade Exemplo Construir um modelo para Y vs X1,X2 Source: Sokal and Rohlf, Biometry, 3ed., Freeman: NY (1995). MSR 2010 © Y X1 X2 -5 -4 3 -7 -2 3 -1 -2 1 -3 0 1 3 0 -1 1 2 -1 7 2 -3 5 4 -3 Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 44 Regressão Linear Múltipla Colinearidade Matrix Plot of Y; X1; X2 -5 0 5 5 0 Y -5 5 0 X1 -5 2 0 X2 -2 -5 MSR 2010 © 0 5 -2 Engenharia de Processos e Sistemas 0 2 GEPSI/CIEPQPF DEQ-FCTUC 45 Regressão Linear Múltipla Colinearidade MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 46 Regressão Linear Múltipla Colinearidade Scatterplot of Y vs X1 8 6 6 4 4 2 2 0 0 Y Y Scatterplot of Y vs X1 8 -2 -2 -4 -4 -6 -6 -8 X2 -3 -1 1 3 -8 -5 -4 -3 -2 -1 0 1 2 3 4 -5 -4 X1 MSR 2010 © -3 -2 -1 0 1 2 3 4 X1 Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 47 Regressão Linear Múltipla Colinearidade Nota: MSR 2010 © Os coeficientes de regressão parciais representam a contribuição de um predictor na variável de saída, quando os outros se mantêm constantes; A magnitude e sinal dos coeficientes de regressão parciais, depende dos predictores incorporados no modelo (sempre que estes apresentam correlação entre si). Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 48 Regressão Linear Múltipla Colinearidade Por outro lado,… Analisando a variância das estimativas Simulação: Gerar aleatoriamente amostras com 10 observações Dois níveis de correlação entre X1 e X2 Resultados para 1000 simulações Low correlation ( =0) 20 15 15 10 10 Estimates Valores exactos dos parâmetros Estimates High correlation ( =0.95) 20 5 5 0 0 -5 -5 -10 1 2 -10 Variable MSR 2010 © Engenharia de Processos e Sistemas 1 2 Variable GEPSI/CIEPQPF DEQ-FCTUC 49 Regressão Linear Múltipla Colinearidade Ou seja: Quando a correlação entre X1 e X2 é de 0.95 a variância na estimativa dos coeficientes que afectam as variáveis X1 e X2 é cerca de 10 vezes superior àquela obtida quando não há correlação entre X1 e X2. Var ( Bˆ ) X X 2 T MSR 2010 © 1 Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 50 Regressão Linear Múltipla Colinearidade Efeitos da colinearidade na estimação de parâmetros a) b) Estimated planes for an High collinearity data set (a) and a Low collinearity data set (b), in the initial situation (I) and when an additional data point was added (II), marked with a circle in the 3D scatter plots. The projection of the observations and contours in the Y=0 plane are also presented. MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 51 Regressão Linear Múltipla Colinearidade Conclusões: Quando há colinearidade nos regressores: MSR 2010 © É difícil interpretar o modelo (face aos gráficos disponíveis) As estimativas dos parâmetros são mais instáveis (maior variância) Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 52 Regressão Linear Múltipla Colinearidade Nota: A correlação entre variáveis é muito comum em aplicações industriais: MSR 2010 © Restrições processuais (balanços mássicos e de energia); Anéis de controlo, metodologias e protocolos de actuação; Instrumentação (instrumentação redundante, espectrofotómetros, etc.). Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 53 Regressão Linear Múltipla Colinearidade Como detectar a presença de colinearidade? Como lidar com a sua presença? MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 54 Regressão Linear Múltipla Colinearidade Detecção da presença de colinearidade Matrizes de correlação e de gráficos de dispersão Matrix of scatter plots Ra_CD Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD Correlations (AS.vs.Bendtsen) Rz_CD Marked correlations are signif icant at p < ,05000 N=36 (Casew is e deletion of missing data) Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD 1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,30 -0,63 0,89 0,68 0,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,31 -0,53 0,90 0,73 Rq_CD 1,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,30 -0,61 0,89 0,68 0,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,57 -0,51 0,75 0,69 0,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,35 -0,51 0,85 0,68 0,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,29 -0,61 0,71 0,36 0,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51Rp_CD 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,28 -0,52 0,73 0,37 0,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89 -0,31 0,13 0,37 -0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,28 0,74 -0,48 -0,35 0,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,06 -0,50 0,95 0,69 0,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,18 -0,40 0,85 0,93 0,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 Rt_CD1,00 0,89 0,95 0,84 0,88 0,22 -0,60 0,94 0,71 0,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,28 -0,49 0,94 0,79 0,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,22 -0,58 0,95 0,72 0,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,59 -0,48 0,76 0,73 0,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,30 -0,43 0,93 0,80 0,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 R Sm_CD 0,70 1,00 0,90 0,12 -0,63 0,73 0,24 0,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,17 -0,50 0,83 0,37 0,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00 -0,29 -0,03 0,21 -0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,29 1,00 -0,44 -0,27 0,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,03 -0,44 1,00 0,75 0,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 R S_CD 0,37 0,21 -0,27 0,75 1,00 MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 55 Regressão Linear Múltipla Colinearidade Detecção da presença de colinearidade Conhecimento sobre o processo: MSR 2010 © Verificar se alguns coeficientes têm sinal contrário ao esperado; Verificar se variáveis que se esperavam importantes, não têm uma magnitude correspondente; Verificar se a eliminação de uma linha ou coluna, produz alterações muito significativas; O teste F baseado em ANOVA é significante, mas os coeficientes individuais não o são. Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 56 Regressão Linear Múltipla Colinearidade Detecção da presença de colinearidade Estatísticas de colinearidade: Var ( Bˆ ) X X T 1 2 Elemento j da diagonal de (XTX)-1 onde Rj2 é o R2 para a regressão de Xj contra todos os outros p – 1 regressores. “Variance Inflation Factor” (VIF) VIF ˆ j MSR 2010 © 1 C jj 2 1 R j 1 1 R2j Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 57 Regressão Linear Múltipla Colinearidade Análise do VIF: Valores de referência: MSR 2010 © VIF>10 → colinearidade é um problema; VIF<5 → colinearidade não é um problema; 5<VIF<10 → “zona cinzenta” (colinearidade pode ser um problema). Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 58 Regressão Linear Múltipla Colinearidade Como lidar com a sua presença? MSR 2010 © Métodos de selecção de variáveis Métodos de projecção (selecção de dimensões) Métodos de encolhimento Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 59 Regressão Linear Múltipla Colinearidade Selecção de variáveis Princípio: MSR 2010 © Se há redundância entre os X’s, seleccionar aqueles que mais explicam a variabilidade apresentada pela resposta (Y), e retirar todas aquelas variáveis que não acrescentem capacidade explicativa. Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 60 Regressão Linear Múltipla Colinearidade Metodologias mais comuns de selecção de variáveis: MSR 2010 © Forward addition Backward elimination Forward stepwise selection “Best subset” regression Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 61 Regressão Linear Múltipla Inferência Nos métodos de selecção de variáveis analisa-se a significância estatística associada à introdução de grupos de variáveis adicionais: MSR 2010 © “Partial F-test” (ou “Extra Sum of Squares method”) Até agora só a analisámos a situação estática. Temos um conjunto de variáveis de entrada com as quais queremos construir um modelo para explicar a resposta. E se quisermos incluir mais variáveis? – Situação dinâmica! Pretendemos agora saber se, introduzindo um conjunto extra de variáveis (# X’s ≥ 1), a capacidade de explicação da variabilidade de Y melhora significativamente. Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 62 Regressão Linear Múltipla Inferência “Partial F-test” Vamos considerar que dispomos um modelo com p variáveis e pretendemos saber se um subconjunto destas variáveis (r) contribui, como um todo, significativamente para o modelo. Ou seja, se particionarmos todos os coeficientes do modelo num conjunto com r variáveis (β1 ) e noutro com as restantes (β2), pretendemos testar as hipóteses: H0: β1 = 0 MSR 2010 © H1: β1 ≠ 0 Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 63 Regressão Linear Múltipla Selecção de Variáveis Select the predictor having the highest correlation with y Forward addition Yes Yes Select additional predictor Are other predictors available? Is selected predictor significant? No Yes (Fail to enter) (Enter variable) f j fin MSR 2010 © Is variable significant? No Examine final model Validate model No No prediction possible with MLR f j fin Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 66 Regressão Linear Múltipla Selecção de Variáveis NOTA: As variáveis são testadas sequencialmente, de acordo com a magnitude da estatística do teste F-parcial (partial F-test); Variáveis seleccionadas não podem ser depois removidas. MSR 2010 © Se esta estatística for superior a “F to enter” (f in), a variável passa a integrar o modelo; Caso contrário, o processo pára. Não explora o efeito que a adição de uma variável pode ter naquelas já adicionadas. Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 67 Regressão Linear Múltipla Selecção de Variáveis Select all variables and include them in the model Select the variable that contributes the least to explaining the Y variability (when all others are in the model) Backward elimination No (Remove variable) Is its contribution significant ? Yes (Do not remove variable ) f j f out f j f out Validate model Nota: Variáveis eliminadas, não podem voltar a integrar o modelo numa fase posterior. MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 68 Regressão Linear Múltipla Selecção de Variáveis Select the predictor having the highest correlation with y Forward stepwise selection Yes Select additional predictor Are other predictors available? Is selected predictor significant? f f f f (Enter variable) Yes No (Fail to enter) j Yes in j Yes Is variable significant? No Examine final model Validate model No No prediction possible with MLR in Nota: Is variance explained fin fout normalmente fin fout by each variable in the Variáveis selecionadas podem vir a ser model significant? removidas posteriormente, caso se tornem f f No (Remove variables) redundantes quando outras forem adicionadas. j MSR 2010 © out Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 69 Regressão Linear Múltipla Selecção de Variáveis “Best subset” regression: MSR 2010 © Para cada combinação distinta de k variáveis (k=kmin : kmax): Estimar o correspondente modelo MLR; Calcular o valor do critério de “qualidade de ajuste” seleccionado; Ordenar as combinações de variáveis de acordo com o valor do critério a que elas conduziram; Guardar os resultados para as melhores N combinações; Apresentar os resultados para as melhores N combinações obtidas em cada subconjunto de dimensão k considerado (k=kmin : kmax). Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 70 Regressão Linear Múltipla Selecção de Variáveis Critérios de qualidade de ajuste: R2 R2adj Mallows-Cp Também penaliza a adição de variáveis sem poder explicativo Uma medida do erro quadrático total do modelo de regressão Estimado com o modelo em estudo (k variáveis). Gráfico Cp vs p SSr k Cp n 2 k 1 2 ˆ Estimado com o modelo completo. MSR 2010 © Se o modelo postulado for correcto, Cp dever ser próximo de k+1 (número de parâmetros) Logo, escolher modelo para o qual o Cp é baixo e próximo de k+1. Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 71 Regressão Linear Múltipla Selecção de Variáveis Critérios de qualidade de ajuste (cont.): Mallows-Cp É conveniente traçar um gráfico Cp vs. (k+1): procurar qual o modelo com Cp mais baixo que está mais próximo da recta Cp=k+1. PRESS “Leverage” da observação i MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 72 Regressão Linear Múltipla Selecção de Variáveis Statistica MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 73 Metodologia Geral de RLM MSR 2010 © Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 74 Regressão Linear Múltipla Metodologia em RL Passo 1 Estudar estatísticas e gráficos Passo 2 Formular o modelo Passo 3 Estimar o modelo Bom ajuste OK! MSR 2010 © Passo 4 Validar o modelo Passo 5 Apresentar resultados. Usar modelo. Engenharia de Processos e Sistemas Ajuste não satisfatório GEPSI/CIEPQPF DEQ-FCTUC 75 Regressão Linear Múltipla 1. Familiarização com os dados Fazer uso extensivo de todas as ferramentas de estatística descritiva que nos ajudem a familiarizar com os dados do nosso problema, por exemplo: MSR 2010 © Examinar médias, desvios padrão, alguns percentis, mínimos, máximos, para todas as variáveis de entrada e de saída; Examinar a matriz de correlação (existe colinearidade entre os x’s? qual/quais os x’s mais correlacionados linearmente com o y?); Construir gráficos de dispersão para todas as combinações de x’s e entre cada x e o y; Se os dados foram recolhidos ao longo do tempo, analisar, individualmente, o gráfico temporal para cada variável; Detectar e examinar outliers. Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 76 Regressão Linear Múltipla 2. Formulação do modelo MSR 2010 © Com base no conhecimento existente a priori e/ou com base nos gráficos construídos em 1 para as relações entre y e os vários x’s, propor um modelo de regressão que relacione as variáveis de entrada com a variável de saída; Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 77 Regressão Linear Múltipla 3. Estimar os parâmetros do modelo Proceder ao ajuste do modelo aos dados recolhidos. Como resultado, obtém-se as estimativas para os parâmetros do modelo definido em 2., bem como outras grandezas relacionadas (por exemplo, parâmetros de qualidade, valores de prova para diversos testes estatísticos). Deve-se então: MSR 2010 © Analisar os resultados em busca de variáveis eventualmente mais importantes na explicação da variabilidade de y; Avaliar a qualidade do ajuste; Verificar se existe colinearidade entre as variáveis (calcular VIF para cada variável existente no modelo), e se esta pode constituir um problema. Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 78 Regressão Linear Múltipla 4. Validação do modelo estimado MSR 2010 © Construir os seguintes gráficos envolvendo os resíduos, para verificar se algum/ns dos pressupostos subjacentes aos modelos de regressão linear está/ão a ser violado/s: Resíduos vs. valores previstos (para verificar, por exemplo, se a variância dos resíduos não depende do nível de y); Resíduos vs. cada uma das variáveis de entrada (verificar que não existe estrutura por explicar devido, por exemplo, a não considerar termos não-lineares envolvendo as variáveis de entrada); Resíduos vs. tempo, ou sequência de observações (verificar a independência dos resíduos ao longo das observações); Gráficos de probabilidade normal para resíduos (verificar o pressuposto de normalidade dos resíduos). (Padrões não aleatórios são indicativo de um modelo não adequado) Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 79 Regressão Linear Múltipla 5. Apresentar os resultados e usar o modelo MSR 2010 © Nesta fase sintetizam-se os resultados para o modelo desenvolvido (desde que este seja satisfatório). Os dados utilizados e pressupostos subjacentes devem ser também indicados. Usar então o modelo e criar uma metodologia que permita averiguar a sua validade ao longo do tempo, se o seu uso não se restringir à situação presente. Engenharia de Processos e Sistemas GEPSI/CIEPQPF DEQ-FCTUC 80 Regressão Linear Múltipla Selecção de Variáveis Exemplo 2 A rugosidade do papel é normalmente inferida indirectamente por um aparelho denominado “Bendtsen”. Este mede a quantidade de ar que passa entre um anel rígido e a superfície do papel durante um determinado intervalo de tempo, a qual está relacionada de alguma forma com a rugosidade do papel. Pretende-se estudar quais os factores fundamentais ao nível da rugosidade do papel, que influenciam estas medições. Para tal, recolheram-se perfis rigorosos da superfície do papel usando técnicas de perfilometria, em duas direcções (MD e CD), a partir dos quais foram calculados vários parâmetros geométricos com significados bem precisos. Que parâmetros fundamentais mais influenciam/explicam os resultados produzidos pelo Bendtsen? 81 Regressão GEPSI/CIEPQPF DEQ-FCTUC Regressão Linear Múltipla Selecção de Variáveis Parâmetros dos perfis (X’s) Ra Arithmetical mean deviation of profile Rz Maximum height of profile Rq RMS deviation of profile Rp Maximum profile peak height Rt Total height of profile R Sm Mean width of profile elements R Sk Skewness of profile R Ku Kurtosis of profile Rv Maximum profile valley depth Rdq RMS slope of profile 82 Regressão GEPSI/CIEPQPF DEQ-FCTUC Regressão Linear Múltipla Selecção de Variáveis MD CD Bendtsen Perfilómetro X’s – média dos parâmetros calculados para 3 perfis na direcção MD, CD (11+11=22) Y – média de 6 medições com o Bendtsen, nas mesmas posições 83 Regressão GEPSI/CIEPQPF DEQ-FCTUC Regressão Linear Múltipla Selecção de Variáveis Detecção de colinearidade Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD Regressão Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rt_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD 84 VIF Correlations (AS.vs.Bendtsen) Marked correlations are signif icant at p < ,05000 N=36 (Casew is e deletion of missing Ra_CDdata) Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_M 0 0,85 0,84 0,92 0,91 0,98 0,96 0,98 0,81 0,94 -0,62 0,46 0,89 0,89 0,96 0,94 1,00 0,99 1,00 0 0,83 0,79 0,94 0,93 0,97 0,97 0,97 0,84 0,96 -0,51 0,46 0,88 0,98 Rz_CD 0,86 0,95 0,99 1,00 0,99 0 0,85 0,83 0,92 0,91 0,98 0,96 0,98 0,81 0,94 -0,60 0,46 0,89 0,89 0,97 0,94 1,00 0,99 1,00 0 0,74 0,70 0,89 0,97 0,89 0,91 0,89 0,77 0,81 -0,54 0,71 0,84 0,83 0,94 1,00 0,94 0,95 0,94 0 0,79 0,76 0,90 0,90 0,93 0,93 0,93 0,79 0,93 -0,43 0,48 0,88 Rq_CD0,91 1,00 0,94 0,97 0,98 0,96 0 0,80 0,86 0,73 0,75 0,82 0,78 0,83 0,49 0,80 -0,57 0,45 0,95 1,00 0,88 0,83 0,89 0,86 0,89 0 0,83 0,87 0,75 0,77 0,83 0,80 0,84 0,51 0,84 -0,40 0,38 1,00 0,95 0,91 0,84 0,89 0,88 0,89 Rp_CD 0 0,22 0,22 0,41 0,67 0,36 0,42 0,36 0,34 0,19 -0,45 1,00 0,38 0,45 0,48 0,71 0,46 0,46 0,46 -0 -0,54 -0,58 -0,52 -0,52 -0,59 -0,54 -0,60 -0,47 -0,44 1,00 -0,45 -0,40 -0,57 -0,54 -0,43 -0,60 -0,51 -0,62 0 0,84 0,79 0,91 0,80 0,96 0,94 0,96 0,83 1,00 -0,44 0,19 0,84 0,80 0,93 0,81 0,94 0,96 0,94 Rt_CD 0 0,58 0,47 0,87 0,79 0,84 0,88 0,84 1,00 0,83 -0,47 0,34 0,51 0,49 0,79 0,77 0,81 0,84 0,81 0 0,88 0,84 0,95 0,89 1,00 0,98 1,00 0,84 0,96 -0,60 0,36 0,84 0,83 0,93 0,89 0,98 0,97 0,98 0 0,84 0,75 0,99 0,93 0,98 1,00 0,98 0,88 0,94 -0,54 0,42 0,80 0,78 0,93 0,91 0,96 0,97 0,96 R Sm_CD 0 0,87 0,83 0,96 0,90 1,00 0,98 1,00 0,84 0,96 -0,59 0,36 0,83 0,82 0,93 0,89 0,98 0,97 0,98 0 0,75 0,67 0,92 1,00 0,90 0,93 0,89 0,79 0,80 -0,52 0,67 0,77 0,75 0,90 0,97 0,91 0,93 0,91 0 0,84 0,70 1,00 0,92 0,96 0,99 0,95 0,87 0,91 -0,52 0,41 0,75 0,73 0,90 0,89 0,92 0,94 0,92 R S_CD 0 0,90 1,00 0,70 0,67 0,83 0,75 0,84 0,47 0,79 -0,58 0,22 0,87 0,86 0,76 0,70 0,83 0,79 0,84 0 1,00 0,90 0,84 0,75 0,87 0,84 0,88 0,58 0,84 -0,54 0,22 0,83 0,80 0,79 0,74 0,85 0,83 0,85 1 0,17 0,12 0,30 0,59 0,22 0,22R Sk_CD 0,28 0,18 0,06 -0,28 0,89 0,28 0,29 0,35 0,57 0,30 0,31 0,30 -0 -0,50 -0,63 -0,48 -0,43 -0,58 -0,49 -0,60 -0,40 -0,50 0,74 -0,31 -0,52 -0,61 -0,51 -0,51 -0,61 -0,53 -0,63 -0 0,83 0,73 0,93 0,76 0,95 0,94 0,94 0,85 0,95 -0,48 0,13 0,73 0,71 0,85 0,75 0,89 0,90 0,89 0 0,37 0,24 0,80 0,73 0,72 0,79 R Ku_CD 0,71 0,93 0,69 -0,35 0,37 0,37 0,36 0,68 0,69 0,68 0,73 0,68 13,01 10,98 12,89 18,42 7,07 4,74 5,54 2,21 1,59 4,26 2,74 10,47 9,55 10,14 7,33 6,98 1,92 1,68 3,01 2,82 Rv_CD Rdq_CD GEPSI/CIEPQPF DEQ-FCTUC Regressão Linear Múltipla Selecção de Variáveis Resultados: Stepwise Regression MINITAB: Stat > Regression > Stepwise … Step 1 Step 2 Resultados Finais 85 Regressão GEPSI/CIEPQPF DEQ-FCTUC Regressão Linear Múltipla Selecção de Variáveis Sumário dos resultados Forward Stepwise Backward Stepwise Forward addition Backward removal Intercept Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD R2 R2adj -361,65 549,03 210,51 -361,65 41,22 41,22 -1,41 -4,19 -380,47 -1,41 -4,19 -380,47 -4752,87 -4752,87 37,86 37,86 Step 1 0,45 0,45 Step 2 0,94 0,94 355,50 355,50 18,06 18,06 0,98 0,97 0,94 0,94 86 Regressão 549,03 210,51 0,98 0,97 GEPSI/CIEPQPF DEQ-FCTUC Regressão Linear Múltipla Selecção de Variáveis Results: interpretation Ra Arithmetical mean deviation of profile Rz Maximum height of profile Rq RMS deviation of profile Rp Maximum profile peak height Rt Total height of profile R Sm Mean width of profile elements R Sk Skewness of profile R Ku Kurtosis of profile Rv Maximum profile valley depth Rdq RMS slope of profile Regressão Highest peak (in sampling length) Average “wavelength” of irregularities 87 GEPSI/CIEPQPF DEQ-FCTUC Regressão Linear Múltipla Selecção de Variáveis Resultados: “Best Subset” Regression MINITAB: Stat > Regression > Best Subsets … Statistica Adjusted R square and standardized regression coefficients for each submodel Stepwise Para estudar modelos com # max. 10 variáveis, seria necessário estimar 4 194 302 modelos … 88 Regressão GEPSI/CIEPQPF DEQ-FCTUC Regressão Linear Múltipla Selecção de Variáveis Resultados: “Best Subset” Regression Matlab Best subset regression 0.96 0.94 R2 adj 0.92 0.9 0.88 Quantas variáveis usar no modelo? 0.86 0.84 1 2 3 4 Subsets 89 Regressão GEPSI/CIEPQPF DEQ-FCTUC Regressão Linear Múltipla Selecção de Variáveis Notas: A ordem de entrada de variáveis não reflecte necessariamente a sua importância relativa; (Forward) stepwise é um método eficiente de selecção de variáveis, recomendando-se o seu uso. Os resultados obtidos devem ser comparados com aqueles provenientes da aplicação de outros métodos (e.g. best subset, backward stepwise) para ganhar uma maior familiaridade com as características dos dados em estudo; (Backward) stepwise é um método útil, em particular quando se pretende assegurar que nada de importante é perdido durante a selecção de variáveis, mas o facto de começar com todas as variáveis pode conduzir a problemas de cálculo e a estimativas não muito boas, se existir colinearidade nos regressores; Procedimentos “Stepwise” são em geral preferíveis relativamente àqueles que não permitem a entrada e remoção de regressores. “Best subset” tende a fornecer modelos com muitas variáveis e é computacionalmente mais exigente. Deve-se escolher adequadamente a gama de variáveis a explorar, caso contrário pode-se não encontrar o melhor modelo. Deve-se também tentar vários critérios de qualidade, em particular R2adj e Mallows Cp . 90 Regressão GEPSI/CIEPQPF DEQ-FCTUC Diagnóstico de “Outliers” e Observações Influentes MSR 2009-2012 Regressão Linear Univariada GEPSI/CIEPQPF DEQ-FCTUC 91 Regressão Linear Para além de validar o modelo é importante também diagnosticar e analisar: “Outliers” Observações (demasiado) influentes MSR 2009-2012 Regressão Linear Univariada GEPSI/CIEPQPF DEQ-FCTUC 92 Regressão Linear “Outliers” Observações que fogem aos padrões normais da dispersão de: Valores X’s Previsões E.g. (previsão): resíduo com um valor absoluto bastante superior aos demais ( >3-4 desvios padrões do seu valor absoluto médio); Só devem ser rejeitados quando forem conhecidas as suas causas, e se existirem boas razões para o fazer; Caso contrário a decisão de rejeição dever ser bem pensada. MSR 2009-2012 Regressão Linear Univariada GEPSI/CIEPQPF DEQ-FCTUC 93 Regressão Linear Observações MSR 2009-2012 influentes Observações com muito peso na estimativa do modelo, i.e. que exercem uma influência anormal no seu ajuste aos dados. Regressão Linear Univariada GEPSI/CIEPQPF DEQ-FCTUC 94 Regressão Linear “Outliers”: Previsões Residuals Versus the Order of the Data (response is Y-Answer Time (Average) (secs)) 5,0 Residual 2,5 0,0 -2,5 -5,0 -7,5 1 5 10 15 20 25 30 35 40 45 50 Observation Order 55 60 65 70 75 80 Resíduos normalizados = Resíduo / SE(Resíduos) (>2 → Considerado elevado) MSR 2009-2012 Regressão Linear Univariada GEPSI/CIEPQPF DEQ-FCTUC 95 Regressão Linear “Outliers”: Previsões Tipos de resíduos Resíduos Var(ri) Resíduos normalizados ri Permite detectar facilmente resíduos elevados r del i ˆ 2 1 hii Definição: Resíduo / SE(resíduos) Subestimam a magnitude dos resíduos hii - Elemento i da diagonal de H “Internally Studentized residuals” “Externally / Deleted studentized residuals” Definição: semelhante ao anterior, mas com ri e σ2 estimados sem a observação i: σ2 (i). MSR 2009-2012 H X ( X T X ) 1 X T ("Hat" matrix) Desta forma, evita-se que a observação em causa possa interferir negativamente no modelo, caso seja desviante e/ou influente. Regressão Linear Univariada GEPSI/CIEPQPF DEQ-FCTUC 96 Regressão Linear “Leverages” (hii – “hat value”) Permitem detectar observações cujos valores de X se afastem do “normal”. Medida da distância entre cada valor de x e a média de todos os valores de x: MSR 2009-2012 “Outliers”: Valores de X Observações afastadas da média de X: “High Leverage Points” Estes resíduos possuem menor variância, pois têm uma maior influência na estimativa da recta de regressão ( ver Var(ri)) Observações próximas da média de X: “Low Leverage Points” Observações muito afastadas podem exercer uma grande influência na estimativa do modelo regressão; 0<L≤1: L é considerado elevado se > 2-3 x (p+1)/n, onde p é um número de regressores (X’s) e n o número de observações. Regressão Linear Univariada GEPSI/CIEPQPF DEQ-FCTUC 97 Regressão Linear Distância de “Cook” (Di) Observações influentes Medida combinada do impacto (influência) de uma observação nas estimativas do modelo. Congrega informação sobre “leverages” e resíduos normalizados → i.e., combina: Valores anormais nos X’s Valores anormais em Y Corresponde a uma medida da distância entre os valores ajustados integrando a observação em causa e deixando-a de lado. Di apresenta valores elevados quando: Comparar e verificar se existem Di’s muito elevados. Analisar com maior detalhe: MSR 2009-2012 Resíduo elevado e “leverage” moderada Resíduo moderado e “leverage” elevada Resíduo e “leverage” elevados Belsey: Di >2 (p+1)/n (p = # variáveis = # parâmetros -1) Fox: Di>4/(n-p) Regressão Linear Univariada GEPSI/CIEPQPF DEQ-FCTUC 98
Documentos relacionados
Regressão Linear Múltipla
Interpretar os IC para a resposta média e de previsão; Saber como validar um modelo de RL; Compreender a origem do problema da colinearidade e como o diagnosticar; Saber os passos a seguir na const...
Leia mais