Regressão Linear Múltipla

Transcrição

Regressão Linear Múltipla
I
Engenharia de Processos e Sistemas
Modelação matemática de base estatística/empírica:
Construção de modelos empíricos usando
metodologias de regressão linear
Marco Reis:2014 ©
Construção de modelos empíricos
usando metodologias de regressão
linear
Objectivos:
•
•
•
•
•
•
•
•
•
MSR 2010 ©
Identificar a componente estrutural/determinística e aleatória/estocástica do
modelo de RL;
Compreender o que é um modelo de RL e o seu âmbito de aplicação;
Perceber como se estimam os parâmetros de um modelo de RL e saber quais os
pressupostos subjacentes ao modelo estimado;
Interpretar os IC para os coeficientes do modelo (parte estrutural);
Interpretar os IC para a resposta média e de previsão;
Saber como validar um modelo de RL;
Compreender a origem do problema da colinearidade e como o diagnosticar;
Saber os passos a seguir na construção de uma modelo de RL
Distinguir os vários métodos de selecção de variáveis
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
3
Metodologias de Modelação
Variáveis
associadas ao
que entra no
processo (x’s)
Variáveis
associadas ao
que sai do
processo (y’s)
Processo Genérico
X’s
“Inputs”
Predictores
Regressores
Variáveis de entrada
Variáveis independentes
Variáveis ligadas a
parâmetros do processo (x’s)
Y’s
“Outputs”
Respostas
Variáveis de saída
Variáveis dependentes
Objectivo: construir um modelo que relacione as variáveis de entrada (x’s)
com as de saída (y’s).
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
4
Metodologias de Modelação
“Knowledge intensive”
“Data intensive”
Modelos baseados em dados
Modelos baseados em primeiros princípios
→ muito poucas hipóteses são colocadas
→ Estrutura completamente definida
dV
 F0  F
dt
quanto à estrutura do modelo
F0, T0, CA0
dVCA
 F0C A0  FC A  k0e E / RT C AV
dt
Fcj, Tcj
dVT
H
UA
 F0T0  FT 
k e E / RT C AV 
(T  Tcj )
dt
C p 0
C p
dVcjTcj
dt
Y
E(Y|x)
LC
TC
Fcj, Tcj,0
UA
 Fcj (Tcj ,0  Tcj ) 
(T  Tcj )
 j C p ,cj
F, T, CA
F  Fset  Kc 2 Vset  V 
Y
E(Y|x)
x
Fcj  Fcj ,set  Kc1 Tset  T 
x
MSR 2010 ©
X
X
Engenharia
de Processos
e Sistemas
Modelos empíricos →
Algumas
restrições
quanto à estrutura doGEPSI/CIEPQPF
modelo
DEQ-FCTUC
5
“The curse of dimensionality”

1D: Com N pontos, consegue-se a seguinte taxa de
amostragem, numa linha de comprimento L:
1
2
3
…
…
N
0
L
N
TA 
L
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
6
“The curse of dimensionality”

2D: Com N pontos, consegue-se a seguinte taxa de
amostragem, num quadrado de lado L:
N
TA  2
L
Para garantir igual cobertura, ter-se-ia
de usar N2 pontos
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
7
“The curse of dimensionality”

3D: Com N pontos, consegue-se a seguinte taxa de
amostragem, num cubo de lado L:
N
TA  3
L
Para garantir igual cobertura, ter-se-ia
de usar N3 pontos
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
8
“The curse of dimensionality”

m-D: Com N pontos, consegue-se a seguinte taxa de
amostragem, num hipercubo de lado L:
N
TA  m
L
Para garantir igual cobertura, ter-se-ia de usar
Nm pontos
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
9
Metodologias de Modelação

Utilidade dos modelos:





MSR 2010 ©
Previsão de valores futuros de uma variável de
saída;
Medição do efeito associado a mudanças
processuais;
Controlo e/ou monitorização do processo;
Optimização do processo;
…
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
10
Regressão (Previsão) vs Classificação

Regressão (Previsão):


As saídas do modelo são variáveis quantitativas;
Classificação:

As saídas do modelo são variáveis qualitativas
(classes ou categorias)



MSR 2010 ©
Qualidade do produto (Mau, Intermédio, Bom);
Reconhecimento de caracteres (padrões);
…
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
11
Regressão (Previsão)
Treino do modelo vs Teste do modelo
Observ.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
X1
0,165
0,178
0,102
0,191
0,239
0,178
0,193
0,164
0,129
0,193
0,154
0,065
0,144
0,138
0,219
X2
0,11
0,14
0,089
0,107
0,146
0,115
0,089
0,113
0,098
0,134
0,071
0,053
0,078
0,118
0,145
X3
0,075
0,105
0,068
0,06
0,094
0,078
0,041
0,078
0,074
0,093
0,03
0,036
0,043
0,093
0,101
X4
0,053
0,077
0,048
0,046
0,067
0,056
0,03
0,056
0,057
0,066
0,016
0,025
0,028
0,063
0,07
Observ.
16
17
18
19
20
21
23
24
25
X1
0,146
0,128
0,107
0,146
0,105
0,152
0,139
0,108
0,12
X2
0,17
0,144
0,105
0,174
0,126
0,205
0,207
0,162
0,187
X3
0,134
0,125
0,102
0,136
0,094
0,128
0,109
0,082
0,083
X4
0,103
0,101
0,081
0,099
0,068
0,081
0,057
0,04
0,038
X
Xnew
Modelo
(β^0, β^1,…, β^m,σ^ 2)
Observ.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Y
0,456
0,456
0,152
0,76
0,76
0,608
0,76
0,456
0,304
0,608
0,608
0,152
0,608
0,304
0,76
Y
I. Treino/Estimação
Modelo
(β^0, β^1,…, β^m,σ^ 2)
?
II. Teste/Previsão
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
12
Classificação
Treino do modelo vs Teste do modelo
Observ.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
X1
0,165
0,178
0,102
0,191
0,239
0,178
0,193
0,164
0,129
0,193
0,154
0,065
0,144
0,138
0,219
X2
0,11
0,14
0,089
0,107
0,146
0,115
0,089
0,113
0,098
0,134
0,071
0,053
0,078
0,118
0,145
X3
0,075
0,105
0,068
0,06
0,094
0,078
0,041
0,078
0,074
0,093
0,03
0,036
0,043
0,093
0,101
X4
0,053
0,077
0,048
0,046
0,067
0,056
0,03
0,056
0,057
0,066
0,016
0,025
0,028
0,063
0,07
Observ.
16
17
18
19
20
21
23
24
25
X1
0,146
0,128
0,107
0,146
0,105
0,152
0,139
0,108
0,12
X2
0,17
0,144
0,105
0,174
0,126
0,205
0,207
0,162
0,187
X3
0,134
0,125
0,102
0,136
0,094
0,128
0,109
0,082
0,083
X4
0,103
0,101
0,081
0,099
0,068
0,081
0,057
0,04
0,038
X
Xnew
Modelo
I. Treino/Estimação
Modelo
Observ.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
C
A
A
B
A
B
B
A
A
B
B
B
A
B
A
A
C
?
II. Teste/Previsão
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
13
Regressão Linear Múltipla

O modelo de regressão linear múltipla
Componente estocástica
Componente estrutural
Yi  0  1 xi1  2 xi 2 

Propriedades do termo εi (pressupostos):



variância dos resíduos é constante;
todos os resíduos são independentes;
seguem uma lei normal com média nula.

MSR 2010 ©
 m xim   i
Pressuposto para fazer inferência estatística sobre o modelo
(IC, TH ao modelo ou seus parâmetros).
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
14
Regressão Linear Múltipla
Yi  0  1 xi1  2 xi 2 
 m xim   i

β0 - Intercepção na origem (“intercept”,
“constant”);

βi – Coeficientes de regressão parciais (“partial
regression coefficients”).
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
15
Regressão Linear Múltipla
Pode ser usado para descrever relações nãolineares, e.g:

y  0  1 x1  2 x2  11 x12  22 x22  12 x1 x2  

Assume que os X’s
estão isentos
de qualquer erro.
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
16
Regressão Linear Múltipla

Notação matricial
 Y1  1 x11
 
  
Yn  1 xn1
x1m    0   1 
  
   
xnm    m   n 
Y  XB  E
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
17
Regressão Linear Múltipla

Estimação do modelo de regressão linear
múltipla:

Mínimos quadrados
Bˆ  Min
B
i.e.,
MSR 2010 ©
n
 Y  
i
i 1
0
 1 x1i   2 x2i 
  m xmi 
2
T
ˆ
B  Min Y  XB  Y  XB 
B
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
18
Regressão Linear Múltipla

Estimação de parâmetros em RLM

Minimizar a soma dos desvios quadráticos (verticais …)
3D Surface Plot
Y=105,1527+0,2131*X1+0,4855*X2
195
190
185
180
175
170
165
160
155
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
19
Regressão Linear Múltipla

Métodos dos mínimos quadrados:

Solução: CN de optimalidade
Equações normais
do método dos
mínimos quadrados
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
20
Regressão Linear Múltipla

Solução (notação matricial):
T
ˆ
B   X X X Y
T
MSR 2010 ©
1
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
21
Regressão Linear Múltipla

Estimativa da variância do termo estocástico do
modelo de regressão linear múltipla:
N
ˆ 2 


MSR 2010 ©
2
ˆ

i
SSr

N  m 1 N  m 1
i 1
N – número de observações
m – número de variáveis
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
22
Inferência em Regressão Linear
Múltipla
•Montegomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression
Analysis. Wiley. 4th ed.
•Montgomery, D.C.; G.C. Runger, 1999, Applied Statistics and Probability for Engineers,
2nd ed., Wiley, NY
•Draper, N.R.; H. Smith, 1998, Applied Regression Analysis, 3rd ed., Wiley, NY
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
23
Regressão Linear Múltipla
Inferência

Propriedades das estimativas dos parâmetros

Seguem uma distribuição normal multivariada:

2
ˆ
B ~ N B,  X X  
MSR 2010 ©
T
1
Engenharia de Processos e Sistemas

GEPSI/CIEPQPF
DEQ-FCTUC
24
Regressão Linear Múltipla
Inferência

ANOVA

Teste à significância do modelo de regressão
linear múltipla:


Regressão
H0: β1 = β2 = … βm = 0
H1: βj ≠ 0 para pelo menos um j
GEPSI/CIEPQPF
MSR 2009DEQ-FCTUC
Regressão Linear Múltipla
Inferência

Decomposição ANOVA da variabilidade (soma dos quadrados)
total (SSt), em termos da componente explicada pelo modelo de
regressão (SSreg) e da componente residual (SSr):
n
 y  y 
i
i 1
Variação Total
SSt
Variabilidade
observada
Regressão
=
2
n
n
   yˆi  y     yi  yˆi 
i 1
2
2
i 1
Variação devida à Regressão
SSreg
Variabilidade explicada pelo modelo
(parte estrutural do modelo de regressão)
Variação Residual
SSr
Variabilidade não explicada
+
pelo modelo
(parte estocástica do modelo de regressão)
GEPSI/CIEPQPF
MSR 2009DEQ-FCTUC
Regressão Linear Múltipla
Inferência

Tabela ANOVA em regressão linear múltipla:
Fontes de
Variação
(1)
Regressão
Residual
Total
Variações
(Somas de
quadrados)
(2)
SSreg
SSr
SSt
Graus de
Liberdade
(3)
p
n–p–1
N–1
p = # variáveis de entrada ou regressores
= # parâmetros – 1
Regressão
Médias das
Somas dos
Quadrados
(4)
Estatística
de Teste (F)
MSreg
s2
MSreg / s2
F0 
(5)
SSreg p
SSr  N  p  1
GEPSI/CIEPQPF
MSR 2009DEQ-FCTUC
Regressão Linear Múltipla
Métricas de Qualidade do Modelo

Coeficiente de determinação (R2)


Uma medida da qualidade do modelo (0≤ R2≤1)
Definição geral (modelos univariados/multivariados)
SSreg
SSr
R 
 1
SSt
SSt
2
(Fracção da variabilidade total que é explicada pelo modelo)
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
28
Regressão Linear Múltipla
Métricas de Qualidade do Modelo

O coeficiente R2 permite aferir sobre a qualidade do ajuste,
aumentando sempre que se adiciona mais uma variável
 Mesmo que uma variável não esteja relacionada com a
resposta, há sempre uma pequena parte da sua
variabilidade que aquela ajuda a explicar, por alinhamentos
aleatórios com Y.
 Estas variáveis não trazem nada de novo para o modelo em
termos de previsões futuras, tendo pelo contrário uma acção
prejudicial e destabilizadora.

Para aferir sobre a qualidade do modelo é pois importante
penalizar a métrica de qualidade com o número de variáveis
utilizado.
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
29
Regressão Linear Múltipla
Métricas de Qualidade do Modelo

R2 ajustado (R2adj)


Penaliza a introdução de termos adicionais no modelo
Previne “overfitting” e a utilização de regressores com
pouco potencial explicativo da variabilidade da resposta
2
adj
R
MSR 2010 ©
 1
SSr  N  p  1
SSt  N  1
 1
 N  1
1 R 

 N  p  1
Engenharia de Processos e Sistemas
2
GEPSI/CIEPQPF
DEQ-FCTUC
30
Regressão Linear Múltipla
Inferência

TH aos coeficientes individuais


Para analisar a significância de alguns parâmetros
em particular.
Nas condições do modelo de regressão ser válido:


MSR 2010 ©
Os parâmetros seguem distribuições normais;
A sua média é centrada nos valores exactos e a sua
variância é dada pelos elementos diagonais da matriz de
variâncias-covariâncias.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
31
Valor de prova
(p-value)
Probabilidade de obter um desvio maior
ou igual ao verificado, se H0 for válida!
GEPSI/CIEPQPF
DEQ-FCTUC
H 0 : i  0
H 1: i  0
f x
Amostra 1
Amostra 2
Amostra 3
0
ˆi1 ˆi 2
ˆi3
ˆi
Teste bilateral: Pr(|ET|>ET0 |H0 verdadeira)
GEPSI/CIEPQPF
DEQ-FCTUC
H 0 : i  0
H 1: i  0
f x
Amostra 1
Amostra 2
Amostra 3
0
ˆi1 ˆi 2
ˆi3
ˆi
Teste Unilateral à direita: Pr(ET>ET0 |H0 verdadeira);
Teste Unilateral à esquerda: Pr(ET<ET0 |H0 verdadeira);
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão Linear Múltipla
Inferência

TH (parâmetros individuais):
Estatística de teste
Elemento jj da matriz de
variâncias-covarâncias
Rejeitar H0 se |t0| > t/2,n-p-1.
Alternativamente, usar abordagem baseada em IC …
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
35
Regressão Linear Múltipla
Inferência

IC para os parâmetros do modelo de
regressão múltipla

IC(βj ,(1-α)x100%):
ˆ j  t 2, N  p 1 ˆ 2C jj   j  ˆ j  t 2, N  p 1 ˆ 2C jj
Elemento jj da matriz de
variâncias-covarâncias
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
36
Regressão Linear Univariada
Inferência em regressão linear

IC para a média e intervalo de previsão
Intervalo de previsão
Intervalo de confiança para a média
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
37
Regressão Linear Múltipla
Inferência

IC para a resposta média
ˆY |x  t 2, N  p 1 ˆ x
2 T
0
0

X X 
T
1
x0  Y |x0  ˆY |x0  t 2, N  p 1 ˆ x
2 T
0
X X 
T
1
x0
Intervalo de previsão

yˆ0  t 2, N  p 1 ˆ 1  x
2
T
0
X X 
T
1


x0  y0  yˆ0  t 2, N  p 1 ˆ 1  x
2
T
0
X X 
T
1
x0
yˆ0  x0 ˆ  ˆY |x0
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
38

Regressão Linear Univariada
Inferência em regressão linear

Exemplo 1

Pretende-se determinar a influência de três parâmetros
processuais (X1, X2 e X3) numa variável de qualidade do
produto (Y).

Para tal, recolheram-se dados do processo durante períodos de
laboração normal, com os quais se construiu uma base de
dados.

Utilize esta base de dados para estimar um modelo empírico
para o processo em causa, e determine quais o(s) parâmetro(s)
que mais influenciam a variável de qualidade.
MSR 2009-2012
Regressão Linear Univariada
GEPSI/CIEPQPF
DEQ-FCTUC
39
Regressão Linear Múltipla

Gráficos
Matrix Plot of Y-Answer Tim; X1-Number of; X2-Calls per; X3-Time per
100
110
120
5
6
7
50
30
Y-Answer Time (Average) (secs)
10
120
110
100
X1-Number of personnel
Y vs X1
1380
1320
X2-Calls per hour (average)
1260
7
6
5
X3-Time per call (average mins)
Y vs X3
10
30
X1 vs X3
50
1260
40
Regressão
1320
1380
GEPSI/CIEPQPF
MSR 2009DEQ-FCTUC
Regressão Linear Múltipla

MINITAB: Stat > Regression > Regression …
Não é significativamente ≠ 0!
R-Sq subiu, mas R-Sq(adj) desceu.
O modelo é significante:
pelo menos um
coeficiente de uma
variável é diferente de
zero.
41
Regressão
GEPSI/CIEPQPF
MSR 2009DEQ-FCTUC
GEPSI/CIEPQPF
DEQ-FCTUC
O Problema da Colinearidade
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
43
Regressão Linear Múltipla
Colinearidade

Exemplo

Construir um modelo para Y vs X1,X2
Source: Sokal and Rohlf, Biometry,
3ed., Freeman: NY (1995).
MSR 2010 ©
Y
X1
X2
-5
-4
3
-7
-2
3
-1
-2
1
-3
0
1
3
0
-1
1
2
-1
7
2
-3
5
4
-3
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
44
Regressão Linear Múltipla
Colinearidade
Matrix Plot of Y; X1; X2
-5
0
5
5
0
Y
-5
5
0
X1
-5
2
0
X2
-2
-5
MSR 2010 ©
0
5
-2
Engenharia de Processos e Sistemas
0
2
GEPSI/CIEPQPF
DEQ-FCTUC
45
Regressão Linear Múltipla
Colinearidade
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
46
Regressão Linear Múltipla
Colinearidade
Scatterplot of Y vs X1
8
6
6
4
4
2
2
0
0
Y
Y
Scatterplot of Y vs X1
8
-2
-2
-4
-4
-6
-6
-8
X2
-3
-1
1
3
-8
-5
-4
-3
-2
-1
0
1
2
3
4
-5
-4
X1
MSR 2010 ©
-3
-2
-1
0
1
2
3
4
X1
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
47
Regressão Linear Múltipla
Colinearidade

Nota:


MSR 2010 ©
Os coeficientes de regressão parciais
representam a contribuição de um predictor na
variável de saída, quando os outros se mantêm
constantes;
A magnitude e sinal dos coeficientes de
regressão parciais, depende dos predictores
incorporados no modelo (sempre que estes
apresentam correlação entre si).
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
48
Regressão Linear Múltipla
Colinearidade

Por outro lado,…

Analisando a variância das estimativas

Simulação: Gerar aleatoriamente amostras com 10
observações


Dois níveis de correlação entre X1 e X2
Resultados para 1000 simulações
Low correlation ( =0)
20
15
15
10
10
Estimates
Valores exactos
dos parâmetros
Estimates
High correlation ( =0.95)
20
5
5
0
0
-5
-5
-10
1
2
-10
Variable
MSR 2010 ©
Engenharia de Processos e Sistemas
1
2
Variable
GEPSI/CIEPQPF
DEQ-FCTUC
49
Regressão Linear Múltipla
Colinearidade

Ou seja:

Quando a correlação entre X1 e X2 é de 0.95
a variância na estimativa dos coeficientes
que afectam as variáveis X1 e X2 é cerca de
10 vezes superior àquela obtida quando não
há correlação entre X1 e X2.
Var ( Bˆ )   X X   2
T
MSR 2010 ©
1
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
50
Regressão Linear Múltipla
Colinearidade

Efeitos da colinearidade na estimação de parâmetros
a)
b)
Estimated planes for an High collinearity data set (a) and a Low collinearity data set (b), in the initial situation (I)
and when an additional data point was added (II), marked with a circle in the 3D scatter plots. The projection of
the observations and contours in the Y=0 plane are also presented.
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
51
Regressão Linear Múltipla
Colinearidade

Conclusões:

Quando há colinearidade nos regressores:


MSR 2010 ©
É difícil interpretar o modelo (face aos gráficos
disponíveis)
As estimativas dos parâmetros são mais instáveis
(maior variância)
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
52
Regressão Linear Múltipla
Colinearidade

Nota:

A correlação entre variáveis é muito comum em
aplicações industriais:



MSR 2010 ©
Restrições processuais (balanços mássicos e de
energia);
Anéis de controlo, metodologias e protocolos de
actuação;
Instrumentação (instrumentação redundante,
espectrofotómetros, etc.).
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
53
Regressão Linear Múltipla
Colinearidade

Como detectar a presença de colinearidade?

Como lidar com a sua presença?
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
54
Regressão Linear Múltipla
Colinearidade

Detecção da presença de colinearidade

Matrizes de correlação e de gráficos de dispersão
Matrix of scatter plots
Ra_CD
Variable
Ra_CD
Rz_CD
Rq_CD
Rp_CD
Rt_CD
R Sm_CD
R S_CD
R Sk_CD
R Ku_CD
Rv_CD
Rdq_CD
Ra_MD
Rz_MD
Rq_MD
Rp_MD
Rt_MD
R Sm_MD
R S_MD
R Sk_MD
R Ku_MD
Rv_MD
Rdq_MD
Correlations (AS.vs.Bendtsen)
Rz_CD
Marked correlations are signif icant at p < ,05000
N=36 (Casew is e deletion of missing data)
Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD
1,00
0,99
1,00
0,94
0,96
0,89
0,89
0,46
-0,62
0,94
0,81
0,98
0,96
0,98
0,91
0,92
0,84
0,85
0,30
-0,63
0,89
0,68
0,99
1,00
0,99
0,95
0,98
0,86
0,88
0,46
-0,51
0,96
0,84
0,97
0,97
0,97
0,93
0,94
0,79
0,83
0,31
-0,53
0,90
0,73
Rq_CD
1,00
0,99
1,00
0,94
0,97
0,89
0,89
0,46
-0,60
0,94
0,81
0,98
0,96
0,98
0,91
0,92
0,83
0,85
0,30
-0,61
0,89
0,68
0,94
0,95
0,94
1,00
0,94
0,83
0,84
0,71
-0,54
0,81
0,77
0,89
0,91
0,89
0,97
0,89
0,70
0,74
0,57
-0,51
0,75
0,69
0,96
0,98
0,97
0,94
1,00
0,88
0,91
0,48
-0,43
0,93
0,79
0,93
0,93
0,93
0,90
0,90
0,76
0,79
0,35
-0,51
0,85
0,68
0,89
0,86
0,89
0,83
0,88
1,00
0,95
0,45
-0,57
0,80
0,49
0,83
0,78
0,82
0,75
0,73
0,86
0,80
0,29
-0,61
0,71
0,36
0,89
0,88
0,89
0,84
0,91
0,95
1,00
0,38
-0,40
0,84
0,51Rp_CD 0,84
0,80
0,83
0,77
0,75
0,87
0,83
0,28
-0,52
0,73
0,37
0,46
0,46
0,46
0,71
0,48
0,45
0,38
1,00
-0,45
0,19
0,34
0,36
0,42
0,36
0,67
0,41
0,22
0,22
0,89
-0,31
0,13
0,37
-0,62
-0,51
-0,60
-0,54 -0,43
-0,57
-0,40
-0,45
1,00
-0,44
-0,47
-0,60
-0,54
-0,59
-0,52 -0,52
-0,58
-0,54
-0,28
0,74
-0,48
-0,35
0,94
0,96
0,94
0,81
0,93
0,80
0,84
0,19
-0,44
1,00
0,83
0,96
0,94
0,96
0,80
0,91
0,79
0,84
0,06
-0,50
0,95
0,69
0,81
0,84
0,81
0,77
0,79
0,49
0,51
0,34
-0,47
0,83
1,00
0,84
0,88
0,84
0,79
0,87
0,47
0,58
0,18
-0,40
0,85
0,93
0,98
0,97
0,98
0,89
0,93
0,83
0,84
0,36
-0,60
0,96
0,84
1,00
0,98 Rt_CD1,00
0,89
0,95
0,84
0,88
0,22
-0,60
0,94
0,71
0,96
0,97
0,96
0,91
0,93
0,78
0,80
0,42
-0,54
0,94
0,88
0,98
1,00
0,98
0,93
0,99
0,75
0,84
0,28
-0,49
0,94
0,79
0,98
0,97
0,98
0,89
0,93
0,82
0,83
0,36
-0,59
0,96
0,84
1,00
0,98
1,00
0,90
0,96
0,83
0,87
0,22
-0,58
0,95
0,72
0,91
0,93
0,91
0,97
0,90
0,75
0,77
0,67
-0,52
0,80
0,79
0,89
0,93
0,90
1,00
0,92
0,67
0,75
0,59
-0,48
0,76
0,73
0,92
0,94
0,92
0,89
0,90
0,73
0,75
0,41
-0,52
0,91
0,87
0,95
0,99
0,96
0,92
1,00
0,70
0,84
0,30
-0,43
0,93
0,80
0,84
0,79
0,83
0,70
0,76
0,86
0,87
0,22
-0,58
0,79
0,47
0,84
0,75
0,83
0,67 R Sm_CD
0,70
1,00
0,90
0,12
-0,63
0,73
0,24
0,85
0,83
0,85
0,74
0,79
0,80
0,83
0,22
-0,54
0,84
0,58
0,88
0,84
0,87
0,75
0,84
0,90
1,00
0,17
-0,50
0,83
0,37
0,30
0,31
0,30
0,57
0,35
0,29
0,28
0,89
-0,28
0,06
0,18
0,22
0,28
0,22
0,59
0,30
0,12
0,17
1,00
-0,29
-0,03
0,21
-0,63
-0,53
-0,61
-0,51 -0,51
-0,61
-0,52
-0,31
0,74
-0,50
-0,40
-0,60
-0,49
-0,58
-0,48 -0,43
-0,63
-0,50
-0,29
1,00
-0,44
-0,27
0,89
0,90
0,89
0,75
0,85
0,71
0,73
0,13
-0,48
0,95
0,85
0,94
0,94
0,95
0,76
0,93
0,73
0,83
-0,03
-0,44
1,00
0,75
0,68
0,73
0,68
0,69
0,68
0,36
0,37
0,37
-0,35
0,69
0,93
0,71
0,79
0,72
0,73
0,80
0,24 R S_CD
0,37
0,21
-0,27
0,75
1,00
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
55
Regressão Linear Múltipla
Colinearidade

Detecção da presença de colinearidade

Conhecimento sobre o processo:




MSR 2010 ©
Verificar se alguns coeficientes têm sinal contrário ao
esperado;
Verificar se variáveis que se esperavam importantes,
não têm uma magnitude correspondente;
Verificar se a eliminação de uma linha ou coluna,
produz alterações muito significativas;
O teste F baseado em ANOVA é significante, mas os
coeficientes individuais não o são.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
56
Regressão Linear Múltipla
Colinearidade

Detecção da presença de colinearidade

Estatísticas de colinearidade:
Var ( Bˆ )   X X  
T


1
2
Elemento j da diagonal de (XTX)-1
onde Rj2 é o R2 para a regressão de Xj contra todos
os outros p – 1 regressores.
“Variance Inflation Factor” (VIF)
 
VIF ˆ j 
MSR 2010 ©
1
C jj 
2
1

R
 j
1
1  R2j 
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
57
Regressão Linear Múltipla
Colinearidade

Análise do VIF:

Valores de referência:



MSR 2010 ©
VIF>10 → colinearidade é um problema;
VIF<5 → colinearidade não é um problema;
5<VIF<10 → “zona cinzenta” (colinearidade
pode ser um problema).
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
58
Regressão Linear Múltipla
Colinearidade

Como lidar com a sua presença?



MSR 2010 ©
Métodos de selecção de variáveis
Métodos de projecção (selecção de dimensões)
Métodos de encolhimento
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
59
Regressão Linear Múltipla
Colinearidade

Selecção de variáveis

Princípio:

MSR 2010 ©
Se há redundância entre os X’s, seleccionar aqueles
que mais explicam a variabilidade apresentada pela
resposta (Y), e retirar todas aquelas variáveis que não
acrescentem capacidade explicativa.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
60
Regressão Linear Múltipla
Colinearidade

Metodologias mais comuns de selecção de
variáveis:




MSR 2010 ©
Forward addition
Backward elimination
Forward stepwise selection
“Best subset” regression
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
61
Regressão Linear Múltipla
Inferência
Nos métodos de selecção de variáveis analisa-se a significância
estatística associada à introdução de grupos de variáveis
adicionais:

MSR 2010 ©
“Partial F-test” (ou “Extra Sum of Squares method”)

Até agora só a analisámos a situação estática.
 Temos um conjunto de variáveis de entrada com as quais
queremos construir um modelo para explicar a resposta.

E se quisermos incluir mais variáveis? – Situação dinâmica!
 Pretendemos agora saber se, introduzindo um conjunto extra de
variáveis (# X’s ≥ 1), a capacidade de explicação da variabilidade
de Y melhora significativamente.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
62
Regressão Linear Múltipla
Inferência

“Partial F-test”

Vamos considerar que dispomos um modelo com p variáveis e
pretendemos saber se um subconjunto destas variáveis (r)
contribui, como um todo, significativamente para o modelo.

Ou seja, se particionarmos todos os coeficientes do modelo num
conjunto com r variáveis (β1 ) e noutro com as restantes (β2),
pretendemos testar as hipóteses:
 H0: β1 = 0

MSR 2010 ©
H1: β1 ≠ 0
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
63
Regressão Linear Múltipla
Selecção de Variáveis
Select the predictor having the highest correlation with y

Forward addition
Yes
Yes
Select additional
predictor
Are other predictors
available?
Is selected predictor
significant?
No
Yes
(Fail to enter)
(Enter variable)
f j  fin
MSR 2010 ©
Is variable significant?
No
Examine final
model
Validate model
No
No prediction
possible with MLR
f j  fin
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
66
Regressão Linear Múltipla
Selecção de Variáveis

NOTA:

As variáveis são testadas sequencialmente, de
acordo com a magnitude da estatística do teste
F-parcial (partial F-test);



Variáveis seleccionadas não podem ser depois
removidas.

MSR 2010 ©
Se esta estatística for superior a “F to enter” (f in), a
variável passa a integrar o modelo;
Caso contrário, o processo pára.
Não explora o efeito que a adição de uma variável
pode ter naquelas já adicionadas.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
67
Regressão Linear Múltipla
Selecção de Variáveis
Select all variables and include them in the model

Select the variable that contributes the
least to explaining the Y variability
(when all others are in the model)
Backward
elimination
No
(Remove variable)
Is its contribution
significant ?
Yes
(Do not remove variable )
f j  f out
f j  f out
Validate model
Nota:
Variáveis eliminadas, não podem voltar a integrar o modelo numa fase posterior.
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
68
Regressão Linear Múltipla
Selecção de Variáveis
Select the predictor having the highest correlation with y
Forward stepwise selection

Yes
Select additional
predictor
Are other predictors
available?
Is selected predictor
significant?
f  f
f  f
(Enter variable) Yes No (Fail to enter)
j
Yes
in
j
Yes
Is variable significant?
No
Examine final
model
Validate model
No
No prediction
possible with MLR
in
Nota:
Is variance explained
fin  fout  normalmente fin  fout 
by each variable in the
Variáveis selecionadas podem vir a ser
model significant?
removidas posteriormente, caso se tornem
f  f
No (Remove variables) redundantes quando outras forem adicionadas.
j
MSR 2010 ©
out
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
69
Regressão Linear Múltipla
Selecção de Variáveis

“Best subset” regression:


MSR 2010 ©
Para cada combinação distinta de k variáveis (k=kmin : kmax):
 Estimar o correspondente modelo MLR;
 Calcular o valor do critério de “qualidade de ajuste”
seleccionado;
 Ordenar as combinações de variáveis de acordo com o valor
do critério a que elas conduziram;
 Guardar os resultados para as melhores N combinações;
Apresentar os resultados para as melhores N combinações
obtidas em cada subconjunto de dimensão k considerado
(k=kmin : kmax).
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
70
Regressão Linear Múltipla
Selecção de Variáveis

Critérios de qualidade de ajuste:



R2
R2adj
Mallows-Cp

Também penaliza a adição de variáveis sem poder explicativo
Uma medida do erro quadrático total do modelo de regressão
Estimado com o modelo em estudo (k variáveis).
Gráfico Cp vs p
SSr  k 
Cp 
  n  2  k  1 
2
ˆ
Estimado com o modelo completo.


MSR 2010 ©
Se o modelo postulado for correcto, Cp dever ser próximo de k+1
(número de parâmetros)
Logo, escolher modelo para o qual o Cp é baixo e próximo de k+1.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
71
Regressão Linear Múltipla
Selecção de Variáveis

Critérios de qualidade de ajuste (cont.):

Mallows-Cp

É conveniente traçar um gráfico Cp vs. (k+1):


procurar qual o modelo com Cp mais baixo que está mais
próximo da recta Cp=k+1.
PRESS
“Leverage” da observação i
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
72
Regressão Linear Múltipla
Selecção de Variáveis

Statistica
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
73
Metodologia Geral de RLM
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
74
Regressão Linear Múltipla

Metodologia em RL
Passo 1
Estudar estatísticas
e gráficos
Passo 2
Formular o modelo
Passo 3
Estimar o modelo
Bom ajuste
OK!
MSR 2010 ©
Passo
4
Validar
o
modelo
Passo 5
Apresentar resultados.
Usar modelo.
Engenharia de Processos e Sistemas
Ajuste não satisfatório
GEPSI/CIEPQPF
DEQ-FCTUC
75
Regressão Linear Múltipla
1. Familiarização com os dados

Fazer uso extensivo de todas as ferramentas de estatística
descritiva que nos ajudem a familiarizar com os dados do nosso
problema, por exemplo:





MSR 2010 ©
Examinar médias, desvios padrão, alguns percentis, mínimos,
máximos, para todas as variáveis de entrada e de saída;
Examinar a matriz de correlação (existe colinearidade entre os x’s?
qual/quais os x’s mais correlacionados linearmente com o y?);
Construir gráficos de dispersão para todas as combinações de x’s e
entre cada x e o y;
Se os dados foram recolhidos ao longo do tempo, analisar,
individualmente, o gráfico temporal para cada variável;
Detectar e examinar outliers.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
76
Regressão Linear Múltipla
2. Formulação do modelo

MSR 2010 ©
Com base no conhecimento existente a priori e/ou com base nos
gráficos construídos em 1 para as relações entre y e os vários x’s,
propor um modelo de regressão que relacione as variáveis de entrada
com a variável de saída;
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
77
Regressão Linear Múltipla
3. Estimar os parâmetros do modelo

Proceder ao ajuste do modelo aos dados recolhidos. Como
resultado, obtém-se as estimativas para os parâmetros do
modelo definido em 2., bem como outras grandezas
relacionadas (por exemplo, parâmetros de qualidade, valores de
prova para diversos testes estatísticos). Deve-se então:



MSR 2010 ©
Analisar os resultados em busca de variáveis eventualmente mais
importantes na explicação da variabilidade de y;
Avaliar a qualidade do ajuste;
Verificar se existe colinearidade entre as variáveis (calcular VIF para
cada variável existente no modelo), e se esta pode constituir um
problema.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
78
Regressão Linear Múltipla
4. Validação do modelo estimado

MSR 2010 ©
Construir os seguintes gráficos envolvendo os resíduos, para
verificar se algum/ns dos pressupostos subjacentes aos modelos
de regressão linear está/ão a ser violado/s:
 Resíduos vs. valores previstos (para verificar, por exemplo, se a
variância dos resíduos não depende do nível de y);
 Resíduos vs. cada uma das variáveis de entrada (verificar que
não existe estrutura por explicar devido, por exemplo, a não
considerar termos não-lineares envolvendo as variáveis de
entrada);
 Resíduos vs. tempo, ou sequência de observações (verificar a
independência dos resíduos ao longo das observações);
 Gráficos de probabilidade normal para resíduos (verificar o
pressuposto de normalidade dos resíduos).
 (Padrões não aleatórios são indicativo de um modelo não
adequado)
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
79
Regressão Linear Múltipla
5. Apresentar os resultados e usar o modelo

MSR 2010 ©
Nesta fase sintetizam-se os resultados para o modelo
desenvolvido (desde que este seja satisfatório). Os dados
utilizados e pressupostos subjacentes devem ser também
indicados. Usar então o modelo e criar uma metodologia que
permita averiguar a sua validade ao longo do tempo, se o seu
uso não se restringir à situação presente.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
80
Regressão Linear Múltipla
Selecção de Variáveis

Exemplo 2

A rugosidade do papel é normalmente inferida indirectamente por um
aparelho denominado “Bendtsen”.

Este mede a quantidade de ar que passa entre um anel rígido e a superfície
do papel durante um determinado intervalo de tempo, a qual está
relacionada de alguma forma com a rugosidade do papel.

Pretende-se estudar quais os factores fundamentais ao nível da rugosidade
do papel, que influenciam estas medições.

Para tal, recolheram-se perfis rigorosos da superfície do papel usando
técnicas de perfilometria, em duas direcções (MD e CD), a partir dos quais
foram calculados vários parâmetros geométricos com significados bem
precisos.

Que parâmetros fundamentais mais influenciam/explicam os resultados
produzidos pelo Bendtsen?
81
Regressão
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão Linear Múltipla
Selecção de Variáveis
Parâmetros dos perfis (X’s)
Ra
Arithmetical mean deviation of profile
Rz
Maximum height of profile
Rq
RMS deviation of profile
Rp
Maximum profile peak height
Rt
Total height of profile
R Sm
Mean width of profile elements
R Sk
Skewness of profile
R Ku
Kurtosis of profile
Rv
Maximum profile valley depth
Rdq
RMS slope of profile
82
Regressão
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão Linear Múltipla
Selecção de Variáveis
MD
CD
Bendtsen
Perfilómetro
X’s – média dos parâmetros calculados para 3 perfis na direcção MD, CD (11+11=22)
Y – média de 6 medições com o Bendtsen, nas mesmas posições
83
Regressão
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão Linear Múltipla
Selecção de Variáveis

Detecção de colinearidade
Variable
Ra_CD
Rz_CD
Rq_CD
Rp_CD
Rt_CD
R Sm_CD
R S_CD
R Sk_CD
R Ku_CD
Rv_CD
Rdq_CD
Ra_MD
Rz_MD
Rq_MD
Rp_MD
Rt_MD
R Sm_MD
R S_MD
R Sk_MD
R Ku_MD
Rv_MD
Rdq_MD
Regressão
Variable
Ra_CD
Rz_CD
Rq_CD
Rp_CD
Rt_CD
R Sm_CD
R S_CD
R Sk_CD
R Ku_CD
Rv_CD
Rdq_CD
Ra_MD
Rz_MD
Rq_MD
Rt_MD
R S_MD
R Sk_MD
R Ku_MD
Rv_MD
Rdq_MD 84
VIF
Correlations (AS.vs.Bendtsen)
Marked correlations are signif icant at p < ,05000
N=36 (Casew is e deletion of missing
Ra_CDdata)
Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_M
0
0,85
0,84
0,92
0,91
0,98
0,96
0,98
0,81
0,94
-0,62
0,46
0,89
0,89
0,96
0,94
1,00
0,99
1,00
0
0,83
0,79
0,94
0,93
0,97
0,97
0,97
0,84
0,96
-0,51
0,46
0,88
0,98 Rz_CD 0,86
0,95
0,99
1,00
0,99
0
0,85
0,83
0,92
0,91
0,98
0,96
0,98
0,81
0,94
-0,60
0,46
0,89
0,89
0,97
0,94
1,00
0,99
1,00
0
0,74
0,70
0,89
0,97
0,89
0,91
0,89
0,77
0,81
-0,54
0,71
0,84
0,83
0,94
1,00
0,94
0,95
0,94
0
0,79
0,76
0,90
0,90
0,93
0,93
0,93
0,79
0,93
-0,43
0,48
0,88 Rq_CD0,91
1,00
0,94
0,97
0,98
0,96
0
0,80
0,86
0,73
0,75
0,82
0,78
0,83
0,49
0,80
-0,57
0,45
0,95
1,00
0,88
0,83
0,89
0,86
0,89
0
0,83
0,87
0,75
0,77
0,83
0,80
0,84
0,51
0,84
-0,40
0,38
1,00
0,95
0,91
0,84
0,89
0,88
0,89
Rp_CD
0
0,22
0,22
0,41
0,67
0,36
0,42
0,36
0,34
0,19
-0,45
1,00
0,38
0,45
0,48
0,71
0,46
0,46
0,46
-0
-0,54
-0,58
-0,52 -0,52
-0,59
-0,54
-0,60
-0,47
-0,44
1,00
-0,45
-0,40
-0,57
-0,54 -0,43
-0,60
-0,51
-0,62
0
0,84
0,79
0,91
0,80
0,96
0,94
0,96
0,83
1,00
-0,44
0,19
0,84
0,80
0,93
0,81
0,94
0,96
0,94
Rt_CD
0
0,58
0,47
0,87
0,79
0,84
0,88
0,84
1,00
0,83
-0,47
0,34
0,51
0,49
0,79
0,77
0,81
0,84
0,81
0
0,88
0,84
0,95
0,89
1,00
0,98
1,00
0,84
0,96
-0,60
0,36
0,84
0,83
0,93
0,89
0,98
0,97
0,98
0
0,84
0,75
0,99
0,93
0,98
1,00
0,98
0,88
0,94
-0,54
0,42
0,80
0,78
0,93
0,91
0,96
0,97
0,96
R Sm_CD
0
0,87
0,83
0,96
0,90
1,00
0,98
1,00
0,84
0,96
-0,59
0,36
0,83
0,82
0,93
0,89
0,98
0,97
0,98
0
0,75
0,67
0,92
1,00
0,90
0,93
0,89
0,79
0,80
-0,52
0,67
0,77
0,75
0,90
0,97
0,91
0,93
0,91
0
0,84
0,70
1,00
0,92
0,96
0,99
0,95
0,87
0,91
-0,52
0,41
0,75
0,73
0,90
0,89
0,92
0,94
0,92
R S_CD
0
0,90
1,00
0,70
0,67
0,83
0,75
0,84
0,47
0,79
-0,58
0,22
0,87
0,86
0,76
0,70
0,83
0,79
0,84
0
1,00
0,90
0,84
0,75
0,87
0,84
0,88
0,58
0,84
-0,54
0,22
0,83
0,80
0,79
0,74
0,85
0,83
0,85
1
0,17
0,12
0,30
0,59
0,22
0,22R Sk_CD 0,28
0,18
0,06
-0,28
0,89
0,28
0,29
0,35
0,57
0,30
0,31
0,30
-0
-0,50
-0,63
-0,48 -0,43
-0,58
-0,49
-0,60
-0,40
-0,50
0,74
-0,31
-0,52
-0,61
-0,51 -0,51
-0,61
-0,53
-0,63
-0
0,83
0,73
0,93
0,76
0,95
0,94
0,94
0,85
0,95
-0,48
0,13
0,73
0,71
0,85
0,75
0,89
0,90
0,89
0
0,37
0,24
0,80
0,73
0,72
0,79 R Ku_CD
0,71
0,93
0,69
-0,35
0,37
0,37
0,36
0,68
0,69
0,68
0,73
0,68
13,01
10,98
12,89
18,42
7,07
4,74
5,54
2,21
1,59
4,26
2,74
10,47
9,55
10,14
7,33
6,98
1,92
1,68
3,01
2,82
Rv_CD
Rdq_CD
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão Linear Múltipla
Selecção de Variáveis

Resultados: Stepwise Regression

MINITAB: Stat > Regression > Stepwise …
Step 1
Step 2
Resultados Finais
85
Regressão
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão Linear Múltipla
Selecção de Variáveis

Sumário dos resultados
Forward Stepwise Backward Stepwise Forward addition Backward removal
Intercept
Ra_CD
Rz_CD
Rq_CD
Rp_CD
Rt_CD
R Sm_CD
R S_CD
R Sk_CD
R Ku_CD
Rv_CD
Rdq_CD
Ra_MD
Rz_MD
Rq_MD
Rp_MD
Rt_MD
R Sm_MD
R S_MD
R Sk_MD
R Ku_MD
Rv_MD
Rdq_MD
R2
R2adj
-361,65
549,03
210,51
-361,65
41,22
41,22
-1,41
-4,19
-380,47
-1,41
-4,19
-380,47
-4752,87
-4752,87
37,86
37,86
Step 1
0,45
0,45
Step 2
0,94
0,94
355,50
355,50
18,06
18,06
0,98
0,97
0,94
0,94
86
Regressão
549,03
210,51
0,98
0,97
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão Linear Múltipla
Selecção de Variáveis
Results: interpretation
Ra
Arithmetical mean deviation of profile
Rz
Maximum height of profile
Rq
RMS deviation of profile
Rp
Maximum profile peak height
Rt
Total height of profile
R Sm
Mean width of profile elements
R Sk
Skewness of profile
R Ku
Kurtosis of profile
Rv
Maximum profile valley depth
Rdq
RMS slope of profile
Regressão
Highest peak (in
sampling length)
Average
“wavelength” of
irregularities
87
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão Linear Múltipla
Selecção de Variáveis

Resultados: “Best Subset” Regression


MINITAB: Stat > Regression > Best Subsets …
Statistica
Adjusted R square and standardized regression coefficients for each submodel
Stepwise
Para estudar modelos com # max. 10 variáveis, seria necessário estimar 4 194 302 modelos …
88
Regressão
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão Linear Múltipla
Selecção de Variáveis

Resultados: “Best Subset” Regression

Matlab
Best subset regression
0.96
0.94
R2
adj
0.92
0.9
0.88
Quantas variáveis usar no modelo?
0.86
0.84
1
2
3
4
Subsets
89
Regressão
GEPSI/CIEPQPF
DEQ-FCTUC
Regressão Linear Múltipla
Selecção de Variáveis

Notas:





A ordem de entrada de variáveis não reflecte necessariamente a sua
importância relativa;
(Forward) stepwise é um método eficiente de selecção de variáveis,
recomendando-se o seu uso. Os resultados obtidos devem ser comparados
com aqueles provenientes da aplicação de outros métodos (e.g. best
subset, backward stepwise) para ganhar uma maior familiaridade com as
características dos dados em estudo;
(Backward) stepwise é um método útil, em particular quando se pretende
assegurar que nada de importante é perdido durante a selecção de
variáveis, mas o facto de começar com todas as variáveis pode conduzir a
problemas de cálculo e a estimativas não muito boas, se existir
colinearidade nos regressores;
Procedimentos “Stepwise” são em geral preferíveis relativamente àqueles
que não permitem a entrada e remoção de regressores.
“Best subset” tende a fornecer modelos com muitas variáveis e é
computacionalmente mais exigente. Deve-se escolher adequadamente a
gama de variáveis a explorar, caso contrário pode-se não encontrar o
melhor modelo. Deve-se também tentar vários critérios de qualidade, em
particular R2adj e Mallows Cp .
90
Regressão
GEPSI/CIEPQPF
DEQ-FCTUC
Diagnóstico de “Outliers” e
Observações Influentes
MSR 2009-2012
Regressão Linear Univariada
GEPSI/CIEPQPF
DEQ-FCTUC
91
Regressão Linear

Para além de validar o modelo é importante
também diagnosticar e analisar:

“Outliers”

Observações (demasiado) influentes
MSR 2009-2012
Regressão Linear Univariada
GEPSI/CIEPQPF
DEQ-FCTUC
92
Regressão Linear

“Outliers”

Observações que fogem aos padrões normais da dispersão de:
 Valores X’s
 Previsões

E.g. (previsão): resíduo com um valor absoluto bastante
superior aos demais ( >3-4 desvios padrões do seu valor
absoluto médio);
Só devem ser rejeitados quando forem conhecidas as suas
causas, e se existirem boas razões para o fazer;
Caso contrário a decisão de rejeição dever ser bem pensada.


MSR 2009-2012
Regressão Linear Univariada
GEPSI/CIEPQPF
DEQ-FCTUC
93
Regressão Linear
 Observações

MSR 2009-2012
influentes
Observações com muito peso na estimativa do
modelo, i.e. que exercem uma influência anormal
no seu ajuste aos dados.
Regressão Linear Univariada
GEPSI/CIEPQPF
DEQ-FCTUC
94
Regressão Linear
“Outliers”: Previsões
Residuals Versus the Order of the Data
(response is Y-Answer Time (Average) (secs))
5,0
Residual
2,5
0,0
-2,5
-5,0
-7,5
1
5
10
15
20
25
30 35 40 45 50
Observation Order
55
60
65
70
75
80
Resíduos normalizados = Resíduo / SE(Resíduos)
(>2 → Considerado elevado)
MSR 2009-2012
Regressão Linear Univariada
GEPSI/CIEPQPF
DEQ-FCTUC
95
Regressão Linear
“Outliers”: Previsões

Tipos de resíduos

Resíduos
Var(ri)

Resíduos normalizados
ri
 Permite detectar facilmente resíduos elevados r del 
i
ˆ 2 1  hii 
 Definição: Resíduo / SE(resíduos)
 Subestimam a magnitude dos resíduos
hii - Elemento i da diagonal de H

“Internally Studentized residuals”

“Externally / Deleted studentized residuals”
 Definição: semelhante ao anterior, mas com ri e σ2 estimados
sem a observação i: σ2 (i).

MSR 2009-2012
H  X ( X T X ) 1 X T
("Hat" matrix)
Desta forma, evita-se que a observação em causa possa interferir
negativamente no modelo, caso seja desviante e/ou influente.
Regressão Linear Univariada
GEPSI/CIEPQPF
DEQ-FCTUC
96
Regressão Linear

“Leverages” (hii – “hat value”)

Permitem detectar observações cujos valores de X se
afastem do “normal”.
 Medida da distância entre cada valor de x e a média de
todos os valores de x:




MSR 2009-2012
“Outliers”: Valores de X
Observações afastadas da média de X: “High Leverage Points”
 Estes resíduos possuem menor variância, pois têm uma maior
influência na estimativa da recta de regressão ( ver Var(ri))
Observações próximas da média de X: “Low Leverage Points”
Observações muito afastadas podem exercer uma grande
influência na estimativa do modelo regressão;
0<L≤1: L é considerado elevado se > 2-3 x (p+1)/n, onde p
é um número de regressores (X’s) e n o número de
observações.
Regressão Linear Univariada
GEPSI/CIEPQPF
DEQ-FCTUC
97
Regressão Linear

Distância de “Cook” (Di)



Observações influentes
Medida combinada do impacto (influência) de uma observação nas
estimativas do modelo.
Congrega informação sobre “leverages” e resíduos normalizados →
i.e., combina:
 Valores anormais nos X’s
 Valores anormais em Y
Corresponde a uma medida da distância entre os valores ajustados
integrando a observação em causa e deixando-a de lado.
 Di apresenta valores elevados quando:





Comparar e verificar se existem Di’s muito elevados.
Analisar com maior detalhe:


MSR 2009-2012
Resíduo elevado e “leverage” moderada
Resíduo moderado e “leverage” elevada
Resíduo e “leverage” elevados
Belsey: Di >2 (p+1)/n (p = # variáveis = # parâmetros -1)
Fox: Di>4/(n-p)
Regressão Linear Univariada
GEPSI/CIEPQPF
DEQ-FCTUC
98

Documentos relacionados

Regressão Linear Múltipla

Regressão Linear Múltipla Interpretar os IC para a resposta média e de previsão; Saber como validar um modelo de RL; Compreender a origem do problema da colinearidade e como o diagnosticar; Saber os passos a seguir na const...

Leia mais