Regressão Linear Múltipla

Transcrição

Regressão Linear Múltipla
II
Engenharia de Processos e Sistemas
Modelação matemática de base estatística/empírica:
I.
II.
III.
IV.
Características dos dados industriais
Análise dos componentes principais (PCA)
Controlo estatístico multivariado de processos
Construção de modelos empíricos usando metodologias de
regressão
Marco Reis:2012 ©
III. Construção de modelos empíricos
usando metodologias de regressão
Objectivos:
•
•
•
•
•
•
•
•
•
•
Identificar a componente estrutural/determinística e aleatória/estocástica do
modelo de RL;
Compreender o que é um modelo de RL e o seu âmbito de aplicação;
Perceber como se estimam os parâmetros de um modelo de RL e saber quais os
pressupostos subjacentes ao modelo estimado;
Interpretar os IC para os coeficientes do modelo (parte estrutural);
Interpretar os IC para a resposta média e de previsão;
Saber como validar um modelo de RL;
Compreender a origem do problema da colinearidade e como o diagnosticar;
Saber os passos a seguir na construção de uma modelo de RL
Distinguir os vários métodos de selecção de variáveis
Compreender os vários métodos de selecção de dimensões (PCR e PLS): saber
como os estimar, validar e interpretar os seus resultados.
MSR 2010 ©
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
3
Metodologias de Modelação
Variáveis
associadas ao
que entra no
processo (x’s)
Variáveis
associadas ao
que sai do
processo (y’s)
Processo Genérico
X’s
“Inputs”
Predictores
Regressores
Variáveis de entrada
Variáveis independentes
Variáveis ligadas a
parâmetros do processo (x’s)
Y’s
“Outputs”
Respostas
Variáveis de saída
Variáveis dependentes
Objectivo: construir um modelo que relacione as variáveis de entrada (x’s)
com as de saída (y’s).
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
4
Metodologias de Modelação
“Knowledge intensive”
“Data intensive”
Modelos baseados em dados
Modelos baseados em primeiros princípios
→ muito poucas hipóteses são colocadas
→ Estrutura completamente definida
dV
= F0 − F
dt
quanto à estrutura do modelo
F0, T0, CA0
dVC A
= F0C A0 − FC A − k0e − E / RT C AV
dt
Fcj, Tcj
dVT
∆H
UA
= F0T0 − FT −
k e− E / RT C AV −
(T − Tcj )
dt
ρC p 0
ρC p
dVcjTcj
dt
Y
E(Y|x)
LC
TC
Fcj, Tcj,0
= Fcj (Tcj ,0 − Tcj ) +
UA
(T − Tcj )
ρ j C p ,cj
F, T, CA
F = Fset − K c 2 (Vset − V )
E(Y|x)
Y
x
Fcj = Fcj ,set − K c1 (Tset − T )
x
MSR 2010 ©
X
X
Modelos empíricos → Algumas restrições quanto à estrutura doGEPSI/CIEPQPF
modelo
DEQ-FCTUC
Engenharia de Processos e Sistemas
5
“The curse of dimensionality”
1D: Com N pontos, consegue-se a seguinte taxa de
amostragem, numa linha de comprimento L:
1
2
3
…
…
N
0
L
N
TA =
L
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
6
“The curse of dimensionality”
2D: Com N pontos, consegue-se a seguinte taxa de
amostragem, num quadrado de lado L:
N
TA = 2
L
Para garantir igual cobertura, ter-se-ia
de usar N2 pontos
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
7
“The curse of dimensionality”
3D: Com N pontos, consegue-se a seguinte taxa de
amostragem, num cubo de lado L:
N
TA = 3
L
Para garantir igual cobertura, ter-se-ia
de usar N3 pontos
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
8
“The curse of dimensionality”
m-D: Com N pontos, consegue-se a seguinte taxa de
amostragem, num hipercubo de lado L:
N
TA = m
L
Para garantir igual cobertura, ter-se-ia de usar
Nm pontos
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
9
Metodologias de Modelação
Utilidade dos modelos:
MSR 2010 ©
Previsão de valores futuros de uma variável de
saída;
Medição do efeito associado a mudanças
processuais;
Controlo e/ou monitorização do processo;
Optimização do processo;
…
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
10
Regressão (Previsão) vs Classificação
Regressão (Previsão):
As saídas do modelo são variáveis quantitativas;
Classificação:
As saídas do modelo são variáveis qualitativas
(classes ou categorias)
Qualidade do produto (Mau, Intermédio, Bom);
Reconhecimento de caracteres (padrões);
…
MSR 2010 ©
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
11
Regressão (Previsão)
Treino do modelo vs Teste do modelo
Observ.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
X1
0,165
0,178
0,102
0,191
0,239
0,178
0,193
0,164
0,129
0,193
0,154
0,065
0,144
0,138
0,219
X2
0,11
0,14
0,089
0,107
0,146
0,115
0,089
0,113
0,098
0,134
0,071
0,053
0,078
0,118
0,145
X
X3
0,075
0,105
0,068
0,06
0,094
0,078
0,041
0,078
0,074
0,093
0,03
0,036
0,043
0,093
0,101
X4
0,053
0,077
0,048
0,046
0,067
0,056
0,03
0,056
0,057
0,066
0,016
0,025
0,028
0,063
0,07
0
^2
m,σ
1
Y
0,456
0,456
0,152
0,76
0,76
0,608
0,76
0,456
0,304
0,608
0,608
0,152
0,608
0,304
0,76
Y
Modelo
(β^ , β^ ,…, β^
Observ.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
)
I. Treino/Estimação
Observ.
16
17
18
19
20
21
23
24
25
X1
0,146
0,128
0,107
0,146
0,105
0,152
0,139
0,108
0,12
X2
0,17
0,144
0,105
0,174
0,126
0,205
0,207
0,162
0,187
X3
0,134
0,125
0,102
0,136
0,094
0,128
0,109
0,082
0,083
X4
0,103
0,101
0,081
0,099
0,068
0,081
0,057
0,04
0,038
Xnew
?
Modelo
(β^ , β^ ,…, β^
0
1
^2
m,σ
)
II. Teste/Previsão
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
12
Classificação
Treino do modelo vs Teste do modelo
Observ.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
X1
0,165
0,178
0,102
0,191
0,239
0,178
0,193
0,164
0,129
0,193
0,154
0,065
0,144
0,138
0,219
X2
0,11
0,14
0,089
0,107
0,146
0,115
0,089
0,113
0,098
0,134
0,071
0,053
0,078
0,118
0,145
X
X3
0,075
0,105
0,068
0,06
0,094
0,078
0,041
0,078
0,074
0,093
0,03
0,036
0,043
0,093
0,101
X4
0,053
0,077
0,048
0,046
0,067
0,056
0,03
0,056
0,057
0,066
0,016
0,025
0,028
0,063
0,07
Observ.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
C
A
A
B
A
B
B
A
A
B
B
B
A
B
A
A
C
Modelo
I. Treino/Estimação
Observ.
16
17
18
19
20
21
23
24
25
X1
0,146
0,128
0,107
0,146
0,105
0,152
0,139
0,108
0,12
X2
0,17
0,144
0,105
0,174
0,126
0,205
0,207
0,162
0,187
X3
0,134
0,125
0,102
0,136
0,094
0,128
0,109
0,082
0,083
X4
0,103
0,101
0,081
0,099
0,068
0,081
0,057
0,04
0,038
Xnew
?
Modelo
II. Teste/Previsão
MSR 2010 ©
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
13
Regressão Linear Múltipla
O modelo de regressão linear múltipla
Componente estrutural
Componente estocástica
Yi = β 0 + β1 xi1 + β 2 xi 2 + ⋯ + β m xim + ε i
Propriedades do termo εi (pressupostos):
variância dos resíduos é constante;
todos os resíduos são independentes;
seguem uma lei normal com média nula.
MSR 2010 ©
Pressuposto para fazer inferência estatística sobre o modelo
(IC, TH ao modelo ou seus parâmetros).
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
14
Regressão Linear Múltipla
Yi = β 0 + β1 xi1 + β 2 xi 2 + ⋯ + β m xim + ε i
β0 - Intercepção na origem (“intercept”,
“constant”);
βi – Coeficientes de regressão parciais (“partial
regression coefficients”).
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
15
Regressão Linear Múltipla
Pode ser usado para descrever relações nãolineares, e.g:
y = β 0 + β1 x1 + β 2 x2 + β11 x12 + β 22 x22 + β12 x1 x2 + ε
Assume que os X’s
estão isentos
de qualquer erro.
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
16
Regressão Linear Múltipla
Notação matricial
 Y1  1 x11 ⋯ x1m   β 0   ε1 
 ⋮  = ⋮ ⋮ ⋯ ⋮   ⋮  +  ⋮ 
  
   
Yn  1 xn1 ⋯ xnm   β m  ε n 
Y = XB + E
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
17
Regressão Linear Múltipla
Estimação do modelo de regressão linear
múltipla:
Mínimos quadrados
Bˆ = Min
B
i.e.,
MSR 2010 ©
n
∑ (Yi − β0 − β1 x1i − β 2 x2i − ⋯ − β m xmi )
2
i =1
T
Bˆ = Min (Y − XB ) (Y − XB )
B
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
18
Regressão Linear Múltipla
Estimação de parâmetros em RLM
Minimizar a soma dos desvios quadráticos (verticais …)
3D Surface Plot
Y=105,1527+0,2131*X1+0,4855*X2
195
190
185
180
175
170
165
160
155
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
19
GEPSI/CIEPQPF
DEQ-FCTUC
20
Regressão Linear Múltipla
Métodos dos mínimos quadrados:
Solução: CN de optimalidade
Equações normais
do método dos
mínimos quadrados
MSR 2010 ©
Engenharia de Processos e Sistemas
Regressão Linear Múltipla
Solução (notação matricial):
−1
T
ˆ
B = ( X X ) XT Y
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
21
Regressão Linear Múltipla
Estimativa da variância do termo estocástico do
modelo de regressão linear múltipla:
N
σˆ 2 =
MSR 2010 ©
∑ εˆ
i =1
2
i
N − m −1
=
SSr
N − m −1
N – número de observações
m – número de variáveis
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
22
Inferência em Regressão Linear
Múltipla
•Montegomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression
Analysis. Wiley. 4th ed.
•Montgomery, D.C.; G.C. Runger, 1999, Applied Statistics and Probability for Engineers,
2nd ed., Wiley, NY
•Draper, N.R.; H. Smith, 1998, Applied Regression Analysis, 3rd ed., Wiley, NY
MSR 2010 ©
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
23
Regressão Linear Múltipla
Inferência
Propriedades das estimativas dos parâmetros
Seguem uma distribuição normal multivariada:
(
−1
T
ˆ
B ~ N B, ( X X ) σ 2
MSR 2010 ©
Engenharia de Processos e Sistemas
)
GEPSI/CIEPQPF
DEQ-FCTUC
24
Regressão Linear Múltipla
Inferência
ANOVA
Teste à significância do modelo de regressão
linear múltipla:
H0: β1 = β2 = … βm = 0
H1: βj ≠ 0 para pelo menos um j
GEPSI/CIEPQPF
MSR 2009DEQ-FCTUC
2012 ©
Regressão
Linear Múltipla
Regressão Linear Múltipla
Inferência
Decomposição ANOVA da variabilidade (soma dos quadrados)
total (SSt), em termos da componente explicada pelo modelo de
regressão (SSreg) e da componente residual (SSr):
n
∑ ( yi − y )
i =1
Variação Total
SSt
Variabilidade
observada
Regressão
Linear Múltipla
=
2
=
n
n
∑ ( yˆi − y ) + ∑ ( yi − yˆi )
i =1
2
2
i =1
Variação devida à Regressão
SSreg
Variabilidade explicada pelo modelo
(parte estrutural do modelo de regressão)
Variação Residual
SSr
+
Variabilidade não explicada
pelo modelo
(parte estocástica do modelo de regressão)
GEPSI/CIEPQPF
MSR 2009DEQ-FCTUC
2012 ©
Regressão Linear Múltipla
Inferência
Tabela ANOVA em regressão linear múltipla:
Fontes de
Variação
(1)
Regressão
Residual
Total
Variações
(Somas de
quadrados)
(2)
SSreg
SSr
SSt
Graus de
Liberdade
(3)
p
n–p–1
N–1
Médias das
Somas dos
Quadrados
(4)
Estatística
de Teste (F)
MSreg
s2
MSreg / s2
p = # variáveis de entrada ou regressores
= # parâmetros – 1
(5)
F0 =
SSreg p
SSr ( N − p − 1)
GEPSI/CIEPQPF
MSR 2009DEQ-FCTUC
2012 ©
Regressão
Linear Múltipla
Regressão Linear Múltipla
Métricas de Qualidade do Modelo
Coeficiente de determinação (R2)
Uma medida da qualidade do modelo (0≤ R2≤1)
Definição geral (modelos univariados/multivariados)
SSreg
SSr
R =
= 1−
SSt
SSt
2
(Fracção da variabilidade total que é explicada pelo modelo)
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
28
Regressão Linear Múltipla
Métricas de Qualidade do Modelo
O coeficiente R2 permite aferir sobre a qualidade do ajuste,
aumentando sempre que se adiciona mais uma variável
Mesmo que uma variável não esteja relacionada com a
resposta, há sempre uma pequena parte da sua
variabilidade que aquela ajuda a explicar, por alinhamentos
aleatórios com Y.
Estas variáveis não trazem nada de novo para o modelo em
termos de previsões futuras, tendo pelo contrário uma acção
prejudicial e destabilizadora.
Para aferir sobre a qualidade do modelo é pois importante
penalizar a métrica de qualidade com o número de variáveis
utilizado.
MSR 2010 ©
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
29
Regressão Linear Múltipla
Métricas de Qualidade do Modelo
R2 ajustado (R2adj)
Penaliza a introdução de termos adicionais no modelo
Previne “overfitting” e a utilização de regressores com
pouco potencial explicativo da variabilidade da resposta
2
= 1−
Radj
MSR 2010 ©
SSr ( N − p − 1)
SSt ( N − 1)
= 1−
( N − 1)
1− R )
(
( N − p − 1)
Engenharia de Processos e Sistemas
2
GEPSI/CIEPQPF
DEQ-FCTUC
30
Regressão Linear Múltipla
Inferência
TH aos coeficientes individuais
Para analisar a significância de alguns parâmetros
em particular.
Nas condições do modelo de regressão ser válido:
MSR 2010 ©
Os parâmetros seguem distribuições normais;
A sua média é centrada nos valores exactos e a sua
variância é dada pelos elementos diagonais da matriz de
variâncias-covariâncias.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
31
Regressão Linear Múltipla
Inferência
TH (parâmetros individuais):
Estatística de teste
Elemento jj da matriz de
variâncias-covarâncias
Rejeitar H0 se |t0| > tα/2,n-p-1.
Alternativamente, usar abordagem baseada em IC …
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
32
Regressão Linear Múltipla
Inferência
IC para os parâmetros do modelo de
regressão múltipla
IC(βj ,(1-α)x100%):
βˆ j − tα 2, N − p −1 σˆ 2C jj ≤ β j ≤ βˆ j + tα 2, N − p −1 σˆ 2C jj
Elemento jj da matriz de
variâncias-covarâncias
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
33
Regressão Linear Univariada
Inferência em regressão linear
IC para a média e intervalo de previsão
Intervalo de previsão
Intervalo de confiança para a média
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
34
Regressão Linear Múltipla
Inferência
IC para a resposta média
µˆY | x − tα 2, N − p −1 σˆ 2 x0T ( X T X ) x0 ≤ µY | x ≤ µˆY | x + tα 2, N − p −1 σˆ 2 x0T ( X T X ) x0
−1
−1
0
0
0
Intervalo de previsão
(
)
(
yˆ 0 − tα 2, N − p −1 σˆ 2 1 + x0T ( X T X ) x0 ≤ y0 ≤ yˆ 0 + tα 2, N − p −1 σˆ 2 1 + x0T ( X T X ) x0
−1
−1
yˆ 0 = x0 βˆ = µˆY |x0
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
35
O Problema da Colinearidade
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
36
)
Regressão Linear Múltipla
Colinearidade
Exemplo
Construir um modelo para Y vs X1,X2
Source: Sokal and Rohlf, Biometry,
3ed., Freeman: NY (1995).
MSR 2010 ©
Y
X1
X2
-5
-4
3
-7
-2
3
-1
-2
1
-3
0
1
3
0
-1
1
2
-1
7
2
-3
5
4
-3
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
37
Regressão Linear Múltipla
Colinearidade
Matrix Plot of Y; X1; X2
-5
0
5
5
0
Y
-5
5
0
X1
-5
2
0
X2
-2
-5
MSR 2010 ©
0
5
-2
Engenharia de Processos e Sistemas
0
2
GEPSI/CIEPQPF
DEQ-FCTUC
38
Regressão Linear Múltipla
Colinearidade
MSR 2010 ©
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
39
Regressão Linear Múltipla
Colinearidade
Scatterplot of Y vs X1
8
6
6
4
4
2
2
0
Y
Y
Scatterplot of Y vs X1
8
0
-2
-2
-4
-4
-6
-6
-8
X2
-3
-1
1
3
-8
-5
-4
-3
-2
-1
0
1
2
3
4
-5
-4
X1
MSR 2010 ©
-3
-2
-1
0
1
2
3
4
X1
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
40
Regressão Linear Múltipla
Colinearidade
Nota:
Os coeficientes de regressão parciais
representam a contribuição de um predictor na
variável de saída, quando os outros se mantêm
constantes;
A magnitude e sinal dos coeficientes de
regressão parciais, depende dos predictores
incorporados no modelo (sempre que estes
apresentam correlação entre si).
MSR 2010 ©
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
41
Regressão Linear Múltipla
Colinearidade
Por outro lado,…
Analisando a variância das estimativas
Simulação: Gerar aleatoriamente amostras com 10
observações
Dois níveis de correlação entre X1 e X2
Resultados para 1000 simulações
Low correlation (ρ =0)
20
15
15
10
10
Estimates
Valores exactos
dos parâmetros
Estimates
High correlation (ρ =0.95)
20
5
5
0
0
-5
-5
-10
1
2
-10
Variable
MSR 2010 ©
Engenharia de Processos e Sistemas
1
2
Variable
GEPSI/CIEPQPF
DEQ-FCTUC
42
Regressão Linear Múltipla
Colinearidade
Ou seja:
Quando a correlação entre X1 e X2 é de 0.95
a variância na estimativa dos coeficientes
que afectam as variáveis X1 e X2 é cerca de
10 vezes superior àquela obtida quando não
há correlação entre X1 e X2.
−1
T
ˆ
Var ( B) = ( X X ) σ 2
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
43
Regressão Linear Múltipla
Colinearidade
Efeitos da colinearidade na estimação de parâmetros
a)
b)
Estimated planes for an High collinearity data set (a) and a Low collinearity data set (b), in the initial situation (I)
and when an additional data point was added (II), marked with a circle in the 3D scatter plots. The projection of
the observations and contours in the Y=0 plane are also presented.
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
44
Regressão Linear Múltipla
Colinearidade
Conclusões:
Quando há colinearidade nos regressores:
É difícil interpretar o modelo (face aos gráficos
disponíveis)
As estimativas dos parâmetros são mais instáveis
(maior variância)
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
45
Regressão Linear Múltipla
Colinearidade
Nota:
A correlação entre variáveis é muito comum em
aplicações industriais:
MSR 2010 ©
Restrições processuais (balanços mássicos e de
energia);
Anéis de controlo, metodologias e protocolos de
actuação;
Instrumentação (instrumentação redundante,
espectrofotómetros, etc.).
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
46
Regressão Linear Múltipla
Colinearidade
Como detectar a presença de colinearidade?
Como lidar com a sua presença?
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
47
Regressão Linear Múltipla
Colinearidade
Detecção da presença de colinearidade
Matrizes de correlação e de gráficos de dispersão
Matrix of scatter plots
R a_CD
Variable
Ra_CD
Rz_CD
Rq_CD
Rp_CD
Rt_CD
R Sm_CD
R S_CD
R Sk_CD
R Ku_CD
Rv_CD
Rdq_CD
Ra_MD
Rz_MD
Rq_MD
Rp_MD
Rt_MD
R Sm_MD
R S_MD
R Sk_MD
R Ku_MD
Rv_MD
Rdq_MD
Correlations (AS.vs.Bendtsen)
Rz_CD
Marked correlations are signif icant at p < ,05000
N=36 (Casew is e deletion of missing data)
Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MD
1,00
0,99
1,00
0,94
0,96
0,89
0,89
0,46
-0,62
0,94
0,81
0,98
0,96
0,98
0,91
0,92
0,84
0,85
0,30
-0,63
0,89
0,68
0,99
1,00
0,99
0,95
0,98
0,86
0,88
0,46
-0,51
0,96
0,84
0,97
0,97
0,97
0,93
0,94
0,79
0,83
0,31
-0,53
0,90
0,73
Rq_CD
1,00
0,94
0,97
0,89
0,89
0,46
-0,60
0,94
0,81
0,98
0,96
0,98
0,91
0,92
0,83
0,85
0,30
-0,61
0,89
0,68
1,00
0,99
0,94
0,95
0,94
1,00
0,94
0,83
0,84
0,71
-0,54
0,81
0,77
0,89
0,91
0,89
0,97
0,89
0,70
0,74
0,57
-0,51
0,75
0,69
0,94
1,00
0,88
0,91
0,48
-0,43
0,93
0,79
0,93
0,93
0,93
0,90
0,90
0,76
0,79
0,35
-0,51
0,85
0,68
0,96
0,98
0,97
0,83
0,88
1,00
0,95
0,45
-0,57
0,80
0,49
0,83
0,78
0,82
0,75
0,73
0,86
0,80
0,29
-0,61
0,71
0,36
0,89
0,86
0,89
0,89
0,88
0,89
0,84
0,91
0,95
1,00
0,38
-0,40
0,84
0,51
0,84
0,80
0,83
0,77
0,75
0,87
0,83
0,28
-0,52
0,73
0,37
Rp_CD
0,71
0,48
0,45
0,38
1,00
-0,45
0,19
0,34
0,36
0,42
0,36
0,67
0,41
0,22
0,22
0,89
-0,31
0,13
0,37
0,46
0,46
0,46
-0,62
-0,51
-0,60
-0,54 -0,43
-0,57
-0,40
-0,45
1,00
-0,44
-0,47
-0,60
-0,54
-0,59
-0,52 -0,52
-0,58
-0,54
-0,28
0,74
-0,48
-0,35
0,94
0,96
0,94
0,81
0,93
0,80
0,84
0,19
-0,44
1,00
0,83
0,96
0,94
0,96
0,80
0,91
0,79
0,84
0,06
-0,50
0,95
0,69
0,77
0,79
0,49
0,51
0,34
-0,47
0,83
1,00
0,84
0,88
0,84
0,79
0,87
0,47
0,58
0,18
-0,40
0,85
0,93
0,81
0,84
0,81
0,98
0,97
0,98
0,89
0,93
0,83
0,84
0,36
-0,60
0,96
0,84
1,00
0,98 Rt_CD1,00
0,89
0,95
0,84
0,88
0,22
-0,60
0,94
0,71
0,96
0,97
0,96
0,91
0,93
0,78
0,80
0,42
-0,54
0,94
0,88
0,98
1,00
0,98
0,93
0,99
0,75
0,84
0,28
-0,49
0,94
0,79
0,89
0,93
0,82
0,83
0,36
-0,59
0,96
0,84
1,00
0,98
1,00
0,90
0,96
0,83
0,87
0,22
-0,58
0,95
0,72
0,98
0,97
0,98
0,91
0,93
0,91
0,97
0,90
0,75
0,77
0,67
-0,52
0,80
0,79
0,89
0,93
0,90
1,00
0,92
0,67
0,75
0,59
-0,48
0,76
0,73
0,92
0,94
0,92
0,89
0,90
0,73
0,75
0,41
-0,52
0,91
0,87
0,95
0,99
0,96
0,92
1,00
0,70
0,84
0,30
-0,43
0,93
0,80
0,70
0,76
0,86
0,87
0,22
-0,58
0,79
0,47
0,84
0,75
0,83
0,67 R Sm_CD
0,70
1,00
0,90
0,12
-0,63
0,73
0,24
0,84
0,79
0,83
0,85
0,83
0,85
0,74
0,79
0,80
0,83
0,22
-0,54
0,84
0,58
0,88
0,84
0,87
0,75
0,84
0,90
1,00
0,17
-0,50
0,83
0,37
0,30
0,31
0,30
0,57
0,35
0,29
0,28
0,89
-0,28
0,06
0,18
0,22
0,28
0,22
0,59
0,30
0,12
0,17
1,00
-0,29
-0,03
0,21
-0,63
-0,53
-0,61
-0,51 -0,51
-0,61
-0,52
-0,31
0,74
-0,50
-0,40
-0,60
-0,49
-0,58
-0,48 -0,43
-0,63
-0,50
-0,29
1,00
-0,44
-0,27
0,89
0,90
0,89
0,75
0,85
0,71
0,73
0,13
-0,48
0,95
0,85
0,94
0,94
0,95
0,76
0,93
0,73
0,83
-0,03
-0,44
1,00
0,75
0,68
0,73
0,68
0,69
0,68
0,36
0,37
0,37
-0,35
0,69
0,93
0,71
0,79
0,72
0,73
0,80
0,24 R S_CD
0,37
0,21
-0,27
0,75
1,00
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
48
Regressão Linear Múltipla
Colinearidade
Detecção da presença de colinearidade
Conhecimento sobre o processo:
Verificar se alguns coeficientes têm sinal contrário ao
esperado;
Verificar se variáveis que se esperavam importantes,
não têm uma magnitude correspondente;
Verificar se a eliminação de uma linha ou coluna,
produz alterações muito significativas;
O teste F baseado em ANOVA é significante, mas os
coeficientes individuais não o são.
MSR 2010 ©
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
49
Regressão Linear Múltipla
Colinearidade
Detecção da presença de colinearidade
Estatísticas de colinearidade:
−1
Var ( Bˆ ) = ( X T X ) σ 2
Elemento j da diagonal de (XTX)-1
1
(1 − R 2j )
onde Rj2 é o R2 para a regressão de Xj contra todos
os outros p – 1 regressores.
“Variance Inflation Factor” (VIF)
( )
VIF βˆ j =
MSR 2010 ©
C jj =
1
(1 − R 2j )
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
50
Regressão Linear Múltipla
Colinearidade
Análise do VIF:
Valores de referência:
MSR 2010 ©
VIF>10 → colinearidade é um problema;
VIF<5 → colinearidade não é um problema;
5<VIF<10 → “zona cinzenta” (colinearidade
pode ser um problema).
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
51
Regressão Linear Múltipla
Colinearidade
Como lidar com a sua presença?
MSR 2010 ©
Métodos de selecção de variáveis
Métodos de projecção (selecção de dimensões)
Métodos de encolhimento
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
52
Regressão Linear Múltipla
Colinearidade
Selecção de variáveis
Princípio:
MSR 2010 ©
Se há redundância entre os X’s, seleccionar aqueles
que mais explicam a variabilidade apresentada pela
resposta (Y), e retirar todas aquelas variáveis que não
acrescentem capacidade explicativa.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
53
Regressão Linear Múltipla
Colinearidade
Metodologias mais comuns de selecção de
variáveis:
MSR 2010 ©
Forward addition
Backward elimination
Forward stepwise selection
“Best subset” regression
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
54
Regressão Linear Múltipla
Inferência
Nos métodos de selecção de variáveis analisa-se a significância
estatística associada à introdução de grupos de variáveis
adicionais:
“Partial F-test” (ou “Extra Sum of Squares method”)
Até agora só a analisámos a situação estática.
Temos um conjunto de variáveis de entrada com as quais
queremos construir um modelo para explicar a resposta.
E se quisermos incluir mais variáveis? – Situação dinâmica!
Pretendemos agora saber se, introduzindo um conjunto extra de
variáveis (# X’s ≥ 1), a capacidade de explicação da variabilidade
de Y melhora significativamente.
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
55
Regressão Linear Múltipla
Inferência
MSR 2010 ©
“Partial F-test”
Vamos considerar que dispomos um modelo com p variáveis e
pretendemos saber se um subconjunto destas variáveis (r)
contribui, como um todo, significativamente para o modelo.
Ou seja, se particionarmos todos os coeficientes do modelo num
conjunto com r variáveis (β1 ) e noutro com as restantes (β2),
pretendemos testar as hipóteses:
H0: β1 = 0
H1: β1 ≠ 0
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
56
Regressão Linear Múltipla
Inferência
Metodologia:
Calcular SSreg para o modelo completo:
(com β1 e β2) → SSreg(β)
Para avaliar a contribuição de β1 para a regressão, estimar
um modelo assumindo válida H0: β1 = 0 (modelo reduzido):
Y=X2 β2 +ε → SSreg(β2)
Então, SSreg devido a β1, assumindo que β2 já está no
modelo é:
SSreg(β1 |β2) = SSreg(β) - SSreg(β2)
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
57
Regressão Linear Múltipla
Inferência
ET:
Variabilidade adicional explicada pelo
conjunto de variáveis em estudo
SSreg ( β1 | β 2 ) / r
F0 =
σˆ 2 Variabilidade residual
Estimado com o modelo completo.
Rejeitar se:
F0 > F ( r , N − p − 1, α )
(teste unilateral à direita)
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
58
Regressão Linear Múltipla
Selecção de Variáveis
Select the predictor having the highest correlation with y
Forward addition
Yes
Yes
Select additional
predictor
Are other predictors
available?
Is selected predictor
significant?
No
Yes
(Fail to enter)
(Enter variable)
Is variable significant?
No
Examine final
model
Validate model
No
No prediction
possible with MLR
f j < f in
f j > f in
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
59
Regressão Linear Múltipla
Selecção de Variáveis
NOTA:
As variáveis são testadas sequencialmente, de
acordo com a magnitude da estatística do teste
F-parcial (partial F-test);
Variáveis seleccionadas não podem ser depois
removidas.
MSR 2010 ©
Se esta estatística for superior a “F to enter” (fin), a
variável passa a integrar o modelo;
Caso contrário, o processo pára.
Não explora o efeito que a adição de uma variável
pode ter naquelas já adicionadas.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
60
Regressão Linear Múltipla
Selecção de Variáveis
Select all variables and include them in the model
Backward
elimination
Select the variable that contributes the
least to explaining the Y variability
(when all others are in the model)
No
(Remove variable)
Is its contribution
significant ?
Yes
(Do not remove variable )
f j > f out
f j < f out
Validate model
Nota:
Variáveis eliminadas, não podem voltar a integrar o modelo numa fase posterior.
MSR 2010 ©
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
61
Regressão Linear Múltipla
Selecção de Variáveis
Select the predictor having the highest correlation with y
Forward stepwise selection
Yes
Yes
Select additional
predictor
Are other predictors
available?
Is selected predictor
significant?
f < f
f > f
(Enter variable) Yes No (Fail to enter)
j
Yes
in
j
No
Examine final
model
Validate model
No
No prediction
possible with MLR
in
Is variance explained
by each variable in the
model significant?
f < f
No (Remove variables)
j
MSR 2010 ©
Is variable significant?
out
Nota:
f in ≥ f out ( normalmente fin = f out )
Variáveis selecionadas podem vir a ser
removidas posteriormente, caso se tornem
redundantes quando outras forem adicionadas.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
62
Regressão Linear Múltipla
Selecção de Variáveis
“Best subset” regression:
Para cada combinação distinta de k variáveis (k=kmin : kmax):
Estimar o correspondente modelo MLR;
Calcular o valor do critério de “qualidade de ajuste”
seleccionado;
Ordenar as combinações de variáveis de acordo com o valor
do critério a que elas conduziram;
Guardar os resultados para as melhores N combinações;
Apresentar os resultados para as melhores N combinações
obtidas em cada subconjunto de dimensão k considerado
(k=kmin : kmax).
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
63
Regressão Linear Múltipla
Selecção de Variáveis
Critérios de qualidade de ajuste:
R2
R2adj
Mallows-Cp
Também penaliza a adição de variáveis sem poder explicativo
Uma medida do erro quadrático total do modelo de regressão
Estimado com o modelo em estudo (k variáveis).
SSr ( k )
−  n − 2 ( k + 1) 
Cp =
σˆ 2
Gráfico Cp vs p
Estimado com o modelo completo.
MSR 2010 ©
Se o modelo postulado for correcto, Cp dever ser próximo de k+1
(número de parâmetros)
Logo, escolher modelo para o qual o Cp é baixo e próximo de k+1.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
64
Regressão Linear Múltipla
Selecção de Variáveis
Critérios de qualidade de ajuste (cont.):
Mallows-Cp
É conveniente traçar um gráfico Cp vs. (k+1):
procurar qual o modelo com Cp mais baixo que está mais
próximo da recta Cp=k+1.
PRESS
“Leverage” da observação i
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
65
GEPSI/CIEPQPF
DEQ-FCTUC
66
Regressão Linear Múltipla
Selecção de Variáveis
Statistica
MSR 2010 ©
Engenharia de Processos e Sistemas
Regressão Linear Multivariada
Tópicos sobre métodos de projecção
(selecção de dimensões ou de direcções)
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
67
Regressão Linear Multivariada
Metodologias de Projecção
Na abordagem ao problema da colinearidade vimos
que as técnicas de selecção de variáveis
contornavam o problema deixando de lado variáveis
“redundantes”.
As metodologias de projecção, pelo contrário, não
excluem qualquer variável:
MSR 2010 ©
O facto de haver redundância, significa que a verdadeira
dimensão dos dados (X’s) é inferior ao número de
variáveis presentes;
Importa pois estimar este subespaço (de dimensão mais
reduzida) e usar as variáveis X’s nele projectadas, para
prever Y.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
68
PCR
Principal Components Regression
PCR (Principal Component Regression)
O subespaço de X a usar é o gerado pelos
componentes principais
MSR 2010 ©
Proporcionam uma boa descrição da variabilidade
encontrada em X;
As variáveis (PC1, PC2, …) não são correlacionadas;
Deixando de lado as dimensões menos relevantes, …
… contorna-se o problema da colinearidade!
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
69
PCR
Principal Components Regression
Usar como regressores os scores dos PCs selecionados
Vector com os coeficientes do modelo:
−1
bˆPCR = (T T T ) T T y
onde T = XP (PCA)
 t11 t12 ⋯ t1 p 
 p11



T =⋮
⋮ ⋯ ⋮ ,P =  ⋮
tn1 tn 2 ⋯ tnp 
 pm1



( p ≤ m)
p12
⋮
pm 2
p1 p 

⋯ ⋮ 
⋯ pmp 
⋯
Nota:
Fórmula válida para o caso de X e Y serem centrados (e eventualmente escalonados). Se não estiverem
centrados, deve-se adicionar uma coluna de 1’s para contemplar a estimação da ordenada na origem.
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
70
PCR
Principal Components Regression
NOTA:
MSR 2010 ©
PCR pode ser usado quando existem mais
variáveis que observações;
Existem técnicas para acomodar dados em falha
nos X’s;
O método é sensível à escala das variáveis;
Quando o número de dimensões seleccionadas é
igual ao número de variáveis, PCR=RLM.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
71
PLS
Partial Least Squares
MSR 2010 ©
Em PCR o subespaço utilizado é o que mais explica
a variabilidade presente nos X’s;
No entanto, este não é necessariamente o mais
relevante do ponto de vista de explicar a
variabilidade em Y;
Em PLS procura-se estimar o subespaço que
melhor explica a variabilidade em Y, descrevendo
também a variabilidade em X …
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
72
PLS
Partial Least Squares
PLS (Partial Least Squares):
O subespaço é aquele que apresenta “maior covariância”
com Y:
Procedimento:
Procurar direcções no espaço dos X’s que apresentem maior
covariância com os Y’s.
No caso de um Y:
Qual é a combinação linear de X’s com maior covariância com
Y? Resposta: T1;
Qual é a combinação linear de X’s, ortogonal à anterior, com
maior covariância com Y? Resposta:T2;
…
•Wold, S.; Sjöström, M.; Eriksson, L. (2001), PLS-regression: a basic tool of chemometrics.
Chemometrics and Intelligent Laboratory Systems, p. 109-130.
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
73
PLS
Partial Least Squares
y
PLS
Motivação geométrica
t1
X3
T=XW*
t1
X1
X=TPT+E
MSR 2010 ©
X2
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
74
PLS
NOTA:
PLS pode ser usado quando existem mais variáveis que
observações;
Acomoda dados em falha;
Pode ser usado com vários Y’s
Adequado se estes apresentarem correlação entre si
Caso contrário construir modelos independentes para cada Y
O método é sensível à escala das variáveis.
Quando o número de dimensões seleccionadas é igual ao
número de variáveis, PLS=PCR=RLM
MSR 2010 ©
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
75
PCR, PLS
Selecção do número de dimensões (variáveis latentes)
Validação Cruzada
Particionar os dados de treino em K grupos
Exemplo para 5 grupos (K=5)
Train
MSR 2010 ©
Train
Test
Train
Train
Deixar um grupo de lado, e estimar o modelo com os restantes (K-1)
grupos
Prever as respostas do grupo eliminado, e calcular os respectivos
erros de previsão
Repetir o processo para todos os grupos (todas as amostras ficam
de fora uma vez).
Calcular o erro quadrático médio de previsão, usando todos os erros
de previsão obtidos para os diferentes grupos (RMSECV)
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
76
PCR, PLS
Validação do Modelo
Antes de usar o modelo, este deve ser validado.
Conjunto de teste
Usar um novo conjunto de dados para verificar se as previsões
efectuadas pelo modelo são adequadas ao fim a que este se
destina, e se estão dentro do que é esperado no seu
desenvolvimento.
Validação Cruzada
Nem sempre temos a possibilidade de ter um novo conjunto de
dados:
Usar validação cruzada (5-10 grupos);
Usar técnicas de re-amostragem (resampling, por exemplo: bootstrap).
MSR 2010 ©
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
77
PLS
NOTA:
Tanto PLS como PCR estimam um modelo linear
multivariável do tipo:
Yi = β 0 + β1 xi1 + β 2 xi 2 + ⋯ + β m xim + ε i
MSR 2010 ©
No entanto, estes métodos estimam os parâmetros do
modelo de forma distinta ao métodos dos mínimos
quadrados, tirando partido daquilo que para este método é
uma fraqueza: a presença de variáveis X colineares. Eles
incorporam a correlação existente entre estas variáveis na
estimação dos subespaços, com base nos quais estimam
os parâmetros do modelo.
A sua utilização prática, após estimados os parâmetros, é
no entanto idêntica.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
78
Exemplo
Exemplo: SFCM process (Wise at al., 2003*)
X10
X9
X8
X7
X6
X5
X4
X3
X2
X1
y
O “Slurry-Fed Ceramic Melter” é um sistema contínuo onde se
processam resíduos nucleares, combinando-os com materiais
vítreos, num forno a altas temperaturas, o SFCM.
O resultado é um produto vitrificado, estável, para deposição a
longo prazo, num local apropriado.
Os dados recolhidos consistem das temperaturas no forno em 20
localizações diferentes, dispostos segundo duas linhas verticais
com 10 sensores cada,…
X20
X19
X18
X17
X16
X15
X14
X13
X12
X11
X1-base →X10-topo; X11-base →X20-topo
… e o nível da massa fundida no forno, (y).
Pretende-se construir um modelo que relacione as
temperaturas medidas, com o nível de vidro fundido no SFCM.
* in PLS_Toolbox for use in MATLABTM, Eigenvector Research Inc., 2003.
MSR 2010 ©
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
79
Exemplo
X variables
1200
1100
1000
Temperature
900
800
700
600
y variable
21.2
500
400
21
300
20.8
0
50
100
150
Sample number
200
250
300
20.6
Level
200
20.4
20.2
20
19.8
MSR 2010 ©
0
50
Engenharia de Processos e Sistemas
100
150
Sample number
200
250
300
GEPSI/CIEPQPF
DEQ-FCTUC
80
Exemplo
PCR: Selecção do número de componentes usando validação cruzada.
0.117
0.116
RMSECV Level
0.115
0.114
0.113
0.112
0.111
Detalhes:
•Validação cruzada: 10
blocos contíguos;
•Variáveis centradas.
0.11
0.109
2
4
6
8
10
12
14
Principal Component Number
MSR 2010 ©
16
18
20
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
81
Exemplo
PLS: Selecção do número de componentes usando validação cruzada.
0.117
0.116
RMSECV Level
0.115
0.114
0.113
0.112
0.111
0.11
0.109
MSR 2010 ©
2
4
6
8
10
12
14
Latent Variable Number
16
18
20
Engenharia de Processos e Sistemas
Detalhes:
•Validação cruzada: 10
blocos contíguos;
•Variáveis centradas.
GEPSI/CIEPQPF
DEQ-FCTUC
82
Exemplo
Coeficientes de regressão obtidos por RLM, PCR e PLS
0.015
MLR
PCR
PLS
Regression Coefficient
0.01
0.005
0
-0.005
-0.01
0
2
4
MSR 2010 ©
6
8
10
12
Variable Number
14
16
18
20
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
83
Regressão Linear Multivariada
Comparação de Metodologias
Exemplo: SFCM (Wise at al., 2003)
MLR
PCR
PLS
RR
RMSEC
0.0991
0.1059
0.1034
0.0996
RMSECV
0.1122
0.1108
0.1098
0.1122
RMSEP
0.1496
0.1366
0.1396
0.1471
n
RMSEC* =
∑ ( yˆ − y )
i =1
i
i
n
RMSE of Calibration*
MSR 2010 ©
ntest
2
RMSECVc =
PRESSc
n
RMSE of Cross-Validation
RMSEP =
∑ ( yˆ − y )
i =1
i
2
i
ntest
RMSE of Prediction in a new test set
(200 new observations)
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
84
Metodologia Geral de RLM
MSR 2010 ©
GEPSI/CIEPQPF
DEQ-FCTUC
Engenharia de Processos e Sistemas
85
Regressão Linear Múltipla
Metodologia em RL
Passo 1
Estudar estatísticas
e gráficos
Passo 2
Formular o modelo
Passo 3
Estimar o modelo
Bom ajuste
OK!
MSR 2010 ©
Passo
4
Validar
o
modelo
Passo 5
Apresentar resultados.
Usar modelo.
Engenharia de Processos e Sistemas
Ajuste não satisfatório
GEPSI/CIEPQPF
DEQ-FCTUC
86
Regressão Linear Múltipla
1. Familiarização com os dados
Fazer uso extensivo de todas as ferramentas de estatística
descritiva que nos ajudem a familiarizar com os dados do nosso
problema, por exemplo:
MSR 2010 ©
Examinar médias, desvios padrão, alguns percentis, mínimos,
máximos, para todas as variáveis de entrada e de saída;
Examinar a matriz de correlação (existe colinearidade entre os x’s?
qual/quais os x’s mais correlacionados linearmente com o y?);
Construir gráficos de dispersão para todas as combinações de x’s e
entre cada x e o y;
Se os dados foram recolhidos ao longo do tempo, analisar,
individualmente, o gráfico temporal para cada variável;
Detectar e examinar outliers.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
87
Regressão Linear Múltipla
2. Formulação do modelo
MSR 2010 ©
Com base no conhecimento existente a priori e/ou com base nos
gráficos construídos em 1 para as relações entre y e os vários x’s,
propor um modelo de regressão que relacione as variáveis de entrada
com a variável de saída;
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
88
Regressão Linear Múltipla
3. Estimar os parâmetros do modelo
Proceder ao ajuste do modelo aos dados recolhidos. Como
resultado, obtém-se as estimativas para os parâmetros do
modelo definido em 2., bem como outras grandezas
relacionadas (por exemplo, parâmetros de qualidade, valores de
prova para diversos testes estatísticos). Deve-se então:
MSR 2010 ©
Analisar os resultados em busca de variáveis eventualmente mais
importantes na explicação da variabilidade de y;
Avaliar a qualidade do ajuste;
Verificar se existe colinearidade entre as variáveis (calcular VIF para
cada variável existente no modelo), e se esta pode constituir um
problema.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
89
Regressão Linear Múltipla
4. Validação do modelo estimado
Construir os seguintes gráficos envolvendo os resíduos, para
verificar se algum/ns dos pressupostos subjacentes aos modelos
de regressão linear está/ão a ser violado/s:
MSR 2010 ©
Resíduos vs. valores previstos (para verificar, por exemplo, se a
variância dos resíduos não depende do nível de y);
Resíduos vs. cada uma das variáveis de entrada (verificar que
não existe estrutura por explicar devido, por exemplo, a não
considerar termos não-lineares envolvendo as variáveis de
entrada);
Resíduos vs. tempo, ou sequência de observações (verificar a
independência dos resíduos ao longo das observações);
Gráficos de probabilidade normal para resíduos (verificar o
pressuposto de normalidade dos resíduos).
(Padrões não aleatórios são indicativo de um modelo não
adequado)
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
90
Regressão Linear Múltipla
5. Apresentar os resultados e usar o modelo
MSR 2010 ©
Nesta fase sintetizam-se os resultados para o modelo
desenvolvido (desde que este seja satisfatório). Os dados
utilizados e pressupostos subjacentes devem ser também
indicados. Usar então o modelo e criar uma metodologia que
permita averiguar a sua validade ao longo do tempo, se o seu
uso não se restringir à situação presente.
Engenharia de Processos e Sistemas
GEPSI/CIEPQPF
DEQ-FCTUC
91

Documentos relacionados

Regressão Linear Múltipla

Regressão Linear Múltipla  Estas variáveis não trazem nada de novo para o modelo em termos de previsões futuras, tendo pelo contrário uma acção prejudicial e destabilizadora.

Leia mais