Analise discriminante - Hedibert Freitas Lopes

Transcrição

Analise discriminante - Hedibert Freitas Lopes
Mestrado Profissional em Administração
Disciplina: Análise Multivariada
Professor: Hedibert Freitas Lopes
1º trimestre de 2015
Análise Discriminante
MANLY, Cap. 8
HAIR et al., Cap. 5
2
Objetivos
o  Construir uma regra de discriminação dos
grupos (Análise Discriminante)
Pergunta: As variáveis observadas realmente
são capazes de diferenciar as populações?
o  Construir uma regra para classificar novas
observações em uma das populações (Análise
Classificatória)
3
Exemplo 1
Para a concessão de crédito, um gerente coleta
dados cadastrais de seus clientes
• 
Os dados coletados são úteis para diferenciar
um mau pagador de um bom pagador? Quão
úteis?
• 
Com base nos dados de um cliente, é possível
prever se ele será um bom ou mau pagador?
4
Exemplo 2
Uma seguradora precisa decidir se vale a pena fazer
o seguro para o veículo de determinado perfil de
cliente.
• 
É possível identificar se o veículo de
determinado perfil de cliente será roubado
durante a vigência de sua apólice?
•  Como identifico esses clientes?
•  É possível prever a taxa de sucesso?
• 
É possível criar um tipo de escoragem para
5
auxiliar na decisão?
Separação e classificação
para duas populações
6
Variáveis observadas:
X=(X1, X2, …, Xp)T
População 1
Diferem?
População 2
7
Ideia
o  Transformar as observações multivariadas (X) em
observações univariadas (y), de tal forma que as
observações univariadas derivadas das
populações 1 e 2 estejam mais separadas quanto
possível.
o  Formar uma combinação linear das variáveis
originais observadas de maneira que as
populações 1 e 2 fiquem o mais separadas
possível.
8
Exemplo
Uma empresa que fabrica maquinário agrícola
deseja orientar o setor de vendas a respeito do
público alvo de seus produtos, especificamente
da sua linha de tratores. Para isso, você tem
acesso aos dados do arquivo Trator.xls.
9
Exemplo
População de interesse: agricultores de
determinada região
Objetivo: identificar, com base no rendimento
anual (X1, em milhares de reais) e no tamanho do
lote (X2, em hectares), prováveis compradores de
trator.
Amostra: 12 proprietários de trator (grupo 1) e 12
não proprietários (grupo 0) - Y.
10
Diagrama de dispersão
11
Diagrama de dispersão
120
SIM
Rendimento
100
NÃO
80
60
40
20
12
14
16
18
20
22
24
Tamanho do Lote
12
Diagrama de dispersão
120
SIM
Rendimento
100
Y: eixo de
projeção
80
60
40
NÃO
20
12
14
16
18
20
22
24
Tamanho do Lote
13
Função discriminante de Fisher
Pop1
Pop2
-5
-4
-3
-2
-1
0
1
2
3
4
5
Y
Função discriminante de Fisher: Y = bTX
14
Função discriminante
Y = bTX: função discriminante
Se X pertence à Pop1 então
E(Y) = bTm1 = m1Y
Se X pertence à Pop2 então
E(Y) = bTm2 = m2Y
Var(Y) = bTSb - para as duas populações.
Importante: a normalidade, apesar de desejável,
não é assumida. A homocedasticidade é
necessária.
15
Função discriminante
Pop1
Pop2
-6
-4
-2
0
2
4
6
Quanto maior a diferença, melhor é a discriminação
das populações
16
-5
-4
-3
-2
-1
0
1
2
3
4
5
Pop1
Pop1
Pop2
Pop2
-5
-4
-3
-2
-1
0
1
2
3
4
5
A discriminação será boa
quando:
Pop1
Pop2
☺  as médias forem distantes
☺  as variâncias forem pequenas
-5
-4
-3
-2
-1
0
1
2
3
4
5
17
Como estimar b?
Selecionar a combinação linear que maximiza a
distância entre m1Y e m2Y relativa à variabilidade de Y.
Maximizar a função objetivo:
ω1 − ω2 b ( µ1 − µ2 )
Δ=
=
T
Var( Y )
b Σb
T
18
Parâmetros desconhecidos
Maximizar a função objetivo:
b ( x1 − x 2 )
Δ=
T
b Sb
(n1 − 1) S1 + (n2 − 1) S 2
S=
n1 + n2 − 2
T
Solução: b = S-1(X1-X2)
19
Exemplo - Consumidores de trator
120
100
80
60
GRUPO
RENDA
40
NC
20
C
12
14
16
18
20
22
24
LOTE
20
Para o exemplo:
Médias:
RENDA LOTE
Sim
79. 5
20.3
Não
57.4
17.6
S
RENDA
RENDA
276.7
LOTE
LOTE
-7.2
4.3
21
Função discriminante
RENDA
LOTE
Sim
0,43
5,47
Não
0,33
4,68
b = Sim-Não
0,10
0,79
Função discriminante: Y = 0,10Renda+0,79Lote
22
Análise Classificatória
Como utilizar Y para prever a população
a qual um determinado caso pertence?
Y > c = População 1
Y < c = População 2
Como encontrar c?
23
Diagrama de dispersão
120
SIM
Rendimento
100
Y: eixo de
projeção
80
60
40
NÃO
20
12
14
16
18
20
22
24
Tamanho do Lote
24
Pop2
Pop1
Pop1
Pop2
-5
-4
-3
-2
-1
0
1
2
3
4
5
c
Indivíduos da Pop1
classificados na Pop2
Indivíduos da Pop2
classificados na Pop1
25
Pop2
-5
-4
-3
Pop1
-2
-1
0
1
2
3
4
Pop1
Pop2
5
c
Indivíduos da Pop1
classificados na Pop2
Indivíduos da Pop2
classificados na Pop1
26
Análise Classificatória
Suposição: homocedasticidade.
Sejam Y1 = bT X1e Y2 = bT X2
Como classificar um indivíduo com vetor x0?
Valor da função discriminante de Fisher para o
indivíduo:
y0 = bTx0
27
Análise Classificatória
O indivíduo deve ser classificado na
população 1 se
(
y 0 − Y1 ≤ y 0 − Y2
)
(
b x 0 − X1 ≤ b x 0 − X 2
T
T
)
28
Regras de classificação
Isso equivale a utilizar a seguinte regra: se
y0 > c classifico em Pop 1.
Y1 + Y2
c=
, se n1 = n2
2
Pop2
Pop1
Pop1
Pop2
-5
-4
-3
-2
-1
0
1
2
3
4
5
c
29
Regras de classificação
Regra para tamanhos amostrais diferentes
n2 Y1 + n1Y2
c=
, se n1 ≠ n2
n1 + n2
30
Função discriminante
RENDA
LOTE
Sim
0,43
5,47
Não
0,33
4,68
b = Sim-Não
0,10
0,79
Y = 0,10 Renda + 0,79 Lote
Y1 = b X1 = 23.99
T
n1 = n2 = 12, então
Y2 = b X2 = 19,64
T
Y1 + Y2
c=
= 21.82
2
Regra de classificação: se Y0 > c então consumidor
31
Função discriminante
32
Tabela de classificação
33
Custos de erros de
classificação
População
verdadeira
Pop1
Pop2
População Prevista
Pop1
Pop2
0
c(2/1)
c(1/2)
0
c(2/1): custo ao se classificar um indivíduo da
população 1 na população 2
c(1/2): custo ao se classificar um indivíduo da
população 2 na população 1
34
Probabilidades de
Classificação
População
verdadeira
Pop1
Pop2
População Prevista
Pop1
Pop2
P(1,1)
P(2,1)
P(1,2)
P(2,2)
P(i,j) = probabilidade de um indivíduo ser classificado na
população i e ser da população j.
pi = probabilidade de um indivíduo ser da população i
(também conhecida como probabilidade a priori)
35
ECM: Custo esperado de
classificação errada
ECM = c(2/1) P(2,1) + c(1/2) P(1,2) =
= c(2/1) P(2/1) p1 + c(1/2) P(1/2) p2.
Objetivo: obter uma regra de classificação
que minimize o ECM.
36
Regra 2 de classificação
Se X seguir uma distribuição normal multivariada e
as matrizes de covariâncias forem as mesmas
para as duas populações, então x0 deve ser
classificado em Pop1 se:
1
T
T
−1
−1
(x 1 − x 2 ) S x 0 − (x 1 − x 2 ) S (x 1 + x 2 ) > ln(k)
2
1 T
T
b x 0 − b x 1 + b T x 2 > ln(k)
2
1
c(1/2) p 2
T
b x 0 − Y1 + Y2 > ln(k)
k=
2
c(2/1) p371
(
(
)
)
Regra 2 de classificação
Simplificando temos que x0 deve ser
classificado em Pop 1 se:
y 0 = b x o > c + ln(k) = m
T
38
Regra 2 de classificação
c(1/2) p 2
k=
c(2/1) p1
Se p1 = p2 e c(1/2) > c(2/1), ou seja é mais
custoso classificar um indivíduo do grupo 2 no
grupo 1 do que o inverso, então k > 1 e
portanto o ponto de corte será superior a c
(ponto médio das médias dos grupos).
Conclusão: tendemos a classificar mais
39
pessoas no grupo 2 do que no grupo 1.
Ilustrando: p1=p2
c(1/2) p 2
k=
c(2/1) p1
e c(1/2) > c(2/1)
Pop2
-5
-4
-3
Pop1
-2
-1
0
1
2
3
4
Pop1
Pop2
5
m
Indivíduos da Pop1
classificados na Pop2
Erro mais barato
c
Indivíduos da Pop2
classificados na Pop1
Erro mais caro
40
Regra 2 de classificação
c(1/2) p 2
k=
c(2/1) p1
Se p2 > p1 e c(1/2) =
c(2/1), há mais pessoas
no grupo 2 do que no 1.
Então a regra faz com
que k > 1 e portanto o
ponto de corte será
superior a c (ponto
médio das médias dos
grupos), corrigindo a
distorção.
41
Validação da Análise
•  Tabela de classificação correta.
•  Método deixar-um-de-fora (leave-one-out).
42
Violações das suposições
•  Normalidade multivariada
–  vícios nos testes e nas taxas de classificação
errada
–  variáveis contínuas (Dillon, p. 381) - taxa geral de
classificação correta não é muito afetada, mas as
taxas por população podem ser. Efeito é menor
se as variáveis preditoras forem limitadas
superior e inferiormente.
43
Violações das suposições
•  Matrizes de covariância desiguais
–  vícios nos testes de hipóteses (pag 379 e 380
do Dillon)
–  vícios na classificação
–  erro maior se os tamanhos amostrais forem
pequenos.
44
Análise Discriminante
g - grupos
45
Exemplo
No exemplo do trator, adicionar o grupo
Consumidor de outra marca.
Grupos
–  Consumidor
–  Não é consumidor
–  Consumidor de outra marca
46
Diagrama de dispersão
140
120
Rendimento
100
80
Consumidores
60
Consumidor de outra
marca
40
Não
20
10
Sim
12
14
16
18
20
Tamanho do Lote
22
24
47
Diagrama de dispersão
140
120
Rendimento
100
80
Consumidores
60
Consumidor de outra
marca
40
Não
20
10
Sim
12
14
16
18
20
Tamanho do Lote
22
24
48
Funções discriminantes
•  Havendo g grupos, o número de
funções discriminantes será g-1.
•  Construção: baseia-se na MANOVA
49

Documentos relacionados