Analise discriminante - Hedibert Freitas Lopes
Transcrição
Analise discriminante - Hedibert Freitas Lopes
Mestrado Profissional em Administração Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015 Análise Discriminante MANLY, Cap. 8 HAIR et al., Cap. 5 2 Objetivos o Construir uma regra de discriminação dos grupos (Análise Discriminante) Pergunta: As variáveis observadas realmente são capazes de diferenciar as populações? o Construir uma regra para classificar novas observações em uma das populações (Análise Classificatória) 3 Exemplo 1 Para a concessão de crédito, um gerente coleta dados cadastrais de seus clientes • Os dados coletados são úteis para diferenciar um mau pagador de um bom pagador? Quão úteis? • Com base nos dados de um cliente, é possível prever se ele será um bom ou mau pagador? 4 Exemplo 2 Uma seguradora precisa decidir se vale a pena fazer o seguro para o veículo de determinado perfil de cliente. • É possível identificar se o veículo de determinado perfil de cliente será roubado durante a vigência de sua apólice? • Como identifico esses clientes? • É possível prever a taxa de sucesso? • É possível criar um tipo de escoragem para 5 auxiliar na decisão? Separação e classificação para duas populações 6 Variáveis observadas: X=(X1, X2, …, Xp)T População 1 Diferem? População 2 7 Ideia o Transformar as observações multivariadas (X) em observações univariadas (y), de tal forma que as observações univariadas derivadas das populações 1 e 2 estejam mais separadas quanto possível. o Formar uma combinação linear das variáveis originais observadas de maneira que as populações 1 e 2 fiquem o mais separadas possível. 8 Exemplo Uma empresa que fabrica maquinário agrícola deseja orientar o setor de vendas a respeito do público alvo de seus produtos, especificamente da sua linha de tratores. Para isso, você tem acesso aos dados do arquivo Trator.xls. 9 Exemplo População de interesse: agricultores de determinada região Objetivo: identificar, com base no rendimento anual (X1, em milhares de reais) e no tamanho do lote (X2, em hectares), prováveis compradores de trator. Amostra: 12 proprietários de trator (grupo 1) e 12 não proprietários (grupo 0) - Y. 10 Diagrama de dispersão 11 Diagrama de dispersão 120 SIM Rendimento 100 NÃO 80 60 40 20 12 14 16 18 20 22 24 Tamanho do Lote 12 Diagrama de dispersão 120 SIM Rendimento 100 Y: eixo de projeção 80 60 40 NÃO 20 12 14 16 18 20 22 24 Tamanho do Lote 13 Função discriminante de Fisher Pop1 Pop2 -5 -4 -3 -2 -1 0 1 2 3 4 5 Y Função discriminante de Fisher: Y = bTX 14 Função discriminante Y = bTX: função discriminante Se X pertence à Pop1 então E(Y) = bTm1 = m1Y Se X pertence à Pop2 então E(Y) = bTm2 = m2Y Var(Y) = bTSb - para as duas populações. Importante: a normalidade, apesar de desejável, não é assumida. A homocedasticidade é necessária. 15 Função discriminante Pop1 Pop2 -6 -4 -2 0 2 4 6 Quanto maior a diferença, melhor é a discriminação das populações 16 -5 -4 -3 -2 -1 0 1 2 3 4 5 Pop1 Pop1 Pop2 Pop2 -5 -4 -3 -2 -1 0 1 2 3 4 5 A discriminação será boa quando: Pop1 Pop2 ☺ as médias forem distantes ☺ as variâncias forem pequenas -5 -4 -3 -2 -1 0 1 2 3 4 5 17 Como estimar b? Selecionar a combinação linear que maximiza a distância entre m1Y e m2Y relativa à variabilidade de Y. Maximizar a função objetivo: ω1 − ω2 b ( µ1 − µ2 ) Δ= = T Var( Y ) b Σb T 18 Parâmetros desconhecidos Maximizar a função objetivo: b ( x1 − x 2 ) Δ= T b Sb (n1 − 1) S1 + (n2 − 1) S 2 S= n1 + n2 − 2 T Solução: b = S-1(X1-X2) 19 Exemplo - Consumidores de trator 120 100 80 60 GRUPO RENDA 40 NC 20 C 12 14 16 18 20 22 24 LOTE 20 Para o exemplo: Médias: RENDA LOTE Sim 79. 5 20.3 Não 57.4 17.6 S RENDA RENDA 276.7 LOTE LOTE -7.2 4.3 21 Função discriminante RENDA LOTE Sim 0,43 5,47 Não 0,33 4,68 b = Sim-Não 0,10 0,79 Função discriminante: Y = 0,10Renda+0,79Lote 22 Análise Classificatória Como utilizar Y para prever a população a qual um determinado caso pertence? Y > c = População 1 Y < c = População 2 Como encontrar c? 23 Diagrama de dispersão 120 SIM Rendimento 100 Y: eixo de projeção 80 60 40 NÃO 20 12 14 16 18 20 22 24 Tamanho do Lote 24 Pop2 Pop1 Pop1 Pop2 -5 -4 -3 -2 -1 0 1 2 3 4 5 c Indivíduos da Pop1 classificados na Pop2 Indivíduos da Pop2 classificados na Pop1 25 Pop2 -5 -4 -3 Pop1 -2 -1 0 1 2 3 4 Pop1 Pop2 5 c Indivíduos da Pop1 classificados na Pop2 Indivíduos da Pop2 classificados na Pop1 26 Análise Classificatória Suposição: homocedasticidade. Sejam Y1 = bT X1e Y2 = bT X2 Como classificar um indivíduo com vetor x0? Valor da função discriminante de Fisher para o indivíduo: y0 = bTx0 27 Análise Classificatória O indivíduo deve ser classificado na população 1 se ( y 0 − Y1 ≤ y 0 − Y2 ) ( b x 0 − X1 ≤ b x 0 − X 2 T T ) 28 Regras de classificação Isso equivale a utilizar a seguinte regra: se y0 > c classifico em Pop 1. Y1 + Y2 c= , se n1 = n2 2 Pop2 Pop1 Pop1 Pop2 -5 -4 -3 -2 -1 0 1 2 3 4 5 c 29 Regras de classificação Regra para tamanhos amostrais diferentes n2 Y1 + n1Y2 c= , se n1 ≠ n2 n1 + n2 30 Função discriminante RENDA LOTE Sim 0,43 5,47 Não 0,33 4,68 b = Sim-Não 0,10 0,79 Y = 0,10 Renda + 0,79 Lote Y1 = b X1 = 23.99 T n1 = n2 = 12, então Y2 = b X2 = 19,64 T Y1 + Y2 c= = 21.82 2 Regra de classificação: se Y0 > c então consumidor 31 Função discriminante 32 Tabela de classificação 33 Custos de erros de classificação População verdadeira Pop1 Pop2 População Prevista Pop1 Pop2 0 c(2/1) c(1/2) 0 c(2/1): custo ao se classificar um indivíduo da população 1 na população 2 c(1/2): custo ao se classificar um indivíduo da população 2 na população 1 34 Probabilidades de Classificação População verdadeira Pop1 Pop2 População Prevista Pop1 Pop2 P(1,1) P(2,1) P(1,2) P(2,2) P(i,j) = probabilidade de um indivíduo ser classificado na população i e ser da população j. pi = probabilidade de um indivíduo ser da população i (também conhecida como probabilidade a priori) 35 ECM: Custo esperado de classificação errada ECM = c(2/1) P(2,1) + c(1/2) P(1,2) = = c(2/1) P(2/1) p1 + c(1/2) P(1/2) p2. Objetivo: obter uma regra de classificação que minimize o ECM. 36 Regra 2 de classificação Se X seguir uma distribuição normal multivariada e as matrizes de covariâncias forem as mesmas para as duas populações, então x0 deve ser classificado em Pop1 se: 1 T T −1 −1 (x 1 − x 2 ) S x 0 − (x 1 − x 2 ) S (x 1 + x 2 ) > ln(k) 2 1 T T b x 0 − b x 1 + b T x 2 > ln(k) 2 1 c(1/2) p 2 T b x 0 − Y1 + Y2 > ln(k) k= 2 c(2/1) p371 ( ( ) ) Regra 2 de classificação Simplificando temos que x0 deve ser classificado em Pop 1 se: y 0 = b x o > c + ln(k) = m T 38 Regra 2 de classificação c(1/2) p 2 k= c(2/1) p1 Se p1 = p2 e c(1/2) > c(2/1), ou seja é mais custoso classificar um indivíduo do grupo 2 no grupo 1 do que o inverso, então k > 1 e portanto o ponto de corte será superior a c (ponto médio das médias dos grupos). Conclusão: tendemos a classificar mais 39 pessoas no grupo 2 do que no grupo 1. Ilustrando: p1=p2 c(1/2) p 2 k= c(2/1) p1 e c(1/2) > c(2/1) Pop2 -5 -4 -3 Pop1 -2 -1 0 1 2 3 4 Pop1 Pop2 5 m Indivíduos da Pop1 classificados na Pop2 Erro mais barato c Indivíduos da Pop2 classificados na Pop1 Erro mais caro 40 Regra 2 de classificação c(1/2) p 2 k= c(2/1) p1 Se p2 > p1 e c(1/2) = c(2/1), há mais pessoas no grupo 2 do que no 1. Então a regra faz com que k > 1 e portanto o ponto de corte será superior a c (ponto médio das médias dos grupos), corrigindo a distorção. 41 Validação da Análise • Tabela de classificação correta. • Método deixar-um-de-fora (leave-one-out). 42 Violações das suposições • Normalidade multivariada – vícios nos testes e nas taxas de classificação errada – variáveis contínuas (Dillon, p. 381) - taxa geral de classificação correta não é muito afetada, mas as taxas por população podem ser. Efeito é menor se as variáveis preditoras forem limitadas superior e inferiormente. 43 Violações das suposições • Matrizes de covariância desiguais – vícios nos testes de hipóteses (pag 379 e 380 do Dillon) – vícios na classificação – erro maior se os tamanhos amostrais forem pequenos. 44 Análise Discriminante g - grupos 45 Exemplo No exemplo do trator, adicionar o grupo Consumidor de outra marca. Grupos – Consumidor – Não é consumidor – Consumidor de outra marca 46 Diagrama de dispersão 140 120 Rendimento 100 80 Consumidores 60 Consumidor de outra marca 40 Não 20 10 Sim 12 14 16 18 20 Tamanho do Lote 22 24 47 Diagrama de dispersão 140 120 Rendimento 100 80 Consumidores 60 Consumidor de outra marca 40 Não 20 10 Sim 12 14 16 18 20 Tamanho do Lote 22 24 48 Funções discriminantes • Havendo g grupos, o número de funções discriminantes será g-1. • Construção: baseia-se na MANOVA 49