CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS
Transcrição
CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS
CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS Programa de Pós-Graduação em Modelagem Matemática e Computacional UMA ABORDAGEM ALTERNATIVA DE CREDIT SCORING USANDO ANÁLISE DISCRIMINANTE: eficiência na concessão de crédito para o segmento de pessoas físicas no Brasil Marcos dos Santos Dutra BELO HORIZONTE 2008 Marcos dos Santos Dutra UMA ABORDAGEM ALTERNATIVA DE CREDIT SCORING USANDO ANÁLISE DISCRIMINANTE: eficiência na concessão de crédito para o segmento de pessoas físicas no Brasil Dissertação apresentada ao Programa de PósGraduação em Modelagem Matemática e Computacional do CEFET-MG, como requisito parcial para obtenção do título de Mestre em Modelagem Matemática e Computacional. Orientadora: Prof. Dra. Elenice Biazi Belo Horizonte 2008 ii D978a 2008 Dutra, Marcos dos Santos Uma abordagem alternativa de credit scoring usando análise discriminante: eficiência na concessão de crédito para o segmento de pessoas físicas no Brasil. -- 2008 87 f. Orientadora: Elenice Biazi Dissertação (mestrado) – Centro Federal de Educação Tecnológica de Minas Gerais. 1. Análise discriminatória – Teses. 2. Administração de crédito – Brasil. 3. Estatística matemática. I. Biazi, Elenice. II. Centro Federal de Educação Tecnológica de Minas Gerais. III. Título. CDD 519.5 Elaboração da ficha catalográfica por Biblioteca-Campus II / CEFET-MG iii Marcos dos Santos Dutra Uma abordagem alternativa de credit scoring usando análise discriminante: eficiência na concessão de crédito para o segmento de pessoas físicas no Brasil Dissertação apresentada ao Programa de Pós-Graduação em Modelagem Matemática e Computacional do CEFET-MG. Belo Horizonte, 2008. ___________________________________________ Prof. Dra. Elenice Biazi (Orientadora) – CEFET-MG ___________________________________________ Prof. Dr. Wagner Moura Lamounier – UFMG ___________________________________________ Prof. Dr. Sérgio Ricardo de Souza – CEFET-MG ___________________________________________ Prof. Dr. Allbens Atman Picardi Faria – CEFET-MG iv AGRADECIMENTOS Grande é minha lista de agradecimentos (o que me torna uma pessoa de sorte). Primeiramente, agradeço a Deus, por ter-me concedido o privilégio de realizar mais um sonho de minha vida. Agradeço à minha esposa, Cris, pelo incentivo, amor e carinho nesses momentos não partilhados. Agradeço à minha mãe, Maria Elza, pelo cuidado, amor e ensinamentos indispensáveis à minha formação. Agradeço ao meu pai, Célio, por não medir esforços para ajudar-me em minhas decisões. Agradeço a meus irmãos, Marcelo, Amarildo e Ângela, pelo apoio e incentivo fundamentais para que eu pudesse prosseguir nessa caminhada. Agradeço ao meu tio Epifânio, meu sogro Hélio e minha sogra Elizabete, pelo carinho e incentivo. Agradeço à Professora Dra. Elenice Biazi, pelo incentivo, paciência, orientações e, principalmente, por sua amizade ao longo desses dois anos. Incluo, de forma especial, o Professor Dr. Sérgio Ricardo de Souza, pelo incentivo e sugestões que permearam este trabalho. Agradeço aos amigos Nédson e Marcus Tadeu, sempre disponíveis para discussões de algumas questões relevantes e importantes aqui desenvolvidas. Agradeço de forma carinhosa às minhas amigas Maria José e Luciana, pela disponibilidade nos momentos que precisei. Agradeço ao CAPES, pela bolsa concedida durante os dois anos de curso. v Quanto mais vivo, mais profundamente me convenço de que o que faz a diferença entre o homem e outro homem é a energia, uma determinação invencível, uma decisão tomada e mantida até a vitória final. Fowell Buxton vi RESUMO Nestes últimos anos, após o Plano Real, o volume de crédito mostrou expressivo crescimento, principalmente o crédito para pessoas físicas, o que pode ser explicado pela estabilização da inflação e a conseqüente queda da taxa de juros. Paralelamente, observa-se que o sistema financeiro brasileiro tem apresentado excesso de liquidez, gerado principalmente por investimentos externos. Diante desse cenário, é fundamental que as instituições financeiras, além de tornarem mais ágil o processo de concessão de crédito e controlar a inadimplência, sejam capazes de ampliar a concessão de crédito de forma eficaz. Assim, a gestão do risco de crédito vem alcançando uma posição de destaque nas instituições financeiras e, conseqüentemente, existe um maior interesse por modelos de credit scoring. Contudo, esses modelos inibem a gestão de riscos por oferecerem apenas duas opções: rejeição ou aceitação da operação. Dessa forma, não permitem à instituição financeira o controle do nível de risco, ou seja, ser mais ou menos agressiva na concessão de crédito. Neste trabalho, é proposta uma metodologia alternativa de credit scoring capaz de atender às tendências atuais que induzem a operar com uma menor aversão ao risco, ou seja, com maior agressividade, resguardando a relação risco-retorno. Entre as diversas metodologias existentes, optou-se neste trabalho pela estatística de análise discriminante. Essa metodologia, que apresenta a vantagem de classificar os indivíduos em grupos, de acordo com seu grau de risco, torna-se uma das aplicações mais difíceis em credit scoring, devido às fortes pressuposições necessárias à correta avaliação dos tipos de dados envolvidos. No entanto, através da aplicação de técnicas sofisticadas em estatística, conseguiu-se viabilizar o uso da análise discriminante, mesmo quando há violações de pressuposições. Os resultados indicam que o modelo proposto é conveniente e eficiente quando há violações das pressuposições da análise discriminante. Contudo, é fundamental o uso combinado de técnicas poderosas em estatística. A transformação de Box-Cox (1964) e a técnica de influência local de Cook (1986) são algumas delas. Palavras-chave: análise discriminante, credit scoring, influência local, transformação de Box-Cox. vii ABSTRACT After the Plano Real, the credit volume has shown expressive growth, mainly the consumer credit, what can be explained by the stabilization of the inflation and the consequent fall of the interest rate. As a matter of fact, it is observed that the Brazilian financial system has been presenting liquidity excess generated mainly by external investments. In this scenario it is fundamental that the financial institutions not only become more agile in the process of credit concession and control of lack of payment, but are also able to enlarge the credit concession in an effective way. Thus, the administration of credit risk is reaching a prominence position in the financial institutions and consequently there is a larger interest in methods of credit scoring. These models, however, inhibit the management of risks as they offer only two options, refusal or acceptance of the operation. This does not allow the financial institution the control of the level of risk, that is, the choice to be mores or less aggressive in the credit concession. In this paper an alternative methodology of credit scoring is proposed, which is able to fulfil the current tendencies that induce financial operations with smaller aversion to risk, that is, greater aggressiveness while protecting the relation risk-return. In this paper, among the several existing methodolies, the statistical methodology of discriminant analysis was chosen. This methodology that presents the advantage of classifying the individuals in groups according to its risk degree, becomes one of the most difficult applications in credit scoring due to the strong assumptions for the correct evaluation of the types of data involved. However, through the application of sophisticated statistical techniques the use of the discriminant analysis became possible even when there are violations of assumptions. The results indicate that the proposed model is appropriate and efficient when there are violations of assumptions in discriminant analysis. However, it is fundamental the combined use of powerful techniques in statistics. The Box-Cox (1964) transformation and the technique of local influence of Cook (1986) are some of them. Key-words: discriminant analysis, credit scoring, local influence, Box-Cox transformation. viii LISTA DE FIGURAS FIGURA 1: Distribuição dos escores de crédito de contas boas e ruins em um modelo de scoring de crédito................................................................................................................. 17 FIGURA 2: Problema de classificação................................................................................ 32 ix LISTA DE TABELAS TABELA 1: Classificação da função discriminante de Fisher (dados sem transformação) 61 TABELA 2: Classificação da função discriminante de Fisher (método stepwise).............. 62 TABELA 3: Classificação da função discriminante de Fisher (dados transformados)........ 64 TABELA 4: Classificação da função discriminante de Fisher – retirados 22 pontos influentes.............................................................................................................................. 68 TABELA 5: Classificação da função discriminante de Fisher – retirados 68 pontos influentes.............................................................................................................................. 69 TABELA 6: Classificação da função discriminante de Fisher – procedimento 1............... 70 TABELA 7: Classificação da função discriminante de Fisher – procedimento 2............... 70 TABELA 8: Teste de Box – seção 5.1.9.2 (DFFITS).......................................................... 71 TABELA 9: Teste de Box – seção 5.1.9.3 (influência local – procedimento 1).................. 71 TABELA 10: Teste de Box – seção 5.1.5.2 (influência local – procedimento 2)................ 71 TABELA 11: Classificação da função discriminante quadrática – seção 5.1.9.2 (DFFITS).............................................................................................................................. 72 TABELA 12: Classificação da função discriminante quadrática – seção 5.1.9.3 (influência local – procedimento 1)..................................................................................... 72 TABELA 13: Classificação da função discriminante quadrática – seção 5.1.9.3 (influência local – procedimento 2)..................................................................................... 72 TABELA 14: Validação cruzada – seção 5.1.9.3 (procedimento 2).................................... 74 TABELA 15: Resultado da classificação do modelo final.................................................. 76 x LISTA DE QUADROS QUADRO 1: Variáveis necessárias para a classificação das operações de crédito............. 56 QUADRO 2: Variáveis explicativas do modelo de credit scoring...................................... 57 QUADRO 3: Composição dos grupos estudados................................................................ 57 QUADRO 4: Proposta de tratamento dos dados, passos a serem seguidos, propósitos e os processos estatísticos utilizados....................................................................................... 58 xi LISTA DE GRÁFICOS GRÁFICO 1: Carteira de operações de crédito – dez/1999................................................. 20 GRÁFICO 2: Carteira de operações de crédito – dez/2006................................................. 20 GRÁFICO 3: Evolução da relação de crédito/PIB no Brasil............................................... 21 GRÁFICO 4: Crédito em relação ao PIB n mundo – mai/2007.......................................... 21 GRÁFICO 5: Spread bancário no Brasil (jul/1994 a out/2003).......................................... 29 GRÁFICO 6: Qui-Quadrado (Q-Q ployt)............................................................................ 63 GRÁFICO 7: Probabilidades com envelopes...................................................................... 65 GRÁFICO 8: Resíduo de Pearson........................................................................................ 66 GRÁFICO 9: Resíduo studentizado..................................................................................... 66 GRÁFICO 10: Diagonal da matriz H (Leverage)................................................................ 66 GRÁFICO 11: Distância de Cook........................................................................................ 67 GRÁFICO 12: DFFITS........................................................................................................ 67 GRÁFICO 13: Influência local – caso variáveis explanatórias........................................... 68 xii SUMÁRIO 1. INTRODUÇÃO............................................................................................................... 16 1.1 Justificativa............................................................................................................... 1.2 Problema.................................................................................................................... 23 1.3 Objetivos.................................................................................................................... 25 1.3.1 Objetivo geral............................................................................................................. 25 1.3.2 Objetivos específicos.................................................................................................. 25 2. REFERENCIAL TEÓRICO DOS MODELOS DE CREDIT SCORING................. 26 2.1 Surgimento dos modelos de credit scoring.............................................................. 26 2.2 Difusão dos modelos de credit scoring no Brasil.................................................... 27 2.3 Vantagens e desvantagens dos modelos de credit scoring tradicionais................ 31 18 3. METODOLOGIA........................................................................................................... 32 3.1 Análise discriminante............................................................................................... 32 3.1.1 Problema..................................................................................................................... 32 3.1.2 Premissas.................................................................................................................... 33 3.2 Função discriminante linear de Fischer................................................................. 34 3.3 Função discriminante quadrática........................................................................... 35 3.4 Robustez da função discriminante linear e quadrática......................................... 36 3.5 Métodos de verificação das premissas da análise discriminante.......................... 36 3.5.1 Método stepwise.......................................................................................................... 37 3.5.2 Normalidade multivariada.......................................................................................... 37 3.5.3 Comparando matrizes de covariância........................................................................ 40 3.5.4 Análise de diagnósticos.............................................................................................. 43 3.5.4.1 Diagonal da matriz H (Leverage)............................................................................... 45 3.5.4.2 Resíduo de Pearson..................................................................................................... 45 xiii 3.5.4.3 Resíduo studentizado.................................................................................................. 46 3.5.4.4 Distância de Cook....................................................................................................... 47 3.5.4.5 DFFITS....................................................................................................................... 47 3.5.4.6 Influência local........................................................................................................... 48 3.5.4.6.1 Metodologia de influência local...................................................................... 48 3.5.4.6.2 Variáveis explanatórias em regressão linear................................................... 50 3.5.4.7 Técnicas gráficas........................................................................................................ 51 3.6 Transformação de Box-Cox (1964)......................................................................... 52 3.7 Validação do modelo................................................................................................. 53 3.7.1 Método de Wilk........................................................................................................... 53 3.7.2 Validação cruzada...................................................................................................... 54 3.7.3 Reclassificação das observações dos dois grupos que apresentarem maior quantidade de observações misturadas.................................................................................. 54 3.8 Base de dados............................................................................................................ 55 4. APLICAÇÃO.................................................................................................................. 60 4.1 60 A metodologia alternativa de credit scoring........................................................... 4.1.1 Passo 1: Preparação da base de dados...................................................................... 60 4.1.2 Passo 2: Análise discriminante de Fisher.................................................................. 60 4.1.3 Passo 3: Aplicação do método stepwise.................................................................... 61 4.1.4 Passo 4: Análise discriminante de Fisher................................................................... 62 4.1.5 Passo 5: Verificação da normalidade multivariada................................................... 62 4.1.6 Passo 6: Transformações de Box-Cox........................................................................ 63 4.1.7 Passo 7: Análise discriminante de Fisher.................................................................. 64 4.1.8 Passo 8: Análises de diagnósticos.............................................................................. 64 4.1.8.1 Influência local........................................................................................................... 67 4.1.9 Passo 9: Reanálise dos dados..................................................................................... 68 xiv 4.1.9.1 Leverage..................................................................................................................... 68 4.1.9.2 DFFITS....................................................................................................................... 69 4.1.9.3 Influência local – caso variáveis explanatórias........................................................... 69 4.1.10 Passo 10: Teste de Box............................................................................................... 71 4.1.11 Passo 11: Função discriminante quadrática.............................................................. 72 4.1.12 Validação do modelo.................................................................................................. 73 5. CONCLUSÃO................................................................................................................. 77 REFERÊNCIAS.................................................................................................................... 79 APÊNDICE........................................................................................................................... 85 ANEXO.................................................................................................................................. 87 xv 1. INTRODUÇÃO Assaf Neto e Silva (1997) definem crédito como sendo uma troca de bens no presente por bens futuros. Assim, pode-se definir uma operação de crédito como a troca de um valor atual pela promessa de pagamento futuro. No ambiente das finanças, quando acontece uma concessão de recursos, a instituição financeira passa a possuir o chamado “risco de crédito”. Jorion (1997) afirma que esse risco pode ser definido como a possibilidade de a contraparte não cumprir as obrigações monetárias contratuais relativas às transações financeiras. Esse não cumprimento das obrigações contratuais é chamado inadimplência e deve ser monitorado. Assim, se não existirem metodologias eficazes de previsão da inadimplência e controle no processo de concessão de limites, as operações de crédito podem levar a economia a um processo de desaquecimento, em decorrência da retração das fontes financiadoras. Um melhor entendimento e aperfeiçoamento do processo de gestão do crédito deve levar a uma expansão dos níveis de crédito concedidos em decorrência do maior grau de certeza das instituições bancárias quanto às perdas nos financiamentos. A incerteza quanto à veracidade do compromisso tem levado os bancos a elaborarem modelos mais sofisticados para estimar a chance de não pagamento. O objetivo principal dos modelos é obter um conjunto de parâmetros que demonstrem a real chance de o devedor honrar a dívida. Um desses modelos é chamado credit scoring1. Huang, Chen e Wang (2006) afirmam que os modelos de credit scoring são desenvolvidos para aceitar ou rejeitar candidatos ao crédito de acordo com suas características, tais como idade, renda e condição conjugal. Santos e Fama (2007) complementam essa definição explicando que o modelo, que se fundamenta em uma forma estatística desenvolvida com base nas principais informações cadastrais dos clientes, atribui a elas pesos de acordo com a importância destacada em suas políticas internas de crédito. Como resultado final, obtém-se um sistema de pontuação que possibilita o cálculo de valores que serão interpretados em conformidade com a classificação de risco adotada, as quais recomendarão a aprovação ou a recusa dos financiamentos pleiteados pelas pessoas físicas. 1 Neste trabalho será mantido o termo em inglês credit scoring, que significa ‘pontuação de crédito’, por ser um termo usado nas instituições financeiras, mesmo as oficiais, como o Banco do Brasil. 16 Ao somar as pontuações de todos os clientes, define-se uma pontuação mínima, ou seja, o “ponto de corte” (ver figura 1), que será a base para aprovação ou recusa do crédito. Porcentagem das Contas Distribuição dos Escores de Crédito de Contas Boas e Ruins em um Modelo de Scoring de Crédito Escore de Corte Contas Ruins Contas Boas Escore de Crédito Fonte: Caouette, Altman e Narayanan (1999) Santos e Fama (2007) recomendam um intervalo estatístico de confiança a partir do “ponto de corte” que permitiria a aprovação ou recusa de clientes através de uma análise em comitê. Conforme afirmam Huang, Chen e Wang (2006), profissionais e pesquisadores têm desenvolvido uma variedade de modelos estatísticos para credit scoring, como os modelos discriminantes lineares, os de regressão logística, dos k-vizinhos mais próximos, de programação genética, de árvore de decisão e de redes neurais. Caouette, Altman e Narayanan (1999) afirmam que, na maioria das vezes, os modelos de credit scoring apresentam alguns problemas – como a violação da normalidade multivariada – que podem afetar sua validade estatística. Entretanto, dificilmente são encontrados na literatura métodos que visem solucionar – ou mesmo amenizar – esses problemas de violação. A maior razão para isso é a necessidade de sigilo, já que boas e sofisticadas técnicas trazem vantagens competitivas e, portanto, as instituições que as utilizam procuram não as divulgar. O que existe em abundância são discussões acerca dos problemas das metodologias estatísticas, sendo, no entanto, dificilmente encontrado algum estudo empírico revelando todas as etapas do processo de formação até a aplicação do modelo. Outra questão relevante é que os modelos de credit scoring, além de aceitarem na maior parte das vezes clientes que sempre pagam em dia, podendo a operação não ser muito rentável em termos de juros e multa por atraso no pagamento, também inibem a gestão de risco; esses problemas motivaram a escolha do tema no presente estudo. 17 A análise discriminante – apesar de criticada pelos problemas de violação de pressuposições (normalidade multivariada, ausência de pontos influentes e igualdade das matrizes de covariância), que podem inviabilizar o uso desta técnica – possui aplicação bastante usual em modelos de credit scoring, sendo Altman (1968) o pioneiro em sua utilização. Além disso, ela possui vantagem em relação ao tempo de processamento despendido, quando comparada a outros métodos, tais como o logístico, árvore binária e kvizinhos mais próximos, entre outros. Essa vantagem é de suma importância para tais modelos2, levando em conta que um menor tempo de processamento significa maior agilidade na concessão. Nesse contexto, será proposta neste trabalho a metodologia estatística de análise discriminante, fazendo uso combinado de técnicas que visem amenizar ou mesmo resolver os problemas de violação de suas pressuposições. Este estudo está dividido em seis capítulos. O capítulo 1 preocupa-se em localizar a necessidade da existência de metodologias eficazes de gestão de riscos, identificar o problema da pesquisa, caracterizar as justificativas para o tema e expor os objetivos a serem atingidos. O capítulo 2 apresenta o contexto histórico dos modelos de credit scoring, desde a sua origem à sua difusão. No capítulo 3, é apresentada a metodologia estatística usada para o desenvolvimento do modelo proposto. Já no capítulo 4, são apresentadas as variáveis necessárias para a divisão dos grupos e as variáveis explicativas para a formulação do modelo em questão. Desenvolve-se no capítulo 5 o modelo propriamente dito de avaliação na concessão de crédito. A conclusão e sugestões para estudos futuros se dão no capítulo 6. 1.1 Justificativa Uma questão abordada na literatura de modelos de concessão de crédito remete à discussão da divisão dos créditos em classes do tipo “bom” e “ruim”. Vasconcelos (2002) explica que o foco da maior parte dos modelos é a divisão de acordo com o risco de atraso no pagamento, ou seja, de acordo com o comportamento de inadimplência da carteira de crédito. 2 Um trabalho interessante que apresenta de forma comparativa os principais métodos de discriminação é encontrado em Sanda (1990). 18 Candidatos a crédito com risco muito baixo e que pagam suas prestações pontualmente conseguem-no com taxas de juros mais baixas, além de não pagarem juros e multas por atrasos; não são, no entanto, muito rentáveis. Analogamente, candidatos com risco muito alto e que atrasam o pagamento de suas prestações podem ser bastante rentáveis, desde que as taxas de juros de suas operações sejam suficientemente altas e que os atrasos não sejam prolongados. Contudo, se a análise não for bem feita, o lucro obtido com uma venda adicional pode ser totalmente comprometido com as despesas de cobrança de um mau pagador ou com a perda do crédito. Caouette, Altman e Narayanan (1999) comentam que o posicionamento em relação ao crédito tem mudado na sociedade. Enquanto palavras como devedor ou tomador são consideradas depreciativas (têm conotações de ato vergonhoso e de miséria), ao serem substituídas modernamente por alavancador3 denotam motivo de orgulho. De fato, os norte-americanos são bombardeados por todos os lados com convites para aumentar os empréstimos que tomam [...]. Até pessoas com problemas de crédito [...] são logo vistas como bons riscos de crédito por estarem livres de dívidas. (CAOUTTE, ALTMAN e NARAYANAN, 1999, p.12). No mesmo raciocínio, observa-se, na carteira de ativos bancários4, a existência de produtos de renegociação de dívidas, desenvolvidos para atender pessoas físicas e jurídicas, que reconhecem dificuldades em manter as bases inicialmente acordadas no contrato. Esse tipo de cliente pode ser visto como alavancador, sugerindo a possibilidade de aumentar significativamente o lucro da instituição credora. Assim, é proposta uma nova metodologia para mensuração do risco de crédito, utilizando uma técnica estatística denominada análise discriminante, sendo incluído, no modelo, um novo grupo de clientes que obtiveram dificuldades em manter o acordo contratual, mas que renegociaram e liquidaram a dívida. Com essa inclusão, é possível ampliar o nível de concessão de crédito, resguardando a relação risco-retorno. A motivação da escolha desse tema é devida a duas problemáticas identificadas, descritas a seguir. 3 O termo ‘alavancador’ é usado aqui no sentido da utilização de recursos de terceiros para aumentar as possibilidades de lucro de uma empresa, aumentando, conseqüentemente, o grau de risco da operação. 4 Também conhecida como carteira de contas a receber, a carteira de ativos bancários é um registro de todas as contas e saldos das vendas a crédito de uma empresa. 19 a) Aumento substancial das operações concedidas a pessoas físicas no Brasil após o Plano Real, apesar de, numa perspectiva internacional, a relação crédito/ PIB ser muito baixa. A expansão das operações de crédito no Brasil após o Plano Real foi abrangente em vários segmentos da economia. Entretanto, as operações de crédito para pessoas físicas foram as que mais cresceram nos últimos anos. As informações consolidadas divulgadas pelo Banco Central do Brasil para cada modalidade de crédito mostram que, já no início de 1999, o saldo das operações concedidas a pessoas físicas representava um volume superior a 50% do saldo total das operações concedidas a pessoas jurídicas, conforme gráfico 1. Carteira de Crédito -1999 35% 65% PF PJ GRÁFICO 1: Carteira de operações de crédito – dez/1999 Fonte: adaptado de Banco Central do Brasil. O gráfico 2 mostra que, em 2006, o saldo das operações concedidas a pessoas físicas representa um volume de apenas seis pontos percentuais a menos que as operações concedidas a pessoas jurídicas. Carteira de Crédito -2006 53% 47% PF PJ GRÁFICO 2: Carteira de operações de crédito – dez/2006 Fonte: adaptado de Banco Central do Brasil. 20 Apesar de a expansão das operações de crédito no Brasil ser abrangente em vários segmentos da economia, sendo explicada, principalmente, pelo aumento do crédito para pessoas físicas, o volume de crédito como proporção do nível de Produto Interno Bruto (PIB) tem-se mostrado muito baixo, numa perspectiva internacional. O Banco Central apurou a relação crédito/PIB5, no ano 2007, em 36,5%, nível muito baixo se comparado a outros países, tanto desenvolvidos como em desenvolvimento. O gráfico 3 mostra a evolução do crédito em relação ao PIB entre 1994 e 2007, evidenciando uma queda e recente recuperação da participação do crédito. % participação Participação do crédito no PIB 40,00% 35,00% 30,00% 25,00% 20,00% 15,00% 10,00% 5,00% 0,00% 36,40% 1994 36,50% 35,80% 31,00% 28,70% 95 96 97 98 29,70% 26,90%27,80% 99 2000 01 31,00% 26,60% 23,90% 02 25,80% 03 04 30,70% 26,00% 05 06 07 ANO GRÁFICO 3: Evolução da relação crédito/PIB no Brasil Fonte: adaptado de Banco Central do Brasil. O gráfico 4 mostra a relação crédito/PIB de vários países em 2006. O Chile apresentou uma relação crédito/PIB de 70%, ainda assim considerada baixa em relação a países desenvolvidos como EUA, com 146%, e Alemanha, com 120%. GRÁFICO 4: Crédito em relação PIB no mundo – mai/2007 Fonte: Banco do Brasil. 5 A experiência internacional sugere uma relação causal entre desenvolvimento financeiro e crescimento econômico. Um trabalho interessante, citado por Andrezo e Lima (1999), foi realizado por King e Levine. 21 Apesar do desenvolvimento financeiro do Brasil ser considerável nos últimos anos, há amplas evidências empíricas e suporte teórico considerável que sugerem que o nível de crescimento do crédito ainda é muito baixo no País. b) Críticas da aplicação da análise discriminante em modelos de credit scoring. A análise discriminante tem, em modelos de credit scoring, uma de suas aplicações mais difíceis de serem implementadas. Isso acontece por dois motivos: • a amostra disponível é composta por supostos bons pagadores, isto é, clientes que foram considerados pelo analista de crédito como bons pagadores e, portanto, merecedores de crédito. A população de maus clientes para o modelo é criada, basicamente, a partir dos erros do analista, ou seja, clientes que tiveram o crédito e não o honraram; • a análise é feita considerando três tipos de variáveis (binárias, contínuas e discretas), apesar de, na literatura, modelos que consideram três tipos de variáveis conjuntamente serem pouco explorados. Entretanto, Caouette, Altman e Narayanan (1999) afirmam que a análise discriminante tem sido freqüentemente aplicada em modelos de credit scoring. Um modelo alternativo seria o de Krzanowski, denominado, em inglês, de location model, introduzido por Olkin e Tate (1961) e utilizado em análise discriminante inicialmente por Chang e Afifi (1974). Posteriormente, Krzanowski (1975, 1980, 1982, 1986) escreveu diversos artigos que demonstram viabilidade a sua aplicação – daí muitos pesquisadores nomearem esse método com o seu nome. Em credit scoring, modelos que utilizam outros métodos quantitativos, além da análise discriminante, são objetos de contínua investigação, sempre visando à melhoria das decisões de crédito, apesar de alguns pesquisadores, como Sanda (1990), acreditarem que não existe um método que seja sempre melhor que os demais. A EQUIFAX, conforme relatado por Adriano Blatt6, apresenta a técnica de análise matemática que melhor se adapta às necessidades das empresas na área de risco: a análise discriminante aplicada às decisões de crédito (EQUIFAX, 2007). Dessa forma, neste trabalho serão usadas técnicas sofisticadas capazes de amenizar os problemas de violações de pressuposições da análise discriminante, o que, conseqüentemente, tornará o modelo de score mais eficiente. O presente trabalho justifica-se então por tratar de um tema de fundamental importância para as empresas que trabalham com crédito a pessoas físicas, pois, além de 6 É o autor brasileiro com maior quantidade de livros publicados versando sobre o tema. 22 oferecer uma metodologia alternativa de credit scoring que permitirá ampliar o nível de concessão de crédito, resguardando a relação risco/retorno7, propõe a aplicação de técnicas sofisticadas em estatísticas que viabilizam a aplicação da análise discriminante, mesmo quando as pressuposições necessárias à correta discriminação dos dados são violadas. 1.2 Problema As instituições financeiras captam e administram recursos de terceiros com o objetivo de maximizar o lucro. Entretanto, alguns administradores são mais agressivos que outros e, por isso, algumas empresas são mais propensas à utilização de dívidas para sua alavancagem financeira. Gitman (2001) define risco no sentido mais básico como sendo a chance de perda financeira. Ele explica ainda que os administradores geralmente procuram evitar o risco, com tendência a serem conservadores em vez de agressivos ao aceitarem-no. Bernstein (2000) cita que, quanto à etimologia, a palavra risco vem do italiano antigo risicare, que significa “ousar”, sendo portanto “uma opção e não um destino”. E continua: “a capacidade de administrar riscos e com ela a vontade de correr riscos e fazer opções ousadas são elementos chaves da energia que impulsiona o sistema econômico”. Entende-se por risco exposição à sorte ou perigo. Os chineses têm uma definição melhor: para representar riscos eles combinam dois símbolos, o de “perigo” e o de “oportunidade”. Cada investidor tem de fazer uma análise de custo-benefício entre as recompensas que potencialmente vêm com as oportunidades e os riscos decorrentes do perigo. (BERNSTEIN, 2000, p.62). Os modelos de credit scoring tradicionais inibem a ação da gestão de risco, tirando do gestor as opções de decisões agressivas. Além disso, apesar de a análise discriminante ser freqüentemente utilizada em modelos de credit scoring tradicionais, se não houver estratégias eficazes capazes de amenizar ou resolver os problemas de violações, pode-se ter um modelo impreciso. 7 Administradores financeiros geralmente tendem a ser conservadores em vez de agressivos ao aceitarem riscos, ou seja, para certo aumento no risco, eles exigem um aumento no retorno. 23 Segundo Groppel e Nikbakht (1999, apud SOETHE, 2004, p.14), “risco e retorno são a base sobre a qual são tomadas decisões racionais e inteligentes de investimento”. Assim, na maioria dos casos, o sucesso das instituições financeiras encontra-se diretamente associado ao potencial de mensurar seu ambiente de risco e usufruir dos mecanismos de gerenciamento e/ou monitoramento de tais operações. Conquistar retornos mais expressivos sobre os investimentos realizados, seja pelos proprietários ou pelos acionistas das empresas, tem sido o grande motivador da adoção de estratégias mais arrojadas nos mercados competitivos. Atualmente, o sistema brasileiro tem apresentado excesso de liquidez, segundo afirma Carneiro (2007). Essa liquidez é gerada, principalmente, por investimentos externos que, de acordo com as informações do Banco Central, no ano de 2003 somavam US$ 10,1 bilhões, apresentando recorde ao somar US$ 34,616 bilhões em 2007. Diante disso, os bancos têm aumentado o nível de alavancagem, sendo, conseqüentemente, induzidos a trabalhar com uma menor aversão ao risco. Um bom exemplo disso é apresentado no Diário do Comércio, explicado por Lisboa, analista de bancos da agência Moody’s: A qualidade das carteiras pode variar de acordo com as garantias exigidas pelos bancos. Com a competição, algumas instituições tendem a ser mais agressivas e diminuir o volume de créditos como garantia, precisando realocá-los para uma classificação de risco maior (o que vai além da classificação AA a C), explica Lisboa. Ela aponta o Santander como um exemplo de banco que teve uma mudança de mix de carteira. “O banco ficou mais agressivo no varejo, o que imputa um risco maior, principalmente quando se refere a cartão de crédito e crédito pessoal”. (DIÁRIO DO COMÉRCIO, 2008) Se os bancos não estiverem preparados, porém, a agressividade na concessão de crédito pode contribuir para a sua fragilização e até mesmo quebra. Diante dessas perspectivas, o problema da pesquisa relaciona-se com o tratamento dos dados e a viabilização da inclusão de um terceiro grupo, chamado “intermediário”, em credit scoring; pergunta-se então: é possível a construção de um modelo funcional8, usando análise discriminante, capaz de controlar a inadimplência e ao mesmo tempo contribuir para a ampliação da concessão de crédito além do estabelecido pelos modelos tradicionais de credit scoring? 8 Na literatura de credit scoring, não é apresentada a proporção mínima de acertos considerada aceitável à construção do modelo. Uma exceção é encontrada em Caouette, Altman e Narayanan (1999), que consideram o modelo funcional, se apresentar uma taxa de sucesso superior a 80%. Em Rêgo (2004), é afirmado que, em um modelo discriminante, um percentual de classificação inferior a 60% indicaria sua fragilidade. 24 1.3 Objetivos 1.3.1 Objetivo geral O objetivo principal deste trabalho é a construção de uma metodologia alternativa à linha tradicional de credit scoring, usando análise discriminante para o segmento de pessoas físicas no Brasil, capaz de atender aos administradores com perfis agressivos ou conservadores, de acordo com a disposição para correr mais ou menos riscos. 1.3.2 Objetivos específicos • Classificar clientes de uma instituição financeira em um dos três grupos previamente definidos: “bom”, “intermediário” ou “ruim”. • Utilizar técnicas que viabilizem a utilização da análise discriminante, mesmo que as pressuposições sejam violadas. 25 2. REFERENCIAL TEÓRICO DOS MODELOS DE CREDIT SCORING 2.1 Surgimento dos modelos de credit scoring No desenvolvimento de suas atividades, as empresas expõem-se a diferentes tipos de risco, os quais podem acarretar grandes perdas, devendo, portanto, ser monitorados cuidadosamente. Diante disso, há a necessidade de que as empresas e as instituições financeiras, especialmente, possuam sofisticados sistemas de gestão de riscos. A escolha dos proponentes que receberiam crédito era, até meados do século XX, baseada exclusivamente no julgamento de um ou mais analistas. O conhecimento especializado dessa pessoa, seu julgamento subjetivo e sua atribuição de peso a certos fatoreschave eram determinantes na decisão de conceder ou não crédito em um sistema especialista, conforme afirma Saunders (2000). Entretanto, um especialista está sujeito a pré-julgamentos, que maximizam as chances de decisões equivocadas na concessão do crédito. Além disso, o analista humano não é capaz de verificar de forma rápida e eficiente uma grande quantidade de informações. Em virtude disso, a aprovação de um pedido de crédito era subjetiva. Em uma mesma instituição, uma solicitação poderia ou não ser aprovada, dependendo do analista que julgasse o pedido. Devido a essas limitações, às pressões econômicas decorrentes da elevada demanda por crédito, à grande competição comercial e ao surgimento de novas tecnologias computacionais, fez-se necessário o desenvolvimento de modelos estatísticos sofisticados que requeressem pouca ou nenhuma intervenção humana para melhorar o desempenho no processo de avaliação de crédito. Fisher (1936) desenvolveu a análise discriminante, técnica estatística de análise multivariada, a qual, a partir das características disponíveis de um indivíduo, cria uma regra de classificação, que permite inferir a população à qual ele pertence. Isso permitiu o desenvolvimento dos primeiros modelos de credit scoring. Diante da maior agilidade, menor custo e maior objetividade na decisão, os modelos de credit scoring foram aos poucos se popularizando, sendo atualmente muito utilizados, de acordo com Thomas, citado por Soethe (2004, p.82). Essa idéia de distinção entre os grupos de uma população foi introduzida por Fisher (1936), que procurou diferenciar duas variedades de íris pela mensuração do porte das plantas e distinguir a origem de crânios por meio de suas dimensões 26 físicas. David Durand (1941) foi o primeiro a reconhecer que as mesmas técnicas poderiam ser usadas para diferenciar os bons empréstimos dos maus. A popularização dos sistemas de credit scoring, no entanto, só ocorreu a partir da década de 1960. A chegada dos cartões de crédito nessa época, explica Thomas, citado por Amorim Neto e Carmona (2004), fez com que os bancos intensificassem o uso de credit scoring. O número crescente de pessoas que solicitavam cartão de crédito tornou economicamente impossível ter mão-de-obra suficiente para decisões de empréstimos que não fossem automatizados. Na década de 1980, o sucesso do credit scoring para cartões de crédito fez com que os bancos passassem a aplicar o escore a outros produtos, como crédito pessoal, chegando, nos últimos anos, a empréstimos imobiliários e pequenos financiamentos a pessoas jurídicas. O sistema de escore, segundo informa Guimarães, citado por Soethe (2004, p.84), [...] teria surgido na década de 70, nos Estados Unidos, difundindo-se, a partir de então, em países europeus e asiáticos na década de 80. A implantação dos primeiros sistemas inteiramente desenvolvidos no Brasil começou a surgir em 1982, por filiais das empresas norte-americanas de cartão de crédito. 2.2 Difusão dos modelos de credit scoring no Brasil O sistema financeiro brasileiro teve um crescimento significativo no final da década de 1980, em razão do contexto de inflação elevada. Os ganhos do sistema financeiro não decorriam das operações de crédito, mas, basicamente, do “ganho inflacionário”.1 A inflação permite aos bancos a obtenção de um rendimento específico, decorrente da perda de valor real dos recursos neles depositados sem remuneração. Os bancos não pagam aos titulares desses recursos um rendimento que compense a corrosão do seu valor pela inflação, mas incluem essa compensação na taxa cobrada pelo tomador dos empréstimos por eles financiados e se apropriam da diferença. Além dos ganhos inflacionários, a taxa de aplicação de recursos não remunerados inclui os ganhos de float2 (flutuação). 1 As receitas inflacionárias dos bancos no Brasil caíram da média de 4% do PIB, entre 1990 e 1993, para 2% em 1994 e zero em 1995 (IBGE, 1997, p.44). 2 Tempo entre o recebimento e a disponibilizarão do recurso. 27 O Ministro da Economia do governo Itamar Franco, Fernando Henrique Cardoso, implementou, em junho de 1994, um plano econômico de estabilização denominado Plano Real. Esse plano provocou impactos profundos na estrutura e no funcionamento dos bancos no Brasil, os quais tiveram de se adaptar ao fim das receitas inflacionárias, readaptar sua estrutura administrativa, reduzir custos e procurar novas fontes de receitas. A partir da implementação do Plano Real, os bancos já se preparavam para a perspectiva de queda da inflação, ampliando de imediato o crédito3, para não ter que fazê-lo sob as previsíveis restrições da fase inicial de um futuro programa de estabilização. O forte aumento dos empréstimos indicava que os grandes bancos estavam em condições de reagir com rapidez a restrições e mudanças nas expectativas, bem como de se preparar para alterações profundas do quadro econômico, como a queda da inflação. Para alguns bancos, o cenário oferecia oportunidade para melhorar suas posições de mercado à custa dos riscos de expandir o crédito com agressividade. Segundo Carvalho e Oliveira (2002, p.74), estratégias dessa natureza contribuíram para a fragilização e quebra de bancos que não detinham condições patrimoniais e de mercado para enfrentar um desafio dessa natureza, como o Nacional e o Bamerindus: Para Barros e Almeida Jr. (1997, p.93-95), “uma das formas encontradas pelo sistema bancário para compensar a perda da receita inflacionária [...] foi expandir as operações de crédito [...] sem os devidos cuidados quanto à capacidade de pagamento dos novos e antigos devedores. [...] O grande problema em períodos de expansão rápida dos créditos é o aumento da vulnerabilidade das instituições financeiras. [...] são momentos de expansão macroeconômica, quando os devedores estão transitoriamente com folga de liquidez, dificultando, assim, uma análise de risco mais rigorosa por parte dos bancos”. Com o Plano Real, o fim da inflação elevada reduziu substancialmente os ganhos inflacionados apropriados pelos bancos. Contudo, logo após a queda da inflação, no segundo semestre de 1994, a rentabilidade média dos bancos não se afastou do padrão usual. Esse desempenho surpreendente não contrariou a convicção de que a inflação alta representava uma poderosa fonte de lucros para o setor bancário do País. Contudo, três fatores explicam o “bom” desempenho da maior parte dos bancos: cobrança de serviços, ganhos em operações com moeda estrangeira e crescimento da receita gerada pelo aumento do volume de operações de crédito. 3 O forte aumento do crédito antes de julho de 1994 é quase sempre ignorado nas análises sobre os problemas no sistema bancário no Plano Real. Uma exceção é Soares (2001). 28 Apesar do bom desempenho dos bancos após a queda da inflação, o aumento generalizado e intenso do crédito elevou a inadimplência a patamares nunca vistos. Segundo Gremaud, Vasconcellos e Toneto (2005), os bancos estavam despreparados para a concessão de crédito. No período de inflação elevada, o carregamento de títulos públicos fez com que eles perdessem a expertise nessa concessão, dificultando, por exemplo, a seleção e a análise de risco. Enquanto a economia está em expansão, esse problema é minorado, pois o crescimento do emprego, do salário real e dos lucros faz com que os recursos retornem com certa facilidade aos bancos, gerando otimismo e ampliação da concessão de crédito por causa da baixa percepção de risco. Contudo, o problema é evidenciado quando se tem uma reversão na economia. Com a crise mexicana, no início de 19954, verificou-se uma grande reversão no comportamento da atividade econômica, a qual provocou elevação na taxa de inadimplência. Com isso, vários bancos passaram a apresentar prejuízos e mostraram-se insolventes. No setor privado, os primeiros grandes bancos a sentirem dificuldades foram o Nacional e o Econômico; no público, destacam-se o Banco do Brasil, o BANERJ e o Banespa. Foi somente a partir do processo de flexibilização da política monetária, aliado à diminuição da desconfiança dos agentes econômicos em relação à regionalização da crise mexicana (1994-95), que foi possível a retomada do processo de redução das taxas básicas de juros e o alívio das expectativas pessimistas dos agentes quanto ao comportamento futuro da economia, iniciando-se queda pronunciada das margens cobradas pelos bancos em suas operações de empréstimos, conforme gráfico 5. GRÁFICO 5: Spread bancário absoluto no Brasil Fonte: Banco Central do Brasil, 2006. 4 Gerada pelo excesso de dívida interna e externa com pedido de moratória. 29 As tendências de queda iniciadas em fins de 1995 e início de 1998, em particular, foram revertidas em razão de mudanças repentinas do nível geral de expectativas dos agentes, em reflexo às crises asiática (1997)5 e brasileira (1999)6, respectivamente. Baseado no “Relatório de juros e spread bancário”, de 1999, a inadimplência é o custo que mais onera o spread. Em termos médios, ela representa 35% desse spread no período mai-jul/1999. Apesar dessa queda desde a implantação do Plano Real, conforme gráfico 5, o spread bancário ainda permanece em níveis muito elevados. Essa elevada diferença entre as taxas de captação e aplicação de recursos afeta desfavoravelmente o processo de intermediação financeira, minimizando o crescimento da economia. Na fase pós-real, a inflação caiu, o ambiente econômico tornou-se mais estável e previsível, mas a equação básica do crescimento não foi solucionada. Como a capacidade instalada não cresceu o quanto deveria, qualquer movimento de crescimento de consumo foi abortado por medidas de restrição ao crédito, elevação dos juros e aumento dos empréstimos compulsórios, de forma que o crescimento tornou-se um subproduto, não o objetivo principal da política econômica. (LACERDA et al., 2005, p.234) Com o fim da alta inflação, é fundamental que técnicas sejam criadas para a maximização dos resultados. Minimização das perdas, agilidade na decisão e redução de custos passam a ser vitais para o sucesso das instituições financeiras. Os regulamentadores aprovam modelos bem projetados e baseados em estatísticas. Uma instituição é capaz de proporcionar melhor serviço ao consumidor pela sua habilidade de aprovar ou negar um pedido de empréstimos rapidamente. Esse é um fator importante no mundo de mudanças rápidas como o atual. (CAOUETTE, ALTMAN e NARAYANAN, 1999, p.189) Diante dessas perspectivas, houve maior interesse por modelos de credit scoring no Brasil. Tais modelos impulsionam o volume de vendas e promovem a concessão de linhas de crédito a partir de informações sobre o comportamento dos clientes, garantindo assim o aumento do volume de crédito sem aumento de risco e comprometimento de receitas. 5 6 Gerada pela elevação do preço de imóveis e redução de investimentos externos pelo Japão. Gerada pela política de câmbio fixo que aumentou a importação e comprometeu o nível das reservas. 30 2.3 Vantagens e desvantagens dos modelos de credit scoring tradicionais Sobre as vantagens relativas ao uso dos modelos de credit scoring, Caouette, Altman e Narayanan dizem: Os modelos de credit scoring oferecem muitas vantagens. São objetivos e consistentes, características desejáveis para qualquer instituição, especialmente para aquelas que não possuem uma forte cultura de crédito. Se desenvolvidos apropriadamente, eles podem eliminar práticas discriminatórias nos empréstimos. Eles tendem a ser relativamente inexpressivos, bastante simples e de fácil interpretação. A instalação de tais modelos é relativamente fácil. As metodologias usadas para construir esses modelos são comuns e bem entendidas, assim como as abordagens usadas para avaliá-los. Os regulamentadores aprovam modelos bem projetados e baseados em estatísticas. Uma instituição é capaz de proporcionar melhor serviço ao consumidor pela sua habilidade de aprovar ou negar um pedido de empréstimo rapidamente. (CAOUETTE, ALTMAN e NARAYANAN, 1999, p.188) Outras grandes contribuições dos modelos de credit scoring estão relacionadas com a redução do quadro de funcionários ligados ao processo de análise de crédito, o que, conseqüentemente, promove a redução de custos e do tempo de aprovação, bem como a otimização do processo de análise de crédito, com aumento da qualidade da carteira. Silva, citado por Amorim Neto e Carmona (2004, p.6), afirma: A agilidade que o banco ou empresa que concede crédito ganha é altamente valiosa, pois ao invés dos analistas ficarem examinando e concluindo sobre cada um dos índices, poderão dedicar seus tempos a outros assuntos relevantes e que não possam ser sistematizados. Apesar das diversas vantagens citadas, os modelos de credit scoring possuem também diversas limitações, sobre algumas das quais Caouette, Altman e Narayanan dizem: Esses modelos apresentam alguns defeitos. Na maior parte dos casos, eles simplesmente automatizam as práticas de crédito prevalecentes dos bancos. Em outras palavras, eles pouco ajudam a eliminar as distorções históricas de seleção de uma instituição. Além disso, se as variáveis não satisfazem presunções subjacentes, como a distribuição normal multivariada, a validade estatística dos modelos pode ser questionável. São muito comuns os testes estatísticos usados para ajustar esses modelos serem fracos e confundirem o usuário, superestimando sua eficácia. (CAOUETTE, ALTMAN e NARAYANAN, 1999, p.189). Caouette, Altman e Narayanan (1999) também destacam que um modelo de credit scoring pode degradar-se pelo tempo, se a população na qual ele é aplicado diverge da população original, usada para construir o modelo. 31 3. METODOLOGIA 3.1 Análise discriminante Segundo Johnson e Wicthen (2002), análise discriminante é uma técnica multivariada concernente com a separação de conjuntos distintos de objetos (ou observações) e com a alocação de novos objetos (observações) para previamente definir grupos. Hair (1998) afirma que a análise discriminante envolve a busca de uma combinação linear de duas ou mais variáveis independentes que melhor farão a classificação entre grupos previamente definidos. A discriminação será obtida a partir da determinação dos fatores ou pesos para cada variável, de modo que a variância entre os grupos seja maximizada em relação à intragrupos. Mingoti (2005) complementa essa definição, explicando que o objetivo da análise discriminante é construir uma regra de classificação que minimize o número de classificações incorretas. 3.1.1 Problema O problema da análise discriminante é a ocorrência de mistura entre as observações dos grupos. A figura 2 mostra um problema de classificação com duas variáveis, X1 e X2, por exemplo, envolvendo dois grupos de observações formados segundo um determinado critério, no qual as observações de números 3, 8, 16 e 23 apresentaram erros de classificação – misclassification. FIGURA 2: Problema de classificação 32 Em outras palavras, a figura mostra que existe um vetor α que classifica corretamente todas as observações, exceto 3, 8, 16 e 23, classificadas incorretamente, ou seja, em outra população. 3.1.2 Premissas • As variáveis são identificadas como as mais importantes. O método de análise discriminante considera a informação de cada variável e as combina, de modo a obter a discriminação entre grupos. Contudo, podem existir variáveis que não contribuam para essa discriminação, devendo, nesse caso, ser eliminadas. • Normalidade das variáveis dependentes. A falta de normalidade nas observações das variáveis independentes prejudica a eficiência do modelo de análise discriminante. Para contornar isso, é apresentada, na seção 3.6, uma técnica que dará mais robustez ao modelo, caso a premissa de normalidade não seja atendida. • Matrizes de covariância iguais (homocedasticidade). Uma das exigências da análise discriminante linear é que as matrizes de covariância sejam iguais, sob o risco de o poder de precisão do modelo ser comprometido. Contudo, quando a homocedasticidade não é atendida, uma alternativa é aplicar a análise discriminante quadrática.1 • Ausência de pontos influentes. Os pontos influentes são aquelas observações que exercem grande influência na determinação dos coeficientes do modelo. A existência de tais observações pode comprometer o poder de precisão do modelo. Uma melhor explicação é apresentada neste trabalho, na seção 3.5.4. 1 Um estudo sobre técnicas de regularização da matriz de covariância é apresentado por Erbert e Haertel (2003). 33 3.2 Função discriminante linear de Fisher Fisher (1936) introduziu a idéia de se construírem funções discriminantes a partir de combinações lineares das variáveis originais. O método envolve a suposição de que há pvariáveis aleatórias, g populações normais p-variadas e iguais matrizes de covariâncias populacionais. Nesse caso, é possível construir s combinações lineares, s ≤ min ( g − 1, p ) , chamadas funções discriminantes lineares de Fisher, definidas por Yˆj = eˆ'j X P×1 , j = 1,2,..., s (1) em que eˆ′j é o j-ésimo autovetor correspondente ao j-ésimo maior autovalor da matriz W −1 B e tal que eˆ′j W eˆ j = 1, sendo W e B chamadas de matrizes soma de quadrados e produtos cruzados dentro (within) dos grupos e entre (between) grupos, sendo respectivamente definidas por g ni W p× p = ∑∑ ( X ik − X i )( X ik − X i ) ' (2) i =1 k =1 g B p× p = ∑ ni ( X i − X )( X i − X ) ' (3) i =1 sendo X ik o vetor de observações do elemento amostral k que pertence à população i, X i o vetor de médias amostrais da população i, X o vetor de médias amostrais, considerando-se todas as n observações conjuntamente, e ni o número de elementos pertencentes à amostra da g população i , i = 1,2,3..., g , ∑n i = n. As combinações lineares (1) são as de maior poder i =1 discriminante dentro do conjunto de variáveis utilizadas para discriminação. A primeira função discriminante é a relacionada com o maior autovalor da matriz W −1 B e tem o maior poder de discriminação. A segunda função discriminante é relacionada com o segundo maior autovalor de W −1 B e tem um poder de discriminação menor do que a primeira e maior do que a terceira, e assim sucessivamente. Após a construção das funções discriminantes para cada elemento amostral com vetor de observações x j , ter-se-á um vetor com os seus escores nessas funções, isto é, 34 Yˆj′ = [ eˆ1′x j eˆ2′ x j ... eˆs′ x j ]. Além disso, ter-se-á os escores das funções discriminantes aplicadas aos vetores de média amostral observados para cada população, isto é, Yi′ = [eˆ1′xi eˆ2′ xi ... eˆs′ xi ], i = 1, 2..., g . A regra de classificação consiste em calcular a distância euclidiana entre os vetores Yˆ j e Yˆi para todo i = 1,2,3..., g, sendo o correspondente elemento amostral j classificado na população cuja distância é a menor. 3.3 Função discriminante quadrática Quando as matrizes de covariâncias Σ i são diferentes, uma função discriminante quadrática é apropriada. A função é dada por por Johnson e Wichern (2002, p.497): 1 1 T d iQ ( x ) = − ln ∑i − ( x − µi ) ∑i−1 ( x − µi ) + ln pi , i = 1,2,..., g 2 2 (4) em que µ i = vetor médio da população ∏i . Σi = matriz de covariâncias da população ∏i . pi = probabilidade a priori de a observação pertencer à população ∏i . x = vetor aleatório. A regra de classificação consiste em alocar x em ∏ k se d kQ ( x ) = maior de d1Q ( x ) , d 2Q ( x ) ,..., d gQ ( x ) (5) em que d iQ ( x ) é dado em (4). 35 3.4 Robustez da função discriminante linear e quadrática Seber (1984) diz que, quando as matrizes de covariância são diferentes, a função discriminante quadrática é melhor. Outro fato importante é que a “função discriminante quadrática tolera brandamente a não normalidade”. (CLARKE et al. apud SEBER, 1984, p.299). Mingoti (2005) diz que, apesar de existirem testes de hipóteses que podem ser usados para decidir se as matrizes de covariâncias são iguais ou diferentes entre si, uma alternativa mais prática é aquela em que os dois modelos – linear e quadrático – são ajustados aos dados analisados, ficando-se, no final, com o que resultar em menores proporções de erros de classificação. Seber (1984), no entanto, apresenta algumas recomendações na escolha entre a função discriminante linear e quadrática com dados normais: a) para pequenas diferenças entre as matrizes de covariância e g ≤ 6 , não há uma escolha comum na preferência entre a função discriminante linear e quadrática; b) para pequenas amostras (n1, n2 < 25) e diferentes matrizes de covariâncias e/ou g grande, a função discriminante linear é preferível; c) para grandes diferenças entre as matrizes de covariâncias e g > 6, a função discriminante quadrática é melhor que a função discriminante linear, desde que o tamanho das amostras seja suficiente. O tamanho das amostras recomendado é g = 4, n1 = n2 = 25, e 25 observações adicionais para cada duas dimensões, por exemplo, g = 6, 8, 10 e n1 = n2 = 50, 75, 100. Para mais de cem observações, os resultados a favor da função discriminante quadrática são alcançados regularmente. 3.5 Métodos de verificação das premissas da análise discriminante Nesta seção são apresentados os métodos mais utilizados para verificação das premissas da análise discriminante, não sendo, portanto, objetivo deste trabalho citar todos eles. 36 3.5.1 Método stepwise Mingoti (2005) afirma que, quando se considera a utilização da análise discriminante, é essencial haver medido, nos elementos amostrais, variáveis que possam realmente distinguir as populações; caso contrário, a qualidade de ajuste da regra de discriminação estará comprometida. Montgomery et al., citado por Mingoti (2005), diz que os métodos de seleção de variáveis como os utilizados em análise de regressão podem ser empregados na escolha daquelas mais importantes para a discriminação. Dillon e Goldstein (1984) afirmam que a prática mais comum para a seleção de variáveis é o método stepwise, que permite determinar as variáveis que devem entrar na função discriminante. A seguir, é descrito o método stepwise, encontrado em Chatterjee e Price (1991) e Manly (1986). Dentre os muitos critérios de seleção disponíveis, alguns algoritmos stepwise utilizam o valor F para selecionar variáveis com maior poder de discriminação. O valor de F obtido a cada seleção de variáveis é chamado de valor F parcial. Em cada estágio, as variáveis dão entrada, uma a uma, de acordo com o valor F parcial. No primeiro passo do algoritmo, uma comparação é feita através de análise de variância entre os diversos grupos que estão sendo considerados com respeito a cada variável separadamente. Aquelas com valores da estatística F mais significativos estão relacionadas às variáveis mais importantes para a discriminação dos grupos. Dentre as significativas, dá entrada no modelo a de maior significância, ou seja, a de maior poder para discriminação dos grupos. A partir do segundo passo, os F parciais de entrada são calculados levando-se em consideração apenas as variáveis que já entraram e permaneceram no modelo nos passos anteriores. Os valores calculados de F parciais, para as variáveis candidatas a entrar, são comparados com um valor F de referência escolhido a priori, o que determina a entrada ou não da variável. 3.5.2 Normalidade multivariada Anderson, citado por Mingoti (2005), diz que o fato de se demonstrar que todas as distribuições univariadas são normais não implica necessariamente que o vetor aleatório X 37 tem distribuição normal multivariada. Entretanto, Mingoti (2005) diz que, na prática, quando as distribuições são normais, é grande a chance de se estar com um vetor normal multivariado. Um gráfico que pode auxiliar na verificação de normalidade multivariada é o de probabilidade qui-quadrado. Pela teoria da distribuição normal multivariada, tem-se que, quando o número de elementos amostrais n é grande, a distância de Mahalanobis d j2 = ( X j − X )' ∑ −p1× p ( X j − X ) , j = 1,2,..., n (6) tem aproximadamente uma distribuição qui-quadrado com p graus de liberdade, onde X j representa os valores observados das p-variáveis do j-ésimo elemento amostral, X é o vetor de médias amostrais e Σ p×× p é a matriz de covariância amostral definida por ∑ p× p σ 11 … σ 1 p = σ p1 σ pp (7) Portanto, é possível comparar os valores das distâncias d j2 com as respectivas ordenadas dos percentis da distribuição qui-quadrado, o que dá origem ao chamado gráfico qui-quadrado (Q-Q plot).2 Quando a normalidade p-variada é coerente com os dados amostrais, o gráfico deve resultar em algo próximo a uma reta. Curvas diferentes da reta indicam falta de normalidade. Esse gráfico também é útil para a identificação de valores discrepantes (outliers) multivariados. Um último procedimento que pode ser usado para detecção de normalidade multivariada está relacionado aos testes de hipóteses propostos por Mardia (1970, 1974, 3 ' 1975), fundamentados nos coeficientes de assimetria β1p = ε ( X − µ ) Σ −1 (Y − µ e curtose { } 2 β 2p = ε ( X − µ ) Σ −1 ( X − µ ) , para uma distribuição p-variada qualquer, visando definir os ' valores hipotéticos sob normalidade. 2 Para o leitor interessado, os passos de construção são apresentados em Mingoti (2005). 38 Se X1 ,X 2 ,...,X n são amostras aleatórias normais multivariadas de tamanho n no ' espaço p-dimensional, o vetor aleatório X j = X j1 , X j2 ,..., X jp de dimensões p × 1 tem densidade normal multivariada dada por: f ( x ) = (2π )− p/2 Σ −1/ 2 1 exp - ( x − µ ) 2 (8) em que Σ é matriz de covariância e µ é o vetor de médias p × 1 populacionais. Assim, sob a hipótese nula de normalidade multivariada, os coeficientes de assimetria e curtose correspondem a β1 p = 0 e β 2 p = p( p + 2), podendo ser estimados utilizando os seguintes estimadores: βˆ1p = n 1 n n 3 ˆ = 1 g2 g β e ∑∑ ij 2p n ∑ ii n 2 i =1 j =1 i =1 (9) em que ' gij = ( X i − X ) S-1n (X j − X), X= Sn = 1 n ∑Xj n j =1 é o vetor de médias amostrais e ' 1 n X j − X )( X j − X ) é o estimador enviesado de máxima verossimilhança da matriz ( ∑ n j =1 de covariância amostrais. O passo seguinte é aplicar o teste de simetria, cuja estatística é dada por: k1 = nβˆ1p 6 (10) k1 possui distribuição assintótica de qui-quadrado com p(p+1)(p+2)/6 graus de liberdade sob a hipótese nula H 0 : β1p = 0. Da mesma forma, será aplicado o teste para distribuição da curva normal; sua estatística é dada por 39 k2 = βˆ2p − p(p+2) 8p ( p+2 ) / n (11) k2 possui distribuição assintótica normal padrão sob a hipótese nula. Se na aplicação dos testes a hipótese nula for rejeitada a um nível nominal α , a distribuição dos dados é considerada não-normal. Seber (1984) afirma que, caso haja violação da pressuposição de normalidade multivariada, uma apropriada transformação pode freqüentemente produzir um conjunto de dados que segue uma distribuição normal, aumentando a aplicabilidade e o uso de técnicas baseadas nas suposições de normalidade. Na seção 3.6, será apresentada a transformação de Box-Cox (1964), que poderá ser aplicada, caso haja violação da normalidade multivariada dos dados. 3.5.3 Comparando matrizes de covariância Nesta seção, serão abordados os testes da razão de verossimilhanças utilizados para comparar a igualdade entre k-matrizes de covariâncias. Seja a observação multivariada representada por X ij =(X ij1 ,...,X ijp ) t , com i=1,...,n j e j=1,...,k, em que o valor k é igual ao número de populações, n j é o número de observações da j-ésima população e p é o número de variáveis proveniente de uma distribuição normal multivariada; N p (µ j ,Σ jj ), em que µ j =(µ j1 ,...,µ jp ) t representa o vetor de médias populacionais desconhecidos e Σ jj , j=1,...,k, a j-ésima matriz de covariância populacional. Dessa forma, a matriz de covariância particionada (13) é dada abaixo. Σ11 … Σ ij Σ= Σ Σ kk ij (12) Considerando que a hipótese de interesse é definida por H 0 : Σ11 =...=Σ kk , e de acordo com as especificações mencionadas acima, o vetor de médias µ j , j=1,...,k é desconhecido e 40 k ∑ n =N, j o estimador da matriz de somas de quadrados e produtos j=1 (S ) , j a soma dos estimadores S j indicado por S t e o vetor de médias amostrais X j são definidos por ( ) ni ni k t S j = ∑ ( X ij -X j )( X ij -X j ) , S t = ∑ S j e X j = i=1 ∑X i=1 nj i=1 ij . (13) Seja Θ o espaço paramétrico {µ1 ,...,µ k ; Σ11 ,...,Σ kk }, do qual se obtém um subconjunto denominado espaço reduzido, definido sob H 0 e representado por ω = {µ1 ,..., µk , Σ}. As funções de verossimilhanças são dadas por L ( Θ|x ) = ( 2π ) L ( ω|x ) = ( 2π ) N 2 - k ∏Σ j 2 nj k 1 -1 x ij -µ j x ij -µ j - tr Σ j 2 j=1 i=1 ∑ nj e ∑( )( ) t (14) j=1 N 2 Σ N 2 k nj 1 -1 x ij -µ j x ij -µ j - trΣ j=1 i=1 2 ∑∑ ( e )( )t (15) Os valores máximos das funções de verossimilhanças no espaço paramétrico completo e reduzido são dados por max Θ L ( Θ ) = ( 2π ) max ω L(ω)=(2π) - N 2 N 2 Sj k ∏n j=1 St N - N 2 - nj 2 e 1 - N 2 (16) j 1 - N e 2 (17) A rejeição da hipótese nula é dada quando λ ≤ c, em que c é uma constante requerida de acordo com o tamanho do teste, normalmente conhecida como valor crítico, e λ é denominado estatística do teste. n j/2 k pN/2 S N ∏ j N max ω L ( ω ) j=1 ≤c 2 λ=Λ = = N/2 k k max Θ L ( Θ ) pn /2 S ∑ j ∏nj j j=1 (18) j=1 41 Sob a hipótese nula, a estatística do teste da razão de verossimilhanças (LRT) pode ser reescrita por LRT = -2logλ (19) e possui distribuição assintótica qui-quadrado com p ( p+1)( k-1) graus de liberdade. 2 A estatística do teste da razão de verossimilhanças descrita na expressão (19) pode ser modificada, de modo que sua distribuição assintótica possa ser mais bem aproximada da distribuição qui-quadrado. Nessas modificações propostas, nas quais f i (=n j -1) , os graus de liberdade associados com S j levam a um teste não tendencioso, dado por k M = ∏ Sj j=1 f i /2 f pf/2 / k ∑S j j=1 f/2 k ∏f i pf i / 2 , (20) j=1 em que f = N-k . Modificações propostas por diferentes autores implicam melhoria, principalmente para o caso de amostras pequenas. Assim sendo, serão apresentadas duas aproximações devidas a Box (1949) para a distribuição de M. a) A distribuição qui-quadrado: −2(1 − c1 )log M é aproximadamente χ v2 , 1 (21) em que v1 = 1 p(p+1)(k-1) e 2 c1 = (2p 2 +3d-1)(k+1) se fi = f 0 , i=1,2,...,k. 6 ( d+1) kf 0 b) A aproximação F: −2b log M é aproximadamente Fv1 ,v 2 , (22) em que v2 = ( v1 + 2) / c2 − c12 , b = [1 − c1 − ( v1 / v2 ] / v1 , e 42 c2 = ( p-1)( p+2 ) ( k 2 +k+1) 6k 2 f 02 se fi = f 0 , i=1,2,...,k. 3.5.4 Análise de diagnósticos Um “outlier multivariado” é aquela observação que apresenta um “grande” distanciamento das restantes no espaço p-dimensional definido por todas as variáveis. Seu distanciamento em relação a essas observações é fundamental para a sua caracterização. Um grande problema na identificação dos outliers surge pelo fato de que uma observação pode não ser “atípica” em nenhuma das variáveis originais estudadas isoladamente e sê-lo na análise multivariada, ou pode ainda ser outlier por não seguir a estrutura de correlação dos restantes dados. É impossível detectar esse tipo de outlier observando cada uma das variáveis originais isoladamente, em função do que se faz necessária a aplicação de técnicas mais sofisticadas. Por ser um tema de grande importância e interesse, o estudo de outliers ocupou e continua a ocupar muitos investigadores das mais diversas áreas. A detecção de outliers em amostras univariadas é um dos tópicos de extrema importância na literatura estatística. Menor atenção, no entanto, foi dada aos outliers multivariados, tendo em vista que, quando se passa para um conjunto de dados em que foram observadas não uma, mas p variáveis, há um acréscimo significativo de dificuldades. Chatterjee e Price (1991) afirmam que, desde os primórdios do estudo de outliers, o modelo de regressão linear foi o contexto que monopolizou os trabalhos mais importantes. Casualmente se descobriu que algumas observações exerciam grande influência na determinação dos coeficientes de regressão do modelo. Tais observações passaram a ser denominadas “observações influentes”. Até hoje na literatura nota-se que é muito comum haver certa confusão entre essas observações e outliers; nem toda observação influente, contudo, é um outlier e vice versa. Foram desenvolvidas várias técnicas de diagnósticos com o objetivo de detectar pontos de grande influência no modelo ajustado de regressão. Esses pontos têm geralmente comportamento incomum entre o restante dos dados, podendo conter informações importantes e indispensáveis para a análise dos dados em questão. Nesse sentido, 43 [...] existem várias técnicas de diagnóstico como, por exemplo, as técnicas apresentadas por Belsley et al. (1980), Cook e Weisberg (1982), e por Cook (1986). Pode-se citar, por exemplo, as medidas globais DFBETA, DFFITS e D-Cook. (BELSLEY; COOK e WEISBERG; COOK apud RUSSO, 2006, p.71) Encontra-se uma literatura variada sobre a identificação de outliers e observações influentes em regressão nas duas últimas décadas, mas as correspondentes pesquisas em análise discriminante são restritas. Em Critchley e Vitiello (1991) e Fung (1992) foram propostas, independentemente, duas estatísticas em análise discriminante, di2 e Ψˆ i , das quais dependem outras medidas de influência. Poon (2004) demonstra que pontos com grandes valores de di2 e Ψˆ i podem não ser influentes em análise discriminante. Na literatura são encontradas apenas duas abordagens para medida de diagnóstico em análise de influência, a “omissão” e a “influência local”. A omissão de pontos é a técnica mais conhecida para avaliar o impacto da retirada de uma observação particular nas estimativas da regressão, sendo as medidas globais DFFITS, D-Cook e Leverage exemplos disso. Essas técnicas consistem na exclusão de casos, ou seja, em ajustar novamente o modelo proposto, desconsiderando uma das observações de cada vez, para verificar as mudanças provocadas nos resultados das análises desse modelo. Entretanto, Poon (2004) demonstrou que os pontos identificados como outliers multivariados pelo método da omissão podem não ser influentes em análise discriminante; demonstrou, além disso, que a técnica de influência local é conveniente e eficiente para diagnósticos em análise discriminante. A influência local apresentada por Cook (1986) é sem dúvida uma das propostas mais modernas e inovadoras na área de diagnóstico em regressão. Essa técnica propõe avaliar a influência conjunta das observações sob pequenas mudanças (perturbações) no modelo. A idéia é que uma pequena perturbação pode produzir um grande efeito na análise, merecedor de atenção adicional. Essa metodologia contou com a receptividade dos pesquisadores de regressão, havendo inúmeras publicações no assunto em que é aplicada em classes particulares de modelos ou em que se propõem extensões da técnica. Serão citadas algumas delas. Poon e Poon (1999) definem uma nova medida para detectar influência local. Verbeke e Molenberghs (2000) aplicam a influência local a modelos mistos para dados longitudinais, enquanto Zhu e Lee (2003) aplicam esquemas de perturbação a modelos lineares mistos 44 generalizados. Também podem ser citados os trabalhos de Fung e Kwan (1977), Paula (1993), Dutra e Biazi (2007), entre outros. A seguir são apresentados vários métodos desenvolvidos para detecção de observações influentes em modelos de regressão, os quais serão utilizados, neste trabalho, com o objetivo de detectar observações influentes em análise discriminante, dando maior ênfase à metodologia de influência local, por ser ela considerada, na literatura, um método mais eficaz. 3.5.4.1 Diagonal da matriz H (Leverage) Os elementos da matriz H são utilizados para detectar pontos extremos no espaço designado. Esses pontos exercem um papel importante no ajuste final dos parâmetros de um modelo estatístico. No modelo de regressão linear clássico, a matriz H é definida por H = X ( X T X ) −1 X T , (23) conhecida como matriz hat ou matriz de projeção da solução de mínimos quadrados. O elemento hii hii = xit ( X t X )−1 xi , (24) pertence à diagonal da matriz H e desempenha um importante papel na construção de técnicas de diagnósticos. Partindo do pressuposto de que todos os pontos exerçam a mesma influência sobre os valores ajustados, pode-se esperar que hii esteja próximo de (2004) diz que convém examinar os pontos hii ≥ tr ( H ) p = . Paula n n 2p , conhecidos como pontos de alavanca ou n de alto Leverage. 3.5.4.2 Resíduo de Pearson O resíduo de Pearson para a i-ésima observação é definido como uma função do tipo ri = r ( yi , µˆi ), cujo objetivo é medir a diferença entre os valores observados, yi , e os valores 45 ajustados, µˆi , da i-ésima observação. A definição mais usual é a de resíduo ordinário, definido por ri = yi − µˆi , (25) 3.5.4.3 Resíduo studentizado Nos modelos de regressão normal linear, tem-se que ri ~ N (0,σ 2 ). Como os ri ' s têm variâncias diferentes, é conveniente expressá-los de forma padronizada, com o intuito de permitir uma compatibilidade entre eles. Assim podem-se obter os resíduos studentizados, denotados por ti , dividindo-se cada ri pelo seu respectivo desvio padrão amostral s(1 − hii )1/ 2 , em que s 2 = ∑ in=1 ti = ri 2 é o estimador da variância σ 2 . Portanto, n− p ri , i = 1,…, n. s(1 − hii )1/ 2 (26) Como ri não é independente de s 2 , ti não segue uma distribuição t de Student, como se poderia esperar. Paula (2004) mostra que o problema da dependência entre ri e s 2 pode ser contornado, substituindo s 2 por s(2i ) na expressão de ti anterior, em que s(2i ) é o erro quadrático médio correspondente ao modelo sem a i-ésima observação, dado por n − p − ti2 s =s n − p −1 2 (i) 2 (27) Assim, o novo resíduo studentizado 1/ 2 n − p −1 t = ti 2 n − p − ti * i , (28) segue uma distribuição tn − p−1 central. 46 3.5.4.4 Distância de Cook A distância de Cook é uma estatística utilizada para quantificar o quão incomum é uma observação, levando em consideração não somente as variáveis explicativas (como é o caso dos pontos de alavanca), mas também seus resíduos. Essa medida de influência é dada por Di = ti2 hii 1 (1 − hii ) p (29) Cook e Weisberg (1999) afirmam que é conveniente analisar casos em que Di > 0,5 e é sempre importante analisar casos em que Di > 1. Portanto, Di será grande quando o i-ésimo ponto for influente (ti grande) e/ou quando hii for próximo de um. 3.5.4.5 DFFITS A estatística DFFITS combina as medidas Leverage e os resíduos studentizados para fornecer uma estatística capaz de detectar observações que efetivamente influenciem os parâmetros estimados, sendo definida por 1/ 2 hii DFFITSi = t (1 − hii ) * I . (30) Uma regra razoável para considerar uma observação influente é dar mais atenção àqueles pontos tais que 1/ 2 p DFFITSi ≥ 2 (n − p) (31) 47 3.5.4.6 Influência local A idéia básica consiste em estudar o comportamento de alguma medida particular de influências, segundo pequenas perturbações (influência local) nos dados ou no modelo. Isso significa verificar a existência de pontos que, sob modificações modestas no modelo, causam grandes variações nos resultados. 3.5.4.6.1 Metodologia de influência local Dado um conjunto de observações, seja ( β ) o logaritmo da função de verossimilhança correspondente ao modelo postulado, sendo que β é um vetor ( p + 1) ×1 de parâmetros desconhecidos, perturbações podem ser introduzidas no modelo por um vetor ω T = (ω0 , ω1 ,..., ωn ) , pertencente a um subconjunto aberto Ω de ℜn . Supondo que o esquema de perturbação seja definido por ( β \ ω ) como logaritmo da função de verossimilhança perturbada, o vetor ω expressa um esquema de pesos, existindo um ponto ω0 em que ( β | ω0 ) = ( β ) . Dado que β̂ é o estimador de máxima verossimilhança obtido por meio de ( β ) e βˆω é o estimador de máxima verossimilhança obtido por meio de ( β | ω ) , o objetivo é comparar β̂ e βˆω , quando ω varia em Ω . Cook (1986) sugere que a comparação entre β̂ e βˆω seja feita pelo afastamento do logaritmo da função de verossimilhança LD (ω ) , expresso da seguinte maneira: LD (ω ) = 2 βˆ − βˆω ( ) ( ) (32) Dessa forma, LD (ω ) contém informação essencial quanto à influência do esquema de perturbação. A idéia de Cook (1986) é estudar o comportamento da função LD (ω ) numa vizinhança ω 0 , que é o ponto em que as duas verossimilhanças são iguais. Para isso, o autor considerou a seguinte superfície geométrica: 48 ω , LD (ω ) α (ω ) = (33) denominada gráfico de influência3. O estudo de influência local consiste em analisar como a superfície α (ω ) desvia-se de seu plano tangente em ω 0 T0 . Essa análise pode ser feita ( ) estudando-se as curvaturas das seções normais da superfície α (ω ) em ω 0 , que são as intersecções de α (ω ) com planos contendo o vetor normal com seu plano tangente em ω 0 . As curvaturas dessas seções são denominadas “curvaturas normais”. A interseção entre a superfície α (ω ) e o plano ortogonal a T0 é denominada “linha projetada”. Essa linha pode ser obtida através do gráfico de LD(ω0 + ah ) versus a ∈ . A curvatura normal da linha projetada, denotada por Ch , é definida como sendo a curvatura de a, LD {ω ( a )} em a = 0, em que ω ( a ) = ω0 + ah . Denomina-se Ch a curvatura ( ) normal da superfície α (ω ) em ω0 e na direção unitária h . Cook (1986) mostra que a curvatura normal na direção h pode ser expressa da seguinte forma: Ch = 2 hT F h , sendo que −1 (34) F = ∆T I βˆ ∆ , I βˆ é a matriz de informação observada sob o modelo ( ) ( ) postulado e ∆ é a matriz ( p + 1) × n definida por ∂ 2 ( β | ω ) ∆= ∂β ∂ω T (35) avaliada em β = βˆ e ω = ω 0 . O interesse particular está na direção (ou nas direções) que produz(em) maior influência local. Segundo Cook (1986), a direção que produz a maior mudança local na estimativa dos parâmetros é dada por max , que corresponde ao autovetor normalizado correspondente ao maior autovalor da matriz: 3 Para melhor compreensão é ilustrada uma representação gráfica no anexo A. 49 A = ∆T I βˆ ( ) −1 ∆ (36) O vetor max é utilizado para identificar as observações que podem estar controlando propriedades importantes na análise dos dados. 3.5.4.6.2 Variáveis explanatórias em regressão linear Considere o modelo de regressão linear clássico (37) Y = Xβ +ε em que os elementos ε i do vetor ε n × 1 são assumidos por serem variáveis aleatórias normais independentes com médias zero e variância σ 2 . Seja s j , onde j = 1,..., p , denota fatores de escala para contar as diferentes medidas unitárias associadas com as colunas de X. Então a perturbação da log-verossimilhança, L( β | ω ), é formada de (38) com X trocado por (38) X ω = X + WS em que W = (ωij ) é uma matriz n × p de perturbações e S = diag ( s1 ,..., s p ) . Os elementos da diagonal s j de S convertem a perturbação genérica ωij para o tamanho apropriado e isolado, a fim de que ωij s j seja compatível com o ij-ésimo elemento de X. Em seguida separa-se a matriz p × np , ao passo que ∆ = ( ∆1 ,..., ∆ p ) , em que os elementos da matriz ∆ k p × n são ∂ 2 L ( β | ω ) / ∂βi ∂ω jk , i = 1,2,..., p, j = 1,2,..., n. Então, ∆ k = sk d k eT − βˆk X T / σ 2 ( (39) ) em que d k é um vetor p × 1 com 1 na k-ésima posição e zeros em outras partes. Nessa aplicação, F é uma matriz np × np potencialmente grande, e determinar seus autovalores pode ser −1 F = ∆T ( X T X ) ∆ / σ 2 uma tarefa podem ser desagradável. determinados Contudo, ao se os trocar autovalores T (X X ) −1 de por 50 T −1/ 2 T (X X ) (X X ) −1/ 2 , aproveitando o fato de que os autovalores não negativos de AT A são os mesmos de AAT , a qual será uma matriz p × p manejável nessa situação. Usando esse método, pode-se afirmar que os autovalores não negativos de F são eT eδ i / σ 2 + ∑ βˆ 2j s 2j / σ 2 (40) j −1 em que δ i é o i-ésimo autovalor de S ( X T X ) S , i = 1,2,..., p e e são os erros do modelo de regressão. Assim, Cmax = 2eT eδ max / σ 2 + 2∑ βˆ j2 s 2j / σ 2 (41) j 3.5.4.7 Técnicas gráficas Uma ferramenta muito útil para detectar pontos suspeitos de serem aberrantes e/ou influentes nos modelos de regressão linear é a interpretação gráfica, a qual será usada neste trabalho para detectar pontos influentes em análise discriminante. Paula (2004) apresenta alguns exemplos gráficos tradicionais: a. gráfico de ti* , contra a ordem das observações, usado para detectar pontos aberrantes; b. gráfico de Di , DFFITSi e hii , contra a ordem das observações, usado para detectar pontos aberrantes; c. gráfico max , contra a ordem das observações destaca pontos que podem ser influentes; d. gráfico normal de probabilidade com envelope, que indica se há possível afastamento da normalidade na distribuição dos resíduos, podendo também ser um informativo sobre a existência de pontos discrepantes. 51 3.6 Transformação de Box-Cox (1964) Box-Cox (1964) têm sugerido uma família de transformações para normalizar observações, estabilizar a variância e linearizar a relação entre variáveis dependentes e independentes. Exemplos notáveis dessa família de transformações são: • transformação raiz quadrada para estabilizar a variância e para remover a nãonormalidade; • transformação raiz cúbica para remover a não-normalidade; • transformação logarítmica para estabilizar a variância e para remover a não-normalidade. Box-Cox consideram uma família de transformações definida por x (λ ) xλ − 1 , λ ≠0 = λ log ( x ) , λ = 0 e x > 0 (42) que simultaneamente satisfaz todas as três suposições. O coeficiente λ pode ser estimado pelo método da máxima verossimilhança4. A máxima verossimilhança estimada de λ maximiza a função verossimilhança L(λ ). Além disso, para testar se a máxima verossimilhança estimada λ é estatisticamente igual a 1, o que indica uma normalidade, o seguinte teste da taxa verossimilhança tem sido proposto: 2 [ Lmax (λ ) − Lmax (1)] ≤ χ12 (α ) (43) em que χ12 (α ) denota o limite superior do ponto 100 α % de χ 2 com 1 grau de liberdade. Box-Cox (1982) modificaram a transformação dada em (43), propondo a seguinte: x(λ ) − 1 x ( λ −1) = x log x x(λ ) = se λ ≠ 0 (44) se λ = 0 em que x é a média geométrica de todas as observações. Investigações adicionais da família de transformações Box-Cox (1964) têm sido feitas por Draper e Cox (1969) e Andrews (1971). 4 O método da máxima verossimilhança é apresentado no apêndice. 52 3.7 Validação do modelo Serão apresentados a seguir dois métodos estatísticos para verificar a adequação do modelo: o método de Wilk e a validação cruzada. Em seguida, serão reclassificadas as observações dos dois grupos que apresentarem maior concentração de erros de classificação ou “observações misturadas”. 3.7.1 Método de Wilk Um dos métodos mais mencionados na literatura para verificar a discriminação para g > 2 populações, com n1 , n2 ,..., ng observações, respectivamente, e o total de observações N = n1 + n2 + ... + ng , é o método de Wilk para comparações dos vetores médias populacionais, dado por Λ= W T (45) A matriz W é obtida da matriz definida em (2) e a matriz T é chamada de matriz soma de quadrados e produtos cruzados total, sendo obtida pela soma das matrizes (2) e (3). O Lambda de Wilk ( Λ ) pode então ser convertido a um valor de F, usando a seguinte transformação: p 2 ( g − 1)2 − 4 , se p 2 +(g - 1)2 -5 > 0; e 2 p−g+2 2 ; b = p + ( g − 1) − 5 a=N −g− 2 2 2 1, se p + (g-1) − 5 ≤ 0 c= p( g − 1) − 2 2 Então, 1 1− Λb F = 1 Λb ab − c ≅ F ( g − 1), ab − c p p ( g − 1) (46) 53 Se essa afirmativa for verdadeira, aceita-se H 0 ; caso contrário, a hipótese alternativa é a que será aceita. 3.7.2 Validação cruzada Esse procedimento, também conhecido como método de Lachenbruch ou pseudojackknife, foi originalmente proposto Lachenbruch, citado por Dillon e Golstein (1984), sendo muito utilizado e implementado em praticamente todos os aplicativos estatísticos. A validação cruzada consiste nos passos seguintes: passo 1: retira-se um vetor de observações da amostra conjunta e utilizam-se os (n1 + n2 − 1) elementos amostrais restantes para construir a função de discriminação; passo 2: utiliza-se a regra de discriminação construída no passo 1 para classificar o elemento que ficou à parte da construção da regra de discriminação, verificando se ela conseguiu acertar na sua real procedência ou não; passo 3: retorna-se o elemento amostral que foi retirado no passo 1 à amostra original e retira-se um outro elemento amostral diferente do primeiro. Os passos 1 e 2 são repetidos. Os passos 1, 2 e 3 devem ser repetidos para todos os (n1 + n2 ) elementos da amostra conjunta. 3.7.3 Reclassificação das observações dos dois grupos que apresentarem maior concentração dos erros de classificação da função discriminante Após a construção e validação da metodologia alternativa proposta neste trabalho, é possível que o resultado da classificação apresente uma mistura de observações, a qual poderá estar concentrada em dois grupos. Diante disso, é proposto um último procedimento, com a finalidade de reclassificar essas observações e conseqüentemente reduzir os erros de classificação. O procedimento consiste nos seguintes passos: 54 1) selecionar na base de dados, após ser efetivada a transformação de Box-Cox, os dois grupos que apresentaram maior mistura de observações; 2) construir um modelo de análise discriminante considerando os dois grupos apresentados no passo 1; 3) reclassificar, utilizando o modelo de análise discriminante obtido no passo 2, as observações dos dois grupos classificadas pela metodologia alternativa que apresentaram maior mistura de observações. 3.8 Base de dados A base de dados necessária à formulação de modelos de credit scoring é geralmente grande, não sendo rara base de dados contendo 100.000 clientes com mais de 50 variáveis. A deste trabalho, contudo, é composta por apenas 1420 contratos e 11 variáveis de clientes pessoa física, que tomaram empréstimo entre 02/01/2005 e 31/12/2006, disponibilizados por uma instituição financeira de Belo Horizonte. Dentre os contratos, 149 apresentaram ausência de valores (missing values), fato verificado pela inexistência de informações (sexo e escolaridade, em sua maioria) no cadastro original da empresa. A decisão foi a retirada dos 149 contratos da amostragem, restando, dessa forma, 1271 contratos para o estudo. Esse fato remete a uma discussão bastante presente acerca dos modelos de credit scoring, que é a dificuldade e o alto custo na obtenção de dados para o desenvolvimento dos modelos, basicamente devido às dificuldades técnicas de processamento de dados e ao fato de as instituições de crédito não poderem divulgar abertamente suas informações. Na linha tradicional de modelos de concessão de crédito, o fundamento é a classificação das operações em dois grupos – qualidade de crédito boa ou ruim –, baseada no princípio de que o risco de uma operação é determinado pelas possibilidades de ocorrerem atrasos nos pagamentos das prestações da operação de crédito. A definição desses dois grupos de dados requer, necessariamente, informações completas sobre datas de vencimento e datas de pagamento de todas as operações disponibilizadas para análise; a partir daí, é possível selecionar na base de dados os dois grupos – “bom” e “ruim” –, considerando o 55 comportamento dos clientes quanto ao pagamento das prestações. Além disso, neste trabalho será utilizado também o status “renegociado” para a inclusão do terceiro grupo, denominado “intermediário”. Baseado nos atrasos dos pagamentos das prestações, o primeiro grupo foi denominado “bom”, sendo composto por clientes que apresentaram no máximo 60 dias de atraso. O segundo grupo foi denominado “intermediário”, composto por clientes que renegociaram os contratos vencidos a mais de 60 dias e liquidaram o crédito. O último grupo é chamado “ruim”, composto por clientes que obtiveram atrasos superiores a 180 dias. Os clientes que estavam em atraso acima de 60 e inferior a 181 dias e não renegociaram o contrato foram excluídos da amostra, por serem considerados indeterminados ou de “comportamento duvidoso”. O quadro 1 resume as variáveis necessárias ao primeiro grupo de dados. QUADRO 1: Variáveis necessárias à classificação das operações de crédito Critério: atraso Variáveis data de vencimento das prestações data de pagamento das prestações status Tipo de resposta dd/mm/aaaa dd/mm/aaaa renegociado O primeiro grupo de dados permite gerar a variável de resposta do modelo de credit scoring, que é a qualidade de créditos da operação. O segundo grupo de dados é formado pelas variáveis disponíveis nos cadastros dos clientes e de suas respectivas operações, ou seja, as variáveis explicativas do modelo. O quadro 2 resume as variáveis usadas do grupo variáveis explicativas para a construção do modelo de credit scoring. 56 QUADRO 2: Variáveis explicativas do modelo de credit scoring Tipo de informações cadastro renda dados da operação Descrição das variáveis Tipo de resposta Variáveis idade anos X6 sexo feminino/masculino X10 aluguel S/N X11 profissão tipo de profissão X8 idade data admissão/idade atual % X4 nº de contratos na instituição número (01, 02 etc.) X5 região em que reside leste, centro-sul, norte, oeste etc. X9 renda total R$ X7 valor da operação do empréstimo R$ X1 quantidade de prestações número (01,02 etc.) X3 valor da prestação R$ X2 O quadro 3 apresenta a composição dos três grupos estudados para o desenvolvimento da metodologia alternativa de credit scoring, bem como os clientes que foram considerados de “comportamento duvidoso”, os quais foram retirados da amostra. Restaram 1151 contratos para a construção do modelo alternativo de credit scoring. QUADRO 3: Composição dos grupos estudados Grupo Atraso Quantidade de contratos bom até 60 dias 438 intermediário renegociação 247 ruim acima de 180 dias 466 duvidoso entre 60 e 181 dias 120 Vale ressaltar que a formação de um banco de dados com grande número de informações sobre os clientes e operações pode gerar estatísticas mais confiáveis e robustas para um modelo de credit scoring. No entanto, esse fato pode trazer prejuízos financeiros consideráveis para as instituições provedoras de crédito, já que exigiria dos clientes 57 requisitantes de crédito preencherem um extenso e demorado cadastro e das instituições fazerem muitas consultas às agências de regulação e proteção de crédito. A maior questão refere-se à fuga de bons clientes, que geralmente têm acesso a outras linhas de crédito de instituições concorrentes, estando, portanto, mais sujeitos a desistirem de enfrentar um processo burocrático. Segundo Caouette, Altman e Narayanan (1999), o banco de dados coletado contém a maioria das variáveis mais importantes para a formulação dos modelos de credit scoring. Contudo, pode ser notada a ausência de algumas muito importantes, não disponibilizadas pela instituição. Dentre as mais relevantes, podem ser citadas: • consulta a créditos recentes: quanto menos, melhor; • renda por dependente: quanto maior, melhor; • número de telefone (sim ou não): se sim, melhor; • comprometimentos financeiros: quanto menor, melhor; • profissão do cônjuge: varia,pois a mesma profissão pode ter peso positivo ou negativo. O tratamento dos dados levantados a partir das variáveis selecionadas seguiu os passos apresentados no quadro 4. QUADRO 4 – Proposta de tratamento dos dados, passos a serem seguidos, propósitos e os processos estatísticos utilizados Passos Procedimentos Objetivo Método 1 preparação da base de dados aplicar a metodologia apresentada neste trabalho 2 análise discriminante de Fisher classificar e agrupar de acordo com as características dos clientes análise discriminante de Fisher 3 aplicação do método stepwise escolher variáveis que possam realmente distinguir as populações método stepwise 4 análise discriminante de Fisher após aplicar o método stepwise assegurar que o modelo final com as variáveis escolhidas será de boa qualidade análise discriminante de Fisher divisão dos três grupos atribuição de pesos às variáveis categóricas 58 5 QQPLOT teste de Mardia verificar a suposição de normalidade multivariada QQPLOT teste de Mardia 6 transformação de BoxCox normalizar observações transformação de Box-Cox 7 análise discriminante de Fisher depois de aplicada a transformação de Box-Cox verificar se houve melhoria na discriminação dos dados análise discriminante de Fisher 8 análise de resíduos medida Leverage DFFITS distância de Cook influência local detectar observações influentes 9 análise discriminante de Fisher depois de retirada observações influentes reanálise dos dados análise discriminante de Fisher 10 teste de Box verificar a suposição de igualdade das matrizes de covariância teste de Box 11 análise discriminante quadrática classificar e agrupar de acordo com as características dos clientes análise discriminante quadrática Lambda Wilk validação cruzada (pseudo-jackknife) verificar a adequação do modelo 12 análise de resíduos medida Leverage DFFITS distância de Cook influência local Lambda Wilk validação cruzada Neste capítulo, foram explicadas a seleção da amostra, assim como a coleta dos dados e seu tratamento. Finalmente, foram apresentados os passos a serem seguidos, os propósitos e os processos estatísticos utilizados. No próximo capítulo far-se-á a apresentação e a análise dos resultados. 59 4. APLICAÇÃO Este capítulo apresenta os resultados obtidos na construção do modelo de credit scoring. 4.1 A metodologia alternativa de credit scoring Esta seção se divide em doze subseções. Passo a passo, serão apresentados os resultados da construção do modelo e os motivos que levaram a cada tomada de decisão do processo. Optou-se por esta apresentação no capítulo de resultados para que fique mais clara a lógica utilizada na construção do modelo, que dependeu de resultados parciais. 4.1.1 Passo 1: Preparação da base de dados Para o desenvolvimento da nova metodologia de credit scoring, foi definida, em primeiro lugar, a variável dependente. Criou-se uma variável categórica de 1 a 3, com valor 1 para clientes adimplentes (“bom”), 2 para clientes que renegociaram o débito e liquidaram o crédito (“intermediário”), e 3 para clientes inadimplentes (“ruim”). A seguir, definiram-se as variáveis explicativas disponíveis e relevantes para a construção do modelo. Essas variáveis foram denotadas por X1, X2,..., X11, sendo que nove delas são contínuas ou discretas e duas são binárias (sexo e aluguel), conforme quadro 2. 4.1.2 Passo 2: Análise discriminante de Fisher Aplicou-se a análise discriminante de Fisher no SPSS1, versão 14, sem a preocupação de observar se as premissas do modelo foram atendidas. Os resultados são apresentados na tabela 1. 1 Statistical Package for the Social Sciences – pacote estatístico para ciências sociais. 60 TABELA 1: Classificação da função discriminante de Fisher (dados sem transformação) Grupo Grupo Previsto 1 2 3 Original Contagem 1 278,00 58,00 102,00 60,00 136,00 51,00 2 69,00 24,00 373,00 3 % 63,47 13,24 23,29 1 2 24,29 55,06 20,65 3 14,81 5,15 80,04 68,4% do grupo original classificado corretamente. Total 438,00 247,00 466,00 100,00 100,00 100,00 Os resultados apresentados revelam que, dos 438 clientes “bons”, 278 foram classificados corretamente como “bons” (o que representa 63,47%), 58 foram classificados erroneamente como “intermediários” (o que representa 13,24%) e 102 foram classificados erroneamente como “ruins” (o que representa 23,29%). Da mesma forma, podem ser analisados os 247 clientes “intermediários” e os 466 clientes “ruins”. O resultado da classificação geral dos três grupos originais revela que 68,4% dos 1151 clientes foram classificados corretamente. A seguir, é verificado se as premissas do modelo são atendidas e, caso não sejam, propõe-se a realização de procedimentos que visam atender às exigências do modelo. 4.1.3 Passo 3: Aplicação do método stepwise Conforme apresentado na seção 3.5.1, é possível que a qualidade de ajuste da função discriminante apresentada na seção 5.1.2 tenha sido comprometida, por existirem no modelo variáveis com baixo poder de discriminação. Diante disso, será utilizado o método stepwise para a seleção das variáveis que devem fazer parte da função discriminante. O aplicativo utilizado foi o SPSS, versão 14, considerando os níveis de significância para entrada e saída de variáveis iguais a 5% e 10%, respectivamente. No presente caso, após o método stepwise, o modelo final para discriminação dos três grupos de clientes deveria conter apenas as variáveis X3, X5, X6, X7, X8 e X11. 61 4.1.4 Passo 4: Análise discriminante de Fisher Após seleção das variáveis pelo método stepwise, foi aplicada a análise discriminante de Fisher. Os resultados são apresentados na tabela 2. TABELA 2: Classificação da função discriminante de Fisher (método stepwise) Grupo Grupo Previsto 1 2 3 Original Contagem 308,00 42,00 88,00 1 64,00 123,00 60,00 2 88,00 26,00 352,00 3 70,32 9,59 20,09 % 1 25,91 49,80 24,29 2 18,88 5,58 75,54 3 68,0% do grupo original classificado corretamente. Total 438,00 247,00 466,00 100,00 100,00 100,00 Observando os resultados obtidos da função discriminante de Fisher e comparado com os resultados apresentados na tabela 1, verifica-se que o modelo com as variáveis escolhidas pelo método stepwise apresenta resultados insatisfatórios de ajuste, quando se considera o modelo completo com todas as variáveis. Nesse caso, nos próximos passos serão consideradas todas as variáveis para a construção do modelo de discriminação. 4.1.5 Passo 5: Verificação da normalidade multivariada Analisando a normalidade multivariada no conjunto formado pelas variáveis discretas ou contínuas X1, X2,..., X9, através do gráfico Q-Q plot, gráfico 6, verifica-se que a disposição dos pontos indica a proximidade em relação a uma reta2, o que leva a não se rejeitar em primeira análise a suposição de normalidade multivariada. Contudo, esse gráfico deve ser usado cautelosamente como um rude indicador de normalidade multivariada. Diante disso, será aplicado o teste de assimetria e curtose de Mardia. 2 A similaridade de uma distribuição observada para um modelo de distribuição teórico resulta uma relação linear entre os quantis teórico e empírico. 62 GRÁFICO 6 – Qui-Quadrado (Q-Q plot) O teste de Mardia para as nove variáveis, X1, X2,... , X9, foi executado segundo um algoritmo computacional proposto por DeCarlo (1997), executável no aplicativo SPSS, versão 14, obtendo-se os estimadores dos coeficientes de assimetria e curtose, respectivamente: βˆ 1,d = 46, 43 e βˆ 2,d = 162,08 De (11) e (12) com p = 9, obtém-se: 2 k1 = 8913,15, o qual é significante quando comparado com χ165 = 195,97 , e k2 = 76,04, o qual é significante quando comparado com N (0,1). Apesar de o gráfico Q-Q plot sugerir a suposição de normalidade multivariada, o teste de Mardia revela que os dados apresentam dela um afastamento notório, podendo sua suposição ser rejeitada. Nesse caso, será proposta a transformação de Box-Cox, que normalizará os dados. 4.1.6 Passo 6: Transformações de Box-Cox A transformação dos dados foi realizada no aplicativo MINITAB, versão 14, utilizando o estatístico Box-Cox Transformation para encontrar a verossimilhança do parâmetro λ . A partir disso, os valores dos dados transformados, conforme a equação (43), são obtidos. 63 4.1.7 Passo 7: Análise discriminante de Fisher Com os dados aproximadamente normalizados, aplicou-se a análise discriminante de Fisher no aplicativo SPSS, versão 14. Os resultados são apresentados na tabela 3. TABELA 3: Classificação da função discriminante de Fisher (dados transformados) Grupo Grupo Previsto 1 2 3 Original Contagem 231,00 140,00 67,00 1 45,00 202,00 2 16,00 32,00 418,00 3 % 52,74 31,96 15,30 1 18,22 81,78 2 3,43 6,87 89,70 3 73,9% do grupo original classificado corretamente. Total 438,00 247,00 466,00 100,00 100,00 100,00 Analisando os resultados apresentados nas Tabelas 1 e 3, observa-se uma melhoria significativa (de 68,4% para 73,9%) quando aplicada a transformação de Box-Cox. Através do resultado de 73,9%, é possível constatar que a transformação de Box-Cox é conveniente para a obtenção de um modelo de análise discriminante mais preciso, caso a premissa de normalidade multivariada seja violada. Contudo, é importante verificar se existem observações influentes que podem causar grandes variações nos resultados da análise. Diante disso, será aplicada, na próxima seção, a análise de diagnóstico para detectar observações influentes. 4.1.8 Passo 8: Análises de diagnósticos Conforme apresentado na seção 3.5.4, alguns pesquisadores utilizam técnicas de diagnósticos desenvolvidas com o intuito de detectar observações influentes em análise discriminante. A seguir, serão feitas análises de diagnósticos desenvolvidas para regressão, com o objetivo de identificar pontos influentes em análise discriminante. Nessa seção, todas as análises gráficas foram implementadas no aplicativo R3, versão 2.6.1. 3 Considerado como uma implementação de programação S, com a semântica derivada do software S-PLUS. 64 A usual suposição da distribuição em análise de regressão é que os erros são normalmente distribuídos; contudo, o gráfico 7, normal de probabilidade com envelopes para os resíduos studentizados ( ti ), apresenta um forte indício de não validade dessa suposição, pois há uma grande quantidade de pontos fora da banda de confiança do gráfico4, sugerindo que o ajuste deve ser melhorado. Isso pode ser um indício da existência de observações potencialmente influentes. GRÁFICO 7: Probabilidades com envelopes O gráfico 8 corresponde ao resíduo de Pearson ( ri ) , contra a ordem das observações, verifica-se que não há um distanciamento relevante de uma ou mais observações em relação às outras. No gráfico 9, resíduo studentizado, nota-se também que não há uma relevância no distanciamento de uma ou mais observações em relação às demais. Em relação à medida Leverage ( hii ) , gráfico 10, e com base nos valores hii ≥ 2p , com n 2p igual a 0,0209, conforme explicado na seção 3.5.4.1, foram identificadas 22 observações n que se destacam das demais. No gráfico 11, não é constatado nenhum ponto cuja medida Di seja superior a 0,5, conforme apresentado na seção 3.5.4.4. Nesse caso, não é possível afirmar a existência de pontos 1/ 2 p DFFITSi ≥ 2 (n − p) influentes. No gráfico 12, com base nos valores 1/ 2 p , com 2 (n − p) igual a 0,2053, conforme explicado na seção 3.5.4.5, foram identificadas 68 observações que podem ser possíveis pontos influentes. 4 Atkinson (1985) sugere a construção de um tipo de banda de confiança através de simulações, a qual denominou envelope. Ver, também, Paula (2004, p.46). 65 GRÁFICO 8: Resíduo de Pearson GRÁFICO 9: Resíduo studentizado GRÁFICO 10: Diagonal da Matriz H (Leverage) 66 GRÁFICO 11: Distância de Cook GRÁFICO 12: DFFITS 4.1.8.1 Influência local Tem-se que a curvatura Cmax = 2,44 computada de (42) é relativamente pequena. Contudo, Verbeke e Molenberghs (2000) têm apresentado que, indiferentemente do tamanho de Cmax , uma inspeção de max é válida, sendo que os maiores valores de max correspondem às observações influentes. No gráfico 13, é apresentado o valor max versus observações, sendo encontradas 67 delas que se destacaram das demais. Fazendo-se uma análise mais precisa, nota-se também que houve certa discriminação dos três grupos; além disso, existem outras observações que podem estar exercendo influência indevida no conjunto de dados. Nesse caso, foram consideradas as observações dos grupos “bom” e “ruim”, cujos valores max sejam inferiores a 0,025, sendo verificadas 95 observações supostamente influentes, ao todo. 67 GRÁFICO 13: Influência local – caso variáveis explanatórias 4.1.9 Passo 9: Reanálise dos dados Nesta seção, serão apresentados os resultados obtidos da aplicação da análise discriminante de Fisher após a retirada das observações supostamente influentes, diagnosticadas pelas técnicas Leverage, DFFITS e influência local. 4.1.9.1 Leverage No total, foram identificadas 22 observações com elevado coeficiente Leverage, as quais foram removidas da amostra para análise definitiva dos dados. Os resultados são apresentados na tabela 4. TABELA 4: Classificação da função discriminante de Fisher retirados 22 pontos influentes Grupo Grupo Previsto 1 2 3 Original Contagem 225,00 137,00 67,00 1 43,00 197,00 2 16,00 32,00 412,00 3 % 52,45 31,93 15,62 1 17,92 82,08 2 3,48 6,96 89,57 3 73,9% do grupo original classificado corretamente. Total 429,00 240,00 460,00 100,00 100,00 100,00 68 Comparando os resultados obtidos nas tabelas 3 e 4, verifica-se que não houve melhoria após a retirada das 22 observações. Nesse caso, a medida de Leverage foi inapropriada para a detecção de observações influentes em análise discriminante. Isso confirma a afirmação de Poon (2004) de que observações influentes podem não apresentar um expressivo valor Leverage. 4.1.9.2 DFFITS Foi verificado, através do gráfico 12, que há indícios de 68 observações influentes. Após a retirada desses pontos, é importante constatar se houve melhoria na discriminação dos dados. Os resultados são apresentados na tabela 5. TABELA 5: Classificação da função discriminante de Fisher retirados 68 pontos influentes Grupo Grupo Previsto 1 2 3 Original Contagem 248,00 121,00 1 51,00 193,00 2 10,00 22,00 417,00 3 % 67,21 32,79 1 20,90 79,10 2 2,23 4,90 92,87 3 79,1% do grupo original classificado corretamente. Total 369,00 244,00 449,00 100,00 100,00 100,00 Comparando os resultados das tabelas 3 e 5, verifica-se uma melhoria significativa de 73,9% para 79,1%. Nesse caso, a medida DFFITS foi apropriada para a detecção de observações influentes. 4.1.9.3 Influência local – caso variáveis explanatórias Para reanálise dos dados, geralmente opta-se pela retirada das observações influentes; no caso presente, serão seguidos os seguintes procedimentos: 69 procedimento 1: aplicação da análise discriminante de Fisher, após a retirada dos 67 pontos supostamente influentes; procedimento 2: aplicação da análise discriminante de Fisher, após a retirada dos 95 pontos supostamente influentes, conforme apresentado na seção 5.1.8.1. É importante constatar qual dos dois procedimentos acima será mais adequado à melhor discriminação dos dados. Os resultados são apresentados nas tabelas 6 e 7, respectivamente. TABELA 6: Classificação da função discriminante de Fisher – procedimento 1 Grupo Grupo Previsto 1 2 3 Original Contagem 1 256,00 115,00 62,00 185,00 2 17,00 31,00 418,00 3 % 69,00 31,00 1 2 25,10 74,90 3 3,65 6,65 89,70 79,2% do grupo original classificado corretamente. Total 371,00 247,00 466,00 100,00 100,00 100,00 TABELA 7: Classificação da função discriminante de Fisher – procedimento 2 Grupo Grupo Previsto 1 2 3 Original Contagem 1 251,00 103,00 59,00 185,00 2 17,00 23,00 418,00 3 % 70,90 29,10 1 2 24,18 75,82 3 3,71 5,02 91,27 80,9% do grupo original classificado corretamente. Total 354,00 244,00 458,00 100,00 100,00 100,00 Observando os resultados obtidos através da aplicação dos procedimentos 1 e 2 e comparando-os com os da tabela 3, verifica-se que houve uma melhoria significativa de 73,9% para 79,2% e para 80,9%, respectivamente. Diante do resultado, é possível constatar que o procedimento de diagnósticos em análise de influência proposta por Cook (1986) é eficiente para o modelo proposto. Contudo, deve-se verificar se a igualdade das matrizes de covariâncias pode ser contestada, sendo a função discriminante quadrática, nesse caso, a mais indicada. A seguir, é apresentado o teste da razão de verossimilhança com aproximação F, devido a Box (1979), para verificar se a premissa de igualdade das matrizes de covariâncias não foi violada. 70 4.1.10 Passo 10: Teste de Box Será aplicado o teste de Box (1979) para os dados usados nas seções 5.1.9.2 (DFFITS) e 5.1.9.3 (influência local – procedimentos 1 e 2), os quais apresentaram melhores resultados após a retirada das observações influentes. O teste é apresentado nas tabelas 8, 9 e 10. TABELA 8: Teste de Box – seção 5.1.9.2 (DFFITS) -2log(M) F aprox. GL1 GL2 p-valor α 298,568 2,227 132 1940624 < 0,0001 0,05 TABELA 9: Teste de Box – seção 5.1.9.3 (influência local – procedimento 1) -2log(M) F aprox. GL1 GL2 p-valor α 842,654 6,286 132 1980558 < 0,0001 0,05 TABELA 10: Teste de Box – seção 5.1.5.2 (influência local – procedimento 2) -2log(M) F aprox. GL1 GL2 p-valor α 1496,593 11,160 132 1903495 < 0,0001 0,05 Realizado o teste Box para comparar a igualdade das matrizes de covariância, observase que o p-valor calculado nos três casos é menor que o nível de significância, α = 0,05. Nesse caso, deve-se rejeitar a hipótese nula H0 – as matrizes de covariância intra-classe são iguais, em favor da hipótese alternativa Há – as matrizes de covariância intra-classe são diferentes. Para contornar esse problema de violação da premissa da análise discriminante de Fisher, a função discriminante quadrática será mais indicada, conforme apresentado na seção 3.4. 71 4.1.11 Passo 11: Função discriminante quadrática Será aplicada a função discriminante quadrática, dada na equação (4), para os dados usados nas seções 5.1.9.2 (DFFITS) e 5.1.9.3 (influência local – procedimentos 1 e 2), os quais foram contestados quanto à igualdade das matrizes de covariância. Os resultados são apresentados nas tabelas 11, 12 e 13. TABELA 11: Classificação da função discriminante quadrática – seção 5.1.9.2 (DFFITS) Grupo Grupo Previsto 1 2 3 Original Contagem 264,00 105,00 21,00 1 54,00 190,00 2 10,00 22,00 417,00 3 % 67,69 26,92 5,38 1 22,13 77,87 2 2,23 4,90 92,87 3 80,4% do grupo original classificado corretamente. Total 390,00 244,00 449,00 100,00 100,00 100,00 TABELA 12: Classificação da função discriminante quadrática – seção 5.1.9.3 (influência local – procedimento 1) Grupo Grupo Previsto 1 2 3 Original Contagem 326,00 45,00 1 109,00 138,00 2 24,00 24,00 418,00 3 % 87,87 12,13 1 44,13 55,87 2 5,15 5,15 89,70 3 81,4% do grupo original classificado corretamente. Total 371,00 247,00 466,00 100,00 100,00 100,00 TABELA 13: Classificação da função discriminante quadrática – seção 5.1.9.3 (influência local – procedimento 2) Grupo Previsto 1 2 3 Original Contagem 349,00 5,00 1 142,00 102,00 2 17,00 23,00 418,00 3 % 98,59 1,41 1 58,20 41,80 2 3,71 5,02 91,27 3 82,3% do grupo original classificado corretamente. Grupo Total 354,00 244,00 458,00 100,00 100,00 100,00 72 Aplicada a função discriminante quadrática, verifica-se uma melhoria de 79,1% para 80,4%; 79,2% para 81,4% e 80,9% para 82,3%, conforme tabelas 5 e 11; 6 e 12; 7 e 13. Analisando os resultados da função discriminante quadrática, observa-se que eles, após a retirada dos 67 e 95 pontos influentes pela metodologia de influência local, foram superiores ao método DFFITS em 1 e 2 pontos percentuais, respectivamente. Esse resultado reafirma a importância da metodologia de influência local para detectar observações influentes em análise discriminante. O passo seguinte é verificar a adequação do modelo de discriminação. Nesse caso, será validado apenas o modelo da seção 5.1.9.3 (procedimentos 2), por apresentar melhores resultados de classificação (82,3% de acerto – tabela 13). 4.1.12 Validação do modelo O teste de diferenças entre as médias foi realizado no aplicativo XLSTAT 20075, para avaliar a significância estatística do poder classificatório da função discriminante a ser obtida, utilizando-se o teste de Wilk multivariado para o modelo da seção 5.1.9.3 (procedimentos 2), que apresentou um valor F aproximado de 126,25. O p-valor aproximado de 0,0001 apresentou ser menor que o nível de significância α = 0,05; nesse caso, deve-se rejeitar a hipótese nula H0 – os vetores médios das três classes são iguais, em favor da hipótese alternativa Ha – os vetores médios das três classes são diferentes. Portanto, os três grupos diferem estatisticamente. Outro método que pode ser utilizado para verificar a adequação do modelo é a validação cruzada. A tabela 14 apresenta o resultado da validação cruzada realizada no MINITAB, versão 14. 5 Aplicativo de análise estatística com Excel. 73 TABELA 14: Validação cruzada – seção 5.1.9.3 (procedimento 2) Grupo Grupo Previsto 1 2 3 Original Contagem 343,00 11,00 1 144,00 100,00 2 17,00 23,00 418,00 3 % 96,89 3,11 1 59,02 40,98 2 3,71 5,02 91,27 3 81,5% do grupo original classificado corretamente. Total 354,00 244,00 458,00 100,00 100,00 100,00 Os resultados, após a validação cruzada, através da divisão da amostra em três partes aleatoriamente escolhidas, apresentaram uma faixa de acertos em torno de 81,5%, sugerindo a estabilidade do modelo. De fato, não houve perda significativa no percentual de acerto ao se utilizarem amostras aleatórias, o que demonstra a força do modelo. Apesar de o resultado final de 82,3% de acerto, apresentado na tabela 13, ser satisfatório, observa-se que 58,20% dos clientes “intermediários” foram classificados como “bons”. Isso significa que apenas 41,80% dos clientes “intermediários” foram classificados corretamente, o que pode viabilizar o uso dessa metodologia alternativa apenas para empresas que possuem uma política bem agressiva no mercado. Assim, uma grande mistura de clientes “intermediários” classificados como “bons” poderá suplantar os limites de aceitação estabelecidos por administrações mais conservadoras ou mesmo moderadas, as quais possuem uma disposição menor para os riscos. Contudo, o objetivo é desenvolver uma metodologia capaz de atender aos administradores tanto com perfil agressivos, como conservadores e moderados, de acordo com a disposição para correr mais ou menos riscos. Nesse caso, é fundamental que o modelo seja viável para classificar corretamente os três grupos estudados, ou seja, ele não pode ser bom apenas, por exemplo, para discriminar clientes “ruins”, mas deve ser bom para discriminar clientes “bons” e “intermediários”. Diante da concentração de clientes “intermediários” classificados como “bons”, far-seá uma espécie de refinamento para os dois grupos “bons” e “intermediários”, após os clientes serem classificados pelo modelo cujos resultados estão apresentados na tabela 13. Esse refinamento consiste em aplicar um modelo de análise discriminante construído a partir dos procedimentos descritos na seção 3.7.3, que tem como objetivo principal reduzir apenas os erros de classificação do grupo “intermediário”. Nesse caso, dos 40 clientes “ruins” 74 classificados erroneamente como “bons” ou “intermediários”, apresentados na tabela 13, alguns poderão mudar seu estado (de “bom” para “intermediário” e vice-versa); continuarão sendo, entretanto, classificados erroneamente em um dos dois grupos (“bom” ou “intermediário”) pela função discriminante. O resultado obtido com a aplicação da análise discriminante foi a seguinte equação discriminante Yˆj ' = −1,88 − 0,46 X 1 − 0,75 X 2 − 0,09 X 3 − 0,39 X 4 + 10,13 X 5 + 0,15 X 6 − 0,17 X 7 − 0,03 X 8 + + 0,05 X 9 − 0,06 X10 + 0,45 X 11 em que Yˆj ' = o escore discriminante dos dois grupos X 1 , X 2 ,..., X11 são as variáveis do modelo Considerando-se as observações dos dois grupos, “bom” e “intermediário”, com p = 11 variáveis, são obtidos os vetores de média amostral para cada população, respectivamente: X 1 = [1,97 0,82 12,40 0,68 0, 42 3,52 3, 25 1,88 2,07 1, 47 1,64] e X 2 = [ 2,16 0,80 16,26 0,69 0,32 3, 45 3, 46 1,91 2,12 1,51 1,50] Obtidos os vetores de média amostral, calculam-se os centróides (escore médio discriminante para cada população) dos dois grupos. Sendo 0,60 para o grupo “bom” e -0,87 para o grupo “intermediário”. A regra de classificação6 consiste em calcular a distância euclidiana entre os centróides e o escore discriminante para cada elemento amostral, sendo o elemento amostral j classificado na população cuja distância é a menor. Os maiores coeficientes para cada variável podem, usualmente, ser interpretados como os maiores coeficientes da função discriminante e indicam a maior contribuição das respectivas variáveis. Nesse caso, verifica-se que a variável X 5 (número de contratos na instituição) foi significativa como indicadora, ou melhor, discriminadora entre os dois grupos. Entretanto, não quer dizer que ela será sempre importante para discriminação, sendo necessário cautela no uso de suas generalizações, além do objetivo aqui proposto. 75 Após reclassificar os dois grupos, “bom” e “intermediário”, através da equação discriminante Yˆ ' , é apresentado na tabela 15 o resultado da classificação do modelo misto7, considerando o uso combinado das metodologias apresentadas neste trabalho. TABELA 15: Resultado da classificação do modelo final Grupo Grupo Previsto 1 2 3 Original Contagem 308,00 46,00 1 88,00 156,00 2 15,00 25,00 418,00 3 % 87,01 12,99 1 36,07 63,93 2 3,28 5,46 91,27 3 83,5% do grupo original classificado corretamente. Total 354,00 244,00 458,00 100,00 100,00 100,00 Os clientes que foram classificados como “ruins” na tabela 13 não passaram pelo processo de reclassificação, ou seja, os 418 clientes continuam no mesmo estado. Analisando os dois resultados, tabela 13 e 15, o número de clientes “bons” classificados como intermediários aumentou de 5 para 46 e o número de clientes “intermediários” classificados como “bons” reduziu de 142 para 88. Este último procedimento foi adequado, pois além de aumentar em 1,1 pontos percentuais o poder de precisão do modelo, foi possível reduzir em 22,13 pontos percentuais os erros de classificação de clientes “intermediários” classificados como “bons”. 6 Johnson e Wichern (2002) apresentam uma fórmula de determinação do ponto de corte que minimiza a taxa de erro global, levando em consideração as probabilidades a priori de classificação e os custos dos erros. 7 Devido às dificuldades de apresentar uma forma funcional do modelo quadrático, serão apresentados apenas os resultados de classificação. 76 5. CONCLUSÃO A avaliação de crédito constitui um processo dinâmico, exigindo revisões periódicas, devendo o modelo utilizado ser formatado para suprir, em tempo hábil, as mudanças observadas no mercado. Foi diante dessa perspectiva que se propôs neste trabalho a elaboração de uma metodologia alternativa de credit scoring. Procurou-se ainda mostrar a importância de metodologias de gestão de risco capazes de controlar a inadimplência, possibilitando, além disso, ampliar a concessão de crédito com eficiência. Isso, sem dúvida, é de suma importância para as instituições financeiras diante do atual cenário do sistema financeiro, que tem apresentado, nos últimos anos, excesso de liquidez. Assim, a metodologia alternativa proposta permite ao gestor administrar riscos de forma ousada, sendo capaz de ampliar o nível de concessão de crédito e resguardando a relação risco-retorno. Outro fator relevante é que a ampliação do nível de concessão de crédito através da aceitação do grupo “intermediário” dentro de limites razoáveis é um mecanismo importante para aumentar a diluição dos custos administrativos, um dos fatores que mais elevam as taxas de juros das instituições. Assim, a instituição credora poderá optar por emprestar com taxas mais atrativas, o que traz vantagens competitivas em relação a outras instituições financeiras. Contudo, a disposição para correr risco é de caráter pessoal, caracterizando a opção de cada organização de acordo com a premissa e o entendimento da direção. O resultado final de 83,5% de acerto, tabela 15, indica que a aplicação do modelo na prática será capaz de classificar corretamente uma proporção bastante elevada de todas as operações de crédito submetidas à análise, comprovando que podem ser obtidos excelentes resultados nos modelos de credit scoring usando análise discriminante. Para isso, no entanto, é fundamental que os problemas de violações de pressuposições, caso existam, sejam amenizados ou resolvidos; caso contrário, os resultados obtidos podem distanciar-se consideravelmente da realidade, ou seja, o modelo poderá ser considerado impreciso. Portanto, a avaliação dos dados é imprescindível para que se possa desenvolver um modelo estatisticamente correto. Um problema apresentado neste trabalho foi que, apesar de serem obtidos excelentes resultados na classificação geral dos grupos de riscos, e mesmo com a redução dos 22,13 pontos percentuais dos erros de classificação, existe ainda 36,07% de clientes 77 “intermediários” classificados como “bons”, o que pode ser considerado um percentual bastante elevado. Esse problema pode estar relacionado com a aplicação neste trabalho de um caso de pequena dimensão (1151 clientes e 11 variáveis) se comparado aos casos reais, em geral possuindo 100 mil clientes e 50 variáveis. Contudo, é fundamental desenvolverem-se mecanismos capazes de reduzir ainda mais esses erros de classificação. Em suma, apesar de todas as dificuldades (práticas ou técnicas), essa metodologia alternativa é bastante válida para avaliar a concessão de crédito de forma objetiva, racional e prática. Isso ocorre em função de seu desempenho provavelmente ser superior ao dos métodos de julgamento humano puro, que predominam em muitas instituições, nos quais os gestores avaliam se concedem ou não o crédito com base, muitas vezes, em critérios subjetivos. Além disso, muitas vezes os modelos de credit scoring tradicionais na prática, além de inibirem a gestão de riscos, apenas apresentam a pontuação do cliente, sem a preocupação com o ponto de corte, ou seja, não apresenta o ponto de referência para aceitação ou não do crédito. Uma questão importante é que, apesar de a metodologia alternativa proposta neste estudo apresentar a implementação do modelo com base na análise discriminante, ele será capaz de classificar corretamente a grande maioria das operações de crédito de uma carteira de crédito específica para a qual o modelo foi gerado. Para que essa metodologia seja tecnicamente viável, faz-se necessário o acompanhamento do desempenho da utilização do modelo após sua implementação. Outro fato relevante é que, apesar de essa metodologia alternativa considerar a inclusão de um grupo “intermediário” que pode oferecer um grande potencial de lucro para a instituição, o modelo estatístico teve como objetivo principal classificar operações de crédito considerando os três grupos: “bom”, “intermediário” e “ruim”, o que permite aumentar o nível de concessão de crédito. Assim, é recomendado que seja feito paralelamente um estudo que permita verificar se essa metodologia, de fato, trará resultados positivos para aumentar a lucratividade da carteira de crédito. Outra questão bastante relevante para este trabalho é considerar os custos com os erros de classificação na aplicação da análise discriminante na metodologia alternativa proposta. 78 REFERÊNCIAS ALTMAN, Edward I. Financial rations, discriminant analysis and the prediction of corporate bankruptcy. The Journal of Finance, v.23, n.4, p.589-609, Sep. 1968. AMORIM NETO, A. A.; CARMONA, C. U. M. Modelagem do risco de crédito: um estudo do segmento de pessoas físicas em um banco de varejo. READ, 40.ed., v.10, n.4, p.1-23, jul-ago. 2004. ANDREWS, D. F. A note on the selection of data transformations. Biometrika, v.58, n.2, p.249-254, Aug. 1971. ANDREZO, A. F.; LIMA, I. S. Mercado financeiro. Aspectos históricos e conceituais. 1.ed. São Paulo: Guazzelli (Pioneira), 1999. ASSAF NETO, Alexandre; SILVA, César Augusto. Administração do capital de giro. 2.ed. São Paulo: Atlas, 1997. ATKINSON, A. C. Plots, transformations and regression: an introduction to graphical methods of diagnostic regression analysis. New York: Oxford University Press, Statistical Science Series, 1985. BANCO CENTRAL DO BRASIL (Departamento de estudos e pesquisas – DEPEP). Juros e spread bancário no Brasil, out. 1999. BANCO CENTRAL DO BRASIL. Juros e spread bancário no Brasil: avaliação de 2 anos do projeto, nov. 2001. BANCO CENTRAL DO BRASIL. Relatório de economia bancária e crédito, 2006. BANCO DO BRASIL. Fontes de financiamentos para MPEs e as oportunidades para os contabilistas no ambiente de negócio brasileiro. Banco do Brasil, 07 maio 2007. Disponível em: < http://www.crcgo.org.br/> Acesso em: 03 fev. 2008. BARROS, J. R. M.; ALMEIDA Jr., M. F. Análise do ajuste do sistema financeiro no Brasil. Política comparada, Ministério da Fazenda – Secretaria de Política Econômica, Brasília, v.1, n. 2, p.89-132, mai. 1997. BERNSTEIN, Peter L. Desafio aos deuses: a fascinante história do risco. 20.ed. Rio de Janeiro: Campus Elsevier, 1997. 79 BOX, G. E. P.; COX, D. R. An analysis of transformations. Journal of the Royal Statistical Society. Series B (Methodological), v.36, n. 2, p.317-346, 1949. BOX, G. E. P.; COX, D. R. An analysis of transformations (with discussion). Journal of the Royal Statistical Society. Series B (Methodological), v.26, n.2, p.211-252, Apr. 1964. BOX, G. E. P.; COX, D. R. An analysis of transformations revisited, rebutted. Journal of the American Statistical Association, v.77, n.377, p.209-210, Mar. 1982. CAOUETTE, John B.; ALTMAN, Edward I.; NARAYANAN, Paul. Gestão do risco de crédito. 1.ed. Rio de Janeiro: Qualitymark, 1999. CARNEIRO, Dionísio Dias. Por que o Brasil vai crescer, mas não muito. O Estado de São Paulo. São Paulo, 02 fev. 2007. Disponível em: <http://www.estado.com.br/editorias/2007/02/02/eco-1.93.4.20070202.5.1.xml> Acesso em: 27 fev. 2008. CARVALHO, E. C.; OLIVEIRA, G. C. Fragilização de grandes bancos no início do Plano Real. Nova Economia, Belo Horizonte, v.12, n.1, p.69-84, jan-jun. 2002. CHANG, P. C.; AFIFI, A. A. Classification based on dichotomous and continuous variables. Journal of the American Statistical Association, v.69, n.346, p.336-339, Jun. 1974. CHATTERJEE, Samprit; PRICE, Bertram. Regression analysis by example. 2.ed. New York: John Wiley & Sons, Inc., 1991. COOK, R. Dennis. Assessment of local influence (with discussion). Journal of the Royal Statistical Society. Series B (Methodological). Minnesota, v.48, n.2, p.133-169, 1986. COOK, R. Dennis; WEISBERG, Sanford. Applied regression including computing and graphics. 1.ed. New York: John Wiley, 1999. CRITCHLEY, F.; VITIELLO, C. The influence of observations on misclassification probability estimates in linear discriminant analysis. Biometrika, v.78, n.3, p.677-690, Sep. 1991. DECARLO, L. T. On the meaning and use of kurtosis. Psychological methods, v.2, n.3, p.292-307, 1997. DIÁRIO DO COMÉRCIO. Qualidade do crédito avança nos quatro maiores bancos. Diário do Comércio, Indústria e Serviço. São Paulo, 21 fev. 2008. Disponível em: <http://www.dci.com.br/noticia.asp?id_noticia=215188> Acesso em: 29 fev. 2008. 80 DILLON, William R.; GOLDSTEIN, Matthew. Multivariate analysis: methods and applications. Canada: John & Sons, Inc., 1984. DRAPER, N. R.; COX, D. R. On distribution and their transformations to normality. Journal of the Royal Statistical Society, v.31, n.3, p.472-476, 1969. DUTRA, M. S.; BIAZI, E. Uma nova abordagem de credit scoring usando análise discriminante. Nova Friburgo: Instituto Politécnico/UERJ, 2007. Palestra proferida no X EMC – Encontro de Modelagem Computacional, em 21-23/11/2007. EQUIFAX, Credit Scoring. EQUIFAX – Soluções para gestão de riscos. Equifax, 2002. Disponível em: <http://www.equifax.com.br > Acesso em: 10 mai. 2008. ERBERT, Mauro; HAERTEL, Vitor. Estudo sobre técnicas de regularização da matriz de covariância no processo de classificação de dados de alta dimensionalidade. INPE. Anais XI SBSR, Belo Horizonte, Brasil, 05-10 abril 2003, INPE, p.1061-1068. FISHER, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics, v.7, p.179-188, 1936. FUNG, W. K. Some diagnostic measures in discriminant analysis. Statistics and Probability Letters, v.13, p.279-285, 1992. FUNG, W. K.; KWAN, C. W. A note on local influence basead on normal curvature. J. R. Statist. Soc. Series B (Methodological). Hong Kong, v.59, n.4, p.839-843, 1977. GITMAN, Lawrence Jeffrey. Princípios de administração financeira. 2.ed. Porto Alegre: Bookman, 2001. GREMAUD, Amaury Patrick Gremaud; VASCONCELLOS, Marco Antônio; TONETO JR., Rudinei. Economia brasileira contemporânea. 6.ed. São Paulo: Atlas, 2005. HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Multivariate data analysis with readings. 5.ed. New Jersey: Prentice Hall, 1998. HUANG, C. L.; CHEN, M. C.; WANG, C. J. Credit scoring with a data mining approach based on support vector machines. Expert Systems with Applications, v.33, n.4, p.847856, 2006. IBGE. Sistema financeiro: uma análise a partir das contas nacionais. Rio de Janeiro: IBGE, 1997. 81 JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. New Jersey: Prentice Hall, 2002. JORION, Philippe. Value at risk: the new benchmark for controlling market risk. New York: Mc Graw Hill, 1997. KRZANOWSKI, W. J. Discrimination and classification using both binary and continuous variables. Journal of the American Statistical Association, v.70, n.352, p.782-790, Dec. 1975. KRZANOWSKI, W. J. Mistures of continuous a categorical variables in discriminant analysis. Biometrics, v.36, n.3, p.493-499, Sep. 1980. KRZANOWSKI, W. J. Mistures os continuous and categorical variables in discriminant analysis: a hypothesis – testing approach. Biometrics, v.38, n.4, p.991-1002, Dec. 1982. KRAZANOWSKI, W. J. Multiple discriminant analysis in presence of mixed continuous and categorical data. Comp. and. Math. With appls, v.12A, n.2, p.179-185, 1986. LACERDA et al. Economia brasileira. 2.ed. São Paulo: Saraiva, 2005. MANLY, Bryan F. J. Multivariate statistical methods. 1.ed. New York: Chapman and Hall, 1986. MARDIA, K. V. Measures of multivariate skewness e kurtosis with applications. Biometrika, v.57, n.3, p.519-530, Dec. 1970. MARDIA, K. V. Applications of some measures of multivariate skewness and kurtosis in testing normality and robustness studies. Sankhyã B, v.36, n.2, p.115-128, 1974. MARDIA, K. V. Assessment of multinormality and therobustness of Hotelling’s T2 test. Applied Statistics, v.24, n.2, p.163-171, 1975. MINGOTI, Sueli Aparecida. Análise de dados através de métodos de estatística multivariada. 1.ed. Belo Horizonte: UFMG, 2005. OLKIN, I.; TATE, R. F. Multivariate correlation models with mixed discrete and continuous variables. Ann. Math. Statist, v.32, n.2, p.448-465, Jun. 1961. PAULA, G. A. Assessing local influence in restricted regression models. Computational Statistics & Data Analysis, v.16, n.1, p.63-79, Jun. 1993. 82 PAULA, G. A. Modelos de regressão com apoio computacional. Instituto de Matemática e Estatística-USP: São Paulo, 2004. POON, W. Y. Identifying influential observations in discriminant analysis. Statistical Methods in Medical Research, v.13, n.4, p.291-308, 2004. POON, W. Y.; POON, Y. S. Conformal normal curvature and assessment of local influence. J. R. Statisti. Soc. B, v.61, n.1, p.51-61, 1999. RÊGO, Ricardo Bordeaux. Mudanças no mercado de capitais brasileiro: subscrições privadas versus ofertas públicas de ações após o Plano Real. 2004. Tese (Pós-Graduação em Administração de Empresas) – Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro. RUSSO, Cibele Maria. Análise de um modelo de regressão com erros nas variáveis multivariado com intercepto nulo. 2006. Dissertação (Pós-Graduação em Ciência de Computação e Matemática Computacional) – USP – Instituto de Ciências Matemáticas e de Computação – ICMC, São Paulo. SANDA, Renê. Análise discriminante com mistura de variáveis categóricas e continuas. 1990. Dissertação (Pós-Graduação em Estatística) – Universidade de São Paulo, São Paulo. SANTOS, J. O.; FAMÁ, R. Avaliação da aplicabilidade de um modelo de credit scoring com variáveis sistêmicas e não-sistêmicas em carteiras crédito bancário rotativo de pessoas físicas. R. Cont. Fin USP, São Paulo, v.18, n.44, p.105-117, mai-ago. 2007. SAUNDERS, Anthony. Medindo o risco de crédito. 1.ed. Rio de Janeiro: Qualitymark, 2000. SEBER, George A. F. Multivariate observations. 1.ed. Canada: John Wiley & Sons, 1984. SOARES, R. P. Evolução do crédito de 1994 a 1999: uma explicação. Instituto de Pesquisa Econômica Aplicada. Texto para discussão nº 808, Brasília, jul. 2001. Disponível em: <http://www.ipea.gov.br> Acesso em: 02 jan. 2008. SOETHE, Volnei Avilson. Técnica Sunkrinõ: uma proposta para ponderação de critérios na avaliação e monitoramento do risco de crédito pelo método Crisks. 2004. Tese (PósGraduação em Engenharia de Produção) – Universidade Federal de Santa Catarina, Florianópolis. 83 VASCONCELLOS, Maurício Sandoval de. Proposta de método para análise de concessão de crédito a pessoas físicas. 2002. Dissertação (Pós-Graduação Economia) – Universidade de São Paulo, São Paulo. VERBEKE, Geert.; MOLENBERGHS, Geert. Linear mixed models for longitudinal data. 1.ed. New York: Springer, 2000. ZHU, H. T.; LEE, S. Y. Local influence for generalized linear mixed models. Canad. J. Satist, v.31, n.3, p.293-309, Sep. 2003. 84 APÊNDICE Método da máxima verossimilhança Uma amostra aleatória ( y1 , y2 ,..., yn ) , retirada de uma população com uma função de densidade de probabilidade f ( y, θ ) , a qual depende do vetor de parâmetros θ , tem uma função de densidade de probabilidade (pdf) conjunta dada por n ∏ f ( y ,θ ). i i =1 isto é, a função de densidade de probabilidade conjunta é simplesmente o produto das densidades de cada uma das observações, f ( y1 ,θ ) x f ( y2 ,θ ) x ... x f ( yn ,θ ) em que θ é um vetor de parâmetros (fixo) e yi é uma variável aleatória (variável). Note que, antes da retirada da amostra, cada observação é uma variável aleatória, cuja função de densidade de probabilidade é igual à função de densidade de probabilidade da população. A média e a variância de cada observação a ser retirada são iguais à média e variância da população em questão. É nesse sentido que se diz que, na função de densidade conjunta, antes de retirada da amostra, θ é fixo e yi é variável. Contudo, uma vez que tenha sido obtida uma amostra específica, yi torna-se fixo e a função de densidade de probabilidade conjunta pode então ser reinterpretada como sendo uma função do vetor de parâmetros θ , que se tornam variáveis. Para uma dada amostra ( y1 , y2 ,..., yn ) , a função de densidade de probabilidade conjunta, vista como função do vetor de parâmetros desconhecidos θ , é denominada função de verossimilhança. Uma possibilidade para a resolução do problema de estimação é escolher o vetor θˆ que maximize a probabilidade de obtenção da amostra específica ( y1 , y2 ,..., yn ) que se tem em mãos. Em outras palavras, é necessário encontrar o vetor θˆ que faz a probabilidade de 85 obter-se a amostra já obtida a maior possível, ou seja, que maximize a função de verossimilhança. Tem-se, portanto, a função de verossimilhança L (θ , y ) , em que y é o fixo e θ é a variável, e o problema consiste em se obter o vetor θˆ que maximize essa função. O estimador de máxima verossimilhança θˆ é o vetor que faz ˆ L θˆ, y > L θˆ, y ( ) ˆ em que θˆ é qualquer outro estimador de θ . Do ponto de vista matemático, a implementação desse procedimento parece simples, pois tudo o que se tem a fazer é maximizar a função de verossimilhança com respeito a θˆ . Para tanto, basta igualar a zero as derivadas parciais da função de verossimilhança e achar o vetor θˆ que resolva esse conjunto de equações. Na maioria dos casos, trabalhar-se-á com o logaritmo natural da função de verossimilhança, ( ln L ) , pois maximizar o logaritmo natural de uma função é, em geral, mais simples e produz os mesmos resultados da maximização da função original. 86 ANEXO Gráfico de influência Figura extraída de Verbeke e Molenberghs, 2000. 87