CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS

Transcrição

CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS
CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS
Programa de Pós-Graduação em Modelagem Matemática e Computacional
UMA ABORDAGEM ALTERNATIVA DE CREDIT SCORING USANDO
ANÁLISE DISCRIMINANTE:
eficiência na concessão de crédito para o segmento de pessoas físicas no Brasil
Marcos dos Santos Dutra
BELO HORIZONTE
2008
Marcos dos Santos Dutra
UMA ABORDAGEM ALTERNATIVA DE CREDIT SCORING USANDO
ANÁLISE DISCRIMINANTE:
eficiência na concessão de crédito para o segmento de pessoas físicas no Brasil
Dissertação apresentada ao Programa de PósGraduação
em
Modelagem
Matemática
e
Computacional do CEFET-MG, como requisito
parcial para obtenção do título de Mestre em
Modelagem Matemática e Computacional.
Orientadora: Prof. Dra. Elenice Biazi
Belo Horizonte
2008
ii
D978a
2008
Dutra, Marcos dos Santos
Uma abordagem alternativa de credit scoring usando análise
discriminante: eficiência na concessão de crédito para o segmento
de pessoas físicas no Brasil. -- 2008
87 f.
Orientadora: Elenice Biazi
Dissertação (mestrado) – Centro Federal de Educação Tecnológica
de Minas Gerais.
1. Análise discriminatória – Teses. 2. Administração de crédito –
Brasil. 3. Estatística matemática. I. Biazi, Elenice. II. Centro Federal
de Educação Tecnológica de Minas Gerais. III. Título.
CDD 519.5
Elaboração da ficha catalográfica por Biblioteca-Campus II / CEFET-MG
iii
Marcos dos Santos Dutra
Uma abordagem alternativa de credit scoring usando análise discriminante: eficiência na
concessão de crédito para o segmento de pessoas físicas no Brasil
Dissertação apresentada ao Programa de Pós-Graduação em Modelagem Matemática e
Computacional do CEFET-MG. Belo Horizonte, 2008.
___________________________________________
Prof. Dra. Elenice Biazi (Orientadora) – CEFET-MG
___________________________________________
Prof. Dr. Wagner Moura Lamounier – UFMG
___________________________________________
Prof. Dr. Sérgio Ricardo de Souza – CEFET-MG
___________________________________________
Prof. Dr. Allbens Atman Picardi Faria – CEFET-MG
iv
AGRADECIMENTOS
Grande é minha lista de agradecimentos (o que me torna uma pessoa de sorte).
Primeiramente, agradeço a Deus, por ter-me concedido o privilégio de realizar mais
um sonho de minha vida.
Agradeço à minha esposa, Cris, pelo incentivo, amor e carinho nesses momentos não
partilhados.
Agradeço à minha mãe, Maria Elza, pelo cuidado, amor e ensinamentos indispensáveis
à minha formação.
Agradeço ao meu pai, Célio, por não medir esforços para ajudar-me em minhas
decisões.
Agradeço a meus irmãos, Marcelo, Amarildo e Ângela, pelo apoio e incentivo
fundamentais para que eu pudesse prosseguir nessa caminhada.
Agradeço ao meu tio Epifânio, meu sogro Hélio e minha sogra Elizabete, pelo carinho
e incentivo.
Agradeço à Professora Dra. Elenice Biazi, pelo incentivo, paciência, orientações e,
principalmente, por sua amizade ao longo desses dois anos.
Incluo, de forma especial, o Professor Dr. Sérgio Ricardo de Souza, pelo incentivo e
sugestões que permearam este trabalho.
Agradeço aos amigos Nédson e Marcus Tadeu, sempre disponíveis para discussões de
algumas questões relevantes e importantes aqui desenvolvidas.
Agradeço de forma carinhosa às minhas amigas Maria José e Luciana, pela
disponibilidade nos momentos que precisei.
Agradeço ao CAPES, pela bolsa concedida durante os dois anos de curso.
v
Quanto mais vivo, mais profundamente me convenço de que o que faz a
diferença entre o homem e outro homem é a energia, uma determinação
invencível, uma decisão tomada e mantida até a vitória final.
Fowell Buxton
vi
RESUMO
Nestes últimos anos, após o Plano Real, o volume de crédito mostrou expressivo
crescimento, principalmente o crédito para pessoas físicas, o que pode ser explicado pela
estabilização da inflação e a conseqüente queda da taxa de juros. Paralelamente, observa-se
que o sistema financeiro brasileiro tem apresentado excesso de liquidez, gerado
principalmente por investimentos externos.
Diante desse cenário, é fundamental que as instituições financeiras, além de tornarem
mais ágil o processo de concessão de crédito e controlar a inadimplência, sejam capazes de
ampliar a concessão de crédito de forma eficaz. Assim, a gestão do risco de crédito vem
alcançando uma posição de destaque nas instituições financeiras e, conseqüentemente, existe
um maior interesse por modelos de credit scoring. Contudo, esses modelos inibem a gestão de
riscos por oferecerem apenas duas opções: rejeição ou aceitação da operação. Dessa forma,
não permitem à instituição financeira o controle do nível de risco, ou seja, ser mais ou menos
agressiva na concessão de crédito.
Neste trabalho, é proposta uma metodologia alternativa de credit scoring capaz de
atender às tendências atuais que induzem a operar com uma menor aversão ao risco, ou seja,
com maior agressividade, resguardando a relação risco-retorno.
Entre as diversas metodologias existentes, optou-se neste trabalho pela estatística de
análise discriminante. Essa metodologia, que apresenta a vantagem de classificar os
indivíduos em grupos, de acordo com seu grau de risco, torna-se uma das aplicações mais
difíceis em credit scoring, devido às fortes pressuposições necessárias à correta avaliação dos
tipos de dados envolvidos. No entanto, através da aplicação de técnicas sofisticadas em
estatística, conseguiu-se viabilizar o uso da análise discriminante, mesmo quando há violações
de pressuposições.
Os resultados indicam que o modelo proposto é conveniente e eficiente quando há
violações das pressuposições da análise discriminante. Contudo, é fundamental o uso
combinado de técnicas poderosas em estatística. A transformação de Box-Cox (1964) e a
técnica de influência local de Cook (1986) são algumas delas.
Palavras-chave: análise discriminante, credit scoring, influência local, transformação de
Box-Cox.
vii
ABSTRACT
After the Plano Real, the credit volume has shown expressive growth, mainly the consumer
credit, what can be explained by the stabilization of the inflation and the consequent fall of the interest
rate. As a matter of fact, it is observed that the Brazilian financial system has been presenting liquidity
excess generated mainly by external investments.
In this scenario it is fundamental that the financial institutions not only become more
agile in the process of credit concession and control of lack of payment, but are also able to
enlarge the credit concession in an effective way. Thus, the administration of credit risk is
reaching a prominence position in the financial institutions and consequently there is a larger
interest in methods of credit scoring. These models, however, inhibit the management of risks
as they offer only two options, refusal or acceptance of the operation. This does not allow the
financial institution the control of the level of risk, that is, the choice to be mores or less
aggressive in the credit concession.
In this paper an alternative methodology of credit scoring is proposed, which is able to
fulfil the current tendencies that induce financial operations with smaller aversion to risk, that
is, greater aggressiveness while protecting the relation risk-return.
In this paper, among the several existing methodolies, the statistical methodology of
discriminant analysis was chosen. This methodology that presents the advantage of
classifying the individuals in groups according to its risk degree, becomes one of the most
difficult applications in credit scoring due to the strong assumptions for the correct evaluation
of the types of data involved.
However, through the application of sophisticated statistical techniques the use of the
discriminant analysis became possible even when there are violations of assumptions.
The results indicate that the proposed model is appropriate and efficient when there
are violations of assumptions in discriminant analysis. However, it is fundamental the
combined use of powerful techniques in statistics. The Box-Cox (1964) transformation and
the technique of local influence of Cook (1986) are some of them.
Key-words: discriminant analysis, credit scoring, local influence, Box-Cox transformation.
viii
LISTA DE FIGURAS
FIGURA 1: Distribuição dos escores de crédito de contas boas e ruins em um modelo de
scoring de crédito.................................................................................................................
17
FIGURA 2: Problema de classificação................................................................................
32
ix
LISTA DE TABELAS
TABELA 1: Classificação da função discriminante de Fisher (dados sem transformação)
61
TABELA 2: Classificação da função discriminante de Fisher (método stepwise)..............
62
TABELA 3: Classificação da função discriminante de Fisher (dados transformados)........ 64
TABELA 4: Classificação da função discriminante de Fisher – retirados 22 pontos
influentes..............................................................................................................................
68
TABELA 5: Classificação da função discriminante de Fisher – retirados 68 pontos
influentes..............................................................................................................................
69
TABELA 6: Classificação da função discriminante de Fisher – procedimento 1...............
70
TABELA 7: Classificação da função discriminante de Fisher – procedimento 2...............
70
TABELA 8: Teste de Box – seção 5.1.9.2 (DFFITS)..........................................................
71
TABELA 9: Teste de Box – seção 5.1.9.3 (influência local – procedimento 1).................. 71
TABELA 10: Teste de Box – seção 5.1.5.2 (influência local – procedimento 2)................ 71
TABELA 11: Classificação da função discriminante quadrática – seção 5.1.9.2
(DFFITS).............................................................................................................................. 72
TABELA 12: Classificação da função discriminante quadrática – seção 5.1.9.3
(influência local – procedimento 1).....................................................................................
72
TABELA 13: Classificação da função discriminante quadrática – seção 5.1.9.3
(influência local – procedimento 2).....................................................................................
72
TABELA 14: Validação cruzada – seção 5.1.9.3 (procedimento 2).................................... 74
TABELA 15: Resultado da classificação do modelo final..................................................
76
x
LISTA DE QUADROS
QUADRO 1: Variáveis necessárias para a classificação das operações de crédito.............
56
QUADRO 2: Variáveis explicativas do modelo de credit scoring......................................
57
QUADRO 3: Composição dos grupos estudados................................................................
57
QUADRO 4: Proposta de tratamento dos dados, passos a serem seguidos, propósitos e
os processos estatísticos utilizados....................................................................................... 58
xi
LISTA DE GRÁFICOS
GRÁFICO 1: Carteira de operações de crédito – dez/1999.................................................
20
GRÁFICO 2: Carteira de operações de crédito – dez/2006.................................................
20
GRÁFICO 3: Evolução da relação de crédito/PIB no Brasil...............................................
21
GRÁFICO 4: Crédito em relação ao PIB n mundo – mai/2007..........................................
21
GRÁFICO 5: Spread bancário no Brasil (jul/1994 a out/2003)..........................................
29
GRÁFICO 6: Qui-Quadrado (Q-Q ployt)............................................................................
63
GRÁFICO 7: Probabilidades com envelopes......................................................................
65
GRÁFICO 8: Resíduo de Pearson........................................................................................ 66
GRÁFICO 9: Resíduo studentizado..................................................................................... 66
GRÁFICO 10: Diagonal da matriz H (Leverage)................................................................
66
GRÁFICO 11: Distância de Cook........................................................................................ 67
GRÁFICO 12: DFFITS........................................................................................................ 67
GRÁFICO 13: Influência local – caso variáveis explanatórias...........................................
68
xii
SUMÁRIO
1. INTRODUÇÃO............................................................................................................... 16
1.1
Justificativa...............................................................................................................
1.2
Problema.................................................................................................................... 23
1.3
Objetivos....................................................................................................................
25
1.3.1 Objetivo geral.............................................................................................................
25
1.3.2 Objetivos específicos..................................................................................................
25
2. REFERENCIAL TEÓRICO DOS MODELOS DE CREDIT SCORING.................
26
2.1
Surgimento dos modelos de credit scoring..............................................................
26
2.2
Difusão dos modelos de credit scoring no Brasil....................................................
27
2.3
Vantagens e desvantagens dos modelos de credit scoring tradicionais................
31
18
3. METODOLOGIA........................................................................................................... 32
3.1
Análise discriminante...............................................................................................
32
3.1.1 Problema..................................................................................................................... 32
3.1.2 Premissas....................................................................................................................
33
3.2
Função discriminante linear de Fischer.................................................................
34
3.3
Função discriminante quadrática...........................................................................
35
3.4
Robustez da função discriminante linear e quadrática......................................... 36
3.5
Métodos de verificação das premissas da análise discriminante.......................... 36
3.5.1 Método stepwise.......................................................................................................... 37
3.5.2 Normalidade multivariada.......................................................................................... 37
3.5.3 Comparando matrizes de covariância........................................................................ 40
3.5.4 Análise de diagnósticos..............................................................................................
43
3.5.4.1 Diagonal da matriz H (Leverage)...............................................................................
45
3.5.4.2 Resíduo de Pearson..................................................................................................... 45
xiii
3.5.4.3 Resíduo studentizado..................................................................................................
46
3.5.4.4 Distância de Cook....................................................................................................... 47
3.5.4.5 DFFITS.......................................................................................................................
47
3.5.4.6 Influência local...........................................................................................................
48
3.5.4.6.1
Metodologia de influência local...................................................................... 48
3.5.4.6.2
Variáveis explanatórias em regressão linear................................................... 50
3.5.4.7 Técnicas gráficas........................................................................................................
51
3.6
Transformação de Box-Cox (1964).........................................................................
52
3.7
Validação do modelo................................................................................................. 53
3.7.1 Método de Wilk...........................................................................................................
53
3.7.2 Validação cruzada......................................................................................................
54
3.7.3 Reclassificação das observações dos dois grupos que apresentarem maior
quantidade de observações misturadas..................................................................................
54
3.8
Base de dados............................................................................................................
55
4. APLICAÇÃO..................................................................................................................
60
4.1
60
A metodologia alternativa de credit scoring...........................................................
4.1.1 Passo 1: Preparação da base de dados...................................................................... 60
4.1.2 Passo 2: Análise discriminante de Fisher..................................................................
60
4.1.3 Passo 3: Aplicação do método stepwise....................................................................
61
4.1.4 Passo 4: Análise discriminante de Fisher...................................................................
62
4.1.5 Passo 5: Verificação da normalidade multivariada................................................... 62
4.1.6 Passo 6: Transformações de Box-Cox........................................................................ 63
4.1.7 Passo 7: Análise discriminante de Fisher..................................................................
64
4.1.8 Passo 8: Análises de diagnósticos..............................................................................
64
4.1.8.1 Influência local...........................................................................................................
67
4.1.9 Passo 9: Reanálise dos dados..................................................................................... 68
xiv
4.1.9.1 Leverage.....................................................................................................................
68
4.1.9.2 DFFITS.......................................................................................................................
69
4.1.9.3 Influência local – caso variáveis explanatórias........................................................... 69
4.1.10 Passo 10: Teste de Box...............................................................................................
71
4.1.11 Passo 11: Função discriminante quadrática.............................................................. 72
4.1.12 Validação do modelo..................................................................................................
73
5. CONCLUSÃO................................................................................................................. 77
REFERÊNCIAS.................................................................................................................... 79
APÊNDICE...........................................................................................................................
85
ANEXO.................................................................................................................................. 87
xv
1. INTRODUÇÃO
Assaf Neto e Silva (1997) definem crédito como sendo uma troca de bens no presente
por bens futuros. Assim, pode-se definir uma operação de crédito como a troca de um valor
atual pela promessa de pagamento futuro.
No ambiente das finanças, quando acontece uma concessão de recursos, a instituição
financeira passa a possuir o chamado “risco de crédito”. Jorion (1997) afirma que esse risco
pode ser definido como a possibilidade de a contraparte não cumprir as obrigações monetárias
contratuais relativas às transações financeiras. Esse não cumprimento das obrigações
contratuais é chamado inadimplência e deve ser monitorado.
Assim, se não existirem metodologias eficazes de previsão da inadimplência e controle
no processo de concessão de limites, as operações de crédito podem levar a economia a um
processo de desaquecimento, em decorrência da retração das fontes financiadoras.
Um melhor entendimento e aperfeiçoamento do processo de gestão do crédito deve
levar a uma expansão dos níveis de crédito concedidos em decorrência do maior grau de
certeza das instituições bancárias quanto às perdas nos financiamentos.
A incerteza quanto à veracidade do compromisso tem levado os bancos a elaborarem
modelos mais sofisticados para estimar a chance de não pagamento. O objetivo principal dos
modelos é obter um conjunto de parâmetros que demonstrem a real chance de o devedor
honrar a dívida. Um desses modelos é chamado credit scoring1.
Huang, Chen e Wang (2006) afirmam que os modelos de credit scoring são
desenvolvidos para aceitar ou rejeitar candidatos ao crédito de acordo com suas
características, tais como idade, renda e condição conjugal.
Santos e Fama (2007) complementam essa definição explicando que o modelo, que se
fundamenta em uma forma estatística desenvolvida com base nas principais informações
cadastrais dos clientes, atribui a elas pesos de acordo com a importância destacada em suas
políticas internas de crédito. Como resultado final, obtém-se um sistema de pontuação que
possibilita o cálculo de valores que serão interpretados em conformidade com a classificação
de risco adotada, as quais recomendarão a aprovação ou a recusa dos financiamentos
pleiteados pelas pessoas físicas.
1
Neste trabalho será mantido o termo em inglês credit scoring, que significa ‘pontuação de crédito’, por ser um
termo usado nas instituições financeiras, mesmo as oficiais, como o Banco do Brasil.
16
Ao somar as pontuações de todos os clientes, define-se uma pontuação mínima, ou
seja, o “ponto de corte” (ver figura 1), que será a base para aprovação ou recusa do crédito.
Porcentagem
das Contas
Distribuição dos Escores de Crédito de Contas Boas e Ruins em um
Modelo de Scoring de Crédito
Escore de Corte
Contas Ruins
Contas Boas
Escore de Crédito
Fonte: Caouette, Altman e Narayanan (1999)
Santos e Fama (2007) recomendam um intervalo estatístico de confiança a partir do
“ponto de corte” que permitiria a aprovação ou recusa de clientes através de uma análise em
comitê.
Conforme afirmam Huang, Chen e Wang (2006), profissionais e pesquisadores têm
desenvolvido uma variedade de modelos estatísticos para credit scoring, como os modelos
discriminantes lineares, os de regressão logística, dos k-vizinhos mais próximos, de
programação genética, de árvore de decisão e de redes neurais.
Caouette, Altman e Narayanan (1999) afirmam que, na maioria das vezes, os modelos
de credit scoring apresentam alguns problemas – como a violação da normalidade
multivariada – que podem afetar sua validade estatística. Entretanto, dificilmente são
encontrados na literatura métodos que visem solucionar – ou mesmo amenizar – esses
problemas de violação. A maior razão para isso é a necessidade de sigilo, já que boas e
sofisticadas técnicas trazem vantagens competitivas e, portanto, as instituições que as utilizam
procuram não as divulgar. O que existe em abundância são discussões acerca dos problemas
das metodologias estatísticas, sendo, no entanto, dificilmente encontrado algum estudo
empírico revelando todas as etapas do processo de formação até a aplicação do modelo. Outra
questão relevante é que os modelos de credit scoring, além de aceitarem na maior parte das
vezes clientes que sempre pagam em dia, podendo a operação não ser muito rentável em
termos de juros e multa por atraso no pagamento, também inibem a gestão de risco; esses
problemas motivaram a escolha do tema no presente estudo.
17
A análise discriminante – apesar de criticada pelos problemas de violação de
pressuposições (normalidade multivariada, ausência de pontos influentes e igualdade das
matrizes de covariância), que podem inviabilizar o uso desta técnica – possui aplicação
bastante usual em modelos de credit scoring, sendo Altman (1968) o pioneiro em sua
utilização. Além disso, ela possui vantagem em relação ao tempo de processamento
despendido, quando comparada a outros métodos, tais como o logístico, árvore binária e kvizinhos mais próximos, entre outros. Essa vantagem é de suma importância para tais
modelos2, levando em conta que um menor tempo de processamento significa maior agilidade
na concessão. Nesse contexto, será proposta neste trabalho a metodologia estatística de
análise discriminante, fazendo uso combinado de técnicas que visem amenizar ou mesmo
resolver os problemas de violação de suas pressuposições.
Este estudo está dividido em seis capítulos. O capítulo 1 preocupa-se em localizar a
necessidade da existência de metodologias eficazes de gestão de riscos, identificar o problema
da pesquisa, caracterizar as justificativas para o tema e expor os objetivos a serem atingidos.
O capítulo 2 apresenta o contexto histórico dos modelos de credit scoring, desde a sua
origem à sua difusão.
No capítulo 3, é apresentada a metodologia estatística usada para o desenvolvimento
do modelo proposto.
Já no capítulo 4, são apresentadas as variáveis necessárias para a divisão dos grupos e
as variáveis explicativas para a formulação do modelo em questão.
Desenvolve-se no capítulo 5 o modelo propriamente dito de avaliação na concessão de
crédito.
A conclusão e sugestões para estudos futuros se dão no capítulo 6.
1.1
Justificativa
Uma questão abordada na literatura de modelos de concessão de crédito remete à
discussão da divisão dos créditos em classes do tipo “bom” e “ruim”. Vasconcelos (2002)
explica que o foco da maior parte dos modelos é a divisão de acordo com o risco de atraso no
pagamento, ou seja, de acordo com o comportamento de inadimplência da carteira de crédito.
2
Um trabalho interessante que apresenta de forma comparativa os principais métodos de discriminação é
encontrado em Sanda (1990).
18
Candidatos a crédito com risco muito baixo e que pagam suas prestações pontualmente
conseguem-no com taxas de juros mais baixas, além de não pagarem juros e multas por
atrasos; não são, no entanto, muito rentáveis. Analogamente, candidatos com risco muito alto
e que atrasam o pagamento de suas prestações podem ser bastante rentáveis, desde que as
taxas de juros de suas operações sejam suficientemente altas e que os atrasos não sejam
prolongados. Contudo, se a análise não for bem feita, o lucro obtido com uma venda adicional
pode ser totalmente comprometido com as despesas de cobrança de um mau pagador ou com
a perda do crédito.
Caouette, Altman e Narayanan (1999) comentam que o posicionamento em relação ao
crédito tem mudado na sociedade. Enquanto palavras como devedor ou tomador são
consideradas depreciativas (têm conotações de ato vergonhoso e de miséria), ao serem
substituídas modernamente por alavancador3 denotam motivo de orgulho.
De fato, os norte-americanos são bombardeados por todos os lados com convites
para aumentar os empréstimos que tomam [...]. Até pessoas com problemas de
crédito [...] são logo vistas como bons riscos de crédito por estarem livres de
dívidas. (CAOUTTE, ALTMAN e NARAYANAN, 1999, p.12).
No mesmo raciocínio, observa-se, na carteira de ativos bancários4, a existência de
produtos de renegociação de dívidas, desenvolvidos para atender pessoas físicas e jurídicas,
que reconhecem dificuldades em manter as bases inicialmente acordadas no contrato. Esse
tipo de cliente pode ser visto como alavancador, sugerindo a possibilidade de aumentar
significativamente o lucro da instituição credora.
Assim, é proposta uma nova metodologia para mensuração do risco de crédito,
utilizando uma técnica estatística denominada análise discriminante, sendo incluído, no
modelo, um novo grupo de clientes que obtiveram dificuldades em manter o acordo
contratual, mas que renegociaram e liquidaram a dívida. Com essa inclusão, é possível
ampliar o nível de concessão de crédito, resguardando a relação risco-retorno.
A motivação da escolha desse tema é devida a duas problemáticas identificadas,
descritas a seguir.
3
O termo ‘alavancador’ é usado aqui no sentido da utilização de recursos de terceiros para aumentar as
possibilidades de lucro de uma empresa, aumentando, conseqüentemente, o grau de risco da operação.
4
Também conhecida como carteira de contas a receber, a carteira de ativos bancários é um registro de todas as
contas e saldos das vendas a crédito de uma empresa.
19
a) Aumento substancial das operações concedidas a pessoas físicas no Brasil após o Plano
Real, apesar de, numa perspectiva internacional, a relação crédito/ PIB ser muito baixa.
A expansão das operações de crédito no Brasil após o Plano Real foi abrangente em
vários segmentos da economia. Entretanto, as operações de crédito para pessoas físicas foram
as que mais cresceram nos últimos anos. As informações consolidadas divulgadas pelo Banco
Central do Brasil para cada modalidade de crédito mostram que, já no início de 1999, o saldo
das operações concedidas a pessoas físicas representava um volume superior a 50% do saldo
total das operações concedidas a pessoas jurídicas, conforme gráfico 1.
Carteira de Crédito -1999
35%
65%
PF
PJ
GRÁFICO 1: Carteira de operações de crédito – dez/1999
Fonte: adaptado de Banco Central do Brasil.
O gráfico 2 mostra que, em 2006, o saldo das operações concedidas a pessoas físicas
representa um volume de apenas seis pontos percentuais a menos que as operações concedidas
a pessoas jurídicas.
Carteira de Crédito -2006
53%
47%
PF
PJ
GRÁFICO 2: Carteira de operações de crédito – dez/2006
Fonte: adaptado de Banco Central do Brasil.
20
Apesar de a expansão das operações de crédito no Brasil ser abrangente em vários
segmentos da economia, sendo explicada, principalmente, pelo aumento do crédito para
pessoas físicas, o volume de crédito como proporção do nível de Produto Interno Bruto (PIB)
tem-se mostrado muito baixo, numa perspectiva internacional.
O Banco Central apurou a relação crédito/PIB5, no ano 2007, em 36,5%, nível muito
baixo se comparado a outros países, tanto desenvolvidos como em desenvolvimento. O
gráfico 3 mostra a evolução do crédito em relação ao PIB entre 1994 e 2007, evidenciando
uma queda e recente recuperação da participação do crédito.
% participação
Participação do crédito no PIB
40,00%
35,00%
30,00%
25,00%
20,00%
15,00%
10,00%
5,00%
0,00%
36,40%
1994
36,50%
35,80%
31,00% 28,70%
95
96
97
98
29,70% 26,90%27,80%
99
2000
01
31,00%
26,60%
23,90%
02
25,80%
03
04
30,70%
26,00%
05
06
07
ANO
GRÁFICO 3: Evolução da relação crédito/PIB no Brasil
Fonte: adaptado de Banco Central do Brasil.
O gráfico 4 mostra a relação crédito/PIB de vários países em 2006. O Chile apresentou
uma relação crédito/PIB de 70%, ainda assim considerada baixa em relação a países
desenvolvidos como EUA, com 146%, e Alemanha, com 120%.
GRÁFICO 4: Crédito em relação PIB no mundo – mai/2007
Fonte: Banco do Brasil.
5
A experiência internacional sugere uma relação causal entre desenvolvimento financeiro e crescimento
econômico. Um trabalho interessante, citado por Andrezo e Lima (1999), foi realizado por King e Levine.
21
Apesar do desenvolvimento financeiro do Brasil ser considerável nos últimos anos, há
amplas evidências empíricas e suporte teórico considerável que sugerem que o nível de
crescimento do crédito ainda é muito baixo no País.
b) Críticas da aplicação da análise discriminante em modelos de credit scoring.
A análise discriminante tem, em modelos de credit scoring, uma de suas aplicações
mais difíceis de serem implementadas. Isso acontece por dois motivos:
•
a amostra disponível é composta por supostos bons pagadores, isto é, clientes que foram
considerados pelo analista de crédito como bons pagadores e, portanto, merecedores de
crédito. A população de maus clientes para o modelo é criada, basicamente, a partir dos
erros do analista, ou seja, clientes que tiveram o crédito e não o honraram;
•
a análise é feita considerando três tipos de variáveis (binárias, contínuas e discretas),
apesar de, na literatura, modelos que consideram três tipos de variáveis conjuntamente
serem pouco explorados. Entretanto, Caouette, Altman e Narayanan (1999) afirmam que a
análise discriminante tem sido freqüentemente aplicada em modelos de credit scoring.
Um modelo alternativo seria o de Krzanowski, denominado, em inglês, de location model,
introduzido por Olkin e Tate (1961) e utilizado em análise discriminante inicialmente por
Chang e Afifi (1974). Posteriormente, Krzanowski (1975, 1980, 1982, 1986) escreveu
diversos artigos que demonstram viabilidade a sua aplicação – daí muitos pesquisadores
nomearem esse método com o seu nome. Em credit scoring, modelos que utilizam outros
métodos quantitativos, além da análise discriminante, são objetos de contínua
investigação, sempre visando à melhoria das decisões de crédito, apesar de alguns
pesquisadores, como Sanda (1990), acreditarem que não existe um método que seja
sempre melhor que os demais. A EQUIFAX, conforme relatado por Adriano Blatt6,
apresenta a técnica de análise matemática que melhor se adapta às necessidades das
empresas na área de risco: a análise discriminante aplicada às decisões de crédito
(EQUIFAX, 2007). Dessa forma, neste trabalho serão usadas técnicas sofisticadas capazes
de amenizar os problemas de violações de pressuposições da análise discriminante, o que,
conseqüentemente, tornará o modelo de score mais eficiente.
O presente trabalho justifica-se então por tratar de um tema de fundamental
importância para as empresas que trabalham com crédito a pessoas físicas, pois, além de
6
É o autor brasileiro com maior quantidade de livros publicados versando sobre o tema.
22
oferecer uma metodologia alternativa de credit scoring que permitirá ampliar o nível de
concessão de crédito, resguardando a relação risco/retorno7, propõe a aplicação de técnicas
sofisticadas em estatísticas que viabilizam a aplicação da análise discriminante, mesmo
quando as pressuposições necessárias à correta discriminação dos dados são violadas.
1.2
Problema
As instituições financeiras captam e administram recursos de terceiros com o objetivo
de maximizar o lucro. Entretanto, alguns administradores são mais agressivos que outros e,
por isso, algumas empresas são mais propensas à utilização de dívidas para sua alavancagem
financeira.
Gitman (2001) define risco no sentido mais básico como sendo a chance de perda
financeira. Ele explica ainda que os administradores geralmente procuram evitar o risco, com
tendência a serem conservadores em vez de agressivos ao aceitarem-no.
Bernstein (2000) cita que, quanto à etimologia, a palavra risco vem do italiano antigo
risicare, que significa “ousar”, sendo portanto “uma opção e não um destino”. E continua: “a
capacidade de administrar riscos e com ela a vontade de correr riscos e fazer opções ousadas
são elementos chaves da energia que impulsiona o sistema econômico”.
Entende-se por risco exposição à sorte ou perigo. Os chineses têm uma definição
melhor: para representar riscos eles combinam dois símbolos, o de “perigo” e o de
“oportunidade”. Cada investidor tem de fazer uma análise de custo-benefício entre
as recompensas que potencialmente vêm com as oportunidades e os riscos
decorrentes do perigo. (BERNSTEIN, 2000, p.62).
Os modelos de credit scoring tradicionais inibem a ação da gestão de risco, tirando do
gestor as opções de decisões agressivas. Além disso, apesar de a análise discriminante ser
freqüentemente utilizada em modelos de credit scoring tradicionais, se não houver estratégias
eficazes capazes de amenizar ou resolver os problemas de violações, pode-se ter um modelo
impreciso.
7
Administradores financeiros geralmente tendem a ser conservadores em vez de agressivos ao aceitarem riscos,
ou seja, para certo aumento no risco, eles exigem um aumento no retorno.
23
Segundo Groppel e Nikbakht (1999, apud SOETHE, 2004, p.14), “risco e retorno são
a base sobre a qual são tomadas decisões racionais e inteligentes de investimento”. Assim, na
maioria dos casos, o sucesso das instituições financeiras encontra-se diretamente associado ao
potencial de mensurar seu ambiente de risco e usufruir dos mecanismos de gerenciamento
e/ou monitoramento de tais operações.
Conquistar retornos mais expressivos sobre os investimentos realizados, seja pelos
proprietários ou pelos acionistas das empresas, tem sido o grande motivador da adoção de
estratégias mais arrojadas nos mercados competitivos.
Atualmente, o sistema brasileiro tem apresentado excesso de liquidez, segundo afirma
Carneiro (2007). Essa liquidez é gerada, principalmente, por investimentos externos que, de
acordo com as informações do Banco Central, no ano de 2003 somavam US$ 10,1 bilhões,
apresentando recorde ao somar US$ 34,616 bilhões em 2007. Diante disso, os bancos têm
aumentado o nível de alavancagem, sendo, conseqüentemente, induzidos a trabalhar com uma
menor aversão ao risco. Um bom exemplo disso é apresentado no Diário do Comércio,
explicado por Lisboa, analista de bancos da agência Moody’s:
A qualidade das carteiras pode variar de acordo com as garantias exigidas pelos
bancos. Com a competição, algumas instituições tendem a ser mais agressivas e
diminuir o volume de créditos como garantia, precisando realocá-los para uma
classificação de risco maior (o que vai além da classificação AA a C), explica
Lisboa. Ela aponta o Santander como um exemplo de banco que teve uma mudança
de mix de carteira. “O banco ficou mais agressivo no varejo, o que imputa um risco
maior, principalmente quando se refere a cartão de crédito e crédito pessoal”.
(DIÁRIO DO COMÉRCIO, 2008)
Se os bancos não estiverem preparados, porém, a agressividade na concessão de
crédito pode contribuir para a sua fragilização e até mesmo quebra.
Diante dessas perspectivas, o problema da pesquisa relaciona-se com o tratamento dos
dados e a viabilização da inclusão de um terceiro grupo, chamado “intermediário”, em credit
scoring; pergunta-se então: é possível a construção de um modelo funcional8, usando
análise discriminante, capaz de controlar a inadimplência e ao mesmo tempo contribuir
para a ampliação da concessão de crédito além do estabelecido pelos modelos
tradicionais de credit scoring?
8
Na literatura de credit scoring, não é apresentada a proporção mínima de acertos considerada aceitável à
construção do modelo. Uma exceção é encontrada em Caouette, Altman e Narayanan (1999), que consideram o
modelo funcional, se apresentar uma taxa de sucesso superior a 80%. Em Rêgo (2004), é afirmado que, em um
modelo discriminante, um percentual de classificação inferior a 60% indicaria sua fragilidade.
24
1.3
Objetivos
1.3.1 Objetivo geral
O objetivo principal deste trabalho é a construção de uma metodologia alternativa à
linha tradicional de credit scoring, usando análise discriminante para o segmento de pessoas
físicas no Brasil, capaz de atender aos administradores com perfis agressivos ou
conservadores, de acordo com a disposição para correr mais ou menos riscos.
1.3.2 Objetivos específicos
•
Classificar clientes de uma instituição financeira em um dos três grupos
previamente definidos: “bom”, “intermediário” ou “ruim”.
•
Utilizar técnicas que viabilizem a utilização da análise discriminante, mesmo que
as pressuposições sejam violadas.
25
2. REFERENCIAL TEÓRICO DOS MODELOS DE CREDIT SCORING
2.1
Surgimento dos modelos de credit scoring
No desenvolvimento de suas atividades, as empresas expõem-se a diferentes tipos de
risco, os quais podem acarretar grandes perdas, devendo, portanto, ser monitorados
cuidadosamente. Diante disso, há a necessidade de que as empresas e as instituições
financeiras, especialmente, possuam sofisticados sistemas de gestão de riscos.
A escolha dos proponentes que receberiam crédito era, até meados do século XX,
baseada exclusivamente no julgamento de um ou mais analistas. O conhecimento
especializado dessa pessoa, seu julgamento subjetivo e sua atribuição de peso a certos fatoreschave eram determinantes na decisão de conceder ou não crédito em um sistema especialista,
conforme afirma Saunders (2000). Entretanto, um especialista está sujeito a pré-julgamentos,
que maximizam as chances de decisões equivocadas na concessão do crédito. Além disso, o
analista humano não é capaz de verificar de forma rápida e eficiente uma grande quantidade
de informações. Em virtude disso, a aprovação de um pedido de crédito era subjetiva. Em
uma mesma instituição, uma solicitação poderia ou não ser aprovada, dependendo do analista
que julgasse o pedido. Devido a essas limitações, às pressões econômicas decorrentes da
elevada demanda por crédito, à grande competição comercial e ao surgimento de novas
tecnologias computacionais, fez-se necessário o desenvolvimento de modelos estatísticos
sofisticados que requeressem pouca ou nenhuma intervenção humana para melhorar o
desempenho no processo de avaliação de crédito.
Fisher (1936) desenvolveu a análise discriminante, técnica estatística de análise
multivariada, a qual, a partir das características disponíveis de um indivíduo, cria uma regra
de classificação, que permite inferir a população à qual ele pertence. Isso permitiu o
desenvolvimento dos primeiros modelos de credit scoring. Diante da maior agilidade, menor
custo e maior objetividade na decisão, os modelos de credit scoring foram aos poucos se
popularizando, sendo atualmente muito utilizados, de acordo com Thomas, citado por Soethe
(2004, p.82).
Essa idéia de distinção entre os grupos de uma população foi introduzida por
Fisher (1936), que procurou diferenciar duas variedades de íris pela mensuração
do porte das plantas e distinguir a origem de crânios por meio de suas dimensões
26
físicas. David Durand (1941) foi o primeiro a reconhecer que as mesmas técnicas
poderiam ser usadas para diferenciar os bons empréstimos dos maus.
A popularização dos sistemas de credit scoring, no entanto, só ocorreu a partir da
década de 1960. A chegada dos cartões de crédito nessa época, explica Thomas, citado por
Amorim Neto e Carmona (2004), fez com que os bancos intensificassem o uso de credit
scoring. O número crescente de pessoas que solicitavam cartão de crédito tornou
economicamente impossível ter mão-de-obra suficiente para decisões de empréstimos que não
fossem automatizados.
Na década de 1980, o sucesso do credit scoring para cartões de crédito fez com que os
bancos passassem a aplicar o escore a outros produtos, como crédito pessoal, chegando, nos
últimos anos, a empréstimos imobiliários e pequenos financiamentos a pessoas jurídicas.
O sistema de escore, segundo informa Guimarães, citado por Soethe (2004, p.84),
[...] teria surgido na década de 70, nos Estados Unidos, difundindo-se, a partir de
então, em países europeus e asiáticos na década de 80. A implantação dos
primeiros sistemas inteiramente desenvolvidos no Brasil começou a surgir em 1982,
por filiais das empresas norte-americanas de cartão de crédito.
2.2
Difusão dos modelos de credit scoring no Brasil
O sistema financeiro brasileiro teve um crescimento significativo no final da década de
1980, em razão do contexto de inflação elevada. Os ganhos do sistema financeiro não
decorriam das operações de crédito, mas, basicamente, do “ganho inflacionário”.1 A inflação
permite aos bancos a obtenção de um rendimento específico, decorrente da perda de valor real
dos recursos neles depositados sem remuneração. Os bancos não pagam aos titulares desses
recursos um rendimento que compense a corrosão do seu valor pela inflação, mas incluem
essa compensação na taxa cobrada pelo tomador dos empréstimos por eles financiados e se
apropriam da diferença.
Além dos ganhos inflacionários, a taxa de aplicação de recursos não remunerados
inclui os ganhos de float2 (flutuação).
1
As receitas inflacionárias dos bancos no Brasil caíram da média de 4% do PIB, entre 1990 e 1993, para 2% em
1994 e zero em 1995 (IBGE, 1997, p.44).
2
Tempo entre o recebimento e a disponibilizarão do recurso.
27
O Ministro da Economia do governo Itamar Franco, Fernando Henrique Cardoso,
implementou, em junho de 1994, um plano econômico de estabilização denominado Plano
Real. Esse plano provocou impactos profundos na estrutura e no funcionamento dos bancos
no Brasil, os quais tiveram de se adaptar ao fim das receitas inflacionárias, readaptar sua
estrutura administrativa, reduzir custos e procurar novas fontes de receitas.
A partir da implementação do Plano Real, os bancos já se preparavam para a
perspectiva de queda da inflação, ampliando de imediato o crédito3, para não ter que fazê-lo
sob as previsíveis restrições da fase inicial de um futuro programa de estabilização.
O forte aumento dos empréstimos indicava que os grandes bancos estavam em
condições de reagir com rapidez a restrições e mudanças nas expectativas, bem como de se
preparar para alterações profundas do quadro econômico, como a queda da inflação. Para
alguns bancos, o cenário oferecia oportunidade para melhorar suas posições de mercado à
custa dos riscos de expandir o crédito com agressividade. Segundo Carvalho e Oliveira (2002,
p.74), estratégias dessa natureza contribuíram para a fragilização e quebra de bancos que não
detinham condições patrimoniais e de mercado para enfrentar um desafio dessa natureza,
como o Nacional e o Bamerindus:
Para Barros e Almeida Jr. (1997, p.93-95), “uma das formas encontradas pelo
sistema bancário para compensar a perda da receita inflacionária [...] foi expandir
as operações de crédito [...] sem os devidos cuidados quanto à capacidade de
pagamento dos novos e antigos devedores. [...] O grande problema em períodos de
expansão rápida dos créditos é o aumento da vulnerabilidade das instituições
financeiras. [...] são momentos de expansão macroeconômica, quando os devedores
estão transitoriamente com folga de liquidez, dificultando, assim, uma análise de
risco mais rigorosa por parte dos bancos”.
Com o Plano Real, o fim da inflação elevada reduziu substancialmente os ganhos
inflacionados apropriados pelos bancos. Contudo, logo após a queda da inflação, no segundo
semestre de 1994, a rentabilidade média dos bancos não se afastou do padrão usual. Esse
desempenho surpreendente não contrariou a convicção de que a inflação alta representava
uma poderosa fonte de lucros para o setor bancário do País. Contudo, três fatores explicam o
“bom” desempenho da maior parte dos bancos: cobrança de serviços, ganhos em operações
com moeda estrangeira e crescimento da receita gerada pelo aumento do volume de operações
de crédito.
3
O forte aumento do crédito antes de julho de 1994 é quase sempre ignorado nas análises sobre os problemas no
sistema bancário no Plano Real. Uma exceção é Soares (2001).
28
Apesar do bom desempenho dos bancos após a queda da inflação, o aumento
generalizado e intenso do crédito elevou a inadimplência a patamares nunca vistos. Segundo
Gremaud, Vasconcellos e Toneto (2005), os bancos estavam despreparados para a concessão
de crédito. No período de inflação elevada, o carregamento de títulos públicos fez com que
eles perdessem a expertise nessa concessão, dificultando, por exemplo, a seleção e a análise
de risco. Enquanto a economia está em expansão, esse problema é minorado, pois o
crescimento do emprego, do salário real e dos lucros faz com que os recursos retornem com
certa facilidade aos bancos, gerando otimismo e ampliação da concessão de crédito por causa
da baixa percepção de risco. Contudo, o problema é evidenciado quando se tem uma reversão
na economia.
Com a crise mexicana, no início de 19954, verificou-se uma grande reversão no
comportamento da atividade econômica, a qual provocou elevação na taxa de inadimplência.
Com isso, vários bancos passaram a apresentar prejuízos e mostraram-se insolventes. No setor
privado, os primeiros grandes bancos a sentirem dificuldades foram o Nacional e o
Econômico; no público, destacam-se o Banco do Brasil, o BANERJ e o Banespa.
Foi somente a partir do processo de flexibilização da política monetária, aliado à
diminuição da desconfiança dos agentes econômicos em relação à regionalização da crise
mexicana (1994-95), que foi possível a retomada do processo de redução das taxas básicas de
juros e o alívio das expectativas pessimistas dos agentes quanto ao comportamento futuro da
economia, iniciando-se queda pronunciada das margens cobradas pelos bancos em suas
operações de empréstimos, conforme gráfico 5.
GRÁFICO 5: Spread bancário absoluto no Brasil
Fonte: Banco Central do Brasil, 2006.
4
Gerada pelo excesso de dívida interna e externa com pedido de moratória.
29
As tendências de queda iniciadas em fins de 1995 e início de 1998, em particular,
foram revertidas em razão de mudanças repentinas do nível geral de expectativas dos agentes,
em reflexo às crises asiática (1997)5 e brasileira (1999)6, respectivamente.
Baseado no “Relatório de juros e spread bancário”, de 1999, a inadimplência é o custo
que mais onera o spread. Em termos médios, ela representa 35% desse spread no período
mai-jul/1999. Apesar dessa queda desde a implantação do Plano Real, conforme gráfico 5, o
spread bancário ainda permanece em níveis muito elevados. Essa elevada diferença entre as
taxas de captação e aplicação de recursos afeta desfavoravelmente o processo de
intermediação financeira, minimizando o crescimento da economia.
Na fase pós-real, a inflação caiu, o ambiente econômico tornou-se mais estável e
previsível, mas a equação básica do crescimento não foi solucionada. Como a
capacidade instalada não cresceu o quanto deveria, qualquer movimento de
crescimento de consumo foi abortado por medidas de restrição ao crédito, elevação
dos juros e aumento dos empréstimos compulsórios, de forma que o crescimento
tornou-se um subproduto, não o objetivo principal da política econômica.
(LACERDA et al., 2005, p.234)
Com o fim da alta inflação, é fundamental que técnicas sejam criadas para a
maximização dos resultados. Minimização das perdas, agilidade na decisão e redução de
custos passam a ser vitais para o sucesso das instituições financeiras.
Os regulamentadores aprovam modelos bem projetados e baseados em estatísticas.
Uma instituição é capaz de proporcionar melhor serviço ao consumidor pela sua
habilidade de aprovar ou negar um pedido de empréstimos rapidamente. Esse é um
fator importante no mundo de mudanças rápidas como o atual. (CAOUETTE,
ALTMAN e NARAYANAN, 1999, p.189)
Diante dessas perspectivas, houve maior interesse por modelos de credit scoring no
Brasil. Tais modelos impulsionam o volume de vendas e promovem a concessão de linhas de
crédito a partir de informações sobre o comportamento dos clientes, garantindo assim o
aumento do volume de crédito sem aumento de risco e comprometimento de receitas.
5
6
Gerada pela elevação do preço de imóveis e redução de investimentos externos pelo Japão.
Gerada pela política de câmbio fixo que aumentou a importação e comprometeu o nível das reservas.
30
2.3
Vantagens e desvantagens dos modelos de credit scoring tradicionais
Sobre as vantagens relativas ao uso dos modelos de credit scoring, Caouette, Altman e
Narayanan dizem:
Os modelos de credit scoring oferecem muitas vantagens. São objetivos e
consistentes, características desejáveis para qualquer instituição, especialmente
para aquelas que não possuem uma forte cultura de crédito. Se desenvolvidos
apropriadamente, eles podem eliminar práticas discriminatórias nos empréstimos.
Eles tendem a ser relativamente inexpressivos, bastante simples e de fácil
interpretação. A instalação de tais modelos é relativamente fácil. As metodologias
usadas para construir esses modelos são comuns e bem entendidas, assim como as
abordagens usadas para avaliá-los. Os regulamentadores aprovam modelos bem
projetados e baseados em estatísticas. Uma instituição é capaz de proporcionar
melhor serviço ao consumidor pela sua habilidade de aprovar ou negar um pedido
de empréstimo rapidamente. (CAOUETTE, ALTMAN e NARAYANAN, 1999,
p.188)
Outras grandes contribuições dos modelos de credit scoring estão relacionadas com a
redução do quadro de funcionários ligados ao processo de análise de crédito, o que,
conseqüentemente, promove a redução de custos e do tempo de aprovação, bem como a
otimização do processo de análise de crédito, com aumento da qualidade da carteira.
Silva, citado por Amorim Neto e Carmona (2004, p.6), afirma:
A agilidade que o banco ou empresa que concede crédito ganha é altamente valiosa,
pois ao invés dos analistas ficarem examinando e concluindo sobre cada um dos
índices, poderão dedicar seus tempos a outros assuntos relevantes e que não
possam ser sistematizados.
Apesar das diversas vantagens citadas, os modelos de credit scoring possuem também
diversas limitações, sobre algumas das quais Caouette, Altman e Narayanan dizem:
Esses modelos apresentam alguns defeitos. Na maior parte dos casos, eles
simplesmente automatizam as práticas de crédito prevalecentes dos bancos. Em
outras palavras, eles pouco ajudam a eliminar as distorções históricas de seleção
de uma instituição. Além disso, se as variáveis não satisfazem presunções
subjacentes, como a distribuição normal multivariada, a validade estatística dos
modelos pode ser questionável. São muito comuns os testes estatísticos usados para
ajustar esses modelos serem fracos e confundirem o usuário, superestimando sua
eficácia. (CAOUETTE, ALTMAN e NARAYANAN, 1999, p.189).
Caouette, Altman e Narayanan (1999) também destacam que um modelo de credit
scoring pode degradar-se pelo tempo, se a população na qual ele é aplicado diverge da
população original, usada para construir o modelo.
31
3. METODOLOGIA
3.1
Análise discriminante
Segundo Johnson e Wicthen (2002), análise discriminante é uma técnica multivariada
concernente com a separação de conjuntos distintos de objetos (ou observações) e com a
alocação de novos objetos (observações) para previamente definir grupos.
Hair (1998) afirma que a análise discriminante envolve a busca de uma combinação
linear de duas ou mais variáveis independentes que melhor farão a classificação entre grupos
previamente definidos. A discriminação será obtida a partir da determinação dos fatores ou
pesos para cada variável, de modo que a variância entre os grupos seja maximizada em
relação à intragrupos.
Mingoti (2005) complementa essa definição, explicando que o objetivo da análise
discriminante é construir uma regra de classificação que minimize o número de classificações
incorretas.
3.1.1 Problema
O problema da análise discriminante é a ocorrência de mistura entre as observações
dos grupos. A figura 2 mostra um problema de classificação com duas variáveis, X1 e X2, por
exemplo, envolvendo dois grupos de observações formados segundo um determinado critério,
no qual as observações de números 3, 8, 16 e 23 apresentaram erros de classificação –
misclassification.
FIGURA 2: Problema de classificação
32
Em outras palavras, a figura mostra que existe um vetor
α
que classifica corretamente
todas as observações, exceto 3, 8, 16 e 23, classificadas incorretamente, ou seja, em outra
população.
3.1.2 Premissas
•
As variáveis são identificadas como as mais importantes.
O método de análise discriminante considera a informação de cada variável e as
combina, de modo a obter a discriminação entre grupos. Contudo, podem existir
variáveis que não contribuam para essa discriminação, devendo, nesse caso, ser
eliminadas.
•
Normalidade das variáveis dependentes.
A falta de normalidade nas observações das variáveis independentes prejudica a
eficiência do modelo de análise discriminante. Para contornar isso, é apresentada,
na seção 3.6, uma técnica que dará mais robustez ao modelo, caso a premissa de
normalidade não seja atendida.
•
Matrizes de covariância iguais (homocedasticidade).
Uma das exigências da análise discriminante linear é que as matrizes de
covariância sejam iguais, sob o risco de o poder de precisão do modelo ser
comprometido. Contudo, quando a homocedasticidade não é atendida, uma
alternativa é aplicar a análise discriminante quadrática.1
•
Ausência de pontos influentes.
Os pontos influentes são aquelas observações que exercem grande influência na
determinação dos coeficientes do modelo. A existência de tais observações pode
comprometer o poder de precisão do modelo. Uma melhor explicação é
apresentada neste trabalho, na seção 3.5.4.
1
Um estudo sobre técnicas de regularização da matriz de covariância é apresentado por Erbert e Haertel (2003).
33
3.2
Função discriminante linear de Fisher
Fisher (1936) introduziu a idéia de se construírem funções discriminantes a partir de
combinações lineares das variáveis originais. O método envolve a suposição de que há pvariáveis aleatórias, g populações normais p-variadas e iguais matrizes de covariâncias
populacionais. Nesse caso, é possível construir s combinações lineares, s ≤ min ( g − 1, p ) ,
chamadas funções discriminantes lineares de Fisher, definidas por
Yˆj = eˆ'j X P×1 , j = 1,2,..., s
(1)
em que eˆ′j é o j-ésimo autovetor correspondente ao j-ésimo maior autovalor da matriz W −1 B
e tal que eˆ′j W eˆ j = 1, sendo W e B chamadas de matrizes soma de quadrados e produtos
cruzados dentro (within) dos grupos e entre (between) grupos, sendo respectivamente
definidas por
g
ni
W p× p = ∑∑ ( X ik − X i )( X ik − X i ) '
(2)
i =1 k =1
g
B p× p = ∑ ni ( X i − X )( X i − X ) '
(3)
i =1
sendo X ik o vetor de observações do elemento amostral k que pertence à população i, X i o
vetor de médias amostrais da população i, X o vetor de médias amostrais, considerando-se
todas as n observações conjuntamente, e ni o número de elementos pertencentes à amostra da
g
população i , i = 1,2,3..., g ,
∑n
i
= n. As combinações lineares (1) são as de maior poder
i =1
discriminante dentro do conjunto de variáveis utilizadas para discriminação.
A primeira função discriminante é a relacionada com o maior autovalor da matriz
W −1 B e tem o maior poder de discriminação. A segunda função discriminante é relacionada
com o segundo maior autovalor de W −1 B e tem um poder de discriminação menor do que a
primeira e maior do que a terceira, e assim sucessivamente.
Após a construção das funções discriminantes para cada elemento amostral com vetor
de observações x j , ter-se-á um vetor com os seus escores nessas funções, isto é,
34
Yˆj′ = [ eˆ1′x j eˆ2′ x j ... eˆs′ x j ]. Além disso, ter-se-á os escores das funções discriminantes aplicadas
aos
vetores
de
média
amostral
observados
para
cada
população,
isto
é,
Yi′ = [eˆ1′xi eˆ2′ xi ... eˆs′ xi ], i = 1, 2..., g .
A regra de classificação consiste em calcular a distância euclidiana entre os vetores
Yˆ j e Yˆi para todo i = 1,2,3..., g, sendo o correspondente elemento amostral j classificado na
população cuja distância é a menor.
3.3
Função discriminante quadrática
Quando as matrizes de covariâncias Σ i são diferentes, uma função discriminante
quadrática é apropriada. A função é dada por por Johnson e Wichern (2002, p.497):
1
1
T
d iQ ( x ) = − ln ∑i − ( x − µi ) ∑i−1 ( x − µi ) + ln pi , i = 1,2,..., g
2
2
(4)
em que
µ
i
= vetor médio da população ∏i .
Σi = matriz de covariâncias da população ∏i .
pi = probabilidade a priori de a observação pertencer à população ∏i .
x = vetor aleatório.
A regra de classificação consiste em alocar x em ∏ k se
d kQ ( x ) = maior de d1Q ( x ) , d 2Q ( x ) ,..., d gQ ( x )
(5)
em que d iQ ( x ) é dado em (4).
35
3.4
Robustez da função discriminante linear e quadrática
Seber (1984) diz que, quando as matrizes de covariância são diferentes, a função
discriminante quadrática é melhor. Outro fato importante é que a “função discriminante
quadrática tolera brandamente a não normalidade”. (CLARKE et al. apud SEBER, 1984,
p.299).
Mingoti (2005) diz que, apesar de existirem testes de hipóteses que podem ser usados
para decidir se as matrizes de covariâncias são iguais ou diferentes entre si, uma alternativa
mais prática é aquela em que os dois modelos – linear e quadrático – são ajustados aos dados
analisados, ficando-se, no final, com o que resultar em menores proporções de erros de
classificação.
Seber (1984), no entanto, apresenta algumas recomendações na escolha entre a função
discriminante linear e quadrática com dados normais:
a) para pequenas diferenças entre as matrizes de covariância e g ≤ 6 , não há uma escolha
comum na preferência entre a função discriminante linear e quadrática;
b) para pequenas amostras (n1, n2 < 25) e diferentes matrizes de covariâncias e/ou g grande, a
função discriminante linear é preferível;
c) para grandes diferenças entre as matrizes de covariâncias e g > 6, a função discriminante
quadrática é melhor que a função discriminante linear, desde que o tamanho das amostras
seja suficiente. O tamanho das amostras recomendado é g = 4, n1 = n2 = 25, e 25
observações adicionais para cada duas dimensões, por exemplo, g = 6, 8, 10 e n1 = n2 = 50,
75, 100. Para mais de cem observações, os resultados a favor da função discriminante
quadrática são alcançados regularmente.
3.5
Métodos de verificação das premissas da análise discriminante
Nesta seção são apresentados os métodos mais utilizados para verificação das
premissas da análise discriminante, não sendo, portanto, objetivo deste trabalho citar todos
eles.
36
3.5.1 Método stepwise
Mingoti (2005) afirma que, quando se considera a utilização da análise discriminante,
é essencial haver medido, nos elementos amostrais, variáveis que possam realmente distinguir
as populações; caso contrário, a qualidade de ajuste da regra de discriminação estará
comprometida.
Montgomery et al., citado por Mingoti (2005), diz que os métodos de seleção de
variáveis como os utilizados em análise de regressão podem ser empregados na escolha
daquelas mais importantes para a discriminação. Dillon e Goldstein (1984) afirmam que a
prática mais comum para a seleção de variáveis é o método stepwise, que permite determinar
as variáveis que devem entrar na função discriminante. A seguir, é descrito o método
stepwise, encontrado em Chatterjee e Price (1991) e Manly (1986).
Dentre os muitos critérios de seleção disponíveis, alguns algoritmos stepwise utilizam
o valor F para selecionar variáveis com maior poder de discriminação. O valor de F obtido a
cada seleção de variáveis é chamado de valor F parcial. Em cada estágio, as variáveis dão
entrada, uma a uma, de acordo com o valor F parcial. No primeiro passo do algoritmo, uma
comparação é feita através de análise de variância entre os diversos grupos que estão sendo
considerados com respeito a cada variável separadamente. Aquelas com valores da estatística
F mais significativos estão relacionadas às variáveis mais importantes para a discriminação
dos grupos. Dentre as significativas, dá entrada no modelo a de maior significância, ou seja, a
de maior poder para discriminação dos grupos. A partir do segundo passo, os F parciais de
entrada são calculados levando-se em consideração apenas as variáveis que já entraram e
permaneceram no modelo nos passos anteriores. Os valores calculados de F parciais, para as
variáveis candidatas a entrar, são comparados com um valor F de referência escolhido a
priori, o que determina a entrada ou não da variável.
3.5.2 Normalidade multivariada
Anderson, citado por Mingoti (2005), diz que o fato de se demonstrar que todas as
distribuições univariadas são normais não implica necessariamente que o vetor aleatório X
37
tem distribuição normal multivariada. Entretanto, Mingoti (2005) diz que, na prática, quando
as distribuições são normais, é grande a chance de se estar com um vetor normal multivariado.
Um gráfico que pode auxiliar na verificação de normalidade multivariada é o de
probabilidade qui-quadrado. Pela teoria da distribuição normal multivariada, tem-se que,
quando o número de elementos amostrais n é grande, a distância de Mahalanobis
d j2 = ( X j − X )' ∑ −p1× p ( X j − X ) , j = 1,2,..., n
(6)
tem aproximadamente uma distribuição qui-quadrado com p graus de liberdade, onde
X j representa os valores observados das p-variáveis do j-ésimo elemento amostral, X é o
vetor de médias amostrais e Σ p×× p é a matriz de covariância amostral definida por
∑ p× p
 σ 11 … σ 1 p 


= 
σ

 p1 σ pp 
(7)
Portanto, é possível comparar os valores das distâncias d j2 com as respectivas
ordenadas dos percentis da distribuição qui-quadrado, o que dá origem ao chamado gráfico
qui-quadrado (Q-Q plot).2
Quando a normalidade p-variada é coerente com os dados amostrais, o gráfico deve
resultar em algo próximo a uma reta. Curvas diferentes da reta indicam falta de normalidade.
Esse gráfico também é útil para a identificação de valores discrepantes (outliers)
multivariados.
Um último procedimento que pode ser usado para detecção de normalidade
multivariada está relacionado aos testes de hipóteses propostos por Mardia (1970, 1974,
3
'
1975), fundamentados nos coeficientes de assimetria β1p = ε  ( X − µ ) Σ −1 (Y − µ  e curtose


{
}
2
β 2p = ε ( X − µ ) Σ −1 ( X − µ ) , para uma distribuição p-variada qualquer, visando definir os
'
valores hipotéticos sob normalidade.
2
Para o leitor interessado, os passos de construção são apresentados em Mingoti (2005).
38
Se X1 ,X 2 ,...,X n são amostras aleatórias normais multivariadas de tamanho n no
'
espaço p-dimensional, o vetor aleatório X j =  X j1 , X j2 ,..., X jp  de dimensões p × 1 tem
densidade normal multivariada dada por:
f ( x ) = (2π )− p/2 Σ
−1/ 2
 1

exp - ( x − µ ) 
 2

(8)
em que
Σ é matriz de covariância e
µ é o vetor de médias p × 1 populacionais.
Assim, sob a hipótese nula de normalidade multivariada, os coeficientes de assimetria
e curtose correspondem a β1 p = 0 e β 2 p = p( p + 2), podendo ser estimados utilizando os
seguintes estimadores:
βˆ1p =
n
1 n n 3
ˆ = 1 g2
g
β
e
∑∑ ij 2p n ∑
ii
n 2 i =1 j =1
i =1
(9)
em que
'
gij = ( X i − X ) S-1n (X j − X), X=
Sn =
1 n
∑Xj
n j =1
é
o
vetor
de
médias
amostrais
e
'
1 n
X j − X )( X j − X ) é o estimador enviesado de máxima verossimilhança da matriz
(
∑
n j =1
de covariância amostrais.
O passo seguinte é aplicar o teste de simetria, cuja estatística é dada por:
k1 =
nβˆ1p
6
(10)
k1 possui distribuição assintótica de qui-quadrado com p(p+1)(p+2)/6 graus de
liberdade sob a hipótese nula H 0 : β1p = 0.
Da mesma forma, será aplicado o teste para distribuição da curva normal; sua
estatística é dada por
39
k2 =
βˆ2p − p(p+2)
8p ( p+2 ) / n
(11)
k2 possui distribuição assintótica normal padrão sob a hipótese nula. Se na aplicação
dos testes a hipótese nula for rejeitada a um nível nominal α , a distribuição dos dados é
considerada não-normal.
Seber (1984) afirma que, caso haja violação da pressuposição de normalidade
multivariada, uma apropriada transformação pode freqüentemente produzir um conjunto de
dados que segue uma distribuição normal, aumentando a aplicabilidade e o uso de técnicas
baseadas nas suposições de normalidade.
Na seção 3.6, será apresentada a transformação de Box-Cox (1964), que poderá ser
aplicada, caso haja violação da normalidade multivariada dos dados.
3.5.3 Comparando matrizes de covariância
Nesta seção, serão abordados os testes da razão de verossimilhanças utilizados para
comparar a igualdade entre k-matrizes de covariâncias.
Seja a observação multivariada representada por X ij =(X ij1 ,...,X ijp ) t , com i=1,...,n j e
j=1,...,k, em que o valor k é igual ao número de populações, n j é o número de observações
da j-ésima população e p é o número de variáveis proveniente de uma distribuição normal
multivariada; N p (µ j ,Σ jj ), em que µ j =(µ j1 ,...,µ jp ) t representa o vetor de médias populacionais
desconhecidos e Σ jj , j=1,...,k, a j-ésima matriz de covariância populacional. Dessa forma, a
matriz de covariância particionada (13) é dada abaixo.
 Σ11 … Σ ij 


Σ= 
Σ Σ 
kk 
 ij
(12)
Considerando que a hipótese de interesse é definida por H 0 : Σ11 =...=Σ kk , e de acordo
com as especificações mencionadas acima, o vetor de médias µ j , j=1,...,k é desconhecido e
40
k
∑ n =N,
j
o estimador da matriz de somas de quadrados e produtos
j=1
(S ) ,
j
a soma dos
estimadores S j indicado por S t e o vetor de médias amostrais X j são definidos por
( )
ni
ni
k
t
S j = ∑ ( X ij -X j )( X ij -X j ) , S t = ∑ S j e X j =
i=1
∑X
i=1
nj
i=1
ij
.
(13)
Seja Θ o espaço paramétrico {µ1 ,...,µ k ; Σ11 ,...,Σ kk }, do qual se obtém um subconjunto
denominado espaço reduzido, definido sob H 0 e representado por ω = {µ1 ,..., µk , Σ}. As
funções de verossimilhanças são dadas por
L ( Θ|x ) = ( 2π )
L ( ω|x ) = ( 2π )
N
2
-
k
∏Σ
j
2

 nj
k
 1
-1 
x ij -µ j x ij -µ j
 - tr Σ j 
 2 j=1  i=1


∑
nj
e
∑(
)(

)
t 



(14)
j=1
N
2
Σ
N
2

 k nj
 1 -1 
x ij -µ j x ij -µ j
- trΣ 
 j=1 i=1
 2


∑∑ (
e
)(

)t 


(15)
Os valores máximos das funções de verossimilhanças no espaço paramétrico completo
e reduzido são dados por
max Θ L ( Θ ) = ( 2π )
max ω L(ω)=(2π)
-
N
2
N
2
Sj
k
∏n
j=1
St
N
-
N
2
-
nj
2
e
 1 
- N 
 2 
(16)
j
 1 
- N 

e 2
(17)
A rejeição da hipótese nula é dada quando λ ≤ c, em que c é uma constante requerida
de acordo com o tamanho do teste, normalmente conhecida como valor crítico, e λ é
denominado estatística do teste.
n j/2
 k

pN/2
S
N


∏ j
N

max ω L ( ω )  j=1
 ≤c
2
λ=Λ =
=
N/2
k
k
max Θ L ( Θ )
pn /2
S
∑ j ∏nj j
j=1
(18)
j=1
41
Sob a hipótese nula, a estatística do teste da razão de verossimilhanças (LRT) pode ser
reescrita por
LRT = -2logλ
(19)
e possui distribuição assintótica qui-quadrado com
p ( p+1)( k-1)
graus de liberdade.
2
A estatística do teste da razão de verossimilhanças descrita na expressão (19) pode ser
modificada, de modo que sua distribuição assintótica possa ser mais bem aproximada da
distribuição qui-quadrado. Nessas modificações propostas, nas quais f i (=n j -1) , os graus de
liberdade associados com S j levam a um teste não tendencioso, dado por
 k
M =  ∏ Sj
 j=1

f i /2
f
pf/2

 /

k
∑S j
j=1
f/2
k
∏f
i
pf i / 2
,
(20)
j=1
em que f = N-k .
Modificações propostas por diferentes autores implicam melhoria, principalmente para
o caso de amostras pequenas. Assim sendo, serão apresentadas duas aproximações devidas a
Box (1949) para a distribuição de M.
a) A distribuição qui-quadrado:
−2(1 − c1 )log M é aproximadamente χ v2 ,
1
(21)
em que
v1 =
1
p(p+1)(k-1) e
2
c1 =
(2p 2 +3d-1)(k+1)
se fi = f 0 , i=1,2,...,k.
6 ( d+1) kf 0
b) A aproximação F:
−2b log M é aproximadamente Fv1 ,v 2 ,
(22)
em que
v2 = ( v1 + 2) / c2 − c12 , b = [1 − c1 − ( v1 / v2 ] / v1 , e
42
c2 =
( p-1)( p+2 ) ( k 2 +k+1)
6k 2 f 02
se fi = f 0 , i=1,2,...,k.
3.5.4 Análise de diagnósticos
Um “outlier multivariado” é aquela observação que apresenta um “grande”
distanciamento das restantes no espaço p-dimensional definido por todas as variáveis. Seu
distanciamento em relação a essas observações é fundamental para a sua caracterização. Um
grande problema na identificação dos outliers surge pelo fato de que uma observação pode
não ser “atípica” em nenhuma das variáveis originais estudadas isoladamente e sê-lo na
análise multivariada, ou pode ainda ser outlier por não seguir a estrutura de correlação dos
restantes dados. É impossível detectar esse tipo de outlier observando cada uma das variáveis
originais isoladamente, em função do que se faz necessária a aplicação de técnicas mais
sofisticadas.
Por ser um tema de grande importância e interesse, o estudo de outliers ocupou e
continua a ocupar muitos investigadores das mais diversas áreas. A detecção de outliers em
amostras univariadas é um dos tópicos de extrema importância na literatura estatística. Menor
atenção, no entanto, foi dada aos outliers multivariados, tendo em vista que, quando se passa
para um conjunto de dados em que foram observadas não uma, mas p variáveis, há um
acréscimo significativo de dificuldades.
Chatterjee e Price (1991) afirmam que, desde os primórdios do estudo de outliers, o
modelo de regressão linear foi o contexto que monopolizou os trabalhos mais importantes.
Casualmente se descobriu que algumas observações exerciam grande influência na
determinação dos coeficientes de regressão do modelo. Tais observações passaram a ser
denominadas “observações influentes”. Até hoje na literatura nota-se que é muito comum
haver certa confusão entre essas observações e outliers; nem toda observação influente,
contudo, é um outlier e vice versa.
Foram desenvolvidas várias técnicas de diagnósticos com o objetivo de detectar
pontos de grande influência no modelo ajustado de regressão. Esses pontos têm geralmente
comportamento incomum entre o restante dos dados, podendo conter informações importantes
e indispensáveis para a análise dos dados em questão. Nesse sentido,
43
[...] existem várias técnicas de diagnóstico como, por exemplo, as técnicas
apresentadas por Belsley et al. (1980), Cook e Weisberg (1982), e por Cook (1986).
Pode-se citar, por exemplo, as medidas globais DFBETA, DFFITS e D-Cook.
(BELSLEY; COOK e WEISBERG; COOK apud RUSSO, 2006, p.71)
Encontra-se uma literatura variada sobre a identificação de outliers e observações
influentes em regressão nas duas últimas décadas, mas as correspondentes pesquisas em
análise discriminante são restritas. Em Critchley e Vitiello (1991) e Fung (1992) foram
propostas, independentemente, duas estatísticas em análise discriminante, di2 e Ψˆ i , das quais
dependem outras medidas de influência. Poon (2004) demonstra que pontos com grandes
valores de di2 e Ψˆ i podem não ser influentes em análise discriminante.
Na literatura são encontradas apenas duas abordagens para medida de diagnóstico em
análise de influência, a “omissão” e a “influência local”.
A omissão de pontos é a técnica mais conhecida para avaliar o impacto da retirada de
uma observação particular nas estimativas da regressão, sendo as medidas globais DFFITS,
D-Cook e Leverage exemplos disso. Essas técnicas consistem na exclusão de casos, ou seja,
em ajustar novamente o modelo proposto, desconsiderando uma das observações de cada vez,
para verificar as mudanças provocadas nos resultados das análises desse modelo. Entretanto,
Poon (2004) demonstrou que os pontos identificados como outliers multivariados pelo
método da omissão podem não ser influentes em análise discriminante; demonstrou, além
disso, que a técnica de influência local é conveniente e eficiente para diagnósticos em análise
discriminante.
A influência local apresentada por Cook (1986) é sem dúvida uma das propostas mais
modernas e inovadoras na área de diagnóstico em regressão. Essa técnica propõe avaliar a
influência conjunta das observações sob pequenas mudanças (perturbações) no modelo. A
idéia é que uma pequena perturbação pode produzir um grande efeito na análise, merecedor
de atenção adicional. Essa metodologia contou com a receptividade dos pesquisadores de
regressão, havendo inúmeras publicações no assunto em que é aplicada em classes
particulares de modelos ou em que se propõem extensões da técnica. Serão citadas algumas
delas.
Poon e Poon (1999) definem uma nova medida para detectar influência local. Verbeke
e Molenberghs (2000) aplicam a influência local a modelos mistos para dados longitudinais,
enquanto Zhu e Lee (2003) aplicam esquemas de perturbação a modelos lineares mistos
44
generalizados. Também podem ser citados os trabalhos de Fung e Kwan (1977), Paula (1993),
Dutra e Biazi (2007), entre outros.
A seguir são apresentados vários métodos desenvolvidos para detecção de observações
influentes em modelos de regressão, os quais serão utilizados, neste trabalho, com o objetivo
de detectar observações influentes em análise discriminante, dando maior ênfase à
metodologia de influência local, por ser ela considerada, na literatura, um método mais eficaz.
3.5.4.1 Diagonal da matriz H (Leverage)
Os elementos da matriz H são utilizados para detectar pontos extremos no espaço
designado. Esses pontos exercem um papel importante no ajuste final dos parâmetros de um
modelo estatístico. No modelo de regressão linear clássico, a matriz H é definida por
H = X ( X T X ) −1 X T ,
(23)
conhecida como matriz hat ou matriz de projeção da solução de mínimos quadrados. O
elemento hii
hii = xit ( X t X )−1 xi ,
(24)
pertence à diagonal da matriz H e desempenha um importante papel na construção de técnicas
de diagnósticos. Partindo do pressuposto de que todos os pontos exerçam a mesma influência
sobre os valores ajustados, pode-se esperar que hii esteja próximo de
(2004) diz que convém examinar os pontos hii ≥
tr ( H ) p
= . Paula
n
n
2p
, conhecidos como pontos de alavanca ou
n
de alto Leverage.
3.5.4.2 Resíduo de Pearson
O resíduo de Pearson para a i-ésima observação é definido como uma função do tipo
ri = r ( yi , µˆi ), cujo objetivo é medir a diferença entre os valores observados, yi , e os valores
45
ajustados, µˆi , da i-ésima observação. A definição mais usual é a de resíduo ordinário,
definido por
ri = yi − µˆi ,
(25)
3.5.4.3 Resíduo studentizado
Nos modelos de regressão normal linear, tem-se que ri ~ N (0,σ 2 ). Como os ri ' s têm
variâncias diferentes, é conveniente expressá-los de forma padronizada, com o intuito de
permitir uma compatibilidade entre eles. Assim podem-se obter os resíduos studentizados,
denotados por ti , dividindo-se cada ri pelo seu respectivo desvio padrão amostral
s(1 − hii )1/ 2 , em que s 2 = ∑ in=1
ti =
ri 2
é o estimador da variância σ 2 . Portanto,
n− p
ri
, i = 1,…, n.
s(1 − hii )1/ 2
(26)
Como ri não é independente de s 2 , ti não segue uma distribuição t de Student, como
se poderia esperar. Paula (2004) mostra que o problema da dependência entre ri e s 2 pode ser
contornado, substituindo s 2 por s(2i ) na expressão de ti anterior, em que s(2i ) é o erro
quadrático médio correspondente ao modelo sem a i-ésima observação, dado por
 n − p − ti2 
s =s 

 n − p −1 
2
(i)
2
(27)
Assim, o novo resíduo studentizado
1/ 2
 n − p −1 
t = ti 
2 
 n − p − ti 
*
i
,
(28)
segue uma distribuição tn − p−1 central.
46
3.5.4.4 Distância de Cook
A distância de Cook é uma estatística utilizada para quantificar o quão incomum é
uma observação, levando em consideração não somente as variáveis explicativas (como é o
caso dos pontos de alavanca), mas também seus resíduos. Essa medida de influência é dada
por
Di = ti2
hii 1
(1 − hii ) p
(29)
Cook e Weisberg (1999) afirmam que é conveniente analisar casos em que Di > 0,5 e
é sempre importante analisar casos em que Di > 1.
Portanto, Di será grande quando o i-ésimo ponto for influente (ti grande) e/ou quando
hii for próximo de um.
3.5.4.5 DFFITS
A estatística DFFITS combina as medidas Leverage e os resíduos studentizados para
fornecer uma estatística capaz de detectar observações que efetivamente influenciem os
parâmetros estimados, sendo definida por
1/ 2
 hii 
DFFITSi = t 

 (1 − hii ) 
*
I
.
(30)
Uma regra razoável para considerar uma observação influente é dar mais atenção
àqueles pontos tais que
1/ 2
 p 
DFFITSi ≥ 2 

 (n − p) 
(31)
47
3.5.4.6 Influência local
A idéia básica consiste em estudar o comportamento de alguma medida particular de
influências, segundo pequenas perturbações (influência local) nos dados ou no modelo. Isso
significa verificar a existência de pontos que, sob modificações modestas no modelo, causam
grandes variações nos resultados.
3.5.4.6.1
Metodologia de influência local
Dado um conjunto de observações, seja ( β ) o logaritmo da função de
verossimilhança correspondente ao modelo postulado, sendo que β é um vetor ( p + 1) ×1 de
parâmetros desconhecidos, perturbações podem ser introduzidas no modelo por um vetor
ω T = (ω0 , ω1 ,..., ωn ) , pertencente a um subconjunto aberto Ω de ℜn .
Supondo que o esquema de perturbação seja definido por ( β \ ω ) como logaritmo da
função de verossimilhança perturbada, o vetor ω expressa um esquema de pesos, existindo
um ponto ω0 em que ( β | ω0 ) = ( β ) . Dado que β̂
é o estimador de máxima
verossimilhança obtido por meio de ( β ) e βˆω é o estimador de máxima verossimilhança
obtido por meio de ( β | ω ) , o objetivo é comparar β̂ e βˆω , quando ω varia em Ω . Cook
(1986) sugere que a comparação entre β̂ e βˆω seja feita pelo afastamento do logaritmo da
função de verossimilhança LD (ω ) , expresso da seguinte maneira:
LD (ω ) = 2  βˆ − βˆω 


( ) ( )
(32)
Dessa forma, LD (ω ) contém informação essencial quanto à influência do esquema de
perturbação.
A idéia de Cook (1986) é estudar o comportamento da função LD (ω ) numa
vizinhança ω 0 , que é o ponto em que as duas verossimilhanças são iguais. Para isso, o autor
considerou a seguinte superfície geométrica:
48
ω

,
 LD (ω ) 
α (ω ) = 
(33)
denominada gráfico de influência3. O estudo de influência local consiste em analisar como a
superfície α (ω ) desvia-se de seu plano tangente em ω 0 T0 . Essa análise pode ser feita
( )
estudando-se as curvaturas das seções normais da superfície α (ω ) em ω 0 , que são as
intersecções de α (ω ) com planos contendo o vetor normal com seu plano tangente em ω 0 .
As curvaturas dessas seções são denominadas “curvaturas normais”.
A interseção entre a superfície α (ω ) e o plano ortogonal a T0 é denominada “linha
projetada”. Essa linha pode ser obtida através do gráfico de LD(ω0 + ah ) versus a ∈ .
A curvatura normal da linha projetada, denotada por Ch , é definida como sendo a
curvatura de a, LD {ω ( a )} em a = 0, em que ω ( a ) = ω0 + ah . Denomina-se Ch a curvatura
(
)
normal da superfície α (ω ) em ω0 e na direção unitária h .
Cook (1986) mostra que a curvatura normal na direção h pode ser expressa da
seguinte forma:
Ch = 2 hT F h ,
sendo que
−1
(34)
F = ∆T  I βˆ  ∆ , I βˆ é a matriz de informação observada sob o modelo


( )
( )
postulado e ∆ é a matriz ( p + 1) × n definida por
∂ 2 ( β | ω )
∆=
∂β ∂ω T
(35)
avaliada em β = βˆ e ω = ω 0 .
O interesse particular está na direção (ou nas direções) que produz(em) maior
influência local. Segundo Cook (1986), a direção que produz a maior mudança local na
estimativa dos parâmetros é dada por max , que corresponde ao autovetor normalizado
correspondente ao maior autovalor da matriz:
3
Para melhor compreensão é ilustrada uma representação gráfica no anexo A.
49
A = ∆T I βˆ
( )
−1
∆
(36)
O vetor max é utilizado para identificar as observações que podem estar controlando
propriedades importantes na análise dos dados.
3.5.4.6.2
Variáveis explanatórias em regressão linear
Considere o modelo de regressão linear clássico
(37)
Y = Xβ +ε
em que os elementos ε i do vetor ε n × 1 são assumidos por serem variáveis aleatórias
normais independentes com médias zero e variância σ 2 .
Seja s j , onde j = 1,..., p , denota fatores de escala para contar as diferentes medidas
unitárias associadas com as colunas de X. Então a perturbação da log-verossimilhança,
L( β | ω ), é formada de (38) com X trocado por
(38)
X ω = X + WS
em que W = (ωij ) é uma matriz n × p de perturbações e S = diag ( s1 ,..., s p ) . Os elementos da
diagonal s j de S convertem a perturbação genérica ωij para o tamanho apropriado e isolado, a
fim de que ωij s j seja compatível com o ij-ésimo elemento de X.
Em seguida separa-se a matriz p × np , ao passo que ∆ = ( ∆1 ,..., ∆ p ) , em que os
elementos da matriz ∆ k p × n são ∂ 2 L ( β | ω ) / ∂βi ∂ω jk , i = 1,2,..., p, j = 1,2,..., n. Então,
∆ k = sk d k eT − βˆk X T / σ 2
(
(39)
)
em que d k é um vetor p × 1 com 1 na k-ésima posição e zeros em outras partes.
Nessa aplicação, F é uma matriz np × np potencialmente grande, e determinar seus
autovalores
pode
ser
−1
F = ∆T ( X T X ) ∆ / σ 2
uma
tarefa
podem
ser
desagradável.
determinados
Contudo,
ao
se
os
trocar
autovalores
T
(X X )
−1
de
por
50
T
−1/ 2
T
(X X ) (X X )
−1/ 2
, aproveitando o fato de que os autovalores não negativos de AT A são
os mesmos de AAT , a qual será uma matriz p × p manejável nessa situação. Usando esse
método, pode-se afirmar que os autovalores não negativos de F são
eT eδ i / σ 2 + ∑ βˆ 2j s 2j / σ 2
(40)
j
−1
em que δ i é o i-ésimo autovalor de S ( X T X ) S , i = 1,2,..., p e e são os erros do modelo de
regressão. Assim,
Cmax = 2eT eδ max / σ 2 + 2∑ βˆ j2 s 2j / σ 2
(41)
j
3.5.4.7
Técnicas gráficas
Uma ferramenta muito útil para detectar pontos suspeitos de serem aberrantes e/ou
influentes nos modelos de regressão linear é a interpretação gráfica, a qual será usada neste
trabalho para detectar pontos influentes em análise discriminante. Paula (2004) apresenta
alguns exemplos gráficos tradicionais:
a. gráfico de ti* , contra a ordem das observações, usado para detectar pontos aberrantes;
b. gráfico de Di , DFFITSi e hii , contra a ordem das observações, usado para detectar pontos
aberrantes;
c. gráfico max , contra a ordem das observações destaca pontos que podem ser influentes;
d. gráfico normal de probabilidade com envelope, que indica se há possível afastamento da
normalidade na distribuição dos resíduos, podendo também ser um informativo sobre a
existência de pontos discrepantes.
51
3.6
Transformação de Box-Cox (1964)
Box-Cox (1964) têm sugerido uma família de transformações para normalizar
observações, estabilizar a variância e linearizar a relação entre variáveis dependentes e
independentes. Exemplos notáveis dessa família de transformações são:
•
transformação raiz quadrada para estabilizar a variância e para remover a nãonormalidade;
•
transformação raiz cúbica para remover a não-normalidade;
•
transformação logarítmica para estabilizar a variância e para remover a não-normalidade.
Box-Cox consideram uma família de transformações definida por
x (λ )
 xλ − 1
, λ ≠0

= λ
log ( x ) , λ = 0 e x > 0

(42)
que simultaneamente satisfaz todas as três suposições. O coeficiente λ pode ser estimado
pelo método da máxima verossimilhança4. A máxima verossimilhança estimada de λ
maximiza a função verossimilhança L(λ ). Além disso, para testar se a máxima
verossimilhança estimada λ é estatisticamente igual a 1, o que indica uma normalidade, o
seguinte teste da taxa verossimilhança tem sido proposto:
2 [ Lmax (λ ) − Lmax (1)] ≤ χ12 (α )
(43)
em que χ12 (α ) denota o limite superior do ponto 100 α % de χ 2 com 1 grau de liberdade.
Box-Cox (1982) modificaram a transformação dada em (43), propondo a seguinte:
x(λ ) − 1
x ( λ −1)
= x log x
x(λ ) =
se λ ≠ 0
(44)
se λ = 0
em que x é a média geométrica de todas as observações.
Investigações adicionais da família de transformações Box-Cox (1964) têm sido feitas
por Draper e Cox (1969) e Andrews (1971).
4
O método da máxima verossimilhança é apresentado no apêndice.
52
3.7
Validação do modelo
Serão apresentados a seguir dois métodos estatísticos para verificar a adequação do
modelo: o método de Wilk e a validação cruzada. Em seguida, serão reclassificadas as
observações dos dois grupos que apresentarem maior concentração de erros de classificação
ou “observações misturadas”.
3.7.1 Método de Wilk
Um dos métodos mais mencionados na literatura para verificar a discriminação para
g > 2 populações, com n1 , n2 ,..., ng observações, respectivamente, e o total de observações
N = n1 + n2 + ... + ng , é o método de Wilk para comparações dos vetores médias
populacionais, dado por
Λ=
W
T
(45)
A matriz W é obtida da matriz definida em (2) e a matriz T é chamada de matriz soma
de quadrados e produtos cruzados total, sendo obtida pela soma das matrizes (2) e (3).
O Lambda de Wilk ( Λ ) pode então ser convertido a um valor de F, usando a seguinte
transformação:
 p 2 ( g − 1)2 − 4
, se p 2 +(g - 1)2 -5 > 0; e
 2
p−g+2
2
; b =  p + ( g − 1) − 5
a=N −g−
2

2
2
1, se p + (g-1) − 5 ≤ 0
c=
p( g − 1) − 2
2
Então,
1

1− Λb
F =
1

 Λb


  ab − c  ≅ F ( g − 1), ab − c
p
  p ( g − 1) 



(46)
53
Se essa afirmativa for verdadeira, aceita-se H 0 ; caso contrário, a hipótese alternativa é
a que será aceita.
3.7.2 Validação cruzada
Esse procedimento, também conhecido como método de Lachenbruch ou pseudojackknife, foi originalmente proposto Lachenbruch, citado por Dillon e Golstein (1984), sendo
muito utilizado e implementado em praticamente todos os aplicativos estatísticos. A validação
cruzada consiste nos passos seguintes:
passo 1: retira-se um vetor de observações da amostra conjunta e utilizam-se os (n1 + n2 − 1)
elementos amostrais restantes para construir a função de discriminação;
passo 2: utiliza-se a regra de discriminação construída no passo 1 para classificar o elemento
que ficou à parte da construção da regra de discriminação, verificando se ela
conseguiu acertar na sua real procedência ou não;
passo 3: retorna-se o elemento amostral que foi retirado no passo 1 à amostra original e
retira-se um outro elemento amostral diferente do primeiro. Os passos 1 e 2 são
repetidos.
Os passos 1, 2 e 3 devem ser repetidos para todos os (n1 + n2 ) elementos da amostra
conjunta.
3.7.3 Reclassificação das observações dos dois grupos que apresentarem maior
concentração dos erros de classificação da função discriminante
Após a construção e validação da metodologia alternativa proposta neste trabalho, é
possível que o resultado da classificação apresente uma mistura de observações, a qual poderá
estar concentrada em dois grupos. Diante disso, é proposto um último procedimento, com a
finalidade de reclassificar essas observações e conseqüentemente reduzir os erros de
classificação. O procedimento consiste nos seguintes passos:
54
1) selecionar na base de dados, após ser efetivada a transformação de Box-Cox, os dois
grupos que apresentaram maior mistura de observações;
2) construir um modelo de análise discriminante considerando os dois grupos apresentados
no passo 1;
3) reclassificar, utilizando o modelo de análise discriminante obtido no passo 2, as
observações dos dois grupos classificadas pela metodologia alternativa que apresentaram
maior mistura de observações.
3.8
Base de dados
A base de dados necessária à formulação de modelos de credit scoring é geralmente
grande, não sendo rara base de dados contendo 100.000 clientes com mais de 50 variáveis. A
deste trabalho, contudo, é composta por apenas 1420 contratos e 11 variáveis de clientes
pessoa física, que tomaram empréstimo entre 02/01/2005 e 31/12/2006, disponibilizados por
uma instituição financeira de Belo Horizonte. Dentre os contratos, 149 apresentaram ausência
de valores (missing values), fato verificado pela inexistência de informações (sexo e
escolaridade, em sua maioria) no cadastro original da empresa. A decisão foi a retirada dos
149 contratos da amostragem, restando, dessa forma, 1271 contratos para o estudo.
Esse fato remete a uma discussão bastante presente acerca dos modelos de credit
scoring, que é a dificuldade e o alto custo na obtenção de dados para o desenvolvimento dos
modelos, basicamente devido às dificuldades técnicas de processamento de dados e ao fato de
as instituições de crédito não poderem divulgar abertamente suas informações.
Na linha tradicional de modelos de concessão de crédito, o fundamento é a
classificação das operações em dois grupos – qualidade de crédito boa ou ruim –, baseada no
princípio de que o risco de uma operação é determinado pelas possibilidades de ocorrerem
atrasos nos pagamentos das prestações da operação de crédito. A definição desses dois grupos
de dados requer, necessariamente, informações completas sobre datas de vencimento e datas
de pagamento de todas as operações disponibilizadas para análise; a partir daí, é possível
selecionar na base de dados os dois grupos – “bom” e “ruim” –, considerando o
55
comportamento dos clientes quanto ao pagamento das prestações. Além disso, neste trabalho
será utilizado também o status “renegociado” para a inclusão do terceiro grupo, denominado
“intermediário”.
Baseado nos atrasos dos pagamentos das prestações, o primeiro grupo foi denominado
“bom”, sendo composto por clientes que apresentaram no máximo 60 dias de atraso. O
segundo grupo foi denominado “intermediário”, composto por clientes que renegociaram os
contratos vencidos a mais de 60 dias e liquidaram o crédito. O último grupo é chamado
“ruim”, composto por clientes que obtiveram atrasos superiores a 180 dias. Os clientes que
estavam em atraso acima de 60 e inferior a 181 dias e não renegociaram o contrato foram
excluídos da amostra, por serem considerados indeterminados ou de “comportamento
duvidoso”. O quadro 1 resume as variáveis necessárias ao primeiro grupo de dados.
QUADRO 1: Variáveis necessárias à classificação das operações de crédito
Critério: atraso
Variáveis
data de vencimento das prestações
data de pagamento das prestações
status
Tipo de resposta
dd/mm/aaaa
dd/mm/aaaa
renegociado
O primeiro grupo de dados permite gerar a variável de resposta do modelo de credit
scoring, que é a qualidade de créditos da operação.
O segundo grupo de dados é formado pelas variáveis disponíveis nos cadastros dos
clientes e de suas respectivas operações, ou seja, as variáveis explicativas do modelo. O
quadro 2 resume as variáveis usadas do grupo variáveis explicativas para a construção do
modelo de credit scoring.
56
QUADRO 2: Variáveis explicativas do modelo de credit scoring
Tipo de
informações
cadastro
renda
dados da operação
Descrição das variáveis
Tipo de resposta
Variáveis
idade
anos
X6
sexo
feminino/masculino
X10
aluguel
S/N
X11
profissão
tipo de profissão
X8
idade data admissão/idade atual
%
X4
nº de contratos na instituição
número (01, 02 etc.)
X5
região em que reside
leste, centro-sul, norte,
oeste etc.
X9
renda total
R$
X7
valor da operação do empréstimo
R$
X1
quantidade de prestações
número (01,02 etc.)
X3
valor da prestação
R$
X2
O quadro 3 apresenta a composição dos três grupos estudados para o desenvolvimento
da metodologia alternativa de credit scoring, bem como os clientes que foram considerados
de “comportamento duvidoso”, os quais foram retirados da amostra. Restaram 1151 contratos
para a construção do modelo alternativo de credit scoring.
QUADRO 3: Composição dos grupos estudados
Grupo
Atraso
Quantidade de contratos
bom
até 60 dias
438
intermediário
renegociação
247
ruim
acima de 180 dias
466
duvidoso
entre 60 e 181 dias
120
Vale ressaltar que a formação de um banco de dados com grande número de
informações sobre os clientes e operações pode gerar estatísticas mais confiáveis e robustas
para um modelo de credit scoring. No entanto, esse fato pode trazer prejuízos financeiros
consideráveis para as instituições provedoras de crédito, já que exigiria dos clientes
57
requisitantes de crédito preencherem um extenso e demorado cadastro e das instituições
fazerem muitas consultas às agências de regulação e proteção de crédito.
A maior questão refere-se à fuga de bons clientes, que geralmente têm acesso a outras
linhas de crédito de instituições concorrentes, estando, portanto, mais sujeitos a desistirem de
enfrentar um processo burocrático.
Segundo Caouette, Altman e Narayanan (1999), o banco de dados coletado contém a
maioria das variáveis mais importantes para a formulação dos modelos de credit scoring.
Contudo, pode ser notada a ausência de algumas muito importantes, não disponibilizadas pela
instituição. Dentre as mais relevantes, podem ser citadas:
•
consulta a créditos recentes: quanto menos, melhor;
•
renda por dependente: quanto maior, melhor;
•
número de telefone (sim ou não): se sim, melhor;
•
comprometimentos financeiros: quanto menor, melhor;
•
profissão do cônjuge: varia,pois a mesma profissão pode ter peso positivo ou negativo.
O tratamento dos dados levantados a partir das variáveis selecionadas seguiu os passos
apresentados no quadro 4.
QUADRO 4 – Proposta de tratamento dos dados, passos a serem seguidos, propósitos e
os processos estatísticos utilizados
Passos
Procedimentos
Objetivo
Método
1
preparação da base de
dados
aplicar a metodologia
apresentada neste trabalho
2
análise discriminante de
Fisher
classificar e agrupar de
acordo com as
características dos clientes
análise discriminante de
Fisher
3
aplicação do método
stepwise
escolher variáveis que
possam realmente
distinguir as populações
método stepwise
4
análise discriminante de
Fisher após aplicar o
método stepwise
assegurar que o modelo
final com as variáveis
escolhidas será de boa
qualidade
análise discriminante de
Fisher
divisão dos três grupos
atribuição de pesos às
variáveis categóricas
58
5
QQPLOT
teste de Mardia
verificar a suposição de
normalidade multivariada
QQPLOT
teste de Mardia
6
transformação de BoxCox
normalizar observações
transformação de Box-Cox
7
análise discriminante de
Fisher depois de
aplicada a transformação de Box-Cox
verificar se houve melhoria
na discriminação dos dados
análise discriminante de
Fisher
8
análise de resíduos
medida Leverage
DFFITS
distância de Cook
influência local
detectar observações
influentes
9
análise discriminante de
Fisher depois de retirada
observações influentes
reanálise dos dados
análise discriminante de
Fisher
10
teste de Box
verificar a suposição de
igualdade das matrizes de
covariância
teste de Box
11
análise discriminante
quadrática
classificar e agrupar de
acordo com as
características dos clientes
análise discriminante
quadrática
Lambda Wilk
validação cruzada
(pseudo-jackknife)
verificar a adequação do
modelo
12
análise de resíduos
medida Leverage
DFFITS
distância de Cook
influência local
Lambda Wilk
validação cruzada
Neste capítulo, foram explicadas a seleção da amostra, assim como a coleta dos dados
e seu tratamento. Finalmente, foram apresentados os passos a serem seguidos, os propósitos e
os processos estatísticos utilizados. No próximo capítulo far-se-á a apresentação e a análise
dos resultados.
59
4. APLICAÇÃO
Este capítulo apresenta os resultados obtidos na construção do modelo de credit
scoring.
4.1
A metodologia alternativa de credit scoring
Esta seção se divide em doze subseções. Passo a passo, serão apresentados os
resultados da construção do modelo e os motivos que levaram a cada tomada de decisão do
processo. Optou-se por esta apresentação no capítulo de resultados para que fique mais clara a
lógica utilizada na construção do modelo, que dependeu de resultados parciais.
4.1.1 Passo 1: Preparação da base de dados
Para o desenvolvimento da nova metodologia de credit scoring, foi definida, em
primeiro lugar, a variável dependente. Criou-se uma variável categórica de 1 a 3, com valor 1
para clientes adimplentes (“bom”), 2 para clientes que renegociaram o débito e liquidaram o
crédito (“intermediário”), e 3 para clientes inadimplentes (“ruim”). A seguir, definiram-se as
variáveis explicativas disponíveis e relevantes para a construção do modelo. Essas variáveis
foram denotadas por X1, X2,..., X11, sendo que nove delas são contínuas ou discretas e duas
são binárias (sexo e aluguel), conforme quadro 2.
4.1.2 Passo 2: Análise discriminante de Fisher
Aplicou-se a análise discriminante de Fisher no SPSS1, versão 14, sem a preocupação
de observar se as premissas do modelo foram atendidas. Os resultados são apresentados na
tabela 1.
1
Statistical Package for the Social Sciences – pacote estatístico para ciências sociais.
60
TABELA 1: Classificação da função discriminante de Fisher (dados sem transformação)
Grupo
Grupo Previsto
1
2
3
Original Contagem
1
278,00
58,00
102,00
60,00
136,00
51,00
2
69,00
24,00
373,00
3
%
63,47
13,24
23,29
1
2
24,29
55,06
20,65
3
14,81
5,15
80,04
68,4% do grupo original classificado corretamente.
Total
438,00
247,00
466,00
100,00
100,00
100,00
Os resultados apresentados revelam que, dos 438 clientes “bons”, 278 foram
classificados corretamente como “bons” (o que representa 63,47%), 58 foram classificados
erroneamente como “intermediários” (o que representa 13,24%) e 102 foram classificados
erroneamente como “ruins” (o que representa 23,29%). Da mesma forma, podem ser
analisados os 247 clientes “intermediários” e os 466 clientes “ruins”. O resultado da
classificação geral dos três grupos originais revela que 68,4% dos 1151 clientes foram
classificados corretamente.
A seguir, é verificado se as premissas do modelo são atendidas e, caso não sejam,
propõe-se a realização de procedimentos que visam atender às exigências do modelo.
4.1.3 Passo 3: Aplicação do método stepwise
Conforme apresentado na seção 3.5.1, é possível que a qualidade de ajuste da função
discriminante apresentada na seção 5.1.2 tenha sido comprometida, por existirem no modelo
variáveis com baixo poder de discriminação. Diante disso, será utilizado o método stepwise
para a seleção das variáveis que devem fazer parte da função discriminante.
O aplicativo utilizado foi o SPSS, versão 14, considerando os níveis de significância
para entrada e saída de variáveis iguais a 5% e 10%, respectivamente. No presente caso, após
o método stepwise, o modelo final para discriminação dos três grupos de clientes deveria
conter apenas as variáveis X3, X5, X6, X7, X8 e X11.
61
4.1.4 Passo 4: Análise discriminante de Fisher
Após seleção das variáveis pelo método stepwise, foi aplicada a análise discriminante
de Fisher. Os resultados são apresentados na tabela 2.
TABELA 2: Classificação da função discriminante de Fisher (método stepwise)
Grupo
Grupo Previsto
1
2
3
Original Contagem
308,00
42,00
88,00
1
64,00
123,00
60,00
2
88,00
26,00
352,00
3
70,32
9,59
20,09
%
1
25,91
49,80
24,29
2
18,88
5,58
75,54
3
68,0% do grupo original classificado corretamente.
Total
438,00
247,00
466,00
100,00
100,00
100,00
Observando os resultados obtidos da função discriminante de Fisher e comparado com
os resultados apresentados na tabela 1, verifica-se que o modelo com as variáveis escolhidas
pelo método stepwise apresenta resultados insatisfatórios de ajuste, quando se considera o
modelo completo com todas as variáveis. Nesse caso, nos próximos passos serão consideradas
todas as variáveis para a construção do modelo de discriminação.
4.1.5 Passo 5: Verificação da normalidade multivariada
Analisando a normalidade multivariada no conjunto formado pelas variáveis discretas
ou contínuas X1, X2,..., X9, através do gráfico Q-Q plot, gráfico 6, verifica-se que a
disposição dos pontos indica a proximidade em relação a uma reta2, o que leva a não se
rejeitar em primeira análise a suposição de normalidade multivariada. Contudo, esse gráfico
deve ser usado cautelosamente como um rude indicador de normalidade multivariada. Diante
disso, será aplicado o teste de assimetria e curtose de Mardia.
2
A similaridade de uma distribuição observada para um modelo de distribuição teórico resulta uma relação
linear entre os quantis teórico e empírico.
62
GRÁFICO 6 – Qui-Quadrado (Q-Q plot)
O teste de Mardia para as nove variáveis, X1, X2,... , X9, foi executado segundo um
algoritmo computacional proposto por DeCarlo (1997), executável no aplicativo SPSS, versão
14, obtendo-se os estimadores dos coeficientes de assimetria e curtose, respectivamente:
βˆ
1,d
= 46, 43
e
βˆ
2,d
= 162,08
De (11) e (12) com p = 9, obtém-se:
2
k1 = 8913,15, o qual é significante quando comparado com χ165
= 195,97 , e
k2 = 76,04, o qual é significante quando comparado com N (0,1).
Apesar de o gráfico Q-Q plot sugerir a suposição de normalidade multivariada, o teste
de Mardia revela que os dados apresentam dela um afastamento notório, podendo sua
suposição ser rejeitada. Nesse caso, será proposta a transformação de Box-Cox, que
normalizará os dados.
4.1.6 Passo 6: Transformações de Box-Cox
A transformação dos dados foi realizada no aplicativo MINITAB, versão 14,
utilizando o estatístico Box-Cox Transformation para encontrar a verossimilhança do
parâmetro λ . A partir disso, os valores dos dados transformados, conforme a equação (43),
são obtidos.
63
4.1.7 Passo 7: Análise discriminante de Fisher
Com os dados aproximadamente normalizados, aplicou-se a análise discriminante de
Fisher no aplicativo SPSS, versão 14. Os resultados são apresentados na tabela 3.
TABELA 3: Classificação da função discriminante de Fisher (dados transformados)
Grupo
Grupo Previsto
1
2
3
Original Contagem
231,00
140,00
67,00
1
45,00
202,00
2
16,00
32,00
418,00
3
%
52,74
31,96
15,30
1
18,22
81,78
2
3,43
6,87
89,70
3
73,9% do grupo original classificado corretamente.
Total
438,00
247,00
466,00
100,00
100,00
100,00
Analisando os resultados apresentados nas Tabelas 1 e 3, observa-se uma melhoria
significativa (de 68,4% para 73,9%) quando aplicada a transformação de Box-Cox.
Através do resultado de 73,9%, é possível constatar que a transformação de Box-Cox é
conveniente para a obtenção de um modelo de análise discriminante mais preciso, caso a
premissa de normalidade multivariada seja violada. Contudo, é importante verificar se
existem observações influentes que podem causar grandes variações nos resultados da análise.
Diante disso, será aplicada, na próxima seção, a análise de diagnóstico para detectar
observações influentes.
4.1.8 Passo 8: Análises de diagnósticos
Conforme apresentado na seção 3.5.4, alguns pesquisadores utilizam técnicas de
diagnósticos desenvolvidas com o intuito de detectar observações influentes em análise
discriminante.
A seguir, serão feitas análises de diagnósticos desenvolvidas para regressão, com o
objetivo de identificar pontos influentes em análise discriminante. Nessa seção, todas as
análises gráficas foram implementadas no aplicativo R3, versão 2.6.1.
3
Considerado como uma implementação de programação S, com a semântica derivada do software S-PLUS.
64
A usual suposição da distribuição em análise de regressão é que os erros são
normalmente distribuídos; contudo, o gráfico 7, normal de probabilidade com envelopes para
os resíduos studentizados ( ti ), apresenta um forte indício de não validade dessa suposição,
pois há uma grande quantidade de pontos fora da banda de confiança do gráfico4, sugerindo
que o ajuste deve ser melhorado. Isso pode ser um indício da existência de observações
potencialmente influentes.
GRÁFICO 7: Probabilidades com envelopes
O gráfico 8 corresponde ao resíduo de Pearson ( ri ) , contra a ordem das observações,
verifica-se que não há um distanciamento relevante de uma ou mais observações em relação
às outras. No gráfico 9, resíduo studentizado, nota-se também que não há uma relevância no
distanciamento de uma ou mais observações em relação às demais.
Em relação à medida Leverage ( hii ) , gráfico 10, e com base nos valores hii ≥
2p
, com
n
2p
igual a 0,0209, conforme explicado na seção 3.5.4.1, foram identificadas 22 observações
n
que se destacam das demais. No gráfico 11, não é constatado nenhum ponto cuja medida Di
seja superior a 0,5, conforme apresentado na seção 3.5.4.4. Nesse caso, não é possível afirmar
a
existência
de
pontos
1/ 2
 p 
DFFITSi ≥ 2 

 (n − p) 
influentes.
No
gráfico
12,
com
base
nos
valores
1/ 2
 p 
, com 2 

 (n − p) 
igual a 0,2053, conforme explicado na seção
3.5.4.5, foram identificadas 68 observações que podem ser possíveis pontos influentes.
4
Atkinson (1985) sugere a construção de um tipo de banda de confiança através de simulações, a qual
denominou envelope. Ver, também, Paula (2004, p.46).
65
GRÁFICO 8: Resíduo de Pearson
GRÁFICO 9: Resíduo studentizado
GRÁFICO 10: Diagonal da Matriz H (Leverage)
66
GRÁFICO 11: Distância de Cook
GRÁFICO 12: DFFITS
4.1.8.1 Influência local
Tem-se que a curvatura Cmax = 2,44 computada de (42) é relativamente pequena.
Contudo, Verbeke e Molenberghs (2000) têm apresentado que, indiferentemente do tamanho
de Cmax , uma inspeção de max é válida, sendo que os maiores valores de max correspondem
às observações influentes.
No gráfico 13, é apresentado o valor max versus observações, sendo encontradas 67
delas que se destacaram das demais. Fazendo-se uma análise mais precisa, nota-se também
que houve certa discriminação dos três grupos; além disso, existem outras observações que
podem estar exercendo influência indevida no conjunto de dados. Nesse caso, foram
consideradas as observações dos grupos “bom” e “ruim”, cujos valores max sejam inferiores
a 0,025, sendo verificadas 95 observações supostamente influentes, ao todo.
67
GRÁFICO 13: Influência local – caso variáveis explanatórias
4.1.9 Passo 9: Reanálise dos dados
Nesta seção, serão apresentados os resultados obtidos da aplicação da análise
discriminante de Fisher após a retirada das observações supostamente influentes,
diagnosticadas pelas técnicas Leverage, DFFITS e influência local.
4.1.9.1 Leverage
No total, foram identificadas 22 observações com elevado coeficiente Leverage, as
quais foram removidas da amostra para análise definitiva dos dados. Os resultados são
apresentados na tabela 4.
TABELA 4: Classificação da função discriminante de Fisher
retirados 22 pontos influentes
Grupo
Grupo Previsto
1
2
3
Original Contagem
225,00
137,00
67,00
1
43,00
197,00
2
16,00
32,00
412,00
3
%
52,45
31,93
15,62
1
17,92
82,08
2
3,48
6,96
89,57
3
73,9% do grupo original classificado corretamente.
Total
429,00
240,00
460,00
100,00
100,00
100,00
68
Comparando os resultados obtidos nas tabelas 3 e 4, verifica-se que não houve
melhoria após a retirada das 22 observações. Nesse caso, a medida de Leverage foi
inapropriada para a detecção de observações influentes em análise discriminante. Isso
confirma a afirmação de Poon (2004) de que observações influentes podem não apresentar um
expressivo valor Leverage.
4.1.9.2 DFFITS
Foi verificado, através do gráfico 12, que há indícios de 68 observações influentes.
Após a retirada desses pontos, é importante constatar se houve melhoria na discriminação dos
dados. Os resultados são apresentados na tabela 5.
TABELA 5: Classificação da função discriminante de Fisher
retirados 68 pontos influentes
Grupo
Grupo Previsto
1
2
3
Original Contagem
248,00
121,00
1
51,00
193,00
2
10,00
22,00
417,00
3
%
67,21
32,79
1
20,90
79,10
2
2,23
4,90
92,87
3
79,1% do grupo original classificado corretamente.
Total
369,00
244,00
449,00
100,00
100,00
100,00
Comparando os resultados das tabelas 3 e 5, verifica-se uma melhoria significativa de
73,9% para 79,1%. Nesse caso, a medida DFFITS foi apropriada para a detecção de
observações influentes.
4.1.9.3 Influência local – caso variáveis explanatórias
Para reanálise dos dados, geralmente opta-se pela retirada das observações influentes;
no caso presente, serão seguidos os seguintes procedimentos:
69
procedimento 1: aplicação da análise discriminante de Fisher, após a retirada dos 67 pontos
supostamente influentes;
procedimento 2: aplicação da análise discriminante de Fisher, após a retirada dos 95 pontos
supostamente influentes, conforme apresentado na seção 5.1.8.1.
É importante constatar qual dos dois procedimentos acima será mais adequado à
melhor discriminação dos dados. Os resultados são apresentados nas tabelas 6 e 7,
respectivamente.
TABELA 6: Classificação da função discriminante de Fisher – procedimento 1
Grupo
Grupo Previsto
1
2
3
Original Contagem
1
256,00
115,00
62,00
185,00
2
17,00
31,00
418,00
3
%
69,00
31,00
1
2
25,10
74,90
3
3,65
6,65
89,70
79,2% do grupo original classificado corretamente.
Total
371,00
247,00
466,00
100,00
100,00
100,00
TABELA 7: Classificação da função discriminante de Fisher – procedimento 2
Grupo
Grupo Previsto
1
2
3
Original Contagem
1
251,00
103,00
59,00
185,00
2
17,00
23,00
418,00
3
%
70,90
29,10
1
2
24,18
75,82
3
3,71
5,02
91,27
80,9% do grupo original classificado corretamente.
Total
354,00
244,00
458,00
100,00
100,00
100,00
Observando os resultados obtidos através da aplicação dos procedimentos 1 e 2 e
comparando-os com os da tabela 3, verifica-se que houve uma melhoria significativa de
73,9% para 79,2% e para 80,9%, respectivamente.
Diante do resultado, é possível constatar que o procedimento de diagnósticos em
análise de influência proposta por Cook (1986) é eficiente para o modelo proposto. Contudo,
deve-se verificar se a igualdade das matrizes de covariâncias pode ser contestada, sendo a
função discriminante quadrática, nesse caso, a mais indicada. A seguir, é apresentado o teste
da razão de verossimilhança com aproximação F, devido a Box (1979), para verificar se a
premissa de igualdade das matrizes de covariâncias não foi violada.
70
4.1.10 Passo 10: Teste de Box
Será aplicado o teste de Box (1979) para os dados usados nas seções 5.1.9.2 (DFFITS)
e 5.1.9.3 (influência local – procedimentos 1 e 2), os quais apresentaram melhores resultados
após a retirada das observações influentes. O teste é apresentado nas tabelas 8, 9 e 10.
TABELA 8: Teste de Box – seção 5.1.9.2 (DFFITS)
-2log(M)
F aprox.
GL1
GL2
p-valor
α
298,568
2,227
132
1940624
< 0,0001
0,05
TABELA 9: Teste de Box – seção 5.1.9.3 (influência local – procedimento 1)
-2log(M)
F aprox.
GL1
GL2
p-valor
α
842,654
6,286
132
1980558
< 0,0001
0,05
TABELA 10: Teste de Box – seção 5.1.5.2 (influência local – procedimento 2)
-2log(M)
F aprox.
GL1
GL2
p-valor
α
1496,593
11,160
132
1903495
< 0,0001
0,05
Realizado o teste Box para comparar a igualdade das matrizes de covariância, observase que o p-valor calculado nos três casos é menor que o nível de significância, α = 0,05.
Nesse caso, deve-se rejeitar a hipótese nula H0 – as matrizes de covariância intra-classe são
iguais, em favor da hipótese alternativa Há – as matrizes de covariância intra-classe são
diferentes. Para contornar esse problema de violação da premissa da análise discriminante de
Fisher, a função discriminante quadrática será mais indicada, conforme apresentado na seção
3.4.
71
4.1.11 Passo 11: Função discriminante quadrática
Será aplicada a função discriminante quadrática, dada na equação (4), para os dados
usados nas seções 5.1.9.2 (DFFITS) e 5.1.9.3 (influência local – procedimentos 1 e 2), os
quais foram contestados quanto à igualdade das matrizes de covariância. Os resultados são
apresentados nas tabelas 11, 12 e 13.
TABELA 11: Classificação da função discriminante quadrática – seção 5.1.9.2 (DFFITS)
Grupo
Grupo Previsto
1
2
3
Original Contagem
264,00
105,00
21,00
1
54,00
190,00
2
10,00
22,00
417,00
3
%
67,69
26,92
5,38
1
22,13
77,87
2
2,23
4,90
92,87
3
80,4% do grupo original classificado corretamente.
Total
390,00
244,00
449,00
100,00
100,00
100,00
TABELA 12: Classificação da função discriminante quadrática – seção 5.1.9.3
(influência local – procedimento 1)
Grupo
Grupo Previsto
1
2
3
Original Contagem
326,00
45,00
1
109,00
138,00
2
24,00
24,00
418,00
3
%
87,87
12,13
1
44,13
55,87
2
5,15
5,15
89,70
3
81,4% do grupo original classificado corretamente.
Total
371,00
247,00
466,00
100,00
100,00
100,00
TABELA 13: Classificação da função discriminante quadrática – seção 5.1.9.3
(influência local – procedimento 2)
Grupo Previsto
1
2
3
Original Contagem
349,00
5,00
1
142,00
102,00
2
17,00
23,00
418,00
3
%
98,59
1,41
1
58,20
41,80
2
3,71
5,02
91,27
3
82,3% do grupo original classificado corretamente.
Grupo
Total
354,00
244,00
458,00
100,00
100,00
100,00
72
Aplicada a função discriminante quadrática, verifica-se uma melhoria de 79,1% para
80,4%; 79,2% para 81,4% e 80,9% para 82,3%, conforme tabelas 5 e 11; 6 e 12; 7 e 13.
Analisando os resultados da função discriminante quadrática, observa-se que eles,
após a retirada dos 67 e 95 pontos influentes pela metodologia de influência local, foram
superiores ao método DFFITS em 1 e 2 pontos percentuais, respectivamente. Esse resultado
reafirma a importância da metodologia de influência local para detectar observações
influentes em análise discriminante.
O passo seguinte é verificar a adequação do modelo de discriminação. Nesse caso,
será validado apenas o modelo da seção 5.1.9.3 (procedimentos 2), por apresentar melhores
resultados de classificação (82,3% de acerto – tabela 13).
4.1.12 Validação do modelo
O teste de diferenças entre as médias foi realizado no aplicativo XLSTAT 20075, para
avaliar a significância estatística do poder classificatório da função discriminante a ser obtida,
utilizando-se o teste de Wilk multivariado para o modelo da seção 5.1.9.3 (procedimentos 2),
que apresentou um valor F aproximado de 126,25. O p-valor aproximado de 0,0001
apresentou ser menor que o nível de significância α = 0,05; nesse caso, deve-se rejeitar a
hipótese nula H0 – os vetores médios das três classes são iguais, em favor da hipótese
alternativa Ha – os vetores médios das três classes são diferentes. Portanto, os três grupos
diferem estatisticamente.
Outro método que pode ser utilizado para verificar a adequação do modelo é a
validação cruzada. A tabela 14 apresenta o resultado da validação cruzada realizada no
MINITAB, versão 14.
5
Aplicativo de análise estatística com Excel.
73
TABELA 14: Validação cruzada – seção 5.1.9.3 (procedimento 2)
Grupo
Grupo Previsto
1
2
3
Original Contagem
343,00
11,00
1
144,00
100,00
2
17,00
23,00
418,00
3
%
96,89
3,11
1
59,02
40,98
2
3,71
5,02
91,27
3
81,5% do grupo original classificado corretamente.
Total
354,00
244,00
458,00
100,00
100,00
100,00
Os resultados, após a validação cruzada, através da divisão da amostra em três partes
aleatoriamente escolhidas, apresentaram uma faixa de acertos em torno de 81,5%, sugerindo a
estabilidade do modelo. De fato, não houve perda significativa no percentual de acerto ao se
utilizarem amostras aleatórias, o que demonstra a força do modelo.
Apesar de o resultado final de 82,3% de acerto, apresentado na tabela 13, ser
satisfatório, observa-se que 58,20% dos clientes “intermediários” foram classificados como
“bons”. Isso significa que apenas 41,80% dos clientes “intermediários” foram classificados
corretamente, o que pode viabilizar o uso dessa metodologia alternativa apenas para empresas
que possuem uma política bem agressiva no mercado. Assim, uma grande mistura de clientes
“intermediários” classificados como “bons” poderá suplantar os limites de aceitação
estabelecidos por administrações mais conservadoras ou mesmo moderadas, as quais possuem
uma disposição menor para os riscos.
Contudo, o objetivo é desenvolver uma metodologia capaz de atender aos
administradores tanto com perfil agressivos, como conservadores e moderados, de acordo
com a disposição para correr mais ou menos riscos. Nesse caso, é fundamental que o modelo
seja viável para classificar corretamente os três grupos estudados, ou seja, ele não pode ser
bom apenas, por exemplo, para discriminar clientes “ruins”, mas deve ser bom para
discriminar clientes “bons” e “intermediários”.
Diante da concentração de clientes “intermediários” classificados como “bons”, far-seá uma espécie de refinamento para os dois grupos “bons” e “intermediários”, após os clientes
serem classificados pelo modelo cujos resultados estão apresentados na tabela 13.
Esse refinamento consiste em aplicar um modelo de análise discriminante construído a
partir dos procedimentos descritos na seção 3.7.3, que tem como objetivo principal reduzir
apenas os erros de classificação do grupo “intermediário”. Nesse caso, dos 40 clientes “ruins”
74
classificados erroneamente como “bons” ou “intermediários”, apresentados na tabela 13,
alguns poderão mudar seu estado (de “bom” para “intermediário” e vice-versa); continuarão
sendo, entretanto, classificados erroneamente em um dos dois grupos (“bom” ou
“intermediário”) pela função discriminante.
O resultado obtido com a aplicação da análise discriminante foi a seguinte equação
discriminante
Yˆj ' = −1,88 − 0,46 X 1 − 0,75 X 2 − 0,09 X 3 − 0,39 X 4 + 10,13 X 5 + 0,15 X 6 − 0,17 X 7 − 0,03 X 8 +
+ 0,05 X 9 − 0,06 X10 + 0,45 X 11
em que
Yˆj ' = o escore discriminante dos dois grupos
X 1 , X 2 ,..., X11 são as variáveis do modelo
Considerando-se as observações dos dois grupos, “bom” e “intermediário”, com p =
11 variáveis, são obtidos os vetores de média amostral para cada população, respectivamente:
X 1 = [1,97 0,82 12,40 0,68 0, 42 3,52 3, 25 1,88 2,07 1, 47 1,64] e
X 2 = [ 2,16 0,80 16,26 0,69 0,32 3, 45 3, 46 1,91 2,12 1,51 1,50]
Obtidos os vetores de média amostral, calculam-se os centróides (escore médio
discriminante para cada população) dos dois grupos. Sendo 0,60 para o grupo “bom” e -0,87
para o grupo “intermediário”. A regra de classificação6 consiste em calcular a distância
euclidiana entre os centróides e o escore discriminante para cada elemento amostral, sendo o
elemento amostral j classificado na população cuja distância é a menor.
Os maiores coeficientes para cada variável podem, usualmente, ser interpretados como
os maiores coeficientes da função discriminante e indicam a maior contribuição das
respectivas variáveis. Nesse caso, verifica-se que a variável X 5 (número de contratos na
instituição) foi significativa como indicadora, ou melhor, discriminadora entre os dois grupos.
Entretanto, não quer dizer que ela será sempre importante para discriminação, sendo
necessário cautela no uso de suas generalizações, além do objetivo aqui proposto.
75
Após reclassificar os dois grupos, “bom” e “intermediário”, através da equação
discriminante Yˆ ' , é apresentado na tabela 15 o resultado da classificação do modelo misto7,
considerando o uso combinado das metodologias apresentadas neste trabalho.
TABELA 15: Resultado da classificação do modelo final
Grupo
Grupo Previsto
1
2
3
Original Contagem
308,00
46,00
1
88,00
156,00
2
15,00
25,00
418,00
3
%
87,01
12,99
1
36,07
63,93
2
3,28
5,46
91,27
3
83,5% do grupo original classificado corretamente.
Total
354,00
244,00
458,00
100,00
100,00
100,00
Os clientes que foram classificados como “ruins” na tabela 13 não passaram pelo
processo de reclassificação, ou seja, os 418 clientes continuam no mesmo estado.
Analisando os dois resultados, tabela 13 e 15, o número de clientes “bons”
classificados como intermediários aumentou de 5 para 46 e o número de clientes
“intermediários” classificados como “bons” reduziu de 142 para 88.
Este último procedimento foi adequado, pois além de aumentar em 1,1 pontos
percentuais o poder de precisão do modelo, foi possível reduzir em 22,13 pontos percentuais
os erros de classificação de clientes “intermediários” classificados como “bons”.
6
Johnson e Wichern (2002) apresentam uma fórmula de determinação do ponto de corte que minimiza a taxa de
erro global, levando em consideração as probabilidades a priori de classificação e os custos dos erros.
7
Devido às dificuldades de apresentar uma forma funcional do modelo quadrático, serão apresentados apenas os
resultados de classificação.
76
5. CONCLUSÃO
A avaliação de crédito constitui um processo dinâmico, exigindo revisões periódicas,
devendo o modelo utilizado ser formatado para suprir, em tempo hábil, as mudanças
observadas no mercado. Foi diante dessa perspectiva que se propôs neste trabalho a
elaboração de uma metodologia alternativa de credit scoring.
Procurou-se ainda mostrar a importância de metodologias de gestão de risco capazes
de controlar a inadimplência, possibilitando, além disso, ampliar a concessão de crédito com
eficiência. Isso, sem dúvida, é de suma importância para as instituições financeiras diante do
atual cenário do sistema financeiro, que tem apresentado, nos últimos anos, excesso de
liquidez. Assim, a metodologia alternativa proposta permite ao gestor administrar riscos de
forma ousada, sendo capaz de ampliar o nível de concessão de crédito e resguardando a
relação risco-retorno. Outro fator relevante é que a ampliação do nível de concessão de
crédito através da aceitação do grupo “intermediário” dentro de limites razoáveis é um
mecanismo importante para aumentar a diluição dos custos administrativos, um dos fatores
que mais elevam as taxas de juros das instituições. Assim, a instituição credora poderá optar
por emprestar com taxas mais atrativas, o que traz vantagens competitivas em relação a outras
instituições financeiras. Contudo, a disposição para correr risco é de caráter pessoal,
caracterizando a opção de cada organização de acordo com a premissa e o entendimento da
direção.
O resultado final de 83,5% de acerto, tabela 15, indica que a aplicação do modelo na
prática será capaz de classificar corretamente uma proporção bastante elevada de todas as
operações de crédito submetidas à análise, comprovando que podem ser obtidos excelentes
resultados nos modelos de credit scoring usando análise discriminante. Para isso, no entanto,
é fundamental que os problemas de violações de pressuposições, caso existam, sejam
amenizados ou resolvidos; caso contrário, os resultados obtidos podem distanciar-se
consideravelmente da realidade, ou seja, o modelo poderá ser considerado impreciso.
Portanto, a avaliação dos dados é imprescindível para que se possa desenvolver um modelo
estatisticamente correto.
Um problema apresentado neste trabalho foi que, apesar de serem obtidos excelentes
resultados na classificação geral dos grupos de riscos, e mesmo com a redução dos 22,13
pontos percentuais dos erros de classificação, existe ainda 36,07% de clientes
77
“intermediários” classificados como “bons”, o que pode ser considerado um percentual
bastante elevado. Esse problema pode estar relacionado com a aplicação neste trabalho de um
caso de pequena dimensão (1151 clientes e 11 variáveis) se comparado aos casos reais, em
geral possuindo 100 mil clientes e 50 variáveis. Contudo, é fundamental desenvolverem-se
mecanismos capazes de reduzir ainda mais esses erros de classificação.
Em suma, apesar de todas as dificuldades (práticas ou técnicas), essa metodologia
alternativa é bastante válida para avaliar a concessão de crédito de forma objetiva, racional e
prática. Isso ocorre em função de seu desempenho provavelmente ser superior ao dos métodos
de julgamento humano puro, que predominam em muitas instituições, nos quais os gestores
avaliam se concedem ou não o crédito com base, muitas vezes, em critérios subjetivos. Além
disso, muitas vezes os modelos de credit scoring tradicionais na prática, além de inibirem a
gestão de riscos, apenas apresentam a pontuação do cliente, sem a preocupação com o ponto
de corte, ou seja, não apresenta o ponto de referência para aceitação ou não do crédito.
Uma questão importante é que, apesar de a metodologia alternativa proposta neste
estudo apresentar a implementação do modelo com base na análise discriminante, ele será
capaz de classificar corretamente a grande maioria das operações de crédito de uma carteira
de crédito específica para a qual o modelo foi gerado. Para que essa metodologia seja
tecnicamente viável, faz-se necessário o acompanhamento do desempenho da utilização do
modelo após sua implementação. Outro fato relevante é que, apesar de essa metodologia
alternativa considerar a inclusão de um grupo “intermediário” que pode oferecer um grande
potencial de lucro para a instituição, o modelo estatístico teve como objetivo principal
classificar operações de crédito considerando os três grupos: “bom”, “intermediário” e
“ruim”, o que permite aumentar o nível de concessão de crédito. Assim, é recomendado que
seja feito paralelamente um estudo que permita verificar se essa metodologia, de fato, trará
resultados positivos para aumentar a lucratividade da carteira de crédito.
Outra questão bastante relevante para este trabalho é considerar os custos com os erros
de classificação na aplicação da análise discriminante na metodologia alternativa proposta.
78
REFERÊNCIAS
ALTMAN, Edward I. Financial rations, discriminant analysis and the prediction of corporate
bankruptcy. The Journal of Finance, v.23, n.4, p.589-609, Sep. 1968.
AMORIM NETO, A. A.; CARMONA, C. U. M. Modelagem do risco de crédito: um estudo
do segmento de pessoas físicas em um banco de varejo. READ, 40.ed., v.10, n.4, p.1-23,
jul-ago. 2004.
ANDREWS, D. F. A note on the selection of data transformations. Biometrika, v.58, n.2,
p.249-254, Aug. 1971.
ANDREZO, A. F.; LIMA, I. S. Mercado financeiro. Aspectos históricos e conceituais. 1.ed.
São Paulo: Guazzelli (Pioneira), 1999.
ASSAF NETO, Alexandre; SILVA, César Augusto. Administração do capital de giro.
2.ed. São Paulo: Atlas, 1997.
ATKINSON, A. C. Plots, transformations and regression: an introduction to graphical
methods of diagnostic regression analysis. New York: Oxford University Press,
Statistical Science Series, 1985.
BANCO CENTRAL DO BRASIL (Departamento de estudos e pesquisas – DEPEP). Juros e
spread bancário no Brasil, out. 1999.
BANCO CENTRAL DO BRASIL. Juros e spread bancário no Brasil: avaliação de 2 anos
do projeto, nov. 2001.
BANCO CENTRAL DO BRASIL. Relatório de economia bancária e crédito, 2006.
BANCO DO BRASIL. Fontes de financiamentos para MPEs e as oportunidades para os
contabilistas no ambiente de negócio brasileiro. Banco do Brasil, 07 maio 2007.
Disponível em: < http://www.crcgo.org.br/> Acesso em: 03 fev. 2008.
BARROS, J. R. M.; ALMEIDA Jr., M. F. Análise do ajuste do sistema financeiro no Brasil.
Política comparada, Ministério da Fazenda – Secretaria de Política Econômica,
Brasília, v.1, n. 2, p.89-132, mai. 1997.
BERNSTEIN, Peter L. Desafio aos deuses: a fascinante história do risco. 20.ed. Rio de
Janeiro: Campus Elsevier, 1997.
79
BOX, G. E. P.; COX, D. R. An analysis of transformations. Journal of the Royal Statistical
Society. Series B (Methodological), v.36, n. 2, p.317-346, 1949.
BOX, G. E. P.; COX, D. R. An analysis of transformations (with discussion). Journal of the
Royal Statistical Society. Series B (Methodological), v.26, n.2, p.211-252, Apr. 1964.
BOX, G. E. P.; COX, D. R. An analysis of transformations revisited, rebutted. Journal of
the American Statistical Association, v.77, n.377, p.209-210, Mar. 1982.
CAOUETTE, John B.; ALTMAN, Edward I.; NARAYANAN, Paul. Gestão do risco de
crédito. 1.ed. Rio de Janeiro: Qualitymark, 1999.
CARNEIRO, Dionísio Dias. Por que o Brasil vai crescer, mas não muito. O Estado de São
Paulo.
São
Paulo,
02
fev.
2007.
Disponível
em:
<http://www.estado.com.br/editorias/2007/02/02/eco-1.93.4.20070202.5.1.xml> Acesso
em: 27 fev. 2008.
CARVALHO, E. C.; OLIVEIRA, G. C. Fragilização de grandes bancos no início do Plano
Real. Nova Economia, Belo Horizonte, v.12, n.1, p.69-84, jan-jun. 2002.
CHANG, P. C.; AFIFI, A. A. Classification based on dichotomous and continuous variables.
Journal of the American Statistical Association, v.69, n.346, p.336-339, Jun. 1974.
CHATTERJEE, Samprit; PRICE, Bertram. Regression analysis by example. 2.ed. New
York: John Wiley & Sons, Inc., 1991.
COOK, R. Dennis. Assessment of local influence (with discussion). Journal of the Royal
Statistical Society. Series B (Methodological). Minnesota, v.48, n.2, p.133-169, 1986.
COOK, R. Dennis; WEISBERG, Sanford. Applied regression including computing and
graphics. 1.ed. New York: John Wiley, 1999.
CRITCHLEY, F.; VITIELLO, C. The influence of observations on misclassification
probability estimates in linear discriminant analysis. Biometrika, v.78, n.3, p.677-690,
Sep. 1991.
DECARLO, L. T. On the meaning and use of kurtosis. Psychological methods, v.2, n.3,
p.292-307, 1997.
DIÁRIO DO COMÉRCIO. Qualidade do crédito avança nos quatro maiores bancos. Diário
do Comércio, Indústria e Serviço. São Paulo, 21 fev. 2008. Disponível em:
<http://www.dci.com.br/noticia.asp?id_noticia=215188> Acesso em: 29 fev. 2008.
80
DILLON, William R.; GOLDSTEIN, Matthew. Multivariate analysis: methods and
applications. Canada: John & Sons, Inc., 1984.
DRAPER, N. R.; COX, D. R. On distribution and their transformations to normality.
Journal of the Royal Statistical Society, v.31, n.3, p.472-476, 1969.
DUTRA, M. S.; BIAZI, E. Uma nova abordagem de credit scoring usando análise
discriminante. Nova Friburgo: Instituto Politécnico/UERJ, 2007. Palestra proferida no
X EMC – Encontro de Modelagem Computacional, em 21-23/11/2007.
EQUIFAX, Credit Scoring. EQUIFAX – Soluções para gestão de riscos. Equifax, 2002.
Disponível em: <http://www.equifax.com.br > Acesso em: 10 mai. 2008.
ERBERT, Mauro; HAERTEL, Vitor. Estudo sobre técnicas de regularização da matriz de
covariância no processo de classificação de dados de alta dimensionalidade. INPE.
Anais XI SBSR, Belo Horizonte, Brasil, 05-10 abril 2003, INPE, p.1061-1068.
FISHER, R. A. The use of multiple measurements in taxonomic problems. Annals of
Eugenics, v.7, p.179-188, 1936.
FUNG, W. K. Some diagnostic measures in discriminant analysis. Statistics and
Probability Letters, v.13, p.279-285, 1992.
FUNG, W. K.; KWAN, C. W. A note on local influence basead on normal curvature. J. R.
Statist. Soc. Series B (Methodological). Hong Kong, v.59, n.4, p.839-843, 1977.
GITMAN, Lawrence Jeffrey. Princípios de administração financeira. 2.ed. Porto Alegre:
Bookman, 2001.
GREMAUD, Amaury Patrick Gremaud; VASCONCELLOS, Marco Antônio; TONETO JR.,
Rudinei. Economia brasileira contemporânea. 6.ed. São Paulo: Atlas, 2005.
HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Multivariate data
analysis with readings. 5.ed. New Jersey: Prentice Hall, 1998.
HUANG, C. L.; CHEN, M. C.; WANG, C. J. Credit scoring with a data mining approach
based on support vector machines. Expert Systems with Applications, v.33, n.4, p.847856, 2006.
IBGE. Sistema financeiro: uma análise a partir das contas nacionais. Rio de Janeiro: IBGE,
1997.
81
JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. New Jersey:
Prentice Hall, 2002.
JORION, Philippe. Value at risk: the new benchmark for controlling market risk. New
York: Mc Graw Hill, 1997.
KRZANOWSKI, W. J. Discrimination and classification using both binary and continuous
variables. Journal of the American Statistical Association, v.70, n.352, p.782-790,
Dec. 1975.
KRZANOWSKI, W. J. Mistures of continuous a categorical variables in discriminant
analysis. Biometrics, v.36, n.3, p.493-499, Sep. 1980.
KRZANOWSKI, W. J. Mistures os continuous and categorical variables in discriminant
analysis: a hypothesis – testing approach. Biometrics, v.38, n.4, p.991-1002, Dec. 1982.
KRAZANOWSKI, W. J. Multiple discriminant analysis in presence of mixed continuous and
categorical data. Comp. and. Math. With appls, v.12A, n.2, p.179-185, 1986.
LACERDA et al. Economia brasileira. 2.ed. São Paulo: Saraiva, 2005.
MANLY, Bryan F. J. Multivariate statistical methods. 1.ed. New York: Chapman and
Hall, 1986.
MARDIA, K. V. Measures of multivariate skewness e kurtosis with applications.
Biometrika, v.57, n.3, p.519-530, Dec. 1970.
MARDIA, K. V. Applications of some measures of multivariate skewness and kurtosis in
testing normality and robustness studies. Sankhyã B, v.36, n.2, p.115-128, 1974.
MARDIA, K. V. Assessment of multinormality and therobustness of Hotelling’s T2 test.
Applied Statistics, v.24, n.2, p.163-171, 1975.
MINGOTI, Sueli Aparecida. Análise de dados através de métodos de estatística
multivariada. 1.ed. Belo Horizonte: UFMG, 2005.
OLKIN, I.; TATE, R. F. Multivariate correlation models with mixed discrete and continuous
variables. Ann. Math. Statist, v.32, n.2, p.448-465, Jun. 1961.
PAULA, G. A. Assessing local influence in restricted regression models. Computational
Statistics & Data Analysis, v.16, n.1, p.63-79, Jun. 1993.
82
PAULA, G. A. Modelos de regressão com apoio computacional. Instituto de Matemática e
Estatística-USP: São Paulo, 2004.
POON, W. Y. Identifying influential observations in discriminant analysis. Statistical
Methods in Medical Research, v.13, n.4, p.291-308, 2004.
POON, W. Y.; POON, Y. S. Conformal normal curvature and assessment of local influence.
J. R. Statisti. Soc. B, v.61, n.1, p.51-61, 1999.
RÊGO, Ricardo Bordeaux. Mudanças no mercado de capitais brasileiro: subscrições
privadas versus ofertas públicas de ações após o Plano Real. 2004. Tese (Pós-Graduação
em Administração de Empresas) – Pontifícia Universidade Católica do Rio de Janeiro,
Rio de Janeiro.
RUSSO, Cibele Maria. Análise de um modelo de regressão com erros nas variáveis
multivariado com intercepto nulo. 2006. Dissertação (Pós-Graduação em Ciência de
Computação e Matemática Computacional) – USP – Instituto de Ciências Matemáticas e
de Computação – ICMC, São Paulo.
SANDA, Renê. Análise discriminante com mistura de variáveis categóricas e continuas.
1990. Dissertação (Pós-Graduação em Estatística) – Universidade de São Paulo, São
Paulo.
SANTOS, J. O.; FAMÁ, R. Avaliação da aplicabilidade de um modelo de credit scoring com
variáveis sistêmicas e não-sistêmicas em carteiras crédito bancário rotativo de pessoas
físicas. R. Cont. Fin USP, São Paulo, v.18, n.44, p.105-117, mai-ago. 2007.
SAUNDERS, Anthony. Medindo o risco de crédito. 1.ed. Rio de Janeiro: Qualitymark,
2000.
SEBER, George A. F. Multivariate observations. 1.ed. Canada: John Wiley & Sons, 1984.
SOARES, R. P. Evolução do crédito de 1994 a 1999: uma explicação. Instituto de Pesquisa
Econômica Aplicada. Texto para discussão nº 808, Brasília, jul. 2001. Disponível em:
<http://www.ipea.gov.br> Acesso em: 02 jan. 2008.
SOETHE, Volnei Avilson. Técnica Sunkrinõ: uma proposta para ponderação de critérios na
avaliação e monitoramento do risco de crédito pelo método Crisks. 2004. Tese (PósGraduação em Engenharia de Produção) – Universidade Federal de Santa Catarina,
Florianópolis.
83
VASCONCELLOS, Maurício Sandoval de. Proposta de método para análise de concessão
de crédito a pessoas físicas. 2002. Dissertação (Pós-Graduação Economia) –
Universidade de São Paulo, São Paulo.
VERBEKE, Geert.; MOLENBERGHS, Geert. Linear mixed models for longitudinal data.
1.ed. New York: Springer, 2000.
ZHU, H. T.; LEE, S. Y. Local influence for generalized linear mixed models. Canad. J.
Satist, v.31, n.3, p.293-309, Sep. 2003.
84
APÊNDICE
Método da máxima verossimilhança
Uma amostra aleatória ( y1 , y2 ,..., yn ) , retirada de uma população com uma função de
densidade de probabilidade f ( y, θ ) , a qual depende do vetor de parâmetros θ , tem uma
função de densidade de probabilidade (pdf) conjunta dada por
n
∏ f ( y ,θ ).
i
i =1
isto é, a função de densidade de probabilidade conjunta é simplesmente o produto das
densidades de cada uma das observações,
f ( y1 ,θ ) x f ( y2 ,θ ) x ... x f ( yn ,θ )
em que θ é um vetor de parâmetros (fixo) e yi é uma variável aleatória (variável).
Note que, antes da retirada da amostra, cada observação é uma variável aleatória, cuja
função de densidade de probabilidade é igual à função de densidade de probabilidade da
população. A média e a variância de cada observação a ser retirada são iguais à média e
variância da população em questão. É nesse sentido que se diz que, na função de densidade
conjunta, antes de retirada da amostra, θ é fixo e yi é variável.
Contudo, uma vez que tenha sido obtida uma amostra específica, yi torna-se fixo e a
função de densidade de probabilidade conjunta pode então ser reinterpretada como sendo uma
função do vetor de parâmetros θ , que se tornam variáveis. Para uma dada amostra
( y1 , y2 ,..., yn ) , a função de densidade de probabilidade conjunta, vista como função do vetor
de parâmetros desconhecidos θ , é denominada função de verossimilhança.
Uma possibilidade para a resolução do problema de estimação é escolher o vetor θˆ
que maximize a probabilidade de obtenção da amostra específica ( y1 , y2 ,..., yn ) que se tem
em mãos. Em outras palavras, é necessário encontrar o vetor θˆ que faz a probabilidade de
85
obter-se a amostra já obtida a maior possível, ou seja, que maximize a função de
verossimilhança.
Tem-se, portanto, a função de verossimilhança L (θ , y ) , em que y é o fixo e θ é a
variável, e o problema consiste em se obter o vetor θˆ que maximize essa função. O estimador
de máxima verossimilhança θˆ é o vetor que faz
ˆ
L θˆ, y > L  θˆ, y 


( )
ˆ
em que θˆ é qualquer outro estimador de θ .
Do ponto de vista matemático, a implementação desse procedimento parece simples,
pois tudo o que se tem a fazer é maximizar a função de verossimilhança com respeito a θˆ .
Para tanto, basta igualar a zero as derivadas parciais da função de verossimilhança e achar o
vetor θˆ que resolva esse conjunto de equações. Na maioria dos casos, trabalhar-se-á com o
logaritmo natural da função de verossimilhança, ( ln L ) , pois maximizar o logaritmo natural
de uma função é, em geral, mais simples e produz os mesmos resultados da maximização da
função original.
86
ANEXO
Gráfico de influência
Figura extraída de Verbeke e Molenberghs, 2000.
87

Documentos relacionados