validação de modelos baseados em rna utilizando análise

Transcrição

validação de modelos baseados em rna utilizando análise
RODRIGO LEITE DURÃES
VALIDAÇÃO DE MODELOS BASEADOS EM
RNA UTILIZANDO ANÁLISE ESTATÍSTICA DE
DADOS E LÓGICA FUZZY
Belo Horizonte – MG
Outubro de 2009
RODRIGO LEITE DURÃES
VALIDAÇÃO DE MODELOS BASEADOS EM
RNA UTILIZANDO ANÁLISE ESTATÍSTICA DE
DADOS E LÓGICA FUZZY
Dissertação apresentada ao Curso de
Mestrado em Modelagem Matemática
e Computacional do Centro Federal de
Educação Tecnológica de Minas Gerais,
como requisito parcial à obtenção do título
de Mestre em Modelagem Matemática e
Computacional.
Área de concentração: Sistemas
Inteligentes
Modelagem Matemática e Computacional
Orientador:
Prof. Dr. Paulo Eduardo Maciel de Almeida
CEFET-MG
M ESTRADO EM M ODELAGEM M ATEMÁTICA E C OMPUTACIONAL
C ENTRO F EDERAL DE E DUCAÇÃO T ECNOLÓGICA DE M INAS G ERAIS
D IRETORIA DE P ESQUISA E P ÓS -G RADUAÇÃO
Belo Horizonte – MG
Outubro de 2009
D947v
Durães, Rodrigo Leite, 1978Validação de Modelos Baseados em RNA Utilizando Análise Estatística
de Dados e Lógica Fuzzy / Rodrigo Leite Durães - Belo Horizonte: CEFETMG, 2009.
123f. : il.
Inclui Bibliografia.
Dissertação (Mestrado em Modelagem Matemática e Computacional)
- Centro Federal de Educação Tecnológica de Minas Gerais
Orientador: Paulo Eduardo Maciel de Almeida.
1 - Inteligência computacional. 2 - Redes neurais artificiais. 3 Lógica fuzzy. 4 - Estatística. I. Almeida, Paulo Eduardo Maciel de II.
Centro Federal de Educação Tecnológica de Minas Gerais III. Título
CDU 621.7.04
Folha de aprovação. Esta folha será fornecida
pelo Programa de Pós-Graduação e deverá substituir esta.
Aos meus pais,
Sérgio e Idalice.
Agradecimentos
Agradeço a todas as pessoas que direta e indiretamente contribuíram para a realização deste trabalho.
A Deus por ter me dado a saúde e a fé necessários para a conclusão de mais uma
jornada.
Aos meus pais: Sérgio Alberto Oliveira Durães e Idalice de Magalhães Leite, que
tanto me apoiaram nesse processo e em todos os momentos de minha vida.
Ao meu orientador Prof. Dr. Paulo Eduardo Maciel de Almeida por ter acreditado em meu trabalho, pelo incentivo, conselhos e críticas, os quais permitiram meu
crescimento pessoal e profissional.
Ao Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG) por
participar, da minha formação acadêmica e pessoal.
Aos professores e colegas do Grupo de Pesquisa em Sistemas Inteligentes - GPSI.
Ao Laboratório de Sistemas Inteligentes do CEFET-MG (LSI) pelo apoio e infraestrutura fornecidos.
À todos os meus professores. Sem eles este trabalho não teria sido possível.
Agradeço à direção, coordenação, funcionários e estagiários do Mestrado em Modelagem Matemática e Computacional e da Diretoria de Pesquisa e Pós-Graduação
do CEFET-MG.
A todos os amigos e colegas que me incentivaram.
A todos vocês, meus sinceros agradecimentos.
“Se não há troca de idéias,
elas se tornam inúteis.
Divulgá-las é o que as torna fortes.”
Linus Benedict Torvalds
Resumo
Atualmente, a Inteligência Computacional (IC) e em particular as Redes Neurais Artificiais (RNA) são muito usadas para modelagem de problemas em várias áreas de
aplicação. Porém, na maioria dos trabalhos publicados, os autores não se aprofundam
na discussão da qualidade estatística dos dados históricos usados para treinamento
das RNA. A análise estatística utilizada como ferramenta para validar e melhorar os
modelos obtidos com técnicas de IC não é muito abordada pelos trabalhos da área.
Este trabalho aplica técnicas estatísticas em conjunto com técnicas de IC para aumentar a qualidade de modelos baseados em IC. Em linhas gerais, objetiva-se demonstrar
a importância da qualidade dos dados para o desempenho de modelos que utilizam
RNA. Especificamente, é analisado um modelo térmico na produção de aço, é verificada a confiabilidade dos dados, a correlação das variáveis de entrada e saída, entre
outros, e filtrados os dados com base na aplicação conjunta de métodos estatísticos
e lógica fuzzy. Os resultados obtidos são comparados com técnicas convencionais
de pré-processamento de dados para modelagem com RNA para solução do mesmo
problema. Mostra-se que a utilização da análise estatística em conjunto com a lógica
fuzzy é promissora para o refinamento de modelos baseados em RNA, para a classe
de problemas abordada.
PALAVRAS-CHAVE: inteligência computacional (IC); redes neurais artificiais (RNA);
estatística; lógica fuzzy.
Abstract
Currently, Computational Intelligence (CI) and in special Artificial Neural Networks
(ANN) have been largely used for the modeling of problems applied in several different areas. However, in most of the published work in this field, the authors have not
focus on a deeper discussion about the statistical quality of the historical data used on
their ANN training. Indeed the statistical analysis which is used as tool to validate and
improve the models obtained by CI techniques is not highlighted on the studies of this
area. Therefore, this work underlines the application of statistical and CI techniques
together, in order to increase the quality of CI models. In summary, the objective of this
work is to demonstrate the importance of the data quality to the performance of models
that use ANN. In addition, a thermal model is examined when applied on the production
of steel. In this application the reliability of the used data, and the correlation of input
and output variables are verified, and also data is filtered based on the joint application
of statistical methods and fuzzy logic. The achieved results are compared with ANN
techniques conventional used to solve the same problem. Finally, it is shown that statistical analysis and fuzzy logic, when applied together, are a promising technique for
the refinement of models based on ANN, for the studied problem class.
KEY–WORDS: Computational Intelligence (CI); Artificial Neural Networks (ANN); statistics; fuzzy logic.
Lista de Figuras
1
Função linear. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 33
2
Função tangente sigmoidal. . . . . . . . . . . . . . . . . . . . . . . . .
p. 34
3
Função logarítmica sigmoidal. . . . . . . . . . . . . . . . . . . . . . . .
p. 34
4
Forma equivalente do teste F. . . . . . . . . . . . . . . . . . . . . . . .
p. 55
5
Diagrama de Hassi-Euler: gráfico da função de pertinência fuzzy (ALMEIDA, 2008). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
Técnicas de tratamento estatístico propostas e implementadas neste
trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
p. 63
p. 67
Técnicas de tratamento estatístico propostas e implementadas neste
trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 75
8
Modelo Fuzzy de Sugeno para avaliação da qualidade. . . . . . . . .
p. 76
9
Partição fuzzy de entrada CP. . . . . . . . . . . . . . . . . . . . . . . .
p. 76
10
Partição fuzzy de entrada CPK. . . . . . . . . . . . . . . . . . . . . . .
p. 77
11
Partição fuzzy de entrada IQRnorm. . . . . . . . . . . . . . . . . . . .
p. 77
12
Partição fuzzy de saída Qualidade. . . . . . . . . . . . . . . . . . . . .
p. 78
13
Representação gráfica de CP, CPK e Qualidade. . . . . . . . . . . . .
p. 78
14
Representação gráfica de IQRnorm, CP e Qualidade. . . . . . . . . .
p. 79
15
Representação gráfica de IQRnorm, CPK e Qualidade. . . . . . . . .
p. 79
16
Sistema Fuzzy de Avaliação da Qualidade. . . . . . . . . . . . . . . .
p. 80
17
Separação da base de dados filtrada em amostras. . . . . . . . . . . .
p. 82
18
Escolha da RNA e do algoritmo de treinamento. . . . . . . . . . . . .
p. 83
19
Treinamento, validação e teste de um modelo neural. . . . . . . . . . .
p. 83
20
Gráfico de desempenho dos dados de treinamento de um modelo
neural. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 106
21
Gráfico de desempenho dos dados de treinamento de um modelo
neural. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 107
Lista de Tabelas
1
Tipos de arquiteturas de RNA (ALMEIDA; SIMOES, 2003). . . . . . . . .
p. 32
2
Avaliação da qualidade dos dados . . . . . . . . . . . . . . . . . . . .
p. 80
3
Avaliação da qualidade dos dados . . . . . . . . . . . . . . . . . . . .
p. 80
4
Experimentos de filtragem de dados: base 1 . . . . . . . . . . . . . .
p. 88
5
Experimentos de filtragem de dados: base 2 . . . . . . . . . . . . . .
p. 88
6
Experimentos de filtragem de dados: base 3 . . . . . . . . . . . . . .
p. 89
7
Experimentos de filtragem de dados: base 4 . . . . . . . . . . . . . .
p. 89
8
Experimentos de filtragem de dados com o coeficiente de correlação
parcial e PCA: base 1 . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
Experimentos de filtragem de dados com o coeficiente de correlação
parcial e PCA: base 2 . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
16
p. 93
Experimentos de filtragem de dados com o coeficiente de correlação
de Spearman, Pearson, stepwise e PCA: base 3 . . . . . . . . . . . .
15
p. 92
Experimentos de filtragem de dados com o coeficiente de correlação
de Spearman, Pearson, stepwise e PCA: base 2 . . . . . . . . . . . .
14
p. 92
Experimentos de filtragem de dados com o coeficiente de correlação
de Spearman, Pearson, stepwise e PCA: base 1 . . . . . . . . . . . .
13
p. 91
Experimentos de filtragem de dados com o coeficiente de correlação
parcial e PCA: base 4 . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
p. 91
Experimentos de filtragem de dados com o coeficiente de correlação
parcial e PCA: base 3 . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
p. 90
p. 93
Experimentos de filtragem de dados com o coeficiente de correlação
de Spearman, Pearson, stepwise e PCA: base 4 . . . . . . . . . . . .
p. 94
Resultados da RNA: etapa de treinamento relativa à base 3 . . . . . .
p. 97
17
Resultados da RNA: etapa de validação relativa à base 3 . . . . . . .
p. 97
18
Resultados da RNA: etapa de teste relativa à base 3 . . . . . . . . . .
p. 98
19
Resultados da RNA: etapa de treinamento relativa à base 4 . . . . . .
p. 98
20
Resultados da RNA: etapa de validação relativa à base 4 . . . . . . .
p. 99
21
Resultados da RNA: etapa de teste relativa à base 4 . . . . . . . . . . p. 100
22
Hipóteses alternativas do teste z. . . . . . . . . . . . . . . . . . . . . . p. 104
23
Comparação de resultados. . . . . . . . . . . . . . . . . . . . . . . . . p. 104
Lista de Códigos Fontes
2.1 Regras Fuzzy.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 63
2.2 Regras de um modelo Fuzzy. . . . . . . . . . . . . . . . . . . . . . . .
p. 63
2.3 Regras de um modelo Fuzzy TSK. . . . . . . . . . . . . . . . . . . . .
p. 64
3.1 Código SQL para consulta de inconsistências. . . . . . . . . . . . . .
p. 71
3.2 Código SQL para consulta de inconsistências. . . . . . . . . . . . . .
p. 71
3.3 Código SQL para redução de dados. . . . . . . . . . . . . . . . . . . .
p. 73
3.4 Código SQL para redução de dados. . . . . . . . . . . . . . . . . . . .
p. 73
3.5 Código SQL para redução de dados. . . . . . . . . . . . . . . . . . . .
p. 73
3.6 Código SQL para seleção de dados válidos. . . . . . . . . . . . . . . .
p. 74
A.1 Regras Fuzzy.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 120
Lista de Abreviaturas e Siglas
AHP - Analytic Hierarchy Process
ANCOVA - Análise de Covariância
ANFIS - Adaptive Neuro-fuzzy Inference Systems
ANOVA - Analise of Variance
ARA - Algoritmos para Rank de Atributos
◦
C - Graus Celsius
CEFET-MG - Centro Federal de Educação Tecnológica de Minas Gerais
CFS - Porcentagem de carbono no fim do sopro
CIB - Porcentagem de carbono in blow
CMAC - Cerebellar Model Articulation Controller
EQM - Erro quadrático médio
GPSI - Grupo de Pesquisas em Sistemas Inteligentes
GRADCOD - Código do Aço
HMTCGU1 - Percentual de Carbono do Gusa (%)
HMTMNGU1 - Percentual de Manganês do Gusa (%)
HMTPGU1 - Percentual de Fósforo do Gusa (%)
HMTSIGU1 - Percentual de Silício do Gusa (%)
HMTTEMGU1 - Temperatura do Gusa (o C)
HOTMETAL - Quantidade de Gusa (kg)
IC - Inteligência Computacional
IEQ - Intervalo entre o primeiro quartil e o terceiro quartil
IQR - InterQuantile Range
kg - Quilograma
LANAGE - Idade da Lança de Sopro
LIMAMO - Quantidade de Cal Calcítica (kg)
LIMDOLAMO - Quantidade de Cal Dolomítica (kg)
LM - Levenberg-Marquardt
LSI - Laboratório de Sistemas Inteligentes
LOGSIG - Função Sigmoidal Unipolar
MFe - Minério de ferro
MLP - Multi-Layer Perceptron
MSE - Mean Squares of Error
MST - Mean Squares for Treatments
NUMCORRIDA - Número da Corrida
Oxig - Oxigênio
OXYCUR - Volume de Oxigênio Soprado (m3 )
PCA - Análise de Componentes Principais
PURELIN - Função Linear
RADBAS - Função de Base Radial
RBF - Radial Basis Function (Redes Neurais de Base Radial)
RNA - Redes Neurais Artificiais
R & R - Repetitividade e Reprodutibilidade
SCRTOTAMO - Quantidade Total de Sucata (kg)
SQL - Structured Query Language
SSE - Error Sum of Squares ou Sum of Squares Errors
SST - Total Sum of Squares ou Sum of Squares for Treatments
TANSIG - Função Sigmoidal Bipolar
TEMACT - Temperatura do Aço (o C)
TFS - Temperatura do aço no fim do sopro
TIB - Temperatura in blow
V & M - Vallourec & Mannesmann do Brasil
VESAGE - Idade do Vaso
Sumário
1 INTRODUÇÃO
p. 20
1.1 RELEVÂNCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 20
1.2 ESTADO DA ARTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 21
1.3 CARACTERIZAÇÃO DO PROBLEMA . . . . . . . . . . . . . . . . . .
p. 26
1.4 MOTIVAÇÃO E OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . .
p. 27
1.5 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 27
1.6 ORGANIZAÇÃO DA DISSERTAÇÃO . . . . . . . . . . . . . . . . . . .
p. 29
2 REFERENCIAL TEÓRICO
p. 31
2.1 REDES NEURAIS ARTIFICIAIS . . . . . . . . . . . . . . . . . . . . .
p. 31
2.1.1 Redes Multi-Layer Perceptron - MLP . . . . . . . . . . . . . . .
p. 32
2.1.1.1
Back-Propagation . . . . . . . . . . . . . . . . . . . .
p. 35
2.1.1.2
Algoritmo Levenberg-Marquardt . . . . . . . . . . . .
p. 38
2.1.2 Redes de Elman . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 38
2.2 ESTATÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 38
2.2.1 Análise de Componentes Principais . . . . . . . . . . . . . . .
p. 39
2.2.1.1
Redução de Dimensionalidade . . . . . . . . . . . . .
2.2.1.2
Critérios para Determinação do Número k de Componentes Principais . . . . . . . . . . . . . . . . . . .
2.2.1.3
p. 41
Procedimento 1: Análise de representatividade em
relação à variância total . . . . . . . . . . . . . . . . .
2.2.1.4
p. 39
p. 41
Procedimento 2: Análise da qualidade de aproximação da matriz de covariâncias ou correlação . . . . .
p. 43
2.2.1.5
Procedimento 3: Análise prática das componentes
.
p. 44
2.2.1.6
Intervalos de confiança para os autovalores populacionais . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 44
2.2.1.7
Inferência sobre a matriz de correlação populacional
p. 45
2.2.1.8
Distribuição das componentes principais no caso da
2.2.1.9
distribuição normal multivariada . . . . . . . . . . . .
p. 45
Análise de Componentes Principais por Núcleo . . .
p. 46
2.2.2 As Medidas de Semelhança
. . . . . . . . . . . . . . . . . . .
p. 46
Distância de Mahalanobis . . . . . . . . . . . . . . . .
p. 46
2.2.3 Correlação por Posto . . . . . . . . . . . . . . . . . . . . . . .
p. 48
2.2.4 Correlação Parcial . . . . . . . . . . . . . . . . . . . . . . . . .
p. 49
2.2.5 Intervalo entre Q1 e Q3 . . . . . . . . . . . . . . . . . . . . . .
p. 49
2.2.6 Teste de Proficiência . . . . . . . . . . . . . . . . . . . . . . . .
p. 51
2.2.2.1
2.2.7 Redução de Dados Utilizando Algoritmos para Ranking de Atributos (ARA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 51
2.2.8 Análise de Variância - ANOVA . . . . . . . . . . . . . . . . . .
p. 52
2.2.9 Teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 53
2.2.10 Teste Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 55
2.2.11 Análise Discriminante . . . . . . . . . . . . . . . . . . . . . . .
p. 56
2.2.11.1 Escolha pela análise de variância univariada . . . . .
p. 56
2.2.11.2 Método Forward . . . . . . . . . . . . . . . . . . . . .
p. 57
2.2.11.3 Método Backward . . . . . . . . . . . . . . . . . . . .
p. 57
2.2.11.4 Método Stepwise . . . . . . . . . . . . . . . . . . . .
p. 58
2.2.12 Índice de Capacidade (CP ) . . . . . . . . . . . . . . . . . . .
p. 59
2.2.13 Índice de Capacidade K (CP K) . . . . . . . . . . . . . . . . .
p. 60
2.3 LÓGICA FUZZY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 61
2.3.1 Modelo de Takagi-Sugeno-Kang . . . . . . . . . . . . . . . . .
p. 64
2.4 DISCUSSÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 64
3 DETALHAMENTO DA PROPOSTA DE REFINAMENTO DE MODELOS
BASEADO EM TÉCNICAS ESTATÍSTICAS
p. 66
3.1 CONSIDERAÇÕES INICIAIS . . . . . . . . . . . . . . . . . . . . . . .
p. 66
3.2 PROPOSTA GERAL DE REFINAMENTO ESTATÍSTICO . . . . . . . .
p. 66
3.3 EXPLORAÇÃO DO ESPAÇO SOLUÇÃO . . . . . . . . . . . . . . . .
p. 67
3.4 INSTRUMENTOS DE ANÁLISE E FILTRAGEM DE DADOS . . . . . .
p. 69
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS . . . . . . . . . . . .
p. 69
3.5.1 Seleção e Tratamento de Dados . . . . . . . . . . . . . . . . .
p. 70
3.6 DISCUSSÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 83
4 EXPERIMENTOS E AVALIAÇÃO DOS RESULTADOS
p. 85
4.1 CONSIDERAÇÕES INICIAIS . . . . . . . . . . . . . . . . . . . . . . .
p. 85
4.2 POPULAÇÃO E AMOSTRAS . . . . . . . . . . . . . . . . . . . . . . .
p. 85
4.3 TRATAMENTO E ANÁLISE DOS DADOS . . . . . . . . . . . . . . . .
p. 92
4.4 VALIDAÇÃO DO MODELO . . . . . . . . . . . . . . . . . . . . . . . . p. 100
4.5 COMPARAÇÃO DOS RESULTADOS . . . . . . . . . . . . . . . . . . . p. 104
4.6 LIMITAÇÕES DO MÉTODO . . . . . . . . . . . . . . . . . . . . . . . . p. 105
4.7 DISCUSSÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 108
5 CONCLUSÃO
p. 109
5.1 CONTRIBUIÇÕES DESTE TRABALHO . . . . . . . . . . . . . . . . . p. 111
5.2 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . p. 112
Referências
p. 113
Apêndice A -- Banco de Conhecimento Fuzzy Empregado
p. 120
20
1
INTRODUÇÃO
1.1 RELEVÂNCIA
A década de 1990 trouxe um crescente problema de supersaturação de dados ao
mundo da ciência, dos negócios e do governo (INMON, 1997), (INMON; WELCH; GLASSEY, 1999) e (KIMBALL, 1996). A capacidade de coletar e armazenar dados excedeu
em muito a habilidade de analisar, sintetizar e extrair conhecimento desses dados.
Conforme a norma NBR ISO 9001:2000, capacidade é definida como a aptidão de
uma organização, sistema ou processo de realizar um produto que irá atender aos
requisitos especificados para este produto (NBR ISO 9001, 2000).
A preocupação com a qualidade é tão antiga quanto a própria humanidade. Desde
que o homem pré-histórico confeccionou o seu primeiro artefato, surgiu a preocupação
com a adequação do uso do produto às necessidades de quem o utiliza. Foi somente
com a introdução do conceito de produção em massa que a qualidade começou a ser
abordada sob uma ótica diferente. A qualidade é o atendimento das necessidades dos
clientes de forma constante e consistente (BAPTISTA, 1996), (??) e (RAMOS, 2000).
Processos industriais normalmente são caracterizados por inúmeros fenômenos
que, se tratados individualmente, não descrevem com precisão a modelagem como
um todo, e a interação de vários fenômenos num mesmo processo leva a um alto nível
de complexidade de modelagem. Segundo Cunha (2001), os conhecidos problemas
de variação dos resultados de qualidade de matérias-primas e do produto adicionam
ainda maiores dificuldades de validação de modelos matemáticos para um sistema
complexo. Com base na norma NBR ISO 9001:2000, define-se processo como um
conjunto de atividades inter-relacionadas ou interativas que transformam insumos (entradas) em produtos (saídas) (NBR ISO 9001, 2000).
Quando a complexidade do processo excede um determinado grau, os modelos
matemáticos não apenas se tornam intratáveis, como também sua precisão e con-
1.2 ESTADO DA ARTE
21
fiabilidade relativas à realidade física se tornam questionáveis. Porém, as diversas
simplificações feitas por causa das limitações físicas, torna contraditório a busca cada
vez maior de precisão na modelagem matemática.
Como alternativa à modelagem rigorosa de processo tem-se a implantação de
redes neurais artificiais. Segundo (MEIRELES; ALMEIDA; SIMOES, 2003), as RNA (redes
neurais artificiais) têm se mostrado um campo vasto para pesquisa aplicada. Estas
técnicas de simulação têm se mostrado uma importante ferramenta para análise de
sistemas complexos.
1.2 ESTADO DA ARTE
As RNA, os sistemas fuzzy e as técnicas estatísticas, que serão discutidos no
Capítulo 2, vêm hoje sendo utilizados em modelagem e reconhecimento de padrões,
dentre outros. A seguir são descritos alguns trabalhos relacionados à aplicação destas
técnicas na modelagem de sistemas:
No trabalho de Meireles, Almeida e Simoes (2003) é estudado o avanço das pesquisas em RNA e é destacado que o objetivo das mesmas foi progressivamente mudando, da construção de uma máquina que mimetizasse o comportamento do cérebro,
para a busca de uma máquina que efetivamente aprendesse. Este trabalho é importante para o entendimento da técnica de RNA.
Ribeiro et al. (2005) propõem uma comparação entre duas metodologias, a de
RNA e o modelo de regressão (MR), para estimar profundidades batimétricas a partir
de imagens. Este trabalho é relevante porque caracteriza as duas metodologias.
O trabalho de Fernandes, Navaux e Portugal (1996) possui um duplo objetivo: por
um lado, o modelo de RNA é apresentado dando destaque às suas características
estatísticas; e, por outro, são apresentados dois exercícios de previsão empíricos nos
quais se tenta comparar o desempenho das RNA e do modelo de séries de tempo
estrutural, que pertence à classe dos modelos de decomposição em componentes
não-observáveis. Os modelos econométricos tradicionais são usados para fornecer
uma base inicial para a determinação da arquitetura da RNA. Os resultados mostram
que, para as previsões um passo à frente, não é possível discriminar inequivocamente
a favor de um dos modelos; contudo, para previsões com horizontes de tempo mais
longos, a RNA apresenta maior capacidade preditiva. O trabalho é pertinente porque
1.2 ESTADO DA ARTE
22
mostras as semelhanças entre a estatística e as RNA.
Moraes e Silveira (2006) apresentam o processo de gestão de perdas não-técnicas
na ELEKTRO, em busca da excelência no desempenho operacional utilizando estudos
estatísticos, redes neurais e árvores de decisão. O que contribui para a escolha dos
métodos aqui utilizados.
Colombo, Guerra e Aguayo (2006) aplicam técnicas e ferramentas de extração
automático e inteligente de conhecimento a base de dados relacional na avaliação
da qualidade de produtos de software usando diferentes técnicas e ferramentas de:
preparação de dados (estatística, teoria da informação), análises inteligente de dados
(estatística, visualização de dados, inteligência artificial), sistemas de bases de dados
(base de dados relacional, sistema gerenciador de banco de dados). Estas diferentes
técnicas auxiliaram na abordagem que foi utilizada.
Toyoshima et al. (2003) fizeram um estudo sobre aglomerações industriais brasileiras, mais especificamente, as do Rio Grande do Sul e as de São Paulo, procurando
verificar se há diferenças relevantes em relação ao desenvolvimento de municípios
que possuem grande concentração em uma ou poucas indústrias, daquelas que diversificam mais a produção industrial ou possuem pouca atividade industrial. Para
isso foram utilizadas duas técnicas diferentes de classificação de grupos - a análise
multivariada discriminante e a de redes neurais. Estas duas técnicas foram utilizadas.
O trabalho de Costa (2009) apresenta uma aplicação da metaheurística Otimização por Enxame de Partículas (Particle Swarm Optimization - PSO) na identificação
de pontos influentes em modelos de regressão. Foi utilizada, como função objetivo,
a função de sensibilidade de casos gCook(E) que tem comportamento multimodal.
A eficiência da metodologia proposta foi testada em conjuntos de dados simulados
e em um conjunto com dados observados. Os resultados obtidos mostram que esta
metodologia apresenta soluções satisfatórias na identificação de pontos influentes. O
trabalho auxiliou no tratamento de dados suspeitos.
Nos trabalhos de Zarate, Paoliello e Ribeiro (2003b) e Zarate, Paoliello e Ribeiro
(2003a) é aplicada a metodologia KDD (Knowledge Discovery in Databases) utilizando
técnicas de clusterização em Data Mining para identificar grupos com condições de
operação e características que permita auxiliar nos procedimentos de manutenção de
um motor de combustão. Zarate (2003) mostra a aplicação de Data Mining em bases
de dados com dados suspeitos. Este trabalho auxiliou na escolha da metodologia aqui
aplicada.
1.2 ESTADO DA ARTE
23
No trabalho de Oliveira (2003) é apresentada uma introdução à Descoberta de Conhecimento em Banco de Dados (KDD Knowledge Discovery in Database), desde os
conceitos de conhecimento e consciência, surgimento histórico, sua relação com outras áreas próximas ao KDD como DataWarehouse, Aprendizado de Máquina, Agente
de Conhecimento, entre outras. Também é discutido o conceito de DataMining, suas
etapas e suas mais comuns aplicações. O trabalho é importante porque apresenta
técnicas de processamento que são aqui utilizadas.
REIS JUNIOR (2005) propôs a modelagem térmica de um processo de laminação
de tubos da Vallourec & Mannesmann do Brasil (V&M). Para esta modelagem ele utilizou redes neurais artificiais Fuzzy-CMAC. Este algoritmo de treinamento é um método
de gradiente de 1a ordem. A variável de saída da rede era a temperatura. Os erros
de generalização obtidos com as redes fuzzy-CMAC e ANFIS (Adaptive Neuro-fuzzy
Inference Systems) equivalem respectivamente a 3, 37 % e 3, 78 % da média de temperatura do laminador. Estes valores são próximos aos obtidos no treinamento, que
foram: 3, 27 % para rede fuzzy-CMAC e 3, 72 % para rede ANFIS. No entanto, o número de parâmetros utilizado na rede fuzzy-CMAC era menor que da rede ANFIS. Na
rede MLP (Multi-Layer Perceptron), o erro de generalização obtido equivale a 7, 53 %
da temperatura média do laminador. O valor de EQM (erro quadrático médio) para o
treinamento da MLP foi 7 % do valor da temperatura média. O problema apresentado
se assemelha ao problema que será modelado.
Os trabalhos existentes na área de Inteligência Computacional (IC) demonstram
um grande interesse no emprego das técnicas de Redes Neurais Artificiais (RNA)
para solução de problemas, porém em todos os trabalhos analisados, o pesquisador
apenas comparou as RNA com outros métodos, dentre eles a estatística, sem se aprofundar na discussão de uma possível utilização conjunta destes métodos. A análise
estatística de dados utilizada como ferramenta para validar os modelos obtidos é uma
área de pesquisa não muito abordada pelos trabalhos de IC.
Foi desenvolvido por Cunha (2001) um modelo dinâmico para o processo de refino
de aço via redes neurais artificiais. O mesmo utilizou o backpropagation, um algoritmo
de treinamento de primeira ordem (a derivada de primeira ordem na equação de atualização dos pesos que fazem conexão entre os neurônios da rede), e alcançou o acerto
simultâneo de 73, 3 %. Para a simulação do modelo dinâmico de Cunha (2001) foram
consideradas 5.030 bateladas (filtradas de 15.000 bateladas) para treinamento e 200
bateladas para testes. São três conversores a oxigênio trabalhando continuamente,
1.2 ESTADO DA ARTE
24
resultando em aproximadamente 70 bateladas por dia. Cada conversor apresenta um
volume de 190 m3 . Em cada batelada o conversor recebe uma carga total (gusa e
sucata) de 245 toneladas para produzir 220 toneladas de aço. As variáveis de entrada deste modelo são determinadas a partir da disponibilidade dos dados à época.
Desta forma são definidas quatro variáveis de entrada: a temperatura do banho medida pela sublança (TIB - temperatura in blow), a porcentagem de carbono do banho
calculado pela temperatura de solidificação, pelo diagrama Fe-C, obtida pela amostra
da sublança (CIB - porcentagem de carbono in blow) e as quantidades de minério de
ferro (MFe) e de oxigênio (Oxig) determinadas pelo modelo vigente e implementadas
pelo operador para o restante do sopro. As variáveis de saída são: a porcentagem
de carbono (CFS) e a temperatura do aço (TFS) no período de fim de sopro. A estrutura de rede com a qual Cunha (2001) obteve o melhor resultado para o modelo
dinâmico foi uma rede feedforward multicamada, com duas camadas escondidas e
topologia 4x9x3x2 e 4x3x3x2. As funções de ativação utilizadas nos cálculos internos
dos neurônios são do tipo sigmoidal.
Pacianotto (2003) continuou o trabalho de Cunha (2001) usando somente a modelagem dinâmica, ou seja, as saídas da rede que atuam diretamente no processo
utilizando um algoritmo de segunda ordem. Sua rede tinha como saídas o carbono e
a temperatura no fim de sopro. Foi atingido um percentual de acerto de 97, 5 % dos
valores de temperatura e 90, 6 % dos valores de carbono (para valores de carbono próximos a 0, 04 %) nas bateladas processadas. O algoritmo de treinamento utilizado foi o
de Levenberg-Marquadt que é de segunda ordem. Ambos os trabalhos são relevantes
ao trabalho aqui apresentado.
Rocha e Souza (2004) propuseram a modelagem térmica de um processo de laminação de tubos da Vallourec & Mannesmann do Brasil (V&M). Para esta modelagem
eles utilizaram redes neurais artificiais MLP e RBF (Radial Basis Function). A variável de saída da rede era a temperatura. Conseguiu-se chegar ao erro percentual de
0, 57% com a rede MLP, considerando a temperatura média de saída igual a 850o . Este
trabalho possui relevância ao problema aqui tratado.
TECHSTEEL (2007) propôs a modelagem do processo de produção de aço da
Vallourec & Mannesmann do Brasil (V&M). Para esta etapa da modelagem foram utilizados: análise do tipo e fonte dos dados disponíveis, condicionamento e avaliação
estatística dos dados, determinação das variáveis relevantes para definição do modelo. Esta modelagem auxiliou na avaliação estatística aqui desenvolvida.
1.2 ESTADO DA ARTE
25
Dominguete et al. (2006) apresenta um novo modelo para a estimativa do teor
de fósforo para o Convertedor LD da V & M do Brasil utilizando redes neurais. Este
modelo auxiliou na construção do modelo aqui descrito.
Moreira e Lana (2002) mostra como a geração de escória de aciaria LD pelo método de convertedor com sopro de oxigênio é realizada. Este trabalho foi relevante
para a compreensão do problema aqui abordado.
Nos trabalhos de Almeida e Simoes (2001), Almeida (2002) e Almeida e Simoes
(2003) é proposta a rede CMAC (Cerebellar Model Articulation Controller) Paramétrica (P-CMAC), que não é um algoritmo de aprendizagem, mas sim uma estrutura
neural. Esta estrutura estipula como as camadas de uma rede neural devem ser conectadas, mas não utiliza obrigatoriamente um algoritmo de aprendizagem, podendo
ser então variado este algoritmo a fim de se obter um resultado satisfatório, levandose em conta tempo de processamento e recursos computacionais necessários a seu
funcionamento. Almeida e Simoes (2003) propõe uma rede MLP com o algoritmo de
treinamento backpropagation, no mesmo pode-se compreender o modo de operação
do algoritmo considerando a descrição feita por eles. Estes trabalhos foram relevantes
para a compreensão da técnica de RNA.
Araujo (2006) e Araujo (2007) propôs a modelagem de parte de um processo de
laminação de tubos de aço da Vallourec & Mannesmann do Brasil (V&M). Para esta
modelagem ele utilizou o algoritmo Levemberg-Marquardt (LM) para treinar uma rede
neural artificial com arquitetura MLP (Multi-Layer Perceptron). A variável de saída da
rede era a temperatura do aço. Os resultados obtidos no treinamento e execução da
rede não foram considerados adequados porque as RNA não alcançaram a precisão
desejada. Estes trabalhos apresentam semelhanças ao trabalho aqui descrito.
(DURÃES; ALMEIDA, 2009a) e (DURÃES; ALMEIDA, 2009b) propõem a utilização de
técnicas estatísticas e lógica fuzzy para validar modelos baseados em RNA. Utilizando
o modelo fuzzy de Sugeno e as redes MLP, Elman e Cascade-Forward, e tendo como
variável de saída a temperatura do aço, os resultados obtidos foram considerados
adequados, sendo os mesmos apresentados neste trabalho.
1.3 CARACTERIZAÇÃO DO PROBLEMA
26
1.3 CARACTERIZAÇÃO DO PROBLEMA
Este trabalho analisa um problema térmico na produção de aço e verificar a confiabilidade dos dados e a correlação das variáveis de entrada e saída, comparando
o resultado da rede neural aplicada na base de dados sem modificações com a rede
neural aplicada na base de dados modificada, e também comparar as diversas técnicas estatísticas empregadas na fase de filtragem.
O problema em questão surgiu quando Araujo (2008) propôs a modelagem do
processo de produção de aço da Vallourec & Mannesmann do Brasil (V&M). Na modelagem foram utilizadas redes neurais artificiais MLP e P-CMAC. A variável de saída
da rede era a temperatura do aço. Os resultados obtidos no treinamento e execução
da rede não foram considerados adequados porque os erros médios foram superiores
à precisão do sensor da V&M que é 20◦ C.
A hipótese inicial do presente trabalho é que a base de dados usada por Araujo
(2008) para o treinamento do modelo neural é muito ruidosa, portanto, foi proposta
uma nova abordagem para tratamento dos dados do problema em questão, um préprocessamento dos dados. Estas bases de dados são uma importante fonte de informação, porém, muitas vezes, não são exploradas dadas às dificuldades inerentes ao
grande volume de dados, ultrapassando assim a habilidade técnica e a capacidade
humana em sua interpretação (CARVALHO, 2005).
Assim, foram utilizadas técnicas estatísticas com o intuito de verificar se as mesmas sanavam esta deficiência da modelagem. Para tanto, foi necessário pesquisar e
eliminar as causas assinaláveis que estavam afetando a qualidade dos dados, e, assim, permitir o entendimento das ferramentas que iam ser utilizadas na busca contínua
da eliminação dos fatores que comprometem a qualidade do modelo.
O contexto deste trabalho é o estudo e a análise de dados durante sua coleta e
tratamento nos mais variados níveis. Com o emprego dessa ferramenta, pode-se classificar dados suspeitos e é possível reduzir o número de parâmetros para treinamento
das redes. A grande questão é encontrar métodos eficientes para tratar os dados
suspeitos, pois estes, por exemplo, podem prejudicar o desempenho dos modelos
matemáticos empregados para entender os fenômenos envolvidos.
1.4 MOTIVAÇÃO E OBJETIVOS
27
1.4 MOTIVAÇÃO E OBJETIVOS
Para lidar com a supersaturação de dados, se faz necessária uma nova geração de
ferramentas inteligentes para extração automatizada de dados e descoberta de conhecimento. Essa necessidade já foi reconhecida por pesquisadores de diversas áreas,
inclusive de aprendizado de máquina, estatística, bancos de dados inteligentes, sistemas especialistas, computação neural e visualização de dados (AMOR, 2000), (CARVALHO, 2005), (INMON, 1997), (INMON; WELCH; GLASSEY, 1999), (KIMBALL, 1996), (MENEZES, 2003), (PASSOS; GOLDSCHMIDT, 2005) e (SINGH, 2001). Além disso, é preciso
despertar a consciência para o estudo, utilização e difusão destas ferramentas. Assim,
o objetivo deste trabalho é demonstrar a importância da qualidade dos dados em um
sistema que utiliza RNA.
A seguir são apresentados os objetivos específicos deste trabalho:
• Aperfeiçoar modelos matemáticos baseados em RNA;
• Fazer um estudo comparativo de desempenho entre diferentes arquiteturas de
RNA;
• Investigar a influência dos parâmetros de treinamento, do tamanho e da composição do conjunto de dados de entrada no desempenho de modelos neurais;
• Comparar diversas técnicas de análise de dados suspeitos;
• Avaliar os resultados em relação às técnicas tradicionais.
Espera-se que o resultado deste trabalho dê a outros pesquisadores a possibilidade de evoluir na construção de sistemas neurais.
1.5 METODOLOGIA
O estudo aqui proposto é de natureza analítica e visa organizar e sistematizar os
aspectos mais relevantes encontrados no trabalho (GIL, 2000a), (MARCONI; LAKATOS,
2002) e (FRANCA; VASCOCELLOS, 2004). O objetivo intrínseco do trabalho aponta para
os aspectos da qualidade do produto e para a qualidade do modelo para fins industriais.
1.5 METODOLOGIA
28
Em relação ao modo de abordagem do problema, a pesquisa é classificada como
qualitativa, pois utiliza coleta de dados levantando as condições iniciais relevantes e
posteriormente apresentando uma justificativa. É também uma pesquisa quantitativa,
pois os resultados serão classificados e analisados (GIL, 2000b), (LAVILLE; DIDONNE,
1977) e (SILVA; MENEZES, 2001).
Os objetivos da pesquisa a classificam como exploratória, pois visa investigar o
problema com vistas a torná-lo explícito ou a construir hipóteses (BORBA et al., 2004),
(CERVO; BERVIAN, 1983) e (DUARTE; FURTADO, 2002). Nesse contexto, a hipótese que a
pesquisa pretende comprovar é a seguinte:
É possível refinar modelos baseados em RNA a partir da análise estatística dos
dados históricos usados para o treinamento das redes?
Para alcançar os objetivos propostos, foram percorridos os seguintes passos:
• Revisão da literatura: Foi feita uma revisão bibliográfica sobre estatística, RNA,
lógica fuzzy e análise estatística;
• Exploração do espaço solução: Realização de um estudo abrangente sobre o
desenvolvimento de trabalhos de modelagem de processos, com a utilização
de RNA, lógica fuzzy e análise estatística. Cada processo, cada etapa, cada
produto, requer um trabalho específico e, por isto, é preciso despertar a sensibilidade para a escolha e uso da ferramenta ou conjunto de ferramentas que
melhor se adequa ao caso a ser estudado (CAMPOS, 2003), (BAPTISTA, 1996) e
(RAMOS, 2000).
• Pré-processamento da base de dados: Verificação de inconsistências e ruídos
nos dados fornecidos, usando a análise estatística das variáveis. É efetuada
uma limpeza independente de domínio, como decisão da estratégia de tratamento de atributos incompletos, remoção de ruído e tratamento de conjuntos
não balanceados (CARVALHO, 2005), de modo que o treinamento inicial da rede
seja otimizado, eliminando dados dos campos que não agregam informações ao
processo. Costuma-se afirmar que esse passo leva cerca de 80 % do tempo total
do processo.
• Seleção dos dados: Seleção e coleta do conjunto de dados ou variáveis neces-
sárias. Para tanto foi utilizado a linguagem de consulta estruturada (SQL) devido
à sua simplicidade e facilidade de uso. É necessário que haja bom senso na escolha do valor do tamanho amostral e do número de variáveis a serem medidas,
1.6 ORGANIZAÇÃO DA DISSERTAÇÃO
29
levando-se em consideração o orçamento da pesquisa e a qualidade dos dados
que serão obtidos e utilizados na análise final (CAMPOS, 2003), (BAPTISTA, 1996)
e (RAMOS, 2000).
• Transformação dos dados: Transformação dos dados em um formato apropri-
ado. As amostras foram representadas usando arquivos tipo texto. Este padrão
possui um ótimo desempenho para exportação e análise de base de dados. Os
dados foram arrendondados de forma a garantir uma precisão de até duas casas
decimais. Para a realização da análise de forma apropriada, os dados foram normalizados de forma a estabelecer uma unidade padrão para todas as grandezas
presentes no banco de dados. A normalização escolhida foi a normalização pela
média. A medida de proximidade adotada é a distância de Mahalanobis.
• Avaliação da qualidade dos dados: Utilização da lógica fuzzy e das técnicas
estatísticas para avaliar a qualidade dos dados.
• Definição das RNA e os algoritmos de treinamento: Escolha das RNA e os algoritmos de treinamento utilizados.
• Treinamento das RNA: Treinamento das RNA com os dados originais e tratados
provenientes do processo de produção de aço da V&M do Brasil;
• Realização de testes de validação do modelo obtido: Análise dos resultados dos
dados provenientes do processo de aciaria da V&M do Brasil e comparação com
base nos estudos feitos na literatura;
• Análise dos Resultados da Pesquisa e Discussão: Análise e avaliação dos resultados obtidos.
1.6 ORGANIZAÇÃO DA DISSERTAÇÃO
Este trabalho está dividido em cinco Capítulos, sendo que o Capítulo 2 abrange
os diversos conteúdos teóricos necessários a um amplo entendimento do objeto de
estudo: os conceitos sobre estatística, RNA e lógica fuzzy.
O Capítulo 3 apresenta a população e as amostras, os instrumentos de coleta de
dados e o tratamento e a análise dos dados provenientes do processo de aciaria da
V&M do Brasil e os compara com base nos estudos feitos na literatura.
1.6 ORGANIZAÇÃO DA DISSERTAÇÃO
30
No Capítulo 4, por meio de técnicas predominantemente estatísticas serão analisados e avaliados os resultados do trabalho bem como são apresentadas a eficiência
e a eficácia dos métodos propostos.
O Capítulo 5 proporciona uma avaliação geral do trabalho desenvolvido, descrevendo as conclusões, bem como as possíveis limitações, além de propor melhorias
para as mesmas com as sugestões de trabalhos futuros para a continuidade da pesquisa.
31
2
REFERENCIAL TEÓRICO
Este Capítulo descreve as principais técnicas utilizadas. A Seção 2.1 apresenta a
teoria das RNA, sua definição, características, aplicações e algoritmos de treinamento.
A Seção 2.2 apresenta as técnicas estatísticas utilizadas. A Seção 2.3 descreve a
lógica fuzzy e suas aplicações. A Seção 2.4 encerra o capítulo com as discussões
finais.
2.1 REDES NEURAIS ARTIFICIAIS
As Redes Neurais Artificiais (RNA) são modelos matemáticos que se assemelham
às estruturas neurais biológicas e que têm capacidade computacional adquirida por
meio de aprendizado e generalização (CARVALHO, 2005).
Estruturalmente, uma rede neural consiste em um número de elementos interconectados (chamados neurônios) organizados em camadas. Geralmente constroem
superfícies equacionais complexas por meio de interações repetidas, cada instante
ajustando os parâmetros que definem a superfície.
Cada neurônio geralmente tem um conjunto de pesos que determina como o
neurônio avalia a combinação dos sinais de entrada. A entrada para um neurônio
pode ser positiva ou negativa. O aprendizado se faz pela modificação dos pesos usados pelo neurônio em acordo com a classificação de erros que foi feita pela rede como
um todo. As entradas são geralmente pesadas e normalizadas para produzir um procedimento suave.
Assim, uma RNA pode ser definida como um arranjo de neurônios artificiais, na
qual pode-se distinguir neurônios de entrada, neurônios internos e neurônios de saída.
A forma como estes neurônios estão interconectados define a arquitetura da rede.
Estas são em geral de três tipos, a saber conforme a Tabela 1:
2.1 REDES NEURAIS ARTIFICIAIS
32
Tabela 1: Tipos de arquiteturas de RNA (ALMEIDA; SIMOES, 2003).
2.1.1
Redes Multi-Layer Perceptron - MLP
Uma arquitetura de rede MLP (Multi-Layer Perceptron) possui as seguintes características:
• O fluxo de sinal na rede é unidirecional, da esquerda para a direita, camada a
camada;
• A rede é do tipo totalmente conectada, qualquer camada da rede está conectada
a todas as outras unidades na camada anterior. Não existem conexões entre os
neurônios de camadas não adjacentes, e nem conexões entre neurônios em uma
mesma camada (ALMEIDA; SIMOES, 2003);
• O modelo de cada neurônio da rede inclui uma função de ativação não linear e
diferenciável em qualquer ponto;
• O processamento realizado por cada neurônio é definido pela combinação dos
processamentos realizados pelos neurônios da camada anterior que estão conectados a ele.
Segundo Braga, Carvalho e Ludermir (2007) e Carvalho (2005), as redes MLP
apresentam um poder computacional muito maior que as redes sem camadas intermediárias. Em um número finito de iterações, uma rede com uma camada oculta consegue aproximar qualquer função contínua, enquanto uma com duas camadas ocultas
é capaz de aproximar qualquer função não linear, mesmo que descontínua (ALMEIDA;
SIMOES, 2003).
2.1 REDES NEURAIS ARTIFICIAIS
33
A função de ativação representa o efeito que a entrada interna e o estado atual de
ativação exercem na definição do próximo estado de ativação da unidade. O grau de
ativação é, assim, determinado a partir da excitação externa. Existem várias funções
de ativação, mas apenas algumas encontram aplicações práticas relevantes (ALMEIDA;
SIMOES, 2003). Neste trabalho são utilizadas as funções linear (Figura 1), tangente
sigmoidal (Figura 2) e logarítmica sigmoidal (Figura 3).
Figura 1: Função linear.
Para definir o número de neurônios da camada oculta usados em um modelo de
RNA, é comum o emprego do teorema proposto por Kolmogorov-Nielsen ((TAKAHASHI;
RABELO; TEIXEIRA, 2008), (MARTINS et al., 2009), (DORNELLES; PEDROLLO; GOLDENFUM,
2006), (GOMES, 2005), (FERRONATO, 2008) e (STEINER, 2009)):
“Dada uma função contínua arbitrária F : [0, 1]m → RM , f(x)=y, ∃∀f , uma imple-
mentação exata com uma rede neural de três camadas, sendo a camada de entrada
um vetor de dimensão m, a camada oculta composta por 2n+1 neurônios, e a camada
de saída com M neurônios, representando as M componentes do vetor y.”.
As RNA têm se mostrado um campo vasto para pesquisa aplicada (MEIRELES; ALMEIDA; SIMOES, 2003). Ao contrário do que possa parecer à primeira vista, as RNA
têm vários pontos de contato com os modelos estatísticos e econométricos tradicio-
2.1 REDES NEURAIS ARTIFICIAIS
Figura 2: Função tangente sigmoidal.
Figura 3: Função logarítmica sigmoidal.
34
2.1 REDES NEURAIS ARTIFICIAIS
35
nais. Estas ligações acabam embotadas pelo uso de jargões técnicos distintos.
2.1.1.1 Back-Propagation
O algoritmo back - propagation, também conhecido como algoritmo de retropropagação do erro, é um algoritmo de aprendizado supervisionado. Esse algoritmo tem
como objetivo minimizar a função de erro entre a saída real e a desejada, utilizando
o método do gradiente descendente. As redes neurais feedforward com algoritmo de
aprendizagem tipo back - propagation se tornaram muito populares, devido à capacidade de resolver a maioria dos problemas de reconhecimento de padrões (BRAGA;
CARVALHO; LUDERMIR, 2007), (HAYKIN, 2007) e (MEDEIROS, 2003).
A topologia de uma rede neural não linear, cujo comportamento seja codificado
pelo algoritmo back - propagation, é em geral, composta de uma camada de entrada,
uma camada de saída e um número arbitrário de camadas intermediárias (BRAGA;
CARVALHO; LUDERMIR, 2007). Cada neurônio de uma camada, com exceção da ca-
mada de entrada, encontra-se conectado a todos os neurônios presentes na camada
imediatamente anterior à sua.
A fase de treinamento do algoritmo back - propagation desencadeia duas etapas,
para cada padrão de entrada apresentado: processamento para a frente e processamento para trás (HAYKIN, 2007). No processamento para a frente, que é primeira
etapa, o fluxo do processamento parte das unidades na camada de entrada em direção às unidades na camada de saída. Nesta etapa, os pesos sinápticos permanecem
inalterados. Os neurônios da camada de entrada recebem os valores do padrão de
entrada. Em seguida, a função de ativação é aplicada, produzindo a saída de cada
neurônio desta camada.
Uma vez geradas as saídas dos neurônios da camada de saída da rede, o algoritmo back - propagation inicia a segunda etapa do treinamento para o padrão apresentado. Em geral são duas as condições de parada do treinamento de uma rede back
- propagation: um número máximo de iterações definido pelo usuário ou a convergência da rede. Diz-se que uma rede neural converge quando o somatório dos erros dos
neurônios da camada de saída atinge um nível de erro aceitável para o problema em
questão.
A variação do erro permite a estimação do gradiente em cada iteração é um algoritmo que move o vetor de pesos na direção em que a derivada parcial do erro
2.1 REDES NEURAIS ARTIFICIAIS
36
em relação à cada peso é negativa, buscando sempre o ponto de mínimo. Ou seja,
considerando-se o erro como uma superfície matemática, a variação dos pesos é
sempre na direção de um vale nessa superfície. Quando o gradiente é zero é porque
se atingiu um determinado ponto de mínimo, que não necessariamente é o mínimo
global.
Logo, há diversos enfoques para se escapar de um mínimo local. Porque um
mínimo local não é bom? Porque, nesse caso a rede neural ficaria parada sem aceitar
novos padrões para treinamento, mesmo que eles fossem necessários para que a rede
pudesse generalizar a respeito das relações de entrada e saída (BRAGA; CARVALHO;
LUDERMIR, 2007) e (HAYKIN, 2007).
Ao final do treinamento de uma rede, os pesos das conexões entre os neurônios
representam o conhecimento descoberto pela rede. Esse conjunto pode então ser
utilizado pela rede para processar novos casos e, em função do conhecimento descoberto, apresentar resultados. Uma vez que o conhecimento armazenado pela matriz
de pesos de uma rede neural treinada não pode ser interpretado diretamente pelo
homem, a qualidade do desempenho dessa rede deve ser avaliada por meio de experimentos a fim de verificar a adequação deste conhecimento na implementação da
tarefa desejada (HAYKIN, 2007).
Em um processo iterativo como o algoritmo back - propagation, uma questão importante é sobre o critério de parada do treinamento. Em termos absolutos, a solução
final ocorrerá para o índice de desempenho (erro global) igual a zero ou dentro de um
valor muito pequeno. Todavia, se durante a fase de desenvolvimento o erro não for
pequeno e não tiver tendência a diminuir, dois enfoques podem ser adotados (BRAGA;
CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007):
• Limitar o número de iterações, ou seja, o treinamento cessa após ter ocorrido
um valor limite, pré-fixado, de épocas de treinamento (sessões de treinamento).
• Amostrar e tirar a média de um certo número de épocas, por exemplo, 500 épocas. Se o erro médio do último conjunto de 500 épocas não for melhor que o das
500 anteriores o treinamento deve ser cessado, indicando que um mínimo local
foi alcançado. Depois disso, a rede deve estar ainda pronta para ser reutilizada
para testes. Se o desempenho não for satisfatório, aos pesos devem ser adicionados um pouco de ruído, para auxiliar a rede a sair do mínimo local. Ou então
a rede deveria ser completamente reinicializada.
2.1 REDES NEURAIS ARTIFICIAIS
37
A principal dificuldade no treinamento de redes MLP com o algoritmo back - propagation está relacionada à sua sensibilidade às características da superfície de erro,
o que dificulta a sua convergência em regiões de baixo gradiente e de mínimos locais
(BRAGA; CARVALHO; LUDERMIR, 2007). Uma forma de minimizar esse problema é considerar efeitos de segunda ordem para o gradiente descendente. Algumas abordagens
podem ser utilizadas tanto para acelerar o algoritmo quanto para reduzir os efeitos dos
mínimos locais (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007):
• Utilizar taxas de aprendizado decrescente;
• Utilizar um termo de momento;
• Adicionar ruído aos dados.
Entre as várias técnicas utilizadas para acelerar o processo de treinamento e evitar
mínimos locais, a adição de um termo momento é uma alternativa. A inclusão do termo
momento na expressão de ajuste dos pesos proporciona um comportamento análogo
à inércia no aprendizado, resultando em um aumento da velocidade de convergência
em regiões de descida da superfície de erro, já que o novo ajuste será sempre adicionado a uma parcela do ajuste anterior. Embora esta possa parecer uma solução para
o problema de convergência, há uma grande sensibilidade à constante de momento e,
dependendo da superfície, pode haver instabilidade no treinamento (HAYKIN, 2007).
Outro problema relacionado à convergência do back - propagation é conhecido
como flat spot, que ocorre quando a derivada da função sigmoidal de uma unidade se
aproxima de zero durante o treinamento (BRAGA; CARVALHO; LUDERMIR, 2007). Esse
efeito ocorre porque a derivada da função sigmoidal se aproxima de zero quando a
saída do neurônio se aproxima de um dos seus limites de saturação. Como o ajuste
de pesos utiliza o valor da derivada, a unidade pode não ter seus pesos ajustados
ou ajustá-los com um valor muito pequeno. Existem algumas propostas para superar
esse problema, entre elas (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007):
• Utilizar uma medida de erro que tenda para infinito quando a derivada da sigmoidal tender para zero.
• Adicionar uma constante à derivada, evitando que o erro seja igual a zero.
• Utilizar uma função de erro não-linear.
2.2 ESTATÍSTICA
38
2.1.1.2 Algoritmo Levenberg-Marquardt
Ao contrário do algoritmo de treinamento back - propagation, que é baseado no
método de gradiente descendente, o algoritmo Levenberg-Marquardt é uma aproximação do método de Newton. Ele melhora o método de Gauss-Newton por meio da
utilização de uma taxa de aprendizado variável. Proposto para ajuste de pesos da
rede por ciclo, o algoritmo de treinamento Levenberg-Marquardt é uma técnica de otimização numérica que demanda uma grande quantidade de memória e elevada complexidade computacional, o que pode tornar sua utilização ineficiente para redes muito
grandes (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007). Entretanto, a cada dia
computadores com maior capacidade de memória e processamento são lançados no
mercado, minimizando essa restrição.
2.1.2
Redes de Elman
Elman introduziu memória nas RNA. Nas redes de Elman, além das camadas de
entrada, intermediárias e de saída, há também unidades de contexto, como nas redes recorrentes em geral. As camadas de saída são unidades lineares que somam
os sinais que recebem. As camadas intermediárias podem ter funções de ativação
lineares ou não lineares, e as unidades de contexto são usadas apenas para memorizar as ativações anteriores das camadas intermediárias, podendo ser consideradas
como atraso no tempo em um passo. As conexões feedforward são modificáveis, e
as conexões recorrentes são fixas, motivo pelo qual a rede de Elman é apenas parcialmente recorrente (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007). Em um
primeiro estágio, feedforward, as entradas são propagadas para frente para produzir
as saídas. Posteriormente, a rede é treinada com o algoritmo de aprendizagem back
- propagation padrão.
2.2 ESTATÍSTICA
A Estatística é uma parte da matemática aplicada que fornece métodos para coleta, organização, descrição, análise e interpretação de dados e para utilização dos
mesmos na tomada de decisões (BAPTISTA, 1996), (RAMOS, 2000).
A Estatística Clássica envolve conceitos como distribuição normal, variância, análise de regressão, desvio simples, análise de conjuntos, análises de discriminantes e
2.2 ESTATÍSTICA
39
intervalos de confiança, todos usados para estudar os dados e os relacionamentos
entre eles (FREUND, 2006), (VIEIRA, 1985) e (NEUFELD, 2003).
Essas são as pedras fundamentais nas quais as mais avançadas análises estatísticas se apoiam. Ela incorpora um envolvimento muito forte do usuário, exigindo
engenheiros experientes, na construção de modelos que descrevem o comportamento
de dados por meio dos métodos clássicos da matemática.
A seguir são citadas várias técnicas para tratamento de dados suspeitos. As mesmas serão utilizadas na modelagem dos dados de entrada para uso em sistemas que
utilizem redes neurais artificiais:
2.2.1
Análise de Componentes Principais
Um problema comum em reconhecimento estatístico de padrões é a seleção das
características ou extração de características. A seleção de características se refere a
um processo no qual um espaço de dados é transformado em um espaço de características que, em teoria, tem exatamente a mesma dimensão que o espaço original de
dados (MANLY, 2008), (MINGOTI, 2005) e (HAYKIN, 2007). Entretanto, a transformação é
projetada de tal forma que o conjunto de dados pode ser representado por um número
reduzido de características efetivas e ainda reter a maioria do conteúdo de informação
intrínseco dos dados; em outras palavras, o conjunto de dados sofre uma redução
de dimensionalidade. A análise de componentes principais (também conhecida como
a transformação de Karhumen-Loève na teoria da comunicação) maximiza a taxa de
redução da variância e é, portanto, a escolha correta (MINGOTI, 2005). A análise de
componentes principais é uma técnica padrão normalmente utilizada para redução de
dados em reconhecimento estatístico de padrões e processamento de sinais.
2.2.1.1 Redução de Dimensionalidade
Da perspectiva de reconhecimento estatístico de padrões, o valor prático da análise de componentes principais é que ela fornece uma técnica efetiva para redução
de dimensionalidade. Em particular, pode-se reduzir o número de características necessárias para a representação efetiva de dados descartando aquelas combinações
lineares que têm variâncias pequenas e retendo apenas aqueles termos que têm variâncias grandes (MANLY, 2008) e (HAYKIN, 2007).
2.2 ESTATÍSTICA
40
Em geral deseja-se obter redução do número de variáveis a serem avaliadas e interpretação das combinações lineares construídas, ou seja, a informação contida nas
p-variáveis originais é substituída pela informação contida em k(k < p) componentes principais não correlacionadas. Desta forma, o sistema de variabilidade do vetor
aleatório que contém as k componentes principais. A qualidade da aproximação depende do número de componentes mantidas no sistema e pode ser medida através
da avaliação da proporção da variância total explicada por essas.
Quando a distribuição de probabilidades do vetor aleatório em estudo é normal
p-variada, as componentes principais, além de não correlacionadas, são independentes e têm distribuição normal. Entretanto, a suposição de normalidade não é requisito
necessário para que a técnica de análise de componentes principais possa ser utilizada. A obtenção das componentes principais envolve a decomposição da matriz de
covariâncias do vetor aleatório de interesse. Caso seja feita alguma transformação
deste vetor aleatório, as componentes deverão ser determinadas utilizando-se a matriz de covariâncias relativa ao vetor transformado. Uma transformação muito usual é
a padronização das variáveis do vetor pelas respectivas médias e desvios padrões,
gerando-se novas variáveis centradas em zero e com variâncias iguais a 1. Neste
caso, as componentes principais são determinadas a partir da matriz de covariância
das variáveis originais padronizadas, o que é equivalente a extrair-se as componentes
principais utilizando-se a matriz de correlação das variáveis originais.
Uma vez determinadas as componentes principais, os seus valores numéricos,
denominados de escores, podem ser calculados para cada elemento amostral. Deste
modo, os valores de cada componente podem ser analisados, usando-se técnicas
estatísticas usuais como análise de variância, dentre outras.
As componentes principais são variáveis aleatórias que não podem ser medidas
diretamente, mas observadas apenas a partir da informação do vetor aleatório x. É
comum utilizar os escores das componentes para condução de análise estatística de
dados ou para a simples ordenação (ranking) dos elementos amostrais observados,
com o intuito de identificar aqueles que estão com maiores, ou menores, valores globais das componentes.
É importante observar que as componentes principais, obtidas através da matriz
de covariâncias, resultam em combinações lineares, cujos coeficientes de ponderação
refletem a diferença da variância das variáveis originais além da covariância entre elas.
Uma aplicação útil de um analisador de componentes principais é como pré - pro-
2.2 ESTATÍSTICA
41
cessador para uma rede neural supervisionada (por exemplo: um perceptron de múltiplas camadas de back-propagation) (HAYKIN, 2007). Aqui a motivação é acelerar a convergência do processo de aprendizagem retirando a correlação dos dados de entrada.
Um procedimento de aprendizagem supervisionada como o de back-propagation se
baseia na descida mais íngreme. O processo de convergência nesta forma de aprendizagem é tipicamente lento devido a efeitos interativos de pesos sinápticos de um
perceptron de múltiplas camadas sobre o sinal de erro, mesmo com o uso de procedimentos simples de aceleração local como o momento e taxas de aprendizagens
adaptativas para pesos individuais. Se, entretanto, as entradas para o perceptron de
múltiplas camadas consistirem de componentes não-correlacionadas, então a matriz
hessiana da função de custo e(n) em relação aos parâmetros livres da rede é mais
proximamente diagonal do que seria no caso contrário. Uma vez que esta forma de
diagonalização seja realizada, o uso de procedimentos de aceleração locais simples
permitem uma aceleração considerável no processo de convergência, o que se torna
possível pelo escalamento apropriado das taxas de aprendizagem ao longo de cada
eixo de peso, independente.
2.2.1.2 Critérios para Determinação do Número k de Componentes Principais
Quando o vetor aleatório x tem distribuição normal multivariada, é possível construir intervalos de confiança e testes de hipóteses para os autovalores populacionais,
assim como fazer inferência sobre a matriz de covariância ou correlação populacionais.
Quando o objetivo é a redução da dimensionalidade do espaço amostral, isto é,
a sumarização da informação das p-variáveis originais em k componentes principais,
k < p, é necessário estabelecer-se critérios de escolha para o valor de componentes,
que deverão ser mantidas no sistema.
Três procedimentos podem ser utilizados para isso, sendo dois puramente matemáticos e um terceiro que alia o ponto de vista prático.
2.2.1.3 Procedimento 1: Análise de representatividade em relação à variância
total
Sob este critério, deve-se manter no sistema um número de componentes k que
conjuntamente representem uma porcentagem γ 100 % da variância total, onde 0 <
2.2 ESTATÍSTICA
42
γ < 1 é um valor pré-determinado pelo pesquisador. Portanto, na prática, busca-se o
valor de k tal que:
γ=
k
X
i=1
k
X
λ̂i
(2.1)
λˆj
j=1
Não há um limite definido para o valor de γ e sua escolha deverá ser feita de acordo
com a natureza do fenômeno investigado. Em algumas situações, é possível obter-se
uma porcentagem de explicação de variância total acima de 90 % ou 95 % com 1 ou
2 componentes, enquanto que em outras, é necessário um número muito maior. O
objetivo, ao se utilizar a técnica de componentes principais, é sumarizar a informação
das p-variáveis originais de uma forma simples. Desse modo, a utilidade prática das
componentes decresce com o crescimento do número de componentes necessárias
para se chegar ao valor escolhido de γ, uma vez que, quanto maior será a dificuldade
de interpretação das mesmas. Assim sendo, em alguns casos torna-se necessário
trabalhar com porcentagens de explicação abaixo de 90 %. Em geral, quando as
componentes principais são extraídas da matriz de correlação, necessita-se de um
número maior de componentes para se alcançar o valor de γ, em comparação com o
número requerido quando as componentes são extraídas da matriz de covariâncias.
Quando a matriz de correlação é utilizada para extração das componentes principais, a variância total é igual ao número de variáveis original p . Assim, um critério
que pode ser utilizado para a escolha do valor de k é o de manter no sistema apenas as componentes relacionadas àqueles autovalores λ̂i ≥ 1, ou seja, mantém-se as
combinações lineares que conseguem explicar pelo menos a quantidade de variância
de uma variável original padronizada. Similarmente, quando a análise é feita com a
matriz de covariâncias, pode-se manter no sistema as componentes relacionadas aos
autovalores que são maiores ou iguais a λm , definido por:
λˆm =
p
X
j=1
p
λˆj
(2.2)
2.2 ESTATÍSTICA
43
e que representa a variância média das variâncias originais xi , i = 1, 2, ..., p.
Um gráfico que pode auxiliar na escolha do valor k é o scree-plot, que mostra os
valores numéricos dos autovalores λi de acordo com a respectiva ordem i . Basta
observar no gráfico o ponto em que os valores de λi tendem a se aproximar de zero.
Componentes oriundas de autovalores iguais a zero sempre podem ser eliminadas do sistema. No entanto, nesses casos aconselha-se que o pesquisador refaça a
análise de componentes, usando apenas um número de variáveis iguais ao número
de autovalores maiores que zero.
2.2.1.4 Procedimento 2: Análise da qualidade de aproximação da matriz de covariâncias ou correlação
A escolha do valor k de componentes determina uma aproximação para a matriz
da qual elas foram extraídas. Assim, na prática, quando as componentes são extraídas das matrizes de covariâncias ou de correlação amostrais, tem-se as seguintes
aproximações para as matrizes Spxp e Rpxp , respectivamente:
Spxp ≈
k
X
λ̂i eˆi 2′
(2.3)
Rpxp ≈
k
X
λ̂i eˆi 2′
(2.4)
i=1
i=1
onde em cada caso, (λ̂i , eˆi ) representam os respectivos autovalores e autovetores
normalizados de Spxp e Rpxp .
Assim sendo, o valor de k poderia ser escolhido de modo a se ter uma aproximação razoável para as matrizes Spxp ou Rpxp . As parcelas que mais contribuem para a
aproximação dessas matrizes são as correspondentes aos autovalores. Significativamente maiores que zero. Assim, as componentes associadas a autovalores pequenos
ou próximos a zero poderiam ser eliminadas. É preciso ser cauteloso na análise da
qualidade da aproximação, uma vez que um grau de exigência elevado está, geralmente, relacionado com um valor elevado de k , o que não é o desejado.
2.2 ESTATÍSTICA
44
2.2.1.5 Procedimento 3: Análise prática das componentes
Para que as componentes possam ser utilizadas adequadamente, o mais indicado
é que sejam passíveis de interpretação. Assim, a escolha do valor k pode ser pautada
pela natureza prática das componentes encontradas. Eventualmente, pode ocorrer
que a componente mais útil sob o ponto de vista prático do pesquisador seja a de
ordem 4 , por exemplo. Nesse caso, para que este possa utilizá-la, será necessário
manter pelo menos k = 4 componentes principais no sistema. A situação ideal é
aquela em que as componentes principais de maior interesse do pesquisador são as
de maior explicação relativa à da variância total e levam a um valor pequeno de k ,
mas isto nem sempre acontece.
2.2.1.6 Intervalos de confiança para os autovalores populacionais
Suponha que o vetor aleatório x tenha distribuição normal multivariada. Então,
a hipótese de que o autovalor teórico λi seja igual a zero, para algum i fixo, pode
ser testada através da construção de intervalos de confiança. Pode ser mostrado
que, sob a hipótese de normalidade multivariada do vetor aleatório x , e amostras de
tamanhos n grandes, os autovalores estimados λ̂i , i = 1, 2, ..., p são assintoticamente
independentes, e com distribuição normal com média igual a λi e variância igual a
( n2 λ2i ). Assim, um intervalo de (1 − α) (100 %) de confiança para λi populacional é
dado por:






λ̂i
r ;
r 
√
√
1
1
1 + z1−1/2 α 2
1 − z1−1/2 α 2
n
n
λ̂i
(2.5)
onde 2(1 − α2 ) é a ordenada da distribuição normal padronizada, cuja área acima
é igual a α2 .
Um limite inferior do intervalo muito próximo de zero é um indicativo de que a
componente principal relacionada àquele autovalor é de pouca importância em termos
de sua contribuição na variância total.
2.2 ESTATÍSTICA
45
2.2.1.7 Inferência sobre a matriz de correlação populacional
Para que a análise de componentes principais tenha algum sentido, é necessário
que as variáveis sejam correlacionadas. Se as matrizes de covariâncias e de correlação forem diagonais, a aplicação desta técnica simplesmente vai devolver, em alguma
ordem, as próprias variáveis originais.
Sob a suposição de normalidade multivariada, é possível testar se a matriz de
covariâncias e de correlação populacionais, o que indica que as variáveis são independentes.
2.2.1.8 Distribuição das componentes principais no caso da distribuição normal multivariada
Quando a distribuição do vetor aleatório x é normal p-variada, as componentes
principais têm distribuição normal e são independentes.
Individualmente, cada componente tem distribuição normal univariada, pois é uma
combinação linear de variáveis aleatórias com distribuição normal. Conjuntamente, as
p componentes terão distribuição normal p-variada com matriz de covariâncias dadas
por:


λpxp = 

0
λ1
λ2
0
λp




(2.6)
Isto faz com que a técnica de análise de componentes principais possa também
ser utilizada como um mecanismo de verificação da suposição de normalidade multivariada do vetor aleatório x = (x1 x2 ...xp )′ . Se for possível, demonstrar, através de
testes de hipóteses para verificação de normalidade, que as componentes principais
separadamente seguem uma distribuição normal univariada, se terá a indicação de
que o vetor x , provavelmente, também segue uma distribuição normal p-variada.
Apenas as observações completas são utilizadas na análise. Assim, se por exemplo, houver n observações amostrais e p-variáveis e, por algum motivo, o valor de uma
dessas variáveis for perdido (missing) para um elemento amostral, esse elemento será
automaticamente desconsiderado, e a análise de componentes principais será feita
2.2 ESTATÍSTICA
46
com base em apenas (n − 1) dados amostrais. Os resultados, portanto, podem não
ser confiáveis, caso haja uma quantidade considerável de valores omissos.
A análise de componentes principais pode também ser utilizada como um método
de seleção de variáveis. Por exemplo, se o pesquisador mediu p = 20 variáveis e
dessas deseja selecionar as 10 mais importantes, ele poderá analisar as componentes
seqüencialmente, observando, em cada uma delas, as variáveis que aparecem com
maiores coeficientes, em valor absoluto. De cada componente yi , o pesquisador pode
selecionar mi variáveis até obter as 10 desejadas, ou seja,
M
X
mi = 10
(2.7)
i=1
onde M representa o número de variáveis desejado.
2.2.1.9 Análise de Componentes Principais por Núcleo
Nesta forma de PCA (Análise de Componentes Principais) a computação é realizada em um espaço de características que é não linearmente relacionado com o
espaço de entrada (MANLY, 2008) e (MINGOTI, 2005). O espaço de características é
definido por um núcleo de produto interno.
Devido à relação não-linear entre o espaço de características, a ela é não-linear.
Entretanto, ao contrário de outras formas de PCA não-lineares, sua implementação se
baseia na álgebra linear (HAYKIN, 2007). Ela é uma extensão natural da PCA ordinária.
Nela todas as propriedades da PCA ordinária continuam valendo. Em particular,
ela é linear no espaço de entrada. Assim, ela pode ser aplicada a todos aqueles
domínios nos quais a PCA ordinária tem sido usada para extração de características
ou redução de dados, para os quais a extensão não-linear faça sentido.
2.2.2
As Medidas de Semelhança
2.2.2.1 Distância de Mahalanobis
Uma medida que leva em consideração as correlações entre variáveis é a distância
de Mahalanobis. Para agregamentos normalmente distribuídos a distância de Mahala-
2.2 ESTATÍSTICA
47
nobis, em geral, é utilizada (CAMPOS, 2001), (DWINNELL, 2008), (MANLY, 2008) e (UBA;
DUTRA, 2008). Pontos com maior alavancagem têm maior influência nos coeficientes
de regressão e têm maior distância de Mahalanobis.
A distância de Mahalanobis pode ser utilizada para medir a distância entre classes
de padrões. Isso pode ser feito por meio da soma ou da média da distância entre todos
os padrões de duas classes diferentes (CAMPOS, 2001), (DWINNELL, 2008), (MANLY,
2008) e (UBA; DUTRA, 2008). Uma distância de Mahalanobis é também usada para
medir a distância de uma única observação multivariada ao centro da população da
qual veio a observação.
Considere que ui e uj representem os valores médios dos vetores xi e xj respectivamente. Isto é,
ui = E[xi ]
(2.8)
na qual E é o operador estatístico esperado.
O vetor médio uj é definido de forma similar. Como uma medida de distância entre
essas duas populações, pode-se utilizar a distância de Mahalanobis representada por
dij . O quadrado do valor dessa distância de xi para xj é definido por:
d2ij
na qual
P−1
T
= (xi − ui )
−1
X
(xj − uj )
é a inversa da matriz de covariância
P
(2.9)
. Assume-se que a matriz de
covariância é a mesma para ambas as populações, como mostrado por:
X
= E[(xi − ui )(xi − ui )T ]
(2.10)
X
= E[(xj − uj )(xj − uj )T ]
(2.11)
Para o caso especial quando xj = xi , ui = u e
P
= I é a matriz identidade, a
distância de Mahalanobis se reduz à distância euclidiana entre o vetor de amostra xi
2.2 ESTATÍSTICA
48
e o vetor de média u.
2.2.3
Correlação por Posto
Como o teste de significância de r é baseado em suposições bastante restritivas,
às vezes recorre-se a uma alternativa não-paramétrica que pode ser aplicada sob
condições bem mais gerais. Este teste da hipótese nula sem correlação é baseado no
coeficiente de correlação por posto, muitas vezes denominado coeficiente de correlação por posto de Spearman, e denotado por rs (FREUND, 2006).
Para calcular o coeficiente de correlação por posto para um conjunto de pares
de dados, primeiro ordena-se os x entre si em ordem crescente ou decrescente; em
seguida ordena-se os y da mesma maneira, encontra-se a soma dos quadrados das
diferenças, d , entre os postos dos x e dos y , e substitui na fórmula
rs = 1 − 6
X
Sd 2
n (n2 − 1)
(2.12)
na qual n é o número de pares de x e y.
Quando há empates, procede-se atribuindo a cada uma das observações empatadas a média dos postos que elas ocupam conjuntamente. Quando não há empates,
rs é efetivamente igual ao coeficiente de correlação r calculado para os dois conjuntos
de postos; quando existem empates, pode haver uma pequena diferença (que, em geral, é desprezível). É fácil ver, trabalhando com postos em lugar dos dados originais,
perde-se alguma informação, mas isso geralmente é compensado pela facilidade do
cálculo do coeficiente de correlação por posto.
A principal vantagem em utilizar rs é que se pode testar a hipótese nula de não
haver qualquer correlação sem ter de fazer quaisquer suposições sobre as populações
amostradas (FREUND, 2006). Sob a hipótese nula de não haver qualquer correlação na realidade, a hipótese nula de que os x e os y estejam aleatoriamente emparelhados
- a distribuição amostral de rs tem a média 0 e o desvio-padrão
σrs = √
1
n−1
(2.13)
2.2 ESTATÍSTICA
49
como essa distribuição pode ser aproximada por uma distribuição normal mesmo
para valores relativamente pequenos de n, baseia-se o teste da hipótese nula na estatística que aproximadamente a distribuição normal padrão.
Estatística para testar a significância de rs
z = rs
2.2.4
√
n−1
(2.14)
Correlação Parcial
A estatística denominada coeficiente de correlação parcial desempenha satisfatoriamente a função de eliminar os efeitos de outras variáveis (FREUND, 2006), (CAMPOS,
2003), (LAPPONI, 2005) e (NEUFELD, 2003).
rxy, z = √
2.2.5
rxy − rxz ryz
p
1 − rxz 2 1 − ryz 2
(2.15)
Intervalo entre Q1 e Q3
Para evitar a possibilidade de indução ao erro por algum valor extremo (muito
pequeno ou muito grande), pode ser recomendável omitir um tal dado suspeito, ou
então usar uma outra medida estatística que não a média. Talvez a mediana que, não
é tão sensível a um dado suspeito como a média (CAMPOS, 2003).
Uma estratégia para tratar dados suspeitos e outras irregularidades é utilizar métodos numéricos resistentes que pouco são afetados pelos dados suspeitos. O primeiro
quartil, a mediana e o terceiro quartil avaliam a forma da parte central e a variabilidade
da distribuição de frequência da amostra. Uma das aplicações do IEQ (intervalo entre o primeiro quartil e o terceiro quartil, também denominado IQR - InterQuantile
Range) é a detecção de valores suspeitos de uma variável. Embora o IEQ ajude
a retirar um dado suspeito da amostra por considerá-lo suspeito, essa decisão deve
ser acompanhada de um criterioso julgamento (LAPPONI, 2005), (BORGES, 2006) e (R
Development Core Team, 2008).
O valor x de uma variável é considerado possível suspeito se estiver no intervalo
Q1 − 3IEQ < x < Q1 − 1, 5IEQ ou no intervalo Q3 + 1, 5IEQ < x < Q3 + 3IEQ.
2.2 ESTATÍSTICA
50
O valor de x de uma variável é considerado suspeito se x < Q1 − 3IEQ ou
x > Q3 + 3IEQ.
Sendo que IEQ = Q3 − Q1 .
A detecção de dados suspeitos não é um processo trivial. Uma técnica utilizada é
a inspeção visual, válida até 3 dimensões, além da visual, existem também técnicas de
análise exploratória para dados multivariados, por exemplo, o teste de Hotelling (BORGES, 2006). O boxplot é uma forma gráfica para mostrar os possíveis dados suspeitos.
Estudos de repetitividade e reprodutibilidade (R&R) determinam quanto da variação
observada do processo é devida à variação do sistema de medição, verificando a sua
adequação. O gráfico sequencial auxilia na detecção de padrões nos conjuntos de
dados. Então, uma questão é feita: Fazendo um gráfico sequencial para amostras
univariadas, pode-se constatar alguma tendência? Para responder a esta pergunta
primeiro é preciso saber o que pode produzir dados suspeitos (LAPPONI, 2005):
• Erros de medição;
• Valores default assumidos durante o preenchimento de uma base de dados, po-
dem corresponder a valores reais mas pertencentes a uma base de dados desbalanceada.
As características do IEQ são (LAPPONI, 2005):
• É uma medida simples, fácil de ser calculada e automatizada.
• Mede a distribuição da metade dos dados da amostra situados ao redor da mediana.
• É uma medida resistente, pois não é afetado pelos dados extremos da amostra
ou variável.
Contudo essa medida não é suficiente para avaliar a variabilidade de uma amostra
ou variável, pois envolve apenas os valores centrais, deixando de considerar os valores extremos que também são importantes, os restantes 50% dos dados (BORGES,
2006).
2.2 ESTATÍSTICA
2.2.6
51
Teste de Proficiência
O IQRnorm, significa o intervalo interquartil normalizado calculado da seguinte
forma (IUPAC; ISO; AOAC, 2004) e (BORGES, 2006):
IQR norm = 0.7413 Q3 − 0.7413 Q1
(2.16)
A interpretação do z-score é apresentada a seguir (IUPAC; ISO; AOAC, 2004) e (BORGES, 2006):
• z < 2 Resultado satisfatório
• 2 < z < 3 Resultado questionável
• z > 3 Resultado insatisfatório
zi =
yi − Md
IQRnorm
(2.17)
na qual M d representa o valor da mediana, yi o resultado i.
2.2.7
Redução de Dados Utilizando Algoritmos para Ranking de
Atributos (ARA)
As médias e a variância podem indicar se um atributo é relevante na distinção de
duas classes ou não. Caso os dados apresentem uma distribuição normal, a relevância dos atributos pode ser avaliada pela variância. Caso o atributo não ajude a separar
as classes este possui pouca relevância para o problema em questão.
LimiarI = x̄(A) − 2 σ(A)
(2.18)
LimiarS = x̄(A) + 2 σ(A)
(2.19)
2.2 ESTATÍSTICA
52
Considerando dois atributos x1 e x2 , neles x2 representa uma classificação A ou
B e x1 contendo n1 exemplos da classe A e n2 exemplos da classe B.
É possível determinar se o atributo x1 contribui para a distinção das classes. Ou
seja, se as médias estão próximas ou muito distantes (OLIVEIRA, 2003), (CIOS; KURGAN,
2003), (ZARATE, 2003), (ZARATE; PAOLIELLO; RIBEIRO, 2003b) e (ZARATE; PAOLIELLO; RIBEIRO, 2003a). Existem autores que utilizam o critério de +3 ou -3 desvios padroni-
zados, para avaliar a existência de candidatos à dado suspeito (UFPR, 2008). Nestes
casos é comum tomar como medida da capacidade de um processo a dispersão de
seis-sigma na distribuição da característica da qualidade do produto, que é representada por: x̄ ± 3 σ e é comumente chamada de faixa característica do processo. A
capacidade do processo é avaliada por meio da comparação da faixa característica do
processo com a faixa de especificação determinada pelo cliente.
δ(A − B) =
r
σ 2 (A) σ 2 (B)
+
n1
n2
x̄(A) − x̄(B) − LimiarI
teste1 = δ(A − B) x̄(A) − x̄(B) − LimiarS
teste2 = δ(A − B) (2.20)
(2.21)
(2.22)
Nestes dois testes o valor deve ser positivo para o atributo x1 contribuir com a distinção das classes (OLIVEIRA, 2003), (CIOS; KURGAN, 2003), (ZARATE, 2003), (ZARATE;
PAOLIELLO; RIBEIRO, 2003b) e (ZARATE; PAOLIELLO; RIBEIRO, 2003a).
2.2.8
Análise de Variância - ANOVA
O objetivo da análise de variância (ANOVA) é avaliar se as diferenças observadas
entre as médias das amostras são estatisticamente significantes.
Uma análise de variância expressa uma medida da variação total num conjunto
de dados como uma soma de termos, cada um dos quais é atribuído a uma fonte
ou causa específica de variação (FREUND, 2006), (CAMPOS, 2003), (LAPPONI, 2005) e
2.2 ESTATÍSTICA
53
(NEUFELD, 2003).
Para poder aplicar o procedimento de análise de variância, algumas condições precisam ser cumpridas (FREUND, 2006), (CAMPOS, 2003), (LAPPONI, 2005) e (NEUFELD,
2003):
• As amostras devem ser extraídas de populações que tenham distribuições normais;
• As amostras devem ser aleatórias e independentes;
• As populações devem ter a mesma variância.
O teste de hipóteses da análise de variância é estabelecido como (FREUND, 2006),
(CAMPOS, 2003), (LAPPONI, 2005) e (NEUFELD, 2003):
• A hipótese nula H0 afirma que as K populações têm a mesma média.
• A hipótese alternativa H1 afirma que nem todas as médias das K populações
são iguais.
Os testes propostos podem ser de origem qualitativa ou quantitativa, mas a variável dependente necessariamente deverá ser contínua.
2.2.9
Teste F
O teste F é um teste de hipóteses utilizado para verificar se as variâncias das duas
populações são diferentes, ou para verificar qual das duas populações com distribuição normal têm mais variabilidade. De outra maneira, conhecida duas amostras com
qualquer tamanho, o teste F dá condições para determinar se as duas amostras pertencem à mesma população. O procedimento estatístico é o seguinte (FREUND, 2006),
(CAMPOS, 2003), (LAPPONI, 2005) e (NEUFELD, 2003):
• De duas populações com distribuição normal são retiradas duas amostras aleatórias com variâncias σ12 e σ22 .
• O teste tem as hipóteses: H0 : σ12 = σ22 , e H1 : σ12 > σ22 . Essas hipóteses podem
ser reescritas como: H0 :
σ12
σ22
= 1 e H1 :
σ12
σ22
>1
2.2 ESTATÍSTICA
54
• Se as variâncias das populações não forem conhecidas, as variâncias das amostras deverão ser utilizadas, pois são as melhores estimativas das respectivas
variâncias das populações. Com as variâncias será calculado o F observado
Fo =
S1 2
S2 2
(2.23)
• Como regra, a variância do numerador de Fo deve ser a da amostra que tiver
maior variância, pois com essa escolha, Fo sempre será maior do que 1 e,
consequentemente, somente será utilizada a cauda superior da distribuição F.
A partir desse momento o índice um sempre identificará a amostra com maior
variância.
• Se n1 e n2 forem os tamanhos das amostras aleatórias retiradas das populações, a distribuição F terá v1 = n1 − 1 graus de liberdade do numerador e
v2 = n2 − 1 graus de liberdade do denominador.
• Com o nível de significância α e os graus de liberdade, do numerador e do denominador, será obtido o F crítico Fc .
• Comparando o F observado Fo e o F crítico Fc : Se Fo > Fc , a hipótese nula
deverá ser rejeitada; caso contrário, a hipótese nula será aceita.
• Comparando o p − value = P (Fc ≥ Fo ) e o nível de significância adotado α: Se
p−value < α, a hipótese nula deve ser rejeitada; caso contrário, se p−value < α,
a hipótese nula deverá ser aceita.
A forma equivalente de anunciar a conclusão do teste de hipóteses aplicando a
distribuição F é mostrada na Figura 4 (FREUND, 2006), (CAMPOS, 2003), (LAPPONI,
2005) e (NEUFELD, 2003):
Além disso, as principais características da distribuição F são (FREUND, 2006),
(CAMPOS, 2003), (LAPPONI, 2005) e (NEUFELD, 2003):
• A distribuição F é contínua e sempre positiva com valores no intervalo (0, +∞).
A distribuição F tem inclinação positiva.
• Há uma família de distribuições F identificadas por dois parâmetros, graus de
liberdade do numerador v1 e graus de liberdade do denominador v2 . A forma
final da distribuição depende dos graus de liberdade v1 e v2 .
2.2 ESTATÍSTICA
55
Figura 4: Forma equivalente do teste F.
2.2.10
Teste Cochran
Um teste muito simples e de fácil execução, para verificar a homogeneidade das
variâncias, é o teste de Cochran - que consiste em calcular todas as variâncias envolvidas no experimento e dividir a maior delas pela soma de todas (MARANHA et al., 2006).
O valor resultante da divisão é então comparado com os valores críticos, que leva em
conta o número de variâncias envolvidas e o número de graus de liberdade utilizado
nos cálculos. É uma extensão da prova de McNemar (NASCIMENTO; CARVALHO, 2001).
O teste descrito por Cochran pode ser usado quando se deseja decidir se uma
estimativa de variância é excessivamente grande ou não, em comparação com um
grupo (CONAGIN et al., 1993). O Teste de Cochran se aplica apenas quando todos os
desvios-padrões forem obtidos a partir de um mesmo número de resultados em condições de repetitividade. O teste consiste em calcular C Cochran e comparar com C
Cochran crítico. Se a repetitividade das medidas é independente do valor da concentração, esta condição de variância uniforme é chamada homocedástica, e quando não
uniforme, heterocedástica (TAVARES, 2008). Talvez a única dificuldade na execução
desse teste seja decidir quais variâncias testar (CAMPOS, 2000).
2.2 ESTATÍSTICA
56
Este procedimento é baseado no critério de máxima variância de Cochran. Dado
um conjunto de p com desvios padrão Si (i = 1, 2, ..., p) todos computados com o
mesmo número de repetições n, o critério de Cochran é dado por (SANTOS; DIAS; SILVA,
2007) e (JCOlivieri Consultoria, 2008) e (FUNARBE, 2008):
Ccalculado =
S2
p
X
Si2
(2.24)
i=1
na qual,
S 2 = maior variância
Si2 = variância a ser verificada
Se o valor calculado da razão for maior que o valor crítico, a variância em questão
é considerada como sendo dado suspeito (BORGES, 2006).
O teste de Cochran é um teste diferente porque nele é de interesse que o valor
calculado seja menor do que o valor crítico, e não maior como ocorre na maioria dos
testes estatísticos, pois é exatamente isso que indica que as variâncias são homogêneas (FONSECA; SANTOS, 2004). De fato, se o valor calculado fosse maior, o resultado
seria significante, o que negaria a hipótese de igualdade (ou de homogeneidade) das
variâncias envolvidas no experimento.
2.2.11
Análise Discriminante
2.2.11.1 Escolha pela análise de variância univariada
Neste procedimento, uma comparação é feita através de análise de variância entre
os vários grupos que estão sendo considerados com respeito a cada variável, separadamente. Aquelas variáveis com valores da estatística F mais significativos estão
relacionadas às variáveis mais importantes para a discriminação dos grupos. Este procedimento tem o inconveniente de analisar o efeito de cada variável individualmente,
não levando em consideração a correlação que as variáveis têm entre si.
2.2 ESTATÍSTICA
57
2.2.11.2 Método Forward
Esse método é similar ao utilizado em análise de regressão linear múltipla (STEINER, 2008). No primeiro passo do algoritmo, ajusta-se uma análise de variância para
cada uma das p-variáveis candidatas a entrar no modelo separadamente. Dentre as
variáveis significativas, dá entrada no modelo de discriminação aquela de maior significância, ou seja, a de maior poder para discriminação dos grupos. Se não houver
qualquer variável significativa, o algoritmo é interrompido. Supondo-se que uma variável tenha dado entrada no modelo, no primeiro passo do algoritmo, o procedimento
forward prossegue na busca de uma nova variável significativa. Para isto, um modelo
ANCOVA (Análise de Covariância) é ajustado, considerando-se a variável candidata a
entrar como resposta e aquela que já entrou no primeiro passo como explicativa (covariável). Isto é feito para todas as variáveis candidatas e, dentre as mais significativas,
escolhe-se a de maior significância para entrar no modelo. No terceiro passo, um modelo ANCOVA é ajustado para cada uma das candidatas restantes, considerando-se
as variáveis que entraram nos passos 1 e 2 como explicativas. Este procedimento é
repetido até que não haja mais variáveis significativas para dar entrada no modelo.
2.2.11.3 Método Backward
O método backward se inicia considerando todas as variáveis candidatas à discriminação como parte de um único modelo de regressão. A partir daí, testa-se a
significância de cada variável, eliminando-se, dentre as não significativas, aquela de
menor significância, ou seja, a de menor poder de discriminação. A decisão sobre a
eliminação ou não da variável é tratada como a variável-resposta e as (p − 1) variáveis
restantes como explicativas (covariáveis). A estatística F é calculada para cada variá-
vel e, se o valor de F observado for menor que o valor F de referência escolhido para
a saída de variáveis, ela será candidata a sair. Em cada passo do algoritmo sai a variável de menor significância. Se uma variável for removida, o procedimento backward
prossegue buscando uma segunda variável para remoção, o que é feito novamente
através do ajuste de um modelo ANCOVA para cada uma das (p − 1) variáveis sepa-
radamente, considerando-a como variável-resposta em função das (p − 2) variáveis
restantes. Este procedimento é repetido até que não haja mais variáveis para serem
removidas do modelo.
2.2 ESTATÍSTICA
58
2.2.11.4 Método Stepwise
Este método é uma combinação dos procedimentos forward e backward. Neste
procedimento, as variáveis dão entrada no modelo uma a uma, de acordo com o valor
de F parcial de entrada em cada estágio. No primeiro passo do algoritmo, os valores
de F parciais considerados para a análise de entrada da variável são aqueles calculados como descritos em 2.2.11.1 e no primeiro passo do algoritmo do método forward.
A partir do segundo passo, os F parciais de entrada são calculados levando-se em
consideração apenas as variáveis que já entraram e permaneceram no modelo nos
passos anteriores. Os valores calculados de F parciais, para as variáveis candidatas
a entrar, são comparados com um valor F de referência escolhido a priori, que determina a entrada ou não da variável. Em cada estágio do algoritmo, faz-se um teste para
a saída de variáveis. Isto é feito para cada variável separadamente, considerando o
ajuste de um modelo ANCOVA, no qual a variável em questão é tratada como resposta
e as outras que ja estão no modelo são tratadas como explicativas (covariáveis). Por
exemplo, se num estágio houver 3 variáveis, x1 , x2 e x3 , já incluídas no modelo no qual
x1 é a variável-resposta, e x2 e x3 são as covariáveis; o F parcial para x2 calculado
com base no modelo no qual x2 é a variável-resposta e x1 e x3 são as covariáveis e
por último o F parcial de x3 calculado com base no modelo no qual x3 é a variávelresposta e x1 e x2 são as covariáveis. Os valores de F parciais assim calculados são
comparados com o valor de F de referência e permanecem as variáveis que são significativas, ou seja, que apresentam um valor de F parcial acima do valor de referência.
O procedimento termina no momento em que não houver mais variáveis significativas
para dar entrada no modelo.
Em todos os métodos a escolha do valor de F de referência de entrada ou saída
de variáveis está relacionada com o nível de significância que se deseja utilizar em
cada caso. Assim, ao invés de se utilizar o valor da estatística F para a decisão sobre entrada e saída de variáveis, também é comum comparar-se a probabilidade de
significância padrão, como 5 %, para determinar se ela deve entrar ou sair do modelo. Os valores de referência de F, assim como os valores de níveis de significância
para entrada e saída de variáveis, não precisam ser necessariamente iguais. Existem
algumas sugestões na literatura a respeito da escolha do nível de significância que
deve ser utilizado para entrada e saída de variáveis. Para o procedimento backward, o
valor sugerido é 1 %, enquanto que para o método stepwise, recomenda-se um nível
de significância entre 25 a 50 % para entrada de variáveis e de 15 % para saída de
2.2 ESTATÍSTICA
59
variáveis. Estes valores altos de níveis de significância são recomendáveis em função do fato de que, na prática, é comum haver situações nas quais, embora se tenha
um bom conjunto de variáveis discriminantes, ao aplicarem-se os métodos de seleção
de variáveis, não se consegue encontrar variáveis significativas para discriminação,
pelo fato de se estar postulando um valor muito pequeno de nível de significância para
comparação, ou seja, há um nível de exigência muito elevado.
Dentre os métodos descritos, os mais recomendáveis são o backward e o stepwise.
O método forward tem o inconveniente de, algumas vezes, produzir modelos nos quais
nem todas as variáveis são significativas.
A utilização dos métodos automáticos de seleção de variáveis discriminantes não
assegura que o modelo final com as variáveis escolhidas será de boa qualidade. Deste
modo, após usar algum método de seleção de variáveis, é necessário que o usuário
faça uma análise de sua qualidade de ajuste em termos das probabilidades de erros
de classificação, como descrito em 2.2.1.
2.2.12
Índice de Capacidade (CP )
A capacidade do processo pode ser avaliada por meio das análises gráficas, na
comparação de histogramas ou gráficos sequenciais, ou por meio de índices de capacidade. Índices de capacidade de processos têm sido usados frequentemente para
determinar se um processo é capaz de produzir itens em conformidade com a tolerância especificada.
Para utilizar os índices de capacidade de processos é necessário que:
• as variáveis de interesse tenham distribuição aproximadamente normal multivariada.
O cálculo do índice de capacidade é dado pela Equação (2.25).
CP =
1
(LSE − LIE )
6 σ(A)
(2.25)
na qual LSE e LIE são limites superior e inferior da especificação de engenharia,
ou seja, os limites aceitáveis para as variáveis em questão.
2.2 ESTATÍSTICA
60
Se CP > 1, isto indica que o processo é capaz de atender à especificação. Alguns
autores preferem utilizar 8 no denominador ao invés de 6, neste índice. A idéia é dar
uma margem de segurança maior, já que, mesmo estável, podem ocorrer pequenas
alterações em σ (BAPTISTA, 1996), (IMAM, 2004) e (RAMOS, 2000).
Avaliação de processo pelo CP :
1o caso: Processo bastante satisfatório: 1, 33 ≤ CP
2◦ caso: Processo adequado: 1, 00 ≤ CP < 1, 33
3o caso: Processo inadequado: CP < 1, 00
Na prática, para avaliação da capacidade de processos, pode-se usar histogramas
assinalando neles as linhas de LSE e LIE
2.2.13
Índice de Capacidade K (CP K)
O índice é definido como sendo o menor valor entre CP I (índice de capacidade
inferior) e CP S (índice de capacidade superior), ou seja (BAPTISTA, 1996):
CPK = min(CPI , CPS )
(2.26)
Com
CPI =
1
(x̄(A) − LIE )
3 σ(A)
(2.27)
CPS =
1
(LSE − x̄(A))
3 σ(A)
(2.28)
E
Enquanto que o índice CP somente compara a variação total permitida pela especificação com a variação utilizada pelo processo, sem fazer nenhuma consideração
quanto à média, o índice CP K avalia a distância da média do processo (x̄) aos limites
da especificação, tomando aquela que é o menor, e, portanto, mais crítico em termos
de chances de serem produzidos itens fora da especificação. Se CP K > 1, então o
2.3 LÓGICA FUZZY
61
processo será capaz (RAMOS, 2000).
Alguns autores também preferem utilizar o valor 4 no denominador de CP I e
CP S, em vez de 3. A idéia é similar à exposta no índice CP (BAPTISTA, 1996) e (IMAM,
2004).
Quando somente há especificação unilateral para a característica de qualidade,
ou seja, quando somente há um valor mínimo ou máximo, então não mais há sentido
em se calcular o índice CP , já que ou LIE ou LSE inexiste (IMAM, 2004) e (RAMOS,
2000).
Quanto ao índice CP K, este também ficará afetado pela especificação unilateral,
pois somente será possível calcular ou CP I ou CP S (BAPTISTA, 1996).
Concluindo, nos casos de especificações unilaterais somente CP K é calculado,
e, mesmo assim, somente CP I ou CP S, dependendo de haver somente uma especificação mínima ou máxima, respectivamente (RAMOS, 2000).
Quando a distribuição dos valores individuais não mais é satisfatoriamente representada por uma distribuição normal, ou, então, os dados se apresentam autocorrelacionados (não há independência entre eles ao longo do tempo), não mais se pode
tomar a decisão da capacidade do processo com base nos índices CP ou CP K,
já que, no cálculo destes, são admitidas estas hipóteses (BAPTISTA, 1996) e (IMAM,
2004).
Contudo, a avaliação ainda pode ser feita por meio do histograma, marcando-se
os limites de especificação sobre este e avaliando-se se é (ou não) possível produzir
produtos conformes (IMAM, 2004) e (RAMOS, 2000).
2.3 LÓGICA FUZZY
A Lógica Fuzzy é uma teoria matemática que tem como principal objetivo permitir a modelagem do modo aproximado de raciocínio, imitando a habilidade humana
de tomar decisões em ambientes de incerteza e imprecisão (PASSOS; GOLDSCHMIDT,
2005). A lógica fuzzy, também conhecida como nebulosa ou difusa, foi proposta por
Lotfi Zadeh em 1965, como uma extensão da teoria matemática dos conjuntos e da
lógica clássica. Sua proposta é permitir que uma função de pertinência pudesse retornar valores pertencentes ao intervalo de 0 a 1, possibilitando maior flexibilidade que a
lógica clássica booleana. O objetivo principal da utilização da lógica fuzzy é permitir
2.3 LÓGICA FUZZY
62
que expressões linguísticas sejam passíveis de operação por computadores (SILVA,
2006).
O advento da lógica fuzzy foi causado pela necessidade de um método capaz de
expressar de uma maneira sistemática quantidades imprecisas, vagas, mal-definidas
(REZENDE, 2005) e (SHAW; SIMOES, 1999). Observou-se na última década uma mudança conceitual referente ao entendimento dos sistemas baseados em lógica fuzzy
e suas potencialidades. Antes confinados a aplicações específicas e de pequeno
porte, eles passaram a ser cada vez mais utilizados de forma integrada com outras
tecnologias em sistemas de maior porte e de uso mais geral.
A mesma é uma modalidade da lógica capaz de tratar conceitos vagos, imprecisos
ou ambíguos - em geral descritos na linguagem natural humana - e convertê-los para
um formato numérico, de fácil processamento computacional (SHAW; SIMOES, 1999). A
mesma representa um maneira importante de manuseio de informações imprecisas,
fornecendo um método de traduzir expressões verbais, vagas, imprecisas e qualitativas, comuns na comunicação humana, em valores numéricos, sendo muito distinta
da teoria de probabilidades (REZENDE, 2005) e (SHAW; SIMOES, 1999). Assim, a tecnologia fuzzy tem um imenso valor prático, na qual se torna possível a inclusão da
experiência de operadores humanos, além de possibilitar estratégias de tomadas de
decisão em problemas complexos. A mesma é útil em tarefas de tomadas de decisão.
Nela as variáveis individuais não são definidas em termos exatos. Por exemplo, no
sequenciamento de tarefas de uma linha industrial, ou na aplicação em logística e planejamento de manutenção, o uso de lógica fuzzy pode significar vantagens adicionais
em minimização de custos, devido à facilidade de implementação dessas estratégias
(REZENDE, 2005) e (SHAW; SIMOES, 1999).
Os conjuntos fuzzy são representados de acordo com a natureza e a dimensão
do universo de discurso em estudo. Quando o universo de discurso é contínuo ou é
constituído por uma grande quantidade de elementos discretos, a forma mais indicada
de representação é o gráfico de sua função de pertinência, chamado de Diagrama de
Hassi-Euler (H-E). A Figura 5 apresenta um diagrama H-E genérico.
A conversão escalar - fuzzy é um mapeamento do domínio de números reais discretos, em geral - para o domínio fuzzy. Este processo atribui valores linguísticos,
definidos por funções de pertinência, às variáveis de entrada (ALMEIDA, 2008).
A conversão fuzzy - escalar é um método utilizado para decodificar as variáveis
linguísticas de saída inferidas pelas regras fuzzy para valores reais - geralmente dis-
2.3 LÓGICA FUZZY
63
Figura 5: Diagrama de Hassi-Euler: gráfico da função de pertinência fuzzy (ALMEIDA,
2008).
cretos. Os principais métodos de conversão fuzzy - escalar são o Centro-da-Área, o
Centro-do-Máximo, a Média-do-Máximo e a Média-Ponderada (ALMEIDA, 2008).
Por exemplo, no enfoque fuzzy, uma função real de entrada-saída é aproximada
por seções que cobrem regiões da função. Em vez de se especificar um valor exato de
um ponto na função de entrada-saída, a seção indicaria um conjunto de valores plausíveis. Quanto maior a cobertura da região, mais fuzzy seria um valor nesse conjunto
para representar um ponto real. Cada região é expressa por uma regra heurística SE
... ENTÃO. Da mesma maneira, quanto menos fuzzy, elas se tornariam pontos, por
exemplo (SHAW; SIMOES, 1999):
Código Fonte 2.1: Regras Fuzzy.
I f causa1 = A and causa2 = B then e f e i t o = C
no qual A, B e C são conjuntos.
Código Fonte 2.2: Regras de um modelo Fuzzy.
I f a t e m p e r a t u r a e s t a BAIXA no f o r n o # 2 then mantenha o f o r n o # 2 MAIS
TEMPO LIGADO
no qual os termos BAIXA e MAIS TEMPO LIGADO representam conjuntos fuzzy.
BAIXA é uma função que define o grau de intensidade da temperatura, enquanto MAIS
TEMPO LIGADO é uma função que define o grau de duração do tempo de operação
do forno.
O fato de se implantar inteligência no controlador de forno neste caso consiste
2.4 DISCUSSÕES FINAIS
64
então em associar esses termos fuzzy por meio de uma inferência fuzzy, expressa por
uma estrutura SE ... ENTÃO.
2.3.1
Modelo de Takagi-Sugeno-Kang
Na década de 80, foi proposta uma estrutura de inferência baseada na teoria de
conjuntos fuzzy. Esta estrutura é denominada sistema de inferência de Sugeno, modelo de inferência fuzzy paramétrico ou simplesmente modelo TSK (REZENDE, 2005) e
(SHAW; SIMOES, 1999). Os autores demonstraram que estes modelos funcionam como
bons aproximadores para sistemas que podem ser completa ou satisfatoriamente representados apenas por meio de suas relações de entrada e saída (REZENDE, 2005)
e (SHAW; SIMOES, 1999).
Uma aplicação bastante comum dos modelos de inferência fuzzy é sua utilização
para aproximação de funções não-lineares. Pelas suas propriedades sintáticas, os
modelos de inferência de TSK são mais adequados a este fim. A existência de funções
paramétricas nos consequentes de suas regras e a facilidade de se ajustarem a partir
de um conjunto de dados de entrada e saída faz com que eles sejam intrinsecamente
relacionados com a tarefa de aproximação de funções em geral. Um exemplo genérico
de regras TSK pode ser visto no Código 2.3.
Código Fonte 2.3: Regras de um modelo Fuzzy TSK.
I f x1 = A i and x2 = A j and . . . and xp = Am then y = F ( x1 , x2 , . . . , xp )
O processamento de conhecimento em um modelo TSK é similar ao ocorrido em
modelos de Mamdani. A etapa de conversão escalar-fuzzy é idêntica, exceto pelo fato
de que a norma T utilizada na maioria da aplicações não é a função Min, mas a função
Prod (ALMEIDA, 2008) e (REZENDE, 2005). A saída numérica é calculada diretamente
pela soma das saídas das regras, ponderada pelos valores de ativação de cada uma
delas.
2.4 DISCUSSÕES FINAIS
Este Capítulo apresentou as técnicas usadas no desenvolvimento deste trabalho.
A Seção 2.1 descreveu a teoria das RNA, bem como suas aplicações práticas. A
Seção 2.2 detalhou os métodos estatísticos que constituem este trabalho. Finalmente
2.4 DISCUSSÕES FINAIS
65
na Seção 2.3 foi abordado a lógica fuzzy, sua definição e o modelo proposto.
É comum a utilização de cada técnica separada para a resolução do problema
estudado. A utilização da lógica fuzzy e RNA em conjunto, denominada de abordagem
híbrida ou neuro-fuzzy também é muito utilizada. A união da estatística com a RNA
e a lógica fuzzy não é comum na literatura, o que justifica em parte a sua utilização
como foco deste trabalho.
66
3
DETALHAMENTO DA
PROPOSTA DE REFINAMENTO
DE MODELOS BASEADO EM
TÉCNICAS ESTATÍSTICAS
3.1 CONSIDERAÇÕES INICIAIS
Este Capítulo relata o detalhamento da proposta de refinamento de modelos baseados em técnicas estatísticas. A Seção 3.2 faz uma breve introdução sobre a proposta
geral de refinamento estatístico utilizada. A Seção 3.3 apresenta os detalhes do problema estudado. A Seção 3.4 especifica o hardware utilizado bem como o software. A
Seção 3.5 abrange a etapa de pré-processamento, que é uma das mais importantes
e mais árduas, e portanto, deve-se ter uma maior atenção pois dela depende o bom
desenvolvimento do trabalho, ainda nesta Seção há a Subseção 3.5.1 que cita o desenvolvimento do trabalho em si, com as principais técnicas utilizadas. Por último, a
Seção 3.6 apresenta as discussões finais do Capítulo.
3.2 PROPOSTA GERAL DE REFINAMENTO ESTATÍSTICO
A proposta geral de refinamento estatístico segue estas etapas: primeiro foi feita
análise de dados suspeitos, e, em seguida foi utilizada a lógica fuzzy para validar a
análise de dados. Depois foi feita a análise de semelhança e PCA para a seleção de
variáveis úteis ao modelo matemático do problema. No caso de redução de componentes, a PCA foi realizada novamente até que não ocorram novas reduções. Estas
etapas são visualizadas na Figura 6.
Para um melhor entendimento, as próximas seções descrevem com mais detalhes
3.3 EXPLORAÇÃO DO ESPAÇO SOLUÇÃO
67
Figura 6: Técnicas de tratamento estatístico propostas e implementadas neste trabalho.
esta proposta.
3.3 EXPLORAÇÃO DO ESPAÇO SOLUÇÃO
O problema aqui tratado é um problema de previsão. Um problema de previsão
visa a modelagem dos estados seguintes de um determinado sistema, baseado nos
seus estados anteriores, podendo ser caracterizado, portanto, como um problema de
extrapolação (CARVALHO, 2005), (OLIVEIRA, 2003) e (PASSOS; GOLDSCHMIDT, 2005). O
único meio de se verificar se uma previsão foi bem feita é aguardar o acontecimento e
verificar o quanto foi acertada ou não a previsão realizada. As RNA e a estatística são
ferramentas utilizadas em previsão. Existe uma diferença fundamental, entretanto, na
abordagem que essas duas técnicas usam para representar um ambiente real. Nos
métodos estatísticos, os modelos matemáticos do ambiente são formulados primeiramente. Os parâmetros são então estimados e finalmente o modelo é validado. Com
RNA, a arquitetura de rede é primeiramente construída (pelas características do problema) e depois disso a rede é treinada para prever respostas a um conjunto de dados
de treinamento da melhor forma possível (HAYKIN, 2007).
Este problema primeiro foi estudado por Araujo (2008) que propôs a modelagem
do processo de produção de aço da Vallourec & Mannesmann do Brasil (V&M), baseado nos estudos de (CUNHA, 2001) e (PACIANOTTO, 2003). Um banco de dados, com
medições e especificações técnicas da produção de aço foi fornecido pela (V&M).
Após reuniões realizadas com os engenheiros responsáveis pelo processo, foram selecionadas 15 variáveis de influência mais relevante para a temperatura de saída. Na
3.3 EXPLORAÇÃO DO ESPAÇO SOLUÇÃO
68
modelagem foram utilizadas redes neurais artificiais MLP e P-CMAC. A variável de
saída da rede era a temperatura do aço. Para efetuar este estudo foi utilizado o algoritmo de regressão passo a passo (stepwise regression) do software MATLAB, que
selecionou 10 variáveis para a rede MLP. Na P-CMAC foram utilizadas as 7 primeiras
variáveis. Durante o treinamento foram utilizadas várias funções de ativação. Nos
testes realizados, a rede não mostrou o comportamento esperado devido ao baixo
número de neurônios utilizados. Este número não pôde ser aumentado devido ao
crescimento exponencial do número de equações necessárias para se processar a
rede. Assim, os resultados obtidos no treinamento e execução da rede, não foram
considerados adequados porque foram superiores à precisão do sensor da V&M que
é 20◦ C. A conclusão que se chegou foi que a base de dados era muito ruidosa o que
dificultava a convergência das RNA. Assim, nasceu a idéia de aplicar técnicas estatística para filtrar os dados e variáveis mais influentes, para a resolução deste problema.
Uma base de dados pode conter dados numéricos ou categóricos, sendo necessário saber lidar adequadamente com cada um destes casos. As 4 bases originais
possuem as seguintes variáveis: Número da Corrida (NUMCORRIDA), Quantidade
de Gusa (kg) (HOTMETAL), Temperatura do Gusa (o C) (HMTTEMGU1), Quantidade
Total de Sucata (kg) (SCRTOTAMO), Quantidade de Cal Calcítica (kg) (LIMAMO),
Quantidade de Cal Dolomítica (kg) (LIMDOLAMO), Volume de Oxigênio Soprado (m3 )
(OXYCUR), Percentual de Carbono do Gusa (%) (HMTCGU1), Percentual de Silício
do Gusa (%) (HMTSIGU1), Percentual de Manganês do Gusa (%) (HMTMNGU1), Percentual de Fósforo do Gusa (%) (HMTPGU1), Idade da Lança de Sopro (LANAGE),
Temperatura do Aço (o C) (TEMACT), Código do Aço (GRADCOD), e Idade do Vaso
(VESAGE).
É importante aplicar técnicas de seleção de variáveis, para reduzir o número de entradas do processo e avaliar que tipo de ganho este processamento daria ao sistema
como um todo. Além disso, é relevante executar uma etapa de pré-processamento
para eliminar erros e ruídos do banco de dados, de modo que o treinamento inicial
da rede seja otimizado, eliminando sinais do campo que não agregam informações ao
processo.
3.4 INSTRUMENTOS DE ANÁLISE E FILTRAGEM DE DADOS
69
3.4 INSTRUMENTOS DE ANÁLISE E FILTRAGEM DE DADOS
Foram utilizados os software livre R versão 2.8.1 e o gretl 1.7.9, que, por meio
de dados selecionados geraram: distribuições de frequências, gráficos, medidas de
tendência central (média e mediana), e medidas de dispersão (variância e desvio padrão). O R e o gretl fornecem uma ampla variedade de técnicas estatísticas (modelagem linear e não linear, testes estatísticos clássicos, análise de séries temporais,
classificação, agrupamento,...) e gráficos, e são altamente extensíveis. Os mesmos
são, portanto, importantes ferramentas na análise e manipulação de dados, com testes paramétricos e não paramétricos, modelagem linear e não linear, análise de séries temporais, análise de sobrevivência, simulação e estatística espacial, além de
apresentarem facilidade na elaboração de diversos tipos de gráficos, dentre outras (R
Development Core Team, 2008).
Além dos procedimentos estatísticos, o R permite operações matemáticas simples,
e manipulação de vetores e matrizes, assim como a confecção de diversos tipos de
gráficos.
Para consultas, reduções e seleção de dados via SQL foi utilizado o software livre
Foxy SQL Free versão 1.1.0.12. Para visualização e armazenamento dos dados foi
utilizado o software Calc do pacote BrOffice versão 3.0. Para o desenvolvimento da
lógica fuzzy e RNA foi utilizado o Matlab versões 6.5 e 7.6 (R2008a). Algumas funções
utilizadas para os testes estatísticos também foram desenvolvidas nos softwares livres
R, Scilab versão 5.0.3, Octave versão 3.0.3 e FreeMat versão 2.0.
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS
A etapa de pré-processamento compreende as funções relacionadas à captação,
à organização, ao tratamento e à preparação dos dados. Compreende desde a correlação de dados errados até o ajuste da formatação dos dados, além de eliminar erros
e ruídos do banco de dados, de modo que o treinamento inicial da rede seja otimizado,
eliminando sinais do campo que não agregam informações ao processo. As causas
que levam à situação de ausência de dados são a não disponibilidade do dado ou a
inexistência do mesmo. Uma situação de não disponibilidade ocorre quando da não
divulgação do dado.
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS
3.5.1
70
Seleção e Tratamento de Dados
Uma vez definido o domínio sobre o qual se pretende executar o processo de
descoberta, o próximo passo é selecionar e coletar o conjunto de dados ou variáveis necessárias. No entanto é necessário tirar dados irrelevantes que podem trazer
conhecimento falso ou, no melhor dos casos, aumentar o tempo de processamento.
Logo, as tuplas que possuem pelo menos uma inconsistência são removidas. Em um
banco de dados, valores ausentes ou vazios são chamados de null, NAN ou NA e este
não é um tipo de valor.
Uma base de dados é considerada muito grande se esta possui duas características: alta dimensionalidade e grande número de registros. Um número grande de
atributos pode gerar muitas combinações, exigindo grande esforço computacional. E
um grande número de atributos exige grande número de instâncias. O principal alvo
da redução de dados é a redução da dimensão e a principal questão é saber quais
atributos podem ser descartados sem afetar a qualidade dos resultados.
No tratamento dos dados, o objetivo é preparar esses dados de modo a assegurar
sua qualidade e eficiência. Os itens mais importantes para o tratamento dos dados
são:
• Eliminação de dados duplicados ou corrompidos - dados duplicados ou corrompidos são removidos.
• Tratamento de dados suspeitos - dados com valores inválidos, ou significantemente fora do esperado para uma variável são removidos.
• Transformação dos dados - essa etapa pode ser subdivida em duas tarefas: Tra-
tamento de Atributos - adequar os diferentes tipos de atributos. Normalização
- tratar dados com atributos de diferentes dimensões, quando se pretende que
eles tenham a mesma influência no processo.
A seleção por redução de dados horizontal é caracterizada pela escolha de casos.
Entre as operações de redução de dados horizontal podem ser citadas: eliminação direta de casos e segmentação do banco de dados. Nesta operação, deve-se escolher
um ou mais atributos para nortear o processo de segmentação. Por exemplo, a redução de linhas de uma tabela, neste caso há uma redução do número de instâncias.
Os critérios adotados para seleção de registros de dados, foram baseados na
análise do banco de dados e do problema em questão. A identificação dos casos com
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS
71
inconsistência foram obtidas por meio de consultas em SQL, cujas restrições especificam o tipo de inconsistência a ser verificada, conforme exemplificado nos Códigos
Fontes 3.1 e 3.2.
Código Fonte 3.1: Código SQL para consulta de inconsistências.
SELECT *
FROM LDCEFE
WHERE TIMDIT < 0 ;
Código Fonte 3.2: Código SQL para consulta de inconsistências.
SELECT *
FROM LDCEFE
WHERE TIMDIT = 0 ;
A operação de redução de valores é uma alternativa à opção de corte de atributos oferecida pela redução de dados vertical. Essa operação consiste em reduzir o
número de valores distintos em determinados atributos, o que pode proporcionar um
melhor desempenho. Por exemplo, a redução de colunas de uma tabela, neste caso
há uma redução de atributos. É a atividade pela qual os ruídos, dados estranhos ou
inconsistentes (dados heterogêneos, incompletos, repetição de tuplas, problemas de
tipagem) são tratados. Com menos valores, menos comparações são feitas, reduzindo o tempo de processamento. Oitenta por cento (80 %) do tempo consumido em
todo o processo se concentra na limpeza de dados. Abrange qualquer tratamento realizado sobre os dados selecionados de forma a assegurar a qualidade (completude,
veracidade e integridade) dos fatos por eles representados. Informações ausentes,
errôneas ou inconsistentes nas bases de dados devem ser corrigidas de forma a não
comprometer a qualidade dos dados.
Em aplicações reais, é comum que os dados estejam incompletos, ruidosos ou
inconsistentes. Os dados são considerados incompletos se há informação ausente
para determinados atributos ou ainda se há dados pouco detalhados. Dados ruidosos
são dados errados ou que contenham valores considerados divergentes do padrão
normal esperado, denominados dados suspeitos. Dados inconsistentes são aqueles
que contêm algum tipo de discrepância semântica entre si. É importante perceber que
a qualidade dos dados possui grande influência na qualidade dos modelos a serem
abstraídos a partir destes dados. Quanto pior for a qualidade dos dados informados,
pior será a qualidade dos modelos. A etapa de pré-processamento envolve, dentre
outras funções, a limpeza dos dados. A percepção sobre como os dados devem ser
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS
72
pré-processados, a fim de melhorar a qualidade, constitui uma questão de grande
relevância.
A fase de limpeza dos dados envolve uma verificação da consistência das informações, a correção de possíveis erros e o preenchimento ou a eliminação de valores
desconhecidos e redundantes, além da eliminação de valores não pertencentes ao domínio. A execução dessa fase tem como objetivo, portanto, corrigir a base de dados,
eliminando consultas desnecessárias. Em geral, os métodos de limpeza dos dados
dependem do contexto da aplicação e pressupõem a caracterização dos domínios
envolvidos.
Um exemplo simples de limpeza dos dados, é a definição de um intervalo de possíveis valores (domínio) para um determinado atributo. Caso surgisse qualquer valor
diferente dos definidos no intervalo, o registro contendo esse dado seria corrigido ou
mesmo removido da base de dados. A melhor maneira de evitar a poluição dos dados
é organizando a entrada dos dados. Os campos podem conter espaços em branco,
estar incompletos, inexatos, inconsistentes ou não identificáveis. A presença de valores ausentes em uma base de dados é um fato comum podendo estar distribuído
em diversos atributos, numa mesma instância (registro) ou de forma aleatória. Dois
pontos são observados quando se lida com dados ausentes:
• A decisão pela eliminação ou não do atributo ou do registro, que contêm valores
ausentes;
• A recuperação dos valores ausentes.
Um procedimento comum, para lidar com dados ausentes, consiste em eliminar
o(s) atributo(s) ou a(s) instância(s) da base de dados, que apresentam esses valores. Outros procedimentos sugerem a substituição de valores ausentes por valores
padrões ou valores médios em todas as ocorrências. A substituição por valor padrão,
mesmo o mais criterioso, pode introduzir na base informações distorcidas, que não
estão contidas no evento e nas circunstâncias que a gerou.
O critério adotado para a exclusão de registros do banco de dados foram os seguintes:
• Foram determinados como irrelevantes os registros com valores negativos. Es-
ses dados são desconsiderados tendo em vista a impossibilidade desses existirem.
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS
73
• Por meio do cálculo do desvio padrão de cada variável foi possível identificar
e remover os registros que se mostravam muito fora de três desvios padrões
(dados suspeitos) de acordo com o Limiar com três desvios.
Três operações básicas em um processo de redução de dados foram aplicadas:
• Eliminação de uma coluna (atributo);
• Eliminação de uma linha (instância);
• Reduzir número de valores de uma coluna (smooth).
Nesta operação são especificados os casos a serem eliminados e não os casos
que devem permanecer na análise. Lidar com dados mais relevantes pode ser mais
efetivo e mais eficiente, ou seja, pode ser alcançado um maior desempenho com o
mínimo de medidas e esforço computacional. Tais operações foram implementadas
por meio de instruções de exclusão em SQL do tipo:
Código Fonte 3.3: Código SQL para redução de dados.
DELETE FROM LDCEFE
WHERE HMTTEM = NULL ;
Código Fonte 3.4: Código SQL para redução de dados.
DELETE FROM LDCEFE
WHERE HMTTEM = 0 ;
Código Fonte 3.5: Código SQL para redução de dados.
DELETE FROM LDCEFE
WHERE HMTTEM < 0 ;
Feito isso, os dados válidos são selecionados. Nesta operação foram utilizadas as
técnicas estatísticas: IEQ, distância de Mahalanobis e o limiar, descritos na Seção 2.2,
o que pode ser visto na Figura 7. O limiar foi utilizado com 2 desvios e com 3 desvios.
Como o cálculo do limiar precisa dos LSE e LIE, e não havia está informação foi feita
uma analogia, ambos foram admitidos como o máximo e o mínimo de cada variável
das bases de dados originais. Mas, como também foi aplicado o IEQ, o LSE e o LIE
podem ser utilizados como sendo o Q3 + 3 ∗ IEQ e Q1 − 3 ∗ IEQ das amostras, pois
as bases originais apresentavam dados suspeitos de acordo com a análise IEQ. Tal
operação foi implementada por meio de instruções de seleção em SQL do tipo:
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS
74
Código Fonte 3.6: Código SQL para seleção de dados válidos.
SELECT *
FROM LDCEFE
WHERE TIMDIT > 0 ;
O conjunto de dados resultante desta consulta se torna o conjunto a ser efetivamente considerado deste ponto em diante. O arredondamento de valores, também
chamado de aproximação de valores, é uma função comum no cotidiano. Este método possui uma etapa inicial voltada à ordenação dos valores existentes no conjunto
de dados. Depois os dados são normalizados. Essa operação consiste em ajustar
a escala dos valores de cada atributo de forma que os valores fiquem em pequenos
intervalos, tais como de −1 a 1, ou de 0 a 1.
Os dados de entrada são normalizados, de tal forma que os valores de todos os
atributos pertençam a uma mesma faixa de valores. A normalização dos dados é
importante para garantir que cada variável tenha o mesmo peso, exercendo a mesma
influência na execução do algoritmo. Essa influência acontece predominantemente ao
se calcular as medidas de semelhança ou dessemelhança entre os dados, conhecida
como medidas de proximidades. Sem a normalização, as variáveis com maior escala
se tornam dominantes.
Feito isso é preciso avaliar a sua qualidade. A análise de capacidade do processo
é uma técnica que compara a variabilidade do processo com as especificações correspondentes. A análise baseia-se num grupo de índices, chamados de índices de
capacidade e de desempenho do processo. Os índices de capacidade de processo
analisam as informações de modo que seja possível avaliar se um processo é capaz
de gerar produtos que atendam às especificações provenientes dos clientes internos
e externos. Eles são bastante úteis no objetivo das empresas em atender as especificações dos clientes. No caso de construção de índices de qualidade, a não incorporação da correlação existente entre os itens amostrais nas várias características de
qualidade medidas pode resultar num índice que não represente adequadamente a
qualidade final do produto. Assim, optou-se por utilizar a lógica fuzzy para mensurar
a qualidade das variáveis de entrada e saída da RNA utilizando diferentes índices de
capacidade considerando o problema da V & M. Isto pode ser visto na Figura 7 que é
a 6 detalhada.
Como foi dito primeiro foi escolhido o método de análise de dados suspeitos e
em seguida, foi utilizado a lógica fuzzy para validar a análise de dados. Depois foi
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS
75
escolhido o teste de análise de semelhança e é feito a PCA para a seleção de variáveis
úteis ao modelo matemático do problema. No caso de redução de componentes, a
PCA foi realizada novamente até que não ocorram novas reduções.
IEQ
Limiar 3
Distância de
Mahalanobis
coeficiente
correla.
Pearson
Base de Dados
Histórica
IEQ,
Limiar 3 e
Distância de
Mahalanobis
coeficiente
correla.
posto (rank)
Spearman
Tomada de
decisão
Fuzzy
Escolher
qual teste
usar
Escolher o
método a ser
utilizado
Limiar 3 e
Distância de
Mahalhanobis
Sim
Não
PCA
Houve redução
de componentes?
Stepwise
coeficiente
correla.
parcial
Base de Dados
Filtrada
Limiar 2
Limiar 2 e
Distância de
Mahalanobis
Figura 7: Técnicas de tratamento estatístico propostas e implementadas neste trabalho.
O modelo fuzzy escolhido foi o modelo de Sugeno descrito na Seção 2.3, as partições de entrada são o teste de proficiência: IQRnorm e os índices de capacidade:
CP e CP K ambos descritos na Seção 2.2. As partições de entrada e saída podem
ser vistas nas figuras 8 até 12.
A Figura 9 mostra a partição de entrada CP que foi dividida no intervalo de 0 a 2
em: “inadequado” [0; 1, 2], “adequado” [1; 1, 4], “satisfatorio” [1, 33; 1, 8], “bastantesatisfatorio” [1, 67; 2], de acordo com a sua definição na Seção 2.2.
A Figura 10 mostra a partição de entrada CP K que foi dividida no intervalo de 0 a
2 em: “incapaz” [0; 1], “questionavel” [0, 8; 1, 2], “capaz” [1, 1; 1, 2], de acordo com a sua
definição na Seção 2.2.
A Figura 11 mostra a partição de entrada IQRnorm que foi dividida no intervalo de
0 a 4 em: “satisfatorio” [0; 2], “menosquestionavel” [1, 5; 2, 5], “questionavel” [2, 1; 2, 9],
“bastantequestionavel” [2, 5; 3, 5], “insatisfatorio” [3, 1; 4], de acordo com a sua definição
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS
76
Figura 8: Modelo Fuzzy de Sugeno para avaliação da qualidade.
Figura 9: Partição fuzzy de entrada CP.
na Seção 2.2.
Para a partição de saída foi criada a Função Qualidade avaliada no intervalo de
0 a 1, na qual 0 é Incompatível, Q1 é uma referencia ao 1o quartil cujo valor é 0, 25,
M ediana vale 0, 5, Q3 é uma referencia ao 3o quartil cujo valor é 0, 75. Isto é retratado
na Figura 12.
Foram necessárias 60 regras fuzzy para a representação do espaço solução que
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS
77
Figura 10: Partição fuzzy de entrada CPK.
Figura 11: Partição fuzzy de entrada IQRnorm.
podem ser vistas no Código Fonte A.1 do Apêndice A. Os gráficos das superfícies
resultantes da aplicação do modelo fuzzy nas partições de entrada podem ser vistos
nas figuras 13 até 15.
Então, foi criado o sistema fuzzy de avaliação da qualidade. O mesmo pode ser
visto na Figura 16, na qual o bloco simout é a saída fuzzy da função qualidade.
Assim, a qualidade das variáveis de entrada foi analisada conforme as tabelas 2 e
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS
78
Figura 12: Partição fuzzy de saída Qualidade.
Figura 13: Representação gráfica de CP, CPK e Qualidade.
3.
A Tabela 2 mostra os valores das três partições fuzzy de entrada: CP , CP K e
IQRnorm. Com os valores dessas três partições foi calculado o valor da saída da
função qualidade representada por simout: 0, 5 representa uma qualidade ideal, os
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS
79
Figura 14: Representação gráfica de IQRnorm, CP e Qualidade.
Figura 15: Representação gráfica de IQRnorm, CPK e Qualidade.
valores acima de 0, 5 e abaixo de 0, 5 representam variáveis que não possuem uma
qualidade ideal mas, ainda assim, podem ser utilizadas e valores 0 representam variáveis incompatíveis e por isso devem ser descartadas da análise. Quando houverem
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS
80
Figura 16: Sistema Fuzzy de Avaliação da Qualidade.
Tabela 2: Avaliação da qualidade dos dados
muitas variáveis iguais a 0, a base de dados deve ser descartada por apresentar uma
baixa qualidade.
Tabela 3: Avaliação da qualidade dos dados
Feito isso, foi realizada a seleção de variáveis de entrada para o modelo neural
(ver Figura 7). Uma das técnicas de seleção de variáveis escolhida é o grau de autocorrelação dos dados, utilizada para evitar efeitos como a subestimação da variância
do processo, provocando um aumento de alarmes falsos e a subestimação da capacidade do processo.
A maneira mais comum de determinar e representar a correlação entre os dados
é calcular o coeficiente de correlação, que é a distância relativa entre cada ponto de
dado na amostra.
Este coeficiente possui um valor dentro do intervalo −1 ≤ r ≤ 1:
• H0 : p = 0, ou seja, o coeficiente obtido não é significativo;
• H1 : p 6= 0, ou seja, o coeficiente obtido é significativo.
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS
81
• Se r for positivo, existe uma relação direta entre as variáveis (ambas aumentam);
• Se r for negativo, a relação é inversa (uma aumenta e outra diminui);
• Se r for nulo, significa que não existe correlação linear entre as variáveis.
• Se o coeficiente de correlação é 1, então os dados correspondem perfeitamente.
• Se o coeficiente for −1, então os dados possuem uma correspondência inversa
perfeita.
Quando o p − value for menor que α (α geralmente igual a 0, 05), rejeita-se H0 ,
considerando que o relacionamento entre as variáveis é significativo.
Nesta etapa foram utilizadas as seguintes técnicas estatísticas: correlação de Pearson, correlação de Spearman, correlação parcial e stepwise, descritas na Seção
2.2.
Feito isso, visando reduzir o número de entradas e descorrelacioná-las entre si,
utilizou-se o PCA da mesma forma como o sugerido por (HAYKIN, 2007). O número de
componentes principais foi ajustado de modo que a soma dos m maiores auto-valores
(variância) representasse 95 % da soma total de todos esses auto-valores (HAYKIN,
2007). No caso de redução de componentes foi novamente feito o PCA.
A seleção de dados por redução vertical é uma operação de pré-processamento
muito importante. Ela tem como objetivo encontrar um conjunto mínimo de atributos de
tal forma que a informação original seja preservada. É fácil observar que, quanto maior
o valor de n, maior o desafio na escolha dos atributos, pois o número de possibilidades
de subconjuntos de atributos cresce exponencialmente na medida em que n aumenta.
Entre as principais motivações para a aplicação da redução de dados vertical podem
ser citadas:
• Um conjunto de atributos b selecionados pode conduzir a modelos mais concisos
e com maior precisão;
• Se o método de seleção dos atributos for rápido, o tempo de processamento
necessário para utilizá-lo, pode ser inferior ao tempo de processamento para
utilizá-lo sobre todo o conjunto de atributos;
• A eliminação de um atributo é muito mais significativa em termos de redução do
tamanho de um conjunto de dados do que a exclusão de um registro.
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS
82
O processo de redução de características objetiva:
• Menos dados para um aprendizado mais rápido dos algoritmos;
• Maior exatidão do conhecimento extraído a partir desses dados;
• Resultados mais simples que possam ser facilmente entendidos.
Nesta etapa, a base de dados foi dividida em duas novas: uma formada pela análise de correlação parcial e PCA, e outra formada pelas análises stepwise, correlação
de Pearson, correlação de Spearman e PCA, já que stepwise, correlação de Pearson
e correlação de Spearman tiveram resultados idênticos durante a análise. Feito isso
Base de
Dados
Filtrada
Treinamento
Validação
Teste
Figura 17: Separação da base de dados filtrada em amostras.
as bases de dados foram divididas em três amostras: treinamento, validação e teste
para o modelo neural (ver Figura 17). O treinamento usou 70 % da base de dados,
a validação usou 20 % da base de dados, e o teste usou 10 % da base de dados. A
seguir, a RNA e o algoritmo de treinamento foram escolhidos (ver Figura 18). Com a
RNA e o algoritmo de treinamento escolhidos foi feita a simulação de acordo com a
Figura 19. Para a utilização da base de dados histórica sem alterações também foi
utilizado o mesmo diagrama da Figura 19.
3.6 DISCUSSÕES FINAIS
83
Figura 18: Escolha da RNA e do algoritmo de treinamento.
Avalição do
Desempenho
da RNA
BD
Treinamento
Treinamento
da RNA
T r eMi nL aPm e n t o
da RNA
T rEel imn aa nm e n t o
da RNA
Cascade-Forward
BD
Teste
Escolha
do modelo
mais
adequado
BD
Validação
Figura 19: Treinamento, validação e teste de um modelo neural.
3.6 DISCUSSÕES FINAIS
Este Capítulo detalhou a proposta de refinamento de modelos baseados em técnicas estatísticas. A Seção 3.2 apresentou uma breve introdução sobre a proposta geral
3.6 DISCUSSÕES FINAIS
84
de refinamento estatístico utilizada. Então, a Seção 3.3 mostrou os detalhes do problema estudado. A Seção 3.4 apresentou o software e hardware utilizado. Finalmente
na Seção 3.5 foi abordado como a etapa de pré-processamento funciona, sendo que
na Subseção 3.5.1 foi tratado o desenvolvimento do trabalho em si, com a utilização
das técnicas principais propostas.
O método proposto mostrou-se consistente e bastante promissor. Os dados suspeitos foram filtrados, as bases foram divididas, o sistema fuzzy funcionou bem, enfim
o pré-processamento foi realizado com o intuito do modelo alcançar a precisão desejada.
Os resultados encontrados a partir das técnicas aqui propostas, bem como a sua
análise, podem ser vistos no Capítulo 4.
85
4
EXPERIMENTOS E AVALIAÇÃO
DOS RESULTADOS
4.1 CONSIDERAÇÕES INICIAIS
Este Capítulo tem como objetivo mostrar e analisar os resultados deste trabalho. A
Seção 4.2 mostra os métodos utilizados para a coleta de dados referentes a população
e as amostras utilizadas no desenvolvimento deste trabalho. A Seção 4.3 mostra
as RNA e algoritmos de treinamento utilizados e a comparação entre os mesmos.
A Seção 4.4 apresenta os métodos estatísticos utilizados para validar os modelos
neurais. A Seção 4.5 mostra as comparações dos resultados encontrados. A Seção
4.6 cita as limitações do método empregado. Por último, a Seção 4.7 apresenta as
discussões finais do Capítulo.
4.2 POPULAÇÃO E AMOSTRAS
Após o planejamento e a devida determinação das características mensuráveis do
problema que se quer pesquisar, dá-se início a coleta de dados numéricos necessários à descrição do problema. Formalmente, a coleta de dados se refere à obtenção,
reunião e registro sistemático dos dados. Para a realização da coleta de dados foi
seguido o presente roteiro (FREUND, 2006):
• Definir o objetivo da coleta de dados.
• Identificar o tipo de dados que devem ser coletados e fazer a amostragem corretamente, observando-se a necessidade ou não de estratificação.
O objetivo da coleta de dados é selecionar amostras sem dados suspeitos das
bases de dados originais. Como o tipo de dados que devem ser coletados são numé-
4.2 POPULAÇÃO E AMOSTRAS
86
ricos, as variáveis não numéricas, foram descartadas: Número da Corrida e Código
do Aço. Portanto, quando for referido às bases originais, será considerado apenas as
variáveis numéricas.
O próximo passo é fazer a amostragem de dados. Antes, porém é necessário
ter um planejamento de amostras. Em estatística, um planejamento de amostras é
um plano definido e completamente determinado antes da coleta de quaisquer dados
ou de se obter uma amostra de uma dada população. Os erros possíveis de serem
cometidos na realização de uma amostragem podem ser tratados aplicando técnicas
adequadas e estabelecendo resultados com estimativa de erro, como por exemplo, um
intervalo de confiança.
Seguindo alguns critérios de seleção, o subconjunto escolhido de uma população
é denominado amostra. Uma amostra representativa tem as mesmas características
da população da qual foi retirada. Há dois tipos de amostras quanto à forma de serem
extraídas da população, a amostra probabilística e as restantes que não são probabilísticas.
Em geral, as amostragens são realizadas sem reposição e os cálculos estatísticos nos dois tipos de amostragens são os mesmos. Na amostragem sem reposição,
a unidade selecionada não retorna para a população. Portanto, em cada seleção a
população é reduzida de uma unidade elementar. Se o tamanho da população for suficientemente maior que o tamanho da amostra recomendado mais de vinte vezes os
resultados estatísticos das amostras com e sem reposição não serão muito diferentes,
pois a chance de escolher o mesmo elemento é muito pequena (FREUND, 2006).
Como as amostras selecionadas para o problema em questão não são pequenas
o método escolhido foi a amostragem sem reposição. Outro motivo para não ter reposição é o fato da amostragem utilizada ser uma amostragem sistemática. Embora
uma amostragem sistemática possa não ser uma amostra aleatória de acordo com a
definição, muitas vezes é razoável tratar as amostras sistemáticas como se fossem
amostras aleatórias; em alguns casos, as amostras sistemáticas de fato apresentam
um melhora em relação às amostras aleatórias simples, pois as amostras se dispersam mais uniformemente sobre toda a população (FREUND, 2006). Mesmo sendo
sistemática a amostragem preserva as características da distribuição, ou seja, se a
distribuição é normal, têm-se mais pontos retirados de onde há maior concentração
de pontos.
4.2 POPULAÇÃO E AMOSTRAS
87
Neste trabalho foram selecionadas amostras não probabilísticas com métodos de
amostragem sem reposição. Uma explicação encontra-se na Subseção 4.6. Como nas
amostras não probabilísticas alguns componentes da população não têm nenhuma
chance de ser selecionado, deve ser definido algum critério de escolha.
Como neste problema a variação em estudo apresenta, de estrato em estrato,
um comportamento heterogêneo e, dentro de cada estrato, um comportamento homogêneo, é fundamental que o processo de amostragem leve em consideração os
estratos. Assim, também foi utilizada a amostragem estratificada que é um processo
que consiste em estratificar (ou dividir) a população em um certo número de subpopulações que não se sobrepõem, chamadas estratos ou camadas, e então extraiu-se
uma amostra de cada estrato.
Os critérios de seleção foram definidos no Capítulo 3, e os estratos são as bases
de dados modificadas. Primeiro foi feita a estratificação e, depois, foi utilizada a amostragem sistemática para selecionar uma amostra dentro de cada estrato. As bases 1
e 2 originalmente possuem 13 variáveis de entrada cada, com as análises estatísticas
esse número foi reduzido conforme as Tabelas 4 e 5, estes são os estratos, a amostragem sistemática foi utilizada quando as bases de dados são divididas em amostras
para o treinamento, a validação e o teste das RNA. Pode-se notar que a distância de
Mahalanobis não reduziu o número de variáveis, e com os testes combinados IEQ,
Limiar com 3 desvios e distância de Mahalanobis não houve seleção de variáveis porque apresentou baixa qualidade, segundo o sistema de avaliação fuzzy. Isto quer
dizer que houve muitas variáveis classificadas como “incompatíveis”, valores iguais a
zero ou próximos de zero (Subseção 3.5.1).
A base 3 original possui 13 variáveis de entrada. Com as análises estatísticas esse
número foi reduzido conforme a Tabela 6. Pode-se notar que o Limiar com 2 desvios
não selecionou variáveis porque apresentou baixa qualidade segundo o sistema de
avaliação fuzzy. Isto quer dizer que houve muitas variáveis classificadas como “incompatíveis”, valores iguais a zero ou próximos de zero (Subseção 3.5.1).
A base 4 original foi a única em que todas as análises estatísticas selecionaram
variáveis (ver a Tabela 7) porque não apresentou baixa qualidade segundo o sistema
de avaliação fuzzy (Subseção 3.5.1).
4.2 POPULAÇÃO E AMOSTRAS
88
Tabela 4: Experimentos de filtragem de dados: base 1
Tabela 5: Experimentos de filtragem de dados: base 2
Conforme foi dito no Capítulo 3 as bases de dados originais foram divididas em
duas novas bases cada. As Tabelas 8, 9, 10 e 11 são referentes a correlação parcial
e PCA.
4.2 POPULAÇÃO E AMOSTRAS
89
Tabela 6: Experimentos de filtragem de dados: base 3
Tabela 7: Experimentos de filtragem de dados: base 4
As bases 1 e 2 originalmente possuem 643 e 657 elementos, respectivamente.
Com as análises estatísticas esses números foram reduzidos conforme as Tabelas 8
e 9. Em ambas somente a distância de Mahalanobis não reduziu as quantidades de
4.2 POPULAÇÃO E AMOSTRAS
90
elementos, isto explica o fato de a combinação do Limiar com 2 desvios e a distância
de Mahalanobis filtrarem a mesma quantidade de dados da técnica de Limiar com
2 desvios. Pode-se notar que a combinação entre o IEQ, Limiar com 3 desvios e a
distância de Mahalanobis não conseguiu filtrar os elementos porque a sua qualidade
foi baixa segundo o sistema avaliador de qualidade fuzzy. Isto quer dizer que houve
muitas variáveis classificadas como “incompatíveis”, valores iguais a zero ou próximos
de zero (Subseção 3.5.1).
Tabela 8: Experimentos de filtragem de dados com o coeficiente de correlação parcial
e PCA: base 1
A base 3 original possui 32415 elementos, conforme pode ser visto na Tabela 10.
As técnicas Limiar com 2 desvios, Limiar com 2 desvios e distância de Mahalanobis,
e IEQ, Limiar com 3 desvios e distância de Mahalanobis não conseguiram filtrar os
dados porque apresentaram baixa qualidade, conforme a análise do sistema avaliador
da qualidade fuzzy.
A base 4 foi a única em que todas as técnicas conseguiram reduzir a quantidade de
elementos (ver Tabela 11) porque não apresentou baixa qualidade segundo o sistema
de avaliação fuzzy (Subseção 3.5.1).
As tabelas 12, 13, 14 e 15 são referentes à correlação de Spearman, Pearson,
stepwise e PCA. Os resultados são análogos às bases referentes à correlação parcial.
4.2 POPULAÇÃO E AMOSTRAS
91
Tabela 9: Experimentos de filtragem de dados com o coeficiente de correlação parcial
e PCA: base 2
Tabela 10: Experimentos de filtragem de dados com o coeficiente de correlação parcial
e PCA: base 3
Pode-se notar na Tabela 14 que o IEQ também apresentou baixa qualidade segundo o sistema fuzzy de avaliação da qualidade. Isto quer dizer que houve muitas
variáveis classificadas como “incompatíveis”, valores iguais a zero ou próximos de
zero (Subseção 3.5.1).
4.3 TRATAMENTO E ANÁLISE DOS DADOS
92
Tabela 11: Experimentos de filtragem de dados com o coeficiente de correlação parcial
e PCA: base 4
Tabela 12: Experimentos de filtragem de dados com o coeficiente de correlação de
Spearman, Pearson, stepwise e PCA: base 1
4.3 TRATAMENTO E ANÁLISE DOS DADOS
Para encontrar as RNA adequadas foram variados diversos parâmetros e a partir
dos resultados foram definidas as RNA adequadas que foram submetidas a testes alterando parâmetros mais específicos. Os parâmetros alterados são descritos a seguir:
4.3 TRATAMENTO E ANÁLISE DOS DADOS
93
Tabela 13: Experimentos de filtragem de dados com o coeficiente de correlação de
Spearman, Pearson, stepwise e PCA: base 2
Tabela 14: Experimentos de filtragem de dados com o coeficiente de correlação de
Spearman, Pearson, stepwise e PCA: base 3
• Tipo da Rede: O primeiro critério para seleção da rede ideal foi a definição do
tipo de rede. Os testes tiveram como foco as redes dos tipos Feed-Forward
Backpropagation, Cascade-Forward Backpropagation e Elman backpropagation;
• Algoritmo de Treinamento: Para os testes foram utilizadas os algoritmos de trei-
namento LM (Levenberg-Marquardt Backpropagation), OSS (One Step Secant),
4.3 TRATAMENTO E ANÁLISE DOS DADOS
94
Tabela 15: Experimentos de filtragem de dados com o coeficiente de correlação de
Spearman, Pearson, stepwise e PCA: base 4
Rprop (Propagação resiliente), Fletcher-Reeves e Beale-Powell.
Uma maneira de verificar a adequação do modelo é comparar cada valor observado xi com o respectivo valor previsto pelo modelo x̂i . O resíduo é definido como a
diferença entre o valor exato de um número xi e de seu valor aproximado x
bi :
ri = xi − x̂i
(4.1)
Um resíduo pode ser visto como a parte do valor observado que o ajuste não foi
capaz de explicar. Contudo, os resíduos não são independentes e possuem variâncias
diferentes que dependem do valor de x correspondente. Os resíduos padronizados
são resíduos transformados.
O conceito de erro padrão da estimativa é equivalente ao do desvio padrão, que
mede a variabilidade dos valores da amostra ao redor da média aritmética desses
valores. Como uma estatística, seu desvio padrão é chamado erro padrão, tal como
para o desvio de x
b, que é chamado erro padrão. Os resíduos são padronizados
dividindo-os pelo desvio padrão do erro que é calculado como:
Se =
r
SSE
n−2
(4.2)
4.3 TRATAMENTO E ANÁLISE DOS DADOS
Se =
√
95
(4.3)
MSE
na qual:
• SSE é Error Sum of Squares ou Sum of Squares Errors (Variação não-explicada:
Soma dos erros quadráticos ou soma dos quadrados dos desvios).
• M SE é Mean Squares of Error (Média do quadrado dos erros).
As tabelas 16, 17, 18, 19, 20 e 21 mostram as RNA com seus algoritmos considerados adequados e os resultados da comparação entre as RNA aplicadas nas bases
de dados originais e modificadas. Para esta análise foram selecionadas apenas as
bases originais 3 e 4 que possuem mais elementos, e as bases modificadas com a
quantidade de elementos acima de 19000.
Na tentativa de se buscar a melhor arquitetura para as RNA desenvolvidas, em
relação ao número de neurônios da camada intermediária, foi implementado inicialmente o número de neurônios da camada intermediária de
n
2
até 2n + 1, sendo n o
número de entradas. O valor limite de 2n + 1 neurônios foi definido com base no Teorema de Kolmogorov conforme descrito na Seção 2.1 mas, além desse teorema foi
variado o número de neurônios acima do valor proposto para efeito de análise. Foi escolhida uma única camada oculta também de acordo com o Teorema de Kolmogorov.
As configurações finais ficaram assim:
• A RNA Feed-Forward Backpropagation com o algoritmo de treinamento LM utili-
zou as funções de ativação logsig (função sigmoidal unipolar) e purelin (função
linear). A sua camada de entrada possui o número de neurônios igual ao número de variáveis conforme as tabelas 6 e 7, a sua única camada oculta possui
39 neurônios e a sua camada de saída possui um neurônio.
• A RNA Cascade-Forward Backpropagation com o algoritmo de treinamento LM
utilizou as funções de ativação tansig (função sigmoidal bipolar) e purelin. A sua
camada de entrada possui o número de neurônios igual ao número de variáveis
conforme as tabelas 6 e 7, a sua única camada oculta possui 26 neurônios e a
sua camada de saída possui um neurônio.
4.3 TRATAMENTO E ANÁLISE DOS DADOS
96
• A RNA Elman backpropagation com os seus algoritmos de treinamento utilizou
as funções de ativação tansig e purelin. A sua camada de entrada possui o
número de neurônios igual ao número de variáveis conforme as tabelas 6 e 7, a
sua única camada oculta possui 10 neurônios e a sua camada de saída possui
um neurônio.
Pode ser visto nas tabelas 16 e 17 que para a base 3, o valor do SE para o
treinamento e a validação de todas as bases modificadas foi inferior à base original e,
portanto, adequado para o modelo. Apenas para a etapa de teste que uma das bases
modificadas apresentou um SE maior, a base 3epearson (ver Tabela 18) utilizando as
RNA do tipo Elman backpropagation com todos os algoritmos de treinamento exceto
com o algoritmo de treinamento Beale-Powell, este código da base pode ser lido da
seguinte maneira: número da base = 3, E = IEQ, Pearson = correlação de Pearson e
PCA, ou seja, E e Pearson são os testes estatísticos aplicados sobre a base.
Na Rprop (resilient backpropagation) somente o sinal da derivada é usado para
determinar a direção da atualização do peso, e a quantidade da atualização é determinada da seguinte forma: o valor da atualização para pesos e bias é incrementado
de um fator deltinc sempre que a derivada for na mesma direção para duas iterações
sucessivas, e o valor da atualização é decrementado por um fator deltdec sempre que a
derivada muda de sinal em relação a iteração anterior. Além disso, sempre que os pesos estiveram oscilando a mudança nos pesos é reduzida (NETO et al., 2006), (BAUER,
2008), (RAMÍREZ; FERREIRA; VELHO, 2006), (CASTANHAEIRA, 2008), (ALVES, 2004) e (DE
AGUIAR JÚNIOR, 2004).
O método de secante em um passo (one step secant) é uma tentativa intermediária entre os algoritmos de gradiente conjugado e os algoritmos quasi-Newton. Esse
algoritmo não armazena a matriz hessiana completa. Ele assume que a cada iteração,
a Hessiana anterior é uma matriz identidade. E existe uma vantagem adicional de que
a nova direção de pesquisa seja calculada sem computar a matriz inversa.
Considerando a precisão do sensor da V&M de 20o C, todos os resultados da base
original 3 referentes ao treinamento, validação e teste foram superiores e, portanto,
inadequados para o modelo. No treinamento as bases modificadas apresentaram
12 valores de erro abaixo da precisão desejada de 20o C, na validação 4 valores de
erro abaixo da precisão desejada de 20o C e no teste 5 valores de erro abaixo da
precisão desejada de 20o C. A RNA Feed-Forward Backpropagation com o algoritmo
de treinamento LM utilizando o IEQ, Limiar3 e Mahalanobis em conjunto mostrou-
4.3 TRATAMENTO E ANÁLISE DOS DADOS
97
se adequada em relação ao treinamento, validação e teste em comparação com a
precisão adotada.
Tabela 16: Resultados da RNA: etapa de treinamento relativa à base 3
Tabela 17: Resultados da RNA: etapa de validação relativa à base 3
Para a etapa de treinamento da base 4 pode ser visto na Tabela 19 que o valor
do SE de todas as bases modificadas foi inferior à base original e, portanto, adequado para o modelo, exceto para as bases: 4l3pearson (l3 = Limiar com 3 desvios),
4l3mahalpearson (mahal = distância de Mahalanobis), 4pearson (aqui foram usadas
as técnicas combinadas IEQ, Limiar com 3 desvios e distância de Mahalanobis) e
4l3parcial (parcial = correlação parcial) na coluna Elman com Levenberg - Marquardt;
4.3 TRATAMENTO E ANÁLISE DOS DADOS
98
Tabela 18: Resultados da RNA: etapa de teste relativa à base 3
4mahalparcial na coluna Elman com Propagação Resiliente, que apresentaram um SE
maior.
Considerando a precisão do sensor da V&M de 20o C, todos os resultados da base
original 4 referentes ao treinamento, validação e teste foram superiores e, portanto,
inadequados para o modelo. No treinamento as bases modificadas apresentaram 4
valores de erro abaixo da precisão desejada de 20o C, na validação 2 valores de erro
abaixo da precisão desejada de 20o C e no teste 2 valores de erro abaixo da precisão
desejada de 20o C.
Tabela 19: Resultados da RNA: etapa de treinamento relativa à base 4
4.3 TRATAMENTO E ANÁLISE DOS DADOS
99
Para a etapa de validação da base 4 pode ser visto na Tabela 20 que o valor do SE
de todas as bases modificadas foi inferior à base original e, portanto, adequado para
o modelo, exceto para as bases: 4epearson, 4l3pearson, 4l3mahalpearson, 4mahalpearson, 4l3parcial e 4l3mahalparcial na coluna Elman com Levenberg - Marquardt.
Tabela 20: Resultados da RNA: etapa de validação relativa à base 4
Para a etapa de teste da base 4 pode ser visto na Tabela 21 que o valor do SE
de todas as bases modificadas foi inferior à base original e, portanto, adequado para
o modelo, exceto para as bases: 4l3 mahalpearson e 4l3mahalparcial na coluna Levenberg - Marquardt; 4l3mahalpearson e 4l3mahalparcial na coluna Cascade-forward
com Levenberg - Marquardt; 4l3 mahalpearson, 4mahalpearson e 4l3mahalparcial
na coluna Elman com Levenberg - Marquardt; 4l3mahalpearson, 4l3mahalparcial e
4mahalparcial na coluna Elman com Propagação Resiliente; 4l3mahalpearson e
4l3mahalparcial na coluna Elman com One Step Secant; 4l3mahalpearson e
4l3mahalparcial na coluna Elman com Beale-Powell restarts.
Ao final desta avaliação chega-se às seguintes conclusões: para a base 4 devido
à etapa de teste as bases 4l3mahalpearson e 4l3mahalparcial tiveram o pior desempenho. E no geral a RNA: Levenberg - Marquardt teve o melhor desempenho seguida
pela Cascade-forward com Levenberg - Marquardt. Na maioria dos casos, as bases
modificadas tiveram um desempenho mais adequado em relação às bases originais.
4.4 VALIDAÇÃO DO MODELO
100
Tabela 21: Resultados da RNA: etapa de teste relativa à base 4
No geral, a RNA Feed-Forward Backpropagation com o algoritmo de treinamento
LM utilizando o IEQ, Limiar3 e Mahalanobis em conjunto na base 3 mostrou-se adequada em relação ao treinamento, validação e teste em comparação com a precisão
adotada e, por adequada para o modelo.
4.4 VALIDAÇÃO DO MODELO
Para validar o treinamento dos modelos neurais foram utilizados: a ANOVA, o
teste F e o teste de Cochran para comparação de variâncias, o teste de Bonferroni
para identificação de dados suspeitos, e o teste Z para comparação de médias.
A análise de variância é um teste estatístico amplamente difundido entre os analistas, e visa fundamentalmente verificar se existe uma diferença significativa entre as
médias e se os fatores exercem influência em alguma variável dependente.
A distribuição F testa a igualdade das variâncias (homogeneidade). O F observado é:
Fo =
MST
MSE
(4.4)
Para operar com variâncias, a variação explicada deve ser dividida pelo gl do numerador (k −1), e a variação não-explicada deve ser dividida pelo gl do denominador,
4.4 VALIDAÇÃO DO MODELO
101
sendo k o número de amostras e n o tamanho das amostras. O F observado é:
Fo =
r2 (n − k)
(k − 1) (1 − r2 )
(4.5)
SST (n − k)
(k − 1) SSE
(4.6)
Fo =
na qual:
• SST é Total Sum of Squares ou Sum of Squares for Treatments (Variação total:
Soma dos quadrados dos desvios ou soma de quadrados total).
• SSE é Error Sum of Squares ou Sum of Squares Errors (Variação não-explicada:
Soma dos erros quadráticos ou soma dos quadrados dos desvios).
• M SE é Mean Squares of Error (Média do quadrado dos erros).
• M ST é Mean Squares for Treatments.
Como o início do procedimento de análise de variância se deu na agricultura, no
teste de hipóteses permanecem algumas definições dessa área, como o termo tratamento que define a causa ou fonte de variação dentro de um conjunto de dados.
O coeficiente de determinação r2 é definido como a relação que mede a proporção
da variação total da variável dependente que é explicada pela variação da variável
independente.
r2 =
MST
SST
(4.7)
O coeficiente de determinação r2 é sempre um número positivo entre zero e um.
Quanto mais próximo o coeficiente de determinação estiver da unidade, melhor será
o ajuste. Se o teste F indicar diferenças significativas entre as variâncias, e os níveis forem fixos, haverá interesse em identificar quais as médias que diferem entre
si. Se o teste F indicar diferenças significativas entre as variâncias, e os níveis forem
aleatórios, haverá interesse em identificar a estimativa dos componentes de variação.
4.4 VALIDAÇÃO DO MODELO
102
Pelos valores obtidos para o teste F , pôde-se testar a hipótese da existência de
diferenças entre as variâncias das amostras. Se a hipótese nula é rejeitada pelo teste
F , ou seja, se existe diferença entre as variâncias, não é possível saber quais as
temperaturas que diferem significativamente entre si ou ainda quais são os grupos de
temperatura que diferem uns dos outros.
Por meio da distribuição F , têm-se as seguintes suposições: se o valor do percentil
for menor do que 10 ou 20 % do iésimo caso, este não apresenta influência sobre
os valores ajustados. Se o valor do percentil estiver próximo a 50 % ou mais, os
valores ajustados com estes casos diferem substancialmente, ou seja, estes valores
são considerados dados suspeitos.
O percentil de cada valor da amostra y ordenada de forma crescente em uma
escala de 5 a 95 % é:
P% = 10d − 5
(4.8)
d é a ordem de um valor da série, e P é o percentil em porcentagem dessa ordem
em uma escala de 5 a 95 %.
Para as bases originais as temperaturas do modelo ficaram próximo a 50 % na
distribuição F . Assim, constatou-se que existem dados suspeitos que influenciam o
ajuste dos valores do modelo. O baixo p − value (5, 42004E − 08, ou seja, 0, 000000542)
fornece uma sólida base para rejeitar a hipótese nula e concluir que existe diferença
entre as variâncias referentes ao treinamento, validação e teste da RNA, considerando
um α igual a 5 %, ou seja, o intervalo de confiança é de 95 %. Logo a hipótese de que
a base é ruidosa está comprovada.
Para as bases de dados modificadas, nenhum dos casos presentes no modelo
ficou acima de 10 % na distribuição F . Assim, constatou-se que não existem dados
suspeitos que influenciem o ajuste dos valores do modelo. Isso pode ser comprovado
também com o teste F pois o F observado variando entre 3, 789 e 3, 79 é menor do
que o F crítico 3, 84, a hipótese nula deve ser aceita, logo não há diferença significativa
entre as variabilidades das temperaturas referentes ao treinamento, validação e teste
das RNA.
O coeficiente de determinação das bases originais ficou em torno de 0, 33 para o
treinamento e teste e 0, 70 para a validação. Nas bases modificadas o coeficiente de
determinação ficou em torno de 0, 60 para treinamento e teste e 0, 90 para a validação,
4.4 VALIDAÇÃO DO MODELO
103
isto indica que o modelo está muito bem ajustado aos dados.
O coeficiente de variação é calculado como:
cv =
σ(x)
x̄
(4.9)
e mostra o tamanho da variação de x.
O valor do coeficiente de variação foi igual a 1, 90 %, indicando ótima precisão, para
as bases originais e menor do que 1 % para as bases modificadas, demonstrando que
as bases modificadas proporcionaram um melhor desempenho nas RNA.
O teste de Cochran comprovou os resultados do teste F para as bases originais e
modificadas (ver 2.2.10). Para as base de dados originais o teste de Cochran apresentou p − value muito pequenos como 2, 2e − 16 muito abaixo do intervalo de confiança
de 0, 05. Como o p − value foi menor que o valor crítico, a variância em questão é
considerada como sendo dado suspeito. De fato, como o valor calculado foi menor, o
resultado é significante, o que nega a hipótese de igualdade (ou de homogeneidade)
das variâncias envolvidas no experimento. Para as bases modificadas o teste de Cochran apresentou valores C como 0, 00021258 muito abaixo do valor crítico 0, 0495, e
p − value = 0, 50 maior que α = 0, 05. Portanto, conclui-se que as variâncias são
homogêneas.
O teste Z é utilizado para testar a média de uma população e construir um intervalo
de confiança, quando o desvio padrão da população for conhecido.
(x − µo )
z=
σ
√
n
(4.10)
na qual µo é o valor da média que ocorre sob a hipótese nula.
x média amostral
σ desvio padrão conhecido (população).
n ≥ 30
Para as bases originais o teste Z apresentou valores como 2, 233 maior do que
1, 96, então deve-se rejeitar a hipótese nula e aceitar a hipótese alternativa. E como
o p − value = 0, 0255 é menor do que o nível de significância 0, 05, a hipótese nula
4.5 COMPARAÇÃO DOS RESULTADOS
104
Tabela 22: Hipóteses alternativas do teste z.
Hipótese alternativa Rejeitar a hipótese nula Aceitar a hipótese nula
µ1 − µ2 < δ
z ≤ −zα
z > −zα
z ≥ zα
z < zα
µ1 − µ2 > δ
α
α
µ1 − µ2 6= δ
z ≤ −z 2 ou z >= z 2
−z α2 < z < z α2
Tabela 23: Comparação de resultados.
Melhores Resultados do SE (◦ C)
Araujo 2008
Duraes 2009
MLP c/ LM P-CMAC MLP c/ LM
49,5727
22,65
16,44
deve ser rejeitada. Portanto, conclui-se que o modelo baseado em dados originais
realmente possui dados suspeitos.
Para as bases modificadas o teste Z apresentou p − value entre 0, 17 e 0, 64, maior
do que o nível de significância α = 0, 05, a hipótese nula deve ser aceita, pois há
evidências de que a diferença de médias não seja significativa.
Por último, foi utilizado o teste de Bonferroni que pode identificar dados suspeitos
em observações do y previsto, nos quais os resíduos padronizados excluídos são
grandes e com grande influência no modelo, no qual os maiores resíduos padronizados excluídos seriam um dado suspeito. Este teste foi utilizado somente nas bases
de dados modificadas, nas quais há interesse em saber se os resíduos padronizados
excluídos influenciaram o modelo. O teste de Bonferroni apresentou p − values como
0, 53 maiores do que o nível de significância 0, 05. Conclui-se por este teste que o
conjunto testado não contém dados suspeitos.
4.5 COMPARAÇÃO DOS RESULTADOS
Para mostrar o quanto os resultados encontrados são satisfatórios, os resultados
alcançados foram comparados com os resultados alcançados por Araujo (2008) por
meio de dois experimentos. No primeiro experimento ele utilizou uma rede MLP e no
segundo utilizou uma rede P-CMAC conforme pode ser visto na Tabela 23.
É importante lembrar que Araujo (2008) utilizou uma massa de 1736 dados, enquanto as bases utilizadas em (DURÃES; ALMEIDA, 2009a) e (DURÃES; ALMEIDA, 2009b)
4.6 LIMITAÇÕES DO MÉTODO
105
possuem a quantidade de elementos variando de 19044 a 32415 (ver Tabelas 10 até
15). Como as redes neurais são robustas e possuem alta capacidade de generalização, com uma massa de dados menor as RNA apresentam resultados melhores
e consequêntemente erros menores. Além disso, as etapas de treinamento, validação e teste desenvolvidas em (DURÃES; ALMEIDA, 2009a) e (DURÃES; ALMEIDA, 2009b)
apresentaram SE homogêneos e modelos adequados, conforme já mencionado na
Subseção 4.4, o mesmo não foi alcançado por Araujo (2008).
A Figura 20 mostra o desempenho de uma rede MLP com o algoritmo de treinamento Levenberg-Marquardt utilizada na base 3 original. Os “x” em azul representam
os dados do treinamento, os “+” em verde representam os dados da validação, e os
“o” em vermelho representam os dados da etapa de teste. Como é visto na Figura
20, a amplitude dos resíduos está compreendida no intervalo [−5; 4] em escala de
engenharia, ou seja, em graus Celsius.
A Figura 21 mostra o desempenho de uma rede MLP com o algoritmo de treinamento Levenberg-Marquardt utilizada na base 3 filtrada com os métodos IEQ, Limiar
com 3 desvios e distância de Mahalanobis, correlação parcial e PCA. Os “x” em azul
representam os dados do treinamento, os “+” em verde representam os dados da validação, e os “o” em vermelho representam os dados da etapa de teste. A amplitude do
erro absoluto está compreendida no intervalo [−0, 02; 0, 025] em escala de engenharia,
e portanto, bem menor que a amplitude dos resíduos da base original, cujo resultado
é mostrado na Figura 20. Isto mostra efetivamente que o método de refinamento proposto e aplicado neste trabalho foi eficaz e eficiente, e portanto adequado ao problema
abordado.
Após a utilização de todos estes testes estatísticos pode-se concluir que os modelos utilizando métodos estatísticos, lógica fuzzy e RNA apresentaram um melhor
desempenho em relação as técnicas convencionais de RNA sem tratamento de dados. Além disso, a validação dos modelos das técnicas convencionais de RNA sem
tratamento de dados não foram satisfatórias, o mesmo não ocorreu com os modelos
híbridos que mostraram-se válidos.
4.6 LIMITAÇÕES DO MÉTODO
Algumas técnicas estatísticas não foram abordadas devido às suas limitações. Por
exemplo: o teste Q de Dixon para redução de dados suspeitos, que conforme DQBF-
4.6 LIMITAÇÕES DO MÉTODO
106
Figura 20: Gráfico de desempenho dos dados de treinamento de um modelo neural.
CUL (2008), Neves (2008), Nascimento e Carvalho (2001) e Zamora (2006) só pode
ser utilizado entre 3 e 14 elementos. O teste de Grubbs para redução de dados suspeitos, que segundo a ISO só deve ser utilizado entre 5 e 30 elementos. O teste T
de Student para comparação de médias, que só pode ser utilizado até 30 elementos
(CAMPOS, 2003), (FREUND, 2006), (LAPPONI, 2005) e (NEUFELD, 2003). A distribuição
T acima de 30 elementos tende a uma distribuição normal, portanto é o mesmo que
usar o Teste Z para médias.
A técnica de reamostragem Bootstrap não pôde ser usada para construir medidas
de variabilidade para o PCA, ou para criar intervalos de confianças, ou ainda para
4.6 LIMITAÇÕES DO MÉTODO
107
Figura 21: Gráfico de desempenho dos dados de treinamento de um modelo neural.
particionar o conjunto de dados porque nela o conjunto de treinamento foi gerado a
partir de N sorteios aleatórios com reposição a partir do conjunto de dados original
(contendo N registros), como o conjunto de teste é composto pelos registros do conjunto de dados original não sorteados para o treinamento, esse método que gera os
conjuntos, abstrai e avalia o modelo um número repetido de vezes, a fim de ultimar
uma média de desempenho possui um elevado custo computacional além de criar
partições que não eram representativas da população, justamente por ser um método
probabilístico com reposição.
Por causa do tamanho das bases 3 e 4, o teste da distância de Cook para identi-
4.7 DISCUSSÕES FINAIS
108
ficação de resíduos com valores altos não pôde ser utilizado devido ao elevado custo
computacional, assim como a utilização da RNA RBF (Radial Basis Function) que
também não pôde ser utilizada devido ao elevado custo computacional.
4.7 DISCUSSÕES FINAIS
Neste Capítulo foram apresentados os resultados encontrados e a sua análise.
Foi realizada uma investigação da influência dos parâmetros de treinamento, do tamanho e da composição do conjunto de dados de entrada no desempenho de modelos
neurais conforme a proposta geral de refinamento estatístico da Seção 3.2. Então,
comparou-se diversas técnicas de análise de dados suspeitos conforme a Subseção
3.5.1 de acordo com a Figura 7, seus resultados podem ser vistos nas Tabelas 4 até 15
da Seção 4.2. E foi feito um estudo comparando-se as RNA Elman, MLP Backpropagation e Cascade - forward e os algoritmos de treinamento OSS, Levenberg-Marquardt,
Fletcher-Reeves e Beale-Powell conforme a Figura 18 da Subseção 3.5.1. E finalmente os resultados alcançados pelos modelos híbridos apresentados neste Capítulo
mostraram-se mais adequados em relação aos resultados das técnicas convencionais
de RNA sem tratamento de dados.
Conforme a Seção 4.6 algumas técnicas estatísticas propostas não podem ser
utilizadas. Dois fatores limitaram a utilização destas técnicas neste trabalho: a quantidade de elementos utilizada e o esforço computacional demandado. Exceto o Bootstrap que não foi utilizado pelo fato de ser um método probabilístico com reposição.
Pode-se afirmar ao final da análise aqui desenvolvida, que este trabalho cumpriu
efetivamente o seu papel comprovando a hipótese inicial, isto foi mostrado na Seção
4.4. Espera-se que os resultados alcançados por este trabalho dêem a outros pesquisadores a possibilidade de evoluir na construção de sistemas neurais. E além disso,
desperte a consciência para o estudo, utilização e difusão destes instrumentos.
109
5
CONCLUSÃO
Inicialmente foi feita uma contextualização teórica sobre RNA, lógica fuzzy e técnicas estatísticas, o que permitiu o embasamento conceitual para o desenvolvimento
deste trabalho. Este arcabouço conceitual se mostrou muito importante ao longo do
projeto porque garante que os conceitos utilizados neste trabalho possam ser evoluídos de modo consistente em trabalhos futuros.
A avaliação dos resultados no Capítulo 4 comprovou que este trabalho cumpriu
o seu objetivo de demonstrar a importância da qualidade dos dados em um modelo
baseado em RNA. Além disso, o mesmo mostrou que a metodologia aplicada é adequada e pode ser utilizada em conjunto com as RNA para a criação de modelos matemáticos. Do ponto de vista do objetivo geral proposto, este foi alcançado satisfatoriamente. O trabalho também conseguiu cumprir seus objetivos específicos, conforme
descrições abaixo:
• Aperfeiçoar modelos matemáticos baseados em RNA: este objetivo foi alcançado
uma vez que os resultados alcançados pelos modelos híbridos apresentados
no Capítulo 4 mostraram-se mais adequados em relação aos resultados das
técnicas convencionais de pré-processamento em modelos baseados em RNA.
• Fazer um estudo comparativo de desempenho entre diferentes RNA: este estudo foi feito comparando-se as RNA Elman, MLP Backpropagation e Cascade -
forward e os algoritmos de treinamento OSS, Levenberg-Marquardt, FletcherReeves e Beale-Powell conforme foi apresentado na Figura 18 da Subseção
3.5.1 e discutido na mesma Subseção.
• Investigar a influência dos parâmetros de treinamento, do tamanho e da com-
posição do conjunto de dados de entrada no desempenho de modelos neurais:
esta investigação foi realizada por meio da proposta geral de refinamento estatístico da Seção 3.2, e os seus resultados que podem ser vistos no Capítulo 4
5 CONCLUSÃO
110
são que, as bases 1 e 2 não foram utilizadas porque possuem uma quantidade
insatisfatória de dados o que facilita a convergência das RNA; o mesmo não
acontece com as bases 3 e 4 porque apresentam uma quantidade satisfatória de
dados e, portanto, puderam ser utilizadas.
• Comparar diversas técnicas de análise de dados suspeitos: esta comparação
foi realizada na Subseção 3.5.1 de acordo com a Figura 7 e seus resultados
podem ser vistos nas Tabelas 4 até 15 da Seção 4.2. As discussões sobre estes
resultados foram apresentadas na mesma Seção.
• Avaliar os resultados em relação às técnicas tradicionais: esta avaliação foi realizada na Seção 4.3 e seus resultados encontram-se nas Tabelas 16 até 21, com
discussões detalhadas na mesma Seção.
Com as experiências adquiridas, mostrou-se que as técnicas de análise estatística
de dados em sistemas utilizando RNA são necessárias e muito úteis, porém, é importante que a visão das possibilidades de utilização e aplicação dessa tecnologia seja
ampliada. Este trabalho auxiliou nesta questão da seguinte maneira: primeiro com a
verificação das várias semelhanças entre estatística e RNA, pois muitas das técnicas
utilizadas em RNA possuem um paralelo em estatística. O próximo passo foi utilizar as
semelhanças para tratar os pontos fracos das RNA, assim como é feito em sistemas
híbridos. Uma grande dificuldade tratada em estatística é justificar a importância de
se manter determinadas variáveis e de se retirar outras.
Os valores modais de entrada dificultam a modelagem porque em funções não
existem valores de saídas diferentes para valores iguais de entrada. Isto acontece
apenas em relações matemáticas e, portanto, transformar relações matemáticas em
funções não é uma tarefa simples.
A capacidade de generalização permite que RNA lidem com ruídos e distorções
nos dados, respondendo corretamente a novos padrões, ou seja, as RNA são capazes
de estabelecer relações entre padrões de natureza distinta. Mas, dados suspeitos
podem distorcer a entrada de uma RNA. Assim, o conjunto de dados foi examinado
para identificar relações mais complexas. Outro ponto que pode causar problemas é
anomalia dos dados, pontos que erroneamente estejam fora da faixa, indicando erros
nos dados.
Além disso, as RNA são sensíveis à escala das variáveis; se a magnitude dos
valores de entrada diferirem dentre si, a rede pode erroneamente atribuir uma maior
5.1 CONTRIBUIÇÕES DESTE TRABALHO
111
importância a valores maiores. Outro fato é que os dados devem ser normalizados,
pois a função de ativação estará sendo excitada em uma região muito plana, com
derivada praticamente nula. Somando-se a isto o fato de uma RNA ser sensível a mínimos locais, as entradas de uma RNA são portanto, um ponto chave para o seu bom
funcionamento, sendo conhecidas várias técnicas para inicializar a estrutura de um
RNA a fim de acelerar o treinamento e melhorar a generalização entre elas, por exemplo, as metaheurísticas e a lógica fuzzy. Quando este conjunto de técnicas falham, o
pesquisador normalmente abandona a RNA em favor de outros métodos.
O trabalho aqui desenvolvido é relevante porque utiliza uma combinação de lógica
fuzzy e estatística para o pré-processamento de dados e a determinação de conjuntos de treinamento, validação e teste, além dos atributos a serem utilizados nesses
conjuntos, fornecendo novas possibilidades de utilização das RNA.
5.1 CONTRIBUIÇÕES DESTE TRABALHO
Como a maior dificuldade encontrada no desenvolvimento desse trabalho foi a carência de material referente ao estudo. Este trabalho contribui para o desenvolvimento
de ferramentas estatísticas utilizadas em conjunto com lógica fuzzy e redes neurais
ao diminuir a carência de referencial teórico-conceitual.
Do ponto de vista operacional, este trabalho sinaliza direções importantes para o
desenvolvimento de aplicações de modelos matemáticos na indústria. Considera-se
que este trabalho pôde contribuir para mostrar a viabilidade da aplicação de técnicas
estatísticas e lógica fuzzy na validação de modelos que utilizam RNA na modelagem
de processos industriais. O uso destas técnicas ainda não é tão abrangente em aplicações industriais. A maioria dos trabalhos científicos publicados nesta área ainda
carece de uma ligação estreita com as aplicações reais. Como pode ser observado
neste trabalho, o uso de ferramentas estatísticas e lógica fuzzy na validação de modelos baseados em RNA para processos industriais tem potencialidades. Desta maneira,
é importante aproximar mais as pesquisas desta área de IC das aplicações industriais.
O presente trabalho traz como contribuição acadêmica a elaboração de um experimento que, conduzido com o rigor do método científico, obteve dados que mediante
análise mostraram que a opção pela aplicação de métodos estatísticos e lógica fuzzy
na validação de modelos que utilizam RNA é adequada. Assim, do ponto de vista
acadêmico, este trabalho contribui para a associação das técnicas estatísticas, lógica
5.2 TRABALHOS FUTUROS
112
fuzzy e RNA. Esta associação é de suma importância para orientação de trabalhos
futuros, permitindo vislumbrar novas possibilidades de desenvolvimento e refinamento
de modelos matemáticos.
5.2 TRABALHOS FUTUROS
Neste trabalho foi efetuada uma breve revisão bibliográfica sobre alguns métodos
estatísticos aplicados à análise da qualidade, lógica fuzzy e RNA. Durante o desenvolvimento deste trabalho e também após sua conclusão foram identificadas várias
possibilidades de ampliação da proposta inicial e alguns pontos que poderiam ser modificados e/ou estendidos, proporcionando um melhor desempenho ao conjunto de
técnicas propostas para a modelagem matemática. Contudo, a fim de garantir o atendimento dos objetivos inicialmente propostos, algumas técnicas estatísticas não foram
abordadas devido às suas limitações conforme 4.6. Acredita-se que outros trabalhos
poderão ser desenvolvidos em continuidade a este, no intuito de promover melhorias
nas técnicas utilizadas, as quais podem ser aperfeiçoadas. A seguir são apresentadas
sugestões para estes trabalhos:
• Outros métodos de seleção de características podem ser implementados como:
análise de agrupamentos, árvores de decisão e meta-heurísticas;
• Outras RNA podem ser utilizadas;
• A utilização das técnicas aqui detalhadas em problemas de classificação e agrupamentos;
• A implementação das técnicas aqui descritas em ambiente de produção;
• A análise de outros casos nos quais efetivamente a premissa de qualidade dos
dados seja inadequadamente assumida nos métodos estatísticos abordados.
113
Referências
ALMEIDA, P. E. M. de. Redes Neurais CMAC Paramétricas: Fundamentos e
Aplicações em Processamento de Sinais e Controle de Processos. Tese (Doutorado)
— Escola Politécnica da USP, 2002.
ALMEIDA, P. E. M. de. Notas de Aula da Disciplina Inteligência Computacional. Belo
Horizonte: Programa de Mestrado em Modelagem Matemática e Computacional do
Centro Federal de Educação Tecnológica de Minas Gerais, 2008.
ALMEIDA, P. E. M. de; SIMOES, M. G. Fundamentals of a fast convergence parametric
cmac network. Proceedings of IEEE-INSS IJCNN, Washington, v. 3, p. 3015–3020,
2001.
ALMEIDA, P. E. M. de; SIMOES, M. G. Fundamentals and applications of parametric
cmac: a fast convergence neural structure. IEEE Transactions on Industrial
Applications, v. 39, n. 5, p. 1551–1557, September-October 2003.
ALVES, F. de O. Reconhecimento Inteligente de Sinais de Trânsito Brasileiros.
Dissertação (Monografia) — Universidade do Vale do Rio dos Sinos, São Leopoldo,
Junho 2004.
AMOR, D. A (R)Evolução do E-business. São Paulo: Makron Books, 2000.
ARAUJO, A. F. de. Inteligência Computacional na Indústria - Etapa 3: Implementação
de um Modelo Matemático de Laminação de Tubos Usando Redes Neurais Artificiais.
Belo Horizonte, Julho 2006.
ARAUJO, A. F. de. Inteligência Computacional na Indústria - Etapa 4: Implementação
de um Modelo Matemático de Laminação de Tubos Usando Redes Neurais Artificiais.
Belo Horizonte, Junho 2007.
ARAUJO, A. F. de. Inteligência Computacional na Indústria - Etapa 5: Implementação
de um Modelo Matemático para um Convertedor de Aço tipo LD. Belo Horizonte,
Junho 2008.
BAPTISTA, N. Introdução ao estudo de controle estatístico de processo, CEP. [S.l.]:
Qualitymark, 1996.
BAUER, D. P. Aplicação de Redes Neurais Artificiais na Determinação do Preço de
Ações. Dissertação (Monografia) — Centro Universitário Feevale, Novo Hamburgo,
Novembro 2008.
BORBA, J. T. et al. Monografia para Economia. 1. ed. São Paulo: Saraiva, 2004.
Referências
114
BORGES, R. M. H. Comparação interlaboratorial: Instrumento para garantia de
qualidade em laboratórios químicos. In: INMETRO. Curitiba, 2006.
BRAGA, A. de P.; CARVALHO, A. C. P. de Leon Ferreira de; LUDERMIR, T. B. Redes
neurais artificiais: teoria e aplicações. 2. ed. Rio de Janeiro: LTC, 2007.
CAMPOS, G. M. Estatística Prática para Docentes e Pós-Graduandos - 11.
Aditividade e homogeineidade. São Paulo: [s.n.], 2000.
CAMPOS, M. S. Desvendando o MINITAB. Rio de Janeiro: Qualitymark, 2003.
CAMPOS, T. E. de. Distância de Mahalanobis. [S.l.], 2001.
CARVALHO, L. A. V. Data Mining: A mineração de dados no marketing, medicina,
engenharia e administração. São Paulo: Érica, 2005.
CASTANHAEIRA, L. G. Aplicação de Técnicas de Mineração de Dados em Problemas
de Classificação de Padrões. Dissertação (Dissertação) — UFMG, Belo Horizonte,
Setembro 2008.
CERVO, A. L.; BERVIAN, P. A. Metodologia cientifica. 3. ed. São Paulo: McGraw-Hill
do Brasil, 1983.
CIOS, K. J.; KURGAN, L. A. Trends in Data Mining and Knowledge Discovery. [S.l.]:
University of Colorado at Boulder, Department of Computer Science, 2003.
COLOMBO, R. T.; GUERRA, A. C.; AGUAYO, M. T. V. Aplicação de Data Mining a
Dados de Avaliação da Qualidade de Produtos de Software. [S.l.], Março 2006.
CONAGIN, A. et al. Metodologia e técnicas experimentais - efeito da falta de
normalidade em testes de homogeneidade das variâncias. 4◦ Simpósio de Estatística
Aplicada à Experimentação Agronômica e 36a Reunião Anual da Região Brasileira da
Sociedade Internacional de Biometria, Outubro 1993.
COSTA, A. A. B. Aplicação da Metaheurística PSO na Identificação de Pontos
Influentes por meio da Função de Sensibilidade de Casos. Dissertação (Mestrado) —
CEFET-MG, Belo Horizonte, MG, Setembro 2009.
CUNHA, A. P. da. Redes Neurais em Processos Siderúrgicos : Analisador Virtual de
Propriedades Metalúrgicas do Sinter e Modelo de Predição de Qualidade do Aço.
Tese (Doutorado) — UNICAMP, Campinas, SP., Dezembro 2001.
DE AGUIAR JÚNIOR, S. R. Modelo Rapide: uma aplicação de mineração de dados
e redes neurais artificiais para a estimativa da demanda por transporte rodoviário
interestadual de passageiros no Brasil. Dissertação (Dissertação) — Universidade
Católica de Brasília, Brasília, Maio 2004.
DOMINGUETE, D. H. et al. Avaliação de Técnicas de Regressão e de uma Nova
Abordagem para a Otimização do Processo de Desfosforação de Aço no Convertedor
LD da V&M do Brasil. São Paulo, Julho e Setembro 2006.
Referências
115
DORNELLES, F.; PEDROLLO, O. C.; GOLDENFUM, J. A. Análise comparativa da
aplicação de redes neurais e sistemas de inferência difusa na previsão de nível do rio
quaraí utilizando previsão de chuva. I Simpósio de Recursos Hídricos do Sul-Sudeste,
2006.
DQBFCUL. Notas sobre algarismos significativos e cálculo de erros. [S.l.], 2008.
DUARTE, S. V.; FURTADO, M. S. V. Manual para elaboração de monografias e
projetos de pesquisas. 3. ed. Montes Claros, 2002.
DURÃES, R. L.; ALMEIDA, P. E. M. de. Refinamento de modelos baseados em rna
com o emprego de análise estatística de dados e lógica fuzzy. In: IME. XII EMC Encontro de Modelagem Computacional. Rio de Janeiro, RJ, 2009. Disponível em:
<http://www.emc2009.iprj.uerj.br/>.
DURÃES, R. L.; ALMEIDA, P. E. M. de. Utilizando análise estatística de dados
e lógica fuzzy para validar modelos baseados em rna. In: COPPE/UFRJ
AND LNCC. 30 o CILAMCE - Congresso Ibero-Latino-Americano de Métodos
Computacionais em Engenharia. Armação dos Búzios, RJ, 2009. Disponível em:
<http://eventos.nacad.ufrj.br/>.
DWINNELL, W. Data Mining in MATLAB: Mahalanobis Distance. [S.l.], 2008.
FERNANDES, L. G. L.; NAVAUX, P. O. A.; PORTUGAL, M. S. Previsão de séries de
tempo: redes neurais artificiais e modelos estruturais. Pesq. Plan. Econ. Previsão de
séries de tempo, v. 26, n. 2, p. 253–276, Agosto 1996.
FERRONATO, G. Intervalos de Predição para Redes Neurais Artificiais via Regressão
Não Linear. Dissertação (Dissertação) — UFSC, Florianópolis, Agosto 2008.
FONSECA, C.; SANTOS, R. Comparação interlaboratorial de resultados analiticos análise dilatometrica: Uma ferramenta para teste de materiais. Outubro 2004.
FRANCA, J. L.; VASCOCELLOS, A. C. d. Manual para Normalização de Publicações
técnico-científica. 7. ed. Belo Horizonte, 2004.
FREUND, J. E. Estatística Aplicada: economia, administração e contabilidade. Porto
Alegre: Bookman, 2006.
FUNARBE, F. A. B. Testes de Cochran a Bartlet. [S.l.], 2008.
GIL, A. C. Como Elaborar projeto de pesquisa. São Paulo: Atlas, 2000.
GIL, A. C. Técnicas de Pesquisas em Economia e Elaboração de Monografias. São
Paulo: Atlas, 2000.
GOMES, D. T. Redes Neurais Recorrentes para Previsão de Séries Temporais de
Memórias Curta e Longa. Dissertação (Dissertação) — UNICAMP, Campinas, SP,
Novembro 2005.
HAYKIN, S. Redes neurais: princípios e prática. Porto Alegre: Bookman, 2007.
IMAM. CEP - Controle Estatístico do Processo. [S.l.: s.n.], 2004.
Referências
116
INMON, W. H. Como construir o data warehouse. São Paulo: Editora Campus, 1997.
INMON, W. H.; WELCH, J. D.; GLASSEY, K. L. Gerenciando Data Warehouse. São
Paulo: Makron Books, 1999.
IUPAC; ISO; AOAC. The harmonized protocol for the proficiency testing of (chemical)
analytical laboratories (technical report). [S.l.], march 2004.
JCOlivieri Consultoria. Rejeição de Dispersos. [S.l.], 2008.
KIMBALL, R. Data Warehouse Toolkit. São Paulo: Makron Books, 1996.
LAPPONI, J. C. Estatística usando Excel. Rio de Janeiro: Elsevier, 2005.
LAVILLE, C.; DIDONNE, J. A construção do saber, manual de metodologia da
pesquisa em ciências humanas. Belo Horizonte, 1977.
MANLY, B. F. J. Métodos Estatísticos Multivariados: Uma Introdução. 3. ed. Porto
Alegre: Bookman, 2008.
MARANHA, S. P. D. et al. Aplicação de testes estatísticos na implatação dos
novos sistemas de amostragem do manuseio de carvão e coque da companhia
siderurgica paulista. SEMINÁRIO DE REDUÇÃO DE MINÉRIO DE FERRO E
MATÉRIAS-PRIMAS E SIMPÓSIO BRASILEIRO DE MINÉRIO DE FERRO, v. 3, n. 1,
p. 18–21, Julho a Setembro 2006.
MARCONI, M. de A.; LAKATOS, E. M. Técnicas de pesquisa e execução de
pesquisas, amostragem e técnicas de pesquisa, elaboração, análise e interpretação
de dados. 5. ed. São Paulo: Atlas, 2002.
MARTINS, A. C. et al. Utilizando redes neurais artificiais para soluções de problemas
de aproximação de funções contínuas. Curso Ciência da Computação, Faculdade
Ruy Barbosa, 2009.
MEDEIROS, L. F. de. Redes Neurais em Delphi. Florianópolis: Visual Books Editora,
2003.
MEIRELES, M. R. G.; ALMEIDA, P. E. M.; SIMOES, M. G. A comprehensive review
for industrial applicability of artificial neural networks. IEEE Transactions on Industrial
Electronics, New York, v. 50, n. 3, p. 585–601, June 2003.
MENEZES, H. Comércio Eletrônico Para Pequenas Empresas. Florianópolis: Visual
Books Ltda., 2003.
MINGOTI, S. A. Análise de dados através de métodos de estatística multivariada:
uma abordagem aplicada. Belo Horizonte: Editora UFMG, 2005.
MORAES, R. T. B. de; SILVEIRA, A. Otimizando Resultados com a Gestão das
Perdas Não-Técnicas de Energia Elétrica. Belo Horizonte, Agosto 2006.
MOREIRA, D. B.; LANA, M. F. de. A geração de escória de aciaria LD
pelo método de convertedor com sopro de oxigênio. 2002. Disponível em:
<cst.com.br/produtos/coprodutos/publicacoes/publicacoes.asp>.
Referências
117
NASCIMENTO, H. L.; CARVALHO, L. R. F. d. Ferramentas Estatísticas para a
Escolha, Validação, Comparação e Monitoramento de Métodos Analíticos. Instituto
de Química - Universidade de São Paulo, LEMA - Laboratório de Estudos do Meio
Ambiente, São Paulo: [s.n.], 2001.
NBR ISO 9001, A. B. d. N. T. NBR ISO 9000: Sistema de Gestão da Qualidade Fundamentos e Vocabulário. Rio de Janeiro, 2000.
NETO, L. B. et al. Neuro-cpt: Classificação de solos usando-se redes neurais
artificiais. ENGEVISTA, v. 8, n. 1, p. 37–48, Junho 2006.
NEUFELD, J. L. Estatística aplicada à administração usando Excel. São Paulo:
Pearson Prentice Hall, 2003.
NEVES, C. das. 2.5.- Teste de Normalidade. Faculdade de Ciências e Tecnologia,
UNL, Departamento de Química, Monte da Caparica, 2825, Portugal: [s.n.], 2008.
OLIVEIRA, A. C. G. Introdução à descoberta de conhecimento em bancos de dados
e datamining. Pontifical Catholic University of Minas Gerais, Laboratory of Applied
Computational Intelligence (LICAP), Belo Horizonte, 2003.
PACIANOTTO, T. A. Aplicação de Redes Neurais para o Ajuste Operacional do
Período Final de Sopro de um Processo de Aciaria a Oxigênio. Dissertação
(Mestrado) — UNICAMP, Campinas, SP, Outubro 2003.
PASSOS, E.; GOLDSCHMIDT, R. Data Mining um guia prático. Rio de Janeiro:
Elsevier, 2005.
R Development Core Team. R: A Language and Environment for Statistical Computing.
ISBN 3-900051-07-0. Vienna, Austria, 2008.
RAMOS, A. W. CEP para processos contínuos e em bateladas. São Paulo: Editora
Edgard Blücher Ltda., 2000.
RAMÍREZ, M. C. V.; FERREIRA, N. J.; VELHO, H. F. do C. Previsão de chuva para
o padrão de verão zcas-vcan através de um downscaling estatístico. Centro de
Previsão do Tempo e Estudos Climáticos (CPTEC), Instituto Nacional de Pesquisas
Espaciais (INPE), Laboratório Associado de Computação e Matemática Aplicada
(LAC), Novembro 2006.
REIS JUNIOR, G. S. Modelagem Térmica de Processos de Laminação de Tubos
Usando Redes Neurais fuzzy-CMAC. Dissertação (Mestrado) — CEFET-MG, Belo
Horizonte, MG, 2005.
REZENDE, S. O. Sistemas Inteligentes: fundamentos e aplicações. Barueri: Manole,
2005.
RIBEIRO, S. R. A. et al. Extração de profundidades mediante redes neurais artificiais
e modelo de regressão usando dados de levantamento gps e de imagem ikonosii estudo comparativo. ENGEVISTA, v. 7, n. 1, p. 73–82, Abril 2005.
Referências
118
ROCHA, R. R.; SOUZA, T. de Eustáquio de A. Relatório Técnico do LSI: Inteligência
Computacional na Indústria: Implementação de Soluções Inteligentes para Problemas
Práticos em Automação e Controle de Processos Industriais. [S.l.], março 2004.
SANTOS, M. de Fátima Pereira dos; DIAS, J. C. M.; SILVA, D. C. Um modelo de
validação de curvas analíticas. São Paulo: Editora Epse, 2007.
SHAW, I. S.; SIMOES, M. G. Controle e Modelagem Fuzzy. 1. ed.. ed. São Paulo:
Edgard Blücher Ltda., 1999.
SILVA, E. L. da; MENEZES, E. M. Metodologia da Pesquisa e Elaboração de
Dissertação. 3. ed. Florianópolis, 2001.
SILVA, G. da. Modelagem e Implementação de uma Ferramenta Inteligente e de
Código Aberto para Inserção Automática de Inferência Fuzzy em Sig Convencionais.
Dissertação (Mestrado) — CEFET-MG, Belo Horizonte, Agosto 2006.
SINGH, H. S. Data Warehouse. São Paulo: Makron Books, 2001.
STEINER, M. T. A. Os Métodos de Análise Discriminante. [S.l.], 2008.
STEINER, M. T. A. Os Métodos de Análise Discriminante. [S.l.], Novembro 2009.
TAKAHASHI, H. J.; RABELO, G. B. da C.; TEIXEIRA, R. de A. Aplicação de técnicas
de inteligência computacional para predição de propriedades mecânicas de aços
da alta resistência microligados. Tecnologia em Metalurgia e Materiais, v. 5, n. 2, p.
100–104, Outubro - Dezembro 2008.
TAVARES, M. Estatística Não Paramétrica. [S.l.], 2008.
TECHSTEEL, S. E. E. A. Modelo matemático de temperatura do final de sopro
Convertedor LD. Belo Horizonte, Setembro 2007.
TOYOSHIMA, S. H. et al. Aplicação das técnicas de redes neurais artificiais e de
análise multivariada discriminante ao estudo de aglomerações industriais: o caso do
rio grande do sul e de são paulo. Outubro 2003.
UBA, D. M.; DUTRA, L. V. Seleção de candidatos: Uma estratégia para incorporação
da distância de mahalanobis no algoritmo k-médias. n. 7, Maio 2008.
UFPR. Teste de Shapiro-Wilk para Normalidade. [S.l.], 2008.
VIEIRA, S. Introdução à Bioestatística. Rio de Janeiro: Campus, 1985.
ZAMORA, P. P. Planejamento de Experimentos em Laboratório (Análise e Otimização).
2006.
ZARATE, L. E. Data mining applied to the discovery of symptom patterns in database
with nephrolithiasis. AIA2003/IASTED, Benalmãdena, Espanha, 2003.
ZARATE, L. E.; PAOLIELLO, R.; RIBEIRO, T. Descoberta de conhecimento em
motores de combustão utilizando data mining via técnica de clusterização. Pontifical
Catholic University of Minas Gerais, Laboratory of Applied Computational Intelligence
(LICAP), Belo Horizonte, 2003.
Referências
119
ZARATE, L. E.; PAOLIELLO, R.; RIBEIRO, T. Descoberta de falhas em motores de
combustão através de data mining via técnicas de clusterização. Pontifical Catholic
University of Minas Gerais, Laboratory of Applied Computational Intelligence (LICAP),
Belo Horizonte, 2003.
120
APÊNDICE A -- Banco de Conhecimento Fuzzy
Empregado
Código Fonte A.1: Regras Fuzzy.
I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s
s a t i s f a t o r i o ) then ( q u a l i d a d e i s mediana )
I f ( cp i s adequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s
menosquestionavel ) then ( q u a l i d a d e i s q3 )
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s
menosquestional ) then ( q u a l i d a d e i s q3 )
I f ( cp i s inadequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o )
then ( q u a l i d a d e i s q3 )
5
I f ( cp i s adequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s s a t i s f a t o r i o )
then ( q u a l i d a d e i s q1 )
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s
s a t i s f a t o r i o ) then ( q u a l i d a d e i s q1 )
I f ( cp i s inadequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s s a t i s f a t o r i o )
then ( q u a l i d a d e i s q1 )
I f ( cp i s inadequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s
b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s inadequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s q u e s t i o n a v e l
) then ( q u a l i d a d e i s i n c o m p a t i v e l )
10
I f ( cp i s inadequado ) and ( cpk i s q u e s t i o n a v a l ) and ( i q r n o m r i s
menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s inadequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s
menosquestionavel ) then ( q u a l i d a d e i s ( i n c o m p a t i v e l )
I f ( cp i s inadequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s q u e s t i o n a v e l )
then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s inadequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s q u e s t i o n a v e l )
then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s inadequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s
s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
15
I f ( cp i s inadequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s
i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
Apêndice A -- Banco de Conhecimento Fuzzy Empregado
121
I f ( cp i s inadequado ) and ( cpk i s capaz ) and ( i q r n o r m i s s a t i s f a t o r i o ) then
( qualidade i s incompativel )
I f ( cp i s inadequado ) and ( cpk i s capaz ) and ( i q r n o r m i s menosquestionavel )
then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s inadequado ) and ( cpk i s capaz ) and ( i q r n o r m i s q u e s t i o n a v e l ) then
( qualidade i s incompativel )
I f ( cp i s inadequado ) and ( cpk i s capaz ) and ( i q r n o r m i s
b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
20
I f ( cp i s inadequado ) and ( cpk i s capaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o )
then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s adequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s q u e s t i o n a v e l )
then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s adequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s
b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s adequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s
i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s adequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s s a t i s f a t o r i o ) then
( qualidade i s incompativel )
25
I f ( cp i s adequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s menosquestionavel )
then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s adequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s q u e s t i o n a v e l ) then
( qualidade i s incompativel )
I f ( cp i s adequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s
b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s adequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o )
then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s adequado ) and ( cpk i s capaz ) and ( i q r n o r m i s s a t i s f a t o r i o ) then (
qualidade i s incompativel )
30
I f ( cp i s adequado ) and ( cpk i s capaz ) and ( i q r n o r m i s menosquestionavel )
then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s adequado ) and ( cpk i s capaz ) and ( i q r n o r m i s q u e s t i o n a v e l ) then (
qualidade i s incompativel )
I f ( cp i s adequado ) and ( cpk i s capaz ) and ( i q r n o r m i s b a s t a n t e q u e s t i o n a v e l
) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s adequado ) and ( cpk i s capaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o ) then
( qualidade i s incompativel )
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s
q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
35
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s b a s t a n t e
q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s
i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
Apêndice A -- Banco de Conhecimento Fuzzy Empregado
122
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s s a t i s f a t o r i o )
then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s
menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s q u e s t i o n a v e l )
then ( q u a l i d a d e i s i n c o m p a t i v e l )
40
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o
) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o
) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s s a t i s f a t o r i o )
then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s
menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s q u e s t i o n a v e l )
then ( q u a l i d a d e i s i n c o m p a t i v e l )
45
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s
b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o )
then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s
menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s
q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s
b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
50
I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s
i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s b a s t a n t e s a t i s f a t r o i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s
s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s
menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s
q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s
b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
55
I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s
i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s
s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s
menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
Apêndice A -- Banco de Conhecimento Fuzzy Empregado
I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s
q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s
b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
60
I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s
i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l )
123

Documentos relacionados