MONOGRAFIA - Universidade dos Açores
Transcrição
MONOGRAFIA - Universidade dos Açores
UNIVERSIDADE DOS AÇORES -DEPARTAMENTO DE MATEMÁTICAMONOGRAFIA “Métodos Estatísticos e de I.O. utilizados em Sistemas de Apoio à Decisão (SAD’s)” Aluna: Tânia Cristina de Lima Fernandes 2002/2003 Índice INTRODUÇÃO ........................................................................................................................3 CAPÍTULO I ............................................................................................................................5 1.1. Breve história dos SAD’s: .................................................................................................5 1.2. O problema da definição: .................................................................................................7 1.3. Campos de aplicação:........................................................................................................8 1.4. Técnicas estatísticas e de IO usadas em SAD’s:..............................................................9 CAPÍTULO II .........................................................................................................................13 2.1. Definição ...........................................................................................................................13 2.2. Abordagens ......................................................................................................................15 2.3. Técnicas de estatística e IO .............................................................................................16 CAPÍTULO III .......................................................................................................................23 3.1. Análise Exploratória de Dados.......................................................................................23 3.2. OLAP (On-line Analytic Processing).............................................................................23 3.3. Séries temporais e técnicas de previsão:........................................................................25 CAPÍTULO IV........................................................................................................................31 4.1. Definição:..........................................................................................................................31 4.2. Como se constroem?........................................................................................................32 4.3. Algoritmos ........................................................................................................................33 4.4. Exemplo ............................................................................................................................35 CAPÍTULO V .........................................................................................................................37 CONCLUSÃO.........................................................................................................................39 GLOSSÁRIO ..........................................................................................................................40 BIBLIOGRAFIA REFERENCIADA ...................................................................................41 BIBLIOGRAFIA CONSULTADA .......................................................................................43 ANEXO I .................................................................................................................................45 ANEXO II................................................................................................................................46 II.1. CHAID.............................................................................................................................46 II.2. CART...............................................................................................................................47 II.3. QUEST ............................................................................................................................48 ANEXO III ..............................................................................................................................50 Monografia Introdução Devido à rápida evolução da tecnologia, cada vez mais dados relativos a transações comerciais, hábitos de consumo, exames médicos, clima, e outros tipos de registo estão a ser acumulados por empresas e organizações em geral. Este manancial de informação, quando aproveitado de forma eficaz, desempenha um papel fundamental no sucesso dessas empresas e organizações, afinal vivemos numa sociedade tecnológica onde a informação acumulada é muito valiosa. Já não é uma novidade a divulgação de vendas de bases de dados como forma de aumentar o activo das empresas. Assim, num mundo onde a rapidez e eficácia da tomada de decisão determina a vida ou a morte de uma empresa, torna-se cada vez mais necessário o recurso a tecnologias como os Sistemas de Apoio à Decisão. Estes sistemas, têm como objectivo último a melhoria da eficiência do processo de tomada de decisão através da fusão da intuição e experiência humanas com um sistema informático. Desde a sua criação, os Sistemas de Apoio à Decisão têm se revelado de grande utilidade em campos como a Economia, a Agricultura, a Medicina e outros. Pelo facto de utilizarem técnicas e algoritmos de Estatística e Investigação Operacional no tratamento e análise dos dados em que se baseiam as decisões considerou-se interessante a realização de um levantamento de algumas das mais utilizadas. O resultado é apresentado neste trabalho. Aprofundou-se o estudo das técnicas que se revelaram de maior interesse: o Data Mining, o On-Line Analytical Processing (OLAP) e as Árvores de Decisão ou Classificação. Este trabalho está estruturado nma Introdução, cinco capítulos e conclusão. No primeiro capítulo apresentam-se uma definição de Sistema de Apoio à Decisão e os resultados da recolha efectuada. No Capítulo II exploram-se algumas das técnicas de Data Mining. No Capítulo III desenvolvem-se os métodos associados ao OLAP. O Capítulo IV aborda sucintamente as Árvores de Decisão ou Classificação. Adicionou-se ainda um quinto capítulo onde se referem alguns dos softwares mais utilizados na aplicação das três ferramentas estudadas a um conjunto de dados e é realizada uma breve análise de alguns. Pág. 3 Monografia Pág. 4 Monografia Capítulo I Este capítulo tem por objectivo introduzir o conceito de Sistema de Apoio à Decisão, a que a partir de agora chamaremos apenas SAD, referir os campos de conhecimento em que estes são usados como ferramenta de trabalho e apresentar o resultado da recolha de técnicas estatísticas e de Investigação Operacional que neles são utilizadas. Comecemos por fazer uma breve análise da evolução dos SAD’s, desde o seu surgimento até à actualidade. 1.1. Breve história dos SAD’s: O conceito de apoio à decisão surgiu a partir de estudos teóricos sobre a tomada de decisão em organizações e trabalho técnico em sistemas informáticos interactivos, realizados nas décadas de 1950 e 60, no Carnegie Institute of Technology e no MIT. Só a partir de meados da década de 1960 se tornou viável o desenvolvimento de sistemas de informação em grande escala, pois a capacidade de armazenamento de dados em computadores aumentara com a construção de mainframes mais poderosos. Assim, surgiram sistemas de gestão de informação (MIS – Management Information Systems) que se destinavam a fornecer aos gestores de grandes companhias relatórios periódicos, estruturados, baseados em dados contabilísticos. Durante a década de 1970 foram editados livros e um conjunto de artigos que estabeleceram as bases teóricas deste campo de pesquisa. Em 1974, Gordon Davis definiu Management Information System como um sistema integrado com o objectivo de “providenciar informação para apoiar as operações, gestão e tomada de decisão numa organização” [POWE02a]. Em 1975, J.D.C. Little desenvolveu um SAD, a que chamou Brandaid, com o objectivo de auxiliar a tomada de decisões nas várias fases de lançamento de um produto [POWE02a]. Nessa década, surgiram os sistemas de apoio à decisão para executivos (EIS – Executive Information Systems), sistemas informáticos criados para satisfazer as necessidades de informação dos executivos, proporcionando-lhes acesso rápido a dados actualizados e a relatórios de gestão, possuindo ainda ferramentas de comunicação, burótica e de análise. Pág. 5 Monografia No final da década, tinham sido já desenvolvidos diversos sistemas de informação interactivos que ajudavam a resolução de problemas semi-estruturados, com base em dados e modelos, e que eram designados Sistemas de Apoio à Decisão. Já se reconhecia a capacidade dos SAD’s de trabalhar com dados espaciais, multidimensionais, documentos, apoiar operações, gestão financeira e tomada de decisões estratégicas. Utilizavam-se diversos modelos e técnicas nos SAD’s, inclusive optimização e simulação. Na década de 1980, pesquisadores desenvolveram software para o apoio à decisão em grupos (GDSS – Group Decision Support Systems). Os EIS evoluíram de SAD’s construídos para um só utilizador e orientados por modelos para, com o desenvolvimento de Data Warehouses1 e On-Line Analytical Processing2 (OLAP), passarem a integrar uma categoria mais alargada de SAD’s orientados para os dados. Nos anos 90, surgiu o conceito de Business Intelligence (BI), que resultou da tentativa de ligar informações de vendas com dados recolhidos por scanner através de um SAD. “BI descreve um conjunto de conceitos e métodos para melhorar a tomada de decisão empresarial através da utilização de sistemas de apoio baseados em dados” [POWE02a] que são SAD’s orientados para os dados. Com a evolução das tecnologias os mainframes foram substituídos por servidores com menor volume e maiores capacidades. Surgiram novas ferramentas de OLAP que foram integradas em SAD’s. Em meados da década, com a popularização da World Wide Web, abriu-se uma nova dimensão de pesquisa, nomeadamente, o desenvolvimento de SAD’s baseados neste novo ambiente de trabalho. O quadro seguinte sumaria a evolução do conceito de SAD ao longo das últimas décadas: 1 2 Ver definição na página 8. Ver definição na página 7. Pág. 6 Monografia Evolução dos SAD’s 1960 MIS e relatórios estruturados Pesquisa em sistemas interactivos Desenvolvimento teórico 1970 1980 1990 Brandaid 1ª Bibliografia Data Warehouses MDS GDSS OLAP EIS RDBMS Data Mining Expert systems Tabela 1: Evolução dos SAD’s (Adaptado de [POWE02b], p.2). Esta é apenas uma síntese da curta história dos SAD’s, pois com a acelerada evolução das tecnologias este é um campo em constante mutação. 1.2. O problema da definição: Devido à rápida evolução tecnológica que ocorreu nas últimas décadas, ainda não existe um consenso entre os diversos especialistas relativamente à definição de SAD, por isso, apresentaremos as que consideramos mais completas: Segundo Bill Inmon, um SAD é “um sistema usado para apoiar decisões de gestão. Normalmente envolve a análise de muitas unidades de dados de uma forma heurística. Como regra, o processamento por um SAD não envolve a actualização de dados” [INMO99]. Por outro lado, Henry Lucas afirma que um “SAD é um sistema baseado em computador que auxilia o processo de tomada de decisão utilizando dados e problemas não estruturados” [CHAV01]. Podemos assim definir SAD através da síntese das duas definições anteriores, ou seja, como sistemas informáticos interactivos que auxiliam o processo de tomada de decisão, relativamente a problemas semi estruturados (mal estruturados ou ainda não estruturados), através da análise de grandes quantidades de dados. É necessário ter em conta que auxiliar o processo de tomada de decisão significa mais do que fornecer informação, envolve também Pág. 7 Monografia “analisar alternativas, propor soluções, pesquisar o histórico das decisões tomadas, simular situações, etc.”[CHAV01]. Os SAD’s, quando implementados na forma de software, possuem, em geral, a seguinte estrutura: Interface com o utilizador Sistema Gestor de Bases de Dados Ferramentas para tratamento e gestão de dados Sistema Gestor da Base de Modelos Dados externos Modelos estratégicos Modelos tácticos Dados internos Modelos operacionais Funções e subrotinas para construção de modelos Figura 1: Arquitectura de um SAD A Base de Dados contém a informação em que se baseará a decisão (dados externos e internos) e ferramentas para gerir e tratar os dados. A Base de Modelos guarda os modelos a aplicar (estratégicos, tácticos e operacionais) de acordo com o tipo de decisão a tomar, possuindo ferramentas para gerar modelos que se adaptem a situações novas. O SGBD é o Sistema Gestor da Base de Dados e o SGBM o Sistema Gestor da Base de Modelos. A ligação ao utilizador é feita através de uma interface que liga os diversos módulos e facilita as tarefas de introdução dos dados e apresentação de resultados. 1.3. Campos de aplicação: As capacidades dos SAD’s enquanto ferramenta de trabalho são amplamente reconhecidas em diversos campos do conhecimento. Pág. 8 Monografia Na actualidade já existem inúmeras aplicações dos SAD’s sendo impossível referi-las todas. Assim, mencionamos apenas alguns exemplos representativos da diversidade da sua utilização. Por exemplo, na gestão empresarial, nas áreas de contabilidade, finanças (planeamento de dívida, avaliação e investimento imobiliários, planeamento financeiro de pequenas empresas, etc.), gestão de recursos humanos, marketing, gestão de produção, etc. Na educação, na governação (planeamento ambiental, desenvolvimento da política económica nacional), na saúde (distribuição de recursos em organizações de saúde pública.), no planeamento urbano (gestão de tráfego, gestão do sistema de recolha de resíduos, etc.). Na medicina, existem SAD’s especializados no auxílio ao diagnóstico de determinadas doenças. 1.4. Técnicas estatísticas e de IO usadas em SAD’s: Através de pesquisa realizada na Internet e em diversas fontes bibliográficas físicas decidimos estudar neste trabalho as seguintes técnicas e tecnologias utilizadas pelos SAD’s no desempenho das suas funções: o Data Mining: O processo de Data Mining é utilizado nos SAD’s com o objectivo de descobrir informação relevante que esteja oculta nos dados, “consiste na aplicação de técnicas de estatística e inteligência artificial em grandes bases de dados, para encontrar tendências ou padrões a fim de apoiar decisões” [FREI01]. O processo de Data Mining é constituído por três etapas: exploração inicial, construção de um modelo/identificação de padrões e aplicação do modelo obtido. O processo de Data Mining envolve técnicas estatísticas como a análise de clusters, análise de regressão e estatística descritiva. Uma abordagem aprofundada ao Data Mining será realizada no próximo capítulo. Pág. 9 Monografia o Árvores de decisão ou classificação: As árvores de decisão são um dos métodos mais utilizados pelos SAD’s no tratamento dos dados para extracção de informação relevante. Podemos definir uma árvore de decisão como “uma estrutura de dados recursivamente definida como um nó folha, que indica uma classe, ou um nó de decisão, que contém um teste sobre o valor de um atributo. Para cada um dos possíveis valores do atributo, tem-se um ramo para uma outra árvore de decisão (subárvore). Cada subárvore contém a mesma estrutura de uma árvore. Árvores de decisão dividem o espaço de descrição do problema em regiões disjuntas, isto é, um exemplo é classificado por apenas um único ramo da árvore” ([LUCE01], p.2). Apesar de surgir como uma das ferramentas utilizadas em Data Mining na detecção de padrões, esta técnica será desenvolvida separadamente no capítulo IV. o Análise Exploratória de Dados e On-Line Analytical Processing (OLAP): Uma primeira abordagem ao tratamento da informação disponível para a tomada de decisão é, muitas vezes, a análise exploratória dos dados utilizando a Estatística. Torna-se assim possível uma melhor compreensão da informação contida nos dados disponíveis, pois é mais fácil interpretar relações apresentadas num gráfico, numa tabela de dupla entrada ou em estatísticas descritivas do que numa folha de cálculo com milhares de entradas. O OLAP é um conjunto de técnicas informáticas que permitem a análise de tendências em dados definidos de forma multidimensional, transformando-os em informação útil. É possível encontrar ferramentas OLAP em diversos sectores de uma organização. Por exemplo, é possível utilizar esta técnica na análise e previsão do volume de vendas, pesquisa de mercado, para orçar despesas, etc. Este é outro tema a ser desenvolvido posteriormente. o Data Warehouses: Actualmente, os Data Warehouses estão muito em voga enquanto ferramenta de trabalho e, de acordo com Bill Inmon, são: 3“Um conjunto de estruturas de dados orientados 3 “A subject oriented, integrated, non volatile, time variant collection of data design to support management DSS needs.” [INMO99]. Pág. 10 Monografia por assunto, integrados, não voláteis e variáveis no tempo para satisfazer as necessidades de SAD’s.”[INMO99]. Como os Data Warehouses não são propriamente uma técnica, mas sim uma forma de organização de dados e não utilizam técnicas de IO e de Estatística, não se enquadram neste trabalho e por isso são apenas referidos. o Sistemas de Informação Geográfica (Geographical Information Systems GIS): Pode considerar-se que um GIS é um sistema de apoio à decisão que é capaz de “recolher, armazenar, manipular e expor graficamente informação geográfica” ([BAPT01], p.2) referenciada através de um sistema de coordenadas e que a utiliza na resolução de problemas. Problemas que podem envolver, por exemplo, encontrar a melhor localização para um dado serviço público, organizar o tráfego numa cidade, etc. Os GIS “armazenam informação acerca do mundo real como uma colecção de níveis temáticos que podem ser interligados através da geografia” ([BAPT01], p.15). Quando se sobrepõe a informação contida em cada um destes níveis, obtém-se a caracterização da localização de onde se recolheram os dados. Com os GIS torna-se possível expandir a construção de mapas e a análise geográfica, permitindo a um maior número de pessoas uma mais fácil interpretação desse tipo de informação para o apoio à decisão. Estes sistemas envolvem a utilização de técnicas estatísticas como a amostragem, a análise multivariada, a análise geoestatística e estatística descritiva, e técnicas de IO como os algoritmos de caminho mais curto e de fluxo máximo, entre outros. Este tema não será desenvolvido neste trabalho por ter sido abordado numa monografia anterior referenciada como [BAPT01]. Pág. 11 Monografia Pág. 12 Monografia Capítulo II Neste capítulo consideraremos, de forma aprofundada, as técnicas de Data Mining. Esta é uma técnica que se encontra já bastante difundida, sendo possível encontrar no mercado de software diversas ferramentas para a mineração de bases de dados, por exemplo: Clementine da SPSS, IBM Intelligent Miner for Data, Statistica Data Miner, entre outros4. 2.1. Definição Comecemos por definir e descrever as diversas etapas do processo. No capítulo anterior definimos Data Mining como a “aplicação de técnicas de estatística e inteligência artificial em grandes bases de dados, para encontrar tendências ou padrões a fim de apoiar decisões” [FREI01]. Assim, o principal objectivo do Data Mining é construir um modelo capaz de prever o comportamento de um conjunto de variáveis envolvidas num determinado problema, a partir de um conjunto de dados conhecido a priori que facilite a determinação da solução. O processo de Data Mining é composto por três etapas: a exploração inicial, a construção, validação e a aplicação do modelo obtido. Vejamos o que acontece em cada uma delas. 2.1.1. Exploração inicial: Este é um passo muito importante no processo de Data Mining, pois é nesta fase que se escolhe a amostra que será trabalhada e as variáveis que interessam estudar. Envolve a selecção, pré-processamento e limpeza, e transformação dos dados. o Selecção: nesta fase seleccionam-se ou segmentam-se os dados de acordo com critérios definidos a priori. Por exemplo, escolhem-se as variáveis relevantes para a resolução do problema e, de forma aleatória, seleccionam-se os registos que formarão a amostra. 4 Para mais informações sobre software disponível consultar www.kdnuggets.com . Pág. 13 Monografia o Pré-processamento e limpeza: é retirada a informação irrelevante para a resolução do problema, e também a considerada inutilizável (por conter muitos valores omissos, dados desactualizados, erros tipográficos e ortográficos). Reconfiguram-se os dados para assegurar a coerência, pois estes podem ter origem em formatações diferentes (por exemplo, o valor da variável “sexo” pode ser representado por m/f ou 1/2). Por vezes realçam-se os dados, já que as diferenças que neles existem podem conter padrões escondidos (este realce deve ser realizado com cautela para que não se obtenham padrões falsos, que não são verdadeiramente apoiados pelos dados). o Transformação: recuperam-se os dados identificados nas fases anteriores, estruturando-os em tabelas e ficheiros que serão sujeitos ao Data Mining. Nesta primeira etapa pode ser apenas necessário escolher estimadores para um modelo de regressão, ou então realizar uma análise estatística mais aprofundada para determinar quais as variáveis relevantes e que modelos se devem considerar na fase seguinte. 2.1.2. Construção e validação do modelo Nesta fase, o objectivo é encontrar o modelo que melhor descreve o conjunto de dados seleccionado. Este modelo pode ser escolhido de entre os modelos guardados na Base de Modelos do SAD ou gerado pelas ferramentas incorporadas nesse módulo. Existem dois tipos de modelos, os descritivos e os preditivos. Um modelo descritivo procura facilitar a compreensão de comportamentos e processos associados, por exemplo, de clientes. Um modelo preditivo refere-se a uma equação ou a um conjunto de regras que possibilitam a previsão de um valor desconhecido (variável dependente) a partir de outros valores conhecidos (variáveis independentes ou explicativas). Frequentemente, os modelos construídos têm anomalias causadas por erros nos dados usados nessa construção. A essas anomalias e erros chamamos ruído. Os modelos utilizados podem estar associados a várias áreas do conhecimento humano, Matemática, Economia, Ciências Sociais, etc. A validação do modelo pode ser feita pela comparação dos resultados obtidos com a sua aplicação a um conjunto de dados com resultados previamente conhecidos, por cálculo do valor dos desvios ou erros encontrados. Ou então, de uma forma cruzada, utilizando uma parte da amostra para a construção do modelo e o restante para a validação deste. Pág. 14 Monografia 2.1.3. Aplicação O modelo escolhido na fase anterior é aplicado a novos dados para classificá-los ou para que se possam realizar previsões úteis, isto é, os padrões identificados são transformados no conhecimento que será usado para apoiar o utilizador no processo de tomada de decisão. 2.2. Abordagens É possível aplicar o Data Mining aos dados de diversas formas. De acordo com Groth, existem três: aprendizagem supervisionada (classificação), aprendizagem não supervisionada (clustering) e visualização ([GROT98], p.4). Definamos cada uma destas abordagens: o Aprendizagem supervisionada: o sistema recebe classes definidas pelo utilizador e exemplos para cada uma, como base para a construção do modelo. Pretende-se que o sistema encontre “uma descrição de cada classe, isto é, as propriedades comuns aos exemplos” fornecidos. Após a formulação da descrição, esta e a classe que lhe corresponde passam a formar uma regra de classificação “que pode ser usada para classificar objectos até então desconhecidos” [DILL95]. Exemplificando, consideremos o caso de uma empresa que pretende saber qual o tipo de clientes que pode perder mais facilmente para os seus competidores. Para obter essa informação, utilizando a aprendizagem supervisionada no processo de Data Mining, a empresa aplica-o à sua base de dados históricos, considerando como classes os clientes leais, versus os clientes que preferiram outras empresas que prestam os mesmos serviços. Obtendo assim um modelo que será usado para prever quais dos novos clientes lhe serão leais e quais os que preferirão a concorrência. o Aprendizagem não supervisionada: o sistema realiza a sua aprendizagem através da observação e descoberta. São-lhe fornecidos objectos, mas “não são definidas classes de modo que tem de observar os exemplos e reconhecer padrões (isto é, descrição da classe) por si mesmo. Este processo resulta num Pág. 15 Monografia conjunto de descrições de classes, uma para cada classe descoberta no ambiente” [DILL95]. Para exemplificar, consideremos agora uma empresa que pretende agrupar a informação guardada sobre os seus clientes de acordo com as suas similaridades. Esta empresa tem por objectivo compreender que grupos são o melhor alvo das campanhas publicitárias, aumentando dessa forma a eficácia da comercialização dos seus produtos. Assim, o processo de Data Mining, utilizando a aprendizagem não supervisionada, seria aplicado à sua base de dados obtendo uma segmentação dos seus clientes segundo os padrões detectados pelo sistema (de acordo com o rendimento mensal, o número de filhos e outras variáveis semelhantes). o Visualização: como a palavra indica, refere-se à apresentação gráfica da informação obtida. No entanto, não se limita necessariamente à apresentação bidimensional recorrendo a gráficos e mapas. A tecnologia permite adicionarlhes diversas “camadas” de informação, obtendo animações tridimensionais que realçam dados que normalmente passariam despercebidos. Por exemplo, é possível combinar um mapa onde estão assinalados os locais em que já estão implementados negócios e o que se pretende iniciar. Associando-o com informação referente aos transportes que servem a área e dados relevantes da população alvo é possível obter uma previsão da localização que melhor serve os objectivos propostos. 2.3. Técnicas de estatística e IO Entre as técnicas utilizadas no processo de Data Mining encontramos as árvores de decisão ou classificação, a estatística descritiva, a análise de clusters e a análise de regressão. Apenas estas duas últimas técnicas serão abordadas neste capítulo, as outras serão aprofundadas posteriormente. 2.3.1. Análise de clusters: Esta técnica é usada em Data Mining para “separar o conjunto de dados em componentes que reflictam um padrão consistente de comportamento” [DILL95]. Está directamente relacionada com a aprendizagem não supervisionada. Pretende-se que as classes Pág. 16 Monografia ou clusters encontrados possuam um mínimo de semelhanças entre si, e que entre os elementos que constituem cada cluster a semelhança seja máxima. Após esta divisão é possível usar os clusters obtidos como base para uma análise mais detalhada. De que forma podemos obter esta segmentação do conjunto de dados? Existem diversos algoritmos que podemos aplicar, classificados como hierárquicos (aglomeração ou divisão) e não hierárquicos. Os algoritmos hierárquicos não exigem o conhecimento antecipado do número de clusters a formar. Considerando um algoritmo aglomerativo, a divisão em clusters é efectuada através da formação de pares de observações que possuem uma maior semelhança entre si, mas que ainda não pertencem ao mesmo cluster, de modo a que estas passem a formar um novo cluster. Posteriormente unem-se os pares mais próximos obtendo menos grupos e com maior dimensão. Este processo é repetido iterativamente até que todas as observações estejam reunidas num só cluster. Os algoritmos não hierárquicos baseiam-se na obtenção de um número predefinido de clusters, k, que conterão todos os casos observados. Ou seja, em vez de se combinarem grupos semelhantes entre si de forma hierárquica, procura-se encontrar os k clusters que melhor solucionam o problema juntando unidades ao grupo mais próximo. Na prática, verifica-se que a utilização destes dois tipos de algoritmo varia de acordo com as características do problema e com os objectivos do utilizador. Os algoritmos não hierárquicos permitem ao utilizador definir o número de classes a formar e um valor para a distância mínima entre objectos para que estes pertençam a clusters diferentes. O tempo de computação é normalmente menor, mas pode variar de acordo com a abordagem, pois a segmentação pode fazer-se com uma só passagem pelos dados ou com múltiplas passagens (neste caso, a segmentação é realizada na primeira passagem e nas seguintes alguns objectos podem ser recolocados em clusters diferentes com o objectivo de melhorar a divisão dos dados). No caso dos algoritmos hierárquicos, por se realizarem de forma iterativa e trabalharem com todos os objectos em cada etapa exigem um poder computacional elevado e mais tempo para obter a segmentação dos dados. Pág. 17 Monografia Vejamos agora quais são algumas das formas mais utilizadas para determinar a distância entre elementos e entre clusters. o Comparação entre elementos: esta é realizada através do cálculo de um coeficiente de proximidade entre pares de elementos do conjunto de dados, D. Este coeficiente pode ser definido como uma aplicação γ de D×D em ℜ, simétrica e tal que γ(x,y)≤γ(x,x), se γ avalia uma semelhança e γ(x,y)≥γ(x,x), se γ avalia uma dissemelhança. Representamos os coeficientes de semelhança por sij e os de dissemelhança por dij. É calculado a partir de uma matriz n×p, onde nas n linhas temos os elementos a classificar e nas p colunas temos os seus atributos. Assim, γ, permite-nos obter uma matriz quadrada, real e simétrica, onde estão organizados os valores em que nos basearemos para agrupar os elementos em classes. Alguns dos coeficientes de proximidade mais utilizados sobre matrizes métricas estão representados na tabela seguinte: Quadrado da Distância Euclidiana d ij2 = ∑ (x d ij = Distância de Manhattan p v =1 − x iv p ∑x v =1 iv ) 2 jv − x vj Tabela 2: Coeficientes de proximidade. Existem ainda coeficientes definidos sobre matrizes lógicas e sobre matrizes de frequências, mas não os referiremos. o Comparação entre classes: é também necessário comparar a semelhança/dissemelhança entre os clusters formados em cada iteração do algoritmo de agrupamento e os elementos que ainda não estão incluídos num cluster. Um critério de agregação é uma aplicação σ definida de P(X)× P(X), (onde X é o conjunto a classificar e P(X) o conjunto das partes de X), para ℜ e Pág. 18 Monografia tal que σ(C1,C2) é o valor da distância entre os clusters C1 e C2. O objectivo é minimizar a semelhança entre clusters. Alguns dos critérios mais comuns são o do vizinho mais próximo, o do centróide e o de Ward. O critério do vizinho mais próximo utiliza, para matrizes de semelhança, o coeficiente de comparação: Γ (C1 , C 2 ) = min {s ij ( x, y ) : x ∈ C1 ∧ y ∈ C 2 }. Para matrizes de dissemelhança pretende-se o mínimo dos dij’s. O critério do centróide considera que a distância entre as classes C1 e C2 é dada pela distância entre os seus centros de gravidade (centróides) c1 =(c11,...,c1n) e c2=(c21,...,c2n), onde as coordenadas c1i e c2i são dadas pelas médias dos valores assumidos pela i-ésima variável para os objectos da classe correspondente. O critério de Ward procura minimizar a soma dos quadrados (WSS) dentro dos clusters, estimador da variância intra-grupos, dada pela fórmula: WSS = ∑ ∑ (x k n j j =1 i =1 ij − x ) 2 j . Onde i representa o número total de clusters e nj o número de elementos no cluster j. o Interpretação dos resultados: os resultados obtidos podem ser representados, entre outras formas, por dendogramas. Um dendograma é uma árvore hierárquica que permite “visualizar a informação em diferentes níveis de abstracção” ([KARY], p.1) e representa de uma forma simples a sequência de fusões sucessivas (no caso aglomerativo) que se verificam com a aplicação de um algoritmo hierárquico da Tabela 2. 1,0 8,0 6,0 4,0 2,0 0,0 a b c d e Figura 2: Exemplo de um dendograma em que são classificados cinco elementos. Pág. 19 Monografia Como é possível verificar na Figura 2, no início do dendograma temos os n elementos a classificar constituindo clusters separados, e no fim estão já agrupados num só cluster. O eixo vertical representa o coeficiente de agrupamento e permite-nos saber a que distância/semelhança se formam os clusters. A escala apresentada na figura refere-se a dissemelhanças. É fácil concluir que este tipo de representação gráfica permite uma compreensão mais imediata da forma como os elementos foram agrupados do que, por exemplo, uma tabela. 2.3.2. Análise de regressão A análise de regressão é utilizada com o objectivo de quantificar as relações de casualidade existentes entre duas ou mais variáveis, isto é, inferir como as variações de uma ou mais variáveis independentes afectam uma variável designada por dependente. A regressão pode ser efectuada de acordo com vários modelos. Temos, por exemplo, o modelo linear, que é o mais comum, o exponencial, o polinomial, o curvilíneo e o logístico, entre outros. Escolhe-se o modelo de regressão considerando o tipo e número de variáveis com que se está a trabalhar. Veremos apenas como funcionam o modelo linear na sua forma geral e o logístico, pois estão entre os mais utilizados na prática. O modelo geral de regressão multilinear assume a seguinte forma: Y = β 1 + β 2 X 2 + ... + β k X k + ε . Onde Y é a variável dependente e X2,..., Xk são as variáveis independentes. ε é a variável aleatória que representa o efeito que as variáveis que não são tidas em conta no modelo têm sobre o comportamento de Y. β1,..., βk são designados por coeficientes de regressão. Quando se procura fazer corresponder este modelo aos dados, a maior dificuldade é a estimação dos valores dos coeficientes de regressão. Normalmente, para obter estimadores confiáveis para esses coeficientes utiliza-se o método dos mínimos quadrados, que não iremos aprofundar neste trabalho. Pág. 20 Monografia Para determinar a qualidade da regressão utiliza-se o coeficiente de determinação multilinear, R2, que mede a proporção da variação total de Y que é explicada pela regressão, isto é, pela influência linear das variáveis X2,...,Xk. R2 varia entre 0 e 1, sendo que 1 corresponde a uma correlação perfeita e 0 a uma total ausência de correlação entre as variáveis. R2 é calculado através da fórmula seguinte: ∑ (Y n R2 = i =1 i ) − ∑ (Y ∑ (Y − Y ) −Y n 2 i =1 n n ^ i − Y )2 =1− 2 i =1 i ^ ∑ (Y i − Y )2 ∑ (Y i −Y i =1 n i =1 . ) 2 Vejamos agora o modelo logístico. Este assume a seguinte forma: E (Y ) = . 1 ⎡ ⎛ 1 + exp ⎢ − ⎜⎜ β 0 + ⎣⎢ ⎝ k ∑β j =1 j ⎞⎤ X j ⎟⎟ ⎥ ⎠ ⎦⎥ Onde Y é a variável dependente, β0 é uma constante, X1,...,Xk são as variáveis independentes e β1,...,βk são os coeficientes de regressão. É necessário chamar a atenção para o facto de Y ser uma variável dicotomizada, isto é, só assume os valores 0 e 1. Como Y ∈ {0,1}, por definição de valor esperado, temos: E ( Y ) = [0 × P ( Y = 0 ) ] + [1 × P ( Y = 1 ) ] = P ( Y = 1 ) . Assim, podemos representar este modelo pela equação: P (Y = 1) = . 1 ⎡ ⎛ 1 + exp ⎢ − ⎜⎜ β 0 + ⎢⎣ ⎝ k ∑β j =1 j ⎞⎤ X j ⎟⎟ ⎥ ⎠ ⎥⎦ Por estarmos a trabalhar com uma função de probabilidade, com este modelo, temos sempre a certeza que os valores previstos estão compreendidos entre 0 e 1. Trabalhando a equação anterior vem: β0 + k ∑β j =1 j X j ⎛ P (Y = 1) ⎞ ⎟ ⇔ logit ( P = 1) = β 0 + = log ⎜⎜ − P ( Y = 1) − 1 ⎟⎠ ⎝ k ∑β j =1 j X j , a forma mais popular para escrever a equação deste modelo, pois torna possível utilizar a regressão linear para estimar valores para os coeficientes de regressão. Na tabela seguinte apresentamos as equações de outros modelos de regressão: Pág. 21 Monografia Y = β 0 + β 1 X + β 2 X 2 + ... + β k X k + ε Modelo polinomial ( Y = exp α + β 1 X + ... + β k X k + ε Modelo exponencial ) ⎛ ⎞ β β Y = exp ⎜⎜ α + 1 + ... + k + ε ⎟⎟ X1 Xk ⎝ ⎠ Modelo “curva S” Tabela 3: Modelos de regressão. Nestes modelos, Y é a variável dependente, α e β0 são constantes, β1,...,βk são coeficientes de regressão, X é a variável dependente e ε é a variável estocástica que descreve o efeito de variáveis desconhecidas, ou não consideradas, em Y. É interessante notar que os algoritmos que implementam estas técnicas baseiam-se de perto na teoria, como diz Thearling em [THEA], na prática existem poucas diferenças entre as técnicas de estatística e as técnicas clássicas de Data Mining. Pág. 22 Monografia Capítulo III Consideremos agora de que forma é que a Análise Exploratória de Dados e o OLAP utilizam técnicas estatísticas e de IO para analisar os dados em que se baseiam as decisões tomadas com o auxílio de SAD’s. 3.1. Análise Exploratória de Dados A Análise Exploratória de Dados envolve a aplicação de diversas técnicas estatísticas (mais ou menos complexas de acordo com as características dos dados e do tipo de informação que se pretende obter) aos dados, com o objectivo de os transformar em conhecimento que auxilie o decisor no processo de tomada de decisão. Uma das ferramentas estatísticas mais simples e que permite a obtenção de resultados facilmente compreensíveis é a Estatística Descritiva, isto é, o cálculo de médias, medianas, desvios padrão, etc. Existem ainda técnicas de visualização de dados, como a construção de histogramas, gráficos de barras, diagramas de quartis, tabelas de frequências e/ou de dupla entrada, entre outras. A Análise de Regressão e a Análise de Clusters são outras abordagens (já referidas no capítulo anterior) que permitem a extracção de conhecimento dos dados considerados relevantes. Os testes estatísticos fornecem uma base para apoiar ou refutar hipóteses definidas empiricamente. Assim, podemos dizer que com o uso de técnicas estatísticas bastante simples é possível rentabilizar os dados disponíveis, sumariando-os, representando graficamente relações entre variáveis e identificando rapidamente tendências pouco usuais que podem ser significativas para a resolução do problema em consideração. 3.2. OLAP (On-line Analytic Processing) O que é OLAP? Quando falamos em OLAP referimo-nos a “um conjunto de tecnologias projectadas para suportar análise e consultas ad hoc” [INFO98], (ou seja, não é necessário definir à partida critérios de consulta), que são aplicadas a bases de dados organizadas de uma forma multidimensional. Pág. 23 Monografia A estrutura básica de trabalho em OLAP é o cubo. Este cubo é construído para armazenar os dados considerados relevantes para a análise. Neste, os dados são medidas numéricas dependentes de um conjunto de dimensões que lhes fornecem um contexto. Por sua vez, cada dimensão é descrita através de um conjunto de atributos hierarquizados. Podemos ainda dizer que cada medida numérica é definida de forma única pelas dimensões que a contextualizam. Normalmente, um cubo OLAP não contém apenas dados. Nele estão também programados cálculos simples como a contagem de elementos, totais, médias, desvios padrão, etc. Para clarificar este encadeamento de conceitos consideremos, a título de exemplo, um cubo que armazena dados referentes às vendas de uma empresa. Neste cubo, a informação está estruturada em três dimensões: Data, Produto e Localização. Estas são definidas à custa de atributos: para a Data temos a data em que a venda foi efectuada (Ano, Mês, Dia), para o Produto temos os vários produtos que são vendidos pela empresa (Produto, Modelo) e para a Localização temos a localização geográfica da filial da empresa onde se realizou a venda (País, Região, Cidade). Uma dimensão muito importante num cubo OLAP é o tempo. Muitos dos dados que são trabalhados por empresas e outras entidades não são de interesse sem o registo da data em que foram recolhidos. Por isso, é importante que uma ferramenta OLAP tenha um calendário incorporado, seja capaz de efectuar operações como agregar os dados em períodos de tempo flexíveis (dia, semana, mês, etc.) e trabalhar com séries temporais. Em OLAP existem quatro tipos de operações utilizadas na análise dos dados. Se considerarmos a hierarquia das dimensões podemos falar em drill down e roll up, se quisermos analisar os dados de vários “pontos de vista”, por exemplo, “rodando” o cubo, usamos as operações slice e dice. O drill down refere-se à alteração da visualização dos dados de um menor para um maior nível de detalhe dimensional. O roll up é o inverso, ou seja, passar de um nível mais resumido para um menos resumido. Com a operação slice é possível “cortar” o cubo para que o utilizador possa obter uma visão mais específica dos dados, por exemplo seccionando o cubo para visualizar os dados de Pág. 24 Monografia vendas numa determinada data. Dice serve para rodar o cubo para que os dados possam ser analisados de uma perspectiva diferente, isto é, segundo um outro valor de um mesmo atributo ou variável. 3.3. Séries temporais e técnicas de previsão: Uma série temporal é um conjunto de observações realizadas sequencialmente em períodos de tempo espaçados regularmente. Porque são de interesse para os decisores? Porque possibilitam a obtenção de previsões confiáveis. No entanto, é necessário observar que a previsão só é válida se as condições do passado se mantiverem no futuro. Na aproximação clássica ao estudo das séries temporais considera-se que estas são constituídas por quatro componentes: tendência (Tt), ciclo (Ct), sazonalidade (St) e irregular ou resíduo (I). Que podem ser definidas como: ⇒ Tendência: uma tendência geral de crescimento ou decrescimento. ⇒ Ciclo: flutuações que se repetem ao longo do tempo. Apresentam um período superior a um ano. Normalmente relacionam-se com o ciclo económico. ⇒ Sazonalidade: flutuações periódicas, mas de período inferior ou igual a um ano, a que se chama ciclo sazonal. ⇒ Irregular: representa flutuações aleatórias ou “ruído” resultante de acontecimentos imprevisíveis, não tendo correlação temporal. Normalmente, estas componentes são relacionadas, numa abordagem multiplicativa, através da equação: y t = Tt Ct S t I . Onde yt é o valor observado da variável descrita pela série temporal. No modelo clássico assume-se que qualquer valor observado de yt é o resultado da influência conjunta das quatro componentes. Esta situação pode ser exemplificada da forma indicada na Figura 3. Pág. 25 Monografia Sazonalidade (S) Irregular (I) 1, 2 0,6 1 0,4 0, 8 0,2 0, 6 0 0, 4 Y=T C S I -0,2 0, 2 -0,4 0 -0,6 15 10 5 1,5 15 1 0 10 0,5 0 5 -0,5 -1 Realidade 0 -1,5 Ciclo (C) Tendência (T) Figura 3: As componentes do modelo clássico multiplicativo (Adaptado de [WEIE98], p.715). Para que se possam efectuar previsões é necessário separar a série nas suas várias componentes, o que exige o recurso a um conjunto de métodos adequados às características de cada componente. Consideremos duas abordagens ao estudo de séries temporais: técnicas de regressão e técnicas de alisamento. 3.3.1. Técnicas de regressão Geralmente, a componente mais importante de uma série temporal é a tendência. Assim, com a utilização de técnicas de regressão procura-se ajustar uma linha que descreva essa componente dos dados. Normalmente, utilizam-se os modelos de regressão linear, polinomial e exponencial (o primeiro no caso linear e os outros no caso não linear). Como já falamos de análise de regressão no capítulo anterior, vamos apenas acrescentar que, para facilitar os cálculos, os intervalos temporais são substituídos por números naturais, sendo que o primeiro intervalo recebe o valor 1, o segundo 2 e assim sucessivamente. Realizar previsões a partir da equação obtida para a componente tendência é simples, basta fazer a substituição da variável “tempo” pelo período de tempo para que se pretende a previsão. Pág. 26 Monografia 3.3.2. Técnicas de alisamento As técnicas de alisamento procuram eliminar as componentes irregulares e a sazonalidade. Entre as várias técnicas existentes vejamos como funcionam duas das mais utilizadas, a média móvel centrada e o alisamento exponencial. o Média móvel centrada (MMt): neste caso, pretende-se filtrar de forma sistemática as irregularidades da série facilitando a análise do seu comportamento a médio e longo prazo. A série temporal inicial é substituída por outra, onde cada ponto é obtido através do cálculo da média dos valores assumidos pela série original nos N pontos centrados no período de tempo pretendido, pois cada ponto corresponde a um período de tempo. Se o valor escolhido para N for impar, para obtermos um ponto de ordem i da nova série escolhemos os N pontos da série original de ordem i-N/2 até i+N/2 e calculamos a média destes N pontos. O valor da média calculada é o valor do ponto de ordem i da nova série. Assim: MM t ( N = 2 n + 1) = y t − n + ... + y t + ... + y t + n . N Se N for par temos de alterar um pouco o método. Seleccionamos dois grupos de N elementos da série temporal original, para que os últimos N-1 elementos do primeiro grupo correspondam aos primeiros N-1 elementos do segundo grupo. Calculamos o valor total das observações para cada um dos grupos. Em seguida, calculamos a média dos dois totais. Por fim, dividimos por 4 a média calculada. Ou de forma mais simples, calculamos o valor de: MM t ( N = 2 n ) = y t − n / 2 + ... + y t + ... + y t + n / 2 . N Obtemos assim o valor do novo elemento da série das médias. A ordem de cada novo ponto corresponde a um período de tempo presente na série original. Pág. 27 Monografia A partir desta nova série é possível obtermos as componentes restantes. A tendência surge através do uso de técnicas de regressão para o cálculo dos coeficientes a e b na expressão seguinte: MM t = (Tt = a + bt ) × ε t , onde εt é o desvio entre o modelo e os valores da série. Para a obtenção das outras componentes utilizamos as seguintes expressões: Ct = MM t yt = St I . e Tt MM t No caso da sazonalidade é ainda necessário eliminar a componente irregular e recentrar a série obtida por: S' j = S j D , D ∑S j =1 j onde D representa o período da sazonalidade. o Alisamento exponencial: neste método considera-se que cada observação da série original pode ser escrita à custa de uma constante b e de um εt que quantifica o erro da observação, ou seja, X t = b + ε t . Considera-se, também, que b não sofre grandes alterações entre observações, mas que pode variar ao longo do tempo. Assim, com o objectivo de obter o valor de b, calcula-se, de forma ponderada, um novo valor St a partir das observações anteriores, onde se atribui um peso menor às mais antigas e maior às mais recentes. A fórmula utilizada recursivamente é: S t = αX t + (1 − α ) S t −1 . Onde, St é o valor alisado exponencialmente, St-1 o valor calculado no período de tempo anterior, Xt o valor observado e α a constante de alisamento. α varia entre 0 e 1. Se α for 0 todos os novos valores calculados são iguais ao valor calculado inicialmente, S0. Se α for 1 as observações anteriores são ignoradas. A forma mais simples de calcular o valor de α é Pág. 28 Monografia utilizando um método de tentativa e erro, ou seja, pesquisando para valores de α escolhidos do intervalo [0,1] (por exemplo, de 0,1 a 0,9, com intervalos de amplitude 0,1) qual possui um erro quadrático médio menor para a diferença entre o valor previsto e o valor observado da série histórica. Para prevermos o comportamento futuro da série é necessário alterar um pouco a equação. Passamos a ter: Pt +1 = αX t + (1 − α ) Pt −1 . Onde Pt+1 é a previsão para o próximo período de tempo, Xt é o valor observado no período de tempo actual e Pt-1 o valor que tinha sido previsto para o período de tempo anterior. α continua a ser a constante de alisamento, mas agora α=1 significa que se prevê que os valores do próximo período de tempo sejam iguais ao do actual. 3.3.3. Comparação entre modelos distintos Quando uma série temporal é explicada segundo dois ou mais modelos diferentes é necessário verificar qual a melhor alternativa. Dois dos critérios usados com esse objectivo são a média absoluta dos desvios e o erro quadrático médio. Segundo o critério da média absoluta dos desvios (MAD), o modelo que melhor descreve a série temporal é o que tem o menor valor para a expressão: n MAD = ∑ t =1 ^ xt − xt . n ^ Onde xt é o valor observado, x t o valor previsto pelo modelo e n o número de períodos de tempo considerados. Pelo critério do erro quadrático médio (RQM), o melhor modelo é aquele que tem o menor valor para a equação: 2 ^ ⎞ ⎛ ⎜ xt − xt ⎟ ∑ ⎠ . ⎝ RQM = t =1 n n Pág. 29 Monografia Onde cada uma das variáveis tem o mesmo significado que as do critério anterior. Muito mais poderíamos dizer sobre este assunto, mas neste trabalho limitamo-nos a uma pequena introdução ao tema. Pág. 30 Monografia Capítulo IV As árvores de classificação e decisão são uma técnica utilizada pelos SAD's na construção de modelos, na classificação de dados, etc. Neste capítulo veremos o que são, qual o seu interesse e como construi-las. 4.1. Definição: O que são árvores de classificação/decisão? No primeiro capítulo deste trabalho definimo-las como "uma estrutura de dados recursivamente definida como um nó folha, que indica uma classe, ou um nó de decisão, que contém um teste sobre o valor de um atributo. Para cada um dos possíveis valores do atributo, tem-se um ramo para uma outra árvore de decisão (subárvore). Cada subárvore contém a mesma estrutura de uma árvore. Árvores de decisão dividem o espaço de descrição do problema em regiões disjuntas, isto é, um exemplo é classificado por apenas um único ramo da árvore" ([LUCE01], p.2). É um método de classificação supervisionado, onde uma variável dependente é explicada à custa de n variáveis independentes, normalmente não quantitativas. As árvores de decisão/classificação podem ser usadas com objectivos diferentes, de acordo com o problema que se pretende resolver, podemos ter por objectivo classificar os dados referentes a uma população da forma mais eficiente possível ou descobrir qual é a estrutura de um determinado tipo de problema, compreender quais as variáveis que afectam a sua resolução e construir um modelo que o solucione. Com uma árvore de decisão/classificação é possível escolher as variáveis explicativas que realmente nos interessam para descrever a situação, deixando de lado as menos relevantes. Esta é uma técnica que pode ser utilizada em diversos campos, por exemplo: na saúde, combinando informação recolhida através de inquéritos referentes a dados clínicos para descobrir quais as variáveis que contribuem para a melhoria do sistema de saúde; na análise de mercados, verificando quais as variáveis associadas com o volume de vendas (preço, geografia, características dos consumidores, etc.). Para realizar tarefas deste tipo, as árvores de decisão/classificação são usadas para identificar as pessoas que pertencem a um determinado grupo alvo, ou ainda para detectar relações entre variáveis que surjam apenas num subgrupo, especificando-as num modelo formal. Pág. 31 Monografia 4.2. Como se constroem? Uma das formas de obtermos uma árvore de decisão/classificação é partir de uma amostra da população que se pretende classificar (amostra de treino, A), usando esses dados para construir um modelo para os restantes. Normalmente, esta é seleccionada de forma aleatória de entre os dados iniciais, para que não exista um enviesamento do modelo de classificação obtido. Assim, suponhamos que a nossa amostra pode ser dividida em K classes e seja C o conjunto de todas essas classes, C={1,2,…,K}. Para classificar os elementos da amostra utiliza-se uma aplicação que associa cada vector x de X (o espaço de medida), cujas coordenadas são os valores assumidos pelas variáveis explicativas que descrevem a amostra para o caso x, a uma classe de C. Podemos definir então a regra de classificação ou classificador como "uma função d(x) definida em X, que para todo o x∈X, d(x) é igual a um dos números 1,2,…,K", ou equivalentemente, "uma partição de X em K subconjuntos disjuntos A1,…,AK, X = U A j tal que, para todo o x∈Aj a classe prevista é a j" ([BREI84], j∈C p.4). Como na prática raramente temos disponíveis os dados referentes à população, ou outras amostras de tamanho suficientemente grande, os dados de A têm de ser utilizados para construir d(x) e para estimar o valor do risco de classificação incorrecta, R*(d), associado a d. A este tipo de estimação chamamos estimação interna. Existem diversas formas de a realizar, mas apenas referiremos com brevidade o método de validação v-fold. Neste método, a amostra original é particionada em v subamostras, de dimensões aproximadas, com uma distribuição associada semelhante à da variável dependente. Numa primeira etapa, uma das amostras é reservada para o cálculo do erro de classificação (amostra hold-out), enquanto que as restantes v-1 amostras são utilizadas como base para a construção das regras de classificação. Este processo repete-se até que cada uma das v amostras tenha sido utilizada como amostra hold-out. O valor final do erro de classificação é obtido através da média associada às v medidas de precisão disponíveis. As árvores de decisão/classificação são obtidas recursivamente, partindo do geral para o particular. Em cada etapa "um nó é dividido em nós descendentes de modo a que a Pág. 32 Monografia heterogeneidade ou diversidade destes nós, no que diz respeito aos valores da variável dependente, seja mais reduzida que no nó ascendente" ([CARD], p.14). Muitas vezes obtemos uma árvore que modela os dados de uma forma excessivamente precisa, ou seja, é demasiado grande ou subdivide excessivamente o conjunto de dados, nesse caso dizemos que o modelo está sobreajustado. Torna-se assim necessário evitar esta característica indesejável. Uma forma de o fazermos é através da poda da árvore de decisão/classificação, isto é, por retirarmos ramos e subárvores que não nos interessam para a resolução do problema, ou que não têm interesse prático, obtendo uma árvore incompleta. Existem duas formas de podarmos a árvore: não a deixando crescer até ao fim (forward prunning) ou então, cortando ramos depois de estar completa (backward prunning). Para seleccionarmos quais os ramos a podar, calculamos o custo de classificação incorrecta, R*(d), da árvore completa e depois de o ramo ser retirado. Se este aumentar, não podamos esse ramo, se permanecer inalterado, o ramo em questão é dispensável. Com a poda obtemos várias árvores alternativas para modelar o problema. De forma simples podemos dizer que a selecção da melhor será realizada através do cálculo do erro de previsão, procurando minimiza-lo. 4.3. Algoritmos Para obtermos uma árvore de decisão/classificação existem diversos algoritmos a que podemos recorrer, são eles o CHAID, o CART e o QUEST, entre outros. A sua função é explicar a variável dependente seleccionando as melhores variáveis explicativas. Vejamos como funcionam. CHAID é uma sigla para CHi-squared Automatic Interaction Detector. É possível aplicar este algoritmo a qualquer tipo de variáveis explicativas. Segmenta os dados avaliando os valores de uma possível variável explicativa através de um teste de chi-quadrado, se a variável é nominal, se é contínua, categoriza-a automaticamente e aplica um teste de Fisher. Se dois valores são estatisticamente semelhantes, são agregados numa classe, mantendo todos os valores estatisticamente dissemelhantes inalterados. Assim, a melhor variável explicativa é a que resulta em classes mais homogéneas e dará origem ao primeiro ramo da árvore. Obtém- Pág. 33 Monografia se o resto da árvore iterativamente. Este algoritmo não é binário, podendo, por isso, dividir os dados em mais de dois grupos de cada vez. CART significa Classification And Regression Trees. Este algoritmo, ao contrário do anterior, é binário. Para obter o número de divisões possíveis, este algoritmo considera, quando a variável explicativa tem k valores ordenados, k-1 divisões possíveis, quando a variável explicativa é nominal, com k categorias, consideram-se 2k-1-1 divisões possíveis. Para seleccionar a melhor partição dos dados, procura minimizar a impureza dos nós folha, para isso são utilizadas medidas de impureza como por exemplo, o coeficiente de Gini (G), L definido para uma variável nominal com L categorias, G ( N ) = 1 − ∑ p 2 ( I | N ) , onde p(I|N) é I =1 a probabilidade a priori da classe I se formar no nó N. Cada variável pode ser usada diversas vezes ao longo do processo de crescimento da árvore. As árvores obtidas através do algoritmo CART têm, normalmente, muitos níveis, o que pode tornar pouco eficiente a apresentação dos resultados e tornar as conclusões obtidas a partir da sua estrutura pouco confiáveis. Este algoritmo apesar de flexível é complexo tornando a computação dos resultados muito morosa para grandes conjuntos de dados. O algoritmo QUEST foi criado em1997 e a sigla significa, em inglês, Quick, Unbiasied, Efficient Statistical Tree, e como o nome indica, é realmente eficiente, as árvores obtidas estão sujeitas a um menor enviesamento e o tempo de computação é mais reduzido que nos outros dois algoritmos. Tal como o CART, é binário. No entanto, separa o processo de selecção das variáveis explicativas do processo de busca da melhor segmentação dos dados em classes. Pode ser aplicado a qualquer tipo de variáveis explicativas, mas a variável dependente tem de ser nominal. Se várias das variáveis explicativas possuem o mesmo valor informativo, então todas têm a mesma probabilidade de ser escolhidas. Existem diversos critérios de paragem para os vários algoritmos, normalmente basta que um seja atingido para que a árvore seja considerada completa. Alguns são: o Todos os casos num nó têm valores idênticos para todas as variáveis explicativas. o O nó torna-se puro, isto é, todos os casos no nó tomam o valor da variável dependente. o O número de casos que constituem um nó é inferior a um mínimo especificado a priori para que um nó continue a ser dividido. ([SPSS98], p.181-2). Pág. 34 Monografia Em anexo são apresentados os vários algoritmos referidos neste capítulo. 4.4. Exemplo O seguinte exemplo foi construído a partir de dados recolhidos e disponibilizados por Maria Ana Dionísio, aluna do 5º ano do curso de Biologia - Ramo de Biologia Marinha, da Universidade dos Açores, no âmbito do seu estágio curricular, com o tema “Ecologia, Biologia e Dinâmica de Populações de microcassiope minor”. Os dados foram recolhidos, de forma aleatória, entre Outubro de 2001 e Setembro de 2002 no Cerco da Caloura, S. Miguel. Como se trata de um caranguejo, as variáveis consideradas são o sexo, o comprimento máximo, a largura máxima, o peso e o comprimento das quelas (pinças mais desenvolvidas). A árvore seguinte foi gerada utilizando o Answer Tree 2.0 e o algoritmo CART. A amostra recolhida é constituída por 717 indivíduos. Para a construção regressão desta (assim árvore de designada por termos utilizado o algoritmo CART) utilizou-se uma amostra de treino constituída por 95% dos indivíduos recolhidos, seleccionada de forma aleatória, os restantes 5% ficaram como amostra de teste. A variável dependente escolhida foi o sexo, e de entre as variáveis referidas acima, o algoritmo seleccionou como melhores variáveis explicativas o comprimento máximo, o comprimento da quela esquerda e a Figura 4: Árvore de Regressão obtida com o AnswerTree 2.0. largura máxima (expressos em milímetros). No primeiro nó temos a descrição da amostra relativamente à variável sexo. 44,04% dos indivíduos são do sexo feminino, 52,68% são do sexo masculino e a 3,68% não foi possível determinar o sexo (por serem imaturos). Pág. 35 Monografia Em seguida, a amostra foi classificada de acordo com o comprimento máximo dos indivíduos. Verificou-se que 96,47% têm comprimento máximo superior a 2,247 milímetros (mm), e desses, 45,5% são fêmeas, 54,05% são machos e 0,46% são imaturos. Os indivíduos com o comprimento máximo superior a 2,247 mm foram segmentados de acordo com o comprimento da quela esquerda, sendo que apenas 8,39% têm essa quela com um comprimento superior a 5,5 mm, ou seja, a maioria dos indivíduos são destros. Dos indivíduos canhotos, 85,96% são do sexo masculino. Por fim, os indivíduos com comprimento de quela esquerda inferior ou igual a 5,5 mm foram divididos de acordo com a sua largura máxima, resultando em 44,62% com largura inferior ou igual a 5,463 mm e 43,45% com mais de 5,463 mm. Em anexo, é possível encontrar mais informações sobre a amostra e sobre a construção desta árvore. Muito se poderia dizer ainda sobre árvores de classificação e decisão, pois existem diversas abordagens à sua construção e optimização, no entanto, como o espaço disponível é limitado ficaremos por aqui. Pág. 36 Monografia Capítulo V Neste capítulo apresentamos os nomes de alguns softwares disponíveis no mercado para a mineração de dados, para a construção de árvores de classificação ou decisão e algumas ferramentas de OLAP. Está disponível informação adicional sobre cada uma destas ferramentas no site www.kdnuggets.com. Software: Data Mining OLAP Árvores de Classificação e Decisão Clementine Power OLAP Answer Tree Statistica Data Miner SPSS for Windows Knowledge Seeker Tabela 4: Software para análise de bases de dados. Falaremos um pouco do Answer Tree 2.0 e do SPSS for Windows 11.5, referindo brevemente algumas das suas capacidades. o Answer Tree 2.0: este é um software produzido pela SPSS e destina-se à obtenção de árvores de decisão ou classificação a partir de bases de dados (folhas de cálculo do Excel, bases de dados Access, entre outras). Permite a aplicação de qualquer um dos algoritmos referidos no capítulo anterior. As árvores de decisão ou classificação podem ser geradas automaticamente pelo programa de acordo com critérios padrão, ou estes podem ser alterados pelo utilizador, de acordo com o seu conhecimento dos dados. A sua utilização é relativamente fácil, mas para um bom aproveitamento das suas capacidades é necessário ler com atenção o manual do fabricante. o SPSS for Windows 11.5: como o nome indica, este software também é produzido pela SPSS. É uma poderosa ferramenta estatística, que permite realizar uma exploração profunda dos dados, trabalhar com séries temporais (embora não enfatize os métodos de análise referidos anteriormente neste trabalho) e criar cubos de OLAP para analisar os dados. Apesar de ser necessário um bom conhecimento de Estatística para trabalhar com este software, o seu uso é bastante intuitivo. Assim, concluímos esta referência breve a algumas das ferramentas para a exploração de bases de dados disponíveis hoje no mercado de software, que utilizam as técnicas estudadas neste trabalho. Pág. 37 Monografia Pág. 38 Monografia Conclusão Após a realização deste trabalho, considero que este é um tema extremamente interessante para um aluno de Matemática, pois permite uma melhor compreensão da aplicação desta disciplina ao mundo real. Infelizmente, devido ao limite imposto pelo número de páginas previsto, não me foi possível aprofundá-lo tanto quanto gostaria. Assim, penso que existem ainda muitos aspectos que podem vir a ser alvo de trabalhos futuros, especialmente se tivermos em conta a muita bibliografia disponível on-line e não só. Com a pesquisa bibliográfica realizada na Internet descobri aplicações da Matemática que não julgara possíveis, por exemplo, no campo da Medicina existem já diversos SAD’s, que recorrem a dados clínicos e a históricos de pacientes, construídos com o objectivo de auxiliar médicos no diagnóstico de diversas doenças. Assim, posso afirmar que a realização desta monografia me deu acesso a uma área do conhecimento humano que até agora me era totalmente desconhecida e que procurarei aprofundar. Concluo que muitas das técnicas de IO e Estatística, algumas incluídas nesta monografia, outras não, são ferramentas práticas muito poderosas, quando são utilizadas por um SAD e/ou mesmo isoladamente. Com a rapidez da evolução da tecnologia e a redução dos custos de pesquisa e desenvolvimento, espero que o investimento a longo prazo na implementação das técnicas tratadas neste trabalho no apoio à decisão se torne mais apelativo para as empresas e organizações, permitindo assim a generalização do seu uso. Pág. 39 Glossário Glossário Burótica: é a aplicação da informática e das novas tecnologias aos trabalhos de escritório [DLPC01]. Centróide: é o ponto C=(c1, ..., cn) onde cada coordenada ci é a média dos valores da iésima variável para os objectos pertencentes ao cluster (ou classe). Heurística: refere-se a “conhecimento informal adquirido através do senso comum [traduzido num algoritmo ou procedimento] (...) de como resolver problemas com eficácia e eficiência, como planear as fases de resolução de um problema complexo, (...) e assim por diante.” ([TURB98], p.869). Matriz de dissemelhanças: é uma matriz cujas entradas são constituídas pelo valor do coeficiente de dissemelhança, dij, calculado para cada dois casos, com base nas variáveis em estudo. Matriz de semelhanças: é semelhante à matriz de dissemelhanças mas em vez de termos coeficientes de dissemelhança, dij, temos coeficientes de semelhança, sij. Modelo: uma descrição simples de um sistema, que se adapte aos objectivos definidos pelo decisor, permitindo que este avalie quantitativamente diversas soluções alternativas para o problema que deve solucionar. Padrão: dado um conjunto de factos (dados/informação), F, uma linguagem, L, e alguma medida de certeza C, um padrão é uma afirmação A em L que descreve as relações entre o subconjunto FA de F com o valor de certeza c tal que A é de alguma forma mais simples que a enumeração de todos os factos em FA. [DILL95]. Problema estruturado: problema que surge com frequência e para o qual existem já métodos de resolução definidos. Problema não estruturado: um problema complexo, de difícil definição e sem soluções standard. Problema semi-estruturado: um problema que é parcialmente estruturado. Pág. 40 Bibliografia Bibliografia Referenciada [BAPT01] BAPTISTA, E., 2001. SIG – Sistemas de Informação Geográfica. Universidade dos Açores. [BREI84] BREIMAN, L.; FRIEDMAN, J., OLSHEN, R. & STONE, C., 1984. Classification and regression trees. Wadsworth & Brooks Advanced Books and Software. ISBN: 0-534-98053-8. [CARD] CARDOSO, M. s/data. Acetatos do curso de Métodos Quantitativos Aplicados. [CHAV01] CHAVES, E. & FALSARELLA, O., 2001. Sistemas de Informação e Sistemas de Apoio à Decisão; www.chaves.com.br/TEXTSELF/COMPUT/sad.htm ; Último Acesso: 04/10/2002; Última Actualização: 24/09/2001. [DILL95] DILLY, R., 1995. Data Mining Student Notes, versão 2.0. Queen’s University of Belfast Parallel Computer Centre. http://www.pcc.qub.ac.uk/tec/courses/datamining/stu_notes/dm_book_1.html. Último Acesso: 19/12/2002. Última Actualização: 1995. [DLPC01] 2001. Dicionário da Língua Portuguesa Contemporânea da Academia das Ciências de Lisboa.Vol. I.Verbo. [FREI01] FREITAS Jr., O., MARTINS, J., RODRIGUES, A. & BARCIA, R., 2001. Sistema de Apoio à Decisão usando a tecnologia Data Mining com estudo de caso da Universidade Estadual de Maringá – I Congresso Brasileiro de Computação – CBComp 2001. [GROT98] GROTH, R., 1998. Data Mining – A hands-on approach for business professionals. Prentice Hall. ISBN: 0-13-756412-0. [INFO98] 1998. Informativo Técnico Nº52; www.revista.unicamp.br/infotec/informacao/inf52.htm. Último Acesso: 03/02/2002. Última Actualização: 1998. [INMO99] INMON, B., 1999. Data Warehousing Glossary of Terms. www.billinmon.com. Último Acesso: 05/11/2002. Última Actualização: 1999. [KARY] KARYPIS, G. & ZHAO Y., s/data. Evaluation of hierarchical clustering algorithms for document datasets. www.cs.umn.edu/~karypis. Último Acesso: 01/02/2003. Última Actualização: 2003. [LUCE01] LUCENA, P. & DE PAULA, M., 2001. Árvores de Decisão Fuzzy. www.icmc.sc.usp.br/~percival/. Último Acesso: 11/12/2002. Última Actualização: 2001. [POWE02a] POWER, D.J, 2002. A brief history of decision support systems, versão 2.4. www.dssresources.com/history/dsshistory.html. Último Acesso: 17/10/2002. Última Actualização: 13/10/2002. Pág. 41 Bibliografia [POWE02b] POWER, D.J, 2002. Decision support systems: concepts and resources for managers. Capítulo 1. www.dssresources.com. Último Acesso: 13/10/2002. Última Actualização: 13/10/2002. [SPSS98] 1998. Answer Tree 2.0 User’s Guide. SPSS, Inc. www.spss.com. [THEA] BERSON, A., SMITH, S. & THEARLING, K.; An Overview of Data Mining Techniques, in Building Data Mining Applications for CRM. www.thearling.com/text/dmtechniques/dmtechniques.htm. Último Acesso: 02/06/2003. Última Actualização: 2003. [TURB98] TURBAN, E. & ARONSON J., 1998. Decision Support Systems and Intelligent Systems. Prentice-Hall. ISBN: 0-13-781675-8. [WEIE98] WEIERS, R., 1998. Introduction to business statistics, 3rd edition. Brooks/Cole Publishing Company. Pág. 42 Bibliografia Bibliografia Consultada [AMA96] AMARAL, P., 1996. Reconhecimento de padrões. www.dq.fct.unl.pt/qof/chem9.html. Último Acesso: 31/01/2003. Última Actualização: 1996. [CHAU97] CHAUDHURI, S. & DAYAL, U., 1997. An Overview of Data Warehousing and OLAP Technology, in ACM Sigmod Record. Março 1997. [FORS97] FORSMAN, S., 1997. OLAP Council white paper. www.olapcouncil.org. Último Acesso: 11/02/2003. Última Actualização: 1997. [IBM98] BALLARD, C., BELL, R., HERREMAN, D., KIM, E. & VALENCIC, A., 1998. Data Modelling Techniques for Data Warehousing. Cap.3, Cap. 6. IBMRedbooks. www.redbooks.ibm.com. [INFO93] 1993. Quality Unbound, in AI Expert. Maio 1993. www.patternwarehouse.com. Último Acesso: 11/02/2003. Última Actualização: 1995. [MEND] MENDES, A., s/data. Acetatos da disciplina de Investigação Operacional. Universidade dos Açores. [KEEN98] KEENAN, P., 1998. When the question is ‘where’? – integrating geographic information systems and management science, in OR Insight. Vol.11 Nº1. Janeiro-Março 1998. p.2328. [SPSS99a] 1999. Answer Tree Algorithm Summary. www.spss.com. Último Acesso: 20/06/2003. Última Actualização: 2003. [SPSS99b] 1999. Report OLAP: Technology options for decision makers. www.spss.com. Último Acesso: 20/06/2003. Última Actualização: 2003. [SPSS01] 2001. Documentação de Apoio do SPSS for Windows 11.0. www.spss.com. [SPSS1] s/data. Basic applied techniques – choose the right stat to make better decisions. www.spss.com. Último Acesso: 20/06/2003. Última Actualização: 2003. [SPSS2] s/data. Data mining and statistics – Gain a competitive advantage. www.spss.com. Último Acesso: 20/06/2003. Última Actualização: 2003. [STAT84] 1984. STATISTICA Electronic Textbook. www.statsoft.com . Último Acesso: 02/02/2003. Última Actualização: 2003. Sites de interesse: www.dssresources.com www.dwinfocenter.org www.itpapers.com www.spss.com Pág. 43 Bibliografia Pág. 44 Anexos Anexo I Abaixo apresentamos o algoritmo geral do método hierárquico aglomerativo, adaptado de [VIVE99], página 20. A distância entre as observações i e j é representada por dij e a distância entre os clusters i e j por Dij. 1ª etapa: ⇒ Considerar cada entidade como sendo um cluster (isto é, inicialmente Dij=dij). ⇒ Construir a matriz n×n de distância de valores Dij, com base num coeficiente de comparação. 2ª etapa: ⇒ Encontrar o elemento mais pequeno desta matriz (em caso de igualdade a escolha torna-se facultativa). ⇒ Se o elemento for, por exemplo, Dkm, unem-se os grupos k e m, sendo o valor de Dkm designado por coeficiente de clustering. 3ª etapa: ⇒ Calcular a distância entre o novo cluster e cada um dos clusters existentes, através de um critério de agregação. ⇒ Substituir as filas e as colunas k e m da matriz de distância pela fila/coluna singular de novos valores de distância, reduzindo, assim, a ordem da matriz de distâncias em uma unidade. 4ª etapa: ⇒ Repetir as etapas 2 e 3 até existir apenas um cluster. Observação: Neste algoritmo assume-se que o ponto de partida para a classificação dos elementos é uma matriz de dissemelhanças entre as n entidades. Se se tratar de uma matriz de semelhanças, é necessário considerar não o menor, mas o maior elemento, na segunda etapa. Pág. 45 Anexos Anexo II Neste anexo, apresentamos os algoritmos referidos no Capítulo IV, ou seja, o CHAID, o CART e o QUEST. Os algoritmos apresentados abaixo foram adaptados de [SPSS98], páginas 185 a 190. II.1. CHAID 1ª etapa: ⇒ Para cada variável preditora X, encontrar o par de categorias significativamente menos diferente (com o maior valor para p) relativamente à variável Y. O método para calcular p depende do tipo de variável Y. o Se Y é contínua, usar um teste de Fisher. o Se Y é nominal, construir uma tabela com as categorias de X nas linhas e as de Y nas colunas. Usar o teste do chi-quadrado de Pearson. o Se Y é ordinal, ajustar um modelo de associação a Y. Usar o teste de “likelihood-ratio”. 2ª etapa: ⇒ Para o par de categorias de X com o maior valor de p, comparar o p com um nível de significância αagreg escolhido a priori. o Se p>αagreg, agregar este par numa categoria composta. Como resultado, um novo conjunto de categorias de X é formado, e o processo volta à primeira etapa. o Se p<αagreg, prosseguir para a terceira etapa. 3ª etapa: ⇒ Calcular o valor de p ajustado para as categorias de X e de Y. 4ª etapa: Pág. 46 Anexos ⇒ Seleccionar a variável preditora X que tem o menor valor de p ajustado (o mais significativo). Comparar p com um nível de significância αdiv escolhido a priori. o Se p≤αdiv, dividir o nó no conjunto de categorias de X. o Se p>αdiv, não dividir o nó. O nó é terminal. 5ª etapa: ⇒ Continuar o processo até que um dos critérios de paragem seja satisfeito. II.2. CART 1ª etapa: ⇒ Começar pelo nó raiz, t=1, procurar um ponto de divisão s* no conjunto dos possíveis candidatos, S, que resulta no maior decréscimo da impureza: Φ ( s*,1) = max Φ ( s,1) . s∈S Então, dividir o nó 1 (t=1) em dois nós, t=2 e t=3, usando o ponto de divisão s*. 2ª etapa: ⇒ Repetir o processo de busca de um ponto de divisão para t=2 e t=3, e assim sucessivamente. 3ª etapa: ⇒ Continuar o processo de crescimento da árvore até que um dos critérios de paragem seja alcançado. Observação: A função Φ(s,t) para busca do ponto de divisão s no nó t, para o coeficiente Gini escreve-se como: Φ( s, t ) = G (t ) − p E (t E ) − p D (t D ) , onde pE é a proporção de casos do nó t que passam a fazer parte do novo nó à esquerda, e pD é a proporção de casos que passam a fazer parte do novo nó à direita. Pág. 47 Anexos II.3. QUEST 1ª etapa: ⇒ Para cada variável preditora X, se X é uma variável nominal categorizada, calcular o valor de p para um teste de independência do chi-quadrado de Pearson entre X e a variável categorizada dependente. Se X é contínua ou ordinal, usar o teste F para calcular o valor de p. 2ª etapa: ⇒ Comparar o menor valor de p com um α ajustado de Bonferroni, pré-especificado. o Se p<α, então seleccionar a variável preditora correspondente para dividir o nó. Avançar para a 3ª etapa. o Se p>α, para cada X contínua ou ordinal, usar o teste de Levene para variâncias desiguais no cálculo de p. o Comparar o menor valor de p do teste de Levene com um novo α ajustado de Bonferroni. o Se p<α, seleccionar a variável preditora correspondente com o menor valor de p do teste de Levene para dividir o nó. Avançar para a 3ª etapa. o Se p>α, seleccionar a variável preditora da 1ª etapa que tem o menor valor de p (quer do teste de chi-quadrado de Pearson, quer do teste F) para dividir o nó. 3ª etapa: ⇒ Supor que X é a variável preditora da segunda etapa. Se X é contínua ou ordinal, avançar para a 4ª etapa. Se X é nominal, transformar X numa variável auxiliar Z e calcular a maior coordenada discriminante de Z (o objectivo é maximizar as diferenças entre as categorias da variável dependente). Pág. 48 Anexos 4ª etapa: ⇒ Se Y possui apenas duas categorias, avançar para a 5ª etapa. Caso contrário, calcular a média de X para cada categoria de Y e aplicar um algoritmo de aglomeração a essas médias para formar duas superclasses de Y. 5ª etapa: ⇒ Aplicar a análise discriminante quadrática para determinar o ponto de divisão do nó. Note-se que este método produz dois possíveis pontos de divisão, escolher o que mais se aproxima da média amostral de cada classe. Observação: O algoritmo QUEST lida separadamente com a selecção de variáveis e a selecção de pontos de divisão dos nós. O valor de α pré-especificado normalmente é 0,05. Pág. 49 Anexos Anexo III Neste anexo, fornece-se informação adicional sobre a amostra utilizada na construção do exemplo do Capítulo IV, e sobre o processo de construção da árvore. Informação sobre a amostra Indivíduos (N=717) Sexo Feminino 299 Sexo Masculino 355 Imaturos 25 Valor mínimo 1,455 mm Valor médio 4,457 mm Valor máximo 9,35 mm Valor mínimo 1,909 mm Valor médio 5,617 mm Valor máximo 13,2 mm Valor mínimo 0,926 mm Valor médio 3,415 mm Valor máximo 8,636 mm Valor mínimo 0,926 mm Valor médio 3,984 mm Valor máximo 11,66 mm Mínimo 0,0007 g Médio 0,081 g Máximo 0,789 g Comprimento máximo da carapaça Largura máxima da Comprimento Esquerda carapaça Direita das quelas Peso Tabela A.1:Informação adicional sobre a amostra de microcassiope minor estudada no Capítulo IV. Para a construção da árvore de regressão apresentada no Capítulo IV, utilizou-se o Answer Tree 2.0 da SPSS, e o algoritmo CART. A amostra inicial foi separada em duas, 95% dos casos passaram a constituir a amostra de treino e 5% foram reservados como amostra de teste. A medida de impureza escolhida foi o coeficiente de Gini com as probabilidades a priori calculadas a partir da amostra de treino. Os critérios de paragem foram: no máximo a árvore gerada teria cinco níveis, para poder ser dividido um nó teria no mínimo três casos, os Pág. 50 Anexos nós terminais teriam no mínimo um caso e a alteração do coeficiente de impureza seria, no mínimo de 0,0001. O erro de classificação total da árvore obtida foi de 0,395 (39,5%). DEPARTAMENTO DE MATEMÁTICA Secção de Estatística e Investigação Operacional Tânia Cristina de Lima Fernandes © Fernandes, Tânia C. Lima (2003) “Métodos Estatísticos e de I.O. utilizados em Sistemas de Apoio à Decisão (SAD’s)” Monografias da SEIO. Depto. Matemática da Univ. dos Açores: Ponta Delgada, www.uac.pt/~amendes (ID 54.543) O trabalho apresentado é da exclusiva responsabilidade da aluna que o assina. O Departamento de Matemática e a Universidade dos Açores não se responsabilizam por eventuais erros existentes no mesmo. Os textos podem ser descarregados livremente, impressos e utilizados para ensino ou estudo dos temas a que se referem. No entanto, não podem ser copiados ou incluídos noutros trabalhos académicos ou de qualquer outra natureza, sem o consentimento do autor e a devida referência completa. Para autorização de cópia parcial ou integral, utilize o endereço de correio electrónico: [email protected] Pág. 51