Exemplos de aplicação - Universidade de Évora
Transcrição
Exemplos de aplicação - Universidade de Évora
Exemplos de aplicação Mineração de Dados 2011 Protocolo entre Universidade de Évora e Universidade Metodista de Angola Luís Rato Universidade de Évora, 2011 Mineração de dados / Data Mining 1 Classificação: Definição ● Dado uma conjunto de registos (conjunto de treino training set ) – Cada registo contém um conjunto de atributos attributes, um dos atributos é a classe class. ● ● Encontrar um modelo model para a classe em função dos outros atributos Objectivo: a um registo novo deve ser atribuída a classe (com tanta precisão quanto possível) – Usa-se um conjunto de teste (test set) para verificar a exatidão do modelo (Dados são divididos em dados de treino e de teste). Universidade de Évora, 2011 Mineração de dados / Data Mining 2 Classificação - exemplo 1 (fraude fiscal) ca go e t al c ri al us c i o u or in g t e t n ss a o a c c cl Tid Refund Marital Status Taxable Income Cheat Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No No Single 75K ? 2 No Married 100K No Yes Married 50K ? 3 No Single 70K No No Married 150K ? 4 Yes Married 120K No Yes Divorced 90K ? 5 No Divorced 95K Yes No Single 40K ? 6 No Married No No Married 80K ? 60K 10 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 Universidade de Évora, 2011 Training Set Learn Classifier Mineração de dados / Data Mining Test Set Model 3 Classificação: exemplo 2 (marketing) ● Marketing direto – Objetivo: Reduzir o custo do mailing através de targeting (“procura de alvos”) sobre um conjunto de consumidores que com probabilidade de comprar um produto para telefone celular. – Abordagem: Usar os dados de produtos parecidos introduzidos anteriormente. Sabemos quais os clientes que compraram ou não. Esta decisão {buy, don’t buy} constitui o atributo de classe. Recolher informação sobre: estilo de vida e interações entre o cliente e a empresa. – profissão, hábitos, valor dos rendimentos, etc. Usa-se estas informações como atributos para determinar a classe Universidade de Évora, 2011 Mineração de dados / Data Mining 4 Classificação: exemplo 3 (fraude em cartões de crédito) ● Deteção de fraude – Objetivo: Prever casos fraudulentos no uso de cartões de crédito – Abordagem: Usar as transações de cartões de crédito e informação sobre os titulares das contas como atributos Quando compra ?, o que compra ?, como paga ? As transações passadas são classificadas como “fraude” ou “normal” (atributo de classe) Aprender um modelo preditivo para as transações. Usar o modelo para detetar fraudes observando as transações dos cartões de crédito. Universidade de Évora, 2011 Mineração de dados / Data Mining 5 Classificação: exemplo 4 (perda de clientes) ● Perda de clientes (Customer Attrition/Churn) – Objectivo: Prever se um cliente será perdido para a concorrência. – Abordagem: Usar registos detalhados das transações e relações do cliente no passado para extrair atributos. – Quantas vezes um cliente telefona?, hora a quwe telefona?, nível de rendimentos?, casado ou solteiro?, …. etc. No fim classifica-se o cliente como “fiel” ou “infiel”. Encontar um modelo para a fidelidade do cliente Universidade de Évora, 2011 Mineração de dados / Data Mining 6 Classificação: exemplo 5 (classificação de objetos celestes) ● Catalogação e classificação – Objetivo: prever a classe do objeto (estrela ou galáxia), especialmente os menos nítidos, baseada em imagens de “survey” (from Palomar Observatory). – 3000 imagens com 23,040 x 23,040 pixeis por imagem. – Abordagem: Segmentar a imagem. Medir os atributos/características das imagens - 40 por objecto. Modelar a classe baseada nessas características. Foi possível encontrar 16 novos quasars com desvio para o vermelho (objectos difíceis de observar). Universidade de Évora, 2011 Mineração de dados / Data Mining 7 Classificação de galáxias – exemplo 6 http://aps.umn.edu Primitivas Classe: • Etapas de formação Intermédias Atributos: • Características de imagens • Forma • Características da luz recebida, etc. Tardia Dimensão dos dados: • 72 milhões de estrelas, 20 milhões de galáxias • Catálogo de objectos: 9 GB • Base de Dados de imagens: 150 GB Universidade de Évora, 2011 Mineração de dados / Data Mining 8 Clustering (agrupamento) ● Dado um conjunto de pontos, cada um com os seus atributos e semelhança, encontrar grupos tais que: – Os pontos dentro de um cluster são mais semelhantes do que entre clusters diferentes ● Medidas de semelhança: – Distância euclideana se os atributos são contínuos. – Outras …. Universidade de Évora, 2011 Mineração de dados / Data Mining 9 Clustering Clustering baseada na Distância euclideana em 3-D Distância Distânciadentro dentrodos dosclusters clusters deve deveser serminimazada minimazada Universidade de Évora, 2011 Distância Distânciaentre entreos osclusters clusters deve deveser sermaximizada maximizada Mineração de dados / Data Mining 10 Clustering: exemplo 1 ● Segmentação de mercado: – Objetivo: subdividir o mercado em diferentes subconjuntos de clientes em que cada subconjunto possa ser visto como um alvo de mercado alcançável por estratégias específicas – Abordagem: Recolher atributos baseados em características geográficas e de estilo de vida. Encontrar clusters de clientes semelhantes. Medir a qualidade do clustering observando os padrões de compras no mesmo cluster versus em clusters diferentes Universidade de Évora, 2011 Mineração de dados / Data Mining 11 Clustering: exemplo 2 ● Clustering de documentos: – Objetivo: encontrar groupos de documentos que sejam semelhantes entre si, baseado em palavras chave que aparecem em cada documento. – Abordagem: encontrar termos frequentes em cada documento. Criar uma medida de semelhança baseada nas frequências, e usá-la para proceder ao cluster. – O que se ganha: A pesquiza de informação (Information Retrieval) pode usar os clusters para relacionar cada documento novo com os clusters encontrados. Universidade de Évora, 2011 Mineração de dados / Data Mining 12 Clustering: exemplo 3 ● ● Num. de pontos: 3204 Artigos do “Los Angeles Times”. Medida de semalhança: quantas palavras são comuns (após alguma filtragem) Category Financial Total Articles 555 Correctly Placed 364 Foreign 341 260 National 273 36 Metro 943 746 Sports 738 573 Entertainment 354 278 Universidade de Évora, 2011 Mineração de dados / Data Mining 13 Descoberta de regras de Associação ● Dado um conjunto de registos, cada um contendo vários itens duma coleção; – Produzir regras de dependência que prevejam a ocorrência dum item em função dos outros. Regras: Regras: TID Items 1 2 3 4 5 Bread, Coke, Milk Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk Universidade de Évora, 2011 {Milk} {Milk}--> -->{Coke} {Coke} {Diaper, {Diaper,Milk} Milk}--> -->{Beer} {Beer} Mineração de dados / Data Mining 14 Regras associativas: exemplo 1 ● Marketing e promoções: – Seja a regra {Bolos, X, Y... } --> {Batatas fritas} – Batata frita como consequente => Pode ser usado para determinar o que fazer para aumentar as suas vendas. – Bolos como antecedente => Pode ser usado para ver que produtos serão afetados se a loja deixa de vender bolos. – Bolos como antecedente e Batatas fritas como consequente => Pode ser usado para ver que produtos deveriam ser vendidos com os bolos para promover a venda de batatas fritas. Universidade de Évora, 2011 Mineração de dados / Data Mining 15 Regras associativas: exemplo 2 ● Gestão de Supermercado – Objetivo: Identificar items que são comprados em conjunto por bastantes clientes. – Abordagem: recolher os dados das caixas registadoras (POS Poit-Of-Sale) através dos códigos de barras, e encontrar dependências – Uma regra “clássica” Se um cliente compra fraldas e leite então também compra cerveja. Assim não será surprendente que uma loja venda cerveja ao lado de fraldas ou de leite. Universidade de Évora, 2011 Mineração de dados / Data Mining 16 Padrões sequenciais ● Dado um conjunto de objetos, em que cada objeto tem uma definição temporal, encontrar as regras que preveem fortes dependência sequenciais entre os acontecimentos (A B) (C) (A B) (C) (D E) <= xg (D E) >ng <= ws <= ms Universidade de Évora, 2011 Mineração de dados / Data Mining 17 Padrões Sequenciais: Exemplos ● Alarmes de telecomunicações, – (Inverter_Problem Excessive_Line_Current) (Rectifier_Alarm) --> (Fire_Alarm) ● Sequencias de Transações, – Livraria: (Intro_To_Visual_C) (C++_Primer) --> (Perl_for_dummies,Tcl_Tk) – Loja de desporto: (Shoes) (Racket, Racketball) --> (Sports_Jacket) Universidade de Évora, 2011 Mineração de dados / Data Mining 18 Regressão ● ● ● Prever um dado valor contínuo duma variável baseado nas outras variáveis assumindo um modelo com dependência linear ou não linear. Muito estudado em estatística, sistemas dinâmicos, redes neuronais ou outras áreas de “soft computing” Exemplos: – Prever a quantidade de vendas com base no investimento em publicidade. – Prever a velocidade do vento como função da temperatura, pressão, humidade, etc. – Prever a variação futura dos mercados de ações. Universidade de Évora, 2011 Mineração de dados / Data Mining 19 Deteção de anomalias Detetar desvios significativos em relação ao comportamento normal ● Exemplos: – Deteção de fraudes de cartões de crédito ● – Sistemas de deteção de intrusão em redes Universidade de Évora, 2011 Mineração de dados / Data Mining 20 Desafios ● ● ● ● ● ● ● Escalabilidade Dimensionabilidade Dados complexos e heterogéneos Qualidade dos dados Propriedade dos dados e divulgação Privacidade Streaming Universidade de Évora, 2011 Mineração de dados / Data Mining 21