Exemplos de aplicação - Universidade de Évora

Transcrição

Exemplos de aplicação - Universidade de Évora
Exemplos de aplicação
Mineração de Dados 2011
Protocolo entre Universidade de Évora e
Universidade Metodista de Angola
Luís Rato
Universidade de Évora, 2011
Mineração de dados / Data Mining
1
Classificação: Definição
●
Dado uma conjunto de registos (conjunto de
treino training set )
– Cada registo contém um conjunto de atributos
attributes, um dos atributos é a classe class.
●
●
Encontrar um modelo model para a classe em
função dos outros atributos
Objectivo: a um registo novo deve ser atribuída
a classe (com tanta precisão quanto possível)
– Usa-se um conjunto de teste (test set) para verificar
a exatidão do modelo
(Dados são divididos em dados de treino e de teste).
Universidade de Évora, 2011
Mineração de dados / Data Mining
2
Classificação - exemplo 1
(fraude fiscal)
ca
go
e
t
al
c
ri
al
us
c
i
o
u
or
in
g
t
e
t
n
ss
a
o
a
c
c
cl
Tid Refund Marital
Status
Taxable
Income Cheat
Refund Marital
Status
Taxable
Income Cheat
1
Yes
Single
125K
No
No
Single
75K
?
2
No
Married
100K
No
Yes
Married
50K
?
3
No
Single
70K
No
No
Married
150K
?
4
Yes
Married
120K
No
Yes
Divorced 90K
?
5
No
Divorced 95K
Yes
No
Single
40K
?
6
No
Married
No
No
Married
80K
?
60K
10
7
Yes
Divorced 220K
No
8
No
Single
85K
Yes
9
No
Married
75K
No
10
No
Single
90K
Yes
10
Universidade de Évora, 2011
Training
Set
Learn
Classifier
Mineração de dados / Data Mining
Test
Set
Model
3
Classificação: exemplo 2
(marketing)
●
Marketing direto
– Objetivo: Reduzir o custo do mailing através de targeting
(“procura de alvos”) sobre um conjunto de consumidores que
com probabilidade de comprar um produto para telefone
celular.
– Abordagem:

Usar os dados de produtos parecidos introduzidos anteriormente.

Sabemos quais os clientes que compraram ou não. Esta decisão {buy,
don’t buy} constitui o atributo de classe.

Recolher informação sobre: estilo de vida e interações entre o cliente e
a empresa.
– profissão, hábitos, valor dos rendimentos, etc.

Usa-se estas informações como atributos para determinar a classe
Universidade de Évora, 2011
Mineração de dados / Data Mining
4
Classificação: exemplo 3
(fraude em cartões de crédito)
●
Deteção de fraude
– Objetivo: Prever casos fraudulentos no uso de
cartões de crédito
– Abordagem:
 Usar
as transações de cartões de crédito e informação
sobre os titulares das contas como atributos
 Quando compra ?, o que compra ?, como paga ?
 As transações passadas são classificadas como
“fraude” ou “normal” (atributo de classe)
 Aprender um modelo preditivo para as transações.
 Usar o modelo para detetar fraudes observando as
transações dos cartões de crédito.
Universidade de Évora, 2011
Mineração de dados / Data Mining
5
Classificação: exemplo 4
(perda de clientes)
●
Perda de clientes (Customer Attrition/Churn)
– Objectivo: Prever se um cliente será perdido
para a concorrência.
– Abordagem:
 Usar
registos detalhados das transações e
relações do cliente no passado para extrair
atributos.
– Quantas vezes um cliente telefona?, hora a quwe telefona?,
nível de rendimentos?, casado ou solteiro?, …. etc.
 No
fim classifica-se o cliente como “fiel” ou “infiel”.
 Encontar um modelo para a fidelidade do cliente
Universidade de Évora, 2011
Mineração de dados / Data Mining
6
Classificação: exemplo 5
(classificação de objetos celestes)
●
Catalogação e classificação
– Objetivo: prever a classe do objeto (estrela ou
galáxia), especialmente os menos nítidos, baseada
em imagens de “survey” (from Palomar Observatory).
– 3000 imagens com 23,040 x 23,040 pixeis por imagem.
– Abordagem:
 Segmentar
a imagem.
 Medir
os atributos/características das imagens - 40 por
objecto.
 Modelar
a classe baseada nessas características.
 Foi
possível encontrar 16 novos quasars com desvio para o
vermelho (objectos difíceis de observar).
Universidade de Évora, 2011
Mineração de dados / Data Mining
7
Classificação de galáxias – exemplo 6
http://aps.umn.edu
Primitivas
Classe:
• Etapas de formação
Intermédias
Atributos:
• Características de
imagens
• Forma
• Características da luz
recebida, etc.
Tardia
Dimensão dos dados:
• 72 milhões de estrelas, 20 milhões de galáxias
• Catálogo de objectos: 9 GB
• Base de Dados de imagens: 150 GB
Universidade de Évora, 2011
Mineração de dados / Data Mining
8
Clustering (agrupamento)
●
Dado um conjunto de pontos, cada um com os
seus atributos e semelhança, encontrar grupos
tais que:
– Os pontos dentro de um cluster são mais
semelhantes do que entre clusters diferentes
●
Medidas de semelhança:
– Distância euclideana se os atributos são
contínuos.
– Outras ….
Universidade de Évora, 2011
Mineração de dados / Data Mining
9
Clustering
Clustering baseada na Distância euclideana em 3-D
Distância
Distânciadentro
dentrodos
dosclusters
clusters
deve
deveser
serminimazada
minimazada
Universidade de Évora, 2011
Distância
Distânciaentre
entreos
osclusters
clusters
deve
deveser
sermaximizada
maximizada
Mineração de dados / Data Mining
10
Clustering: exemplo 1
●
Segmentação de mercado:
– Objetivo: subdividir o mercado em diferentes
subconjuntos de clientes em que cada subconjunto
possa ser visto como um alvo de mercado alcançável
por estratégias específicas
– Abordagem:
 Recolher
atributos baseados em características geográficas
e de estilo de vida.
 Encontrar clusters de clientes semelhantes.
 Medir a qualidade do clustering observando os padrões de
compras no mesmo cluster versus em clusters diferentes
Universidade de Évora, 2011
Mineração de dados / Data Mining
11
Clustering: exemplo 2
●
Clustering de documentos:
– Objetivo: encontrar groupos de documentos que sejam
semelhantes entre si, baseado em palavras chave que
aparecem em cada documento.
– Abordagem: encontrar termos frequentes em cada
documento. Criar uma medida de semelhança baseada nas
frequências, e usá-la para proceder ao cluster.
– O que se ganha: A pesquiza de informação (Information
Retrieval) pode usar os clusters para relacionar cada
documento novo com os clusters encontrados.
Universidade de Évora, 2011
Mineração de dados / Data Mining
12
Clustering: exemplo 3
●
●
Num. de pontos: 3204 Artigos do “Los Angeles Times”.
Medida de semalhança: quantas palavras são comuns
(após alguma filtragem)
Category
Financial
Total
Articles
555
Correctly
Placed
364
Foreign
341
260
National
273
36
Metro
943
746
Sports
738
573
Entertainment
354
278
Universidade de Évora, 2011
Mineração de dados / Data Mining
13
Descoberta de regras de Associação
●
Dado um conjunto de registos, cada um contendo vários
itens duma coleção;
– Produzir regras de dependência que prevejam a
ocorrência dum item em função dos outros.
Regras:
Regras:
TID
Items
1
2
3
4
5
Bread, Coke, Milk
Beer, Bread
Beer, Coke, Diaper, Milk
Beer, Bread, Diaper, Milk
Coke, Diaper, Milk
Universidade de Évora, 2011
{Milk}
{Milk}-->
-->{Coke}
{Coke}
{Diaper,
{Diaper,Milk}
Milk}-->
-->{Beer}
{Beer}
Mineração de dados / Data Mining
14
Regras associativas: exemplo 1
●
Marketing e promoções:
– Seja a regra
{Bolos, X, Y... } --> {Batatas fritas}
– Batata frita como consequente => Pode ser usado para
determinar o que fazer para aumentar as suas vendas.
– Bolos como antecedente => Pode ser usado para ver que
produtos serão afetados se a loja deixa de vender bolos.
– Bolos como antecedente e Batatas fritas como consequente
=> Pode ser usado para ver que produtos deveriam ser
vendidos com os bolos para promover a venda de batatas
fritas.
Universidade de Évora, 2011
Mineração de dados / Data Mining
15
Regras associativas: exemplo 2
●
Gestão de Supermercado
– Objetivo: Identificar items que são comprados
em conjunto por bastantes clientes.
– Abordagem: recolher os dados das caixas
registadoras (POS Poit-Of-Sale) através dos
códigos de barras, e encontrar dependências
– Uma regra “clássica”
 Se
um cliente compra fraldas e leite então também
compra cerveja.
 Assim não será surprendente que uma loja venda
cerveja ao lado de fraldas ou de leite.
Universidade de Évora, 2011
Mineração de dados / Data Mining
16
Padrões sequenciais
●
Dado um conjunto de objetos, em que cada objeto tem
uma definição temporal, encontrar as regras que
preveem fortes dependência sequenciais entre os
acontecimentos
(A B)
(C)
(A B)
(C) (D E)
<= xg
(D E)
>ng
<= ws
<= ms
Universidade de Évora, 2011
Mineração de dados / Data Mining
17
Padrões Sequenciais: Exemplos
●
Alarmes de telecomunicações,
– (Inverter_Problem Excessive_Line_Current)
(Rectifier_Alarm) --> (Fire_Alarm)
●
Sequencias de Transações,
– Livraria:
(Intro_To_Visual_C) (C++_Primer) -->
(Perl_for_dummies,Tcl_Tk)
– Loja de desporto:
(Shoes) (Racket, Racketball) --> (Sports_Jacket)
Universidade de Évora, 2011
Mineração de dados / Data Mining
18
Regressão
●
●
●
Prever um dado valor contínuo duma variável baseado nas
outras variáveis assumindo um modelo com dependência
linear ou não linear.
Muito estudado em estatística, sistemas dinâmicos, redes
neuronais ou outras áreas de “soft computing”
Exemplos:
– Prever a quantidade de vendas com base no
investimento em publicidade.
– Prever a velocidade do vento como função da
temperatura, pressão, humidade, etc.
– Prever a variação futura dos mercados de ações.
Universidade de Évora, 2011
Mineração de dados / Data Mining
19
Deteção de anomalias
Detetar desvios significativos em relação ao
comportamento normal
● Exemplos:
– Deteção de fraudes de cartões
de crédito
●
– Sistemas de deteção
de intrusão em redes
Universidade de Évora, 2011
Mineração de dados / Data Mining
20
Desafios
●
●
●
●
●
●
●
Escalabilidade
Dimensionabilidade
Dados complexos e heterogéneos
Qualidade dos dados
Propriedade dos dados e divulgação
Privacidade
Streaming
Universidade de Évora, 2011
Mineração de dados / Data Mining
21

Documentos relacionados