Exemplos de aplicação - Universidade de Évora

Transcrição

Exemplos de aplicação
Mineração de Dados 2011
Protocolo entre Universidade de Évora e
Universidade Metodista de Angola
Luís Rato
Universidade de Évora, 2011
Mineração de dados / Data Mining
1
Classificação: Definição
●
Dado uma conjunto de registos (conjunto de
treino training set )
– Cada registo contém um conjunto de atributos
attributes, um dos atributos é a classe class.
●
●
Encontrar um modelo model para a classe em
função dos outros atributos
Objectivo: a um registo novo deve ser atribuída
a classe (com tanta precisão quanto possível)
– Usa-se um conjunto de teste (test set) para verificar
a exatidão do modelo
(Dados são divididos em dados de treino e de teste).
2
Classificação - exemplo 1
(fraude fiscal)
ca
go
e
t
al
c
ri
al
us
c
i
o
u
or
in
g
t
e
t
n
ss
a
o
a
c
c
cl
Tid Refund Marital
Status
Taxable
Income Cheat
Refund Marital
Status
Taxable
Income Cheat
1
Yes
Single
125K
No
No
Single
75K
?
2
No
Married
100K
No
Yes
Married
50K
?
3
No
Single
70K
No
No
Married
150K
?
4
Yes
Married
120K
No
Yes
Divorced 90K
?
5
No
Divorced 95K
Yes
No
Single
40K
?
6
No
Married
No
No
Married
80K
?
60K
10
7
Yes
Divorced 220K
No
8
No
Single
85K
Yes
9
No
Married
75K
No
10
No
Single
90K
Yes
10
Training
Set
Learn
Classifier
Test
Set
Model
3
Classificação: exemplo 2
(marketing)
●
Marketing direto
– Objetivo: Reduzir o custo do mailing através de targeting
(“procura de alvos”) sobre um conjunto de consumidores que
com probabilidade de comprar um produto para telefone
celular.
– Abordagem:

Usar os dados de produtos parecidos introduzidos anteriormente.

Sabemos quais os clientes que compraram ou não. Esta decisão {buy,
don’t buy} constitui o atributo de classe.

Recolher informação sobre: estilo de vida e interações entre o cliente e
a empresa.
– profissão, hábitos, valor dos rendimentos, etc.

Usa-se estas informações como atributos para determinar a classe
4
(fraude em cartões de crédito)
●
Deteção de fraude
– Objetivo: Prever casos fraudulentos no uso de
cartões de crédito
– Abordagem:
 Usar
as transações de cartões de crédito e informação
sobre os titulares das contas como atributos
 Quando compra ?, o que compra ?, como paga ?
 As transações passadas são classificadas como
“fraude” ou “normal” (atributo de classe)
 Aprender um modelo preditivo para as transações.
 Usar o modelo para detetar fraudes observando as
transações dos cartões de crédito.
5
(perda de clientes)
●
Perda de clientes (Customer Attrition/Churn)
– Objectivo: Prever se um cliente será perdido
para a concorrência.
– Abordagem:
 Usar
registos detalhados das transações e
relações do cliente no passado para extrair
atributos.
– Quantas vezes um cliente telefona?, hora a quwe telefona?,
nível de rendimentos?, casado ou solteiro?, …. etc.
 No
fim classifica-se o cliente como “fiel” ou “infiel”.
 Encontar um modelo para a fidelidade do cliente
6
(classificação de objetos celestes)
●
Catalogação e classificação
– Objetivo: prever a classe do objeto (estrela ou
galáxia), especialmente os menos nítidos, baseada
em imagens de “survey” (from Palomar Observatory).
– 3000 imagens com 23,040 x 23,040 pixeis por imagem.
– Abordagem:
 Segmentar
a imagem.
 Medir
os atributos/características das imagens - 40 por
objecto.
 Modelar
a classe baseada nessas características.
 Foi
possível encontrar 16 novos quasars com desvio para o
vermelho (objectos difíceis de observar).
7
Classificação de galáxias – exemplo 6
http://aps.umn.edu
Primitivas
Classe:
• Etapas de formação
Intermédias
Atributos:
• Características de
imagens
• Forma
• Características da luz
recebida, etc.
Tardia
Dimensão dos dados:
• 72 milhões de estrelas, 20 milhões de galáxias
• Catálogo de objectos: 9 GB
• Base de Dados de imagens: 150 GB
8
Clustering (agrupamento)
●
Dado um conjunto de pontos, cada um com os
seus atributos e semelhança, encontrar grupos
tais que:
– Os pontos dentro de um cluster são mais
semelhantes do que entre clusters diferentes
●
Medidas de semelhança:
– Distância euclideana se os atributos são
contínuos.
– Outras ….
9
Clustering
Clustering baseada na Distância euclideana em 3-D
Distância
Distânciadentro
dentrodos
dosclusters
clusters
deve
deveser
serminimazada
minimazada
Distância
Distânciaentre
entreos
osclusters
clusters
deve
deveser
sermaximizada
maximizada
10
Clustering: exemplo 1
●
Segmentação de mercado:
– Objetivo: subdividir o mercado em diferentes
subconjuntos de clientes em que cada subconjunto
possa ser visto como um alvo de mercado alcançável
por estratégias específicas
– Abordagem:
 Recolher
atributos baseados em características geográficas
e de estilo de vida.
 Encontrar clusters de clientes semelhantes.
 Medir a qualidade do clustering observando os padrões de
compras no mesmo cluster versus em clusters diferentes
11
●
Clustering de documentos:
– Objetivo: encontrar groupos de documentos que sejam
semelhantes entre si, baseado em palavras chave que
aparecem em cada documento.
– Abordagem: encontrar termos frequentes em cada
documento. Criar uma medida de semelhança baseada nas
frequências, e usá-la para proceder ao cluster.
– O que se ganha: A pesquiza de informação (Information
Retrieval) pode usar os clusters para relacionar cada
documento novo com os clusters encontrados.
12
●
●
Num. de pontos: 3204 Artigos do “Los Angeles Times”.
Medida de semalhança: quantas palavras são comuns
(após alguma filtragem)
Category
Financial
Total
Articles
555
Correctly
Placed
364
Foreign
341
260
National
273
36
Metro
943
746
Sports
738
573
Entertainment
354
278
13
Descoberta de regras de Associação
●
Dado um conjunto de registos, cada um contendo vários
itens duma coleção;
– Produzir regras de dependência que prevejam a
ocorrência dum item em função dos outros.
Regras:
Regras:
TID
Items
1
2
3
4
5
Bread, Coke, Milk
Beer, Bread
Beer, Coke, Diaper, Milk
Beer, Bread, Diaper, Milk
Coke, Diaper, Milk
{Milk}
{Milk}-->
-->{Coke}
{Coke}
{Diaper,
{Diaper,Milk}
Milk}-->
-->{Beer}
{Beer}
14
Regras associativas: exemplo 1
●
Marketing e promoções:
– Seja a regra
{Bolos, X, Y... } --> {Batatas fritas}
– Batata frita como consequente => Pode ser usado para
determinar o que fazer para aumentar as suas vendas.
– Bolos como antecedente => Pode ser usado para ver que
produtos serão afetados se a loja deixa de vender bolos.
– Bolos como antecedente e Batatas fritas como consequente
=> Pode ser usado para ver que produtos deveriam ser
vendidos com os bolos para promover a venda de batatas
fritas.
15
Regras associativas: exemplo 2
●
Gestão de Supermercado
– Objetivo: Identificar items que são comprados
em conjunto por bastantes clientes.
– Abordagem: recolher os dados das caixas
registadoras (POS Poit-Of-Sale) através dos
códigos de barras, e encontrar dependências
– Uma regra “clássica”
 Se
um cliente compra fraldas e leite então também
compra cerveja.
 Assim não será surprendente que uma loja venda
cerveja ao lado de fraldas ou de leite.
16
Padrões sequenciais
●
Dado um conjunto de objetos, em que cada objeto tem
uma definição temporal, encontrar as regras que
preveem fortes dependência sequenciais entre os
acontecimentos
(A B)
(C)
(A B)
(C) (D E)
<= xg
(D E)
>ng
<= ws
<= ms
17
Padrões Sequenciais: Exemplos
●
Alarmes de telecomunicações,
– (Inverter_Problem Excessive_Line_Current)
(Rectifier_Alarm) --> (Fire_Alarm)
●
Sequencias de Transações,
– Livraria:
(Intro_To_Visual_C) (C++_Primer) -->
(Perl_for_dummies,Tcl_Tk)
– Loja de desporto:
(Shoes) (Racket, Racketball) --> (Sports_Jacket)
18
Regressão
●
●
●
Prever um dado valor contínuo duma variável baseado nas
outras variáveis assumindo um modelo com dependência
linear ou não linear.
Muito estudado em estatística, sistemas dinâmicos, redes
neuronais ou outras áreas de “soft computing”
Exemplos:
– Prever a quantidade de vendas com base no
investimento em publicidade.
– Prever a velocidade do vento como função da
temperatura, pressão, humidade, etc.
– Prever a variação futura dos mercados de ações.
19
Deteção de anomalias
Detetar desvios significativos em relação ao
comportamento normal
● Exemplos:
– Deteção de fraudes de cartões
de crédito
●
– Sistemas de deteção
de intrusão em redes
20
Desafios
●
●
●
●
●
●
●
Escalabilidade
Dimensionabilidade
Dados complexos e heterogéneos
Qualidade dos dados
Propriedade dos dados e divulgação
Privacidade
Streaming
21

Exemplos de aplicação - Universidade de Évora

Transcrição

Documentos relacionados

CONCERTOS PROMENADE

Biblioteca Pública de Évora - CIDEHUS

Mais informação

165.000

98.000

MANUELA MARÍN (CSIC-Madrid) Movilidad social y

File - Seminário Maior de Évora

Maria de Lourdes Évora Camargo

Envelhecimento demográfico: o desafio social do município de Évora

21 de maio de 2015 - 17:00h