Aula 3 Clusterização

Transcrição

Aula 3 Clusterização
2COP229
Inteligência Computacional
Aula 3
Clusterização
[email protected]
2COP229
Inteligência Computacional
Sumário (Clusterização)
- Introdução
- Aprendizado Não Supervisionado
- Aprendizado Supervisionado
- Introdução: Clusterização
- Etapas para o processo de Clusterização
- Distância e Medidas de Similaridade
- Complexidade dos Algoritmos de Clusterização
- Quantos Clusters?
- Prática: K-means.
[email protected]
2COP229
Inteligência Computacional
Introdução
Qual o seu propósito?
1) Predizer valores baseados no passado? Inferir
conhecimento e padrão? Computar novos valores
baseados em um ou mais atributos?
R: Regressão
2) Dividir amostras em classes? Utilizar uma base já
rotulada para avaliação?
R: Classificação
3) Dividir amostras em subgrupos que compartilham
características?
R: Clustering
[email protected]
2COP229
Inteligência Computacional
Aprendizado Não Supervisionado
[email protected]
2COP229
Inteligência Computacional
Aprendizado Não Supervisionado
- Não é oferecido ao modelo os resultados “esperados”;
- Os próprios dados são utilizados como entrada e as
propriedades estatísticas de distribuição são utilizadas;
- Significância de Clustering e Rótulo;
- O processo de rotulação pode ser realizado mesmo sendo
aplicado em apenas um grupo pequeno de objetos para
representar as classes desejadas;
- Decisão Posterior;
- Explorar os dados para encontrar estruturas intrínsecas
[email protected]
2COP229
Inteligência Computacional
Aprendizado Supervisionado
- Dados para “treinamento” incluem entrada e saída desejada;
- O processo de aprendizado esta voltado aos resultados
esperados e exemplos adequados;
- Os processos de treinamento, validação e teste é crucial;
- Os métodos normalmente são rápidos e precisos;
- São capazes de generalizar os resultados com base nos
rótulos;
- É capaz de descobrir padrões em uma base e predizer
valores em instâncias de dados futuras.
[email protected]
2COP229
Inteligência Computacional
Aprendizado Não Supervisionado
[email protected]
2COP229
Inteligência Computacional
Introdução: Clusterização
- Classificação não supervisionada;
- Divisão entre grupos (clusters, subsets, categories);
- Definição, sendo:
padrões
características
[email protected]
2COP229
Inteligência Computacional
Introdução: Clusterização
Hard Clustering
Hierarchical Clustering
[email protected]
2COP229
Inteligência Computacional
Introdução: Clusterização
Hierarchical Clustering
Grau de Pertinência
de cada cluster
Grau de Pertinência
em cada N
[email protected]
2COP229
Inteligência Computacional
Etapas para o processo de Clusterização
[email protected]
2COP229
Inteligência Computacional
Etapas para o processo de Clusterização
- Seleção ou extração de características:
Distinguir características de um grupo de candidatos e
utilizar características para gerar novas;
Esta abordagem é útil para evitar ruídos e facilitar a
interpretação das informações.
- Algoritmo de clusterização ou seleção:
Determinar a medida de proximidade ou função;
A função de proximidade afeta diretamente o agrupamento;
Não existe um algoritmo universal para clusterização, cada
problema exige uma solução;
[email protected]
2COP229
Inteligência Computacional
Etapas para o processo de Clusterização
- Validação de agrupamento
Dado um conjunto qualquer algoritmo de clusterização irá
retornar uma divisão (existindo ou não);
Cada abordagem retornará um agrupamento diferente;
O grau de confiança do agrupamento formado é a métrica
utilizada, avaliando: índices externos, índices internos e
índices relativos.
- Interpretação dos resultados:
Tem como objetivo promover significado e conhecimento
sobre os dados originais.
[email protected]
2COP229
Inteligência Computacional
Distância e Medidas de Similaridade
- Minkowski Distance: Métrica, invariante para translação e
rotação para n = 2 (Euclidean Distance). Características com
valores grandes e muita variação tendem a dominar outras
características. Abordagens: Fuzzy c-means.
[email protected]
2COP229
Inteligência Computacional
Distância e Medidas de Similaridade
- Euclidean Distance: Métrica mais utilizada. É um caso
especial da Minkowski para n=2. Tende a formar clusters
hiperesféricos. Abordagens: K-means
[email protected]
2COP229
Inteligência Computacional
Distância e Medidas de Similaridade
hiperesférico
hiperbólico
plano
[email protected]
2COP229
Inteligência Computacional
Distância e Medidas de Similaridade
- City-Block Distance: Caso especial da Minkowski com n=1,
tende a agrupar de formas hiperretangulares. Aplicações com
Fuzzy ART.
[email protected]
2COP229
Inteligência Computacional
Distância e Medidas de Similaridade
[email protected]
2COP229
Inteligência Computacional
Distância e Medidas de Similaridade
- Sup Distance: Caso especial da Minkowski com n=ꝏ, com
aplicações com Fuzzy c-means.
[email protected]
2COP229
Inteligência Computacional
Distância e Medidas de Similaridade
- Mahalanobis Distance: S é calculado baseado em todos os
objetos, tendendo ao formato hiperelipsoidal. Quando as
características não estão correlacionadas a distância fica
equivalente ao quadrado da Euclidean Distance. Aplicações
com Ellipsoidal ART e Hyperrellipsoidal Clustering algorithm.
Computacionalmente caro.
[email protected]
2COP229
Inteligência Computacional
Distância e Medidas de Similaridade
- Pearson Correlation: Não é métrico. Derivado do Coeficiente
de Correlação. Incapaz de reconhecer a diferença de
magnitude entre duas variáveis.
[email protected]
2COP229
Inteligência Computacional
Distância e Medidas de Similaridade
- Point Symmetry Distance: Não é métrico. Computa a
distância entre um objeto e uma referência. Abordagem: SBKM
(Symmetry-based K-means)
[email protected]
2COP229
Inteligência Computacional
Distância e Medidas de Similaridade
- Cosine Distance: Independente do comprimento do vetor de
características. Invariante a rotação, mas não a transformações
lineares. Utilizado em agrupamento de documentos.
[email protected]
2COP229
Inteligência Computacional
Distância e Medidas de Similaridade
- Point Symmetry Distance: Não é métrico. Computa a
distância entre um objeto e uma referência. Abordagem: SBKM
(Symmetry-based K-means)
[email protected]
2COP229
Inteligência Computacional
Distância e Medidas de Similaridade
- Symmetry:
- Positivity:
- Triangle Inequality:
- Reflexivity:
[email protected]
2COP229
Inteligência Computacional
Algoritmos de Clusterização
- K-means:
- Fuzzy c-means:
- Hierarchical Clustering:
- CLARA:
[email protected]
2COP229
Inteligência Computacional
Algoritmos de Clusterização
- BIRCH:
- DBSCAN:
- WaveCluster: Linear para o número de objetos e quadrática
com o número de dimensões.
- CLIQUE:
- OptiGrid:
[email protected]
2COP229
Inteligência Computacional
Quantos Clusters?
- Para a maioria das abordagens o usuário deve determinar a
quantidade de clusters (K) baseando-se na experiência os
circunstâncias do processo.
- Ténicas:
1) Visualização dos grupos;
2) Índices de certeza (regras de parada);
3) Otimização e critérios probabilísticos;
4) Heurísticas;
[email protected]
2COP229
Inteligência Computacional
Prática: K-means
Problem: Cluster the following eight points (with (x, y) representing locations) into three
clusters A1(2, 10) A2(2, 5) A3(8, 4) A4(5, 8) A5(7, 5) A6(6, 4) A7(1, 2) A8(4, 9).
Initial cluster centers are: A1(2, 10), A4(5, 8) and A7(1, 2). The distance function
between two points a=(x1, y1) and b=(x2, y2) is defined as:
ρ(a, b) = |x2 – x1| + |y2 – y1| .
Use k-means algorithm to find the three cluster centers after the second iteration.
[email protected]
2COP229
Inteligência Computacional
Referências:
Silva, IN da, Danilo Hernane Spatti, and Rogério Andrade Flauzino. "Redes neurais
artificiais para engenharia e ciências aplicadas." São Paulo: Artliber (2010).
Konar, A. “Computational Intelligence: Principles, Techniques and Applications” (2005)
Jensen, R. Shen, Q. “Computational Intelligence and Feature Selection” (2008)
[email protected]

Documentos relacionados

Aula 4 RNA – Adaline e Regra do Delta

Aula 4 RNA – Adaline e Regra do Delta precisão imposta (ε). |Eqm (watual) – Eqm(wanterior)|

Leia mais

Aula1

Aula1 Inteligência Computacional 3- Neurônio Artificial Componentes da Rede Neural Artificial: e) Potencial de ativação {un} É o resultado produzido pelo avaliação do limiar de ativação e o combinador li...

Leia mais