CE 7 Análise de clusters

Transcrição

CE 7 Análise de clusters
ESTATÍSTICA MULTIVARIADA
2º SEMESTRE 2010 / 11
EXERCÍCIOS PRÁTICOS - CADERNO 7
Análise de Clusters
16-05-11
7.1
7.1 (A1)
Considere a seguinte matriz de distâncias :
1 2 3 4
1
2
3
4
0

1 0



5 2 0



6 3 4 0 
Determine os clusters para estes 4 objectos assumindo:
a) Um modelo hierárquico "single linkage".
b) Um modelo hierárquico "complete linkage".
c) Um modelo hierárquico "average linkage".
d) Desenhe os dendrogramas e compare os resultados dos três modelos.
7.2. (T)
Considere agora a matriz de distâncias:
1 2 3 4 5
1 0
2 4
3 6

4 2
5 6


0


9 0

7 10 0 
3 5 8 0
Repita as alíneas a) a d) do exercício anterior.
7.3. (A1)
Uma amostra para as cotações das acções de 5 empresas transaccionadas na NYSE permitiu calcular a
seguinte matriz de correlações entre as cotações dos títulos (arredondadas a 2 casas decimais):
Allied
Union
Du Pont
Exxon
Chemical
Carbide
Allied Chemical

Du Pont

Union Carbide 

Exxon


Texaco
Usando as correlações como
1
.58
.51
.39
.46
medida de
Texaco


1


.60
1

.39
.44
1

.32
.43
.52
1 
semelhança entre os títulos construa os clusters das acções
usando os modelos de "single linkage" e "complete linkage".
16-05-11
7.2
7.4. (A1)
Para quatro indivíduos (A … D) foram medidas as variáveis X1 e X2 obtendo-se:
Indiv.
A
B
C
D
X1
5
1
-1
3
X2
4
-2
1
1
Use o algoritmo das K-médias para dividir os indivíduos em K=2 grupos.
a) Comece com os grupos (AB) e (CD).
b) Repita começando com os grupos (AC) e (BD).
7.5. (A2)
O quadro seguinte apresenta dados sobre 43 marcas comerciais de cereais de pequeno almoço para os
quais se mediram 9 variáveis (dispõe destes dados no ficheiro CEREAIS.SAV)
X1 - Fabricante
X2 - teor de calorias
X3 - "
proteínas
X4 - "
gordura
X5 - "
sódio
X6 - "
fibras
X7 - "
hidratos de carbono
X8 - "
açúcar
X9 - "
potássi0
Utilize o SPSS para
a) Calcular a distância euclideana entre cada par de marcas de cereais.
b) Utilizando essas distâncias agrupar as marcas de cereais usando os métodos de "single linkage" e
"complete linkage". Compare os dendrogramas.
c) Utilize os algoritmo das K-médias para agrupar as marcas de cereais. Use K=2 , 3 e 4 e compare os
resultados.
16-05-11
7.3
Marca
X1
ACCheerios
G
Cheerios
G
CocoaPuffs
G
CountChocula
G
GoldenGrahams
G
HoneyNutCheerios
G
Kix
G
LuckyCharms
G
MultiGrainCheerios
G
OatmealRaisinCrisp
G
RaisinNutBran
G
TotalCornFlakes
G
TotalRaisinBran
G
TotalWholeGrain
G
Trix
G
Cheaties
G
WheatiesHoneyGold
G
AllBran
K
AppleJacks
K
CornFlakes
K
CornPops
K
CracklinOatBran
K
Crispix
K
FrootLoops
K
FrostedFlakes
K
FrostedMiniWheats
K
FruitfulBran
K
JustRightCrunchyNuggets K
MueslixCrispyBlend
K
NutNHoneyCrunch
K
NutriGrainAlmondRaisin
K
NutriGrainWheat
K
Product19
K
RaisinBran
K
RiceKrispies
K
Smacks
K
SpecialK
K
CapNCrunch
Q
HoneyGrahamOhs
Q
Life
Q
PuffedRice
Q
PuffedWheat
Q
QuakerOatmeal
Q
16-05-11
X2 X3
110 2
110 6
110 1
110 1
110 1
110 3
110 2
110 2
100 2
130 3
100 3
110 2
140 3
100 3
110 1
100 3
110 2
70 4
110 2
100 2
110 1
110 3
110 2
110 2
110 1
100 3
120 3
110 2
160 3
120 2
140 3
90 3
100 3
120 3
110 2
110 2
110 6
120 1
120 1
100 4
50 1
50 2
100 5
X4
2
2
1
1
1
1
1
1
1
2
2
1
1
1
1
1
1
1
0
0
0
3
0
1
0
0
0
1
2
1
2
0
0
1
0
1
0
2
2
2
0
0
2
X5
180
290
180
180
280
250
260
180
220
170
140
200
190
200
140
200
200
260
125
290
90
140
220
125
200
0
240
170
150
190
220
170
320
210
290
70
230
220
220
150
0
0
0
X6
1.5
2
0
0
0
1.5
0
0
2
1.5
2.5
0
4
3
0
3
1
9
1
1
1
4
1
1
1
3
5
1
3
0
3
3
1
5
0
1
1
0
1
2
0
1
2.7
X7
10.5
17
12
12
15
11.5
21
12
15
13.5
10.5
21
15
16
13
17
16
7
11
21
13
10
21
11
14
14
14
17
17
15
21
18
20
14
22
9
16
12
12
12
13
10
1
X8
10
1
13
13
9
10
3
12
6
10
8
3
14
3
12
3
8
5
14
2
12
7
3
13
11
7
12
6
13
9
7
2
3
12
3
15
3
12
11
6
0
0
1
X9
70
105
55
65
45
90
40
55
90
120
140
35
230
110
25
110
60
320
30
35
20
160
30
30
25
100
190
60
160
40
130
90
45
240
35
40
55
35
45
95
15
50
110
7.4
7.6. (A2) (do teste de frequência de 24.JUN.2000)
Um colega seu está apostado em fazer o trabalho de Estatística Multivariada a partir dos dados disponíveis
numa base com a caracterização dos hotéis portugueses (aliás, já sua conhecida!). Como simpatizou muito
com as técnicas de Análise de Clusters, decidiu-se por aplicá-las por forma a agrupar os hotéis mais
semelhantes. Para ensaiar a utilização da técnica, começou por construir um quadro com apenas cinco
hotéis e dez variáveis binárias que assinalam a presença (1) ou ausência (0) de algumas facilidades:
1
2
3
4
5
nome
cidade
Hotel do Elevador
1
Hotel Ofir
0
Hotel Horus
1
Hotel Vermar
0
GaiaHotel
0
snack
restaura conferen cofrquar piscina
0
1
1
1
0
1
1
0
1
1
0
1
1
1
1
0
1
1
1
0
0
1
1
1
0
ginásio
cabeleir
ténis
garagem
0
0
1
1
1
0
1
1
0
1
0
1
1
1
0
0
0
1
1
1
Como aprendeu que uma análise de clusters começa sempre pelo cálculo de uma matriz de
dissemelhanças (ou distâncias) entre as observações consideradas, o seu colega decidiu calcular uma.
Como é estudioso sabe que, porque as variáveis são binárias, não deve usar os conceitos de distância mais
habitualmente usados e porque gosta de inovar, propõe a utilização da medida de dissemelhança de Lance
e Williams (também conhecida por coeficiente não métrico de Bray-Curtis) dada por
(b+c)/(2a+b+c), onde a representa o número de atributos presentes em ambos os casos e b e c
representam o os números de atributos presentes num dos casos e ausentes no outro.
a) Compare este conceito com os apresentados na aula para variáveis binárias, diga entre que valores
pode variar, qual o significado dos extremos e que argumentos podem justificar a sua adopção.
b) Usando o SPSS o seu colega obteve a seguinte matriz de dissemelhanças:
Proximi ty Matri x
1:Hotel do
Elev ador
1:Hotel do Elev ador
2:Hotel Of ir
3:Hotel Horus
4:Hotel Vermar
5:GaiaHotel
.778
.818
.800
.714
Binary Lance-and-Williams Nonmet ric Measure
4:Hotel
2:Hotel Of ir 3:Hotel Horus
Vermar
5:GaiaHotel
.778
.818
.800
.714
.250
.200
.500
.250
.176
.429
.200
.176
.385
.500
.429
.385
This is a dissimilarity matrix
A partir desta matriz construa o dendograma para uma aglomeração hierárquica simples (nearest neighbor).
16-05-11
7.5
7.7. (A2) (usando os dados do teste de freq. de 27.JAN.2004)
O ficheiro Ex7-7.xls apresenta os dados do consumo médio de proteínas em diversos tipos de alimentos
para 25 países europeus (São dados de 1973 citados em Manly, 1994). Os valores são consumos médios
diários em gr. por pessoa e as variáveis referem-se a nove grupos de alimentos:
redmeat
whitemea
eggs
milk
fish
cereals
starchyf
pulsenut
fruveget
- carnes vermelhas;
- carnes brancas;
- ovos;
- leite;
- peixe;
- cereias;
- féculas (batata e outras)
- leguminosas e oleaginosas;
- frutas e vegetais.
Pretende-se agora agrupar os países com hábitos alimentares semelhantes (no que toca a quantidades e
fontes de proteínas) recorrendo à Análise de Clusters.
a) Faz sentido a utilização desta técnica?
b) Proponha um conceito de distância e um método de agregação e use o SPSS para constituir os
grupos.
7.8. (T) (do teste de frequência de 6.JAN.2006)
Um colega seu está a experimentar a utilização da Análise de Clusters. Trabalhando com o conjunto de
dados no Quadro 7.8.1, obteve o output do SPSS para a utilização dum método hierárquico de clustering
que consta abaixo.
Indivíduo
X1
X2
X3
X4
X5
A
3.0
4.0
2.5
1.5
5.0
B
2.0
5.0
1.5
2.0
1.5
C
4.5
3.5
4.0
3.0
2.5
D
4.0
2.5
1.5
3.5
4.0
E
2.0
3.0
2.0
1.5
2.0
F
1.0
2.5
4.0
2.0
4.5
Quadro 7.8.1
a) Diga, justificando, qual o método hierárquico utilizado.
b) Complete o aglomeration schedule e acrescente ao dendrograma uma escala para as distâncias
apropriada ao problema.
c) Como ficam divididas as observações se decidir formar dois clusters? Trata-se duma solução possível
no caso de utilizar o algoritmo das K-médias (com k=2)?
OUTPUT:
16-05-11
7.6
Proximity Matrix
Squared Euclidean Distance
Case
1
1
2
3
,00
15,50
13,25
...
11,25
9,00
2
15,50
,00
16,75
18,75
4,75
22,50
3
13,25
16,75
,00
10,00
13,00
18,25
4
...
18,75
10,00
,00
12,50
17,75
5
11,25
4,75
13,00
12,50
,00
11,75
9,00
22,50
This is a dissimilarity matrix
18,25
17,75
11,75
,00
6
4
5
6
Agglomeration Schedule
Stage Cluster First
Appears
Cluster Combined
Stage
1
Cluster 1
2
Cluster 2
5
Coefficients
4,750
Cluster 1
0
Cluster 2
0
Next Stage
5
2
1
6
9,000
0
0
3
3
1
4
9,250
2
0
4
4
...
...
...
...
...
...
5
...
...
...
...
...
...
* * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * *
Dendrogram using ..............
Rescaled Distance Cluster Combine
C A S E
0
5
10
15
20
25
Label Num +---------+---------+---------+---------+---------+
2

5


1


6
 

4


3

16-05-11
7.7
7.9. (Do exame de 26.JUN.2007)
No Quadro 7.9.1 tem as notas de três testes e da prova final numa disciplina da nossa Universidade.
Utilizou-se esta informação para fazer uma análise de clusters dos alunos considerando, primeiro a "block
distance" (isto é distância de Minkovski com m=1) e depois a distância euclideana. Os resultados obtidos
para o método hierárquico com ligações médias apresentam-se no Output 7.9.2.
a)
Compare os resultados, referindo-se especialmente aos objectivos do clustering no que toca à
variabilidade intra e inter clusters. (Seja sucinto na resposta.)
b)
Repare agora que, nesta análise, os trabalhos (que são de grupo) têm um peso tão grande que quase
se podem identificar os grupos de trabalho nos dendogramas. Um seu colega sugeriu então que se
padronizassem as variáveis. Outro sugeriu que se fizesse o clustering com base na nota de fim de
semestre. Que comentários lhe merecem estas sugestões?
c)
Eu preferi construir uma nova variável, que é a média aritmética das notas dos três trabalhos. Fiz então
o clustering usando esta média e a nota do teste de frequência. O resultado desta minha análise
apresenta-se no Output 7.9.3. Que comentários lhe suscita?
16-05-11
7.8
Quadro 7.9.1
Aluno
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
T1
16,0
16,0
15,0
16,0
16,0
16,0
16,0
16,0
16,0
16,0
15,0
16,0
16,0
16,0
16,0
16,0
16,0
16,0
16,0
16,0
15,0
17,0
17,0
17,0
17,0
17,0
13,0
17,0
13,0
13,0
17,0
13,0
T2
14,0
17,0
14,0
17,0
17,0
17,0
17,0
17,0
17,0
17,0
14,0
14,0
16,0
16,0
16,0
14,0
14,0
17,0
16,0
14,0
14,0
17,0
17,0
17,0
17,0
17,0
14,0
17,0
14,0
14,0
17,0
14,0
T3
16,0
19,0
15,0
19,0
15,0
19,0
15,0
19,0
15,0
15,0
15,0
16,0
15,5
15,5
15,5
16,0
16,0
19,0
15,5
16,0
15,0
17,0
18,0
17,0
18,0
18,0
15,0
18,0
15,0
15,0
17,0
15,0
F
12,6
7,5
11,0
13,0
14,3
12,8
8,3
11,8
13,3
6,0
8,8
12,6
9,5
9,0
13,7
5,7
13,5
11,5
8,4
11,5
12,3
12,5
15,5
18,0
16,5
9,3
11,0
11,5
9,5
11,0
12,3
8,5
Quadro 7.9.1
16-05-11
7.9
Output 7.9.2 (1/4)
Clustering c/ "block distance"
Agglomeration Schedule
Cluster Combined
Stage
Coefficients
Cluster 1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
16-05-11
27
1
22
8
4
13
1
13
29
23
5
3
4
1
22
27
5
7
3
23
4
3
2
7
1
2
7
1
2
1
1
Cluster 2
30
12
31
18
6
14
17
19
32
25
9
21
8
20
28
29
15
13
11
24
22
27
26
10
5
4
16
3
23
7
2
Stage Cluster First
Appears
Cluster 2
.000
5.000E-02
.250
.250
.250
.500
.925
.930
1.000
1.000
1.000
1.250
1.250
1.383
1.875
2.000
2.000
2.210
2.875
3.000
3.333
3.542
3.750
3.908
4.737
5.089
5.614
6.723
6.852
7.215
9.553
0
0
0
0
0
0
2
6
0
0
0
0
5
7
3
1
11
0
12
10
13
19
0
18
14
23
24
25
26
28
30
Next Stage
Cluster 1
0
0
0
0
0
0
0
0
0
0
0
0
4
0
0
9
0
8
0
0
15
16
0
0
17
21
0
22
20
27
29
16
7
15
13
13
8
14
18
16
20
17
19
21
25
21
22
25
24
22
29
26
28
26
27
28
29
30
30
31
31
0
7.10
Output 7.9.2 (2/4)
* * * * * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * * * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E
Label Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
27
30
29
32
3
21
11
1
12
17
20
5
9
15
13
14
19
7
10
16
23
25
24
8
18
4
6
22
31
28
2
26
-+---------+
-+
+-------+
-----+-----+
I
-----+
+---------------+
-------+-------+
I
I
-------+
+---+
I
---------------+
+-+
-+---+
I I
-+
+-+
I I
-----+ +-----------------+
I I
-------+
+---------+ I
-----+-----+
I
I
-----+
+-------------+
+-----------+
-----------+
I
I
---+-+
I
I
---+ +-----+
I
I
-----+
+---------+
I
I
-----------+
+-------+
I
I
---------------------+
+-------+
I
-----------------------------+
I
-----+---------+
I
-----+
+-------------------+
I
---------------+
I
I
-+-----+
I
I
-+
+---------+
+-------------+
-+-----+
I
I
-+
+---------+
I
-+-------+
I
I
I
-+
+-------+
+-------+
---------+
I
-------------------+-------+
-------------------+
16-05-11
7.11
Output 7.9.2 (3/4)
Clustering c/ distância euclideana
Agglomeration Schedule
Stage Cluster First
Appears
Cluster Combined
Stage
1
16-05-11
Cluster 1
27
Cluster 2
30
Coefficients
.000
Cluster 2
0
Cluster 1
0
Next Stage
19
2
1
12
5.000E-02
0
0
8
3
22
31
.250
0
0
15
4
8
18
.250
0
0
14
5
4
6
.250
0
0
14
6
13
14
.500
0
0
7
7
13
19
.901
6
0
17
8
1
17
.925
2
0
16
9
29
32
1.000
0
0
19
10
23
25
1.000
0
0
21
11
5
9
1.000
0
0
12
12
5
15
1.226
11
0
25
13
3
21
1.250
0
0
18
14
4
8
1.250
5
4
20
15
22
28
1.332
3
0
20
16
1
20
1.383
8
0
18
17
7
13
1.387
0
7
24
18
1
3
1.875
16
13
25
19
27
29
2.000
1
9
23
20
4
22
2.121
14
15
28
21
23
24
2.248
10
0
30
22
2
26
2.250
0
0
26
23
11
27
2.543
0
19
29
24
7
10
2.934
17
0
26
25
1
5
3.298
18
12
28
26
2
7
3.674
22
24
27
27
2
16
4.082
26
0
29
28
1
4
4.100
25
20
30
29
2
11
4.715
27
23
31
30
1
23
5.081
28
21
31
31
1
2
5.884
30
29
0
7.12
Output 7.9.2 (4/4)
* * * * * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * * * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E
Label Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
27
30
29
32
11
2
26
13
14
19
7
10
16
23
25
24
8
18
4
6
22
31
28
5
9
15
3
21
1
12
17
20
-+---------------+
-+
+---+
---------+-------+
+-------------------+
---------+
I
I
---------------------+
I
-------------------+-----------+
+-------+
-------------------+
I
I
I
-----+-+
+---+
I
I
-----+ +---+
I
I
I
I
-------+
+-------------+
I
+-----+
I
-----------+
+-----+
I
I
-------------------------+
I
I
-----------------------------------+
I
---------+---------+
I
---------+
+-----------------------+
I
-------------------+
I
I
---+-------+
I
I
---+
+-------+
I
I
---+-------+
I
+-----+
---+
+---------------+
I
---+-------+
I
I
I
---+
+-------+
I
I
-----------+
+-------+
---------+-+
I
---------+ +-----------------+
I
-----------+
I
I
-----------+---+
+-----+
-----------+
I
I
-+-----+
+-------------+
-+
+---+
I
-------+
+---+
-----------+
16-05-11
7.13
Output 7.9.3 (1/2)
Agglomeration Schedule
Cluster Combined
Stage
Coefficients
Cluster 1
16-05-11
Cluster 2
1
27
30
2
18
3
1
4
5
6
8
7
8
Stage Cluster First
Appears
Cluster 2
Next Stage
Cluster 1
.000
0
0
12
28
.000
0
0
6
12
5.000E-02
0
0
15
7
19
.186
0
0
17
22
31
.250
0
0
10
18
.250
0
2
21
4
6
.250
0
0
10
9
15
.480
0
0
11
9
13
14
.500
0
0
17
10
4
22
.610
7
5
21
11
9
17
.625
8
0
16
12
3
27
.667
0
1
23
13
11
32
.712
0
0
19
14
10
16
.731
0
0
29
15
1
21
.742
3
0
20
16
5
9
.859
0
11
26
17
7
13
.957
4
9
22
18
23
25
1.000
0
0
25
19
11
29
1.002
13
0
27
20
1
20
1.051
15
0
23
21
4
8
1.077
10
6
26
22
7
26
1.612
17
0
24
23
1
3
1.620
20
12
28
24
2
7
1.923
0
22
27
25
23
24
2.029
18
0
31
26
4
5
2.149
21
16
28
27
2
11
2.286
24
19
29
28
1
4
2.518
23
26
30
29
2
10
3.136
27
14
30
30
1
2
4.459
28
29
31
31
1
23
6.192
30
25
0
7.14
Output 7.9.3 (2/2)
* * * * * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * * * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E
Label Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
27
30
3
1
12
21
20
9
15
17
5
18
28
8
22
31
4
6
10
16
11
32
29
7
19
13
14
26
2
23
25
24
-+---+
-+
+-------+
-----+
I
-+---+
+-------+
-+
+---+
I
I
-----+
+---+
I
---------+
I
---+-+
+---------------+
---+ +-+
I
I
-----+ +---------+
I
I
-------+
I
I
I
-+-+
+---+
I
-+ +-----+
I
I
---+
+-------+
+-----------+
---+-+
I
I
I
---+ +---+
I
I
---+-+
I
I
---+
I
I
-----+-------------------+
I
I
-----+
I
I
I
-----+---+
+-----------+
I
-----+
+---------+
I
I
---------+
I
I
I
-+-----+
+-----+
I
-+
+-----+
I
I
-----+-+
+-+
I
I
-----+
I +---+
I
-------------+ I
I
---------------+
I
---------+-------+
I
---------+
+-------------------------------+
-----------------+
16-05-11
7.15