Análise multivariada na caracterização de utilizadores de

Transcrição

Análise multivariada na caracterização de utilizadores de
Análise multivariada na
caracterização de utilizadores de
Internet
M. Rosário de Oliveira
∗
Technical University of Lisbon - UTL / Department of Mathematics and CEMAT
[email protected]
Encontro SPE/CIM com a colaboração do INE em
Probabilidades e Estatı́stica em Telecomunicações
Coimbra, 19 Maio 2007
Análise multivariada na caracterização de utilizadores de Internet – p. 1/4
Sumário
1. Perfis dos utilizadores da Internet
Análise multivariada na caracterização de utilizadores de Internet – p. 2/4
Sumário
1. Perfis dos utilizadores da Internet
1.1 Descrição do problema
Análise multivariada na caracterização de utilizadores de Internet – p. 2/4
Sumário
1. Perfis dos utilizadores da Internet
1.1 Descrição do problema
1.2 Análise em Componentes Principais
Análise multivariada na caracterização de utilizadores de Internet – p. 2/4
Sumário
1. Perfis dos utilizadores da Internet
1.1 Descrição do problema
1.2 Análise em Componentes Principais
1.3 Análise de clusters
Análise multivariada na caracterização de utilizadores de Internet – p. 2/4
Sumário
1. Perfis dos utilizadores da Internet
1.1 Descrição do problema
1.2 Análise em Componentes Principais
1.3 Análise de clusters
1.4 Validação
Análise multivariada na caracterização de utilizadores de Internet – p. 2/4
Sumário
1. Perfis dos utilizadores da Internet
1.1 Descrição do problema
1.2 Análise em Componentes Principais
1.3 Análise de clusters
1.4 Validação
1.5 Caractarização dos clusters
Análise multivariada na caracterização de utilizadores de Internet – p. 2/4
Sumário
1. Perfis dos utilizadores da Internet
1.1 Descrição do problema
1.2 Análise em Componentes Principais
1.3 Análise de clusters
1.4 Validação
1.5 Caractarização dos clusters
1.6 Conclusões I
Análise multivariada na caracterização de utilizadores de Internet – p. 2/4
Sumário
1. Perfis dos utilizadores da Internet
1.1 Descrição do problema
1.2 Análise em Componentes Principais
1.3 Análise de clusters
1.4 Validação
1.5 Caractarização dos clusters
1.6 Conclusões I
2. Análise da estrutura do tráfego da Internet
Análise multivariada na caracterização de utilizadores de Internet – p. 2/4
Sumário
1. Perfis dos utilizadores da Internet
1.1 Descrição do problema
1.2 Análise em Componentes Principais
1.3 Análise de clusters
1.4 Validação
1.5 Caractarização dos clusters
1.6 Conclusões I
2. Análise da estrutura do tráfego da Internet
2.1 Descrição do problema
Análise multivariada na caracterização de utilizadores de Internet – p. 2/4
Sumário
1. Perfis dos utilizadores da Internet
1.1 Descrição do problema
1.2 Análise em Componentes Principais
1.3 Análise de clusters
1.4 Validação
1.5 Caractarização dos clusters
1.6 Conclusões I
2. Análise da estrutura do tráfego da Internet
2.1 Descrição do problema
2.2 Classificação dos fluxos próprios
Análise multivariada na caracterização de utilizadores de Internet – p. 2/4
Sumário
1. Perfis dos utilizadores da Internet
1.1 Descrição do problema
1.2 Análise em Componentes Principais
1.3 Análise de clusters
1.4 Validação
1.5 Caractarização dos clusters
1.6 Conclusões I
2. Análise da estrutura do tráfego da Internet
2.1 Descrição do problema
2.2 Classificação dos fluxos próprios
2.3 Análise de clusters
Análise multivariada na caracterização de utilizadores de Internet – p. 2/4
Sumário
1. Perfis dos utilizadores da Internet
1.1 Descrição do problema
1.2 Análise em Componentes Principais
1.3 Análise de clusters
1.4 Validação
1.5 Caractarização dos clusters
1.6 Conclusões I
2. Análise da estrutura do tráfego da Internet
2.1 Descrição do problema
2.2 Classificação dos fluxos próprios
2.3 Análise de clusters
2.4 Conclusões II
Análise multivariada na caracterização de utilizadores de Internet – p. 2/4
1. Descrição do problema
Objectivo:
Análise multivariada na caracterização de utilizadores de Internet – p. 3/4
1. Descrição do problema
Objectivo: Encontrar grupos de indivíduos com perfis de
utilização da Internet semelhante. O que permite:
Análise multivariada na caracterização de utilizadores de Internet – p. 3/4
1. Descrição do problema
Objectivo: Encontrar grupos de indivíduos com perfis de
utilização da Internet semelhante. O que permite:
• Fornecer serviços diferenciados de acordo com o comportamento horário dos utilizadores.
Análise multivariada na caracterização de utilizadores de Internet – p. 3/4
1. Descrição do problema
Objectivo: Encontrar grupos de indivíduos com perfis de
utilização da Internet semelhante. O que permite:
• Fornecer serviços diferenciados de acordo com o comportamento horário dos utilizadores.
• Optimizar recursos.
Análise multivariada na caracterização de utilizadores de Internet – p. 3/4
1. Descrição do problema
Objectivo: Encontrar grupos de indivíduos com perfis de
utilização da Internet semelhante. O que permite:
• Fornecer serviços diferenciados de acordo com o comportamento horário dos utilizadores.
• Optimizar recursos.
• Propor sistemas tarifários que promovam o uso do Internet a horas de menos tráfego.
Análise multivariada na caracterização de utilizadores de Internet – p. 3/4
1. Descrição do problema (cont.)
Analisaram-se dados recolhidos em dois ISPs portugueses
distintos.
Análise multivariada na caracterização de utilizadores de Internet – p. 4/4
1. Descrição do problema (cont.)
Analisaram-se dados recolhidos em dois ISPs portugueses
distintos.
Ambos os ISPs oferecem diferentes tipos de contratos,
caracterizados por diferentes valores máximos da taxa de
transferência no sentido downstream/upstream (em Kbits/s)
Análise multivariada na caracterização de utilizadores de Internet – p. 4/4
1. Descrição do problema (cont.)
Analisaram-se dados recolhidos em dois ISPs portugueses
distintos.
Ambos os ISPs oferecem diferentes tipos de contratos,
caracterizados por diferentes valores máximos da taxa de
transferência no sentido downstream/upstream (em Kbits/s)
− ISP1: 128/64, 256/128 e 512/256.
Análise multivariada na caracterização de utilizadores de Internet – p. 4/4
1. Descrição do problema (cont.)
Analisaram-se dados recolhidos em dois ISPs portugueses
distintos.
Ambos os ISPs oferecem diferentes tipos de contratos,
caracterizados por diferentes valores máximos da taxa de
transferência no sentido downstream/upstream (em Kbits/s)
− ISP1: 128/64, 256/128 e 512/256.
− ISP2: 512/128 e 1024/256.
Análise multivariada na caracterização de utilizadores de Internet – p. 4/4
1. Descrição do problema (cont.)
Análise multivariada na caracterização de utilizadores de Internet – p. 5/4
1. Descrição do problema (cont.)
Variáveis:
Análise multivariada na caracterização de utilizadores de Internet – p. 5/4
1. Descrição do problema (cont.)
Variáveis:
Taxa de transferência em Kbit/s, no sentido
downstream, calculada em intervalos de 30 minutos, durante um Sábado.
Análise multivariada na caracterização de utilizadores de Internet – p. 5/4
1. Descrição do problema (cont.)
Variáveis:
Taxa de transferência em Kbit/s, no sentido
downstream, calculada em intervalos de 30 minutos, durante um Sábado.
(X 1 , . . . , X 48 ),
Análise multivariada na caracterização de utilizadores de Internet – p. 5/4
1. Descrição do problema (cont.)
Variáveis:
Taxa de transferência em Kbit/s, no sentido
downstream, calculada em intervalos de 30 minutos, durante um Sábado.
(X 1 , . . . , X 48 ),
onde X i representa taxa de transferência na i-ésima meia
hora do Sábado em estudo.
Análise multivariada na caracterização de utilizadores de Internet – p. 5/4
1. Descrição do problema (cont.)
Observações:
Análise multivariada na caracterização de utilizadores de Internet – p. 6/4
1. Descrição do problema (cont.)
Observações: Dois conjuntos de dados
Análise multivariada na caracterização de utilizadores de Internet – p. 6/4
1. Descrição do problema (cont.)
Observações: Dois conjuntos de dados
ISP1 (CATV) and ISP2 (ADSL)
Análise multivariada na caracterização de utilizadores de Internet – p. 6/4
1. Descrição do problema (cont.)
Observações: Dois conjuntos de dados
ISP1 (CATV) and ISP2 (ADSL)
ISP1
ISP2
Nov. 9, 2002
Out. 19, 2002
No clientes
3432
875
Downloaded MBytes por cliente
85.6
489
No fluxos por utilizador
1.80
1.75
Duração fluxos (horas)
4.9
8.6
Taxa média de débito (Kbits/sec)
23.9
81.1
Data captura
Análise multivariada na caracterização de utilizadores de Internet – p. 6/4
1. Descrição do problema (cont.)
As aplicações identificadas foram agrupadas do seguinte
modo:
Análise multivariada na caracterização de utilizadores de Internet – p. 7/4
1. Descrição do problema (cont.)
As aplicações identificadas foram agrupadas do seguinte
modo:
• File sharing: Kazaa (TCP 1214), eDonkey2000 (TCP 4662), direct
connect (TCP 412, 1412), WinMX (TCP 6699) e FTP (TCP 20, 21).
• HTTP: HTTP (80) e secure HTTP (443).
• Games: Operation FlashPoint (TCP 2234), Medal of Honor (UDP
12203), Half-Life (UDP 27005) e todo o tráfego associado a Game Connection Port (TCP 2346).
• IRC/news: IRC traffic (TCP 1025, 1026) e Newsgroups access (TCP
119).
• Mail: POP3 mail access (TCP 110).
• Streaming: MS-Streaming (TCP 1755) e RealPlayer (UDP 6970).
• Others: outras aplicações e tráfego não identificado.
Análise multivariada na caracterização de utilizadores de Internet – p. 7/4
1. Descrição do problema (cont.)
Total download flow transfer rate
Análise multivariada na caracterização de utilizadores de Internet – p. 8/4
2. Análise em componentes principais
Os dados sugerem que à medida que a taxa média de
transferência diária aumenta a variabilidade entre o que
acontece de manhã e à tarde também aumenta.
Análise multivariada na caracterização de utilizadores de Internet – p. 9/4
2. Análise em componentes principais
Os dados sugerem que à medida que a taxa média de
transferência diária aumenta a variabilidade entre o que
acontece de manhã e à tarde também aumenta.
Para estabilizar esta variabilidade considera-se a tranformação:
Análise multivariada na caracterização de utilizadores de Internet – p. 9/4
2. Análise em componentes principais
Os dados sugerem que à medida que a taxa média de
transferência diária aumenta a variabilidade entre o que
acontece de manhã e à tarde também aumenta.
Para estabilizar esta variabilidade considera-se a tranformação:
Yi = ln (1 + Xi )
Análise multivariada na caracterização de utilizadores de Internet – p. 9/4
2. Análise em componentes principais
Com o intuito de visualizar os dados construiram-se componentes principais,
Análise multivariada na caracterização de utilizadores de Internet – p. 10/4
2. Análise em componentes principais
Com o intuito de visualizar os dados construiram-se componentes principais,
CPi = αi1 Y1 + . . . + αi,48 Y48 ,
Análise multivariada na caracterização de utilizadores de Internet – p. 10/4
2. Análise em componentes principais
Com o intuito de visualizar os dados construiram-se componentes principais,
CPi = αi1 Y1 + . . . + αi,48 Y48 ,
i.e., projectaram-se as observações nas duas dimensões,
ortogonais, que maximizam a variabilidade observada.
Análise multivariada na caracterização de utilizadores de Internet – p. 10/4
2. Análise em componentes principais
Com o intuito de visualizar os dados construiram-se componentes principais,
CPi = αi1 Y1 + . . . + αi,48 Y48 ,
i.e., projectaram-se as observações nas duas dimensões,
ortogonais, que maximizam a variabilidade observada.
As duas primeiras componentes principais explicam:
ISP1
− 50.6% da variabilidade total do ISP1
ISP2
− 60.4% da variabilidade total do ISP2
Análise multivariada na caracterização de utilizadores de Internet – p. 10/4
2. Análise em componentes principais (cont.)
Análise multivariada na caracterização de utilizadores de Internet – p. 11/4
2. Análise em componentes principais (cont.)
Interpretação:
CP1
− Média ponderada das taxas de transf. ao longo do di
CP2
− Contraste entre o taxas de transf. de manhã e de tar
Análise multivariada na caracterização de utilizadores de Internet – p. 11/4
2. Análise em componentes principais (cont.)
Cada utilizador pode ser representado nestes novos eixos
de coordenadas:
Análise multivariada na caracterização de utilizadores de Internet – p. 12/4
2. Análise em componentes principais (cont.)
Cada utilizador pode ser representado nestes novos eixos
de coordenadas:
ISP2
20
ISP1
0
10
20
CP1
30
10
*
-10
*
0
*
-20
* ***
****** **** * ** *
*
*
*
*
*
*
****************** *************** * * *
*
*
* **
**** ** * ***
*
*
*
*
******************************************************* * * * * * ** * * ********
*************** **** ** *****
* *
* *
**
*****************************
********* ***** ** ****** * ***** ** **
*
*
*
*
*
*
*
*
*
*
*
*************************************************** **** ***** **** ***** ** * *** * **** ** * *
*
*
*
*
*
*
*
*
*
*
*
*
** *
******* ****** ** * ***** *
* *
******************************************** ******** **
********************************************************************* ** ** * * * ** *
*
*
*
**** * *********** ***** *** *
*
*
* ******* * ** ****** ** * ** * * **
** *
*
** * *
*
* ** ** ** * ** ** * *
*
**
*
CP2
10
0
-10
CP2
20
*
40
*
*
*** * *** * * *
*
*
*
*
*
*
******* * **** ** *
*
*
************** ******** *** ** **
*
*
* **** * * * * * *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
** * *
*** **** * *
********************************** ***** * **** * *********** *
*
*
*
******************* ***** *** *** ** * * ** * ** ** * * * * *
********************************************** *** ** * *** ** *** * *** *** ********* *** * * *** **
******
*
*
*
*
*
*
*
*
*
** *
********************************************* ************* *** * * * * *** ***** * ** **
**
***
*
******************* * * ** * **
** ** * *
*
******* *********** * * * * ** ** ** * * *****
* * * *
******** **** * ** *** *** * *
*** ** ** * ** * * *
*
* *** ** * ** * * * * * * *
**
*
** *
* ** * * * *
* * **
* *
0
10
20
30
40
CP1
Análise multivariada na caracterização de utilizadores de Internet – p. 12/4
3. Análise de clusters
Objectivo:
Análise multivariada na caracterização de utilizadores de Internet – p. 13/4
3. Análise de clusters
Objectivo: Encontrar grupos de indivíduos semelhantes,
i.e., grupos de indivíduos com um padrão de utilização da
Internet ao longo do dia (Sábado) semelhante.
Análise multivariada na caracterização de utilizadores de Internet – p. 13/4
3. Análise de clusters
Objectivo: Encontrar grupos de indivíduos semelhantes,
i.e., grupos de indivíduos com um padrão de utilização da
Internet ao longo do dia (Sábado) semelhante.
Consideraram-se dois métodos para formar clusters:
Análise multivariada na caracterização de utilizadores de Internet – p. 13/4
3. Análise de clusters
Objectivo: Encontrar grupos de indivíduos semelhantes,
i.e., grupos de indivíduos com um padrão de utilização da
Internet ao longo do dia (Sábado) semelhante.
Consideraram-se dois métodos para formar clusters:
1. Aglomerativo: À partida, cada indíviduo é um cluster.
O método vai agrupando clusters até obter um único grupo
contendo todos os indivíduos.
Análise multivariada na caracterização de utilizadores de Internet – p. 13/4
3. Análise de clusters
Objectivo: Encontrar grupos de indivíduos semelhantes,
i.e., grupos de indivíduos com um padrão de utilização da
Internet ao longo do dia (Sábado) semelhante.
Consideraram-se dois métodos para formar clusters:
1. Aglomerativo: À partida, cada indíviduo é um cluster.
O método vai agrupando clusters até obter um único grupo
contendo todos os indivíduos.
As medições tem natureza contínua logo a medida de proximidade escolhida é a distância euclidiana.
Análise multivariada na caracterização de utilizadores de Internet – p. 13/4
3. Análise de clusters
Objectivo: Encontrar grupos de indivíduos semelhantes,
i.e., grupos de indivíduos com um padrão de utilização da
Internet ao longo do dia (Sábado) semelhante.
Consideraram-se dois métodos para formar clusters:
1. Aglomerativo: À partida, cada indíviduo é um cluster.
O método vai agrupando clusters até obter um único grupo
contendo todos os indivíduos.
As medições tem natureza contínua logo a medida de proximidade escolhida é a distância euclidiana.
O critério de
formação de clusters foi método Ward (incremental sums of
squares measure).
Análise multivariada na caracterização de utilizadores de Internet – p. 13/4
Height
50
150
250
ISP1
V1
V458
V47
V23
V215
V921
V44
V195
V478
V212
V550
V66
V672
V172
V474
V807
V20
V867
V329
V674
V31
V767
V154
V695
V355
V943
V156
V171
V835
V645
V659
V707
V381
V55
V289
V932
V496
V244
V393
V151
V315
V361
V298
V307
V560
V601
V877
V4
V220
V472
V19
V394
V468
V14
V224
V718
V350
V608
V36
V45
V225
V738
V401
V812
V940
V5
V37
V902
V426
V972
V746
V234
V481
V697
V569
V731
V365
V649
V449
V958
V575
V48
V398
V111
V842
V130
V540
V291
V567
V658
V139
V318
V745
V599
V132
V622
V8
V115
V276
V955
V346
V204
V297
V687
V906
V207
V819
V928
V251
V886
V759
V813
V851
V21
V413
V146
V377
V951
V866
V954
V40
V698
V897
V913
V965
V57
V502
V610
V467
V625
V673
V863
V395
V102
V264
V288
V995
V632
V821
V766
V239
V337
V768
V282
V557
V155
V874
V265
V511
V181
V626
V254
V554
V997
V185
V711
V987
V727
V311
V416
V446
V751
V894
V639
V71
V447
V737
V676
V267
V638
V547
V562
V283
V585
V640
V301
V716
V50
V887
V364
V983
V492
V497
V683
V103
V637
V770
V539
V515
V815
V962
V148
V773
V784
V176
V326
V387
V217
V302
V324
V647
V374
V739
V903
V506
V776
V631
V512
V917
V25
V826
V648
V269
V942
V841
V116
V545
V141
V817
V598
V801
V128
V858
V129
V756
V385
V114
V421
V216
V720
V341
V441
V161
V536
V425
V275
V883
V630
V923
V32
V63
V253
V549
V519
V54
V287
V945
V65
V85
V611
V914
V369
V182
V348
V231
V884
V278
V760
V356
V396
V736
V27
V51
V271
V494
V551
V371
V710
V137
V454
V126
V818
V277
V200
V934
V486
V131
V285
V910
V495
V373
V561
V998
V755
V70
V621
V86
V213
V438
V524
V590
V761
V595
V79
V794
V405
V752
V603
V108
V929
V309
V904
V193
V263
V508
V656
V726
V53
V949
V77
V690
V325
V953
V529
V459
V209
V299
V136
V319
V662
V614
V452
V612
V930
V925
V471
V880
V717
V859
V190
V939
V412
V577
V777
V844
V431
V935
V334
V402
V918
V563
V796
V388
V518
V651
V433
V827
V905
V11
V323
V189
V49
V241
V199
V679
V219
V757
V122
V321
V340
V555
V61
V379
V911
V615
V729
V580
V686
V286
V771
V382
V723
V526
V593
V832
V16
V699
V709
V358
V505
V384
V605
V823
V90
V466
V252
V451
V41
V164
V499
V938
V76
V351
V257
V732
V654
V163
V352
V184
V964
V989
V642
V803
V990
V873
V168
V422
V493
V491
V406
V583
V245
V339
V403
V838
V444
V430
V553
V636
V24
V814
V669
V741
V270
V892
V310
V869
V91
V848
V489
V994
V98
V781
V680
V714
V782
V678
V78
V541
V222
V485
V616
V800
V58
V345
V552
V187
V510
V503
V778
V417
V602
V927
V528
V153
V988
V703
V747
V762
V981
V419
V849
V700
V6
V591
V724
V871
V534
V916
V46
V432
V117
V617
V67
V140
V330
V498
V22
V165
V74
V363
V400
V798
V124
V249
V907
V982
V570
V754
V893
V587
V721
V730
V29
V715
V753
V462
V808
V167
V378
V946
V175
V484
V634
V196
V963
V993
V15
V704
V900
V280
V743
V149
V824
V456
V742
V846
V26
V191
V856
V789
V235
V443
V535
V97
V349
V418
V211
V999
V268
V281
V597
V685
V728
V138
V806
V931
V87
V749
V847
V120
V121
V527
V772
V440
V455
V316
V99
V262
V655
V684
V246
V775
V335
V516
V802
V436
V107
V586
V533
V924
V787
V750
V370
V490
V9
V774
V274
V809
V465
V300
V860
V353
V667
V42
V793
V150
V693
V343
V159
V584
V237
V582
V380
V701
V296
V839
V408
V872
V643
V820
V722
V852
V861
V228
V427
V390
V868
V295
V544
V457
V588
V568
V17
V59
V594
V208
V712
V469
V764
V845
V973
V504
V581
V941
V39
V909
V956
V895
V992
V64
V463
V537
V619
V692
V206
V229
V514
V10
V865
V830
V854
V578
V984
V100
V628
V633
V936
V242
V322
V792
V158
V477
V735
V409
V834
V106
V922
V357
V620
V429
V885
V507
V799
V123
V565
V952
V238
V937
V579
V391
V822
V410
V653
V170
V197
V375
V243
V607
V312
V719
V980
V81
V668
V948
V367
V113
V790
V344
V434
V284
V979
V202
V713
V313
V423
V878
V256
V783
V435
V644
V641
V218
V513
V259
V996
V437
V881
V104
V609
V660
V785
V118
V733
V870
V261
V255
V898
V272
V12
V179
V160
V88
V804
V360
V428
V13
V308
V500
V162
V501
V192
V708
V971
V453
V260
V488
V414
V666
V947
V52
V780
V290
V476
V986
V681
V133
V68
V589
V69
V475
V661
V73
V543
V386
V531
V407
V765
V624
V797
V72
V571
V1000
V201
V214
V82
V177
V227
V89
V975
V522
V93
V320
V445
V240
V188
V694
V304
V689
V152
V174
V912
V470
V836
V198
V740
V862
V480
V576
V30
V816
V763
V483
V564
V80
V112
V366
V127
V920
V450
V94
V442
V95
V521
V520
V843
V919
V180
V538
V908
V183
V646
V970
V338
V439
V665
V56
V828
V250
V635
V125
V950
V230
V134
V974
V677
V464
V688
V558
V769
V487
V702
V734
V142
V532
V109
V389
V232
V306
V629
V399
V525
V523
V546
V960
V376
V850
V530
V650
V744
V448
V596
V977
V2
V35
V706
V342
V889
V691
V332
V613
V786
V110
V147
V548
V247
V795
V3
V119
V572
V657
V60
V101
V682
V985
V825
V294
V879
V194
V203
V327
V888
V226
V664
V33
V833
V460
V696
V805
V876
V135
V623
V675
V266
V303
V991
V779
V84
V166
V705
V336
V882
V169
V899
V186
V354
V517
V96
V652
V606
V157
V331
V144
V969
V509
V957
V933
V875
V317
V328
V670
V479
V205
V424
V788
V461
V473
V663
V397
V482
V7
V333
V566
V404
V542
V233
V966
V758
V855
V961
V28
V559
V810
V915
V864
V92
V105
V83
V236
V837
V258
V359
V420
V143
V573
V372
V959
V725
V901
V811
V178
V362
V145
V592
V305
V853
V292
V968
V368
V618
V221
V896
V273
V347
V944
V279
V293
V18
V248
V75
V604
V627
V223
V978
V831
V926
V791
V890
V210
V574
V556
V829
V34
V314
V748
V967
V43
V600
V62
V411
V392
V38
V857
V383
V173
V671
V840
V415
V976
V891
Height
0
150
250
ISP2
Análise multivariada na caracterização de utilizadores de Internet – p. 14/4
V1
V458
V47
V23
V215
V921
V44
V195
V478
V212
V550
V66
V672
V172
V474
V807
V20
V867
V329
V674
V31
V767
V154
V695
V355
V943
V156
V171
V835
V645
V659
V707
V381
V55
V289
V932
V496
V244
V393
V151
V315
V361
V298
V307
V560
V601
V877
V4
V220
V472
V19
V394
V468
V14
V224
V718
V350
V608
V36
V45
V225
V738
V401
V812
V940
V5
V37
V902
V426
V972
V746
V234
V481
V697
V569
V731
V365
V649
V449
V958
V575
V48
V398
V111
V842
V130
V540
V291
V567
V658
V139
V318
V745
V599
V132
V622
V8
V115
V276
V955
V346
V204
V297
V687
V906
V207
V819
V928
V251
V886
V759
V813
V851
V21
V413
V146
V377
V951
V866
V954
V40
V698
V897
V913
V965
V57
V502
V610
V467
V625
V673
V863
V395
V102
V264
V288
V995
V632
V821
V766
V239
V337
V768
V282
V557
V155
V874
V265
V511
V181
V626
V254
V554
V997
V185
V711
V987
V727
V311
V416
V446
V751
V894
V639
V71
V447
V737
V676
V267
V638
V547
V562
V283
V585
V640
V301
V716
V50
V887
V364
V983
V492
V497
V683
V103
V637
V770
V539
V515
V815
V962
V148
V773
V784
V176
V326
V387
V217
V302
V324
V647
V374
V739
V903
V506
V776
V631
V512
V917
V25
V826
V648
V269
V942
V841
V116
V545
V141
V817
V598
V801
V128
V858
V129
V756
V385
V114
V421
V216
V720
V341
V441
V161
V536
V425
V275
V883
V630
V923
V32
V63
V253
V549
V519
V54
V287
V945
V65
V85
V611
V914
V369
V182
V348
V231
V884
V278
V760
V356
V396
V736
V27
V51
V271
V494
V551
V371
V710
V137
V454
V126
V818
V277
V200
V934
V486
V131
V285
V910
V495
V373
V561
V998
V755
V70
V621
V86
V213
V438
V524
V590
V761
V595
V79
V794
V405
V752
V603
V108
V929
V309
V904
V193
V263
V508
V656
V726
V53
V949
V77
V690
V325
V953
V529
V459
V209
V299
V136
V319
V662
V614
V452
V612
V930
V925
V471
V880
V717
V859
V190
V939
V412
V577
V777
V844
V431
V935
V334
V402
V918
V563
V796
V388
V518
V651
V433
V827
V905
V11
V323
V189
V49
V241
V199
V679
V219
V757
V122
V321
V340
V555
V61
V379
V911
V615
V729
V580
V686
V286
V771
V382
V723
V526
V593
V832
V16
V699
V709
V358
V505
V384
V605
V823
V90
V466
V252
V451
V41
V164
V499
V938
V76
V351
V257
V732
V654
V163
V352
V184
V964
V989
V642
V803
V990
V873
V168
V422
V493
V491
V406
V583
V245
V339
V403
V838
V444
V430
V553
V636
V24
V814
V669
V741
V270
V892
V310
V869
V91
V848
V489
V994
V98
V781
V680
V714
V782
V678
V78
V541
V222
V485
V616
V800
V58
V345
V552
V187
V510
V503
V778
V417
V602
V927
V528
V153
V988
V703
V747
V762
V981
V419
V849
V700
V6
V591
V724
V871
V534
V916
V46
V432
V117
V617
V67
V140
V330
V498
V22
V165
V74
V363
V400
V798
V124
V249
V907
V982
V570
V754
V893
V587
V721
V730
V29
V715
V753
V462
V808
V167
V378
V946
V175
V484
V634
V196
V963
V993
V15
V704
V900
V280
V743
V149
V824
V456
V742
V846
V26
V191
V856
V789
V235
V443
V535
V97
V349
V418
V211
V999
V268
V281
V597
V685
V728
V138
V806
V931
V87
V749
V847
V120
V121
V527
V772
V440
V455
V316
V99
V262
V655
V684
V246
V775
V335
V516
V802
V436
V107
V586
V533
V924
V787
V750
V370
V490
V9
V774
V274
V809
V465
V300
V860
V353
V667
V42
V793
V150
V693
V343
V159
V584
V237
V582
V380
V701
V296
V839
V408
V872
V643
V820
V722
V852
V861
V228
V427
V390
V868
V295
V544
V457
V588
V568
V17
V59
V594
V208
V712
V469
V764
V845
V973
V504
V581
V941
V39
V909
V956
V895
V992
V64
V463
V537
V619
V692
V206
V229
V514
V10
V865
V830
V854
V578
V984
V100
V628
V633
V936
V242
V322
V792
V158
V477
V735
V409
V834
V106
V922
V357
V620
V429
V885
V507
V799
V123
V565
V952
V238
V937
V579
V391
V822
V410
V653
V170
V197
V375
V243
V607
V312
V719
V980
V81
V668
V948
V367
V113
V790
V344
V434
V284
V979
V202
V713
V313
V423
V878
V256
V783
V435
V644
V641
V218
V513
V259
V996
V437
V881
V104
V609
V660
V785
V118
V733
V870
V261
V255
V898
V272
V12
V179
V160
V88
V804
V360
V428
V13
V308
V500
V162
V501
V192
V708
V971
V453
V260
V488
V414
V666
V947
V52
V780
V290
V476
V986
V681
V133
V68
V589
V69
V475
V661
V73
V543
V386
V531
V407
V765
V624
V797
V72
V571
V1000
V201
V214
V82
V177
V227
V89
V975
V522
V93
V320
V445
V240
V188
V694
V304
V689
V152
V174
V912
V470
V836
V198
V740
V862
V480
V576
V30
V816
V763
V483
V564
V80
V112
V366
V127
V920
V450
V94
V442
V95
V521
V520
V843
V919
V180
V538
V908
V183
V646
V970
V338
V439
V665
V56
V828
V250
V635
V125
V950
V230
V134
V974
V677
V464
V688
V558
V769
V487
V702
V734
V142
V532
V109
V389
V232
V306
V629
V399
V525
V523
V546
V960
V376
V850
V530
V650
V744
V448
V596
V977
V2
V35
V706
V342
V889
V691
V332
V613
V786
V110
V147
V548
V247
V795
V3
V119
V572
V657
V60
V101
V682
V985
V825
V294
V879
V194
V203
V327
V888
V226
V664
V33
V833
V460
V696
V805
V876
V135
V623
V675
V266
V303
V991
V779
V84
V166
V705
V336
V882
V169
V899
V186
V354
V517
V96
V652
V606
V157
V331
V144
V969
V509
V957
V933
V875
V317
V328
V670
V479
V205
V424
V788
V461
V473
V663
V397
V482
V7
V333
V566
V404
V542
V233
V966
V758
V855
V961
V28
V559
V810
V915
V864
V92
V105
V83
V236
V837
V258
V359
V420
V143
V573
V372
V959
V725
V901
V811
V178
V362
V145
V592
V305
V853
V292
V968
V368
V618
V221
V896
V273
V347
V944
V279
V293
V18
V248
V75
V604
V627
V223
V978
V831
V926
V791
V890
V210
V574
V556
V829
V34
V314
V748
V967
V43
V600
V62
V411
V392
V38
V857
V383
V173
V671
V840
V415
V976
V891
50
3. Análise de clusters - Dendogramas (cont.)
0
Height
50
150
250
ISP1
V1
V458
V47
V23
V215
V921
V44
V195
V478
V212
V550
V66
V672
V172
V474
V807
V20
V867
V329
V674
V31
V767
V154
V695
V355
V943
V156
V171
V835
V645
V659
V707
V381
V55
V289
V932
V496
V244
V393
V151
V315
V361
V298
V307
V560
V601
V877
V4
V220
V472
V19
V394
V468
V14
V224
V718
V350
V608
V36
V45
V225
V738
V401
V812
V940
V5
V37
V902
V426
V972
V746
V234
V481
V697
V569
V731
V365
V649
V449
V958
V575
V48
V398
V111
V842
V130
V540
V291
V567
V658
V139
V318
V745
V599
V132
V622
V8
V115
V276
V955
V346
V204
V297
V687
V906
V207
V819
V928
V251
V886
V759
V813
V851
V21
V413
V146
V377
V951
V866
V954
V40
V698
V897
V913
V965
V57
V502
V610
V467
V625
V673
V863
V395
V102
V264
V288
V995
V632
V821
V766
V239
V337
V768
V282
V557
V155
V874
V265
V511
V181
V626
V254
V554
V997
V185
V711
V987
V727
V311
V416
V446
V751
V894
V639
V71
V447
V737
V676
V267
V638
V547
V562
V283
V585
V640
V301
V716
V50
V887
V364
V983
V492
V497
V683
V103
V637
V770
V539
V515
V815
V962
V148
V773
V784
V176
V326
V387
V217
V302
V324
V647
V374
V739
V903
V506
V776
V631
V512
V917
V25
V826
V648
V269
V942
V841
V116
V545
V141
V817
V598
V801
V128
V858
V129
V756
V385
V114
V421
V216
V720
V341
V441
V161
V536
V425
V275
V883
V630
V923
V32
V63
V253
V549
V519
V54
V287
V945
V65
V85
V611
V914
V369
V182
V348
V231
V884
V278
V760
V356
V396
V736
V27
V51
V271
V494
V551
V371
V710
V137
V454
V126
V818
V277
V200
V934
V486
V131
V285
V910
V495
V373
V561
V998
V755
V70
V621
V86
V213
V438
V524
V590
V761
V595
V79
V794
V405
V752
V603
V108
V929
V309
V904
V193
V263
V508
V656
V726
V53
V949
V77
V690
V325
V953
V529
V459
V209
V299
V136
V319
V662
V614
V452
V612
V930
V925
V471
V880
V717
V859
V190
V939
V412
V577
V777
V844
V431
V935
V334
V402
V918
V563
V796
V388
V518
V651
V433
V827
V905
V11
V323
V189
V49
V241
V199
V679
V219
V757
V122
V321
V340
V555
V61
V379
V911
V615
V729
V580
V686
V286
V771
V382
V723
V526
V593
V832
V16
V699
V709
V358
V505
V384
V605
V823
V90
V466
V252
V451
V41
V164
V499
V938
V76
V351
V257
V732
V654
V163
V352
V184
V964
V989
V642
V803
V990
V873
V168
V422
V493
V491
V406
V583
V245
V339
V403
V838
V444
V430
V553
V636
V24
V814
V669
V741
V270
V892
V310
V869
V91
V848
V489
V994
V98
V781
V680
V714
V782
V678
V78
V541
V222
V485
V616
V800
V58
V345
V552
V187
V510
V503
V778
V417
V602
V927
V528
V153
V988
V703
V747
V762
V981
V419
V849
V700
V6
V591
V724
V871
V534
V916
V46
V432
V117
V617
V67
V140
V330
V498
V22
V165
V74
V363
V400
V798
V124
V249
V907
V982
V570
V754
V893
V587
V721
V730
V29
V715
V753
V462
V808
V167
V378
V946
V175
V484
V634
V196
V963
V993
V15
V704
V900
V280
V743
V149
V824
V456
V742
V846
V26
V191
V856
V789
V235
V443
V535
V97
V349
V418
V211
V999
V268
V281
V597
V685
V728
V138
V806
V931
V87
V749
V847
V120
V121
V527
V772
V440
V455
V316
V99
V262
V655
V684
V246
V775
V335
V516
V802
V436
V107
V586
V533
V924
V787
V750
V370
V490
V9
V774
V274
V809
V465
V300
V860
V353
V667
V42
V793
V150
V693
V343
V159
V584
V237
V582
V380
V701
V296
V839
V408
V872
V643
V820
V722
V852
V861
V228
V427
V390
V868
V295
V544
V457
V588
V568
V17
V59
V594
V208
V712
V469
V764
V845
V973
V504
V581
V941
V39
V909
V956
V895
V992
V64
V463
V537
V619
V692
V206
V229
V514
V10
V865
V830
V854
V578
V984
V100
V628
V633
V936
V242
V322
V792
V158
V477
V735
V409
V834
V106
V922
V357
V620
V429
V885
V507
V799
V123
V565
V952
V238
V937
V579
V391
V822
V410
V653
V170
V197
V375
V243
V607
V312
V719
V980
V81
V668
V948
V367
V113
V790
V344
V434
V284
V979
V202
V713
V313
V423
V878
V256
V783
V435
V644
V641
V218
V513
V259
V996
V437
V881
V104
V609
V660
V785
V118
V733
V870
V261
V255
V898
V272
V12
V179
V160
V88
V804
V360
V428
V13
V308
V500
V162
V501
V192
V708
V971
V453
V260
V488
V414
V666
V947
V52
V780
V290
V476
V986
V681
V133
V68
V589
V69
V475
V661
V73
V543
V386
V531
V407
V765
V624
V797
V72
V571
V1000
V201
V214
V82
V177
V227
V89
V975
V522
V93
V320
V445
V240
V188
V694
V304
V689
V152
V174
V912
V470
V836
V198
V740
V862
V480
V576
V30
V816
V763
V483
V564
V80
V112
V366
V127
V920
V450
V94
V442
V95
V521
V520
V843
V919
V180
V538
V908
V183
V646
V970
V338
V439
V665
V56
V828
V250
V635
V125
V950
V230
V134
V974
V677
V464
V688
V558
V769
V487
V702
V734
V142
V532
V109
V389
V232
V306
V629
V399
V525
V523
V546
V960
V376
V850
V530
V650
V744
V448
V596
V977
V2
V35
V706
V342
V889
V691
V332
V613
V786
V110
V147
V548
V247
V795
V3
V119
V572
V657
V60
V101
V682
V985
V825
V294
V879
V194
V203
V327
V888
V226
V664
V33
V833
V460
V696
V805
V876
V135
V623
V675
V266
V303
V991
V779
V84
V166
V705
V336
V882
V169
V899
V186
V354
V517
V96
V652
V606
V157
V331
V144
V969
V509
V957
V933
V875
V317
V328
V670
V479
V205
V424
V788
V461
V473
V663
V397
V482
V7
V333
V566
V404
V542
V233
V966
V758
V855
V961
V28
V559
V810
V915
V864
V92
V105
V83
V236
V837
V258
V359
V420
V143
V573
V372
V959
V725
V901
V811
V178
V362
V145
V592
V305
V853
V292
V968
V368
V618
V221
V896
V273
V347
V944
V279
V293
V18
V248
V75
V604
V627
V223
V978
V831
V926
V791
V890
V210
V574
V556
V829
V34
V314
V748
V967
V43
V600
V62
V411
V392
V38
V857
V383
V173
V671
V840
V415
V976
V891
Height
0
150
250
ISP2
Análise multivariada na caracterização de utilizadores de Internet – p. 14/4
V1
V458
V47
V23
V215
V921
V44
V195
V478
V212
V550
V66
V672
V172
V474
V807
V20
V867
V329
V674
V31
V767
V154
V695
V355
V943
V156
V171
V835
V645
V659
V707
V381
V55
V289
V932
V496
V244
V393
V151
V315
V361
V298
V307
V560
V601
V877
V4
V220
V472
V19
V394
V468
V14
V224
V718
V350
V608
V36
V45
V225
V738
V401
V812
V940
V5
V37
V902
V426
V972
V746
V234
V481
V697
V569
V731
V365
V649
V449
V958
V575
V48
V398
V111
V842
V130
V540
V291
V567
V658
V139
V318
V745
V599
V132
V622
V8
V115
V276
V955
V346
V204
V297
V687
V906
V207
V819
V928
V251
V886
V759
V813
V851
V21
V413
V146
V377
V951
V866
V954
V40
V698
V897
V913
V965
V57
V502
V610
V467
V625
V673
V863
V395
V102
V264
V288
V995
V632
V821
V766
V239
V337
V768
V282
V557
V155
V874
V265
V511
V181
V626
V254
V554
V997
V185
V711
V987
V727
V311
V416
V446
V751
V894
V639
V71
V447
V737
V676
V267
V638
V547
V562
V283
V585
V640
V301
V716
V50
V887
V364
V983
V492
V497
V683
V103
V637
V770
V539
V515
V815
V962
V148
V773
V784
V176
V326
V387
V217
V302
V324
V647
V374
V739
V903
V506
V776
V631
V512
V917
V25
V826
V648
V269
V942
V841
V116
V545
V141
V817
V598
V801
V128
V858
V129
V756
V385
V114
V421
V216
V720
V341
V441
V161
V536
V425
V275
V883
V630
V923
V32
V63
V253
V549
V519
V54
V287
V945
V65
V85
V611
V914
V369
V182
V348
V231
V884
V278
V760
V356
V396
V736
V27
V51
V271
V494
V551
V371
V710
V137
V454
V126
V818
V277
V200
V934
V486
V131
V285
V910
V495
V373
V561
V998
V755
V70
V621
V86
V213
V438
V524
V590
V761
V595
V79
V794
V405
V752
V603
V108
V929
V309
V904
V193
V263
V508
V656
V726
V53
V949
V77
V690
V325
V953
V529
V459
V209
V299
V136
V319
V662
V614
V452
V612
V930
V925
V471
V880
V717
V859
V190
V939
V412
V577
V777
V844
V431
V935
V334
V402
V918
V563
V796
V388
V518
V651
V433
V827
V905
V11
V323
V189
V49
V241
V199
V679
V219
V757
V122
V321
V340
V555
V61
V379
V911
V615
V729
V580
V686
V286
V771
V382
V723
V526
V593
V832
V16
V699
V709
V358
V505
V384
V605
V823
V90
V466
V252
V451
V41
V164
V499
V938
V76
V351
V257
V732
V654
V163
V352
V184
V964
V989
V642
V803
V990
V873
V168
V422
V493
V491
V406
V583
V245
V339
V403
V838
V444
V430
V553
V636
V24
V814
V669
V741
V270
V892
V310
V869
V91
V848
V489
V994
V98
V781
V680
V714
V782
V678
V78
V541
V222
V485
V616
V800
V58
V345
V552
V187
V510
V503
V778
V417
V602
V927
V528
V153
V988
V703
V747
V762
V981
V419
V849
V700
V6
V591
V724
V871
V534
V916
V46
V432
V117
V617
V67
V140
V330
V498
V22
V165
V74
V363
V400
V798
V124
V249
V907
V982
V570
V754
V893
V587
V721
V730
V29
V715
V753
V462
V808
V167
V378
V946
V175
V484
V634
V196
V963
V993
V15
V704
V900
V280
V743
V149
V824
V456
V742
V846
V26
V191
V856
V789
V235
V443
V535
V97
V349
V418
V211
V999
V268
V281
V597
V685
V728
V138
V806
V931
V87
V749
V847
V120
V121
V527
V772
V440
V455
V316
V99
V262
V655
V684
V246
V775
V335
V516
V802
V436
V107
V586
V533
V924
V787
V750
V370
V490
V9
V774
V274
V809
V465
V300
V860
V353
V667
V42
V793
V150
V693
V343
V159
V584
V237
V582
V380
V701
V296
V839
V408
V872
V643
V820
V722
V852
V861
V228
V427
V390
V868
V295
V544
V457
V588
V568
V17
V59
V594
V208
V712
V469
V764
V845
V973
V504
V581
V941
V39
V909
V956
V895
V992
V64
V463
V537
V619
V692
V206
V229
V514
V10
V865
V830
V854
V578
V984
V100
V628
V633
V936
V242
V322
V792
V158
V477
V735
V409
V834
V106
V922
V357
V620
V429
V885
V507
V799
V123
V565
V952
V238
V937
V579
V391
V822
V410
V653
V170
V197
V375
V243
V607
V312
V719
V980
V81
V668
V948
V367
V113
V790
V344
V434
V284
V979
V202
V713
V313
V423
V878
V256
V783
V435
V644
V641
V218
V513
V259
V996
V437
V881
V104
V609
V660
V785
V118
V733
V870
V261
V255
V898
V272
V12
V179
V160
V88
V804
V360
V428
V13
V308
V500
V162
V501
V192
V708
V971
V453
V260
V488
V414
V666
V947
V52
V780
V290
V476
V986
V681
V133
V68
V589
V69
V475
V661
V73
V543
V386
V531
V407
V765
V624
V797
V72
V571
V1000
V201
V214
V82
V177
V227
V89
V975
V522
V93
V320
V445
V240
V188
V694
V304
V689
V152
V174
V912
V470
V836
V198
V740
V862
V480
V576
V30
V816
V763
V483
V564
V80
V112
V366
V127
V920
V450
V94
V442
V95
V521
V520
V843
V919
V180
V538
V908
V183
V646
V970
V338
V439
V665
V56
V828
V250
V635
V125
V950
V230
V134
V974
V677
V464
V688
V558
V769
V487
V702
V734
V142
V532
V109
V389
V232
V306
V629
V399
V525
V523
V546
V960
V376
V850
V530
V650
V744
V448
V596
V977
V2
V35
V706
V342
V889
V691
V332
V613
V786
V110
V147
V548
V247
V795
V3
V119
V572
V657
V60
V101
V682
V985
V825
V294
V879
V194
V203
V327
V888
V226
V664
V33
V833
V460
V696
V805
V876
V135
V623
V675
V266
V303
V991
V779
V84
V166
V705
V336
V882
V169
V899
V186
V354
V517
V96
V652
V606
V157
V331
V144
V969
V509
V957
V933
V875
V317
V328
V670
V479
V205
V424
V788
V461
V473
V663
V397
V482
V7
V333
V566
V404
V542
V233
V966
V758
V855
V961
V28
V559
V810
V915
V864
V92
V105
V83
V236
V837
V258
V359
V420
V143
V573
V372
V959
V725
V901
V811
V178
V362
V145
V592
V305
V853
V292
V968
V368
V618
V221
V896
V273
V347
V944
V279
V293
V18
V248
V75
V604
V627
V223
V978
V831
V926
V791
V890
V210
V574
V556
V829
V34
V314
V748
V967
V43
V600
V62
V411
V392
V38
V857
V383
V173
V671
V840
V415
V976
V891
50
3. Análise de clusters - Dendogramas (cont.)
0
3. Análise de clusters - Medoids
2. Medoids:
Análise multivariada na caracterização de utilizadores de Internet – p. 15/4
3. Análise de clusters - Medoids
2. Medoids: Método de partição, onde o número de
clusters é escolhido à partida (k = 3).
Análise multivariada na caracterização de utilizadores de Internet – p. 15/4
3. Análise de clusters - Medoids
2. Medoids: Método de partição, onde o número de
clusters é escolhido à partida (k = 3).
• Escolha dos medoids: k objectos escolhidos de
forma a que distância de cada objecto ao medoid mais
próximo é mínima.
Análise multivariada na caracterização de utilizadores de Internet – p. 15/4
3. Análise de clusters - Medoids
2. Medoids: Método de partição, onde o número de
clusters é escolhido à partida (k = 3).
• Escolha dos medoids: k objectos escolhidos de
forma a que distância de cada objecto ao medoid mais
próximo é mínima.
• Cada objecto é atribuído ao cluster vi se o medoid mvi
está mais próximo do objecto i do que qualquer outro
medoid.
Análise multivariada na caracterização de utilizadores de Internet – p. 15/4
3. Análise de clusters - Medoids
2. Medoids: Método de partição, onde o número de
clusters é escolhido à partida (k = 3).
• Escolha dos medoids: k objectos escolhidos de
forma a que distância de cada objecto ao medoid mais
próximo é mínima.
• Cada objecto é atribuído ao cluster vi se o medoid mvi
está mais próximo do objecto i do que qualquer outro
medoid.
Distância: Euclidiana
Análise multivariada na caracterização de utilizadores de Internet – p. 15/4
3. Análise de clusters - Medoids
Medoids
Análise multivariada na caracterização de utilizadores de Internet – p. 16/4
3. Análise de clusters - Medoids
Medoids
Medianas
Análise multivariada na caracterização de utilizadores de Internet – p. 16/4
3. Interpretation of clusters vs PC
ISP2
0
CP2
0
-5
-5
-10
-10
CP2
5
5
10
ISP1
0
10
20
CP1
30
-5
0
5
10
15
CP1
Análise multivariada na caracterização de utilizadores de Internet – p. 17/4
3. Interpretation of clusters vs PC
ISP2
0
CP2
0
-5
-5
-10
-10
CP2
5
5
10
ISP1
0
10
20
30
CP1
Cluster
-5
0
5
10
15
CP1
Interpretação
C1
Taxas de transf. elevadas ao longo de todo o dia
C2
Taxas de transf. baixas/elevadas de manhã/tarde
C3
Taxas de transf. baixas ao longo de todo o dia
Análise multivariada na caracterização de utilizadores de Internet – p. 17/4
3. Medoids - Interpretação
ISP1
ISP2
Cluster
Medoids
Ward
Medoids
Ward
C1
4.23%
4.87%
18.52%
20.00%
C2
7.75%
22.29%
14.17%
21.94%
C3
88.02%
72.84%
67.32%
58.06%
Análise multivariada na caracterização de utilizadores de Internet – p. 18/4
3. Concordância entre as duas análise de clusters
Aglom. ISP1
Aglom. ISP2
Med.
C1
C2
C3
Med.
C1
C2
C3
C1
136
8
1
145
C1
137
23
2
175
C2
6
258
2
266
C2
8
104
12
192
C3
25
499
2497
3021
C3
30
65
494
508
167
765
2500
3432
162
124
589
875
Análise multivariada na caracterização de utilizadores de Internet – p. 19/4
3. Concordância entre as duas análise de clusters
Aglom. ISP1
Aglom. ISP2
Med.
C1
C2
C3
Med.
C1
C2
C3
C1
136
8
1
145
C1
137
23
2
175
C2
6
258
2
266
C2
8
104
12
192
C3
25
499
2497
3021
C3
30
65
494
508
167
765
2500
3432
162
124
589
875
Percentagem de casos concordantes entre atribuição a 3 clusters
feita por Medoids e Aglomerativo:
ISP 1 : 84.2% ISP 2 : 84.0%
Análise multivariada na caracterização de utilizadores de Internet – p. 19/4
4. Análise discriminante
Objectivo:
Análise multivariada na caracterização de utilizadores de Internet – p. 20/4
4. Análise discriminante
Objectivo:
Encontrar uma regra para classificar um indivíduo, num de vários
grupos pré-definidos, com base num conjunto de variáveis.
Análise multivariada na caracterização de utilizadores de Internet – p. 20/4
4. Análise discriminante
Objectivo:
Encontrar uma regra para classificar um indivíduo, num de vários
grupos pré-definidos, com base num conjunto de variáveis.
Grupo: Perfil a que cada indivíduo é atribuído pela análise de
clusters (Medoids).
Análise multivariada na caracterização de utilizadores de Internet – p. 20/4
4. Análise discriminante
Objectivo:
Encontrar uma regra para classificar um indivíduo, num de vários
grupos pré-definidos, com base num conjunto de variáveis.
Grupo: Perfil a que cada indivíduo é atribuído pela análise de
clusters (Medoids).
Com base no seus consumos ao longo do dia procura-se
re-classificar o indivíduo num dos três perfis considerados.
Análise multivariada na caracterização de utilizadores de Internet – p. 20/4
4. Análise discriminante
Objectivo:
Encontrar uma regra para classificar um indivíduo, num de vários
grupos pré-definidos, com base num conjunto de variáveis.
Grupo: Perfil a que cada indivíduo é atribuído pela análise de
clusters (Medoids).
Com base no seus consumos ao longo do dia procura-se
re-classificar o indivíduo num dos três perfis considerados.
Se a regra discriminante apresentar taxas de erro baixas
estaremos a validar a divisão em clusters feita inicialmente.
Análise multivariada na caracterização de utilizadores de Internet – p. 20/4
4. Análise discriminante (cont.)
Taxa
ISP1
ISP2
erro
Medoids
Ward
Medoids
Ward
Aparente
1.31%
9.47%
3.09%
6.74%
Leave-one-out
1.81%
9.99%
5.71%
9.49%
Valid-Cruzada
1.78%
10.05%
6.59%
9.57%
Dupla Valid-Cruz.
2.18%
10.02%
7.77%
10.86%
Análise multivariada na caracterização de utilizadores de Internet – p. 21/4
4. Análise discriminante (cont.)
Taxa
ISP1
ISP2
erro
Medoids
Ward
Medoids
Ward
Aparente
1.31%
9.47%
3.09%
6.74%
Leave-one-out
1.81%
9.99%
5.71%
9.49%
Valid-Cruzada
1.78%
10.05%
6.59%
9.57%
Dupla Valid-Cruz.
2.18%
10.02%
7.77%
10.86%
Em geral, as taxas de erro são baixas, o que valida a estrutura de clusters proposta.
Análise multivariada na caracterização de utilizadores de Internet – p. 21/4
4. Análise discriminante (cont.)
Taxa
ISP1
ISP2
erro
Medoids
Ward
Medoids
Ward
Aparente
1.31%
9.47%
3.09%
6.74%
Leave-one-out
1.81%
9.99%
5.71%
9.49%
Valid-Cruzada
1.78%
10.05%
6.59%
9.57%
Dupla Valid-Cruz.
2.18%
10.02%
7.77%
10.86%
Em geral, as taxas de erro são baixas, o que valida a estrutura de clusters proposta. Note que as partições obtidas
pelos Medoids apresentam menores taxas de erro.
Análise multivariada na caracterização de utilizadores de Internet – p. 21/4
4. Análise discriminante (cont.)
Taxa
ISP1
ISP2
erro
Medoids
Ward
Medoids
Ward
Aparente
1.31%
9.47%
3.09%
6.74%
Leave-one-out
1.81%
9.99%
5.71%
9.49%
Valid-Cruzada
1.78%
10.05%
6.59%
9.57%
Dupla Valid-Cruz.
2.18%
10.02%
7.77%
10.86%
Em geral, as taxas de erro são baixas, o que valida a estrutura de clusters proposta. Note que as partições obtidas
pelos Medoids apresentam menores taxas de erro. Por
esta razão serão as partições consideradas.
Análise multivariada na caracterização de utilizadores de Internet – p. 21/4
5. Caracterização dos clusters
Objectivo: Analisar cada cluster com base em características
do tráfego que não foram utilizadas na análise de clusters
Análise multivariada na caracterização de utilizadores de Internet – p. 22/4
5. Caracterização dos clusters
Objectivo: Analisar cada cluster com base em características
do tráfego que não foram utilizadas na análise de clusters
Em particular estamos interessados em perceber como se
caracterizam
Análise multivariada na caracterização de utilizadores de Internet – p. 22/4
5. Caracterização dos clusters
Objectivo: Analisar cada cluster com base em características
do tráfego que não foram utilizadas na análise de clusters
Em particular estamos interessados em perceber como se
caracterizam
− Número de bytes recebidos por utilizador (Tamanho);
Análise multivariada na caracterização de utilizadores de Internet – p. 22/4
5. Caracterização dos clusters
Objectivo: Analisar cada cluster com base em características
do tráfego que não foram utilizadas na análise de clusters
Em particular estamos interessados em perceber como se
caracterizam
− Número de bytes recebidos por utilizador (Tamanho);
− Duração por utilizador;
Análise multivariada na caracterização de utilizadores de Internet – p. 22/4
5. Caracterização dos clusters
Objectivo: Analisar cada cluster com base em características
do tráfego que não foram utilizadas na análise de clusters
Em particular estamos interessados em perceber como se
caracterizam
− Número de bytes recebidos por utilizador (Tamanho);
− Duração por utilizador;
− Taxa de transferência por utilizador
Análise multivariada na caracterização de utilizadores de Internet – p. 22/4
5. Caracterização dos clusters
Objectivo: Analisar cada cluster com base em características
do tráfego que não foram utilizadas na análise de clusters
Em particular estamos interessados em perceber como se
caracterizam
− Número de bytes recebidos por utilizador (Tamanho);
− Duração por utilizador;
− Taxa de transferência por utilizador
em cada um dos clusters: C1, C2 e C3.
Análise multivariada na caracterização de utilizadores de Internet – p. 22/4
5. Caracterização dos clusters
Objectivo: Analisar cada cluster com base em características
do tráfego que não foram utilizadas na análise de clusters
Em particular estamos interessados em perceber como se
caracterizam
− Número de bytes recebidos por utilizador (Tamanho);
− Duração por utilizador;
− Taxa de transferência por utilizador
em cada um dos clusters: C1, C2 e C3.
Analisaremos apenas a partição obtida pelo métodos dos
medoids.
Análise multivariada na caracterização de utilizadores de Internet – p. 22/4
6. Caracterização dos clusters
Usando um teste não-paramétrico, concluiu-se que se deve
Análise multivariada na caracterização de utilizadores de Internet – p. 23/4
6. Caracterização dos clusters
Usando um teste não-paramétrico, concluiu-se que se deve
Rejeitar H0 : µ1 = µ2 = µ3
Análise multivariada na caracterização de utilizadores de Internet – p. 23/4
6. Caracterização dos clusters
Usando um teste não-paramétrico, concluiu-se que se deve
Rejeitar H0 : µ1 = µ2 = µ3
para Tamanho, Taxas de Transferência e Duração
Análise multivariada na caracterização de utilizadores de Internet – p. 23/4
6. Caracterização dos clusters
Tamanho
Duração
Taxa
Análise multivariada na caracterização de utilizadores de Internet – p. 24/4
6. Caracterização dos clusters
Tamanho
Duração
Taxa
ISP2: µ1 > µ2 > µ3
ISP1: µ1 = µ2 > µ3
Análise multivariada na caracterização de utilizadores de Internet – p. 24/4
6. Caracterização dos clusters
Tamanho
Duração
ISP2: µ1 > µ2 > µ3
µ1 > µ2 > µ3
Taxa
ISP1: µ1 = µ2 > µ3
Análise multivariada na caracterização de utilizadores de Internet – p. 24/4
6. Caracterização dos clusters
Tamanho
Duração
Taxa
ISP2: µ1 > µ2 > µ3
µ1 > µ2 > µ3
µ1 = µ2 > µ3
ISP1: µ1 = µ2 > µ3
Análise multivariada na caracterização de utilizadores de Internet – p. 24/4
6. Caracterização dos clusters de ISP2 - Aplicações
Duração
Tamanho
400000000
Taxa
60000
60
300000000
40000
40
20000
20
200000000
100000000
0
0
FS
H
G
I
M
S
0
FS
H
G
I
M
S
FS
H
G
I
M
S
Análise multivariada na caracterização de utilizadores de Internet – p. 25/4
6. Caracterização dos clusters de ISP2 - Aplicações
Duração
Tamanho
400000000
Taxa
60000
60
300000000
40000
40
20000
20
200000000
100000000
0
0
FS
H
G
I
M
S
0
FS
H
G
I
M
S
FS
H
G
I
M
S
FS, H: µ1 = µ2 > µ3
Análise multivariada na caracterização de utilizadores de Internet – p. 25/4
6. Caracterização dos clusters de ISP2 - Aplicações
Duração
Tamanho
400000000
Taxa
60000
60
300000000
40000
40
20000
20
200000000
100000000
0
0
FS
H
G
I
M
S
FS, H: µ1 = µ2 > µ3
0
FS
H
G
I
M
S
FS
H
G
I
M
S
FS: µ1 > µ2 > µ3
H: µ1 = µ2 > µ3
Análise multivariada na caracterização de utilizadores de Internet – p. 25/4
6. Caracterização dos clusters de ISP2 - Aplicações
Duração
Tamanho
400000000
Taxa
60000
60
300000000
40000
40
20000
20
200000000
100000000
0
0
FS
H
G
I
M
S
FS, H: µ1 = µ2 > µ3
0
FS
H
G
I
M
S
FS: µ1 > µ2 > µ3
FS
H
G
I
M
S
FS: µ1 = µ2 > µ3
H: µ1 = µ2 > µ3
Análise multivariada na caracterização de utilizadores de Internet – p. 25/4
Conclusões I
• Análise de Cluster: Obtivemos uma partição em 3 grupos com
perfis de utilização da Internet semelhantes.
Análise multivariada na caracterização de utilizadores de Internet – p. 26/4
Conclusões I
• Análise de Cluster: Obtivemos uma partição em 3 grupos com
perfis de utilização da Internet semelhantes.
• Um utilizador típico de cada cluster é caracterizado por:
Análise multivariada na caracterização de utilizadores de Internet – p. 26/4
Conclusões I
• Análise de Cluster: Obtivemos uma partição em 3 grupos com
perfis de utilização da Internet semelhantes.
• Um utilizador típico de cada cluster é caracterizado por:
− C1: Taxas de transf.
elevadas ao longo de todo o dia.
Análise multivariada na caracterização de utilizadores de Internet – p. 26/4
Conclusões I
• Análise de Cluster: Obtivemos uma partição em 3 grupos com
perfis de utilização da Internet semelhantes.
• Um utilizador típico de cada cluster é caracterizado por:
− C1: Taxas de transf.
− C2:
Taxas de transf.
elevadas ao longo de todo o dia.
baixas/elevadas de manhã/tarde.
Análise multivariada na caracterização de utilizadores de Internet – p. 26/4
Conclusões I
• Análise de Cluster: Obtivemos uma partição em 3 grupos com
perfis de utilização da Internet semelhantes.
• Um utilizador típico de cada cluster é caracterizado por:
− C1: Taxas de transf.
− C2:
Taxas de transf.
elevadas ao longo de todo o dia.
baixas/elevadas de manhã/tarde.
− C3: Taxas de transf. baixas ao longo de todo o dia.
Análise multivariada na caracterização de utilizadores de Internet – p. 26/4
Conclusões I
• Utilizadores do perfil C1 e C2 usam File Sharing a taxas mais
elevadas e durante períodos mais longos que C3.
Análise multivariada na caracterização de utilizadores de Internet – p. 27/4
Conclusões I
• Utilizadores do perfil C1 e C2 usam File Sharing a taxas mais
elevadas e durante períodos mais longos que C3.
• Os utilizadores de C1 tendem a usar a Internet de forma
mais intensiva do que os de C2.
Análise multivariada na caracterização de utilizadores de Internet – p. 27/4
Conclusões I
• Utilizadores do perfil C1 e C2 usam File Sharing a taxas mais
elevadas e durante períodos mais longos que C3.
• Os utilizadores de C1 tendem a usar a Internet de forma
mais intensiva do que os de C2.
• O tráfego associado aos utilizadores agrupados em C3 caracteriza-se
por menores durações e menos bytes recebidos de HTTP que C1 ou
C2.
Análise multivariada na caracterização de utilizadores de Internet – p. 27/4
Análise da estrutura do tráfego da Internet
Objectivos - Decomposição do tráfego associado a cada
utilizador em componentes com características marcadamente
diferentes.
Análise multivariada na caracterização de utilizadores de Internet – p. 28/4
Análise da estrutura do tráfego da Internet
Objectivos - Decomposição do tráfego associado a cada
utilizador em componentes com características marcadamente
diferentes.
Baseado em: - Medições de taxas de transferência, medidas
durante uma semana. (n = 5588, p = 346 períodos de 30min, de
Terça a Terça)
Análise multivariada na caracterização de utilizadores de Internet – p. 28/4
Análise da estrutura do tráfego da Internet
Objectivos - Decomposição do tráfego associado a cada
utilizador em componentes com características marcadamente
diferentes.
Baseado em: - Medições de taxas de transferência, medidas
durante uma semana. (n = 5588, p = 346 períodos de 30min, de
Terça a Terça)
Útil para:
Análise multivariada na caracterização de utilizadores de Internet – p. 28/4
Análise da estrutura do tráfego da Internet
Objectivos - Decomposição do tráfego associado a cada
utilizador em componentes com características marcadamente
diferentes.
Baseado em: - Medições de taxas de transferência, medidas
durante uma semana. (n = 5588, p = 346 períodos de 30min, de
Terça a Terça)
Útil para:
− Entender a natureza do tráfego da Internet.
Análise multivariada na caracterização de utilizadores de Internet – p. 28/4
Análise da estrutura do tráfego da Internet
Objectivos - Decomposição do tráfego associado a cada
utilizador em componentes com características marcadamente
diferentes.
Baseado em: - Medições de taxas de transferência, medidas
durante uma semana. (n = 5588, p = 346 períodos de 30min, de
Terça a Terça)
Útil para:
− Entender a natureza do tráfego da Internet.
− Detectar perfis semanais de utilização da Internet.
Análise multivariada na caracterização de utilizadores de Internet – p. 28/4
Análise da estrutura do tráfego da Internet
Objectivos - Decomposição do tráfego associado a cada
utilizador em componentes com características marcadamente
diferentes.
Baseado em: - Medições de taxas de transferência, medidas
durante uma semana. (n = 5588, p = 346 períodos de 30min, de
Terça a Terça)
Útil para:
− Entender a natureza do tráfego da Internet.
− Detectar perfis semanais de utilização da Internet.
Transformações: Logaritmizar e centar.
Análise multivariada na caracterização de utilizadores de Internet – p. 28/4
Análise da estrutura do tráfego da Internet
Seja X a matriz dos dados n × p (n = 5588 e p = 346) , que se
decompõe usando a decomposição em valores e vectores singulares:
Análise multivariada na caracterização de utilizadores de Internet – p. 29/4
Análise da estrutura do tráfego da Internet
Seja X a matriz dos dados n × p (n = 5588 e p = 346) , que se
decompõe usando a decomposição em valores e vectores singulares:
X = U ΛV t
Análise multivariada na caracterização de utilizadores de Internet – p. 29/4
Análise da estrutura do tráfego da Internet
Seja X a matriz dos dados n × p (n = 5588 e p = 346) , que se
decompõe usando a decomposição em valores e vectores singulares:
X = U ΛV t
onde:
− U = (u1 , . . . , up ) é uma matriz de dimensão n × p, tendo
em colunas os primeiros p vectores próprios de XX t
Análise multivariada na caracterização de utilizadores de Internet – p. 29/4
Análise da estrutura do tráfego da Internet
Seja X a matriz dos dados n × p (n = 5588 e p = 346) , que se
decompõe usando a decomposição em valores e vectores singulares:
X = U ΛV t
onde:
− U = (u1 , . . . , up ) é uma matriz de dimensão n × p, tendo
em colunas os primeiros p vectores próprios de XX t
− V = (v 1 , . . . , v p ) é uma matriz de dimensão p × p, tendo
em colunas os p vectores próprios de X t X
Análise multivariada na caracterização de utilizadores de Internet – p. 29/4
Análise da estrutura do tráfego da Internet
Seja X a matriz dos dados n × p (n = 5588 e p = 346) , que se
decompõe usando a decomposição em valores e vectores singulares:
X = U ΛV t
onde:
− U = (u1 , . . . , up ) é uma matriz de dimensão n × p, tendo
em colunas os primeiros p vectores próprios de XX t
− V = (v 1 , . . . , v p ) é uma matriz de dimensão p × p, tendo
em colunas os p vectores próprios de X t X
− Λ = diag {λ1 , . . . , λp }, onde λ1 ≥ . . . ≥ λp > 0 são as
raízes quadradas dos primeiros p valores próprios de XX t .
Análise multivariada na caracterização de utilizadores de Internet – p. 29/4
Análise da estrutura do tráfego da Internet
Uma vez que X é centrada V contem os loadings das
componentes principais associadas a S (matriz de
covariâncias amostral).
Análise multivariada na caracterização de utilizadores de Internet – p. 30/4
Análise da estrutura do tráfego da Internet
Uma vez que X é centrada V contem os loadings das
componentes principais associadas a S (matriz de
covariâncias amostral).
O tráfego associado ao i-ésimo utilizador (i-ésima
linha de X) pode escrever-se como uma combinação
linear das colunas de V , que se designa por fluxos
próprios (eigenflows).
Análise multivariada na caracterização de utilizadores de Internet – p. 30/4
Análise da estrutura do tráfego da Internet
Uma vez que X é centrada V contem os loadings das
componentes principais associadas a S (matriz de
covariâncias amostral).
O tráfego associado ao i-ésimo utilizador (i-ésima
linha de X) pode escrever-se como uma combinação
linear das colunas de V , que se designa por fluxos
próprios (eigenflows).
xi = V δ i = δi1 v 1 + . . . + δip v p
Análise multivariada na caracterização de utilizadores de Internet – p. 30/4
Classificação dos fluxos próprios
Cada fluxo próprio é classificado numa de três categorias:
periódicos (d-eigenflows), ruído (n-eigenflows) e picos
(s-eigenflows).
Análise multivariada na caracterização de utilizadores de Internet – p. 31/4
Classificação dos fluxos próprios
Cada fluxo próprio é classificado numa de três categorias:
periódicos (d-eigenflows), ruído (n-eigenflows) e picos
(s-eigenflows).
Análise multivariada na caracterização de utilizadores de Internet – p. 31/4
Classificação dos fluxos próprios
Cada fluxo próprio é classificado numa de três categorias:
periódicos (d-eigenflows), ruído (n-eigenflows) e picos
(s-eigenflows).
Os d-eigenflows são fluxos
próprios cujo periodograma
revela periodicidade, usualmente com picos correspondentes a períodos de 12 ou
24 horas.
Análise multivariada na caracterização de utilizadores de Internet – p. 31/4
Classificação dos fluxos próprios
Um fluxo próprio é classificado como um s-eigenflow
se apresentar pelo menos um “grande” pico, i.e. se pelo
menos um das suas entradas estiver fora do intervalo:
Análise multivariada na caracterização de utilizadores de Internet – p. 32/4
Classificação dos fluxos próprios
0.0
-0.2
-0.4
-0.6
data[, j]
0.2
0.4
Um fluxo próprio é classificado como um s-eigenflow
se apresentar pelo menos um “grande” pico, i.e. se pelo
menos um das suas entradas estiver fora do intervalo:
0
100
200
300
Análise multivariada na caracterização de utilizadores de Internet – p. 32/4
Classificação dos fluxos próprios
0.4
Um fluxo próprio é classificado como um s-eigenflow
se apresentar pelo menos um “grande” pico, i.e. se pelo
menos um das suas entradas estiver fora do intervalo:
-0.2
0.0
6M AD(vj )],
-0.4
onde MAD é um estimador
robusto de dispersão.
-0.6
data[, j]
0.2
[med(vj ) − 6M AD(vj ), med(vj ) +
0
100
200
300
Análise multivariada na caracterização de utilizadores de Internet – p. 32/4
Classificação dos fluxos próprios
Os n-eigenflow são os restantes fluxos próprios, tais que:
Análise multivariada na caracterização de utilizadores de Internet – p. 33/4
Classificação dos fluxos próprios
−0.15
−0.10
−0.05
0.00
0.05
0.10
0.15
Os n-eigenflow são os restantes fluxos próprios, tais que:
−3
−2
−1
0
1
2
3
norm quantiles
Análise multivariada na caracterização de utilizadores de Internet – p. 33/4
Classificação dos fluxos próprios
Os n-eigenflow são os restantes fluxos próprios, tais que:
−0.15
−0.10
−0.05
0.00
0.05
0.10
0.15
(i) Teste de chi-quadrado não
rejeita a hipótese de terem
distribuição normal,
−3
−2
−1
0
norm quantiles
1
2
3
(ii) Rejeitando-se a hipótese
de normalidade não foram
classificados em nenhuma
das categorias anteriores (34
em 346).
Análise multivariada na caracterização de utilizadores de Internet – p. 33/4
Classificação dos fluxos próprios
Da classificação dos fluxos próprios pode concluir-se que:
Análise multivariada na caracterização de utilizadores de Internet – p. 34/4
Classificação dos fluxos próprios
3.0
Da classificação dos fluxos próprios pode concluir-se que:
2.0
2.5
s-eigenflows
1.0
1.5
n-eigenflows
d-eigenflows
0
100
200
300
Eigenflow Index
Análise multivariada na caracterização de utilizadores de Internet – p. 34/4
Classificação dos fluxos próprios
3.0
Da classificação dos fluxos próprios pode concluir-se que:
2.0
2.5
s-eigenflows
1.0
1.5
n-eigenflows
d-eigenflows
0
100
200
Eigenflow Index
300
(i) Primeiros 10 são deigenflows e explicam 52%
da variabilidade total.
(ii) Os últimos 62 são seigenflows e explicam 1%
da variabilidade total.
(iii) 247 fluxos próprios,
classificados
como
neigenflows, explicam 47%
da variabilidade total.
Análise multivariada na caracterização de utilizadores de Internet – p. 34/4
-5
0
5
Classificação dos fluxos próprios
0
100
200
300
200
300
200
300
200
300
-2
0
2
4
(a)
0
100
-6
-2
2
4
(b)
0
100
-0.5
0.0
0.5
(c)
0
100
(d)
Análise multivariada na caracterização de utilizadores de Internet – p. 35/4
-5
0
5
Classificação dos fluxos próprios
0
100
200
300
200
300
200
300
200
300
-2
0
2
4
(a)
0
100
-6
-2
2
4
(b)
0
100
-0.5
0.0
0.5
(c)
Uma vez que o tráfego
associado a cada utilizador,
xi , pode ser escrito como
uma combinação linear de
fluxos próprios, xi (a) pode
ser decomposta em 3 componentes:
0
100
(d)
(b) períodica,
(c) ruído,
(d) picos.
Análise multivariada na caracterização de utilizadores de Internet – p. 35/4
Análise da estrutura do tráfego da Internet
A decomposição sugere que o os padrões de utilização
semanal da Internet comuns aos vários utilizadores são
explicados, essencialmente, pela componente periódica.
Análise multivariada na caracterização de utilizadores de Internet – p. 36/4
Análise da estrutura do tráfego da Internet
A decomposição sugere que o os padrões de utilização
semanal da Internet comuns aos vários utilizadores são
explicados, essencialmente, pela componente periódica.
Para analisar este pressuposto, truncaram-se os vectores resposta à componentes periódica, i.e.
Análise multivariada na caracterização de utilizadores de Internet – p. 36/4
Análise da estrutura do tráfego da Internet
A decomposição sugere que o os padrões de utilização
semanal da Internet comuns aos vários utilizadores são
explicados, essencialmente, pela componente periódica.
Para analisar este pressuposto, truncaram-se os vectores resposta à componentes periódica, i.e.
xtr
i =
10
X
δij v j ,
j=1
Análise multivariada na caracterização de utilizadores de Internet – p. 36/4
Análise da estrutura do tráfego da Internet
A decomposição sugere que o os padrões de utilização
semanal da Internet comuns aos vários utilizadores são
explicados, essencialmente, pela componente periódica.
Para analisar este pressuposto, truncaram-se os vectores resposta à componentes periódica, i.e.
xtr
i =
10
X
δij v j ,
j=1
e fez-se análise de clusters baseada nos vectores resposta completos e truncados.
Análise multivariada na caracterização de utilizadores de Internet – p. 36/4
Análise de Clusters - k=2
Completo
6
6
8 10
8 10
Truncado
0
50
100
150
200
250
300
350
0
50
100
150
250
300
350
200
250
300
350
(a)
6
6
8 10
8 10
(a)
200
0
50
100
150
200
(b)
250
300
350
0
50
100
150
(b)
Análise multivariada na caracterização de utilizadores de Internet – p. 37/4
Análise de Clusters - k=2
Completo
6
6
8 10
8 10
Truncado
0
50
100
150
200
250
300
350
0
50
100
150
250
300
350
200
250
300
350
(a)
6
6
8 10
8 10
(a)
200
0
50
100
150
200
(b)
250
300
350
0
50
100
150
(b)
Taxa de concordância entre as duas partições: 96%
Análise multivariada na caracterização de utilizadores de Internet – p. 37/4
Análise de Clusters - k=2
Completo
6
6
8 10
8 10
Truncado
0
50
100
150
200
250
300
350
0
50
100
150
250
300
350
200
250
300
350
(a)
6
6
8 10
8 10
(a)
200
0
50
100
150
200
250
300
350
0
(b)
50
100
150
(b)
Taxa de concordância entre as duas partições: 96%
− C1 - Taxas de transferência baixas ao longo de todo o dia.
− C2 - Taxas de transferência baixas no início do dia e
elevadas no final do dia e noite.
Análise multivariada na caracterização de utilizadores de Internet – p. 37/4
Análise de Clusters - k=3
0
50
150
250
350
0
50
150
250
350
12
10
8
0
50
(b)
150
250
350
(a)
0
50
150
250
350
(b)
6
6
8
8
10
10
12
12
(a)
6
6
8
8
10
10
12
12
Truncado
6
6
8
10
12
Completo
0
50
150
(c)
250
350
0
50
150
250
350
(c)
Análise multivariada na caracterização de utilizadores de Internet – p. 38/4
Análise de Clusters - k=3
0
50
150
250
350
0
50
150
250
350
12
10
8
0
50
(b)
150
250
350
(a)
0
50
150
250
350
(b)
6
6
8
8
10
10
12
12
(a)
6
6
8
8
10
10
12
12
Truncado
6
6
8
10
12
Completo
0
50
150
(c)
250
350
0
50
150
250
350
(c)
Taxa de concordância entre as duas partições: 82%
Análise multivariada na caracterização de utilizadores de Internet – p. 38/4
Análise de Clusters - k=3
0
50
150
250
350
0
50
150
250
350
12
10
8
0
50
(b)
150
250
350
(a)
0
50
150
250
350
(b)
6
6
8
8
10
10
12
12
(a)
6
6
8
8
10
10
12
12
Truncado
6
6
8
10
12
Completo
0
50
150
250
350
(c)
0
50
150
250
350
(c)
Taxa de concordância entre as duas partições: 82%
− C1 - Taxas de transf. baixas ao longo de todo o dia.
− C2 - Taxas de transf. baixas, mas mais elavadas que C1, especialmente no final do dia.
− C3 - Taxas de transf. baixas no início e muito elevadas no final
do dia.
Análise multivariada na caracterização de utilizadores de Internet – p. 38/4
Análise de Clusters - k=4
250
350
0
50
150
250
350
150
(c)
250
350
14
10
8
150
250
350
50
150
(d)
50
250
350
150
250
350
250
350
14
14
8
6
0
0
(b)
10
14
10
6
50
50
(a)
8
10
8
6
0
0
(b)
14
(a)
10
150
8
50
6
0
6
6
8
8
10
10
14
14
Truncado
6
6
8
10
14
Completo
0
50
150
(c)
250
350
0
50
150
(d)
Análise multivariada na caracterização de utilizadores de Internet – p. 39/4
Análise de Clusters - k=4
250
350
0
50
150
250
350
150
(c)
250
350
14
10
8
150
250
350
50
150
(d)
50
250
350
150
250
350
250
350
14
14
8
6
0
0
(b)
10
14
10
6
50
50
(a)
8
10
8
6
0
0
(b)
14
(a)
10
150
8
50
6
0
6
6
8
8
10
10
14
14
Truncado
6
6
8
10
14
Completo
0
50
150
(c)
250
350
0
50
150
(d)
Taxa de concordância entre as duas partições: 51%
Análise multivariada na caracterização de utilizadores de Internet – p. 39/4
Análise de Clusters - k=4
250
350
0
50
150
250
350
150
(c)
250
350
14
10
8
150
250
350
50
150
50
250
(d)
350
150
250
350
250
350
14
14
8
6
0
0
(b)
10
14
10
6
50
50
(a)
8
10
8
6
0
0
(b)
14
(a)
10
150
8
50
6
0
6
6
8
8
10
10
14
14
Truncado
6
6
8
10
14
Completo
0
50
150
(c)
250
350
0
50
150
(d)
Taxa de concordância entre as duas partições: 51%
− C1 - Taxas de transf. baixas ao longo de todo o dia.
− C2 - Taxas de transf. baixas, mas mais elavadas que C1, especialmente no final do dia.
− C3 - Taxas de transf. baixas no início e elevadas no final do dia.
Análise multivariada na caracterização de utilizadores de Internet – p. 39/4
Análise de Clusters - k=4
250
350
0
50
150
250
350
150
(c)
250
350
14
10
8
150
250
350
50
150
(d)
50
250
350
150
250
350
250
350
14
14
8
6
0
0
(b)
10
14
10
6
50
50
(a)
8
10
8
6
0
0
(b)
14
(a)
10
150
8
50
6
0
6
6
8
8
10
10
14
14
Truncado
6
6
8
10
14
Completo
0
50
150
(c)
250
350
0
50
150
(d)
Análise multivariada na caracterização de utilizadores de Internet – p. 40/4
Análise de Clusters - k=4
250
350
0
50
150
250
350
150
(c)
250
350
14
10
8
150
250
350
50
150
(d)
50
250
350
150
250
350
250
350
14
14
8
6
0
0
(b)
10
14
10
6
50
50
(a)
8
10
8
6
0
0
(b)
14
(a)
10
150
8
50
6
0
6
6
8
8
10
10
14
14
Truncado
6
6
8
10
14
Completo
0
50
150
(c)
250
350
0
50
150
(d)
− C4 - Completo - Taxas muito elevadas ao longo de todo o dia.
Análise multivariada na caracterização de utilizadores de Internet – p. 40/4
Análise de Clusters - k=4
250
350
0
50
150
250
350
150
(c)
250
350
14
10
8
150
250
350
50
150
(d)
50
150
250
350
250
350
250
350
14
14
8
6
0
0
(b)
10
14
10
6
50
50
(a)
8
10
8
6
0
0
(b)
14
(a)
10
150
8
50
6
0
6
6
8
8
10
10
14
14
Truncado
6
6
8
10
14
Completo
0
50
150
250
350
0
50
150
(c)
(d)
− C4 - Completo - Taxas muito elevadas ao longo de todo o dia.
− C4 - Truncado - Provavelmente, empresas uma vez que os seus
utilizadores se caracterizam por taxas baixas durante o fim-de-semana
e noite e elevadas durante as horas de expediente.
Análise multivariada na caracterização de utilizadores de Internet – p. 40/4
Conclusões II
• Cada vector resposta, associado a um utilizador, foi decomposto em
3 componentes: periódica, ruído e picos.
Análise multivariada na caracterização de utilizadores de Internet – p. 41/4
Conclusões II
• Cada vector resposta, associado a um utilizador, foi decomposto em
3 componentes: periódica, ruído e picos.
• Os fluxos próprios associados à componente periódica, ruído
e picos explicam 52%, 47% e 1%, respectivamente.
Análise multivariada na caracterização de utilizadores de Internet – p. 41/4
Conclusões II
• Cada vector resposta, associado a um utilizador, foi decomposto em
3 componentes: periódica, ruído e picos.
• Os fluxos próprios associados à componente periódica, ruído
e picos explicam 52%, 47% e 1%, respectivamente.
• Os dados truncados (considerando apenas a componente
periódica) foram usados para detectar perfis semanais de utilização da
Internet.
Análise multivariada na caracterização de utilizadores de Internet – p. 41/4
Conclusões II
• Cada vector resposta, associado a um utilizador, foi decomposto em
3 componentes: periódica, ruído e picos.
• Os fluxos próprios associados à componente periódica, ruído
e picos explicam 52%, 47% e 1%, respectivamente.
• Os dados truncados (considerando apenas a componente
periódica) foram usados para detectar perfis semanais de utilização da
Internet.
• Os perfis detectados são
componente periódica.
essencialmente
explicados
pela
Análise multivariada na caracterização de utilizadores de Internet – p. 41/4
Conclusões II
• A partição obtida à custa dos dados truncados é caracterizada
por valores mais elevados de average silhouette, o que indica uma
estrutura em clusters mais vincada.
Análise multivariada na caracterização de utilizadores de Internet – p. 42/4
Conclusões II
• A partição obtida à custa dos dados truncados é caracterizada
por valores mais elevados de average silhouette, o que indica uma
estrutura em clusters mais vincada.
• Só se encontram discrepâncias assinaláveis entre as partições obtidas a partir dos dados completos e truncados quando se
consideram 4 clusters.
Análise multivariada na caracterização de utilizadores de Internet – p. 42/4
Conclusões II
• A partição obtida à custa dos dados truncados é caracterizada
por valores mais elevados de average silhouette, o que indica uma
estrutura em clusters mais vincada.
• Só se encontram discrepâncias assinaláveis entre as partições obtidas a partir dos dados completos e truncados quando se
consideram 4 clusters.
• Os dados truncados revelam um agrupamento dos utilizadores
(empresas) que não é detectado pelos dados completos.
Análise multivariada na caracterização de utilizadores de Internet – p. 42/4
Conclusões II
• A partição obtida à custa dos dados truncados é caracterizada
por valores mais elevados de average silhouette, o que indica uma
estrutura em clusters mais vincada.
• Só se encontram discrepâncias assinaláveis entre as partições obtidas a partir dos dados completos e truncados quando se
consideram 4 clusters.
• Os dados truncados revelam um agrupamento dos utilizadores
(empresas) que não é detectado pelos dados completos.
• Entender a estrutura do tráfego da Internet é importante para
várias actividades de engenharia de tráfego e ainda para definir
políticas adequadas de tarifação.
Análise multivariada na caracterização de utilizadores de Internet – p. 42/4

Documentos relacionados