Análise multivariada na caracterização de utilizadores de
Transcrição
Análise multivariada na caracterização de utilizadores de
Análise multivariada na caracterização de utilizadores de Internet M. Rosário de Oliveira ∗ Technical University of Lisbon - UTL / Department of Mathematics and CEMAT [email protected] Encontro SPE/CIM com a colaboração do INE em Probabilidades e Estatı́stica em Telecomunicações Coimbra, 19 Maio 2007 Análise multivariada na caracterização de utilizadores de Internet – p. 1/4 Sumário 1. Perfis dos utilizadores da Internet Análise multivariada na caracterização de utilizadores de Internet – p. 2/4 Sumário 1. Perfis dos utilizadores da Internet 1.1 Descrição do problema Análise multivariada na caracterização de utilizadores de Internet – p. 2/4 Sumário 1. Perfis dos utilizadores da Internet 1.1 Descrição do problema 1.2 Análise em Componentes Principais Análise multivariada na caracterização de utilizadores de Internet – p. 2/4 Sumário 1. Perfis dos utilizadores da Internet 1.1 Descrição do problema 1.2 Análise em Componentes Principais 1.3 Análise de clusters Análise multivariada na caracterização de utilizadores de Internet – p. 2/4 Sumário 1. Perfis dos utilizadores da Internet 1.1 Descrição do problema 1.2 Análise em Componentes Principais 1.3 Análise de clusters 1.4 Validação Análise multivariada na caracterização de utilizadores de Internet – p. 2/4 Sumário 1. Perfis dos utilizadores da Internet 1.1 Descrição do problema 1.2 Análise em Componentes Principais 1.3 Análise de clusters 1.4 Validação 1.5 Caractarização dos clusters Análise multivariada na caracterização de utilizadores de Internet – p. 2/4 Sumário 1. Perfis dos utilizadores da Internet 1.1 Descrição do problema 1.2 Análise em Componentes Principais 1.3 Análise de clusters 1.4 Validação 1.5 Caractarização dos clusters 1.6 Conclusões I Análise multivariada na caracterização de utilizadores de Internet – p. 2/4 Sumário 1. Perfis dos utilizadores da Internet 1.1 Descrição do problema 1.2 Análise em Componentes Principais 1.3 Análise de clusters 1.4 Validação 1.5 Caractarização dos clusters 1.6 Conclusões I 2. Análise da estrutura do tráfego da Internet Análise multivariada na caracterização de utilizadores de Internet – p. 2/4 Sumário 1. Perfis dos utilizadores da Internet 1.1 Descrição do problema 1.2 Análise em Componentes Principais 1.3 Análise de clusters 1.4 Validação 1.5 Caractarização dos clusters 1.6 Conclusões I 2. Análise da estrutura do tráfego da Internet 2.1 Descrição do problema Análise multivariada na caracterização de utilizadores de Internet – p. 2/4 Sumário 1. Perfis dos utilizadores da Internet 1.1 Descrição do problema 1.2 Análise em Componentes Principais 1.3 Análise de clusters 1.4 Validação 1.5 Caractarização dos clusters 1.6 Conclusões I 2. Análise da estrutura do tráfego da Internet 2.1 Descrição do problema 2.2 Classificação dos fluxos próprios Análise multivariada na caracterização de utilizadores de Internet – p. 2/4 Sumário 1. Perfis dos utilizadores da Internet 1.1 Descrição do problema 1.2 Análise em Componentes Principais 1.3 Análise de clusters 1.4 Validação 1.5 Caractarização dos clusters 1.6 Conclusões I 2. Análise da estrutura do tráfego da Internet 2.1 Descrição do problema 2.2 Classificação dos fluxos próprios 2.3 Análise de clusters Análise multivariada na caracterização de utilizadores de Internet – p. 2/4 Sumário 1. Perfis dos utilizadores da Internet 1.1 Descrição do problema 1.2 Análise em Componentes Principais 1.3 Análise de clusters 1.4 Validação 1.5 Caractarização dos clusters 1.6 Conclusões I 2. Análise da estrutura do tráfego da Internet 2.1 Descrição do problema 2.2 Classificação dos fluxos próprios 2.3 Análise de clusters 2.4 Conclusões II Análise multivariada na caracterização de utilizadores de Internet – p. 2/4 1. Descrição do problema Objectivo: Análise multivariada na caracterização de utilizadores de Internet – p. 3/4 1. Descrição do problema Objectivo: Encontrar grupos de indivíduos com perfis de utilização da Internet semelhante. O que permite: Análise multivariada na caracterização de utilizadores de Internet – p. 3/4 1. Descrição do problema Objectivo: Encontrar grupos de indivíduos com perfis de utilização da Internet semelhante. O que permite: • Fornecer serviços diferenciados de acordo com o comportamento horário dos utilizadores. Análise multivariada na caracterização de utilizadores de Internet – p. 3/4 1. Descrição do problema Objectivo: Encontrar grupos de indivíduos com perfis de utilização da Internet semelhante. O que permite: • Fornecer serviços diferenciados de acordo com o comportamento horário dos utilizadores. • Optimizar recursos. Análise multivariada na caracterização de utilizadores de Internet – p. 3/4 1. Descrição do problema Objectivo: Encontrar grupos de indivíduos com perfis de utilização da Internet semelhante. O que permite: • Fornecer serviços diferenciados de acordo com o comportamento horário dos utilizadores. • Optimizar recursos. • Propor sistemas tarifários que promovam o uso do Internet a horas de menos tráfego. Análise multivariada na caracterização de utilizadores de Internet – p. 3/4 1. Descrição do problema (cont.) Analisaram-se dados recolhidos em dois ISPs portugueses distintos. Análise multivariada na caracterização de utilizadores de Internet – p. 4/4 1. Descrição do problema (cont.) Analisaram-se dados recolhidos em dois ISPs portugueses distintos. Ambos os ISPs oferecem diferentes tipos de contratos, caracterizados por diferentes valores máximos da taxa de transferência no sentido downstream/upstream (em Kbits/s) Análise multivariada na caracterização de utilizadores de Internet – p. 4/4 1. Descrição do problema (cont.) Analisaram-se dados recolhidos em dois ISPs portugueses distintos. Ambos os ISPs oferecem diferentes tipos de contratos, caracterizados por diferentes valores máximos da taxa de transferência no sentido downstream/upstream (em Kbits/s) − ISP1: 128/64, 256/128 e 512/256. Análise multivariada na caracterização de utilizadores de Internet – p. 4/4 1. Descrição do problema (cont.) Analisaram-se dados recolhidos em dois ISPs portugueses distintos. Ambos os ISPs oferecem diferentes tipos de contratos, caracterizados por diferentes valores máximos da taxa de transferência no sentido downstream/upstream (em Kbits/s) − ISP1: 128/64, 256/128 e 512/256. − ISP2: 512/128 e 1024/256. Análise multivariada na caracterização de utilizadores de Internet – p. 4/4 1. Descrição do problema (cont.) Análise multivariada na caracterização de utilizadores de Internet – p. 5/4 1. Descrição do problema (cont.) Variáveis: Análise multivariada na caracterização de utilizadores de Internet – p. 5/4 1. Descrição do problema (cont.) Variáveis: Taxa de transferência em Kbit/s, no sentido downstream, calculada em intervalos de 30 minutos, durante um Sábado. Análise multivariada na caracterização de utilizadores de Internet – p. 5/4 1. Descrição do problema (cont.) Variáveis: Taxa de transferência em Kbit/s, no sentido downstream, calculada em intervalos de 30 minutos, durante um Sábado. (X 1 , . . . , X 48 ), Análise multivariada na caracterização de utilizadores de Internet – p. 5/4 1. Descrição do problema (cont.) Variáveis: Taxa de transferência em Kbit/s, no sentido downstream, calculada em intervalos de 30 minutos, durante um Sábado. (X 1 , . . . , X 48 ), onde X i representa taxa de transferência na i-ésima meia hora do Sábado em estudo. Análise multivariada na caracterização de utilizadores de Internet – p. 5/4 1. Descrição do problema (cont.) Observações: Análise multivariada na caracterização de utilizadores de Internet – p. 6/4 1. Descrição do problema (cont.) Observações: Dois conjuntos de dados Análise multivariada na caracterização de utilizadores de Internet – p. 6/4 1. Descrição do problema (cont.) Observações: Dois conjuntos de dados ISP1 (CATV) and ISP2 (ADSL) Análise multivariada na caracterização de utilizadores de Internet – p. 6/4 1. Descrição do problema (cont.) Observações: Dois conjuntos de dados ISP1 (CATV) and ISP2 (ADSL) ISP1 ISP2 Nov. 9, 2002 Out. 19, 2002 No clientes 3432 875 Downloaded MBytes por cliente 85.6 489 No fluxos por utilizador 1.80 1.75 Duração fluxos (horas) 4.9 8.6 Taxa média de débito (Kbits/sec) 23.9 81.1 Data captura Análise multivariada na caracterização de utilizadores de Internet – p. 6/4 1. Descrição do problema (cont.) As aplicações identificadas foram agrupadas do seguinte modo: Análise multivariada na caracterização de utilizadores de Internet – p. 7/4 1. Descrição do problema (cont.) As aplicações identificadas foram agrupadas do seguinte modo: • File sharing: Kazaa (TCP 1214), eDonkey2000 (TCP 4662), direct connect (TCP 412, 1412), WinMX (TCP 6699) e FTP (TCP 20, 21). • HTTP: HTTP (80) e secure HTTP (443). • Games: Operation FlashPoint (TCP 2234), Medal of Honor (UDP 12203), Half-Life (UDP 27005) e todo o tráfego associado a Game Connection Port (TCP 2346). • IRC/news: IRC traffic (TCP 1025, 1026) e Newsgroups access (TCP 119). • Mail: POP3 mail access (TCP 110). • Streaming: MS-Streaming (TCP 1755) e RealPlayer (UDP 6970). • Others: outras aplicações e tráfego não identificado. Análise multivariada na caracterização de utilizadores de Internet – p. 7/4 1. Descrição do problema (cont.) Total download flow transfer rate Análise multivariada na caracterização de utilizadores de Internet – p. 8/4 2. Análise em componentes principais Os dados sugerem que à medida que a taxa média de transferência diária aumenta a variabilidade entre o que acontece de manhã e à tarde também aumenta. Análise multivariada na caracterização de utilizadores de Internet – p. 9/4 2. Análise em componentes principais Os dados sugerem que à medida que a taxa média de transferência diária aumenta a variabilidade entre o que acontece de manhã e à tarde também aumenta. Para estabilizar esta variabilidade considera-se a tranformação: Análise multivariada na caracterização de utilizadores de Internet – p. 9/4 2. Análise em componentes principais Os dados sugerem que à medida que a taxa média de transferência diária aumenta a variabilidade entre o que acontece de manhã e à tarde também aumenta. Para estabilizar esta variabilidade considera-se a tranformação: Yi = ln (1 + Xi ) Análise multivariada na caracterização de utilizadores de Internet – p. 9/4 2. Análise em componentes principais Com o intuito de visualizar os dados construiram-se componentes principais, Análise multivariada na caracterização de utilizadores de Internet – p. 10/4 2. Análise em componentes principais Com o intuito de visualizar os dados construiram-se componentes principais, CPi = αi1 Y1 + . . . + αi,48 Y48 , Análise multivariada na caracterização de utilizadores de Internet – p. 10/4 2. Análise em componentes principais Com o intuito de visualizar os dados construiram-se componentes principais, CPi = αi1 Y1 + . . . + αi,48 Y48 , i.e., projectaram-se as observações nas duas dimensões, ortogonais, que maximizam a variabilidade observada. Análise multivariada na caracterização de utilizadores de Internet – p. 10/4 2. Análise em componentes principais Com o intuito de visualizar os dados construiram-se componentes principais, CPi = αi1 Y1 + . . . + αi,48 Y48 , i.e., projectaram-se as observações nas duas dimensões, ortogonais, que maximizam a variabilidade observada. As duas primeiras componentes principais explicam: ISP1 − 50.6% da variabilidade total do ISP1 ISP2 − 60.4% da variabilidade total do ISP2 Análise multivariada na caracterização de utilizadores de Internet – p. 10/4 2. Análise em componentes principais (cont.) Análise multivariada na caracterização de utilizadores de Internet – p. 11/4 2. Análise em componentes principais (cont.) Interpretação: CP1 − Média ponderada das taxas de transf. ao longo do di CP2 − Contraste entre o taxas de transf. de manhã e de tar Análise multivariada na caracterização de utilizadores de Internet – p. 11/4 2. Análise em componentes principais (cont.) Cada utilizador pode ser representado nestes novos eixos de coordenadas: Análise multivariada na caracterização de utilizadores de Internet – p. 12/4 2. Análise em componentes principais (cont.) Cada utilizador pode ser representado nestes novos eixos de coordenadas: ISP2 20 ISP1 0 10 20 CP1 30 10 * -10 * 0 * -20 * *** ****** **** * ** * * * * * * * ****************** *************** * * * * * * ** **** ** * *** * * * * ******************************************************* * * * * * ** * * ******** *************** **** ** ***** * * * * ** ***************************** ********* ***** ** ****** * ***** ** ** * * * * * * * * * * * *************************************************** **** ***** **** ***** ** * *** * **** ** * * * * * * * * * * * * * * ** * ******* ****** ** * ***** * * * ******************************************** ******** ** ********************************************************************* ** ** * * * ** * * * * **** * *********** ***** *** * * * * ******* * ** ****** ** * ** * * ** ** * * ** * * * * ** ** ** * ** ** * * * ** * CP2 10 0 -10 CP2 20 * 40 * * *** * *** * * * * * * * * * ******* * **** ** * * * ************** ******** *** ** ** * * * **** * * * * * * * * * * * * * * * * * * * * ** * * *** **** * * ********************************** ***** * **** * *********** * * * * ******************* ***** *** *** ** * * ** * ** ** * * * * * ********************************************** *** ** * *** ** *** * *** *** ********* *** * * *** ** ****** * * * * * * * * * ** * ********************************************* ************* *** * * * * *** ***** * ** ** ** *** * ******************* * * ** * ** ** ** * * * ******* *********** * * * * ** ** ** * * ***** * * * * ******** **** * ** *** *** * * *** ** ** * ** * * * * * *** ** * ** * * * * * * * ** * ** * * ** * * * * * * ** * * 0 10 20 30 40 CP1 Análise multivariada na caracterização de utilizadores de Internet – p. 12/4 3. Análise de clusters Objectivo: Análise multivariada na caracterização de utilizadores de Internet – p. 13/4 3. Análise de clusters Objectivo: Encontrar grupos de indivíduos semelhantes, i.e., grupos de indivíduos com um padrão de utilização da Internet ao longo do dia (Sábado) semelhante. Análise multivariada na caracterização de utilizadores de Internet – p. 13/4 3. Análise de clusters Objectivo: Encontrar grupos de indivíduos semelhantes, i.e., grupos de indivíduos com um padrão de utilização da Internet ao longo do dia (Sábado) semelhante. Consideraram-se dois métodos para formar clusters: Análise multivariada na caracterização de utilizadores de Internet – p. 13/4 3. Análise de clusters Objectivo: Encontrar grupos de indivíduos semelhantes, i.e., grupos de indivíduos com um padrão de utilização da Internet ao longo do dia (Sábado) semelhante. Consideraram-se dois métodos para formar clusters: 1. Aglomerativo: À partida, cada indíviduo é um cluster. O método vai agrupando clusters até obter um único grupo contendo todos os indivíduos. Análise multivariada na caracterização de utilizadores de Internet – p. 13/4 3. Análise de clusters Objectivo: Encontrar grupos de indivíduos semelhantes, i.e., grupos de indivíduos com um padrão de utilização da Internet ao longo do dia (Sábado) semelhante. Consideraram-se dois métodos para formar clusters: 1. Aglomerativo: À partida, cada indíviduo é um cluster. O método vai agrupando clusters até obter um único grupo contendo todos os indivíduos. As medições tem natureza contínua logo a medida de proximidade escolhida é a distância euclidiana. Análise multivariada na caracterização de utilizadores de Internet – p. 13/4 3. Análise de clusters Objectivo: Encontrar grupos de indivíduos semelhantes, i.e., grupos de indivíduos com um padrão de utilização da Internet ao longo do dia (Sábado) semelhante. Consideraram-se dois métodos para formar clusters: 1. Aglomerativo: À partida, cada indíviduo é um cluster. O método vai agrupando clusters até obter um único grupo contendo todos os indivíduos. As medições tem natureza contínua logo a medida de proximidade escolhida é a distância euclidiana. O critério de formação de clusters foi método Ward (incremental sums of squares measure). Análise multivariada na caracterização de utilizadores de Internet – p. 13/4 Height 50 150 250 ISP1 V1 V458 V47 V23 V215 V921 V44 V195 V478 V212 V550 V66 V672 V172 V474 V807 V20 V867 V329 V674 V31 V767 V154 V695 V355 V943 V156 V171 V835 V645 V659 V707 V381 V55 V289 V932 V496 V244 V393 V151 V315 V361 V298 V307 V560 V601 V877 V4 V220 V472 V19 V394 V468 V14 V224 V718 V350 V608 V36 V45 V225 V738 V401 V812 V940 V5 V37 V902 V426 V972 V746 V234 V481 V697 V569 V731 V365 V649 V449 V958 V575 V48 V398 V111 V842 V130 V540 V291 V567 V658 V139 V318 V745 V599 V132 V622 V8 V115 V276 V955 V346 V204 V297 V687 V906 V207 V819 V928 V251 V886 V759 V813 V851 V21 V413 V146 V377 V951 V866 V954 V40 V698 V897 V913 V965 V57 V502 V610 V467 V625 V673 V863 V395 V102 V264 V288 V995 V632 V821 V766 V239 V337 V768 V282 V557 V155 V874 V265 V511 V181 V626 V254 V554 V997 V185 V711 V987 V727 V311 V416 V446 V751 V894 V639 V71 V447 V737 V676 V267 V638 V547 V562 V283 V585 V640 V301 V716 V50 V887 V364 V983 V492 V497 V683 V103 V637 V770 V539 V515 V815 V962 V148 V773 V784 V176 V326 V387 V217 V302 V324 V647 V374 V739 V903 V506 V776 V631 V512 V917 V25 V826 V648 V269 V942 V841 V116 V545 V141 V817 V598 V801 V128 V858 V129 V756 V385 V114 V421 V216 V720 V341 V441 V161 V536 V425 V275 V883 V630 V923 V32 V63 V253 V549 V519 V54 V287 V945 V65 V85 V611 V914 V369 V182 V348 V231 V884 V278 V760 V356 V396 V736 V27 V51 V271 V494 V551 V371 V710 V137 V454 V126 V818 V277 V200 V934 V486 V131 V285 V910 V495 V373 V561 V998 V755 V70 V621 V86 V213 V438 V524 V590 V761 V595 V79 V794 V405 V752 V603 V108 V929 V309 V904 V193 V263 V508 V656 V726 V53 V949 V77 V690 V325 V953 V529 V459 V209 V299 V136 V319 V662 V614 V452 V612 V930 V925 V471 V880 V717 V859 V190 V939 V412 V577 V777 V844 V431 V935 V334 V402 V918 V563 V796 V388 V518 V651 V433 V827 V905 V11 V323 V189 V49 V241 V199 V679 V219 V757 V122 V321 V340 V555 V61 V379 V911 V615 V729 V580 V686 V286 V771 V382 V723 V526 V593 V832 V16 V699 V709 V358 V505 V384 V605 V823 V90 V466 V252 V451 V41 V164 V499 V938 V76 V351 V257 V732 V654 V163 V352 V184 V964 V989 V642 V803 V990 V873 V168 V422 V493 V491 V406 V583 V245 V339 V403 V838 V444 V430 V553 V636 V24 V814 V669 V741 V270 V892 V310 V869 V91 V848 V489 V994 V98 V781 V680 V714 V782 V678 V78 V541 V222 V485 V616 V800 V58 V345 V552 V187 V510 V503 V778 V417 V602 V927 V528 V153 V988 V703 V747 V762 V981 V419 V849 V700 V6 V591 V724 V871 V534 V916 V46 V432 V117 V617 V67 V140 V330 V498 V22 V165 V74 V363 V400 V798 V124 V249 V907 V982 V570 V754 V893 V587 V721 V730 V29 V715 V753 V462 V808 V167 V378 V946 V175 V484 V634 V196 V963 V993 V15 V704 V900 V280 V743 V149 V824 V456 V742 V846 V26 V191 V856 V789 V235 V443 V535 V97 V349 V418 V211 V999 V268 V281 V597 V685 V728 V138 V806 V931 V87 V749 V847 V120 V121 V527 V772 V440 V455 V316 V99 V262 V655 V684 V246 V775 V335 V516 V802 V436 V107 V586 V533 V924 V787 V750 V370 V490 V9 V774 V274 V809 V465 V300 V860 V353 V667 V42 V793 V150 V693 V343 V159 V584 V237 V582 V380 V701 V296 V839 V408 V872 V643 V820 V722 V852 V861 V228 V427 V390 V868 V295 V544 V457 V588 V568 V17 V59 V594 V208 V712 V469 V764 V845 V973 V504 V581 V941 V39 V909 V956 V895 V992 V64 V463 V537 V619 V692 V206 V229 V514 V10 V865 V830 V854 V578 V984 V100 V628 V633 V936 V242 V322 V792 V158 V477 V735 V409 V834 V106 V922 V357 V620 V429 V885 V507 V799 V123 V565 V952 V238 V937 V579 V391 V822 V410 V653 V170 V197 V375 V243 V607 V312 V719 V980 V81 V668 V948 V367 V113 V790 V344 V434 V284 V979 V202 V713 V313 V423 V878 V256 V783 V435 V644 V641 V218 V513 V259 V996 V437 V881 V104 V609 V660 V785 V118 V733 V870 V261 V255 V898 V272 V12 V179 V160 V88 V804 V360 V428 V13 V308 V500 V162 V501 V192 V708 V971 V453 V260 V488 V414 V666 V947 V52 V780 V290 V476 V986 V681 V133 V68 V589 V69 V475 V661 V73 V543 V386 V531 V407 V765 V624 V797 V72 V571 V1000 V201 V214 V82 V177 V227 V89 V975 V522 V93 V320 V445 V240 V188 V694 V304 V689 V152 V174 V912 V470 V836 V198 V740 V862 V480 V576 V30 V816 V763 V483 V564 V80 V112 V366 V127 V920 V450 V94 V442 V95 V521 V520 V843 V919 V180 V538 V908 V183 V646 V970 V338 V439 V665 V56 V828 V250 V635 V125 V950 V230 V134 V974 V677 V464 V688 V558 V769 V487 V702 V734 V142 V532 V109 V389 V232 V306 V629 V399 V525 V523 V546 V960 V376 V850 V530 V650 V744 V448 V596 V977 V2 V35 V706 V342 V889 V691 V332 V613 V786 V110 V147 V548 V247 V795 V3 V119 V572 V657 V60 V101 V682 V985 V825 V294 V879 V194 V203 V327 V888 V226 V664 V33 V833 V460 V696 V805 V876 V135 V623 V675 V266 V303 V991 V779 V84 V166 V705 V336 V882 V169 V899 V186 V354 V517 V96 V652 V606 V157 V331 V144 V969 V509 V957 V933 V875 V317 V328 V670 V479 V205 V424 V788 V461 V473 V663 V397 V482 V7 V333 V566 V404 V542 V233 V966 V758 V855 V961 V28 V559 V810 V915 V864 V92 V105 V83 V236 V837 V258 V359 V420 V143 V573 V372 V959 V725 V901 V811 V178 V362 V145 V592 V305 V853 V292 V968 V368 V618 V221 V896 V273 V347 V944 V279 V293 V18 V248 V75 V604 V627 V223 V978 V831 V926 V791 V890 V210 V574 V556 V829 V34 V314 V748 V967 V43 V600 V62 V411 V392 V38 V857 V383 V173 V671 V840 V415 V976 V891 Height 0 150 250 ISP2 Análise multivariada na caracterização de utilizadores de Internet – p. 14/4 V1 V458 V47 V23 V215 V921 V44 V195 V478 V212 V550 V66 V672 V172 V474 V807 V20 V867 V329 V674 V31 V767 V154 V695 V355 V943 V156 V171 V835 V645 V659 V707 V381 V55 V289 V932 V496 V244 V393 V151 V315 V361 V298 V307 V560 V601 V877 V4 V220 V472 V19 V394 V468 V14 V224 V718 V350 V608 V36 V45 V225 V738 V401 V812 V940 V5 V37 V902 V426 V972 V746 V234 V481 V697 V569 V731 V365 V649 V449 V958 V575 V48 V398 V111 V842 V130 V540 V291 V567 V658 V139 V318 V745 V599 V132 V622 V8 V115 V276 V955 V346 V204 V297 V687 V906 V207 V819 V928 V251 V886 V759 V813 V851 V21 V413 V146 V377 V951 V866 V954 V40 V698 V897 V913 V965 V57 V502 V610 V467 V625 V673 V863 V395 V102 V264 V288 V995 V632 V821 V766 V239 V337 V768 V282 V557 V155 V874 V265 V511 V181 V626 V254 V554 V997 V185 V711 V987 V727 V311 V416 V446 V751 V894 V639 V71 V447 V737 V676 V267 V638 V547 V562 V283 V585 V640 V301 V716 V50 V887 V364 V983 V492 V497 V683 V103 V637 V770 V539 V515 V815 V962 V148 V773 V784 V176 V326 V387 V217 V302 V324 V647 V374 V739 V903 V506 V776 V631 V512 V917 V25 V826 V648 V269 V942 V841 V116 V545 V141 V817 V598 V801 V128 V858 V129 V756 V385 V114 V421 V216 V720 V341 V441 V161 V536 V425 V275 V883 V630 V923 V32 V63 V253 V549 V519 V54 V287 V945 V65 V85 V611 V914 V369 V182 V348 V231 V884 V278 V760 V356 V396 V736 V27 V51 V271 V494 V551 V371 V710 V137 V454 V126 V818 V277 V200 V934 V486 V131 V285 V910 V495 V373 V561 V998 V755 V70 V621 V86 V213 V438 V524 V590 V761 V595 V79 V794 V405 V752 V603 V108 V929 V309 V904 V193 V263 V508 V656 V726 V53 V949 V77 V690 V325 V953 V529 V459 V209 V299 V136 V319 V662 V614 V452 V612 V930 V925 V471 V880 V717 V859 V190 V939 V412 V577 V777 V844 V431 V935 V334 V402 V918 V563 V796 V388 V518 V651 V433 V827 V905 V11 V323 V189 V49 V241 V199 V679 V219 V757 V122 V321 V340 V555 V61 V379 V911 V615 V729 V580 V686 V286 V771 V382 V723 V526 V593 V832 V16 V699 V709 V358 V505 V384 V605 V823 V90 V466 V252 V451 V41 V164 V499 V938 V76 V351 V257 V732 V654 V163 V352 V184 V964 V989 V642 V803 V990 V873 V168 V422 V493 V491 V406 V583 V245 V339 V403 V838 V444 V430 V553 V636 V24 V814 V669 V741 V270 V892 V310 V869 V91 V848 V489 V994 V98 V781 V680 V714 V782 V678 V78 V541 V222 V485 V616 V800 V58 V345 V552 V187 V510 V503 V778 V417 V602 V927 V528 V153 V988 V703 V747 V762 V981 V419 V849 V700 V6 V591 V724 V871 V534 V916 V46 V432 V117 V617 V67 V140 V330 V498 V22 V165 V74 V363 V400 V798 V124 V249 V907 V982 V570 V754 V893 V587 V721 V730 V29 V715 V753 V462 V808 V167 V378 V946 V175 V484 V634 V196 V963 V993 V15 V704 V900 V280 V743 V149 V824 V456 V742 V846 V26 V191 V856 V789 V235 V443 V535 V97 V349 V418 V211 V999 V268 V281 V597 V685 V728 V138 V806 V931 V87 V749 V847 V120 V121 V527 V772 V440 V455 V316 V99 V262 V655 V684 V246 V775 V335 V516 V802 V436 V107 V586 V533 V924 V787 V750 V370 V490 V9 V774 V274 V809 V465 V300 V860 V353 V667 V42 V793 V150 V693 V343 V159 V584 V237 V582 V380 V701 V296 V839 V408 V872 V643 V820 V722 V852 V861 V228 V427 V390 V868 V295 V544 V457 V588 V568 V17 V59 V594 V208 V712 V469 V764 V845 V973 V504 V581 V941 V39 V909 V956 V895 V992 V64 V463 V537 V619 V692 V206 V229 V514 V10 V865 V830 V854 V578 V984 V100 V628 V633 V936 V242 V322 V792 V158 V477 V735 V409 V834 V106 V922 V357 V620 V429 V885 V507 V799 V123 V565 V952 V238 V937 V579 V391 V822 V410 V653 V170 V197 V375 V243 V607 V312 V719 V980 V81 V668 V948 V367 V113 V790 V344 V434 V284 V979 V202 V713 V313 V423 V878 V256 V783 V435 V644 V641 V218 V513 V259 V996 V437 V881 V104 V609 V660 V785 V118 V733 V870 V261 V255 V898 V272 V12 V179 V160 V88 V804 V360 V428 V13 V308 V500 V162 V501 V192 V708 V971 V453 V260 V488 V414 V666 V947 V52 V780 V290 V476 V986 V681 V133 V68 V589 V69 V475 V661 V73 V543 V386 V531 V407 V765 V624 V797 V72 V571 V1000 V201 V214 V82 V177 V227 V89 V975 V522 V93 V320 V445 V240 V188 V694 V304 V689 V152 V174 V912 V470 V836 V198 V740 V862 V480 V576 V30 V816 V763 V483 V564 V80 V112 V366 V127 V920 V450 V94 V442 V95 V521 V520 V843 V919 V180 V538 V908 V183 V646 V970 V338 V439 V665 V56 V828 V250 V635 V125 V950 V230 V134 V974 V677 V464 V688 V558 V769 V487 V702 V734 V142 V532 V109 V389 V232 V306 V629 V399 V525 V523 V546 V960 V376 V850 V530 V650 V744 V448 V596 V977 V2 V35 V706 V342 V889 V691 V332 V613 V786 V110 V147 V548 V247 V795 V3 V119 V572 V657 V60 V101 V682 V985 V825 V294 V879 V194 V203 V327 V888 V226 V664 V33 V833 V460 V696 V805 V876 V135 V623 V675 V266 V303 V991 V779 V84 V166 V705 V336 V882 V169 V899 V186 V354 V517 V96 V652 V606 V157 V331 V144 V969 V509 V957 V933 V875 V317 V328 V670 V479 V205 V424 V788 V461 V473 V663 V397 V482 V7 V333 V566 V404 V542 V233 V966 V758 V855 V961 V28 V559 V810 V915 V864 V92 V105 V83 V236 V837 V258 V359 V420 V143 V573 V372 V959 V725 V901 V811 V178 V362 V145 V592 V305 V853 V292 V968 V368 V618 V221 V896 V273 V347 V944 V279 V293 V18 V248 V75 V604 V627 V223 V978 V831 V926 V791 V890 V210 V574 V556 V829 V34 V314 V748 V967 V43 V600 V62 V411 V392 V38 V857 V383 V173 V671 V840 V415 V976 V891 50 3. Análise de clusters - Dendogramas (cont.) 0 Height 50 150 250 ISP1 V1 V458 V47 V23 V215 V921 V44 V195 V478 V212 V550 V66 V672 V172 V474 V807 V20 V867 V329 V674 V31 V767 V154 V695 V355 V943 V156 V171 V835 V645 V659 V707 V381 V55 V289 V932 V496 V244 V393 V151 V315 V361 V298 V307 V560 V601 V877 V4 V220 V472 V19 V394 V468 V14 V224 V718 V350 V608 V36 V45 V225 V738 V401 V812 V940 V5 V37 V902 V426 V972 V746 V234 V481 V697 V569 V731 V365 V649 V449 V958 V575 V48 V398 V111 V842 V130 V540 V291 V567 V658 V139 V318 V745 V599 V132 V622 V8 V115 V276 V955 V346 V204 V297 V687 V906 V207 V819 V928 V251 V886 V759 V813 V851 V21 V413 V146 V377 V951 V866 V954 V40 V698 V897 V913 V965 V57 V502 V610 V467 V625 V673 V863 V395 V102 V264 V288 V995 V632 V821 V766 V239 V337 V768 V282 V557 V155 V874 V265 V511 V181 V626 V254 V554 V997 V185 V711 V987 V727 V311 V416 V446 V751 V894 V639 V71 V447 V737 V676 V267 V638 V547 V562 V283 V585 V640 V301 V716 V50 V887 V364 V983 V492 V497 V683 V103 V637 V770 V539 V515 V815 V962 V148 V773 V784 V176 V326 V387 V217 V302 V324 V647 V374 V739 V903 V506 V776 V631 V512 V917 V25 V826 V648 V269 V942 V841 V116 V545 V141 V817 V598 V801 V128 V858 V129 V756 V385 V114 V421 V216 V720 V341 V441 V161 V536 V425 V275 V883 V630 V923 V32 V63 V253 V549 V519 V54 V287 V945 V65 V85 V611 V914 V369 V182 V348 V231 V884 V278 V760 V356 V396 V736 V27 V51 V271 V494 V551 V371 V710 V137 V454 V126 V818 V277 V200 V934 V486 V131 V285 V910 V495 V373 V561 V998 V755 V70 V621 V86 V213 V438 V524 V590 V761 V595 V79 V794 V405 V752 V603 V108 V929 V309 V904 V193 V263 V508 V656 V726 V53 V949 V77 V690 V325 V953 V529 V459 V209 V299 V136 V319 V662 V614 V452 V612 V930 V925 V471 V880 V717 V859 V190 V939 V412 V577 V777 V844 V431 V935 V334 V402 V918 V563 V796 V388 V518 V651 V433 V827 V905 V11 V323 V189 V49 V241 V199 V679 V219 V757 V122 V321 V340 V555 V61 V379 V911 V615 V729 V580 V686 V286 V771 V382 V723 V526 V593 V832 V16 V699 V709 V358 V505 V384 V605 V823 V90 V466 V252 V451 V41 V164 V499 V938 V76 V351 V257 V732 V654 V163 V352 V184 V964 V989 V642 V803 V990 V873 V168 V422 V493 V491 V406 V583 V245 V339 V403 V838 V444 V430 V553 V636 V24 V814 V669 V741 V270 V892 V310 V869 V91 V848 V489 V994 V98 V781 V680 V714 V782 V678 V78 V541 V222 V485 V616 V800 V58 V345 V552 V187 V510 V503 V778 V417 V602 V927 V528 V153 V988 V703 V747 V762 V981 V419 V849 V700 V6 V591 V724 V871 V534 V916 V46 V432 V117 V617 V67 V140 V330 V498 V22 V165 V74 V363 V400 V798 V124 V249 V907 V982 V570 V754 V893 V587 V721 V730 V29 V715 V753 V462 V808 V167 V378 V946 V175 V484 V634 V196 V963 V993 V15 V704 V900 V280 V743 V149 V824 V456 V742 V846 V26 V191 V856 V789 V235 V443 V535 V97 V349 V418 V211 V999 V268 V281 V597 V685 V728 V138 V806 V931 V87 V749 V847 V120 V121 V527 V772 V440 V455 V316 V99 V262 V655 V684 V246 V775 V335 V516 V802 V436 V107 V586 V533 V924 V787 V750 V370 V490 V9 V774 V274 V809 V465 V300 V860 V353 V667 V42 V793 V150 V693 V343 V159 V584 V237 V582 V380 V701 V296 V839 V408 V872 V643 V820 V722 V852 V861 V228 V427 V390 V868 V295 V544 V457 V588 V568 V17 V59 V594 V208 V712 V469 V764 V845 V973 V504 V581 V941 V39 V909 V956 V895 V992 V64 V463 V537 V619 V692 V206 V229 V514 V10 V865 V830 V854 V578 V984 V100 V628 V633 V936 V242 V322 V792 V158 V477 V735 V409 V834 V106 V922 V357 V620 V429 V885 V507 V799 V123 V565 V952 V238 V937 V579 V391 V822 V410 V653 V170 V197 V375 V243 V607 V312 V719 V980 V81 V668 V948 V367 V113 V790 V344 V434 V284 V979 V202 V713 V313 V423 V878 V256 V783 V435 V644 V641 V218 V513 V259 V996 V437 V881 V104 V609 V660 V785 V118 V733 V870 V261 V255 V898 V272 V12 V179 V160 V88 V804 V360 V428 V13 V308 V500 V162 V501 V192 V708 V971 V453 V260 V488 V414 V666 V947 V52 V780 V290 V476 V986 V681 V133 V68 V589 V69 V475 V661 V73 V543 V386 V531 V407 V765 V624 V797 V72 V571 V1000 V201 V214 V82 V177 V227 V89 V975 V522 V93 V320 V445 V240 V188 V694 V304 V689 V152 V174 V912 V470 V836 V198 V740 V862 V480 V576 V30 V816 V763 V483 V564 V80 V112 V366 V127 V920 V450 V94 V442 V95 V521 V520 V843 V919 V180 V538 V908 V183 V646 V970 V338 V439 V665 V56 V828 V250 V635 V125 V950 V230 V134 V974 V677 V464 V688 V558 V769 V487 V702 V734 V142 V532 V109 V389 V232 V306 V629 V399 V525 V523 V546 V960 V376 V850 V530 V650 V744 V448 V596 V977 V2 V35 V706 V342 V889 V691 V332 V613 V786 V110 V147 V548 V247 V795 V3 V119 V572 V657 V60 V101 V682 V985 V825 V294 V879 V194 V203 V327 V888 V226 V664 V33 V833 V460 V696 V805 V876 V135 V623 V675 V266 V303 V991 V779 V84 V166 V705 V336 V882 V169 V899 V186 V354 V517 V96 V652 V606 V157 V331 V144 V969 V509 V957 V933 V875 V317 V328 V670 V479 V205 V424 V788 V461 V473 V663 V397 V482 V7 V333 V566 V404 V542 V233 V966 V758 V855 V961 V28 V559 V810 V915 V864 V92 V105 V83 V236 V837 V258 V359 V420 V143 V573 V372 V959 V725 V901 V811 V178 V362 V145 V592 V305 V853 V292 V968 V368 V618 V221 V896 V273 V347 V944 V279 V293 V18 V248 V75 V604 V627 V223 V978 V831 V926 V791 V890 V210 V574 V556 V829 V34 V314 V748 V967 V43 V600 V62 V411 V392 V38 V857 V383 V173 V671 V840 V415 V976 V891 Height 0 150 250 ISP2 Análise multivariada na caracterização de utilizadores de Internet – p. 14/4 V1 V458 V47 V23 V215 V921 V44 V195 V478 V212 V550 V66 V672 V172 V474 V807 V20 V867 V329 V674 V31 V767 V154 V695 V355 V943 V156 V171 V835 V645 V659 V707 V381 V55 V289 V932 V496 V244 V393 V151 V315 V361 V298 V307 V560 V601 V877 V4 V220 V472 V19 V394 V468 V14 V224 V718 V350 V608 V36 V45 V225 V738 V401 V812 V940 V5 V37 V902 V426 V972 V746 V234 V481 V697 V569 V731 V365 V649 V449 V958 V575 V48 V398 V111 V842 V130 V540 V291 V567 V658 V139 V318 V745 V599 V132 V622 V8 V115 V276 V955 V346 V204 V297 V687 V906 V207 V819 V928 V251 V886 V759 V813 V851 V21 V413 V146 V377 V951 V866 V954 V40 V698 V897 V913 V965 V57 V502 V610 V467 V625 V673 V863 V395 V102 V264 V288 V995 V632 V821 V766 V239 V337 V768 V282 V557 V155 V874 V265 V511 V181 V626 V254 V554 V997 V185 V711 V987 V727 V311 V416 V446 V751 V894 V639 V71 V447 V737 V676 V267 V638 V547 V562 V283 V585 V640 V301 V716 V50 V887 V364 V983 V492 V497 V683 V103 V637 V770 V539 V515 V815 V962 V148 V773 V784 V176 V326 V387 V217 V302 V324 V647 V374 V739 V903 V506 V776 V631 V512 V917 V25 V826 V648 V269 V942 V841 V116 V545 V141 V817 V598 V801 V128 V858 V129 V756 V385 V114 V421 V216 V720 V341 V441 V161 V536 V425 V275 V883 V630 V923 V32 V63 V253 V549 V519 V54 V287 V945 V65 V85 V611 V914 V369 V182 V348 V231 V884 V278 V760 V356 V396 V736 V27 V51 V271 V494 V551 V371 V710 V137 V454 V126 V818 V277 V200 V934 V486 V131 V285 V910 V495 V373 V561 V998 V755 V70 V621 V86 V213 V438 V524 V590 V761 V595 V79 V794 V405 V752 V603 V108 V929 V309 V904 V193 V263 V508 V656 V726 V53 V949 V77 V690 V325 V953 V529 V459 V209 V299 V136 V319 V662 V614 V452 V612 V930 V925 V471 V880 V717 V859 V190 V939 V412 V577 V777 V844 V431 V935 V334 V402 V918 V563 V796 V388 V518 V651 V433 V827 V905 V11 V323 V189 V49 V241 V199 V679 V219 V757 V122 V321 V340 V555 V61 V379 V911 V615 V729 V580 V686 V286 V771 V382 V723 V526 V593 V832 V16 V699 V709 V358 V505 V384 V605 V823 V90 V466 V252 V451 V41 V164 V499 V938 V76 V351 V257 V732 V654 V163 V352 V184 V964 V989 V642 V803 V990 V873 V168 V422 V493 V491 V406 V583 V245 V339 V403 V838 V444 V430 V553 V636 V24 V814 V669 V741 V270 V892 V310 V869 V91 V848 V489 V994 V98 V781 V680 V714 V782 V678 V78 V541 V222 V485 V616 V800 V58 V345 V552 V187 V510 V503 V778 V417 V602 V927 V528 V153 V988 V703 V747 V762 V981 V419 V849 V700 V6 V591 V724 V871 V534 V916 V46 V432 V117 V617 V67 V140 V330 V498 V22 V165 V74 V363 V400 V798 V124 V249 V907 V982 V570 V754 V893 V587 V721 V730 V29 V715 V753 V462 V808 V167 V378 V946 V175 V484 V634 V196 V963 V993 V15 V704 V900 V280 V743 V149 V824 V456 V742 V846 V26 V191 V856 V789 V235 V443 V535 V97 V349 V418 V211 V999 V268 V281 V597 V685 V728 V138 V806 V931 V87 V749 V847 V120 V121 V527 V772 V440 V455 V316 V99 V262 V655 V684 V246 V775 V335 V516 V802 V436 V107 V586 V533 V924 V787 V750 V370 V490 V9 V774 V274 V809 V465 V300 V860 V353 V667 V42 V793 V150 V693 V343 V159 V584 V237 V582 V380 V701 V296 V839 V408 V872 V643 V820 V722 V852 V861 V228 V427 V390 V868 V295 V544 V457 V588 V568 V17 V59 V594 V208 V712 V469 V764 V845 V973 V504 V581 V941 V39 V909 V956 V895 V992 V64 V463 V537 V619 V692 V206 V229 V514 V10 V865 V830 V854 V578 V984 V100 V628 V633 V936 V242 V322 V792 V158 V477 V735 V409 V834 V106 V922 V357 V620 V429 V885 V507 V799 V123 V565 V952 V238 V937 V579 V391 V822 V410 V653 V170 V197 V375 V243 V607 V312 V719 V980 V81 V668 V948 V367 V113 V790 V344 V434 V284 V979 V202 V713 V313 V423 V878 V256 V783 V435 V644 V641 V218 V513 V259 V996 V437 V881 V104 V609 V660 V785 V118 V733 V870 V261 V255 V898 V272 V12 V179 V160 V88 V804 V360 V428 V13 V308 V500 V162 V501 V192 V708 V971 V453 V260 V488 V414 V666 V947 V52 V780 V290 V476 V986 V681 V133 V68 V589 V69 V475 V661 V73 V543 V386 V531 V407 V765 V624 V797 V72 V571 V1000 V201 V214 V82 V177 V227 V89 V975 V522 V93 V320 V445 V240 V188 V694 V304 V689 V152 V174 V912 V470 V836 V198 V740 V862 V480 V576 V30 V816 V763 V483 V564 V80 V112 V366 V127 V920 V450 V94 V442 V95 V521 V520 V843 V919 V180 V538 V908 V183 V646 V970 V338 V439 V665 V56 V828 V250 V635 V125 V950 V230 V134 V974 V677 V464 V688 V558 V769 V487 V702 V734 V142 V532 V109 V389 V232 V306 V629 V399 V525 V523 V546 V960 V376 V850 V530 V650 V744 V448 V596 V977 V2 V35 V706 V342 V889 V691 V332 V613 V786 V110 V147 V548 V247 V795 V3 V119 V572 V657 V60 V101 V682 V985 V825 V294 V879 V194 V203 V327 V888 V226 V664 V33 V833 V460 V696 V805 V876 V135 V623 V675 V266 V303 V991 V779 V84 V166 V705 V336 V882 V169 V899 V186 V354 V517 V96 V652 V606 V157 V331 V144 V969 V509 V957 V933 V875 V317 V328 V670 V479 V205 V424 V788 V461 V473 V663 V397 V482 V7 V333 V566 V404 V542 V233 V966 V758 V855 V961 V28 V559 V810 V915 V864 V92 V105 V83 V236 V837 V258 V359 V420 V143 V573 V372 V959 V725 V901 V811 V178 V362 V145 V592 V305 V853 V292 V968 V368 V618 V221 V896 V273 V347 V944 V279 V293 V18 V248 V75 V604 V627 V223 V978 V831 V926 V791 V890 V210 V574 V556 V829 V34 V314 V748 V967 V43 V600 V62 V411 V392 V38 V857 V383 V173 V671 V840 V415 V976 V891 50 3. Análise de clusters - Dendogramas (cont.) 0 3. Análise de clusters - Medoids 2. Medoids: Análise multivariada na caracterização de utilizadores de Internet – p. 15/4 3. Análise de clusters - Medoids 2. Medoids: Método de partição, onde o número de clusters é escolhido à partida (k = 3). Análise multivariada na caracterização de utilizadores de Internet – p. 15/4 3. Análise de clusters - Medoids 2. Medoids: Método de partição, onde o número de clusters é escolhido à partida (k = 3). • Escolha dos medoids: k objectos escolhidos de forma a que distância de cada objecto ao medoid mais próximo é mínima. Análise multivariada na caracterização de utilizadores de Internet – p. 15/4 3. Análise de clusters - Medoids 2. Medoids: Método de partição, onde o número de clusters é escolhido à partida (k = 3). • Escolha dos medoids: k objectos escolhidos de forma a que distância de cada objecto ao medoid mais próximo é mínima. • Cada objecto é atribuído ao cluster vi se o medoid mvi está mais próximo do objecto i do que qualquer outro medoid. Análise multivariada na caracterização de utilizadores de Internet – p. 15/4 3. Análise de clusters - Medoids 2. Medoids: Método de partição, onde o número de clusters é escolhido à partida (k = 3). • Escolha dos medoids: k objectos escolhidos de forma a que distância de cada objecto ao medoid mais próximo é mínima. • Cada objecto é atribuído ao cluster vi se o medoid mvi está mais próximo do objecto i do que qualquer outro medoid. Distância: Euclidiana Análise multivariada na caracterização de utilizadores de Internet – p. 15/4 3. Análise de clusters - Medoids Medoids Análise multivariada na caracterização de utilizadores de Internet – p. 16/4 3. Análise de clusters - Medoids Medoids Medianas Análise multivariada na caracterização de utilizadores de Internet – p. 16/4 3. Interpretation of clusters vs PC ISP2 0 CP2 0 -5 -5 -10 -10 CP2 5 5 10 ISP1 0 10 20 CP1 30 -5 0 5 10 15 CP1 Análise multivariada na caracterização de utilizadores de Internet – p. 17/4 3. Interpretation of clusters vs PC ISP2 0 CP2 0 -5 -5 -10 -10 CP2 5 5 10 ISP1 0 10 20 30 CP1 Cluster -5 0 5 10 15 CP1 Interpretação C1 Taxas de transf. elevadas ao longo de todo o dia C2 Taxas de transf. baixas/elevadas de manhã/tarde C3 Taxas de transf. baixas ao longo de todo o dia Análise multivariada na caracterização de utilizadores de Internet – p. 17/4 3. Medoids - Interpretação ISP1 ISP2 Cluster Medoids Ward Medoids Ward C1 4.23% 4.87% 18.52% 20.00% C2 7.75% 22.29% 14.17% 21.94% C3 88.02% 72.84% 67.32% 58.06% Análise multivariada na caracterização de utilizadores de Internet – p. 18/4 3. Concordância entre as duas análise de clusters Aglom. ISP1 Aglom. ISP2 Med. C1 C2 C3 Med. C1 C2 C3 C1 136 8 1 145 C1 137 23 2 175 C2 6 258 2 266 C2 8 104 12 192 C3 25 499 2497 3021 C3 30 65 494 508 167 765 2500 3432 162 124 589 875 Análise multivariada na caracterização de utilizadores de Internet – p. 19/4 3. Concordância entre as duas análise de clusters Aglom. ISP1 Aglom. ISP2 Med. C1 C2 C3 Med. C1 C2 C3 C1 136 8 1 145 C1 137 23 2 175 C2 6 258 2 266 C2 8 104 12 192 C3 25 499 2497 3021 C3 30 65 494 508 167 765 2500 3432 162 124 589 875 Percentagem de casos concordantes entre atribuição a 3 clusters feita por Medoids e Aglomerativo: ISP 1 : 84.2% ISP 2 : 84.0% Análise multivariada na caracterização de utilizadores de Internet – p. 19/4 4. Análise discriminante Objectivo: Análise multivariada na caracterização de utilizadores de Internet – p. 20/4 4. Análise discriminante Objectivo: Encontrar uma regra para classificar um indivíduo, num de vários grupos pré-definidos, com base num conjunto de variáveis. Análise multivariada na caracterização de utilizadores de Internet – p. 20/4 4. Análise discriminante Objectivo: Encontrar uma regra para classificar um indivíduo, num de vários grupos pré-definidos, com base num conjunto de variáveis. Grupo: Perfil a que cada indivíduo é atribuído pela análise de clusters (Medoids). Análise multivariada na caracterização de utilizadores de Internet – p. 20/4 4. Análise discriminante Objectivo: Encontrar uma regra para classificar um indivíduo, num de vários grupos pré-definidos, com base num conjunto de variáveis. Grupo: Perfil a que cada indivíduo é atribuído pela análise de clusters (Medoids). Com base no seus consumos ao longo do dia procura-se re-classificar o indivíduo num dos três perfis considerados. Análise multivariada na caracterização de utilizadores de Internet – p. 20/4 4. Análise discriminante Objectivo: Encontrar uma regra para classificar um indivíduo, num de vários grupos pré-definidos, com base num conjunto de variáveis. Grupo: Perfil a que cada indivíduo é atribuído pela análise de clusters (Medoids). Com base no seus consumos ao longo do dia procura-se re-classificar o indivíduo num dos três perfis considerados. Se a regra discriminante apresentar taxas de erro baixas estaremos a validar a divisão em clusters feita inicialmente. Análise multivariada na caracterização de utilizadores de Internet – p. 20/4 4. Análise discriminante (cont.) Taxa ISP1 ISP2 erro Medoids Ward Medoids Ward Aparente 1.31% 9.47% 3.09% 6.74% Leave-one-out 1.81% 9.99% 5.71% 9.49% Valid-Cruzada 1.78% 10.05% 6.59% 9.57% Dupla Valid-Cruz. 2.18% 10.02% 7.77% 10.86% Análise multivariada na caracterização de utilizadores de Internet – p. 21/4 4. Análise discriminante (cont.) Taxa ISP1 ISP2 erro Medoids Ward Medoids Ward Aparente 1.31% 9.47% 3.09% 6.74% Leave-one-out 1.81% 9.99% 5.71% 9.49% Valid-Cruzada 1.78% 10.05% 6.59% 9.57% Dupla Valid-Cruz. 2.18% 10.02% 7.77% 10.86% Em geral, as taxas de erro são baixas, o que valida a estrutura de clusters proposta. Análise multivariada na caracterização de utilizadores de Internet – p. 21/4 4. Análise discriminante (cont.) Taxa ISP1 ISP2 erro Medoids Ward Medoids Ward Aparente 1.31% 9.47% 3.09% 6.74% Leave-one-out 1.81% 9.99% 5.71% 9.49% Valid-Cruzada 1.78% 10.05% 6.59% 9.57% Dupla Valid-Cruz. 2.18% 10.02% 7.77% 10.86% Em geral, as taxas de erro são baixas, o que valida a estrutura de clusters proposta. Note que as partições obtidas pelos Medoids apresentam menores taxas de erro. Análise multivariada na caracterização de utilizadores de Internet – p. 21/4 4. Análise discriminante (cont.) Taxa ISP1 ISP2 erro Medoids Ward Medoids Ward Aparente 1.31% 9.47% 3.09% 6.74% Leave-one-out 1.81% 9.99% 5.71% 9.49% Valid-Cruzada 1.78% 10.05% 6.59% 9.57% Dupla Valid-Cruz. 2.18% 10.02% 7.77% 10.86% Em geral, as taxas de erro são baixas, o que valida a estrutura de clusters proposta. Note que as partições obtidas pelos Medoids apresentam menores taxas de erro. Por esta razão serão as partições consideradas. Análise multivariada na caracterização de utilizadores de Internet – p. 21/4 5. Caracterização dos clusters Objectivo: Analisar cada cluster com base em características do tráfego que não foram utilizadas na análise de clusters Análise multivariada na caracterização de utilizadores de Internet – p. 22/4 5. Caracterização dos clusters Objectivo: Analisar cada cluster com base em características do tráfego que não foram utilizadas na análise de clusters Em particular estamos interessados em perceber como se caracterizam Análise multivariada na caracterização de utilizadores de Internet – p. 22/4 5. Caracterização dos clusters Objectivo: Analisar cada cluster com base em características do tráfego que não foram utilizadas na análise de clusters Em particular estamos interessados em perceber como se caracterizam − Número de bytes recebidos por utilizador (Tamanho); Análise multivariada na caracterização de utilizadores de Internet – p. 22/4 5. Caracterização dos clusters Objectivo: Analisar cada cluster com base em características do tráfego que não foram utilizadas na análise de clusters Em particular estamos interessados em perceber como se caracterizam − Número de bytes recebidos por utilizador (Tamanho); − Duração por utilizador; Análise multivariada na caracterização de utilizadores de Internet – p. 22/4 5. Caracterização dos clusters Objectivo: Analisar cada cluster com base em características do tráfego que não foram utilizadas na análise de clusters Em particular estamos interessados em perceber como se caracterizam − Número de bytes recebidos por utilizador (Tamanho); − Duração por utilizador; − Taxa de transferência por utilizador Análise multivariada na caracterização de utilizadores de Internet – p. 22/4 5. Caracterização dos clusters Objectivo: Analisar cada cluster com base em características do tráfego que não foram utilizadas na análise de clusters Em particular estamos interessados em perceber como se caracterizam − Número de bytes recebidos por utilizador (Tamanho); − Duração por utilizador; − Taxa de transferência por utilizador em cada um dos clusters: C1, C2 e C3. Análise multivariada na caracterização de utilizadores de Internet – p. 22/4 5. Caracterização dos clusters Objectivo: Analisar cada cluster com base em características do tráfego que não foram utilizadas na análise de clusters Em particular estamos interessados em perceber como se caracterizam − Número de bytes recebidos por utilizador (Tamanho); − Duração por utilizador; − Taxa de transferência por utilizador em cada um dos clusters: C1, C2 e C3. Analisaremos apenas a partição obtida pelo métodos dos medoids. Análise multivariada na caracterização de utilizadores de Internet – p. 22/4 6. Caracterização dos clusters Usando um teste não-paramétrico, concluiu-se que se deve Análise multivariada na caracterização de utilizadores de Internet – p. 23/4 6. Caracterização dos clusters Usando um teste não-paramétrico, concluiu-se que se deve Rejeitar H0 : µ1 = µ2 = µ3 Análise multivariada na caracterização de utilizadores de Internet – p. 23/4 6. Caracterização dos clusters Usando um teste não-paramétrico, concluiu-se que se deve Rejeitar H0 : µ1 = µ2 = µ3 para Tamanho, Taxas de Transferência e Duração Análise multivariada na caracterização de utilizadores de Internet – p. 23/4 6. Caracterização dos clusters Tamanho Duração Taxa Análise multivariada na caracterização de utilizadores de Internet – p. 24/4 6. Caracterização dos clusters Tamanho Duração Taxa ISP2: µ1 > µ2 > µ3 ISP1: µ1 = µ2 > µ3 Análise multivariada na caracterização de utilizadores de Internet – p. 24/4 6. Caracterização dos clusters Tamanho Duração ISP2: µ1 > µ2 > µ3 µ1 > µ2 > µ3 Taxa ISP1: µ1 = µ2 > µ3 Análise multivariada na caracterização de utilizadores de Internet – p. 24/4 6. Caracterização dos clusters Tamanho Duração Taxa ISP2: µ1 > µ2 > µ3 µ1 > µ2 > µ3 µ1 = µ2 > µ3 ISP1: µ1 = µ2 > µ3 Análise multivariada na caracterização de utilizadores de Internet – p. 24/4 6. Caracterização dos clusters de ISP2 - Aplicações Duração Tamanho 400000000 Taxa 60000 60 300000000 40000 40 20000 20 200000000 100000000 0 0 FS H G I M S 0 FS H G I M S FS H G I M S Análise multivariada na caracterização de utilizadores de Internet – p. 25/4 6. Caracterização dos clusters de ISP2 - Aplicações Duração Tamanho 400000000 Taxa 60000 60 300000000 40000 40 20000 20 200000000 100000000 0 0 FS H G I M S 0 FS H G I M S FS H G I M S FS, H: µ1 = µ2 > µ3 Análise multivariada na caracterização de utilizadores de Internet – p. 25/4 6. Caracterização dos clusters de ISP2 - Aplicações Duração Tamanho 400000000 Taxa 60000 60 300000000 40000 40 20000 20 200000000 100000000 0 0 FS H G I M S FS, H: µ1 = µ2 > µ3 0 FS H G I M S FS H G I M S FS: µ1 > µ2 > µ3 H: µ1 = µ2 > µ3 Análise multivariada na caracterização de utilizadores de Internet – p. 25/4 6. Caracterização dos clusters de ISP2 - Aplicações Duração Tamanho 400000000 Taxa 60000 60 300000000 40000 40 20000 20 200000000 100000000 0 0 FS H G I M S FS, H: µ1 = µ2 > µ3 0 FS H G I M S FS: µ1 > µ2 > µ3 FS H G I M S FS: µ1 = µ2 > µ3 H: µ1 = µ2 > µ3 Análise multivariada na caracterização de utilizadores de Internet – p. 25/4 Conclusões I • Análise de Cluster: Obtivemos uma partição em 3 grupos com perfis de utilização da Internet semelhantes. Análise multivariada na caracterização de utilizadores de Internet – p. 26/4 Conclusões I • Análise de Cluster: Obtivemos uma partição em 3 grupos com perfis de utilização da Internet semelhantes. • Um utilizador típico de cada cluster é caracterizado por: Análise multivariada na caracterização de utilizadores de Internet – p. 26/4 Conclusões I • Análise de Cluster: Obtivemos uma partição em 3 grupos com perfis de utilização da Internet semelhantes. • Um utilizador típico de cada cluster é caracterizado por: − C1: Taxas de transf. elevadas ao longo de todo o dia. Análise multivariada na caracterização de utilizadores de Internet – p. 26/4 Conclusões I • Análise de Cluster: Obtivemos uma partição em 3 grupos com perfis de utilização da Internet semelhantes. • Um utilizador típico de cada cluster é caracterizado por: − C1: Taxas de transf. − C2: Taxas de transf. elevadas ao longo de todo o dia. baixas/elevadas de manhã/tarde. Análise multivariada na caracterização de utilizadores de Internet – p. 26/4 Conclusões I • Análise de Cluster: Obtivemos uma partição em 3 grupos com perfis de utilização da Internet semelhantes. • Um utilizador típico de cada cluster é caracterizado por: − C1: Taxas de transf. − C2: Taxas de transf. elevadas ao longo de todo o dia. baixas/elevadas de manhã/tarde. − C3: Taxas de transf. baixas ao longo de todo o dia. Análise multivariada na caracterização de utilizadores de Internet – p. 26/4 Conclusões I • Utilizadores do perfil C1 e C2 usam File Sharing a taxas mais elevadas e durante períodos mais longos que C3. Análise multivariada na caracterização de utilizadores de Internet – p. 27/4 Conclusões I • Utilizadores do perfil C1 e C2 usam File Sharing a taxas mais elevadas e durante períodos mais longos que C3. • Os utilizadores de C1 tendem a usar a Internet de forma mais intensiva do que os de C2. Análise multivariada na caracterização de utilizadores de Internet – p. 27/4 Conclusões I • Utilizadores do perfil C1 e C2 usam File Sharing a taxas mais elevadas e durante períodos mais longos que C3. • Os utilizadores de C1 tendem a usar a Internet de forma mais intensiva do que os de C2. • O tráfego associado aos utilizadores agrupados em C3 caracteriza-se por menores durações e menos bytes recebidos de HTTP que C1 ou C2. Análise multivariada na caracterização de utilizadores de Internet – p. 27/4 Análise da estrutura do tráfego da Internet Objectivos - Decomposição do tráfego associado a cada utilizador em componentes com características marcadamente diferentes. Análise multivariada na caracterização de utilizadores de Internet – p. 28/4 Análise da estrutura do tráfego da Internet Objectivos - Decomposição do tráfego associado a cada utilizador em componentes com características marcadamente diferentes. Baseado em: - Medições de taxas de transferência, medidas durante uma semana. (n = 5588, p = 346 períodos de 30min, de Terça a Terça) Análise multivariada na caracterização de utilizadores de Internet – p. 28/4 Análise da estrutura do tráfego da Internet Objectivos - Decomposição do tráfego associado a cada utilizador em componentes com características marcadamente diferentes. Baseado em: - Medições de taxas de transferência, medidas durante uma semana. (n = 5588, p = 346 períodos de 30min, de Terça a Terça) Útil para: Análise multivariada na caracterização de utilizadores de Internet – p. 28/4 Análise da estrutura do tráfego da Internet Objectivos - Decomposição do tráfego associado a cada utilizador em componentes com características marcadamente diferentes. Baseado em: - Medições de taxas de transferência, medidas durante uma semana. (n = 5588, p = 346 períodos de 30min, de Terça a Terça) Útil para: − Entender a natureza do tráfego da Internet. Análise multivariada na caracterização de utilizadores de Internet – p. 28/4 Análise da estrutura do tráfego da Internet Objectivos - Decomposição do tráfego associado a cada utilizador em componentes com características marcadamente diferentes. Baseado em: - Medições de taxas de transferência, medidas durante uma semana. (n = 5588, p = 346 períodos de 30min, de Terça a Terça) Útil para: − Entender a natureza do tráfego da Internet. − Detectar perfis semanais de utilização da Internet. Análise multivariada na caracterização de utilizadores de Internet – p. 28/4 Análise da estrutura do tráfego da Internet Objectivos - Decomposição do tráfego associado a cada utilizador em componentes com características marcadamente diferentes. Baseado em: - Medições de taxas de transferência, medidas durante uma semana. (n = 5588, p = 346 períodos de 30min, de Terça a Terça) Útil para: − Entender a natureza do tráfego da Internet. − Detectar perfis semanais de utilização da Internet. Transformações: Logaritmizar e centar. Análise multivariada na caracterização de utilizadores de Internet – p. 28/4 Análise da estrutura do tráfego da Internet Seja X a matriz dos dados n × p (n = 5588 e p = 346) , que se decompõe usando a decomposição em valores e vectores singulares: Análise multivariada na caracterização de utilizadores de Internet – p. 29/4 Análise da estrutura do tráfego da Internet Seja X a matriz dos dados n × p (n = 5588 e p = 346) , que se decompõe usando a decomposição em valores e vectores singulares: X = U ΛV t Análise multivariada na caracterização de utilizadores de Internet – p. 29/4 Análise da estrutura do tráfego da Internet Seja X a matriz dos dados n × p (n = 5588 e p = 346) , que se decompõe usando a decomposição em valores e vectores singulares: X = U ΛV t onde: − U = (u1 , . . . , up ) é uma matriz de dimensão n × p, tendo em colunas os primeiros p vectores próprios de XX t Análise multivariada na caracterização de utilizadores de Internet – p. 29/4 Análise da estrutura do tráfego da Internet Seja X a matriz dos dados n × p (n = 5588 e p = 346) , que se decompõe usando a decomposição em valores e vectores singulares: X = U ΛV t onde: − U = (u1 , . . . , up ) é uma matriz de dimensão n × p, tendo em colunas os primeiros p vectores próprios de XX t − V = (v 1 , . . . , v p ) é uma matriz de dimensão p × p, tendo em colunas os p vectores próprios de X t X Análise multivariada na caracterização de utilizadores de Internet – p. 29/4 Análise da estrutura do tráfego da Internet Seja X a matriz dos dados n × p (n = 5588 e p = 346) , que se decompõe usando a decomposição em valores e vectores singulares: X = U ΛV t onde: − U = (u1 , . . . , up ) é uma matriz de dimensão n × p, tendo em colunas os primeiros p vectores próprios de XX t − V = (v 1 , . . . , v p ) é uma matriz de dimensão p × p, tendo em colunas os p vectores próprios de X t X − Λ = diag {λ1 , . . . , λp }, onde λ1 ≥ . . . ≥ λp > 0 são as raízes quadradas dos primeiros p valores próprios de XX t . Análise multivariada na caracterização de utilizadores de Internet – p. 29/4 Análise da estrutura do tráfego da Internet Uma vez que X é centrada V contem os loadings das componentes principais associadas a S (matriz de covariâncias amostral). Análise multivariada na caracterização de utilizadores de Internet – p. 30/4 Análise da estrutura do tráfego da Internet Uma vez que X é centrada V contem os loadings das componentes principais associadas a S (matriz de covariâncias amostral). O tráfego associado ao i-ésimo utilizador (i-ésima linha de X) pode escrever-se como uma combinação linear das colunas de V , que se designa por fluxos próprios (eigenflows). Análise multivariada na caracterização de utilizadores de Internet – p. 30/4 Análise da estrutura do tráfego da Internet Uma vez que X é centrada V contem os loadings das componentes principais associadas a S (matriz de covariâncias amostral). O tráfego associado ao i-ésimo utilizador (i-ésima linha de X) pode escrever-se como uma combinação linear das colunas de V , que se designa por fluxos próprios (eigenflows). xi = V δ i = δi1 v 1 + . . . + δip v p Análise multivariada na caracterização de utilizadores de Internet – p. 30/4 Classificação dos fluxos próprios Cada fluxo próprio é classificado numa de três categorias: periódicos (d-eigenflows), ruído (n-eigenflows) e picos (s-eigenflows). Análise multivariada na caracterização de utilizadores de Internet – p. 31/4 Classificação dos fluxos próprios Cada fluxo próprio é classificado numa de três categorias: periódicos (d-eigenflows), ruído (n-eigenflows) e picos (s-eigenflows). Análise multivariada na caracterização de utilizadores de Internet – p. 31/4 Classificação dos fluxos próprios Cada fluxo próprio é classificado numa de três categorias: periódicos (d-eigenflows), ruído (n-eigenflows) e picos (s-eigenflows). Os d-eigenflows são fluxos próprios cujo periodograma revela periodicidade, usualmente com picos correspondentes a períodos de 12 ou 24 horas. Análise multivariada na caracterização de utilizadores de Internet – p. 31/4 Classificação dos fluxos próprios Um fluxo próprio é classificado como um s-eigenflow se apresentar pelo menos um “grande” pico, i.e. se pelo menos um das suas entradas estiver fora do intervalo: Análise multivariada na caracterização de utilizadores de Internet – p. 32/4 Classificação dos fluxos próprios 0.0 -0.2 -0.4 -0.6 data[, j] 0.2 0.4 Um fluxo próprio é classificado como um s-eigenflow se apresentar pelo menos um “grande” pico, i.e. se pelo menos um das suas entradas estiver fora do intervalo: 0 100 200 300 Análise multivariada na caracterização de utilizadores de Internet – p. 32/4 Classificação dos fluxos próprios 0.4 Um fluxo próprio é classificado como um s-eigenflow se apresentar pelo menos um “grande” pico, i.e. se pelo menos um das suas entradas estiver fora do intervalo: -0.2 0.0 6M AD(vj )], -0.4 onde MAD é um estimador robusto de dispersão. -0.6 data[, j] 0.2 [med(vj ) − 6M AD(vj ), med(vj ) + 0 100 200 300 Análise multivariada na caracterização de utilizadores de Internet – p. 32/4 Classificação dos fluxos próprios Os n-eigenflow são os restantes fluxos próprios, tais que: Análise multivariada na caracterização de utilizadores de Internet – p. 33/4 Classificação dos fluxos próprios −0.15 −0.10 −0.05 0.00 0.05 0.10 0.15 Os n-eigenflow são os restantes fluxos próprios, tais que: −3 −2 −1 0 1 2 3 norm quantiles Análise multivariada na caracterização de utilizadores de Internet – p. 33/4 Classificação dos fluxos próprios Os n-eigenflow são os restantes fluxos próprios, tais que: −0.15 −0.10 −0.05 0.00 0.05 0.10 0.15 (i) Teste de chi-quadrado não rejeita a hipótese de terem distribuição normal, −3 −2 −1 0 norm quantiles 1 2 3 (ii) Rejeitando-se a hipótese de normalidade não foram classificados em nenhuma das categorias anteriores (34 em 346). Análise multivariada na caracterização de utilizadores de Internet – p. 33/4 Classificação dos fluxos próprios Da classificação dos fluxos próprios pode concluir-se que: Análise multivariada na caracterização de utilizadores de Internet – p. 34/4 Classificação dos fluxos próprios 3.0 Da classificação dos fluxos próprios pode concluir-se que: 2.0 2.5 s-eigenflows 1.0 1.5 n-eigenflows d-eigenflows 0 100 200 300 Eigenflow Index Análise multivariada na caracterização de utilizadores de Internet – p. 34/4 Classificação dos fluxos próprios 3.0 Da classificação dos fluxos próprios pode concluir-se que: 2.0 2.5 s-eigenflows 1.0 1.5 n-eigenflows d-eigenflows 0 100 200 Eigenflow Index 300 (i) Primeiros 10 são deigenflows e explicam 52% da variabilidade total. (ii) Os últimos 62 são seigenflows e explicam 1% da variabilidade total. (iii) 247 fluxos próprios, classificados como neigenflows, explicam 47% da variabilidade total. Análise multivariada na caracterização de utilizadores de Internet – p. 34/4 -5 0 5 Classificação dos fluxos próprios 0 100 200 300 200 300 200 300 200 300 -2 0 2 4 (a) 0 100 -6 -2 2 4 (b) 0 100 -0.5 0.0 0.5 (c) 0 100 (d) Análise multivariada na caracterização de utilizadores de Internet – p. 35/4 -5 0 5 Classificação dos fluxos próprios 0 100 200 300 200 300 200 300 200 300 -2 0 2 4 (a) 0 100 -6 -2 2 4 (b) 0 100 -0.5 0.0 0.5 (c) Uma vez que o tráfego associado a cada utilizador, xi , pode ser escrito como uma combinação linear de fluxos próprios, xi (a) pode ser decomposta em 3 componentes: 0 100 (d) (b) períodica, (c) ruído, (d) picos. Análise multivariada na caracterização de utilizadores de Internet – p. 35/4 Análise da estrutura do tráfego da Internet A decomposição sugere que o os padrões de utilização semanal da Internet comuns aos vários utilizadores são explicados, essencialmente, pela componente periódica. Análise multivariada na caracterização de utilizadores de Internet – p. 36/4 Análise da estrutura do tráfego da Internet A decomposição sugere que o os padrões de utilização semanal da Internet comuns aos vários utilizadores são explicados, essencialmente, pela componente periódica. Para analisar este pressuposto, truncaram-se os vectores resposta à componentes periódica, i.e. Análise multivariada na caracterização de utilizadores de Internet – p. 36/4 Análise da estrutura do tráfego da Internet A decomposição sugere que o os padrões de utilização semanal da Internet comuns aos vários utilizadores são explicados, essencialmente, pela componente periódica. Para analisar este pressuposto, truncaram-se os vectores resposta à componentes periódica, i.e. xtr i = 10 X δij v j , j=1 Análise multivariada na caracterização de utilizadores de Internet – p. 36/4 Análise da estrutura do tráfego da Internet A decomposição sugere que o os padrões de utilização semanal da Internet comuns aos vários utilizadores são explicados, essencialmente, pela componente periódica. Para analisar este pressuposto, truncaram-se os vectores resposta à componentes periódica, i.e. xtr i = 10 X δij v j , j=1 e fez-se análise de clusters baseada nos vectores resposta completos e truncados. Análise multivariada na caracterização de utilizadores de Internet – p. 36/4 Análise de Clusters - k=2 Completo 6 6 8 10 8 10 Truncado 0 50 100 150 200 250 300 350 0 50 100 150 250 300 350 200 250 300 350 (a) 6 6 8 10 8 10 (a) 200 0 50 100 150 200 (b) 250 300 350 0 50 100 150 (b) Análise multivariada na caracterização de utilizadores de Internet – p. 37/4 Análise de Clusters - k=2 Completo 6 6 8 10 8 10 Truncado 0 50 100 150 200 250 300 350 0 50 100 150 250 300 350 200 250 300 350 (a) 6 6 8 10 8 10 (a) 200 0 50 100 150 200 (b) 250 300 350 0 50 100 150 (b) Taxa de concordância entre as duas partições: 96% Análise multivariada na caracterização de utilizadores de Internet – p. 37/4 Análise de Clusters - k=2 Completo 6 6 8 10 8 10 Truncado 0 50 100 150 200 250 300 350 0 50 100 150 250 300 350 200 250 300 350 (a) 6 6 8 10 8 10 (a) 200 0 50 100 150 200 250 300 350 0 (b) 50 100 150 (b) Taxa de concordância entre as duas partições: 96% − C1 - Taxas de transferência baixas ao longo de todo o dia. − C2 - Taxas de transferência baixas no início do dia e elevadas no final do dia e noite. Análise multivariada na caracterização de utilizadores de Internet – p. 37/4 Análise de Clusters - k=3 0 50 150 250 350 0 50 150 250 350 12 10 8 0 50 (b) 150 250 350 (a) 0 50 150 250 350 (b) 6 6 8 8 10 10 12 12 (a) 6 6 8 8 10 10 12 12 Truncado 6 6 8 10 12 Completo 0 50 150 (c) 250 350 0 50 150 250 350 (c) Análise multivariada na caracterização de utilizadores de Internet – p. 38/4 Análise de Clusters - k=3 0 50 150 250 350 0 50 150 250 350 12 10 8 0 50 (b) 150 250 350 (a) 0 50 150 250 350 (b) 6 6 8 8 10 10 12 12 (a) 6 6 8 8 10 10 12 12 Truncado 6 6 8 10 12 Completo 0 50 150 (c) 250 350 0 50 150 250 350 (c) Taxa de concordância entre as duas partições: 82% Análise multivariada na caracterização de utilizadores de Internet – p. 38/4 Análise de Clusters - k=3 0 50 150 250 350 0 50 150 250 350 12 10 8 0 50 (b) 150 250 350 (a) 0 50 150 250 350 (b) 6 6 8 8 10 10 12 12 (a) 6 6 8 8 10 10 12 12 Truncado 6 6 8 10 12 Completo 0 50 150 250 350 (c) 0 50 150 250 350 (c) Taxa de concordância entre as duas partições: 82% − C1 - Taxas de transf. baixas ao longo de todo o dia. − C2 - Taxas de transf. baixas, mas mais elavadas que C1, especialmente no final do dia. − C3 - Taxas de transf. baixas no início e muito elevadas no final do dia. Análise multivariada na caracterização de utilizadores de Internet – p. 38/4 Análise de Clusters - k=4 250 350 0 50 150 250 350 150 (c) 250 350 14 10 8 150 250 350 50 150 (d) 50 250 350 150 250 350 250 350 14 14 8 6 0 0 (b) 10 14 10 6 50 50 (a) 8 10 8 6 0 0 (b) 14 (a) 10 150 8 50 6 0 6 6 8 8 10 10 14 14 Truncado 6 6 8 10 14 Completo 0 50 150 (c) 250 350 0 50 150 (d) Análise multivariada na caracterização de utilizadores de Internet – p. 39/4 Análise de Clusters - k=4 250 350 0 50 150 250 350 150 (c) 250 350 14 10 8 150 250 350 50 150 (d) 50 250 350 150 250 350 250 350 14 14 8 6 0 0 (b) 10 14 10 6 50 50 (a) 8 10 8 6 0 0 (b) 14 (a) 10 150 8 50 6 0 6 6 8 8 10 10 14 14 Truncado 6 6 8 10 14 Completo 0 50 150 (c) 250 350 0 50 150 (d) Taxa de concordância entre as duas partições: 51% Análise multivariada na caracterização de utilizadores de Internet – p. 39/4 Análise de Clusters - k=4 250 350 0 50 150 250 350 150 (c) 250 350 14 10 8 150 250 350 50 150 50 250 (d) 350 150 250 350 250 350 14 14 8 6 0 0 (b) 10 14 10 6 50 50 (a) 8 10 8 6 0 0 (b) 14 (a) 10 150 8 50 6 0 6 6 8 8 10 10 14 14 Truncado 6 6 8 10 14 Completo 0 50 150 (c) 250 350 0 50 150 (d) Taxa de concordância entre as duas partições: 51% − C1 - Taxas de transf. baixas ao longo de todo o dia. − C2 - Taxas de transf. baixas, mas mais elavadas que C1, especialmente no final do dia. − C3 - Taxas de transf. baixas no início e elevadas no final do dia. Análise multivariada na caracterização de utilizadores de Internet – p. 39/4 Análise de Clusters - k=4 250 350 0 50 150 250 350 150 (c) 250 350 14 10 8 150 250 350 50 150 (d) 50 250 350 150 250 350 250 350 14 14 8 6 0 0 (b) 10 14 10 6 50 50 (a) 8 10 8 6 0 0 (b) 14 (a) 10 150 8 50 6 0 6 6 8 8 10 10 14 14 Truncado 6 6 8 10 14 Completo 0 50 150 (c) 250 350 0 50 150 (d) Análise multivariada na caracterização de utilizadores de Internet – p. 40/4 Análise de Clusters - k=4 250 350 0 50 150 250 350 150 (c) 250 350 14 10 8 150 250 350 50 150 (d) 50 250 350 150 250 350 250 350 14 14 8 6 0 0 (b) 10 14 10 6 50 50 (a) 8 10 8 6 0 0 (b) 14 (a) 10 150 8 50 6 0 6 6 8 8 10 10 14 14 Truncado 6 6 8 10 14 Completo 0 50 150 (c) 250 350 0 50 150 (d) − C4 - Completo - Taxas muito elevadas ao longo de todo o dia. Análise multivariada na caracterização de utilizadores de Internet – p. 40/4 Análise de Clusters - k=4 250 350 0 50 150 250 350 150 (c) 250 350 14 10 8 150 250 350 50 150 (d) 50 150 250 350 250 350 250 350 14 14 8 6 0 0 (b) 10 14 10 6 50 50 (a) 8 10 8 6 0 0 (b) 14 (a) 10 150 8 50 6 0 6 6 8 8 10 10 14 14 Truncado 6 6 8 10 14 Completo 0 50 150 250 350 0 50 150 (c) (d) − C4 - Completo - Taxas muito elevadas ao longo de todo o dia. − C4 - Truncado - Provavelmente, empresas uma vez que os seus utilizadores se caracterizam por taxas baixas durante o fim-de-semana e noite e elevadas durante as horas de expediente. Análise multivariada na caracterização de utilizadores de Internet – p. 40/4 Conclusões II • Cada vector resposta, associado a um utilizador, foi decomposto em 3 componentes: periódica, ruído e picos. Análise multivariada na caracterização de utilizadores de Internet – p. 41/4 Conclusões II • Cada vector resposta, associado a um utilizador, foi decomposto em 3 componentes: periódica, ruído e picos. • Os fluxos próprios associados à componente periódica, ruído e picos explicam 52%, 47% e 1%, respectivamente. Análise multivariada na caracterização de utilizadores de Internet – p. 41/4 Conclusões II • Cada vector resposta, associado a um utilizador, foi decomposto em 3 componentes: periódica, ruído e picos. • Os fluxos próprios associados à componente periódica, ruído e picos explicam 52%, 47% e 1%, respectivamente. • Os dados truncados (considerando apenas a componente periódica) foram usados para detectar perfis semanais de utilização da Internet. Análise multivariada na caracterização de utilizadores de Internet – p. 41/4 Conclusões II • Cada vector resposta, associado a um utilizador, foi decomposto em 3 componentes: periódica, ruído e picos. • Os fluxos próprios associados à componente periódica, ruído e picos explicam 52%, 47% e 1%, respectivamente. • Os dados truncados (considerando apenas a componente periódica) foram usados para detectar perfis semanais de utilização da Internet. • Os perfis detectados são componente periódica. essencialmente explicados pela Análise multivariada na caracterização de utilizadores de Internet – p. 41/4 Conclusões II • A partição obtida à custa dos dados truncados é caracterizada por valores mais elevados de average silhouette, o que indica uma estrutura em clusters mais vincada. Análise multivariada na caracterização de utilizadores de Internet – p. 42/4 Conclusões II • A partição obtida à custa dos dados truncados é caracterizada por valores mais elevados de average silhouette, o que indica uma estrutura em clusters mais vincada. • Só se encontram discrepâncias assinaláveis entre as partições obtidas a partir dos dados completos e truncados quando se consideram 4 clusters. Análise multivariada na caracterização de utilizadores de Internet – p. 42/4 Conclusões II • A partição obtida à custa dos dados truncados é caracterizada por valores mais elevados de average silhouette, o que indica uma estrutura em clusters mais vincada. • Só se encontram discrepâncias assinaláveis entre as partições obtidas a partir dos dados completos e truncados quando se consideram 4 clusters. • Os dados truncados revelam um agrupamento dos utilizadores (empresas) que não é detectado pelos dados completos. Análise multivariada na caracterização de utilizadores de Internet – p. 42/4 Conclusões II • A partição obtida à custa dos dados truncados é caracterizada por valores mais elevados de average silhouette, o que indica uma estrutura em clusters mais vincada. • Só se encontram discrepâncias assinaláveis entre as partições obtidas a partir dos dados completos e truncados quando se consideram 4 clusters. • Os dados truncados revelam um agrupamento dos utilizadores (empresas) que não é detectado pelos dados completos. • Entender a estrutura do tráfego da Internet é importante para várias actividades de engenharia de tráfego e ainda para definir políticas adequadas de tarifação. Análise multivariada na caracterização de utilizadores de Internet – p. 42/4