Microsoft Word - Amazon \351 uma rede social - VERS\303O
Transcrição
Microsoft Word - Amazon \351 uma rede social - VERS\303O
GUILHERME VASCONCELLOS BRANDÃO GUILHERME FERREIRA BIONI E SILVA WAGNER SILVA ESTEVES A AMAZON É UMA REDE SOCIAL? Trabalho a ser apresentado no 5º Congresso Brasileiro de Pesquisa – Mercado, Opinião e Mídia, realizado pela ABEP. SÃO PAULO MARÇO DE 2012 RESUMO O artigo introduz alguns conceitos básicos de análise matemática de redes sociais, descrevendo a origem da Teoria dos Grafos, e os conceitos de nós, ligações e medidas de centralidade como grau. Mostra como a Amazon pode ser vista como uma rede social. Discute também em linhas gerais algoritmos de segmentação de redes. Apresenta um estudo de caso de redes de livros vendidos na Amazon e, com base nos dados deste estudo de caso, indica como recomendações e vendas são altamente correlacionadas. ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 2 ABSTRACT The paper introduces basic concepts of social networks mathematical analysis, describing the origin of Graph Theory, and concepts such as vertices, edges e centrality measures like degree. It shows how Amazon can be seen as a social network. A brief discussion of segmentation techniques for networks can be used. A case study of books sold I Amazon is presented. Based on data from the case study, it is shown how recommendations and selling are high correlated. ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 3 SUMÁRIO 1. INTRODUÇÃO .................................................................................................................. 5 2. TEORIA DOS GRAFOS .................................................................................................... 7 3. 2.1 Conceitos Básicos ........................................................................................................ 7 2.2 Redes livres de escala (Scale-Free networks) ............................................................ 10 2.3 Redes Sociais ............................................................................................................. 11 A AMAZON COMO UMA REDE SOCIAL – uma economia contra-intuitiva ............. 12 3.1 Uma rede de livros da Amazon.................................................................................. 14 4. CONCLUSÃO .................................................................................................................. 17 5. BIBLIOGRAFIA .............................................................................................................. 18 ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 4 1. INTRODUÇÃO Nosso texto começa com o genial matemático suíço Leonard Euler em 1735. Euler se deparava com o famoso problema das Sete Pontes de Königsberg. A cidade de Königsberg, então pertencente à Prússia (hoje Kaliningrad, na Rússia) situava-se nas duas margens do Rio Pregel, incluindo duas grandes ilhas que eram conectadas uma à outra e às duas margens através de sete pontes. O esquema abaixo, obtido no verbete do Wikipedia relativo às Seven Bridges of Königsberg, descreve a situação: Figura 1 – Mapa de Königsberg (1735) com as sete pontes em relevo (Fonte : Wikipedia) O problema consistia em encontrar um caminho pela cidade de tal forma que cada ponte fosse percorrida apenas uma vez. Euler provou que esse problema não tinha solução, mas o que mais nos interessa aqui é que, para estudar a questão, o suíço inventou um novo ramo da matemática: a Teoria dos Grafos. O esquema de prova de Euler produzia a seguinte sequência de passos: Figura 2 – Esquema conceitual de Euler para o problema das sete pontes (Fonte : Wikipedia) ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 5 Em termos modernos (Teoria dos Grafos), a cada massa de terra se associa um nó (vertice). Assim temos quatro nós: dois para cada margem e dois para cada ilha. A cada ponte corresponde uma ligação (edge). Então temos sete ligações, correspondentes a cada uma das sete pontes. Do mapa à esquerda da Figura 2 resulta o grafo (graph) à direita da mesma Figura 2. ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 6 2. TEORIA DOS GRAFOS 2.1 Conceitos Básicos Um grafo pode ser indireto: Figura 3 – Grafo Indireto Ou direto: Figura 4 – Grafo Direto Ou seja: • no grafo direto, as direções importam: a ligação vai, por exemplo, do nó 1 para o nó 2; • no grafo indireto, apenas a ligação entre 1 e 2 é apontada, não interessando a direção. Há várias métricas que medem características dos grafos (ver, por exemplo, Newman (2011)). Aqui vai nos interessar apenas o grau (degree) do nó – a soma do número de ligações que entram ou saem do nó (in-degree e out-degree). Essa é ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 7 uma medida da importância do nó (os mais importantes poderiam ser considerados como hubs da rede): Figura 5 – Hubs na Rede rede. Os nós 1 e 2 são de grau 4, podendo assim serem considerados os hubs da O número de fenômenos que podem ser modelados por redes é gigantesco, indo da estrutura de uma organização (que pode ser vista como uma das primeiras aplicações do método, ainda no século XIX – ver, por exemplo, Freeman (2004)), passando por estruturas moleculares, redes de pessoas, estudantes dos diversos graus, sexo e idade, até, é claro, redes sociais. O exemplo abaixo ilustra essa capacidade. Trata-se (ver, por exemplo, Hansen et alli (2011)) de uma representação dos personagens do famoso livro Les Misérables, de Victor Hugo, onde a ligação entre os personagens se dá pelo número de vezes em que aparecem juntos na mesma cena no livro: Figura 6 – Personagens de Les Misérables ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 8 Como se vê na Figura 6, Jean Valjean (Valjean, o maior nó da figura) é o grande hub da rede. Na verdade, o livro trata da biografia de Jean Valjean. Sem ele não haveria nem livro nem rede. Os nós podem ser agrupados por técnicas específicas de clustering para redes ou por métodos de cluster analysis convencionais: Figura 7 – Grupos de Personagens de Les Misérables O algoritmo (para uma descrição de métodos de segmentação em redes, ver, por exemplo, Newmann (2011)) determinou três grupos, que, de uma maneira geral, correspondem, como era de se esperar, aos volumes, ou conjunto de volumes, do livro original. Uma descrição dos personagens em cada volume pode ser encontrada na Wikipedia. Uma outra técnica de segmentação de redes é descrita, por exemplo, em Sá Lucas et alli (2010). O leitor interessado pode encontrar várias aplicações de redes em Easley e Kleinberg (2010). Neste texto tratamos apenas de aplicações não probabilísticas e estáticas. O leitor interessado pode encontrar aplicações probabilísticas em Koller e Friedman (2009). Aplicações dinâmicas podem ser estudadas em Barrat et alli (2008). Mais informações podem ser encontradas em Scott e Carrington (2011). ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 9 2.2 Redes livres de escala (Scale-Free networks) De uma forma geral, pode-se ter dois grandes tipos de redes: • • Redes aleatórias (Random Networks): os graus da rede seguem uma distribuição aleatória Redes livres de escala (Scale-Free Networks): a distribuição dos nós da rede segue uma lei potência da forma: Onde k é o número de graus do nó, c uma constante de normalização e γ é um parâmetro que tipicamente se encontra no intervalo 2 < γ < 3. Assim, em uma scale-free network a probabilidade de que o nó tenha um número k de ligações é inversamente proporcional a um parâmetro γ não desprezível. A situação é ilustrada na figura abaixo: Figura 8 – Redes aleatórias e livres de escala Na figura à direita (rede livre de escala) existem poucos nós (em preto) de alta centralidade, que muitas vezes são chamados de hubs da rede. Um exemplo comparativo seria, por exemplo, nos Estados Unidos: • Rede aleatória: a rede de auto-estradas – na maior parte das vezes, se um nó tem algum problema que impede que se passe por ele, pode-se fazer o percurso facilmente através de outros nós; • Scale-free network: a rede de caminhos aéreos – Houston, Atlanta e Chicago ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 10 são, por exemplo, hubs. A queda de um hub desses certamente vai causar sérios transtornos no transporte aéreo americano. No caso de Les Misérables Jean Valjean é um forte hub: sem ele não haveria a rede. Há várias definições alternativas de hub: ver, por exemplo, Sá Lucas et alli (2010). 2.3 Redes Sociais Quando se pensa em rede sociais, as primeiras citações que vêm à cabeça são Facebook, Wikipedia, You Tube, SlideShare, Flickr e assemelhados. Todas essas redes têm em comum, entre outros aspectos, o fato de que as pessoas contribuem para seu conteúdo de forma espontânea e grátis. De igual importância nos rumos que a Web vem tomando são contribuições do tipo crowdsourcing e o saber das multidões (ver por exemplo, Kaden et alli (2012) e Watts(2011)). A idéia básica aqui é que mecanismos onde um grande número de pessoas pode “postar” suas opiniões permite ao interessado (empresas, agentes governamentais etc) coletar opiniões de um enorme grupo de pessoas. Isso, é claro, permite uma nova abordagem à coleta de dados em pesquisa de mercado, bem como o acompanhamento do buzz (o que se fala dessa empresa, dessa marca etc. nos diversos sites de rede social: blogs, Facebook etc.). ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 11 3. A AMAZON COMO UMA REDE SOCIAL – uma economia contra-intuitiva Nesse estudo o que nos interessa, no caso da Amazon, é seu caráter de crowdsourcing: Não é a Amazon que fornece a informação mais relevante no site (reviews de livros) (Porter(2008)): o São as pessoas que contribuem com seus comentários que fornecem um dos conteúdos mais importantes do site, sem que sejam pagas por isso. Como aprendemos em Economia, todo o produto tem um preço (“não existe almoço grátis”) mas uma das mais importantes características da Amazon não custa nada (sobre o assunto ver também Tapscott e Williams(2008)); o As pessoas não são administradas – o enorme volume de reviews é resultado de contribuições independentes e no seu conjunto fornecem um recurso fundamental da rede; o As pessoas tomam o seu tempo para ajudar na avaliação de livros para ajudar outros internautas que elas nunca viram; o Além do tempo gasto no review as pessoas ajudam a julgar se um determinado comentário foi útil ou não, o que permite ao site reorganizar as recomendações. Vamos tomar como exemplo o livro de Joshua Porter – Designing for the Social Web – 2008: Figura 9 – Uma busca de um livro na Amazon ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 12 A figura acima é o resultado da busca na Amazon do livro em questão. Notase que o livro recebeu 21 reviews, em sua maioria positivos (ver quantas estrelas estão ressaltadas). Nota-se também que os preços da edição em papel (paperback) e eletrônica (kindle) são bem assemelhados: o que importa é o conteúdo, não o custo de produção do exemplar do livro. A figura abaixo resume informações sobre os reviews: Figura 10 – Resumo das informações sobre os reviews Note que abaixo, à esquerda, temos o review mais útil e favorável, com um percentual de 21 /24= 87,5% de consumidores que acharam o comentário / resenha útil. À direita está o comentário útil mais desfavorável, com 14/14=100% de consumidores considerando o comentário crítico útil. Agora chegamos ao tema central de nosso trabalho - a indicação de “quem comprou esse livro comprou também os seguintes livros”: Figura 11 – Quem comprou esse livro comprou também ... ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 13 Na parte abaixo da figura são indicados cinco livros que costumam ser comprados por que comprou o livro de Porter. O algoritmo de recomendação da Amazon é, por exemplo, descrito em Linden et alli (2003). Note-se também (parte acima da figura) que a Amazon montou um “combo” com o livro de Porter mais os dois livros á direita no conjunto de cinco mais associados ao livro que estamos analisando. 3.1 Uma rede de livros da Amazon É possível construir uma rede de livros baseada nas recomendações da Amazon. Aqui os vértices são livros e as ligações são construídas se, a partir de um determinado livro, outros cinco são obtidos pelo algoritmo de recomendação da Amazon. Pretende-se com isso refletir um efeito de influência do meio social na escolha de um determinado livro (quem comprou esse livro comprou também...). Ao se selecionar um livro, não só se identificava, além dos cinco que se relacionavam com ele, a recomendação top-two (quatro ou cinco estrelas) e sua posição nos livros mais vendidos. Essas coletas adicionais tinham por objetivo calcular índices que serão comentados adiante. Para a identificação da rede foram selecionados cerca de 10 a 15 livros ao acaso, relacionados a redes sociais. Cada uma dessas sementes produziu livros selecionados, até que, nessa amostra bola-de-neve, fossem selecionados cerca de 80 livros. É possível encontrar uma aplicação semelhante, baseada em apenas um livro (apenas uma semente) ou em livros políticos, em Krebs (2010). Em nosso estudo os livros foram também classificados em gêneros: 1. 2. 3. 4. 5. Livros genéricos sobre redes sociais – Verde Livros sobre marketing - Laranja Livros sobre métricas – Azul claro Outros – Rosa Otimização de sites para facilitar com que sejam encontrados por métodos de busca (Google, p.ex.) – Azul escuro 6. Livros sobre redes sócias específicas (Facebook, Twitter etc.) – Marrom 7. Projetos de sites na Web – Púrpura 8. Análise matemática de redes sociais – Branco pérola ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 14 Figura 12 – Rede de livros da Amazon, baseada no algoritmo de recomendações Nota-se, como era de se esperar, que os livros se segmentam por categoria (as cores aparecem de uma forma geral sempre juntas. O tamanho dos nós corresponde a uma medida de centralidade (o grau / degree definido anteriormente). Os nós mais centrais (os maiores, ao centro da figura) são: • Em verde: o Socialnomics • Em laranja o Trust agents o Engage: the complete guide for brands and business to build, cultivate, and measure success in the new Web o The new rules of MKT & PR o Inbound Marketing o Social Media Bible • Em púrpura o Social Media Metrics Não foram indicados os rótulos de cada nó por razões óbvias: o grafo ficaria ilegível. De qualquer forma, fica claro que são centrais na amostra os livros de Marketing e que Socialnomics é um livro que, nesse conjunto, se destaca por ser comprado “na mesma cesta” dos outros. A cesta básica é Social Media Bible, The new rules of MKT & PR, Socialnomics, Engage e Social Media Metrics. ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 15 Existem grupos meio independentes, como os livros de análise matemática de redes (branco pérola) e livros genéricos sobre redes sociais (em verde, com exceção de Socialnomics já apontado acima). Finalmente, realizamos uma análise a partir da amostra sobre a relação entre os reviews e a posição no ranking de mais vendidos. Para isso consideramos duas variáveis em cada livro na amostra: • A posição no ranking, fornecida pela Amazon • Um Índice de performance nos reviews O índice de performance foi calculado da forma: IP = r * ( r / n) Onde: r = número de reviews indicando cinco estrelas para o livro n =número de reviews Assim o IP pode ser encarado como o percentual de reviews com cinco estrelas escalonado pelo número de citações cinco estrelas (para levar em conta a popularidade/boa avaliação absoluta do livro). As duas variáveis seguem uma lei potência (os logaritmos das duas variáveis têm uma relação linear: Figura 13 – Lei Potência entre IP e Rank 6 Log (Rank) 5 4 3 2 1 0 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 Log (IP) O coeficiente de correlação entre os logaritmos das duas variáveis é de -0,64. Outros estudos, como os efetuados por Duncan Watts (Watts(2011)) indicam que recomendações geram compra. Assim podemos assumir que as recomendações no Amazon geram venda. ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 16 4. CONCLUSÃO Da apresentação deve ter ficado claro o aspecto de rede social da Amazon. A relação entre recomendações e vendas deve ter ficado evidente. Aliás, isso é algo que se deveria esperar: • ao se comprar um carro, é bastante comum que o futuro comprador procure entre pessoas de sua relação (sua rede) recomendações quanto à qualidade, durabilidade, custo de manutenção etc. • na compra de um apartamento, é comum o possível comprador informar-se sobre a região onde se localiza o imóvel pretendido O número de situações assemelhadas é enorme. Além disso, essa abordagem introduz na Pesquisa de Mercado um aspecto de suma importância: o ambiente em que as decisões de compra são tomadas. Usualmente isso é levado em consideração de maneira indireta, mas aqui o ambiente de recomendações e as cestas típicas de compra são levadas explicitamente em consideração, o que enriquece enormemente analise. A rede analisada é estática e não probabilista. Nosso próximo passo nessa área será uma abordagem probabilística e dinâmica dos hubs. Uma área que se mostra particularmente interessante aqui é a de modelagem baseada em agentes (ver, por exemplo, Miller e Page (2007)). ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 17 5. BIBLIOGRAFIA Barrat, A., Barthélemy, M., Vespignani, A., Dynamical Processes on Complex Networks, Cambridge: Cambridge University Press, 2010. Easley, D. e Kleinberg, J., Networks, Crowds and Markets: Reasoning about a Highly Connected World, New York: Cambridge University Press, 2010. Freeman, The Development of Social Network Analysis: A Study in the Sociology of Science, Vancouver: Empirical Press, 2004. Hansen, D., Shneiderman, B. e Smith, M., Analyzing Social Media with NodeXL: Insights from a Connected World, Burlington: Morgan Kaufman, 2011. Kaden, R., Linda, G., e Prince, M., Leading Edge Marketing Research, Thousand Oaks: Sage Publications, 2012. Koller, D. e Friedman, N., Probabilistic Graphical Models: Principles and Techniques, Cambridge: The MIT Press, 2009. Krebs,V., Your Choices Reveal Who You Are, in Beautiful Visualization, Steele, L. e Iliinsky, N., Beautiful Visualization, Sebastopol: O´Reilly, 2010. Linden, G., Smith, B. e York, J., Amazon.com Recommendation: Item-to-Item Collaborative Filtering, IEEE Internet Computing, Jan-Feb 2003, pgs. 78-80. Miller, J. e Page, S., Complex Adaptive Systems: an Introduction to Computation Models of Social Life, Princeton: Prinicetion University Press, 2007. Newman, M.E., Networks: An Introduction, Oxford: Oxford University Press, 2011. Porter, J., Designing for the Social Web, Berkeley: New Riders, 2008. Sá Lucas, L., Soares, L. e Lopes, R., Looking for Eric: in Search of Hub Consumers, ESOMAR LATAM Conference, Cartagena, 2010. Scott,J. e Carrington, P., editors, The Sage Handbook of Social Network Analysis, Thousand Oaks: Sage Publications, 2011. Tapscott, D. e Williams, A., Wikinomics:ow Mass Collaboration Changes Everything, New York: Penguin Group, 2008. Watts, D.J., Everything is Obvious, Once you know the Answer, New York: Crown Business, 2011. ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 18 ABEP – Associação Brasileira de Empresas de Pesquisa Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012 São Paulo – 2012 – www.abep.org 19