Microsoft Word - Amazon \351 uma rede social - VERS\303O

Transcrição

Microsoft Word - Amazon \351 uma rede social - VERS\303O
GUILHERME VASCONCELLOS BRANDÃO
GUILHERME FERREIRA BIONI E SILVA
WAGNER SILVA ESTEVES
A AMAZON É UMA REDE SOCIAL?
Trabalho a ser apresentado no 5º
Congresso Brasileiro de Pesquisa –
Mercado, Opinião e Mídia, realizado pela
ABEP.
SÃO PAULO
MARÇO DE 2012
RESUMO
O artigo introduz alguns conceitos básicos de análise matemática de redes sociais,
descrevendo a origem da Teoria dos Grafos, e os conceitos de nós, ligações e
medidas de centralidade como grau. Mostra como a Amazon pode ser vista como
uma rede social. Discute também em linhas gerais algoritmos de segmentação de
redes. Apresenta um estudo de caso de redes de livros vendidos na Amazon e, com
base nos dados deste estudo de caso, indica como recomendações e vendas são
altamente correlacionadas.
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
2
ABSTRACT
The paper introduces basic concepts of social networks mathematical analysis,
describing the origin of Graph Theory, and concepts such as vertices, edges e
centrality measures like degree. It shows how Amazon can be seen as a social
network. A brief discussion of segmentation techniques for networks can be used. A
case study of books sold I Amazon is presented. Based on data from the case study,
it is shown how recommendations and selling are high correlated.
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
3
SUMÁRIO
1.
INTRODUÇÃO .................................................................................................................. 5
2.
TEORIA DOS GRAFOS .................................................................................................... 7
3.
2.1
Conceitos Básicos ........................................................................................................ 7
2.2
Redes livres de escala (Scale-Free networks) ............................................................ 10
2.3
Redes Sociais ............................................................................................................. 11
A AMAZON COMO UMA REDE SOCIAL – uma economia contra-intuitiva ............. 12
3.1
Uma rede de livros da Amazon.................................................................................. 14
4.
CONCLUSÃO .................................................................................................................. 17
5.
BIBLIOGRAFIA .............................................................................................................. 18
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
4
1. INTRODUÇÃO
Nosso texto começa com o genial matemático suíço Leonard Euler em 1735.
Euler se deparava com o famoso problema das Sete Pontes de Königsberg. A
cidade de Königsberg, então pertencente à Prússia (hoje Kaliningrad, na Rússia)
situava-se nas duas margens do Rio Pregel, incluindo duas grandes ilhas que eram
conectadas uma à outra e às duas margens através de sete pontes.
O esquema abaixo, obtido no verbete do Wikipedia relativo às Seven Bridges
of Königsberg, descreve a situação:
Figura 1 – Mapa de Königsberg (1735) com as sete pontes em relevo
(Fonte : Wikipedia)
O problema consistia em encontrar um caminho pela cidade de tal forma que
cada ponte fosse percorrida apenas uma vez. Euler provou que esse problema não
tinha solução, mas o que mais nos interessa aqui é que, para estudar a questão, o
suíço inventou um novo ramo da matemática: a Teoria dos Grafos. O esquema de
prova de Euler produzia a seguinte sequência de passos:
Figura 2 – Esquema conceitual de Euler para o problema das sete pontes
(Fonte : Wikipedia)
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
5
Em termos modernos (Teoria dos Grafos), a cada massa de terra se associa
um nó (vertice). Assim temos quatro nós: dois para cada margem e dois para cada
ilha. A cada ponte corresponde uma ligação (edge). Então temos sete ligações,
correspondentes a cada uma das sete pontes. Do mapa à esquerda da Figura 2
resulta o grafo (graph) à direita da mesma Figura 2.
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
6
2. TEORIA DOS GRAFOS
2.1 Conceitos Básicos
Um grafo pode ser indireto:
Figura 3 – Grafo Indireto
Ou direto:
Figura 4 – Grafo Direto
Ou seja:
• no grafo direto, as direções importam: a ligação vai, por exemplo, do nó 1
para o nó 2;
• no grafo indireto, apenas a ligação entre 1 e 2 é apontada, não interessando a
direção.
Há várias métricas que medem características dos grafos (ver, por exemplo,
Newman (2011)). Aqui vai nos interessar apenas o grau (degree) do nó – a soma do
número de ligações que entram ou saem do nó (in-degree e out-degree). Essa é
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
7
uma medida da importância do nó (os mais importantes poderiam ser considerados
como hubs da rede):
Figura 5 – Hubs na Rede
rede.
Os nós 1 e 2 são de grau 4, podendo assim serem considerados os hubs da
O número de fenômenos que podem ser modelados por redes é gigantesco,
indo da estrutura de uma organização (que pode ser vista como uma das primeiras
aplicações do método, ainda no século XIX – ver, por exemplo, Freeman (2004)),
passando por estruturas moleculares, redes de pessoas, estudantes dos diversos
graus, sexo e idade, até, é claro, redes sociais.
O exemplo abaixo ilustra essa capacidade. Trata-se (ver, por exemplo,
Hansen et alli (2011)) de uma representação dos personagens do famoso livro Les
Misérables, de Victor Hugo, onde a ligação entre os personagens se dá pelo
número de vezes em que aparecem juntos na mesma cena no livro:
Figura 6 – Personagens de Les Misérables
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
8
Como se vê na Figura 6, Jean Valjean (Valjean, o maior nó da figura) é o
grande hub da rede. Na verdade, o livro trata da biografia de Jean Valjean. Sem ele
não haveria nem livro nem rede.
Os nós podem ser agrupados por técnicas específicas de clustering para
redes ou por métodos de cluster analysis convencionais:
Figura 7 – Grupos de Personagens de Les Misérables
O algoritmo (para uma descrição de métodos de segmentação em redes, ver,
por exemplo, Newmann (2011)) determinou três grupos, que, de uma maneira geral,
correspondem, como era de se esperar, aos volumes, ou conjunto de volumes, do
livro original. Uma descrição dos personagens em cada volume pode ser encontrada
na Wikipedia. Uma outra técnica de segmentação de redes é descrita, por exemplo,
em Sá Lucas et alli (2010).
O leitor interessado pode encontrar várias aplicações de redes em Easley e
Kleinberg (2010). Neste texto tratamos apenas de aplicações não probabilísticas e
estáticas. O leitor interessado pode encontrar aplicações probabilísticas em Koller e
Friedman (2009). Aplicações dinâmicas podem ser estudadas em Barrat et alli
(2008). Mais informações podem ser encontradas em Scott e Carrington (2011).
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
9
2.2 Redes livres de escala (Scale-Free networks)
De uma forma geral, pode-se ter dois grandes tipos de redes:
•
•
Redes aleatórias (Random Networks): os graus da rede seguem uma
distribuição aleatória
Redes livres de escala (Scale-Free Networks): a distribuição dos nós da
rede segue uma lei potência da forma:
Onde k é o número de graus do nó, c uma constante de normalização e γ é um
parâmetro que tipicamente se encontra no intervalo 2 < γ < 3.
Assim, em uma scale-free network a probabilidade de que o nó tenha um
número k de ligações é inversamente proporcional a um parâmetro γ não
desprezível. A situação é ilustrada na figura abaixo:
Figura 8 – Redes aleatórias e livres de escala
Na figura à direita (rede livre de escala) existem poucos nós (em preto) de alta
centralidade, que muitas vezes são chamados de hubs da rede. Um exemplo
comparativo seria, por exemplo, nos Estados Unidos:
• Rede aleatória: a rede de auto-estradas – na maior parte das vezes, se um nó
tem algum problema que impede que se passe por ele, pode-se fazer o
percurso facilmente através de outros nós;
• Scale-free network: a rede de caminhos aéreos – Houston, Atlanta e Chicago
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
10
são, por exemplo, hubs. A queda de um hub desses certamente vai causar sérios
transtornos no transporte aéreo americano. No caso de Les Misérables Jean
Valjean é um forte hub: sem ele não haveria a rede.
Há várias definições alternativas de hub: ver, por exemplo, Sá Lucas et alli
(2010).
2.3 Redes Sociais
Quando se pensa em rede sociais, as primeiras citações que vêm à cabeça
são Facebook, Wikipedia, You Tube, SlideShare, Flickr e assemelhados. Todas
essas redes têm em comum, entre outros aspectos, o fato de que as pessoas
contribuem para seu conteúdo de forma espontânea e grátis.
De igual importância nos rumos que a Web vem tomando são contribuições
do tipo crowdsourcing e o saber das multidões (ver por exemplo, Kaden et alli
(2012) e Watts(2011)). A idéia básica aqui é que mecanismos onde um grande
número de pessoas pode “postar” suas opiniões permite ao interessado (empresas,
agentes governamentais etc) coletar opiniões de um enorme grupo de pessoas.
Isso, é claro, permite uma nova abordagem à coleta de dados em pesquisa de
mercado, bem como o acompanhamento do buzz (o que se fala dessa empresa,
dessa marca etc. nos diversos sites de rede social: blogs, Facebook etc.).
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
11
3. A AMAZON COMO UMA REDE SOCIAL – uma economia
contra-intuitiva
Nesse estudo o que nos interessa, no caso da Amazon, é seu caráter de
crowdsourcing: Não é a Amazon que fornece a informação mais relevante no site
(reviews de livros) (Porter(2008)):
o São as pessoas que contribuem com seus comentários que fornecem um dos
conteúdos mais importantes do site, sem que sejam pagas por isso. Como
aprendemos em Economia, todo o produto tem um preço (“não existe almoço
grátis”) mas uma das mais importantes características da Amazon não custa
nada (sobre o assunto ver também Tapscott e Williams(2008));
o As pessoas não são administradas – o enorme volume de reviews é resultado
de contribuições independentes e no seu conjunto fornecem um recurso
fundamental da rede;
o As pessoas tomam o seu tempo para ajudar na avaliação de livros para ajudar
outros internautas que elas nunca viram;
o Além do tempo gasto no review as pessoas ajudam a julgar se um
determinado comentário foi útil ou não, o que permite ao site reorganizar as
recomendações.
Vamos tomar como exemplo o livro de Joshua Porter – Designing for the Social
Web – 2008:
Figura 9 – Uma busca de um livro na Amazon
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
12
A figura acima é o resultado da busca na Amazon do livro em questão. Notase que o livro recebeu 21 reviews, em sua maioria positivos (ver quantas estrelas
estão ressaltadas). Nota-se também que os preços da edição em papel (paperback)
e eletrônica (kindle) são bem assemelhados: o que importa é o conteúdo, não o
custo de produção do exemplar do livro.
A figura abaixo resume informações sobre os reviews:
Figura 10 – Resumo das informações sobre os reviews
Note que abaixo, à esquerda, temos o review mais útil e favorável, com um
percentual de 21 /24= 87,5% de consumidores que acharam o comentário / resenha
útil. À direita está o comentário útil mais desfavorável, com 14/14=100% de
consumidores considerando o comentário crítico útil.
Agora chegamos ao tema central de nosso trabalho - a indicação de “quem
comprou esse livro comprou também os seguintes livros”:
Figura 11 – Quem comprou esse livro comprou também ...
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
13
Na parte abaixo da figura são indicados cinco livros que costumam ser
comprados por que comprou o livro de Porter. O algoritmo de recomendação da
Amazon é, por exemplo, descrito em Linden et alli (2003). Note-se também (parte
acima da figura) que a Amazon montou um “combo” com o livro de Porter mais os
dois livros á direita no conjunto de cinco mais associados ao livro que estamos
analisando.
3.1 Uma rede de livros da Amazon
É possível construir uma rede de livros baseada nas recomendações da
Amazon. Aqui os vértices são livros e as ligações são construídas se, a partir de um
determinado livro, outros cinco são obtidos pelo algoritmo de recomendação da
Amazon.
Pretende-se com isso refletir um efeito de influência do meio social na escolha
de um determinado livro (quem comprou esse livro comprou também...). Ao se
selecionar um livro, não só se identificava, além dos cinco que se relacionavam com
ele, a recomendação top-two (quatro ou cinco estrelas) e sua posição nos livros
mais vendidos. Essas coletas adicionais tinham por objetivo calcular índices que
serão comentados adiante.
Para a identificação da rede foram selecionados cerca de 10 a 15 livros ao
acaso, relacionados a redes sociais. Cada uma dessas sementes produziu livros
selecionados, até que, nessa amostra bola-de-neve, fossem selecionados cerca de
80 livros. É possível encontrar uma aplicação semelhante, baseada em apenas um
livro (apenas uma semente) ou em livros políticos, em Krebs (2010). Em nosso
estudo os livros foram também classificados em gêneros:
1.
2.
3.
4.
5.
Livros genéricos sobre redes sociais – Verde
Livros sobre marketing - Laranja
Livros sobre métricas – Azul claro
Outros – Rosa
Otimização de sites para facilitar com que sejam encontrados por métodos de
busca (Google, p.ex.) – Azul escuro
6. Livros sobre redes sócias específicas (Facebook, Twitter etc.) – Marrom
7. Projetos de sites na Web – Púrpura
8. Análise matemática de redes sociais – Branco pérola
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
14
Figura 12 – Rede de livros da Amazon, baseada no algoritmo de recomendações
Nota-se, como era de se esperar, que os livros se segmentam por categoria (as
cores aparecem de uma forma geral sempre juntas. O tamanho dos nós
corresponde a uma medida de centralidade (o grau / degree definido anteriormente).
Os nós mais centrais (os maiores, ao centro da figura) são:
• Em verde:
o Socialnomics
• Em laranja
o Trust agents
o Engage: the complete guide for brands and business to build, cultivate,
and measure success in the new Web
o The new rules of MKT & PR
o Inbound Marketing
o Social Media Bible
• Em púrpura
o Social Media Metrics
Não foram indicados os rótulos de cada nó por razões óbvias: o grafo ficaria
ilegível. De qualquer forma, fica claro que são centrais na amostra os livros de
Marketing e que Socialnomics é um livro que, nesse conjunto, se destaca por ser
comprado “na mesma cesta” dos outros. A cesta básica é Social Media Bible, The
new rules of MKT & PR, Socialnomics, Engage e Social Media Metrics.
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
15
Existem grupos meio independentes, como os livros de análise matemática de
redes (branco pérola) e livros genéricos sobre redes sociais (em verde, com exceção
de Socialnomics já apontado acima).
Finalmente, realizamos uma análise a partir da amostra sobre a relação entre os
reviews e a posição no ranking de mais vendidos. Para isso consideramos duas
variáveis em cada livro na amostra:
• A posição no ranking, fornecida pela Amazon
• Um Índice de performance nos reviews
O índice de performance foi calculado da forma:
IP = r * ( r / n)
Onde:
r = número de reviews indicando cinco estrelas para o livro
n =número de reviews
Assim o IP pode ser encarado como o percentual de reviews com cinco
estrelas escalonado pelo número de citações cinco estrelas (para levar em conta a
popularidade/boa avaliação absoluta do livro).
As duas variáveis seguem uma lei potência (os logaritmos das duas variáveis têm
uma relação linear:
Figura 13 – Lei Potência entre IP e Rank
6
Log (Rank)
5
4
3
2
1
0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
Log (IP)
O coeficiente de correlação entre os logaritmos das duas variáveis é de -0,64.
Outros estudos, como os efetuados por Duncan Watts (Watts(2011)) indicam que
recomendações geram compra. Assim podemos assumir que as recomendações no
Amazon geram venda.
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
16
4. CONCLUSÃO
Da apresentação deve ter ficado claro o aspecto de rede social da Amazon. A
relação entre recomendações e vendas deve ter ficado evidente. Aliás, isso é algo
que se deveria esperar:
• ao se comprar um carro, é bastante comum que o futuro comprador procure
entre pessoas de sua relação (sua rede) recomendações quanto à qualidade,
durabilidade, custo de manutenção etc.
• na compra de um apartamento, é comum o possível comprador informar-se
sobre a região onde se localiza o imóvel pretendido
O número de situações assemelhadas é enorme. Além disso, essa abordagem
introduz na Pesquisa de Mercado um aspecto de suma importância: o ambiente em
que as decisões de compra são tomadas. Usualmente isso é levado em
consideração de maneira indireta, mas aqui o ambiente de recomendações e as
cestas típicas de compra são levadas explicitamente em consideração, o que
enriquece enormemente analise.
A rede analisada é estática e não probabilista. Nosso próximo passo nessa
área será uma abordagem probabilística e dinâmica dos hubs. Uma área que se
mostra particularmente interessante aqui é a de modelagem baseada em agentes
(ver, por exemplo, Miller e Page (2007)).
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
17
5. BIBLIOGRAFIA
Barrat, A., Barthélemy, M., Vespignani, A., Dynamical Processes on Complex
Networks, Cambridge: Cambridge University Press, 2010.
Easley, D. e Kleinberg, J., Networks, Crowds and Markets: Reasoning about a
Highly Connected World, New York: Cambridge University Press, 2010.
Freeman, The Development of Social Network Analysis: A Study in the
Sociology of Science, Vancouver: Empirical Press, 2004.
Hansen, D., Shneiderman, B. e Smith, M., Analyzing Social Media with
NodeXL: Insights from a Connected World, Burlington: Morgan Kaufman, 2011.
Kaden, R., Linda, G., e Prince, M., Leading Edge Marketing Research,
Thousand Oaks: Sage Publications, 2012.
Koller, D. e Friedman, N., Probabilistic Graphical Models: Principles and
Techniques, Cambridge: The MIT Press, 2009.
Krebs,V., Your Choices Reveal Who You Are, in Beautiful Visualization, Steele,
L. e Iliinsky, N., Beautiful Visualization, Sebastopol: O´Reilly, 2010.
Linden, G., Smith, B. e York, J., Amazon.com Recommendation: Item-to-Item
Collaborative Filtering, IEEE Internet Computing, Jan-Feb 2003, pgs. 78-80.
Miller, J. e Page, S., Complex Adaptive Systems: an Introduction to
Computation Models of Social Life, Princeton: Prinicetion University Press,
2007.
Newman, M.E., Networks: An Introduction, Oxford: Oxford University Press,
2011.
Porter, J., Designing for the Social Web, Berkeley: New Riders, 2008.
Sá Lucas, L., Soares, L. e Lopes, R., Looking for Eric: in Search of Hub
Consumers, ESOMAR LATAM Conference, Cartagena, 2010.
Scott,J. e Carrington, P., editors, The Sage Handbook of Social Network
Analysis, Thousand Oaks: Sage Publications, 2011.
Tapscott, D. e Williams, A., Wikinomics:ow Mass Collaboration Changes
Everything, New York: Penguin Group, 2008.
Watts, D.J., Everything is Obvious, Once you know the Answer, New York:
Crown Business, 2011.
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
18
ABEP – Associação Brasileira de Empresas de Pesquisa
Trabalho apresentado no 5º Congresso Brasileiro de Pesquisa 2012
São Paulo – 2012 – www.abep.org
19