Ler o artigo completo
Transcrição
Ler o artigo completo
A Lei de Zipf e Outras Leis de Potência em Dados Empı́ricos Humberto José Bortolossi, João Júlio Dias Bastos Queiroz e Michele Maria da Silva Instituto de Matemática e Estatı́stica Universidade Federal Fluminense 1 Motivação O que há de comum entre o número de palavras do livro “Memórias Póstumas de Brás Cubas” de Machado de Assis, a distribuição da população humana em cidades, as intensidades das erupções solares, o número de mortes em ataques terroristas, o número de clientes afetados por apagões elétricos e a maneira como alguns animais buscam por alimentos em seu habitat? A resposta é surpreendente: estudos estatı́sticos dão forte suporte ao fato de que estes e muitos outros fenômenos podem ser descritos por leis de potência, isto é, leis que são expressas por funções potências y = f (x) = b xa , com a e b constantes reais. Vejamos um exemplo em detalhes. 2 A Lei de Zipf Conte quantas vezes cada palavra aparece em um determinado texto. Existem palavras que aparecerão mais vezes do que outras. Crie então uma tabela, ordenando as palavras por sua frequência. A Tabela 1 apresenta o resultado deste processo para as palavras do romance “Memórias Póstumas de Brás Cubas” de Machado de Assis. Posição (x) 1 2 3 4 5 6 Tabela 1 Frequência (y) 2489 2203 2112 1949 1711 1164 Palavra a que de e o não x = log(x) 0,00000. . . 0,30102. . . 0,47712. . . 0,60205. . . 0,69897. . . 0,77815. . . .. . .. . .. . .. . .. . .. . 178 37 Brás 2,25042. . . 1,56820. . . Brás .. . .. . .. . .. . .. . .. . 10447 10448 10449 1 1 1 zelo Zenon Zeus 4,01899. . . 4,01903. . . 4,01907. . . 0,00000. . . 0,00000. . . 0,00000. . . zelo Zenon Zeus Tabela 2 y = log(y) 3,39602. . . 3,34301. . . 3,32469. . . 3,28981. . . 3,23325. . . 3,06595. . . Palavra a que de e o não Use em seguida um truque muito útil quando leis de potência são examinadas: ao invés de analisar x (a posição da palavra) e y (a sua frequência), estude x = log(x) e 1 y = log(y), cujos valores são apresentados na Tabela 2. Marque então os pontos ( x, y) em um mesmo sistema de eixos coordenados. O resultado é a figura abaixo. 3,25 3,00 2,75 2,50 log(frequência) 2,25 2,00 1,75 1,50 1,25 1,00 0,75 0,50 0,25 0,00 0,00 0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,25 2,50 2,75 3,00 3,25 3,50 3,75 4,00 log(posição) Note que os pontos ( x, y) parecem se alinhar, principalmente para os valores de x (logaritmo da posição) entre 1,5 e 3,0. Como achar uma reta representativa para estes dados? Uma técnica estatı́stica padrão é o método dos mı́nimos quadrados, que obtém a equação de uma reta minimizando a soma dos quadrados das diferenças entre as ordenadas dos dados e os valores previstos pela equação da reta. O uso deste método para todos os pontos ( x, y) da Tabela 2 produz a reta azul da figura, cuja equação é y = 3,567 − 0,925 x . Agora, lembrando que x = log(x) e y = log(y), vemos que y = 3,567 − 0,925 x ⇔ ⇔ ⇔ ⇔ log(y) = log(103,567 ) − 0,925 log(x) log(y) = log(3689,775) + log(x−0,925 ) log(y) = log(3689,775 x−0,925 ) y = f (x) = 3689,775 x−0,925 , isto é, de forma aproximada, a frequência e a posição das palavras estão relacionadas por uma lei de potência. Esta lei empı́rica é hoje conhecida como a “Lei de Zipf”, em homenagem ao professor de linguı́stica da Universidade de Harvard, George Kingsley Zipf (1902–1950), o primeiro a investigar de forma sistemática fenômenos da estrutura estatı́stica em conjuntos de dados linguı́sticos e demográficos. Algumas observações: (1) A reta obtida pelo método dos mı́nimos quadrados (a reta em azul) não acomoda muito bem os dados para os valores iniciais e finais de x . Vários autores têm sugerido adaptações para a Lei de Zipf a fim de obter um modelo mais adequado. Outros autores simplesmente consideram que a Lei de Zipf é válida apenas para valores de x em um determinado intervalo [Clauset, Shalizi, Newman, 2009]. (2) Embora nossa análise com o método dos mı́nimos quadrados seja, digamos, bastante visual e ingênua, a Lei de Zipf (bem como outras leis de potência) tem passado com sucesso por testes estatı́sticos mais sofisticados [Clauset, Shalizi, Newman, 2009]. (3) A Lei de Zipf tem sido verificada para vários outros idiomas: inglês, francês, árabe, grego moderno, etc. Ela foi detectada mesmo em outras formas de comunicação, como assobios de golfinhos e composições musicais. 2 3 Outras leis de potência As leis de potência parecem ser ubı́quas, onipresentes! Existe uma quantidade considerável de artigos e livros que estudam e descrevem leis de potência em áreas bem diversas: economia e finança, educação, demografia, geologia, história, climatologia, bibliometria e informetria, terrorismo e guerra, corrupção, turismo, esportes, artes, agronomia, ecologia, biologia, linguı́stica, ciência da computação, ciências cognitivas, ciências sociais, astronomia, mecânica dos sólidos, fı́sica e quı́mica. Algumas leis de potência possuem nome próprio: a Lei de Gutenberg-Richter (sobre a relação entre a frequência e a intensidade dos terremotos), a Lei de Stevens (sobre a relação entre a magnitude de um estı́mulo fı́sico e sua intensidade percebida), o Princı́pio de Pareto (também conhecido como Princı́pio 80/20, sobre a distribuição de renda em uma sociedade), a Lei de Kleiber (sobre a relação entre a taxa metabólica de um organismo e sua massa corporal), a Lei de Lotka (sobre a frequência de publicação de artigos cientı́ficos por diversos autores), a Lei de Yoda (sobre o processo de auto-desbaste entre mudas de plantas), a Lei de Stefan-Boltzmann (sobre a radiação de corpos negros), a Relação de Ramberg-Osgood (sobre a deformação e fadiga de materiais). O assunto é vasto e rico. Infelizmente, o limite de poucas páginas recomendado para este artigo não nos permite apresentar com mais profundidade as leis de potência mencionadas nos parágrafos anteriores. Nosso objetivo aqui é então alertar o leitor sobre o uso das funções potências em outras disciplinas e motivá-lo a procurar saber mais sobre o assunto. Neste sentido, os livros [Bak, 1996], [Schroeder, 1991] e [Brown, West, 2000] (este último sobre alometria, ciência que estuda como as caracterı́sticas dos organismos mudam de acordo com seus tamanhos) constituem um ótimo ponto de partida. O vı́deo [TED, 2009] (com legendas em português) sobre leis de potência em guerras também merece destaque. Indicamos, por fim, [Li, 2011], que apresenta uma coleção com mais de 700 referências sobre leis de potência. 4 Advertência É importante ressaltar a natureza experimental das leis de potência: elas são formuladas a partir de estudos estatı́sticos de dados empı́ricos. Assim, cuidado é necessário! À medida que técnicas de análise estatı́stica mais sofisticadas são desenvolvidas, todo o processo é revisto: algumas leis de potência são confirmadas e outras são questionadas (como o caso do Princı́pio de Pareto para distribuição de rendas). O artigo [Clauset, Shalizi, Newman, 2009] faz uma discussão bem detalhada sobre este tema. Não obstante, é sempre bom ter em mente que certas leis fı́sicas que hoje nos são bem familiares, como a Lei da Queda Livre dos Corpos de Galileu Galilei (1564-1642) e a Lei da Gravitação Universal de Isaac Newton (1643-1727) tiveram uma componente empı́rica em suas formulações: Galileu Galilei fez experimentos com planos inclinados no processo de estabelecer a lei que governa a queda livre dos corpos (uma lei de potência!) e Isaac Newton, em sua obra Principia, diz “Nessa filosofia [experimental] as proposições particulares são inferidas dos fenômenos e depois tornadas gerais por indução”. 5 Invariância em escala Uma propriedade importante das funções potências (e que será usada na próxima seção) é que elas são homogêneas e, portanto, invariantes em escala. Por exemplo, para b = 1 e a = 3, se um evento x duplica de tamanho, então o evento y associado a x por f fica oito vezes maior independentemente do tamanho do evento x: g(x) = f (2 x) = 8f (x) para todo x > 0. Mais geralmente, se f (x) = b xa e λ > 0 é uma constante, então f (λx) = b (λ x)a = b λa xa = λa (b xa ) = λa f (x), para todo x > 0, 3 isto é, fazendo-se um ajuste de escala em y (que não depende de x, só de λ), os gráficos de f (x) = b xa e g(x) = f (λ x) possuem o mesmo formato (as figuras abaixo ilustram este fato para b = 1, a = 3 e λ = 2). Por estes motivos, dados que se distribuem seguindo uma lei de potência não possuem valores caracterı́sticos ou uma escala natural. 2 A propriedade de invariância em escala não é satisfeita, por exemplo, pela função y = b e−a (x−m) , com a, b > 0 e m ∈ R, associada a um outro personagem importante em Estatı́stica: a distribuição normal. 6 Por que e para quê? Explicar o porquê das leis de potência aparecerem em tantos fenômenos é ainda tema de discussão e estudo. Alguns acadêmicos dão explicações especı́ficas para determinados casos. Por exemplo, Zipf justificou sua lei em termos do “Princı́pio do Menor Esforço” [Ferrer i Cancho, Sole, 2003]. Outros acadêmicos criaram teorias mais gerais, com o objetivo de explicar a ocorrência das leis de potência em todos os fenômenos. Este é o caso do fı́sico dinamarquês Per Bak (1948-2002), que propôs a teoria da criticalidade auto-organizada. Segundo esta teoria, os fenômenos em questão são descritos por um sistema complexo onde seus vários agentes interagem entre si e o conduzem, de forma espontânea, a um estado de criticalidade. Neste estado crı́tico, o sistema age como um todo e, de forma imprevisı́vel, ocorrem eventos em várias escalas. Surgem então as funções potências que, como vimos na seção anterior, possuem a propriedade matemática de invariância em escala. Bak dá como paradigma o fenômeno da pilha de areia [Bak, 1996]: imagine que grãos de areia sejam despejados sobre uma mesa. No inı́cio, a pilha é plana e os grãos de areia permanecem próximos às posições onde foram depositados. A medida que o tempo passa, com os vários grãos de areia interagindo entre si, a pilha fica maior e maior, até atingir um ponto onde o sistema fica crı́tico e seu comportamento não pode mais ser entendido em termos dos grãos individuais. Neste estado crı́tico, avalanches de várias escalas (tamanhos) ocorrem de forma imprevisı́vel. Apesar de as avalanches menores serem mais frequentes, é possı́vel detectar um comportamento regido por uma lei de potência, algo do tipo: cada vez que se duplica o tamanho de uma avalanche, ela se torna duas vezes mais rara. Para mais detalhes, recomendamos os livros [Bak, 1996] e [Schroeder, 1991]. Quais são as aplicações das leis de potência? Certamente elas constituem um modelo estatı́stico/matemático que permite estudar e entender muitos fenômenos que nos cercam (ou, como diz [Bak, 1996], para talvez entender o porquê de não podermos entender estes fenômenos). Mais ainda: se realmente existe uma causa comum por detrás de todos estes fenômenos que exibem leis de potência (como sugere Bak com sua teoria da criticalidade auto-organizada), entender um dos fenômenos permite entender todos os demais. Também existem aplicações mais pragmáticas: por exemplo, a Lei de Zipf tem sido 4 usada como ferramenta para decifrar escritos antigos [Smith, 2007], para tentar identificar inteligência extraterrestre em sinais recebidos do espaço (programa SETI) e para se criarem métodos de ensino de idiomas mais eficientes através das palavras mais frequentes [Davies, Preto-Bay, 2008]. 7 Felix Klein e as funções potências Apesar de as funções potências serem usadas como modelos para vários fenômenos em áreas diversas, elas não costumam ganhar muito destaque no ensino médio (com exceção das funções y = x, y = x2 , √ 3 1/2 y = x e y = x = x). Por exemplo, é difı́cil encontrar nos livros didáticos os gráficos das funções potências para x > 0, como apresentados na figura (a) abaixo, gerada no computador com o software GeoGebra. Curiosamente, o próprio Felix Klein apresenta estes gráficos (figura (b)) em um de seus cadernos de estudo. Note que, como o desenho foi feito à mão livre, ele contém algumas imperfeições. (a) Imagem: GeoGebra (http://www.geogebra.org/). 8 (b) Imagem: AMS (http://www.ams.org/notices/200708/). Outros tipos de fenômenos, outros tipos de funções É importante destacar que nem todos os fenômenos são descritos por leis de potências. Fenômenos com propriedades diferentes podem ser modelados por funções diferentes. Por exemplo, as estaturas dos homens adultos de uma população tendem a se concentrar em torno de um único valor médio caracterı́stico. Por este motivo, funções potências não são adequadas para se modelar estes dados. 2 A função (densidade de probabilidade normal) y = b e−a (x−m) é mais apropriada para se fazer isto. Não é nosso objetivo aqui apresentar as várias funções (densidades de probabilidade) e suas aplicações estatı́sticas. O leitor curioso pode consultar o livro [Krishnamoorthy, 2006]. 9 Referências No endereço http://www.uff.br/cdme/lpp/ (ou no espelho http://www.cdme.im-uff.mat.br/lpp/) está disponı́vel uma série de aplicativos interativos que permitem explorar a estatı́stica das letras, palavras e perı́odos (com um dos aplicativos disponı́veis nestes endereços você poderá ver a versão completa da Tabela 1 e fazer experiências com outros textos em vários idiomas). Também está disponı́vel um arquivo DOC (o Formulário de Acompanhamento do Aluno) com várias sugestões de exercı́cios para serem trabalhados em sala de aula. Orientações didáticas e metodológicas estão disponı́veis no Guia do Professor. Seguem as referências usadas no texto: Bak, P. How Nature Works: The Science of Self-Organized Criticality. Springer-Verlag, 1996. 5 Brown, J. H.; West, G. B. Scaling in Biology. Oxford University Press, 2000. Clauset, A.; Shalizi, C. R.; Newman, M. E. J. Power-Law Distributions in Empirical Data. SIAM Review, v. 51, n. 4, pp. 661-703, 2009. Davies, M.; Preto-Bay, A. M. R. A Frequency Dictionary of Portuguese. Core Vocabulary for Learners. Routledge, 2008. Ferrer i Cancho, R.; Sole, R. V. Least Effort and The Origins of Scaling in Human Language. Proceedings of the National Academy of Sciences, v. 100, n. 3, pp. 788-791, 2003. Krishnamoorthy, K. Handbook of Statistical Distributions with Applications. Chapman & Hall/CRC, 2006. Li, W. Information on Zipf ’s Law. 2011. http://www.nslij-genetics.org/wli/zipf/ Smith, R. Investigation of The Zipf-Plot of The Extinct Meroitic Language. Glottometrics, v. 15, pp. 53-61, 2007. Schroeder, M. Fractals, Chaos, Power Laws – Minutes from An Infinite Paradise. W. H. Freeman and Company, 1991. TED. Sean Gourley Fala sobre A Matemática da Guerra. 2009. http://www.ted.com/talks/lang/ por br/sean gourley on the mathematics of war.html 6