Ler o artigo completo

Transcrição

Ler o artigo completo
A Lei de Zipf e Outras Leis de Potência
em Dados Empı́ricos
Humberto José Bortolossi, João Júlio Dias Bastos Queiroz e Michele Maria da Silva
Instituto de Matemática e Estatı́stica
Universidade Federal Fluminense
1
Motivação
O que há de comum entre o número de palavras do livro “Memórias Póstumas de Brás Cubas”
de Machado de Assis, a distribuição da população humana em cidades, as intensidades das erupções
solares, o número de mortes em ataques terroristas, o número de clientes afetados por apagões elétricos
e a maneira como alguns animais buscam por alimentos em seu habitat? A resposta é surpreendente:
estudos estatı́sticos dão forte suporte ao fato de que estes e muitos outros fenômenos podem ser descritos
por leis de potência, isto é, leis que são expressas por funções potências y = f (x) = b xa , com a e b
constantes reais. Vejamos um exemplo em detalhes.
2
A Lei de Zipf
Conte quantas vezes cada palavra aparece em um determinado texto. Existem palavras que aparecerão mais vezes do que outras. Crie então uma tabela, ordenando as palavras por sua frequência.
A Tabela 1 apresenta o resultado deste processo para as palavras do romance “Memórias Póstumas de
Brás Cubas” de Machado de Assis.
Posição (x)
1
2
3
4
5
6
Tabela 1
Frequência (y)
2489
2203
2112
1949
1711
1164
Palavra
a
que
de
e
o
não
x
= log(x)
0,00000. . .
0,30102. . .
0,47712. . .
0,60205. . .
0,69897. . .
0,77815. . .
..
.
..
.
..
.
..
.
..
.
..
.
178
37
Brás
2,25042. . .
1,56820. . .
Brás
..
.
..
.
..
.
..
.
..
.
..
.
10447
10448
10449
1
1
1
zelo
Zenon
Zeus
4,01899. . .
4,01903. . .
4,01907. . .
0,00000. . .
0,00000. . .
0,00000. . .
zelo
Zenon
Zeus
Tabela 2
y = log(y)
3,39602. . .
3,34301. . .
3,32469. . .
3,28981. . .
3,23325. . .
3,06595. . .
Palavra
a
que
de
e
o
não
Use em seguida um truque muito útil quando leis de potência são examinadas: ao invés de analisar x
(a posição da palavra) e y (a sua frequência), estude
x
= log(x)
e
1
y = log(y),
cujos valores são apresentados na Tabela 2. Marque então os pontos (
x, y) em um mesmo sistema de
eixos coordenados. O resultado é a figura abaixo.
3,25
3,00
2,75
2,50
log(frequência)
2,25
2,00
1,75
1,50
1,25
1,00
0,75
0,50
0,25
0,00
0,00
0,25
0,50
0,75
1,00
1,25
1,50
1,75
2,00
2,25
2,50
2,75
3,00
3,25
3,50
3,75
4,00
log(posição)
Note que os pontos (
x, y) parecem se alinhar, principalmente para os valores de x
(logaritmo da posição)
entre 1,5 e 3,0. Como achar uma reta representativa para estes dados? Uma técnica estatı́stica padrão é
o método dos mı́nimos quadrados, que obtém a equação de uma reta minimizando a soma dos quadrados
das diferenças entre as ordenadas dos dados e os valores previstos pela equação da reta. O uso deste
método para todos os pontos (
x, y) da Tabela 2 produz a reta azul da figura, cuja equação é
y = 3,567 − 0,925 x
.
Agora, lembrando que x
= log(x) e y = log(y), vemos que
y = 3,567 − 0,925 x
⇔
⇔
⇔
⇔
log(y) = log(103,567 ) − 0,925 log(x)
log(y) = log(3689,775) + log(x−0,925 )
log(y) = log(3689,775 x−0,925 )
y = f (x) = 3689,775 x−0,925 ,
isto é, de forma aproximada, a frequência e a posição das palavras estão relacionadas por uma lei de
potência. Esta lei empı́rica é hoje conhecida como a “Lei de Zipf”, em homenagem ao professor de
linguı́stica da Universidade de Harvard, George Kingsley Zipf (1902–1950), o primeiro a investigar de
forma sistemática fenômenos da estrutura estatı́stica em conjuntos de dados linguı́sticos e demográficos.
Algumas observações:
(1) A reta obtida pelo método dos mı́nimos quadrados (a reta em azul) não acomoda muito bem
os dados para os valores iniciais e finais de x
. Vários autores têm sugerido adaptações para a Lei
de Zipf a fim de obter um modelo mais adequado. Outros autores simplesmente consideram que
a Lei de Zipf é válida apenas para valores de x
em um determinado intervalo [Clauset, Shalizi,
Newman, 2009].
(2) Embora nossa análise com o método dos mı́nimos quadrados seja, digamos, bastante visual e
ingênua, a Lei de Zipf (bem como outras leis de potência) tem passado com sucesso por testes
estatı́sticos mais sofisticados [Clauset, Shalizi, Newman, 2009].
(3) A Lei de Zipf tem sido verificada para vários outros idiomas: inglês, francês, árabe, grego moderno,
etc. Ela foi detectada mesmo em outras formas de comunicação, como assobios de golfinhos e
composições musicais.
2
3
Outras leis de potência
As leis de potência parecem ser ubı́quas, onipresentes! Existe uma quantidade considerável de
artigos e livros que estudam e descrevem leis de potência em áreas bem diversas: economia e finança,
educação, demografia, geologia, história, climatologia, bibliometria e informetria, terrorismo e guerra,
corrupção, turismo, esportes, artes, agronomia, ecologia, biologia, linguı́stica, ciência da computação,
ciências cognitivas, ciências sociais, astronomia, mecânica dos sólidos, fı́sica e quı́mica.
Algumas leis de potência possuem nome próprio: a Lei de Gutenberg-Richter (sobre a relação entre
a frequência e a intensidade dos terremotos), a Lei de Stevens (sobre a relação entre a magnitude
de um estı́mulo fı́sico e sua intensidade percebida), o Princı́pio de Pareto (também conhecido como
Princı́pio 80/20, sobre a distribuição de renda em uma sociedade), a Lei de Kleiber (sobre a relação
entre a taxa metabólica de um organismo e sua massa corporal), a Lei de Lotka (sobre a frequência de
publicação de artigos cientı́ficos por diversos autores), a Lei de Yoda (sobre o processo de auto-desbaste
entre mudas de plantas), a Lei de Stefan-Boltzmann (sobre a radiação de corpos negros), a Relação de
Ramberg-Osgood (sobre a deformação e fadiga de materiais).
O assunto é vasto e rico. Infelizmente, o limite de poucas páginas recomendado para este artigo
não nos permite apresentar com mais profundidade as leis de potência mencionadas nos parágrafos
anteriores. Nosso objetivo aqui é então alertar o leitor sobre o uso das funções potências em outras
disciplinas e motivá-lo a procurar saber mais sobre o assunto. Neste sentido, os livros [Bak, 1996],
[Schroeder, 1991] e [Brown, West, 2000] (este último sobre alometria, ciência que estuda como as
caracterı́sticas dos organismos mudam de acordo com seus tamanhos) constituem um ótimo ponto de
partida. O vı́deo [TED, 2009] (com legendas em português) sobre leis de potência em guerras também
merece destaque. Indicamos, por fim, [Li, 2011], que apresenta uma coleção com mais de 700 referências
sobre leis de potência.
4
Advertência
É importante ressaltar a natureza experimental das leis de potência: elas são formuladas a partir de
estudos estatı́sticos de dados empı́ricos. Assim, cuidado é necessário! À medida que técnicas de análise
estatı́stica mais sofisticadas são desenvolvidas, todo o processo é revisto: algumas leis de potência
são confirmadas e outras são questionadas (como o caso do Princı́pio de Pareto para distribuição de
rendas). O artigo [Clauset, Shalizi, Newman, 2009] faz uma discussão bem detalhada sobre este tema.
Não obstante, é sempre bom ter em mente que certas leis fı́sicas que hoje nos são bem familiares,
como a Lei da Queda Livre dos Corpos de Galileu Galilei (1564-1642) e a Lei da Gravitação Universal
de Isaac Newton (1643-1727) tiveram uma componente empı́rica em suas formulações: Galileu Galilei
fez experimentos com planos inclinados no processo de estabelecer a lei que governa a queda livre dos
corpos (uma lei de potência!) e Isaac Newton, em sua obra Principia, diz “Nessa filosofia [experimental]
as proposições particulares são inferidas dos fenômenos e depois tornadas gerais por indução”.
5
Invariância em escala
Uma propriedade importante das funções potências (e que será usada na próxima seção) é que elas
são homogêneas e, portanto, invariantes em escala. Por exemplo, para b = 1 e a = 3, se um evento x
duplica de tamanho, então o evento y associado a x por f fica oito vezes maior independentemente do
tamanho do evento x: g(x) = f (2 x) = 8f (x) para todo x > 0. Mais geralmente, se f (x) = b xa e λ > 0
é uma constante, então
f (λx) = b (λ x)a = b λa xa = λa (b xa ) = λa f (x), para todo x > 0,
3
isto é, fazendo-se um ajuste de escala em y (que não depende de x, só de λ), os gráficos de f (x) = b xa
e g(x) = f (λ x) possuem o mesmo formato (as figuras abaixo ilustram este fato para b = 1, a = 3
e λ = 2). Por estes motivos, dados que se distribuem seguindo uma lei de potência não possuem valores
caracterı́sticos ou uma escala natural.
2
A propriedade de invariância em escala não é satisfeita, por exemplo, pela função y = b e−a (x−m) , com
a, b > 0 e m ∈ R, associada a um outro personagem importante em Estatı́stica: a distribuição normal.
6
Por que e para quê?
Explicar o porquê das leis de potência aparecerem em tantos fenômenos é ainda tema de discussão
e estudo. Alguns acadêmicos dão explicações especı́ficas para determinados casos. Por exemplo, Zipf
justificou sua lei em termos do “Princı́pio do Menor Esforço” [Ferrer i Cancho, Sole, 2003]. Outros
acadêmicos criaram teorias mais gerais, com o objetivo de explicar a ocorrência das leis de potência
em todos os fenômenos. Este é o caso do fı́sico dinamarquês Per Bak (1948-2002), que propôs a teoria
da criticalidade auto-organizada. Segundo esta teoria, os fenômenos em questão são descritos por um
sistema complexo onde seus vários agentes interagem entre si e o conduzem, de forma espontânea, a um
estado de criticalidade. Neste estado crı́tico, o sistema age como um todo e, de forma imprevisı́vel,
ocorrem eventos em várias escalas. Surgem então as funções potências que, como vimos na seção anterior, possuem a propriedade matemática de invariância em escala. Bak dá como paradigma o fenômeno
da pilha de areia [Bak, 1996]: imagine que grãos de areia sejam despejados sobre uma mesa. No inı́cio,
a pilha é plana e os grãos de areia permanecem próximos às posições onde foram depositados. A medida
que o tempo passa, com os vários grãos de areia interagindo entre si, a pilha fica maior e maior, até
atingir um ponto onde o sistema fica crı́tico e seu comportamento não pode mais ser entendido em
termos dos grãos individuais. Neste estado crı́tico, avalanches de várias escalas (tamanhos) ocorrem
de forma imprevisı́vel. Apesar de as avalanches menores serem mais frequentes, é possı́vel detectar um
comportamento regido por uma lei de potência, algo do tipo: cada vez que se duplica o tamanho de
uma avalanche, ela se torna duas vezes mais rara. Para mais detalhes, recomendamos os livros [Bak,
1996] e [Schroeder, 1991].
Quais são as aplicações das leis de potência? Certamente elas constituem um modelo estatı́stico/matemático que permite estudar e entender muitos fenômenos que nos cercam (ou, como diz [Bak, 1996],
para talvez entender o porquê de não podermos entender estes fenômenos). Mais ainda: se realmente
existe uma causa comum por detrás de todos estes fenômenos que exibem leis de potência (como sugere
Bak com sua teoria da criticalidade auto-organizada), entender um dos fenômenos permite entender
todos os demais. Também existem aplicações mais pragmáticas: por exemplo, a Lei de Zipf tem sido
4
usada como ferramenta para decifrar escritos antigos [Smith, 2007], para tentar identificar inteligência
extraterrestre em sinais recebidos do espaço (programa SETI) e para se criarem métodos de ensino de
idiomas mais eficientes através das palavras mais frequentes [Davies, Preto-Bay, 2008].
7
Felix Klein e as funções potências
Apesar de as funções potências serem usadas como modelos para vários fenômenos em áreas diversas,
elas não costumam ganhar
muito destaque no ensino médio (com exceção das funções y = x, y = x2 ,
√
3
1/2
y = x e y = x = x). Por exemplo, é difı́cil encontrar nos livros didáticos os gráficos das funções
potências para x > 0, como apresentados na figura (a) abaixo, gerada no computador com o software
GeoGebra. Curiosamente, o próprio Felix Klein apresenta estes gráficos (figura (b)) em um de seus
cadernos de estudo. Note que, como o desenho foi feito à mão livre, ele contém algumas imperfeições.
(a) Imagem: GeoGebra (http://www.geogebra.org/).
8
(b) Imagem: AMS (http://www.ams.org/notices/200708/).
Outros tipos de fenômenos, outros tipos de funções
É importante destacar que nem todos os fenômenos são descritos por leis de potências. Fenômenos
com propriedades diferentes podem ser modelados por funções diferentes. Por exemplo, as estaturas
dos homens adultos de uma população tendem a se concentrar em torno de um único valor médio
caracterı́stico. Por este motivo, funções potências não são adequadas para se modelar estes dados.
2
A função (densidade de probabilidade normal) y = b e−a (x−m) é mais apropriada para se fazer isto.
Não é nosso objetivo aqui apresentar as várias funções (densidades de probabilidade) e suas aplicações
estatı́sticas. O leitor curioso pode consultar o livro [Krishnamoorthy, 2006].
9
Referências
No endereço http://www.uff.br/cdme/lpp/ (ou no espelho http://www.cdme.im-uff.mat.br/lpp/)
está disponı́vel uma série de aplicativos interativos que permitem explorar a estatı́stica das letras, palavras e perı́odos (com um dos aplicativos disponı́veis nestes endereços você poderá ver a versão completa
da Tabela 1 e fazer experiências com outros textos em vários idiomas). Também está disponı́vel um
arquivo DOC (o Formulário de Acompanhamento do Aluno) com várias sugestões de exercı́cios para
serem trabalhados em sala de aula. Orientações didáticas e metodológicas estão disponı́veis no Guia
do Professor. Seguem as referências usadas no texto:
Bak, P. How Nature Works: The Science of Self-Organized Criticality. Springer-Verlag, 1996.
5
Brown, J. H.; West, G. B. Scaling in Biology. Oxford University Press, 2000.
Clauset, A.; Shalizi, C. R.; Newman, M. E. J. Power-Law Distributions in Empirical Data. SIAM
Review, v. 51, n. 4, pp. 661-703, 2009.
Davies, M.; Preto-Bay, A. M. R. A Frequency Dictionary of Portuguese. Core Vocabulary for Learners.
Routledge, 2008.
Ferrer i Cancho, R.; Sole, R. V. Least Effort and The Origins of Scaling in Human Language. Proceedings of the National Academy of Sciences, v. 100, n. 3, pp. 788-791, 2003.
Krishnamoorthy, K. Handbook of Statistical Distributions with Applications. Chapman & Hall/CRC,
2006.
Li, W. Information on Zipf ’s Law. 2011. http://www.nslij-genetics.org/wli/zipf/
Smith, R. Investigation of The Zipf-Plot of The Extinct Meroitic Language. Glottometrics, v. 15,
pp. 53-61, 2007.
Schroeder, M. Fractals, Chaos, Power Laws – Minutes from An Infinite Paradise. W. H. Freeman and
Company, 1991.
TED. Sean Gourley Fala sobre A Matemática da Guerra. 2009. http://www.ted.com/talks/lang/
por br/sean gourley on the mathematics of war.html
6

Documentos relacionados