universidade federal do abc - Pós

Transcrição

universidade federal do abc - Pós
UNIVERSIDADE FEDERAL DO ABC
Curso de Pós-Graduação em Ciência da Computação
Dissertação de Mestrado
Luciano Rossi
Caracterização de grafos de genealogia acadêmica
por meio de métricas topológicas
Santo André
2015
Curso de Pós-Graduação em Ciência da Computação
Dissertação de Mestrado
Luciano Rossi
Caracterização de grafos de genealogia acadêmica
por meio de métricas topológicas
Trabalho apresentado como requisito parcial
para a obtenção do título de Mestre em
Ciência da Computação, sob orientação do
Professor Doutor Jesús Pascual Mena-Chalco.
Santo André
2015
Este trabalho contou com auxílio financeiro da Universidade Federal do ABC – UFABC (bolsa
de mestrado, institucional), de março/2013 a janeiro/2014 e da Coordenação de Aperfeiçoamento
de Pessoal de Nível Superior – CAPES (bolsa de mestrado, demanda social), de fevereiro/2014 a
fevereiro/2015.
Este exemplar foi revisado e alterado em relação à versão original, de
acordo com as observações levantadas pela banca no dia da defesa, sob
responsabilidade única do autor e com a anuência de seu orientador.
Santo André, 03 de Agosto de 2015.
Assinatura do autor:
Assinatura do orientador:
Agradecimentos
Esta dissertação de mestrado representa um marco em minha história pessoal, pois trata-se da
realização de objetivos que, até então, julgava impossíveis de serem feitos por mim. Agradeço a
minha esposa, Rosana, que sempre foi a motivação maior para a superação de todos os desafios,
aos meus filhos, Pedro e Julia, simplesmente por existirem e serem quem são.
Ao prof. Jesús, por ser uma pessoa extremamente generosa e um orientador que reúne tudo
aquilo que um orientado pode esperar: conhecimento, dedicação, paixão pelo saber, humildade no
compartilhar, clareza na comunicação, paciência, respeito, companheirismo e um empenho inigualável em desenvolver o conhecimento científico com muita inspiração e trabalho duro. Obrigado,
esteja certo que sua orientação impactou de forma relevante minha vida.
Agradeço aos professores com os quais contei durante este período, especialmente: prof. Ronaldo
Cristiano Prati, prof. Daniel Morgato Martin, prof. Etelvino José Henriques Bechara e prof. Igor
Leite Freire. Muito obrigado pelas valiosas contribuições.
i
ii
Resumo
ROSSI, L. Caracterização de grafos de genealogia acadêmica por meio de métricas topológicas. 2015. Dissertação (Mestrado) - Centro de Matemática, Computação e Cognição, Universidade Federal do ABC, Santo André, 2015.
A busca pela origem de indivíduos apresenta-se como uma tentativa recorrente em obter respostas
que expliquem o presente, com base no passado e permitam traçar os caminhos do futuro. A origem
de um indivíduo esta ligada à algum tipo de relacionamento que possibilite identificar outro que
o precedeu. Este modelo de estruturação de grupos sociais é objeto de estudo da genealogia. A
genealogia acadêmica utiliza os relacionamentos de orientação entre professores (orientadores) e
alunos (orientados) para criar a estrutura social que, comumente, é representada por um grafo de
genealogia. O grafo descreve seus vértices como orientadores e orientados e suas arestas direcionadas
descrevem as orientações acadêmicas existentes entre eles.
Nesta dissertação de mestrado busca-se caracterizar os vértices de um grafo de genealogia considerando somente seus relacionamentos de orientação acadêmica. A caracterização dos vértices é
realizada por meio do desenvolvimento e/ou adaptação de um conjunto de métricas topológicas. O
conjunto é composto por 22 métricas, sendo 13 de composição descendente ((i) largura, (ii) número
de folhas, (iii) profundidade, (iv) fecundidade, (v) fecundidade ponderada, (vi) maior largura, (vii)
índice h genealógico, (viii) impacto, (ix) distância média, (x) média dos menores caminhos, (xi)
pagerank inverso, (xii) pagerank inverso ponderado e (xiii) balanceamento pela fecundidade), 8 de
composição ascendente ((xiv) fecundidade inversa, (xv) fecundidade média do território inverso,
(xvi) fecundidade ponderada média do território inverso, (xvii) número de origens, (xviii) largura
inversa, (xix) profundidade inversa, (xx) pagerank e (xxi) pagerank ponderado) e 1 de composição
mista ((xxii) balanceamento global ). Acreditamos que todas as métricas propostas possam servir de
insumo para analisar computacionalmente qualquer grafo de genealogia.
Em particular, as métricas propostas foram calculadas para o conjunto de doutores em matemática cadastrados na plataforma do Mathematics Genealogy Project (MGP), que em Abril de 2014
contava com mais de 178 mil registros de 185 países, e permitiu realizar análises para: (i) observar
características específicas dos vértices do grafo, (ii) estudar o efeito da abrangência das métricas
(janela) na caracterização dos vértices e (iii) classificar os vértices em função dos conjuntos de valores de suas métricas.
Palavras-chave: métricas topológicas, grafos, atributos quantitativos, orientador-orientando, genealogia acadêmica.
iii
iv
Abstract
ROSSI, L. Characterization of academic genealogy graphs through topological metrics.
2015. Dissertação (Mestrado) - Centro de Matemática, Computação e Cognição, Universidade Federal do ABC, Santo André, 2015.
The search for the origin of individuals is presented as a recurrent attempt to get answers to explain
the present, based on the past and to retrace the paths of the future. The origin of a subject is linked
to some kind of relationship that allows identify others that preceded it. The academic genealogy
uses the orientation relationships between professors (advisors) and students (advisees) to create
a social structure that, commonly, is represented by a genealogy graph. The graph describes its
vertices as advisors/advisees and the directed edges describe their existing academic guidelines
between them.
In this master thesis we present a characterization of a genealogy graph considering only their
academic guindance relationships. The characterization of the vertices is performed through the
development and / or adaptation of a set of topological metrics. The set consists of 22 metrics. The
first 13 descending composition metrics are related with: (i) width, (ii) leaf number, (iii) depth, (iv)
fecundity, (v) weighted fecundity, (vi) max width, (vii) genealogical h-index, (viii) impact, (ix) average
distance (x) average of the shortest paths, (xi) reverse pagerank, (xii) reverse pagerank weighted and
(xiii) balanced fecundity. Eight ascending composition metrics related with: (xiv) reverse fecundity,
(xv) fecundity of the reverse territory, (xvi) weighted average fecundity of the reverse territory,
(xvii) number of origins, (xviii) reverse width, (xix) reverse depth, (xx) pagerank and (xxi) weighted
pagerank. Finally, one mixed composition metrics called (xxii) overall balance. We believe that all
proposed metrics can serve as input to analyze genealogy graphs.
The proposed metrics were calculated for all PhDs in mathematics registered on Mathematics Genealogy Project (MGP), which in April 2014 had more than 178,000 records from 185 countries, and
allowed to perform analysis in order: (i) to observe specific characteristics of the graph vertices, (ii)
to study the effect of coverage metrics (i.e, window size) in the characterization of vertices and, (iii)
to classify the vertices according to the sets of values of their metrics.
Keywords: topological metrics, graphs, quantitative attributes, advisors-advisees, academic genealogy.
v
vi
Sumário
Lista de Símbolos
xi
Lista de Figuras
xiii
Lista de Tabelas
xv
1 Introdução
1
1.1
Considerações preliminares
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3
Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4
Limites
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.5
Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2 Definições preliminares
5
2.1
Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2
Genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.3
Grafos de genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.4
Conjunto de grafos de genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
3 Métricas em grafos de genealogia
3.1
11
Métricas de composição descendente . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1.1
Largura – Número de descendentes diretos. . . . . . . . . . . . . . . . . . . . 11
3.1.2
Número de folhas – Vértices sem descendentes
3.1.3
Profundidade – Número de gerações descendentes . . . . . . . . . . . . . . . . 12
vii
. . . . . . . . . . . . . . . . . 12
viii
SUMÁRIO
3.1.4
Fecundidade – Número de descendentes diretos e indiretos . . . . . . . . . . . 12
3.1.5
Fecundidade ponderada – Influência normalizada de descendentes diretos e
indiretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.6
Maior largura – Maior número de descendentes pertencentes a uma geração . 14
3.1.7
Índice-h genealógico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1.8
Impacto – Proporção de descendentes diretos ou indiretos considerando o conjunto total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.9
Distância média – Média do tamanho dos caminhos existentes no grafo . . . . 15
3.1.10 Média dos menores caminhos . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.11 Pagerank inverso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.12 Pagerank inverso ponderado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.13 Balanceamento pela fecundidade . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.14 Balanceamento global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2
Métricas de composição ascendente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.1
Fecundidade inversa – número de ascendentes diretos ou indiretos . . . . . . . 19
3.2.2
Fecundidade média do território inverso – influência normalizada de ascendentes diretos e indiretos
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.3
Fecundidade ponderada média do território inverso . . . . . . . . . . . . . . . 20
3.2.4
Número de ascendentes origem – Vértices sem ascendência
3.2.5
Largura inversa – Número de ascendentes diretos . . . . . . . . . . . . . . . . 20
3.2.6
Profundidade inversa – Número de gerações ascendentes . . . . . . . . . . . . 21
3.2.7
Pagerank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.8
Pagerank ponderado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
. . . . . . . . . . 20
3.3
Métricas limitadas por janelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4
Taxonomia das métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4 Sobre os dados utilizados
29
4.1
Conjunto dos matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2
Relacionamentos de orientação acadêmica . . . . . . . . . . . . . . . . . . . . . . . . 32
4.3
Mathematics Subject Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
SUMÁRIO
ix
4.4
Grupos e escolas matemáticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.5
Topologia do grafo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5 Resultados
5.1
5.2
43
Correlação entre as métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.1.1
Correlação entre métricas descendentes . . . . . . . . . . . . . . . . . . . . . . 44
5.1.2
Correlação entre métricas ascendentes . . . . . . . . . . . . . . . . . . . . . . 46
5.1.3
Correlação entre os conjuntos de métricas combinados . . . . . . . . . . . . . 47
Análise de componentes principais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6 Trabalhos correlatos
57
6.1
Relacionamentos de orientação – base de dados do MGP . . . . . . . . . . . . . . . . 58
6.2
Relacionamentos de orientação – outras bases de dados . . . . . . . . . . . . . . . . . 59
6.3
Outros tipos de relacionamentos – no contexto brasileiro . . . . . . . . . . . . . . . . 60
7 Conclusões
63
7.1
Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7.2
Sugestões de pesquisas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
A Caracterização da base de dados
65
B Classificação por janelas
73
C Publicações realizadas no período do mestrado
83
C.1 BRASNAM – III Brazilian Workshop on Social Network Analysis and Mining (2014) 83
C.2 SPGABC – Simpósio de Pesquisa do Grande ABC (2014) . . . . . . . . . . . . . . . 96
C.3 BRASNAM – IV Brazilian Workshop on Social Network Analysis and Mining (2015)
99
C.4 CMAC – Congresso de Matemática Aplicada e Computacional (2015) . . . . . . . . . 112
Referências Bibliográficas
115
x
SUMÁRIO
Lista de Símbolos
A(v)
Conjunto dos ascendentes diretos do vértice v
bf (v)
Métrica balanceamento pela fecundidade do vértice v
bg(v)
Métrica balanceamento global do vértice v
C (k) (v)
Conjunto dos caminhos de comprimento k sendo v o vértice origem
c(k) (v)
Número de caminhos de comprimento k sendo v o vértice origem
D(v)
Conjunto dos descendentes diretos do vértice v
D(k) (v)
Conjunto dos descendentes diretos k-férteis do vértice v
dm(v)
Métrica distância média no grafo de genealogia do vértice v
dei (||mvi ||)
Valor da distância euclidiana entre as i métricas dos vértices adjacentes a v
DE(v)
Conjunto dos valores das distâncias euclidianas dos vértices adjacentes a v
E
Conjunto de arestas de um grafo
f + (v)
Métrica fecundidade do vértice v
f − (v)
Métrica fecundidade inversa do vértice v
F (v)
Conjunto dos valores de fecundidade dos vértices adjacentes a v
f p(v)
Métrica fecundidade ponderada do vértice v
f mT − (v)
Métrica fecundidade média do território inverso do vértice v
f pmT − (v)
Métrica fecundidade ponderada média do território inverso do vértice v
~
G
Grafo dirigido
h(v)
Métrica índice h genealógico do vértice v
i(v)
Métrica impacto do vértice v
xi
xii
LISTA DE SÍMBOLOS
l+ (v)
Métrica largura do vértice v
l− (v)
Métrica largura inversa do vértice v
l(k) (v)
Largura k-fértil do vértice v
||mvi ||
Valor normalizado das i métricas do vértice v
ml(v)
Métrica maior largura no grafo de genealogia do vértice v
nf (v)
Métrica número de folhas no grafo de genealogia do vértice v
N F (v)
Conjunto dos vértices folha no grafo de genealogia do vértice v
no(v)
Métrica número de origens do território inverso do vértice v
O(v)
Conjunto dos vértices origem do território inverso do vértice v
p+ (v)
Métrica profundidade do grafo de genealogia do vértice v
p− (v)
Métrica profundidade inversa do vértice v
pr+ (v)
Métrica pagerank do vértice v
prp+ (v)
Métrica pagerank ponderado do vértice v
pr− (v)
Métrica pagerank inverso do vértice v
prp− (v)
Métrica pagerank inverso ponderado do vértice v
T + (v)
Território do vértice v
T − (v)
Território inverso do vértice v
V
Conjunto de vértices de um grafo
Lista de Figuras
2.1
Conjunto de grafos de genealogia dos matemáticos no Brasil . . . . . . . . . . . . . .
3.1
Janelas em grafo de genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2
Conjunto de grafos de genealogia – métricas descendentes . . . . . . . . . . . . . . . 25
3.3
Conjunto de grafos de genealogia – métricas ascendentes . . . . . . . . . . . . . . . . 26
3.4
Taxonomia das métricas topológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1
Fluxograma do método de obtenção dos dados . . . . . . . . . . . . . . . . . . . . . . 30
4.2
Evolução do número de matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3
Matriz de correlações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4
Mathematics Subject Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.5
Diagrama de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.6
Influência das escolas de matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.7
Grafo de genealogia acadêmica dos matemáticos . . . . . . . . . . . . . . . . . . . . . 40
4.8
Topologia do grafo de genealogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1
Correlação entre as métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.2
Variação dos coeficientes de correlação entre as métricas. . . . . . . . . . . . . . . . . 48
5.3
Exemplo de conjunto de grafos de genealogia . . . . . . . . . . . . . . . . . . . . . . 50
5.4
Análise de componentes principais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.5
Variação da classificação em função do tamanho das janelas . . . . . . . . . . . . . . 52
5.6
Impacto do ano de titulação em função do tamanho da janela considerda. . . . . . . 53
5.7
PCA com janelas de diferentes tamanhos . . . . . . . . . . . . . . . . . . . . . . . . . 55
xiii
9
xiv
LISTA DE FIGURAS
5.8
Identificação dos matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.9
Grafo dos 50 matemáticos mais relevantes . . . . . . . . . . . . . . . . . . . . . . . . 56
Lista de Tabelas
5.1
Correlação entre as métricas descendentes . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2
Correlação entre as métricas ascendentes . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3
Correlação entre as métricas combinadas . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.4
Características das janelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
A.1 Ranking de países e instituições – parte I
. . . . . . . . . . . . . . . . . . . . . . . . 66
A.1 Ranking de países e instituições – parte II . . . . . . . . . . . . . . . . . . . . . . . . 67
A.2 Ranking de escolas – parte I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
A.2 Ranking de escolas – parte II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
A.3 MSC – parte I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
A.3 MSC – parte II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
B.1 Ranking – janela 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
B.2 Ranking – janela 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
B.3 Ranking – janela 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
B.4 Ranking – janela 15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
B.5 Ranking – janela 20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
B.6 Ranking – janela 25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
B.7 Ranking – janela 30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
B.8 Ranking – janela 41 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
xv
xvi
LISTA DE TABELAS
Capítulo 1
Introdução
1.1
Considerações preliminares
Atualmente, com o grande crescimento de informações disponíveis, a internet tornou-se um
campo fértil para a interação on-line e o desenvolvimento de diversas áreas da ciência da informação
[Pinheiro & Loureiro, 1995] e ciência da computação [Hey et al., 2009]. Dentre elas a mineração ou
prospeccão de dados (data mining) que vem ganhando grande destaque e importância nesse cenário.
Nos últimos anos, está se dando especial interesse a tais tópicos devido à descoberta de conhecimento
que pode ser obtido a partir do tratamento de conjuntos de dados disponíveis nos repositórios de
produção científica, e.g., banco de dados de produções bibliográficas, de orientação acadêmica, de
projetos de pesquisa, e de diretórios de grupos de pesquisa [Tang et al., 2008].
Por outro lado, a importância das pesquisas científicas no desenvolvimento de uma nação é
inegável. Também é inegável que instituições de ensino e pesquisa têm como um dos seus principais
ativos a qualidade de seus docentes e a capacidade destes em fomentar, orientar e formar seus alunos
para a pesquisa científica como ferramenta geradora de inovação com o objetivo de promover o
desenvolvimento tecnológico e socioeconômico de um país [de Moraes, 2000].
A atividade de orientação/supervisão acadêmica é uma forma de relacionamento que promove
a evolução do orientado, da instituição, da ciência e da sociedade de um modo geral. Atualmente
pode-se observar diferentes iniciativas, por parte de comunidades acadêmicas específicas, no sentido
de documentar, analisar e classificar estruturas de genealogia acadêmica. Analisar estes relacionamentos sob a forma de uma estrutura genealógica (grafo de genealogia acadêmica), permite um
maior entendimento sobre a comunidade científica (que é objeto deste estudo), a caracterização do
indivíduo por meio de seus relacionamentos e a identificação do impacto gerado por esses indivíduos
na formação dessa comunidade.
A identificação dos diferentes níveis de impacto que membros de comunidades acadêmicas exercem sobre seus respectivos grupos de atuação e na sociedade, de forma mais ampla, é comumente
realizada por meio da análise de publicações. No entanto, considerar o desempenho dos acadêmicos
nas atividades de orientação/supervisão como sendo parte importante da contribuição do indivíduo
1
2
INTRODUÇÃO
1.2
no desenvolvimento da ciência e, por conseguinte, da sociedade, não apresenta o mesmo grau de
relevância.
A genealogia acadêmica pode ser definida como um estudo quantitativo da herança intelectual perpetrada por meio de relacionamentos de orientação entre estudantes e seus orientadores
[Sugimoto, 2014]. Os relacionamentos de orientação acadêmica promovem a propagação de conhecimento científico por meio da interação entre orientador, com diferentes desempenhos em orientação,
e seus orientados, que são influenciados pelas características de seus orientadores [Malmgren et al.,
2010]. Neste contexto, a genealogia acadêmica fornece meios para mensurar e analisar estas interações.
A análise e caracterização de acadêmicos em um contexto genealógico, onde os relacionamentos
de orientação/supervisão são os únicos elementos considerados, é possível por meio da utilização de
um conjunto de métricas topológicas que, considerando toda a rede social, diferencie estes acadêmicos com base na relevância de suas orientações/supervisões.
Diferentes estudos foram publicados sobre genealogia acadêmica com o objetivo de caracterizar áreas do conhecimento específicas, como a Neurociência [David & Hayden, 2012], a Química Orgânica [Andraos, 2005], a Matemática [Chang, 2011, Malmgren et al., 2010], a Fisiologia [Bennett & Lowe, 2005, Jackson, 2011], a Metereologia [Hart & Cossuth, 2013], entre outros.
Há ainda, iniciativas para a captação e estruturação de dados genealógicos utilizando plataformas
Web. O Mathematics Genealogy Project (http://genealogy.math.ndsu.nodak.edu) e o projeto Neurotree (http://neurotree.org/neurotree) são pautados na obtenção de dados genealógicos das respectivas
áreas e na interpretação das estruturas genealógicas obtidas, a comunidade científica dos Físicos (http://academictree.org/physics) e, de forma mais específica, para os acadêmicos titulados com
doutorado (http://phdtree.org). Estes projetos são, inicialmente, orientados para a obtenção e documentação de seus membros, não oferecendo análises destes conjuntos de dados. Porém, estes
registros contribuem para a documentação histórica destas comunidades e resulta em campo fértil
para estudos futuros.
Esta dissertação considera como estudo de caso os registros genealógicos da comunidade acadêmicocientífica dos matemáticos. A captação, estruturação e documentação destes registros foi realizada
pela North Dakota State University por meio do Mathematics Genealogy Project (MGP). A escolha
deste conjunto de dados justifica-se pela magnitude, estrutura, abrangência e riqueza das informações disponibilizadas pelo projeto. É importante notar que esta base de dados possui abrangência
internacional e ainda não foi amplamente analisada, o que se apresenta como uma oportunidade
ímpar para a obtenção de novos conhecimentos a respeito desta comunidade científica.
1.2
Objetivos
O objetivo geral desta dissertação é desenvolver e/ou adaptar um conjunto de métricas topológicas, de base quantitativa, que permita a caracterização de bancos de dados estruturados em forma
de grafo de genealogia, em um contexto acadêmico, por meio dos relacionamentos de orientação
1.5
CONTRIBUIÇÕES
3
acadêmica existentes entre os indivíduos.
Os objetivos específicos deste trabalho são os seguintes:
(a) Estruturar os dados genealógicos prospectados em forma de grafos de genalogia, possibilitando
a visualização da estrutura topológica do conjunto;
(b) Analisar a influência de grupos na formação da comunidade acadêmico-científica;
(c) Estudar a abrangência com que os relacionamentos de orientação acadêmica influenciam as
gerações posteriores;
(d) Classificar os vértices do grafo de genealogia por meio da aplicação de técnicas de redução de
dimensionalidade.
1.3
Contribuições
As principais contribuições deste trabalho são listadas a seguir:
(a) Propor a utilização de métricas topológicas (ascendentes e descendentes) baseadas na Teoria dos Grafos, desenvolvidas e/ou adaptadas, para a caracterização de grafos de genealogia
acadêmica.
(b) Documentar e registrar de forma perene os grafos de genealogia acadêmica em banco de dados
orientado a grafos, disponibilizando as estruturas para consultas.
(c) Caracterizar a comunidade acadêmico-científica dos doutores em matemática;
(d) Identificar os países/escolas com maior impacto na formação da comunidade dos doutores em
matemática.
1.4
Limites
Os resultados pretendidos com esta dissertação estão fortemente relacionados com a corretude e
completude dos dados utilizados. Os dados considerados neste estudo de caso corresponde ao MGP,
e apesar deste projeto ser uma iniciativa abrangente e seus dados constituírem um conjunto ímpar
a respeito dos doutores em matemática, algumas inconsistências foram observadas e documentadas.
Os registros obtidos na plataforma do MGP, em alguns casos, não são completos. Identifica-se
a ausência de atributos ligados à titulação, como: ano, instituição e país. Também não é possível,
na maioria dos casos, verificar a corretude das informações disponíveis.
Os registros identificados como incompletos e/ou incorretos foram excluídos das análises que
necessitavam destes dados. Ainda precisam ser feitos estudos para determinar se a completude dos
dados pode ter impacto significante sobre os resultados obtidos para o estudo de caso (veja no
Capítulo 4 uma descrição do percentual de registros desqualificados).
4
INTRODUÇÃO
1.5
1.5
Organização do trabalho
Esta dissertação está organizada em sete Capítulos, incluindo este Capítulo introdutório.
O Capítulo 2 apresenta conceitos elementares sobre a Teoria dos Grafos, com as principais
definições utilizadas nesta dissertação, além de uma breve descrição sobre a área da genealogia e
seus elementos, apresentando os principais objetivos desta ciência. Um exemplo construído a partir
de um subconjunto dos dados (doutores em matemática com titulação no Brasil) prospectados no
MGP completam este Capítulo.
As métricas topológicas desenvolvidas e adaptadas para a caracterização de grafos de genealogia
acadêmica são descritas no Capítulo 3, ordenadas de acordo com suas características (descendentes
ou ascendentes). Neste Capítulo descreve-se o processo de cálculo bem como o objetivo de cada
uma das 22 métricas. Há, também, uma descrição sobre a abrangência das métricas (janelas) e
um exemplo de grafo de genealogia conceitual com os valores das métricas calculados para janelas
distintas.
A base de dados utilizada no estudo de caso desta dissertação é descrita em detalhes no Capítulo
4, onde há uma sucinta esplanação sobre o MGP e sobre o método utilizado para a prospecção de
seus dados. Os dados são detalhados sob diferentes aspectos: (i) os matemáticos, (ii) os relacionamentos de orientação acadêmica, (iii) as áreas mais proeminentes (Mathematics Subject Classification),
(iv) as escolas matemáticas e (v) a topologia do grafo resultante.
O Capítulo 5 descreve a correlação observada entre as métricas topológicas e sobre a capacidade
das métricas em caracterizam os vértices do grafo em função de seus coeficientes de correlação.
Ainda neste capítulo, há a descrição a respeito do procedimento matemático denominado Análise de
Componentes Principais (PCA). Este procedimento foi utilizado, nesta dissertação, com o objetivo
de reduzir a dimensionalidade dos dados e, assim, possibilitar uma classificação dos vértices do
grafo por meio dos resultados de suas respectivas métricas topológicas. A classificação por meio da
PCA foi realizada considerando as 41 janelas possíveis para o grafo de genealogia, a variabilidade
observada na classificação para cada janelas também é apresentada neste capítulo.
O Capítulo 6 é dedicado a descrever os trabalhos correlatos a esta dissertação que estão ordenados por: (i) trabalhos que utilizaram a mesma base de dados e o mesmo tipo de relacionamento,
(ii) bases de dados diferentes e o mesmo tipo de relacionamento e (iii) diferentes bases de dados e
tipos de relacionamentos.
Finalmente, o Capítulo 7 apresenta as principais conclusões obtidas no estudo de caso e lista
possíveis desdobramentos futuros para esta dissertação.
Capítulo 2
Definições preliminares
2.1
Grafos
Um grafo (G) pode ser definido como um par (V, E), onde V é um conjunto (não vazio) de
objetos, denominados vértices, e E é um conjunto de pares de vértices (u, v) que representam ligações
entre os vértices u e v; essas ligações são denominadas arestas. Outros conceitos fundamentais sobre
grafos, utilizados nesta dissertação, são descritos a seguir:
• Grafos dirigidos
As arestas de um grafo podem apresentar orientações que indicam o sentido da ligação entre
os vértices, ou seja, E é um conjunto de pares ordenados de vértices (u, v). Os grafos que
possuem arestas dirigidas são denominados grafos dirigidos. Se (u, v) é uma aresta em um
~ = (V, E), diz-se que a aresta (u, v) é incidente do vértice u e é incidente no
grafo dirigido G
vértice v. Nesse contexto o vértice v é adjacente ao vértice u (u → v).
• Graus de grafos dirigidos
~ o grau de saída de um vértice v é o número de arestas que incidem
Em um grafo dirigido G,
dele (saem), denotado por d(v)− , e o grau de entrada de um vértice v é o número de arestas
que incidem nele (entram), denotado por d(v)+ . O grau de um vértice é definido como a soma
do grau de entrada e o grau de saída, ou seja, d(v) = d(v)− + d(v)+ .
• Caminhos e ciclos em grafos dirigidos
Um caminho de comprimento k (C (k) ) de um vértice origem u a um vértice destino u0 em
~ é uma sequência (v0 , v1 , v2 , . . . , vk ) de vértices tais que u = v0 , u0 = vk e
um grafo dirigido G
(vi−1 , vi ) para i = 1, 2, 3, . . . , k. Em um grafo dirigido, um caminho (v0 , v1 , v2 , . . . , vk ) forma
um ciclo se v0 = vk e o caminho contém no mínimo uma aresta. Um grafo que não possui
ciclos é acíclico.
• Grafos dirigidos conexos
~ é conexo se existe, no mínimo, um caminho ligando todos os vértices
Um grafo dirigido G
5
6
DEFINIÇÕES PRELIMINARES
2.3
deste grafo. No contexto desta dissertação, utiliza-se o termo grafo de genealogia que é definido
como um grafo dirigido acíclico conexo.
• Níveis em grafos
Um vértice de origem, em um grafo de genealogia, é aquele que apresenta grau de entrada
igual a zero (d(v)+ = 0) e, neste trabalho, é denominado vértice raiz. A posição do vértice raiz
~ e dado
no grafo de genealogia é identificada como nível zero. Dado um grafo de genealogia G
um vértice raiz v ∈ V o nível m de um vértice v 0 ∈ V no grafo de genealogia é o comprimento
k do menor caminho existente entre v e v 0 .
2.2
Genealogia
A busca da humanidade sobre suas origens é tema recorrente e pode ser observado desde os
registros no Livro de Gênesis até iniciativas contemporâneas no sentido de documentar a história
de comunidades acadêmicas por meio de suas relações. A genealogia acadêmica busca, através
do registro de acadêmicos, em diversas áreas, e seus relacionamentos de orientação documentar
de forma perene a história de comunidades acadêmico-científicas e, assim, possibilitar um melhor
entendimento sobre como o passado impactou na formação do presente e qual a tendência para o
futuro destas comunidades.
A genealogia é uma ciência auxiliar da história que estuda a origem, evolução e disseminação de
grupos inter-relacionados por laços familiares ou outro tipo de relacionamento qualquer. O objeto
de pesquisa da genealogia são os ascendentes e os descendentes de um indivíduo. O processo de
pesquisa envolvido na genealogia abrange a identificação de parentesco entre indivíduos por meio
de registros históricos como certidões de nascimento, casamento, óbito, registro de propriedades e
outros documentos que possam comprovar uma ligação entre eles.
Um objetivo importante em um estudo genealógico é obter conhecimento que possibilite um
entendimento do futuro com base no passado, por vezes, desconhecido. Esse estudo possibilitaria
traçar a memória de diferentes indivíduos.
O desenvolvimento da internet e de novas tecnologias de informação mudou radicalmente a forma
pela qual pesquisadores na área de genealogia conduzem suas pesquisas, o acesso e o compartilhamento de dados é uma das evoluções observadas no mundo digital [Hey et al., 2009, Marton et al.,
2013]. Pesquisadores na área de genealogia, seja em qual for o contexto, têm como ferramenta
fundamental de trabalho o compartilhamento amplo e assertivo de dados referentes aos indivíduos
pesquisados e seus relacionamentos.
2.3
Grafos de genealogia
A utilização de representações gráficas para estruturar os indíviduos que têm algum tipo de
conexão facilita o estudo genealógico. A estrutura geralmente utilizada é denominada árvore de
genealogia. A origem do nome é devido a semelhança com a ramificação das árvores observadas na
2.4
CONJUNTO DE GRAFOS DE GENEALOGIA
7
natureza, que normalmente seguem o padrão Fibonacci. O conceito também é utilizado na medicina
para o estudo de doenças de cunho genético.
As estruturas construídas a partir de dados de genealogia acadêmica não podem ser categorizadas como árvores no rigor da matemática formal, pois não atendem à todos os critérios de
definição deste tipo de estrutura (e.g.: “deve haver um único caminho entre dois vértices em uma
árvore.”). Nesta dissertação é utilizado o termo grafo de genealogia para nomear as estruturas de
genealogia. Um grafo de genealogia pode ser definido como uma estrutura gráfica onde os indivíduos
são representados por elementos geométricos (círculo, retângulo) e as ligações existentes entre estes
elementos por segmentos de reta, ou seja, trata-se de um caso particular de grafo sendo categorizado
como grafo direcionado acíclico conexo.
Os grafos de genealogia podem, em algum contexto, apresentar ciclos. Isto ocorre quando diferentes tipos de relacionamentos de orientação acadêmica são considerados no mesmo grafo. Suponha
um relacionamento professor-aluno do tipo iniciação científica. Caso o aluno continue evoluindo em
seus estudos e o professor não, é possível que, no futuro, o aluno torne-se, por exemplo, orientador
de mestrado de seu antigo professor. Este exemplo, apesar de improvável, resultaria em um ciclo no
grafo de genealogia. Para este trabalho todos os relacionamentos são de mesmo tipo, não havendo
possibilidade do surgimento de ciclos.
~ é um par (V, E), onde V é um conjunto finito de vértices e E é uma relação
Um grafo dirigido G
binária ordenada em V . Para este trabalho, os acadêmicos e seus relacionamentos de orientação
são estruturados na forma de grafo de genealogia. Os vértices (V ) representam os indivíduos (acadêmicos) e as arestas direcionadas (E) representam seus relacionamentos. Tanto os vértices quanto
as arestas direcionas (e.g., orientação ou supervisão) possuem atributos. As informações que comumente podem ser consideradas nos vértices desse tipo de estrutura são as seguintes: (i) nome do
orientador/orientado, (ii) nome da instituição profissional a qual pertence, (iii) área de pesquisa do
orientador/orientado, (iv) geolocalização da instituição acadêmica. Já as arestas podem considerar
informações relacionadas a: (i) ano da orientação, (ii) tipo de orientação, (iii) nome da instituição
onde foi realizada a orientação, (iv) áreas de pesquisa consideradas na orientação e (v) período de
orientação1 .
2.4
Conjunto de grafos de genealogia
Um grafo de genealogia, neste contexto, é um conjunto de vértices interligados ou um único
elemento isolado. Um conjunto de grafos de genealogia é utilizado para representar comunidades
acadêmico-científicas em que seus vértices e arestas direcionadas contém atributos que podem ser
categorizados em um mesmo contexto.
O conjunto de grafos de genealogia acadêmica prospectado da plataforma do MGP foi constituído de forma a representar os acadêmicos e seus relacionamentos, estruturando-os em um banco de
1
Para o conjunto de dados do estudo de caso considerado neste trabalho, não utilizamos atributos para os relacionamentos visto que não há registros deste tipo na base de dados utilizada.
8
DEFINIÇÕES PRELIMINARES
2.4
dados orientado a grafos2 , onde cada acadêmico é representado por um vértice e os relacionamentos
de orientação acadêmica são representados por arestas direcionadas.
A título de exemplo, na Figura 2.1 apresenta-se um subconjunto de grafos de genealogia acadêmica, constituído pelos grafos de genealogia dos matemáticos que obtiveram sua titulação no Brasil.
Os grafos são ordenados segundo o tamanho (número de vértices) de cada componente conexa, onde
a magnitude dos grafos aumenta da base para o topo da figura. Neste conjunto, observamos grafos constituídos desde um único vértice até estruturas mais complexas com diferentes níveis de
profundidade3 .
O conjunto de grafos de genealogia acadêmica dos matemáticos do Brasil é composto por
1.615 vértices que representam os matemáticos que foram titulados em instituições brasileiras
[Rossi & Mena-Chalco, 2014b] e corresponde a 0,90% da base de dados total. Este conjunto ocupa
a 12a posição em relação ao total de matemáticos (veja no Capítulo 4 uma descrição completa do
conjunto de dados utilizado). Trata-se de uma comunidade jovem que apresenta franco crescimento
em número de titulações ano após ano. Comparando as décadas de 1980 e 1990 observa-se uma taxa
de crescimento de 159%, para a década seguinte o crescimento se mantém a uma taxa de 118%.
2
Para a constituição do banco de dados foi utilizado a plataforma Neo4j que é um software livre de banco de
dados orientado à grafos [Robinson et al., 2013].
3
A métrica que estima a profundidade é descrita no Capítulo 3.
2.4
CONJUNTO DE GRAFOS DE GENEALOGIA
9
Figura 2.1: Conjunto de grafos de genealogia dos matemáticos que obtiveram titulação no Brasil. Os vértices e as arestas direcionadas representam os matemáticos brasileiros e seus relacionamentos de orientação
acadêmica, respectivamente. A magnitude dos grafos (número de vértices) aumenta da base para o topo da
figura.
10
DEFINIÇÕES PRELIMINARES
2.4
Capítulo 3
Métricas em grafos de genealogia
~ = (V, E) é uma função de V em R, que utiliza
Uma métrica em um grafo de genealogia G
as ligações entre os vértices para o cálculo de seu valor. As métricas podem ser divididas em dois
grupos, segundo seu objetivo específico. As métricas de composição descendente e ascendente. O
conjunto de métricas utilizado nesta dissertação, com seus respectivos objetivos, são descritas neste
capítulo.
3.1
Métricas de composição descendente
As métricas de composição descendente são aquelas que utilizam para sua mensuração a descendência de um vértice de interesse. A descendência de um vértice é comumente chamada de território
do vértice e pode ser definida por:
T + (v) = {u ∈ V : ∃(v, u) − caminho em G}.
(3.1)
Esta categoria de métrica visa identificar como um determinado vértice impactou a formação
do grafo de genealogia por meio de suas relações de orientação. Trata-se de uma visão posterior à
origem do vértice analisado. As 14 métricas que compõem esta categoria são descritas a seguir.
3.1.1
Largura – Número de descendentes diretos.
A largura (l+ ) representa o número de vértices adjacentes (vizinhos) a um vértice de interesse.
Ela é uma medida simples usada para classificar um vértice com base em sua capacidade de conexão.
Trata-se de uma análise quantitativa importante, porém ela não considera as possíveis conexões dos
vértices adjascentes ao vértice raiz, portanto essa métrica não revela o impacto indireto exercido
pelo vértice de interesse na formação do grafo de genealogia.
~ e um vértice de interesse v ∈ V , a descedência direta do vértice
Dado um grafo de genealogia G
v em G é:
D(v) = {u ∈ V : (v, u) ∈ E},
11
(3.2)
12
MÉTRICAS EM GRAFOS DE GENEALOGIA
3.1
e a l+ (v) é dada por:
l+ (v) = |D(v)|.
3.1.2
(3.3)
Número de folhas – Vértices sem descendentes
A métrica número de folhas (nf ) apresenta o número de vértices (v) não fecundos (d(v)− = 0)
~ ou seja, aqueles que não têm nenhum filho. No contexto
existentes em um grafo de genealogia G,
acadêmico, podemos encontrar este tipo de característica em alunos que não realizaram orientações.
O número de folhas existentes em um grafo de genealogia pode nos indicar sua tendência de
crescimento quando analisadas em conjunto com o atributo tempo. Por exemplo, folhas nascidas há
muito tempo (i.e., matemáticos que obtiveram sua titulação há mais de 10 anos) podem indicar sua
infertilidade. Caso o grafo apresente a maioria de suas folhas nesta condição, ele pode ser classificado
como sendo um grafo com baixa capacidade de crescimento. Por outro lado, se a maioria das folhas
são novas (i.e., matemáticos que obtiveram sua titulação há menos de 10 anos) o grafo certamente
tem grande potencial de expansão.
~ = (V, E) e um vértice de interesse v ∈ V , a descendência de v
Dado um grafo de genealogia G
é dada por T + (v) (Eq. 3.1) e o conjunto N F dos vértices folha é definido por:
N F (v) = {u ∈ T + (v) : d− (u) = 0}
(3.4)
neste contexto o valor da métrica nf (v) é dado por:
nf (v) = |N F (v)|.
3.1.3
(3.5)
Profundidade – Número de gerações descendentes
A métrica profundidade (p+ ) é uma medida utilizada para representar o grau de maturação
do grafo de genealogia. Quanto maior o valor de p+ tanto maior será o tempo de existência desta
estrutura. O inverso não é verdadeiro, ou seja, não se pode afirmar que grafos pouco profundos
sejam, necessariamente, novos. Essa métrica apresenta o tamanho do maior caminho existente no
grafo de genealogia de um dado vértice e representa o número de gerações descendentes a partir de
um vértice de interesse.
~ e um vértice de interesse v ∈ V , a profundidade p+ (v) é dada
Dado um grafo de genealogia G
pelo maior comprimento k dentre os caminhos possíveis, ou seja:
p+ (v) = max{k ∈ N : ∃(v, u) − caminho em G, ∀u ∈ N F (v)}.
3.1.4
(3.6)
Fecundidade – Número de descendentes diretos e indiretos
A métrica fecundidade (f + ) refere-se a quão prolífico é um vértice do grafo, considerando o
número de descendentes (diretos ou indiretos) que ele possui em todos os níveis do grafo de genea-
3.1
MÉTRICAS DE COMPOSIÇÃO DESCENDENTE
13
logia. Esta métrica tem como objetivo identificar o impacto do vértice analisado na composição do
conjunto de grafos de genealogia.
~ e um vértice de interesse v ∈ V , a f + (v) é dada por:
Dado um grafo de genealogia G
f + (v) = |T + (v)|.
(3.7)
Desta forma, podemos considerar que vértices com maior fecundidade são aqueles que possuem um
maior número de conexões diretas ou indiretas.
3.1.5
Fecundidade ponderada – Influência normalizada de descendentes diretos
e indiretos
Uma análise mais cuidadosa da métrica fecundidade, descrita anteriormente, nos leva a observar
que os vértices localizados a partir do nível dois de um grafo não são resultado apenas da influência
do vértice de interesse, mas também da influência direta dos vértices adjacentes no nível anterior.
Analogamente a um grafo de genealogia familiar, é natural pensar que um neto sofre uma
influência maior de seu pai do que de seu avô. Neste sentido as características similares às do avô
que o neto apresenta foram recebidas indiretamente, ou seja, houve um elo entre eles, o pai. Por
vezes, o pai pode desenvolver características próprias sem que as tenha recebido do avô, e influenciar
o neto segundo estas caracterísiticas. Assim parte do perfil do neto não teria nenhuma participação
do avô.
A fecundidade ponderada (f p) é utilizada para normalizar a influência indireta que os vértices
sofrem. Neste trabalho, a f p utiliza como fator de ponderação o comprimento k do caminho entre
o vértice raíz e seus descendentes.
~ e um vértice de interesse v ∈ V , o conjunto de caminhos de
Dado um grafo de genealogia G
comprimento k é dado por:
C (k) (v) = {(v, u) − caminhos de comprimento k em G : ∀u ∈ V }.
(3.8)
O número de caminhos de comprimento k de v ∈ V para todo u ∈ V , é:
c(k) (v) = |C (k) (v)|.
(3.9)
n
X
c(k) (v)
(3.10)
Neste contexto, a f p(v) é dada por:
f p(v) =
k=1
k2
.
A f p reduz o impacto da quantidade de vértices pertencentes à linhagem de um vértice raiz
à medida que eles se distânciam, ou seja, quanto mais distante um vértice está da raiz, menor é
sua contribuição na composição do valor da métrica. Uma informação importante que essa métrica
produz é o quanto um vértice raiz foi capaz de motivar/influenciar seus descendentes.
14
MÉTRICAS EM GRAFOS DE GENEALOGIA
3.1.6
3.1
Maior largura – Maior número de descendentes pertencentes a uma geração
A maior largura (ml) identifica a maior quantidade de vértices existentes em um único nível do
grafo. A métrica ml de um grafo indica sua amplitude e permite comparações com outros grafos do
conjunto, com o objetivo de estimar qual deles é mais abrangente. Quando a análise da ml é feita
em conjunto com o nível que a contém, temos uma ideia da topologia deste grafo. Normalmente,
devido às características de propagação destas estruturas genealógicas, os maiores resultados são
encontrados nos últimos níveis dos grafos. Quando a ml se apresenta em níveis superiores podemos
classificar este nível como sendo o momento de ruptura da influência do vértice raiz, sendo que, a
partir daquele nível, a propagação do grafo ocorrerá devido à influência de alguns poucos vértices
em uma proporção menor que a observada nos níveis anteriores.
~ e um vértice de interesse v ∈ V , a ml(v) é dada por:
Dado um grafo de genealogia G
ml(v) = {k ∈ N : max(c(k) (v))}.
3.1.7
(3.11)
Índice-h genealógico
O índice h genealógico (h) de um vértice é definido como o maior número h de conexões existentes
entre ele e seus vértices adjacentes que possuem, pelo menos, o mesmo número h de conexões cada
um1 . O objetivo desta métrica é considerar a quantidade e a qualidade genealógica (no sentido de
perpetuidade) dos relacionamentos em um grafo de genealogia.
~ um vértice de interesse v ∈ V é k-fértil se l+ (v) ≥ k (Eq. 3.3).
Dado um grafo de genealogia G,
A descendência direta k-fértil de um vértice u ∈ V é o conjunto:
D(k) (u) = {v ∈ D(u) : l+ (v) ≥ k},
(3.12)
l(k) (u) = |D(k) (u)|.
(3.13)
e a largura k-fértil de u é:
Neste contexto, o índice h de um vértice u é definido por:
h(u) = max{k ∈ N : l+ (u), l(k) (u) ≥ k}.
1
(3.14)
O índice h, proposta por Hirsch [2005], é uma métrica que combina quantidade (número de publicações) e
qualidade (número de citações) da produção acadêmica. Veja no Anexo C.3 um artigo redigido sobre a expansão
deste índice-h.
3.1
15
MÉTRICAS DE COMPOSIÇÃO DESCENDENTE
3.1.8
Impacto – Proporção de descendentes diretos ou indiretos considerando
o conjunto total
Para verificar o quão importante um dado vértice é, em consideração a todo o conjunto de
grafos de genealogia, utilizamos a métrica influência (i). A i é um valor entre 0 e 1, onde 0 significa
nenhuma influência e 1 representa o total da floresta. A ideia de influência está ligada à seguinte
premissa: caso o vértice não exista qual seria a magnitude do conjunto de grafos resultante?
O cálculo da i leva em consideração a descendência total do vértice (f + ) (Eq. 3.7) para estimar
sua importância.
~ um vértice de interesse v ∈ V , a influência i(v) é dada por:
Dado um grafo de genealogia G,
i(v) =
3.1.9
f + (v)
.
|V |
(3.15)
Distância média – Média do tamanho dos caminhos existentes no grafo
A métrica distância média (dm) classifica a topologia do grafo constituído a partir de um vértice
de interesse (v), considerando a proximidade de v em relação a todos seus descendentes.
Na comparação entre grafos de genealogia, aqueles que possuem maiores valores para esta métrica podem ser considerados mais coesos, ou seja, o tamanho médio de seus caminhos (ramificações)
é maior.
Para o cálculo da dm consideramos a somatória do número de caminhos de tamanho k dividido
pela somatória do número de caminhos totais, que resulta no tamanho médio dos caminhos no
grafo.
~ e um vértice de interesse v ∈ V , a dm(v) é dada por:
Dado um grafo de genealogia G
Pn
(k)
k=1 c (v).k
,
dm(v) = Pn
(k)
k=1 c (v)
(3.16)
onde n é o tamanho do maior caminho no grafo.
3.1.10
Média dos menores caminhos
Similarmente à dm, a métrica média dos menores caminhos (mmc) fornece, conceitualmente,
informação sobre a distância entre os elementos do grafo, porém com a utilização de uma ponderação
diferenciada.
~ = (V, E), um vértice de interesse v ∈ V , a mmc(v) é dada por:
Dado um grafo de genealogia G
mmc(v) = Pn
k=1
c(k) (v).k
P
,
c(k) (v) . nk=1 c(k) (v) − 1
Pn
k=1
onde n é o tamanho do maior caminho no grafo.
(3.17)
16
3.1
MÉTRICAS EM GRAFOS DE GENEALOGIA
3.1.11
Pagerank inverso
A métrica Pagerank (descrita na seção 3.2.7), que tem como objetivo classificar as páginas Web
de acordo com sua relevância na rede, transmite o seu valor para os vértices adjacentes ao vértice
de interesse, o que resulta em uma classificação onde os vértices folha apresentam um maior valor
para essa métrica. Os vértices que têm maior impacto na composição de um grafo de genealogia são
aqueles que deram origem ao grafo (vértice raíz), ou seja, no contexto dos grafos de genealogia, os
vértices raíz possuem maior relevância que os vértices folha.
A métrica Pagerank inverso (pr− ) tem por objetivo corrigir o fluxo de transmissão do valor do
Pagerank para os vértices raíz, resultando em uma classificação onde estes vértices sejam privilegiados [Bar-Yossef & Mashiach, 2008].
~ atribui-se um valor inicial: pr− (v) = 1 para
Dado um conjunto de grafos de genealogia G,
|V |
todo v ∈ V . Dado um vértice de interesse v ∈ V , a ascendência de v é:
A(v) = {u ∈ V : (u, v) ∈ E},
a largura inversa de v é:
l− (v) = |A(v)|
e o Pagerank inverso é dado por:


−
X
pr (u) 
(1 − q) 
+ q
,
pr− (v) =
|V |
l− (u)
(3.18)
u∈A(v)
onde, q é um fator de amortecimento que representa uma probabilidade de, durante as iterações,
ocorrer uma interrupção no ‘percurso’ pelas conexões entre os vértices. Para este trabalho utilizou-se
q = 0, 85.
3.1.12
Pagerank inverso ponderado
A métrica pagerank inverso ponderado (prp− ) tem por objetivo proporcionar uma dimensão
adicional ao conjunto de métricas, auxiliando na caracterização dos vértices do grafo de genealogia.
Seu valor é obtido por meio da utilização da métrica pagerank inverso como fator de ponderação.
Vértice com valores maiores de prp− são aqueles que possuem menos descendentes, já os vértices
que originam grandes grafos de genealogia possuem baixos valores para esta métrica.
O valor da métrica prp− considerado neste trabalho está definido por:
prp− (v) =
1
pr− (v)
.
(3.19)
3.1
MÉTRICAS DE COMPOSIÇÃO DESCENDENTE
3.1.13
17
Balanceamento pela fecundidade
Um grafo de genealogia é considerado balanceado se suas ramificações (i.e., caminhos existentes
do vértice raíz até todos os vértices folha) apresentam escalas semelhantes. A métrica balanceamento
pela fecundidade (bf ) para o vértice v utiliza o desvio padrão dos valores da métrica fecundidade
dos vértices adjacentes ao vértice v com o objetivo de classifica-lo segundo a magnitude dos grafos
originados a partir de sua vizinhança. Vértices com valores baixos para bf são aqueles que possuem
descendentes com características de conexão similares.
~ e um vértice de interesse v ∈ V , o conjunto dos valores da
Dado um grafo de genealogia G
fecundidade dos vértices adjacentes à v é:
F (v) = {f + (u) : u ∈ D(v)}
(3.20)
onde:
• f + (u) é a fecundidade de u (Eq. 3.7);
• D(v) é o conjunto de descendente de v (Eq. 3.2);
e o balanceamento pela fecundidade é dado por:
bf (v) = std (F (v))
(3.21)
onde std (F (v)) é o desvio padrão dos elementos do conjunto F .
Os vértices w ∈ V que apresentam valores de bf (w) = 0 são aqueles que possuem grafos de
genealogia com um balanceamento perfeito, ou seja, todos os seus vértices adjacentes possuem o
mesmo número de descendendes. Valores de bf (w) > 0 indicam um desbalanceamento proporcional
ao valor desta métrica. Para vértices que não apresentam adjacentes (i.e., d(w)− = 0), assumimos
arbitrariamente que bf (w) = −1.
3.1.14
Balanceamento global
A análise de balanceamento de grafos de genealogia proposta pela utilização da métrica balanceamento pela fecundidade, apresentada anteriormente, tem como limitação a utilização de somente
uma única métrica (fecundidade) como parâmetro para definição do equilíbrio do grafo. Porém, esta
métrica não permite medir este equilíbrio sob a ótica das demais métricas.
A métrica balanceamento global (bg) também tem por objetivo verificar o balanceamento de
grafos, entretanto utiliza todo o conjunto de métricas disponíveis para este fim.
O cálculo da métrica bg é realizado em algumas etapas. Primeiramente, realiza-se uma normalização (min-max) [Ding et al., 2001] dos valores de todas as métricas adjacentes a um vértice de
interesse, com o objetivo de harmonizar as escalas das métricas.
~ onde mvi é o valor da métrica i do vértice v ∈ V ,
Seja um conjunto de grafos de genealogia G
os valores normalizados 0 ≤ ||mvi || ≤ 1 para as métricas são dados por:
18
3.2
MÉTRICAS EM GRAFOS DE GENEALOGIA
||mui || =
mui − mumin
: u ∈ D(v).
mumax − mumin
(3.22)
O próximo passo consiste em calcular a distância euclidiana [Neto & Moita, 1998] entre os
conjuntos de valores de métricas normalizados e suas respectivas médias ||mi ||.
DE(v) = {dei (||mui ||) =
O valor de bg(v) com v ∈ V é dado por:
qX
(||mi || − ||mui ||)2 : u ∈ D(v)}.
bg(v) = std (DE(v)) ,
(3.23)
(3.24)
onde dei é a distância euclidiana do conjunto de métricas normalizadas do vértice u e std (DE(v))
é o desvio padrão dos valores das distâncias euclidianas obtidas.
A interpretação do resultado da métrica balanceamento global e a tratativa para vértices que
não possuem descendência, seguem as mesmas diretrizes descritas para a métrica balanceamento
pela fecundidade.
Aqui é importante destacar que a métrica de balanceamento global, ainda que inclusa nesta
seção dedicada às métricas de composição descendentes, possui composição mista. O processo de
obtenção dos valores de bg considerou ambos os grupos de métricas, as de composição descendente
e ascendente, este último grupo é detalhado na seção que segue.
3.2
Métricas de composição ascendente
Em um estudo de caso realizado com o grafo genealógico de Johann Bernoulli e aplicando-se parte
das métricas topológicas, descritas anteriormente [Rossi & Mena-Chalco, 2014a], observou-se que a
maioria dos vértices analisados (80,69%) não possuiam descendentes, ou seja, a maior parte da grafo
é composta por vértices folha. Com a utilização somente de métricas de composição descendente,
diferenciar este conjunto de vértices folha é uma tarefa que não é possível de se realizar, pois não há
linhagem que possibilite o cálculo das métricas de composição descendente. Porém, considerando
que cada vértice do grafo de genealogia possui ancestrais (ascendência) diferentes, pode-se supor
que mesmo vértices folha podem ser distintos entre si devido à influência de seus ancestrais.
No contexto acadêmico-científico, mais precisamente para as relações de orientação acadêmica,
a qualidade da orientação impacta na formação do orientado [Malmgren et al., 2010]. Assim alunos
que tiveram orientações diferentes tendem a apresentar desempenhos também diferentes.
Para possibilitar a diferenciação entre os vértices pertencentes a um grafo de genealogia, em
especial os vértices folha, utilizamos um conjunto de métricas de composição ascendente. Este
conjunto utiliza a ascendência de um indivíduo para a composição do valor da métrica, ou seja, os
pais, avós, e demais ascendentes, com o objetivo de identificar como um determinado vértice foi
impactado pelas relações de orientação que recebeu. Trata-se de uma visão anterior à origem do
3.2
MÉTRICAS DE COMPOSIÇÃO ASCENDENTE
19
indivíduo analisado.
A diferença fundamental nos cálculos das métricas, para os dois grupos apresentados, está na
forma de se caminhar (ou percorrer) no grafo. Para as métricas de composição descendente utilizamos a orientação original das arestas, ou seja, caminhamos da origem para o destino, sendo origem o
vértice inicial e destino um vértice adjacente que esteja ligado à origem por uma aresta direcionada.
O cálculo das métricas de composição ascendente foram realizados com as arestas invertidas, ou
seja, também caminhamos da origem para o destino, porém, sendo origem o vétice inicial e destino
um vértice adjascente que esteja ligado à origem por uma aresta direcionada invertida.
Os antecessores de um vértices são comumente chamados de território inverso (ou anti-território).
~ e um vértice de interesse v ∈ V , o território inverso de v é definido
Dado uma grafo de genealogia G
por:
T − (v) = {u ∈ V : ∃(u, v) − caminho em G}
(3.25)
O principal objetivo deste grupo de métricas é possibilitar a caracterização de parte importante dos vértices das grafos de genealogia que não possuem descendentes, aumentando assim a
possibilidade de se obter conhecimento sobre estas estruturas.
3.2.1
Fecundidade inversa – número de ascendentes diretos ou indiretos
A métrica fecundidade inversa (f − ) considera o total de vértices que precederam um vértice de
interesse, ou seja, contabiliza os pais, avós e os demais ascendentes de um dado vértice. A f − é uma
importante medida visto que agrega o total de vértices que, direta ou indiretamente, participaram da
formação de um determinado vértice de interesse. Possibilita, também, a identificação de vértices
primos (vértices que possuem ascendentes comuns e estão no mesmo nível) e analisar possíveis
correlações entre seus atributos.
~ e um vértice de interesse v ∈ V , a métrica f − é definida por:
Dado uma grafo de genealogia G
f − (v) = |T − (v)|.
3.2.2
(3.26)
Fecundidade média do território inverso – influência normalizada de ascendentes diretos e indiretos
A f − estima o total de vértices que estão conectados, direta ou indiretamente, a um determinado
vértice de interesse, porém essa métrica não diferencia os vértices do território inverso entre si,
portanto apresenta uma abordagem quantitativa. Para considerarmos o quão importante é um
vértice que pertence à ascendência de outro e tranferir esta relevância para este vértice utilizamos
a fecundidade média do território inverso (f mT − ). A f mT − representa o valor médio das f +
individuais dos vértices que participam no território inverso do vértice em questão, transferindo
para este vértice a relevância da qual seus antecessores fazem jus.
20
3.2
MÉTRICAS EM GRAFOS DE GENEALOGIA
No contexto acadêmico, dois indivíduos podem ter a mesma quantidade de ancestrais, porém,
cada ancestral apresenta resultados, em termos de orientação acadêmica, diferentes entre si que, em
tese, influenciaram estes indivíduos de formas diferentes.
~ e um vértice de interesse v ∈ V , a métrica f mT − é dada por:
Dado um grafo de genealogia G
f mT − (v) =
3.2.3
1
f − (v)
X
f + (w).
(3.27)
w∈T − (v)
Fecundidade ponderada média do território inverso
Similarmente à f mT − , a fecundidade ponderada média do território inverso (f pmT − ) representa
o valor médio das f p individuais dos vértices que participam no território inverso do vértice em
questão. A principal diferença entre estas duas medidas é a utilização de bases diferentes em suas
composições. Conforme discutido anteriormente, a f + representa a quantidade total de descendentes
diretos ou indiretos enquanto a f p, devido ao seu fator de ponderação, estima de forma mais
abrangente a importância de um vértice no grafo.
~ e um vértice de interesse v ∈ V , a métrica f pmT − é definida
Dado um grafo de genealogia G
por:
f pmT − (v) =
3.2.4
1
−
f (v)
X
f p(w).
(3.28)
w∈T − (v)
Número de ascendentes origem – Vértices sem ascendência
Um grafo de genealogia não é, comumente, originado de um único vértice raiz. Pode-se encontrar
grafos que possuem mais de um vértice de origem. A principal característica de um vértice origem
é a ausência de ascendentes (d(v)+ = 0). Esta métrica representa o número de ascendentes que, por
sua vez, não tiveram ascendentes. A métrica dá a ideia do número de antecessores que influenciaram
o vértice.
~ e um vértice de interesse v ∈ V , o conjunto O(v) dos vértices
Dado um grafo de genealogia G
origem é definido por:
O(v) = {u ∈ T − (v) : d(u)+ = 0}
(3.29)
neste contexto, a métrica no(v) é definida por:
no(v) = |O(v)|.
3.2.5
(3.30)
Largura inversa – Número de ascendentes diretos
A métrica largura inversa (l− ) de um vértice pode ser definida como o número de vértices
existentes em seu território inverso que estão diretamente conectados, por uma aresta direcionada,
3.2
MÉTRICAS DE COMPOSIÇÃO ASCENDENTE
21
ao vértice de interesse. Esta métrica representa o número total de orientadores diretos do vértice
em questão.
~ e um vértice de interesse v ∈ V , a ascendência de v é:
Dado um grafo de genealogia G,
A(v) = {u ∈ V : (u, v) ∈ E},
(3.31)
l− (v) = |A(v)|.
(3.32)
a largura inversa de v é:
3.2.6
Profundidade inversa – Número de gerações ascendentes
Todo vértice em um grafo de genealogia pertence a uma linhagem de outros vértices que o precederam, exceto os vértices origem, que não possuem ascendente. Em certo contexto, as características
de um vértices podem ser, total ou parcialmente, transmitidas para um vértice adjacente. Este comportamento pode nos indicar que algumas características, as mais dominantes, se perpetuam pelo
grafo devido às conexões existentes.
A métrica profundidade inversa (p− ) é uma medida que apresenta o maior número de vértices
que precederam um vértice de interesse e são conectados em um único caminho. Em outras palavras,
esta métrica é o tamanho do maior caminho existente no grafo de genealogia de um dado vértice e
um vértice origem, representando assim o número de gerações ascendentes de um vértice.
~ e um vértice de interesse v ∈ V , a profundidade inversa p− (v)
Dado um grafo de genealogia G
é dada pelo caminho de maior comprimento k dentre os caminhos possíveis entre v e u ∈ O(v), ou
seja:
p− (v) = max{k ∈ N : ∃(u, v) − caminho em G, ∀u ∈ O(v)}.
3.2.7
(3.33)
Pagerank
A métrica Pagerank foi originalmente desenvolvida por Larry Page e Sergey Brin [Page et al.,
1999], fundadores do Google, com o objetivo de classificar as páginas Web de acordo com sua
relevância na rede. Cada vértice representa uma página e cada aresta um link entres elas. As
páginas com maiores valores de Pagerank são aquelas que: (i) têm maior número de páginas com
link’s direcionados para si e/ou (ii) estas páginas conectadas apresentam alto valor para a métrica.
O cálculo do Pagerank é feito de forma iterativa, onde as páginas são inicializadas com um valor
específico para a métrica e, após cada iteração, este valor é recalculado até que se obtenha resultados
estáveis de acordo com um limiar de convergência pré-estabelecido.
No contexto deste trabalho, a métrica pagerank (pr) mantém seu objetivo original, ou seja,
classificar os vértices de um grafo segundo suas ligações, diferenciando-se somente as característica
do grafo utilizado que, para este caso, é um conjunto de grafos de genealogia.
22
3.3
MÉTRICAS EM GRAFOS DE GENEALOGIA
~ atribui-se um valor inicial: pr(v) = 1 para todo
Dado um conjunto de grafos de genealogia G,
|V |
v ∈ V . Dado um vértice de interesse v ∈ V , o pr(v) é obtido por:


X
(1 − q) 
pr(u) 
pr(v) =
+ q
,
|V |
l+ (u)
em que:
(3.34)
u∈D(v)
• q é um fator de amortecimento que representa uma probabilidade de, durante as iterações,
ocorrer uma interrupção no “percurso” pelas conexões entre os vértices (para este trabalho
utilizou-se q = 0, 85);
• l+ (u) é a largura do vértice u (Eq. 3.3);
• D(v) é a descendência do vértice v (Eq. 3.2).
Em grafos que possuem ciclos o cálculo do pagerank é finalizado após n iterações até que um
limiar de convergência seja atingido. Para os grafos de genealogia, devido à ausência de ciclos,
foi utilizado n = 10 iterações, visto que, em testes empíricos, observou-se uma estabilidade nos
resultados a partir de 3 iterações.
3.2.8
Pagerank ponderado
A métrica pagerank ponderado (prp) tem por objetivo proporcionar uma dimensão adicional ao
conjunto de métricas, auxiliando na caracterização dos vértices da grafo de genealogia. Seu valor
é obtido por meio da utilização da métrica pagerank como fator de ponderação. Neste contexto, a
métrica prp é definida por:
prp(v) =
3.3
1
.
pr(v)
(3.35)
Métricas limitadas por janelas
A aplicação das métricas, descritas anteriormente, têm por objetivo a diferenciação dos vértices
de um grafo de genealogia. Entretanto algumas métricas (e.g., fecundidade e fecundidade inversa)
têm seus resultados impactados em função da posição do vértice na grafo.
Utilizando o contexto acadêmico como exemplo, onde os vértices representam orientadores e/ou
orientados, e as arestas os relacionamentos de orientação, um acadêmico que viveu e orientou alunos
no século XIX tende a ser privilegiado se comparado a outro que iniciou sua carreira nos anos 1980.
Ainda que o acadêmico mais contemporâneo tenha um excelente desempenho, seria difícil haver
uma equiparação quantitativa com relação ao acadêmico secular.
Com o objetivo de minimizar a ação do tempo nos resultados de algumas métricas, seus cálculos
foram feitos limitando o território e o território inverso dos vértices analisados. Nesta dissertação
3.4
MÉTRICAS LIMITADAS POR JANELAS
23
esta limitação é denominada janela. Uma janela de tamanho 5, por exemplo, permite que os cálculos
das métricas descendentes e ascendentes sejam limitados a vértices que estejam contidos em um
caminho, a partir do vértice de interesse, de tamanho menor ou igual a 5, em ambos os sentidos.
A Figura 3.1 exemplifica a seleção dos vértices considerados para o cálculo dos valores das
métricas para janelas de tamanhos 1 a 4, tanto para o território do vértice de interesse, quanto para
TERRITÓRIO
JANELA 1
JANELA 2
JANELA 3
JANELA 4
TERRITÓRIO
INVERSO
seu território inverso.
Figura 3.1: Grafo de genealogia, com a representação da abrangência de janelas de tamanhos 1 a 4, para
o cálculo das métricas do vértice de interesse (destacado em vermelho).
A utilização das janelas pode tornar a diferenciação dos vértices de um grafo de genealogia mais
efetiva, equilibrando os valores das métricas e minimizando o fator tempo, quando as métricas são
aplicadas em um contexto não teórico (e.g., acadêmicos e relacionamentos de orientação).
A título de ilustração, as Figuras 3.2 e 3.3 apresentam um exemplo de um conjunto de grafos de
genealogia contendo duas componentes conexas, sendo que uma delas possui 1 vértice e a outra 10
vértices. Para cada vértice foram calculados as métricas de composição descendente e ascendente,
considerando janelas de abrangência de tamanhos 1, 2 e 3.
24
MÉTRICAS EM GRAFOS DE GENEALOGIA
3.4
3.4
Taxonomia das métricas
Cada uma das métricas topológicas, propostas nesta dissertação, possuem características e objetivos específicos. A Figura 3.4 (parte superior) apresenta as principais características individuais
destas métricas.
Nesta dissertação foram consideradas um total de 22 métricas, das quais 13 são de composição
descendente, 8 de composição ascendente e 1 de composição mista.
A utilização de janelas como limite de abrangência do cálculo das métricas não impacta todas
elas, por exemplo, a métrica largura independe da abrangência da janela no processo de obtenção de
seu valor, exceto os vértices folha que não possuem valores de métricas de composição descendente.
Por outro lado, a métrica número de folhas depende da abrangência da janela para a obtenção de
seu valor, ou seja, o mesmo vértice pode apresentar valores diferentes, para esta medida, em função
da janela utilizada.
A classificação das métricas, de acordo com sua dependência das janelas utilizadas, é apresentada
no quadro resumo na Figura 3.4. Das 22 métricas, 15 são dependentes do tamanho da janela
considerada no processo de cálculo de seus valores.
Os valores de algumas métricas são obtidos por meio do uso de valores de outras. Um exemplo de
métrica dependente é a fecundidade ponderada, que utiliza a fecundidade como elemento de cálculo.
Por outro lado, a métrica largura é, neste contexto, independente, pois não utiliza nenhum outro
valor de métrica para seu cálculo.
No conjunto de métricas propostas, 10 delas são dependentes de outras medidas para a composição de seu valor. Também são 10 as métricas cujos valores são discretos (veja a Figura 3.4).
3.4
TAXONOMIA DAS MÉTRICAS
MÉTRICA
l+ (v)
nf (v)
p+ (v)
f + (v)
f p(v)
ml(v)
h(v)
i(v)
dm(v)
mmc(v)
pr− (v)
prp− (v)
bf (v)
bg(v)
TAMANHO
DE JANELA
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
A
2
2
2
0
1
3
1
2
3
2
6
8
2,00
3,00
3,22
2
4
4
1
1
1
0,20
0,60
0,80
1,00
1,67
2,00
0,33
0,24
0,22
0,09
0,09
0,09
11,36
11,36
11,36
1,00
1,50
1,50
0,00
0,00
0,00
B
1
1
1
0
1
1
1
2
2
1
2
2
1,00
1,25
1,25
1
1
1
1
1
1
0,10
0,20
0,20
0,00
1,50
1,50
0,50
0,50
0,50
0,03
0,03
0,03
33,16
33,16
33,16
0,00
0,00
0,00
0,00
0,00
0,00
C
3
3
3
1
3
3
1
2
2
3
5
5
3,00
3,50
3,50
3
3
3
1
1
1
0,30
0,50
0,50
1,00
1,40
1,40
0,25
0,23
0,23
0,06
0,06
0,06
17,42
17,42
17,42
0,47
0,47
0,47
0,64
0,64
0,64
D
1
1
1
1
1
1
1
1
1
1
1
1
1,00
1,00
1,00
1
1
1
0
0
0
0,10
0,10
0,10
0,00
0,00
0,00
0,50
0,50
0,50
0,02
0,02
0,02
51,46
51,46
51,46
0,00
0,00
0,00
0,00
0,00
0,00
VÉRTICES
E
F
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1,00
1,00
1,00
1,00
1,00
1,00
1
1
1
1
1
1
0
0
0
0
0
0
0,10
0,10
0,10
0,10
0,10
0,10
0,00
0,00
0,00
0,00
0,00
0,00
0,50
0,50
0,50
0,50
0,50
0,50
0,02
0,02
0,02
0,02
0,02
0,02
51,46 51,46
51,46 51,46
51,46 51,46
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
(v)
G
1
1
1
1
1
1
1
1
1
1
1
1
1,00
1,00
1,00
1
1
1
0
0
0
0,10
0,10
0,10
0,00
0,00
0,00
0,50
0,50
0,50
0,03
0,03
0,03
39,64
39,64
39,64
0,00
0,00
0,00
0,00
0,00
0,00
H
0
0
0
0
0
0
0
0
0
0
0
0
0,00
0,00
0,00
0
0
0
0
0
0
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,01
0,01
0,01
73,33
73,33
73,33
-1,00
-1,00
-1,00
-1,00
-1,00
-1,00
I
0
0
0
0
0
0
0
0
0
0
0
0
0,00
0,00
0,00
0
0
0
0
0
0
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,01
0,01
0,01
73,33
73,33
73,33
-1,00
-1,00
-1,00
-1,00
-1,00
-1,00
25
J
0
0
0
0
0
0
0
0
0
0
0
0
0,00
0,00
0,00
0
0
0
0
0
0
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,01
0,01
0,01
73,33
73,33
73,33
-1,00
-1,00
-1,00
-1,00
-1,00
-1,00
Figura 3.2: Exemplo de conjunto de grafos de genealogia com os seus respectivos valores para as métricas
de composição descendente, calculadas para janelas de tamanhos 1, 2 e 3.
K
0
0
0
0
0
0
0
0
0
0
0
0
0,00
0,00
0,00
0
0
0
0
0
0
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,01
0,01
0,01
73,33
73,33
73,33
-1,00
-1,00
-1,00
-1,00
-1,00
-1,00
26
3.4
MÉTRICAS EM GRAFOS DE GENEALOGIA
MÉTRICA
f − (v)
f mT − (v)
f pmT − (v)
no(v)
l− (v)
p− (v)
pr+ (v)
prp+ (v)
TAMANHO
DE JANELA
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
A
0
0
0
0,00
0,00
0,00
0,00
0,00
0,00
0
0
0
0
0
0
0
0
0
0,01
0,01
0,01
73,33
73,33
73,33
B
1
1
1
2,00
6,00
8,00
2,00
3,00
3,22
1
1
1
1
1
1
1
1
1
0,02
0,02
0,02
51,46
51,46
51,46
C
1
1
1
2,00
6,00
8,00
2,00
3,00
3,22
1
1
1
1
1
1
1
1
1
0,02
0,02
0,02
51,46
51,46
51,46
D
0
0
0
0,00
0,00
0,00
0,00
0,00
0,00
0
0
0
0
0
0
0
0
0
0,01
0,01
0,01
73,33
73,33
73,33
VÉRTICES (v)
E
F
G
1
1
1
2
2
2
2
2
2
1,00
3,00
3,00
4,00
5,50
5,50
5,00
6,50
6,50
1,00
3,00
3,00
2,12
3,25
3,25
2,24
3,36
3,36
0
0
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
0,03
0,02
0,02
0,03
0,02
0,02
0,03
0,02
0,02
33,16 52,24 52,24
33,16 52,24 52,24
33,16 52,24 52,24
H
2
3
3
2,00
4,00
4,67
2,00
2,50
2,57
1
2
2
2
2
2
1
2
2
0,03
0,03
0,03
32,54
32,54
32,54
I
2
4
5
1,00
2,25
3,40
1,00
1,69
1,99
0
0
1
2
2
2
1
2
3
0,06
0,06
0,06
18,01
18,01
18,01
J
1
2
3
1,00
3,00
4,67
1,00
2,25
2,57
0
0
1
1
1
1
1
2
3
0,03
0,03
0,03
33,44
33,44
33,44
K
0
0
0
0,00
0,00
0,00
0,00
0,00
0,00
0
0
0
0
0
0
0
0
0
0,01
0,01
0,01
73,33
73,33
73,33
Figura 3.3: Exemplo de conjunto de grafos de genealogia com os seus respectivos valores para as métricas
de composição ascendente, calculadas para janelas de tamanhos 1, 2 e 3.
3.4
TAXONOMIA DAS MÉTRICAS
DEPENDENTE
MÉTRICA
DERIVADA
TIPO DE
SIGLA
DE JANELA
l+
NÃO
NÃO
DISCRETA
02 – Número de folhas
nf
SIM
NÃO
DISCRETA
03 – Profundidade?
p+
SIM
NÃO
DISCRETA
+
SIM
NÃO
DISCRETA
01 – Largura?
?
04 – Fecundidade
†
f
‡
27
DE MÉTRICA VARIÁVEL
fp
SIM
SIM
CONTÍNUA
ml
SIM
NÃO
DISCRETA
07 – Índice h genealógico
h
NÃO
SIM
DISCRETA
08 – Impacto‡
i
SIM
SIM
CONTÍNUA
dm
SIM
NÃO
CONTÍNUA
mmc
SIM
NÃO
CONTÍNUA
pr−
NÃO
SIM
CONTÍNUA
prp
NÃO
SIM
CONTÍNUA
13 – Balanceamento pela fecundidade
bf
SIM
SIM
CONTÍNUA
14 – Balanceamento global‡
bg
SIM
SIM
CONTÍNUA
SIM
NÃO
DISCRETA
05 – Fecundidade ponderada
06 – Maior largura‡
/
09 – Distância média‡
10 – Média dos menores caminhos
‡
11 – Pagerank inverso•
‡
−
12 – Pagerank inverso ponderado
‡
‡
f
15 – Fecundidade inversa
‡
−
−
16 – Fec. média do território inverso
f mT
SIM
SIM
CONTÍNUA
17 – Fec. pond. média do território inverso‡
f pmT −
SIM
SIM
CONTÍNUA
no
SIM
NÃO
DISCRETA
−
NÃO
NÃO
DISCRETA
p−
SIM
NÃO
DISCRETA
NÃO
NÃO
CONTÍNUA
NÃO
SIM
CONTÍNUA
‡
18 – Número de origens
19 – Largura inversa
‡
l
20 – Profundidade inversa‡
21 – Pagerank
◦
22 – Pagerank ponderado
pr
‡
+
+
prp
Figura 3.4: Descrição das principais características das métricas topológicas.
‡
Desenvolvida para a dissertação.
•
Adaptada de Bar-Yossef & Mashiach
◦
Adaptada de Page et al. [1999]
[2008]
†
Adaptada
/
Adaptada
?
de David & Hayden [2012].
de Hirsch [2005]
Adaptada de Bondy & Murty [1976]
28
MÉTRICAS EM GRAFOS DE GENEALOGIA
3.4
Capítulo 4
Sobre os dados utilizados
Os dados utilizados neste trabalho referem-se ao conjunto dos doutores em matemática e seus
relacionamentos de orientação acadêmica. Este tipo de estrutura, devido a suas características, é
comumente denominada grafo (ou árvore) de genealogia acadêmica dos matemáticos.
O projeto de genealogia dos matemáticos (Mathematic Genealogy Project – MGP 1 ) foi idealizado
por Harry Coonce, professor na North Dakota State University, no início da década de 1990 [Jackson,
2007]. Esta plataforma tem como objetivo compilar informações sobre todos os matemáticos (e,
nos últimos anos, acadêmicos de áreas afins) do mundo, por meio do registro histórico, via Web,
dos indíviduos que obtiveram o título de doutor e seus respectivos alunos/doutores com formação
concluída.
A plataforma do MGP é apresentada como ferramenta para a captação de novos registros e
possibilita consulta à base de dados existente, que, em Abril de 2014, contava com mais de 178 mil
doutores cadastrados de diversas partes do mundo. As informações que são possíveis de se obter,
por meio da plataforma do projeto, são descritas a seguir.
• Nome completo do matemático;
• Nome da instituição e o nome do país onde foi obtida a titulação;
• Ano no qual o grau foi obtido;
• Título do trabalho defendido no doutorado;
• Número de classificação da área a qual o trabalho está relacionado (Mathematics Subject
Classification 2 );
• Lista de identificação do seu(s) orientador(es) e orientado(s);
1
• Número total de descendentes.
Disponível em: http://genealogy.math.ndsu.nodak.edu/
Classificador alfanumérico formulado pela American Mathematical Society utilizado para categorizar temas/tópicos da matemática, disponível em: http://www.ams.org/msc/msc2010.html
2
29
30
4.1
SOBRE OS DADOS UTILIZADOS
Os registros do MGP são identificados por meio de um número de identificação exclusivo (id)
para cada matématico. Os dados, que são objeto de estudo nesta dissertação, foram obtidos por
meio de consultas recursivas ao site do MGP, onde, com a utilização do id, obtivemos o (i) nome
do matemático, (ii) nome da instituição, (iii) nomde do país onde foi obtido o título, (iv) o ano de
titulação, (v) a lista de todos os orientados cadastrados e (vi) o número de classificação da área de
atuação.
A Figura 4.1 descreve o método utilizado para a obtenção dos dados do MGP. Por meio do
fornecimento de um id obteve-se um documento em formato html do indivíduo em questão. Este
registro, posteriormente, foi submetido a uma seleção dos dados de interesse, conforme descrito
anteriormente. Após a obtenção e seleção de todos os registros disponíveis, estes dados estruturados foram utilizados para povoar um banco de dados orientado à grafos, onde cada indivíduo
foi representado por um vértice e cada relacionamento entre estes indivíduos foi representado por
uma aresta direcionada. Os demais dados sobre o indivíduo foram armazenados como atributos dos
vértices. Como informações nas arestas podem ser considerados o ano de titulação e o número de
classificação de área.
Plataforma
MGP
ID’s
registros
Dados
genealógicos
Parâmetros
selecionados
registro html
Coleta de
dados
registros
Grafos de
genealogia
Figura 4.1: Fluxograma, ilustrativo, do método utilizado para a obtenção dos dados genealógicos.
4.1
CONJUNTO DOS MATEMÁTICOS
4.1
31
Conjunto dos matemáticos
Em Abril de 2014 foram obtidos 178.698 registros de doutores em matemáticas e áreas afins e
187.199 relacionamentos de orientação acadêmica, estes indivíduos estão distribuídos em 185 países
ou combinação destes (isso ocorre devido à declaração de dois países como local de titulação) e
2.671 instituições ou combinações destas.
O primeiro registro data de 1363, na França, e segue até os dias atuais, conforme ilustrado na
Figura 4.2, onde os gráficos apresentam a evolução do número de Doutores nos respectivos anos de
obtenção do título.
Para possibilitar a análise do crescimento do número de matemáticos, o período total de abrangência do MGP (1363-2013) foi dividido em quatro intervalos (1363-1600, 1601-1800, 1801-1900 e
1901-2013), onde observa-se as contagens anual e acumulada.
O ano de 2014 apresentou, até Abril, um total de 199 novos registros de doutores. Estes não
foram considerados na evolução pois referem-se à um período ainda incompleto.
Figura 4.2: Crescimento do número de matemáticos que obtiveram o título de doutor através dos anos.
Os registro observados no MGP não são completos em sua totalidade. Do total de 178.698
registros em 167.915 (93,97%) encontramos a declaração do país e da instituição onde foi obtido o
título de doutor e em 167.643 (93,81%) encontramos o ano da titulação.
As Tabelas A.1 e A.1, disponíveis no Apêndice A, apresentam os resultados dos 20 países
com maior número de matemáticos cadastrados no MGP e suas respectivas instituições melhores
colocadas segundo a quantidade de titulações realizadas. As quatro primeiras colunas identificam
os países, com sua posição e seu nome seguido do número de matemáticos que obtiveram a titulação
naquela localidade e a porcentagem correspondente ao total da base de dados. Nas últimas quatro
32
4.2
SOBRE OS DADOS UTILIZADOS
colunas observamos a posição e o nome da instituição pertencente aquele país, o número de doutores
titulados e sua representação percentual referente ao total de doutores daquele país.
O maior grupo de doutores em matemática é encontrado nos EUA3 . Observamos 81.353 matemáticos titulados nas intituições norte-americanas. Entre elas a mais representativa é a Universidade
da California, onde mais de 4% dos matemáticos norte-americanos obtiveram suas titulações.
O Brasil figura como 12o colocado com 1.615 matemáticos cadastrados no MGP (aproximadamente 0,90% do total) e sua instituição com maior representatividade, neste critério, é a Universidade de São Paulo (USP) com 428 matemáticos4 .
A relação completa dos países e suas respectivas instituições estão disponíveis em: https://sites.
google.com/site/lucianorossihomepage/.
4.2
Relacionamentos de orientação acadêmica
Uma análise importante sobre as relações de orientação acadêmica, encontradas no MGP, é
descrita na dissertação de mestrado de Narayan [2011] (Universidade de Oxford), onde buscouse verificar a tendência de matemáticos em se relacionarem, por meio de orientação com outros
indivíduos, levando-se em consideração o número de alunos que ambos tiveram. Esse conceito,
denominado assortividade, é muito utilizado em redes sociais para se verificar a correlação existente
entre atributos de indivíduos pertencentes à rede analisada [Newman, 2002]. A Figura 4.3 apresenta
uma matriz de relacionamento onde cada célula representa, por meio de sua coloração, a quantidade
de relacionamentos existentes entre dois indivíduos que têm k e j filhos respectivamente. O cálculo
dos valores apresentados é dado por:
e(j,k) =
|E(k−1),(j−1) |
,
|E|
(4.1)
para j, k = {1, 2, ..., n + 1}, em que E(k,j) é a quantidade de relacionamentos existentes entre um
matemático que orientou k alunos e seus filhos acadêmicos que registram j orientados, E é o total de
relacionamentos existentes e n é o maior número de relacionamentos pertencente à um matemático
da base de dados em questão.
As células na cor azul representam valores altos para a quantidade de relacionamentos. Vale notar
que, a célula e(10, 0) apresenta um valor alto, 0, 0266 (célula na cor azul), esse valor representa a
razão entre o número de relacionamentos observados e o total de relacionamentos existentes. Os
relacionamentos observados são aqueles entre um orientador com 10 alunos orientados que, por
sua vez, não orientaram alunos. A célula e(10, 10) apresenta um valor baixo, 0, 00013 (célula na
cor verde claro) que representa o número de relacionamentos entre orientador e orientado em que,
ambos, tiveram 10 alunos, divido pelo total de relacionamentos existentes. Por outro lado, o valor
3
As informações apresentadas na Tabela A.1 forão grafadas respeitando a declaração realizada no MGP.
Esta contagem incluí somente os matemáticos cuja declaração da instituição foi grafada como Universidade de
São Paulo.
4
4.4
MATHEMATICS SUBJECT CLASSIFICATION
33
da célula e(10, 100) é igual a zero e indica que não existem orientadores com 10 alunos orientados
que, por sua vez, orientaram 100 alunos.
A Figura 4.3 sugere que, para o conjunto de dados analisado, os relacionamentos mais observados são aqueles entre orientador com até 30 alunos orientados que não realizaram orientação
(estas combinações apresentam acima de 1.000 ocorrências). As ocorrências diminuem à medida que
buscamos orientadores com maior número de alunos orientados e, diminuem ainda mais, quando
consideramos maiores quantidades de orientações realizadas pelos alunos.
Figura 4.3: Matriz de correlações (assortividade) entre matemáticos e seus orientados. A cor da células
representa a quantidade de relacionamentos observados entre indivíduos com k alunos (eixo horizontal) e j
alunos (eixo vertical) respectivamente.
4.3
Mathematics Subject Classification
De acordo com a declaração da missão do Mathematics Genealogy Project, disponível na sua
página web, o termo matemática é utilizado de forma geral, podendo incluir doutores em áreas do
conhecimento distintas. Um atributo disponível nos registros do MGP que permite a identificação
da área de atuação do acadêmico registrado é a Mathematics Subject Classification (MSC).
A MSC é um esquema de classificação alfanumérico e hierárquico, desenvolvido com o objetivo
de facilitar a classificação de publicações científicas da área. O registro desta informação no MGP
é limitada ao primeiro nível de especificação.
A maioria dos registros (55,76%) apresentam o código “00” ou a ausência da identificação do
MSC. A Figura 4.4 apresenta as dez classificações mais observadas.
A relação completa dos registros classificados pela MSC está disponível no conjunto de dados
considerado apresentada nas Tabelas A.3 e A.3 do Apêndice A.
34
SOBRE OS DADOS UTILIZADOS
4.4
Figura 4.4: As 10 principais áreas de atuação declaradas no “MGP”. Os registros classificados como “General” referem-se, também, à ausencia da declaração na base de dados. A grafia das categorias foi mantida em
concordância com a representação disponível em: http:// www.ams.org/ msc/ pdfs/ classifications2010.pdf .
4.4
Grupos e escolas matemáticas
Os registros dos matemáticos cadastrados na plataforma do MGP possuem diversos atributos,
como descrito anteriormente. O atributo país é referente ao local onde o matemático obteve sua
titulação e não ao local de seu nascimento. Podemos encontrar alguns exemplos onde o local da
titulação é diferente do local de nascimento do matemático. Sofya Kovalevskaya titulou-se na Alemanha, porém seu país natal é a Russia. O húngaro Alfred Haar obteve sua titulação, também, na
Alemanha [Chang, 2011].
No contexto desta dissertação, podemos agrupar os matemáticos pelo atributo país que ele
apresenta. Há, ainda neste contexto, duas possibilidades de realizar este agrupamento: (i) levando-se
em consideração a declaração referente à este atributo na base de dados (grupo) ou (ii) considerandose os relacionamentos de orientação acadêmica (escola). Para a segunda possibilidade, a escola de
um matemático é definida pelo local de titulação de seu ancestral direto (orientador), já a escola
deste orientador é definida pelo local de titulação de seu ancestral. Este processo é repetido de
forma sequencial até que se encontre um matemático que não apresenta ancestral (vértice origem).
Neste exercício de análise, um matemático que não apresenta ancestral é denominado origem.
No contexto das métricas, descritas no Capítulo 3, um vértice origem é aquele que apresenta o valor
0 como resultado da métrica profundidade inversa. Uma escola pode ser definida como um conjunto
de vértices origem, agrupados pelo compartilhamento do mesmo atributo país, e suas respectivas
descendências, independente do local de titulação dos descendentes. Por outro lado, define-se grupo
como um conjunto de vértices agrupados em função de seu país de titulação.
O grafo de genealogia acadêmica, constituído a partir dos dados da plataforma MGP, apresenta
um total de 71 escolas constituídas por 9.677 origens 5 e suas respectivas descendências, identificadas
pelo método descrito anteriormente. Estas escolas são descritas nas Tabelas A.2 e A.2, no Apêndice
5
Não foram consideradas as origens cuja declaração do país de titulação foi omitida.
4.4
GRUPOS E ESCOLAS MATEMÁTICAS
35
A, onde temos: seus nomes, sua linhagem total, o número de origens que a compõem, a média de
matemáticos por origem e a representação percentual do total de matemáticos na escola (linhagem
e origens) pelo total de matemáticos na base de dados (178.698).
Um caso interessante, considerando-se a comparação entre a magnitude do grupo e da escola, é
o norte-americano. Os EUA, em números absolutos, são o primeiro país em quantidade de matemáticos titulados em suas instituições, conforme descrito na Tabela A.1 (Apêndice A). Sob o ponto de
vista das escolas (origem histórica dos indivíduos), a norte-americana é apenas a 8a colocada apesar
de apresentar 3.992 origens. Este alto número de origens se deve ao fato de que a escola americana
é relativamente nova, quando comparada às escolas européias, e grande parte dos matemáticos
titulados neste país têm, em sua ascendência, algum orientador pertencente a outras escolas.
O Brasil apresenta uma situação semelhante à dos EUA. Em número de titulações ocorridas em
instituições brasileiras, o Brasil é o 12o colocado. Observando as características da escola brasileira,
temos 14 origens e somente um matemático em sua linhagem. O restante dos matemáticos titulados
no Brasil pertencem a outras escolas, ou seja, seus orientadores, diretos ou indiretos, não pertencem
à escola brasileira.
Podemos classificar os matemáticos, no contexto das escolas às quais pertencem, em dois grupos:
(i) os matemáticos que apresentam uma única origem (escola) e (ii) aqueles oriundos de diversas
origens (escolas). Pertencem ao primeiro grupo aqueles que apresentam, em sua linhagem ascendente, apenas indivíduos oriundos de uma única escola, ou seja, tanto a escola quanto o local da
titulação fazem referência ao mesmo país. Já o segundo grupo, descende de matemáticos de duas ou
mais escolas distintas e ainda podem divergir quanto ao local de titulação de seus membros. Assim
sendo, os matemáticos com diversas origens são aqueles que tiveram dois ou mais orientadores de
escolas diferentes, seja no nível imediatamente superior ou nos demais níveis ascendentes dos grafos.
Um matemático pode pertencer a duas ou mais escolas simultâneamente quando há interseção
de uma ou mais escolas. A interseção de escolas ocorre quando um matemático recebe orientação
acadêmica direta de dois ou mais orientadores de escolas diferentes. Este matemático é o ponto, a
partir do qual, diferentes escolas compartilham os mesmos matemáticos.
Para a identificação das escolas das quais os matemáticos fazem parte, podemos utilizar um
vetor binário onde cada posição identifica uma escola. Caso o matemático pertença àquela escola,
associa-se à posição correspondente o valor 1, caso contrário associa-se o valor 0.
A Figura 4.5 apresenta um diagrama de Venn a título de ilustração. Neste diagrama as três
escolas (A, B e C) apresentam áreas de interseção simultânea. O número de áreas resultantes destas
interseções é dado por 2r − 1, onde a base binária corresponde a presença (1) ou ausência (0) de um
elemento e r é o número de escolas. Definimos a localização de um elemento do conjunto analisado
por meio de um vetor binário. Caso um determinado elemento pertença, simultâneamente, às três
escolas, ele se localiza na área representada pelo vetor [1,1,1], ou seja, este elemento está presente
nas escolas A, B e C. Para um elemento que está presente apenas na escola C e não está presente
em A e B, o vetor da área correspondente é [0,0,1]. Os vértices de origem única são identificados
pelos vetores onde somente uma posição contem o valor de 1.
36
SOBRE OS DADOS UTILIZADOS
4.4
Figura 4.5: Diagrama de Venn das interseções possíveis entre três escolas e os vetores binários que caracterizam as possíveis áreas que compartilham elementos.
Os vetores binários correspondentes aos matemáticos da plataforma MGP têm 71 posições.
Cada posição refere-se a uma das escolas identificadas na base de dados e apresentadas nas Tabelas A.2 e A.2 (Apêndice A). Para consulta do número de matemáticos pertencentes às diversas combinações possíveis de escolas, os dados estão disponíveis em: https://sites.google.com/site/
lucianorossihomepage/.
A identificação dos grupos e escolas matemáticas é importante para o entendimento sobre a
composição do conjunto de grafos de genealogia matemática e suas características. Matemáticos que
pertencem ao mesmo grupo (mesmo país de titulação) podem pertencer a escolas distintas, ou ainda,
a um conjunto destas escolas. Se admitirmos que um relacionamento de orientação acadêmica pode
impactar na formação de um indivíduo, perpetuando características do orientador no orientado,
então indivíduos pertencentes a uma mesma escola podem, em algum nível, compartilhar as mesmas
características.
A conjunto de grafos de genealogia dos matemáticos é, em sua maior parte, o resultado da
interseção de escolas diferentes. As interseções das escolas formam grupos específicos que, em teoria,
compartilham características.
Utilizando o vetor binário, descrito anteriormente, para cada matemático analisado, foi identificada a(s) escola(s) que influenciou estes matemáticos e como estas influenciaram os diferentes
grupos de matemáticos.
A Figura 4.6 apresenta os gráficos de influência entre as escolas e os grupos identificados. Para
esta representação utilizamos os 20 maiores grupos do conjunto de dados (Tabela A.1). Cada gráfico
representa a influência sob dois aspectos. Para cada radar chart temos a influência que esta escola
exerceu sobre os 20 maiores grupos da base de dados (linha vermelha) e a influência que este grupo
recebeu das 20 escolas identificadas (linha azul).O ponto central e a maior circunferência no gráfico
representam: nenhuma influência e influência total, respectivamente.
4.4
GRUPOS E ESCOLAS MATEMÁTICAS
37
A escola mais influente, neste contexto, é a francesa6 , que exerceu grande influência (em média
próxima à 75%) sobre os 20 maiores grupos da base de dados.
Outras escolas representativas são: a britânica, a alemã, a polonesa, a checa7 e a belga que
influenciaram, de forma relevante, a formação da comunidade acadêmica dos matemáticos, segundo
o conjunto de dados do MGP. As demais 65 escolas apresentaram pouca influência na comunidade,
na grande maioria dos casos a influência foi inferior a 5%.
O grupo de matemáticos titulados no Brasil foi influenciado de forma semelhante pelas escolas:
alemã, britânica, francesa e polonesa (cerca de 75% dos matemáticos titulados no Brasil, pertencem
a estas escolas). As escolas belga e austríaca completam às mais influentes, porém, com menor
impacto (cerca de 50% e 12%, respectivamente).
Como escola, o Brasil não exerceu influência sobre nenhum outro grupo.
6
A grafia do nome das escolas nos gráficos de influência foram mantidas em concordância com o registro do MGP.
A escola checa não foi representada devido a não ser um dos 20 maiores grupos, em número de matemáticos
titulados.
7
38
4.4
SOBRE OS DADOS UTILIZADOS
! "
$ %
)
&
%
%
'
#
&
' ( %
"%
(%
%! &
&
+
*%&
#
"
%
$
*%&
Figura 4.6: Representação gráfica da influência das escolas matemáticas sobre os grupos de matemáticos
titulados naquele país. A linha vermelha representa a influência exercida pela escola (país ao qual o gráfico
refere-se) sobre os grupos (20 eixos), já a linha azul refere-se à influência que aquele grupo (país ao qual
o gráfico refere-se) sofreu das escolas (20 eixos). O ponto central e a maior circunferência representam
nenhuma influência e influência total, respectivamente.
4.5
TOPOLOGIA DO GRAFO
4.5
39
Topologia do grafo
O grafo de genealogia, resultante da representação dos matemáticos como vértices e seus relacionamentos de orientação acadêmica como arestas direcionadas, possui 10.048 componentes conexas.
A maior componente conexa contém aproximadamente 88,72% dos vértices totais (158.548 vértices), por outro lado, a segunda componente conexa, em relação ao número de vértices, apresenta
apenas 0,08% dos vértices totais (141 vértices). As últimas 7.542 componentes conexas referem-se
a vértices isolados, ou seja, não possuem ascendentes ou descendentes. No grafo, em média, cada
vértice possue 2,094 vizinhos.
A Figura 4.7 apresenta o grafo dos matemáticos. As componentes conexas foram ordenadas por
meio do número de vértices que possuem. Para possibilitar uma melhor visualização os vértices folha
(vértices que não possuem descendentes) foram retirados da representação gráfica, estes vértices
representam um total de 136.230 matemáticos, ou seja, a estrutura apresentada na Figura 4.7
representa cerca de 23,76% do conjunto total, reunindo os matemáticos mais relevantes em função
de suas orientações acadêmicas.
Os vértices do grafo de genealogia são rotulados pelos seus respectivos valores da métrica índiceh genealógico, cuja escala de valores varia de 0 à 12, a dimensão e a coloração dos vértices (de azul
a vermelho) representam a variação desta escala.
A Figura 4.8 apresenta algumas medidas sobre a topologia do grafo. O grau de entrada de
um vértice (Figura 4.8a) representa o número de arestas que nele incidem. No contexto do grafo
de genealogia, esta medida identifica o número de orientadores que um determinado matemático
teve no processo de obtenção de seu título. Há uma predominância de vértices com somente um
ascendente. Por outro lado, poucos vértices apresentam descendente (grau de saída), como destacado
na Figura 4.8b.
A vizinhança ou adjacência de um vértice v em um grafo é um conjunto de vértices N (v) que
estão ligados a v por uma aresta. A conectividade da vizinhança de v é a média dos graus dos
vértices w ∈ N (v). A Figura 4.8c apresenta a conectividade média da vizinhança dos vértices cujos
graus variam de 1 à 122. As Figuras 4.8d e 4.8e referem-se à conectividade média da vizinhança considerando o grau de saída da vizinhança ascendente e o grau de entrada da vizinhança descendente,
respectivamente.
Finalmente, a Figura 4.8f descreve a distribuição dos comprimentos dos menores caminhos
encontrados no grafo de genealogia.
40
SOBRE OS DADOS UTILIZADOS
4.5
Figura 4.7: Representação do grafo de genealogia acadêmica dos matemáticos. As componentes conexas são
ordenadas segundo o número de vértices que as compõem. A rotulação dos vértices refere-se à métrica índiceh genealógico, cuja escala de valores varia de 0 (azul) à 12 (vermelho). Os vértices folha foram omitidos para
facilitar a visualização.
4.5
TOPOLOGIA DO GRAFO
41
(a) Distribuição do grau de entrada
(b) Distribuição do grau de saída
(c) Conectividade da vizinhança
(d) Conectividade da vizinhança (entrada)
!
(e) Conectividade da vizinhança (saída)
(f) Distribuição dos menores caminhos
Figura 4.8: Topologia do grafo de genealogia. (a) Distribuição de frequência dos vértices segundo seus graus
de entrada. (b) Distribuição de frequências dos vértices segundo seus graus de saída. (c) Conectividade média
do grau da vizinhança dos vértices. (d) Conectividade média do grau de entrada da vizinhança descendente
dos vértices. (e) Conectividade média do grau de saída da vizinhança ascendente dos vértices. (f ) Distribuição
dos comprimentos dos menores caminhos no grafo.
42
SOBRE OS DADOS UTILIZADOS
4.5
Capítulo 5
Resultados
5.1
Correlação entre as métricas
Os estudos com o objetivo de extrair conhecimento relevante a respeito de grupos estruturados
em grafos de genealogia, feitos até o presente momento, comumente utilizam a fecundidade (f + ) de
um vértice do grafo para caracterizá-lo, especialmente trabalhos dedicados à análise de comunidades
acadêmicas (e.g. o trabalho desenvolvido por [David & Hayden, 2012]). Esta métrica é importante
para a caracterização de um acadêmico de interesse, porém a utilização individual da f + não é
suficiente para caracterizar um vértice com certo grau de assertividade.
Os trabalhos correlatos, descritos no Capítulo 6, são exemplos da utilização apenas do território
de um vértice para sua caracterização, ou de poucas outras métricas com esse objetivo.
Este trabalho não se limita à utilização somente da descendência de um vértice. O objetivo é
adaptar e desenvolver métricas topológicas que, individualmente, tragam alguma informação relevante sobre o conjunto de grafos de genealogia e, quando combinadas, possam diferenciar seus
vértices, agrupando-os de acordo com os resultados de seus relacionamentos.
Para verificar a capacidade de diferenciação que as métricas, quando analisadas em conjunto,
podem proporcionar foi utilizado a análise de correlação. Esta análise consiste de verificar se os
valores de uma determinada variável estão relacionados a uma outra, e em que proporção isto
ocorre.
A análise foi realizada para cada par de métricas isoladamente. Utilizando o diagrama de dispersão correspondente a cada par e seu coeficiente de correlação r (método de Pearson), que é dado
por:
P
P
P
n xi yi − ( xi ) ( yi )
r = r
P
P
P
P
n x2i − ( xi )2 n yi2 − ( yi )2
(5.1)
Foi observado que as métricas de maior efetividade para a caracterização de vértices são aquelas
que apresentam baixa correlação com outras, ou seja, os valores das métricas apresentam baixa
relação entre si. Nestes casos, podemos dizer que as informações fornecidas pelas métricas são
43
44
RESULTADOS
5.1
de naturezas distintas e proporcionam uma melhor diferenciação entre os vértices. É importante
notar que as correlações entre as métricas dependem diretamente dos dados utilizados, ou seja, a
efetividade das métricas apresentam variação em função do conjunto de dados utilizado.
Segundo Cohen [1992], um coeficiente de correlação é considerado alto quando acima de 0,50,
para valores entre 0,30 e 0,50 o coeficiente é considerado médio e baixo para valores inferiores a 0,30.
Os pares de métricas podem, ainda, apresentar uma correlação onde o valor de uma métrica aumenta
proporcionalmente, em algum grau, em função do aumento da outra, nestes casos classificamos a
correlação como positiva. As correlações são negativas quando, considerando um par de métricas, a
medida que o valor de uma aumenta, o valor da outra diminui proporcionalmente em algum grau.
Para a obtenção dos coeficientes de correlação entre as métricas foi utilizado o método de Pearson.
O método de cálculo e o objetivo individual de cada uma das métricas é apresentado em detalhes
no Capítulo 3.
A Figura 5.1 apresenta os resultados da aplicação da correlação. A diagonal principal identifica
as métricas utilizadas – exceto profundidade e profundidade inversa que definem as janelas utilizadas
– juntamente com o respectivo histograma que ilustra as frequências para todas as métricas (de
composição ascendente e descendente) para o conjunto de dados completo. Abaixo da diagonal, nas
interseções entre as colunas e linhas, encontra-se os diagramas de dispersão. No lado oposto, os
respectivos coeficientes de correlação para cada par de vértices analisado.
5.1.1
Correlação entre métricas descendentes
As métricas de composição descendente utilizam a descendência (território) de um vértice para
sua caracterização. Trata-se de uma visão posterior ao surgimento do vértice em questão e tem
como objetivo verificar sua contribuição na formação do conjunto de grafos de genealogia.
Uma característica importante nestas métricas para definir sua efetividade em diferenciar vértices de uma grafo de genealogia é a de que seus valores sejam independentes entre si, ou seja,
métricas que apresentam baixos coeficientes de correlação (valores inferiores a 0,30) podem contribuir de forma mais efetiva para a caracterização do grupo analisado.
Analisando somente o conjunto de métricas de composição descendente, pode-se classificar seus
coeficientes de correlação e, consequentemente, a efetividade deste conjunto em caracterizar vértices, de acordo com a Tabela 5.1. Para este conjunto, cerca de 47,43% das análises apresentaram
coeficientes de correlação com graus considerados baixos, sejam as correlações positivas ou negativas. Os resultados mostram que este conjunto, isoladamente, não apresenta boa capacidade para
diferenciar vértices em um grafo de genealogia, visto que na maioria dos casos há uma correlação,
de grau alto ou médio, entre os resultados das métricas.
A métrica média dos menores caminhos (mmc) pode ser considerada um destaque neste grupo.
Ela apresenta baixa correlação com 10 métricas deste grupo. Somente 2 métricas têm forte correlação
com a mmc: reverse pagerank ponderado (rprp) (r = −0, 55) e balanceamento global (bg) (r = 0, 69).
Por outro lado, a métrica fecundidade ponderada (f p) produz resultados que estão fortemente
correlacionados com a maioria dos resultados das outras métricas, exceto com: mmc (r = 0, 01) e
5.1
CORRELAÇÃO ENTRE AS MÉTRICAS
45
Figura 5.1: Correlação entre as métricas topológicas para o conjunto de dados completo da plataforma
MGP. A diagonal principal apresenta o nome e a frequência dos valores de cada métrica. Abaixo da diagonal
principal estão representados os gráficos de dispersão para cada combinação de pares de métricas e acima
os respectivos coeficientes de correlação.
46
5.1
RESULTADOS
bg (r = 0, 27).
Tabela 5.1: Coeficientes de correlação entre as métricas de composição descendentes.
Intervalo
Frequência Frequência
Absoluta Relativa
−1 ≤ r ≤ −0, 5
5
6,41%
−0, 5 < r ≤ −0, 3
1
1,28%
−0, 3 < r ≤ 0
12
15,38%
0 < r ≤ 0, 3
25
32,05%
0, 3 < r ≤ 0, 5
10
12,82%
0, 5 < r ≤ 1
25
32,05%
Correlação
Grau
Orientação
alto
negativa
médio
negativa
baixo
negativa
baixo
positiva
médio
positiva
alto
positiva
O conjunto de métricas de composição descendente foi aplicado, de forma preliminar, em um estudo de caso utilizando o grafo de genealogia acadêmica de Johann Bernoulli [Rossi & Mena-Chalco,
2014a]. Os resultados obtidos foram relevantes no sentido de caracterizar este grafo de genealogia e
diferenciar os vértices que o compõem. No entanto, dos 81.768 vértices identificados somente 15.791
(19,31%) apresentavam descendência, ou seja, 65.977 vértices não puderam ser caracterizados devido
à ausência de descendentes (vértices folha).
Para possibilitar a caracterização de vértices que não apresentam descendentes, utilizamos um
conjunto de métricas de composição ascendente, que é descrito a seguir.
5.1.2
Correlação entre métricas ascendentes
Parte importante dos vértices que compõem o conjunto de grafos de genealogia dos matemáticos
não apresentam descendentes (136.230 vértices). Percentualmente, os vértices folha representam
76,23% da base de dados, porém, o fato de um vértice não possuir descendentes não significa que
todos possam ser considerados semelhantes. Os ascendentes de um determinado vértice possuem
valores de métricas que os diferenciam, portanto ascendências diferentes podem impactar de modo
distinto estes vértices folha, permitindo sua caracterização.
A efetividade na caracterização dos vértices pelas métricas de composição ascendente também
foram estudas por meio de seus coeficientes de correlação. O conjunto de métricas ascendentes,
detalhadas no Capítulo 3, têm como objetivo caracterizar os vértices do conjunto de grafos por
meio de seus ancestrais.
A análise das correlações entre o conjunto de métricas de composição ascendente demonstrou que
este grupo apresenta maior potencial de caracterização de vértices, quando comparado ao conjunto
de métricas de composição descendente. A Tabela 5.2 descreve a classificação dos coeficientes de
correlação encontrados neste grupo. Cerca de 60,72% dos coeficientes analisados têm grau de correlação baixo, ou seja, a maior parte dos valores das métricas deste grupo tendem a ser independentes
entre si.
5.1
CORRELAÇÃO ENTRE AS MÉTRICAS
47
Três métricas se destacam neste grupo, devido ao baixo grau de correlação encontrado, são
elas: pagerank (pr), pagerank ponderado (prp) e balanceamento global 1 (bg). Todos os coeficientes
de correlação das três métricas apresentaram valores baixos, com exceção feita à correlação entre
prp e l− (largura inversa) que apresentou r = −0, 52.
Tabela 5.2: Coeficientes de correlação entre as métricas de composição ascendentes.
Intervalo
Frequência Frequência
Absoluta Relativa
−1 ≤ r ≤ −0, 5
1
3,57%
−0, 5 < r ≤ −0, 3
0
0,00%
−0, 3 < r ≤ 0
12
42,86%
0 < r ≤ 0, 3
5
17,86%
4
14,29%
0, 3 < r ≤ 0, 5
0, 5 < r ≤ 1
6
21,43%
Correlação
Grau
Orientação
alto
negativa
médio
negativa
baixo
negativa
baixo
positiva
médio
positiva
alto
positiva
Os coeficientes de correlação entre as métricas, descendentes ou ascendentes, podem variar de
acordo com o conjunto de dados considerado. As métricas poderão ser mais ou menos efetivas
na caracterização de vértices em grafos de genealogia, em função das características dos dados
analisados.
Para a conjunto de grafos de genealogia dos matemáticos, o conjunto de métricas utilizado
apresentou bons resultados em caracterizar os vértices das grafos.
5.1.3
Correlação entre os conjuntos de métricas combinados
As análises individuais dos conjuntos de métricas descendentes e ascendentes, resultaram na
identificação das métricas com maior potencial para a caracterização de seus vértices. A viabilidade
da utilização dos dois conjuntos, simultâneamente, depende, também, da correlação existente entre
eles, visto que, quanto menor for a correlação, melhor é o potencial de diferenciação dos vértices.
A utilização do conjunto total de métricas topológicas proporciona um aumento da efetividade de
caracterização do conjunto de métricas propostas. Para este cenário, conforme ilustrado na Tabela
5.3, cerca de 72,63% das 190 correlações possíveis apresentam coeficientes de correlação baixos.
A Figura 5.2 apresenta um gráfico que sumariza as correlações, em um plano cartesiano, onde
no eixo das abscissas tem-se as métricas e no eixo das ordenadas observa-se a escala dos coeficientes
de correlação. As barras representam os coeficientes encontrados entre a métrica em questão e as
demais métricas do conjunto.
1
A métrica balanceamento global foi considerada nas duas análises de correlação, tanto para o conjunto descendente quanto para o ascendente, devido à sua composição ser mista.
48
5.1
RESULTADOS
Tabela 5.3: Coeficientes de correlação entre o conjunto total de métricas.
Intervalo
Frequência Frequência
Absoluta Relativa
−1 ≤ r ≤ −0, 5
6
3,16%
−0, 5 < r ≤ −0, 3
1
0,53%
70
36,84%
−0, 3 < r ≤ 0
0 < r ≤ 0, 3
68
35,79%
14
7,37%
0, 3 < r ≤ 0, 5
0, 5 < r ≤ 1
31
16,32%
Correlação
Grau
Orientação
alto
negativa
médio
negativa
baixo
negativa
baixo
positiva
médio
positiva
alto
positiva
A métrica que apresenta correlação baixa com as demais do conjunto é o pagerank. Um outro
destaque é o pagerank ponderado, que apresenta correlação significativa com somente uma outra
métrica (largura inversa).
As correlações entre as métricas topológicas propostas são importantes para identificar aquelas
que permitem diferenciar os vértices de grafos de genealogia, quando aplicadas em conjunto. Porém
cada métrica individualmente produz informações relevantes sobre a topologia do grafo resultante
de um vértice de interesse. Mesmo aquelas métricas supostamente redundantes, devido à correlação existente entre elas, podem, individualmente, proporcinar dados distintos sobre o conjunto de
vértices analisado.
Figura 5.2: Correlação das métricas topológicas. As colunas representam as métricas, cada barra plotada
identifica o coeficiente de correlação entre a métrica em questão e as demais. O eixo vertical apresenta a
escala dos coeficientes de correlação.
5.2
ANÁLISE DE COMPONENTES PRINCIPAIS
5.2
49
Análise de componentes principais
O cálculo das métricas topológicas, para todos os vértices do grafo de genealogia, resultou em
um conjunto de dados multidimensional, onde cada vértice é representado por um vetor de valores
aqui denominadode “características”. Cada valor corresponde a cada uma das 22 métricas.
Para possibilitar a diferenciação dos vértices segundo seus vetores de características foi implementado um procedimento matemático tradicional denominado análise de componentes principais
(PCA – principal component analysis) que é comumente usada para reduzir a dimensionalidade
de dados multidimensionais [Hoffmann, 1999, Jackson, 2005, Neto & Moita, 1998]. As dimensões
obtidas por meio da aplicação da PCA são denominadas componentes principais. A primeira componente principal concentra a maior variação dos dados. As demais componentes concentram as
variações de maior a menor, sendo ortogonais às anteriores.
A PCA pode ser definida, algebricamente, como combinações lineares das variáveis originais ou,
geometricamente, como coordenadas dos pontos amostrais em novos eixos que são o resultado da
rotação dos eixos originais, na direção da variação máxima. As componentes principais são obtidas
por meio de uma matriz de rotação que possibilita rotacionar o sistema de coordenadas original.
Para ilustrar a redução de dimensão possibilitada pela PCA, foi considerado o grafo de genealogia
representado na Figura 5.3. Os vetores de características de cada vértices foram submetidos ao
procedimento que resultou em duas componentes principais que explicam 61,10% e 21,33% da
variação total, para a primeira e segunda componentes, respectivamente.
A Figura 5.4.b apresenta o sentido e a orientação de cada uma das métricas utilizadas nas duas
componentes principais obtidas. As orientações (representadas graficamente na Figura 5.4.b por um
vetor) indicam o quadrante e um ângulo, no plano cartesiano, nos quais as métricas se localizam. O
sentido (representado graficamente pela seta do vetor) representa a direção de aumento dos valores
de cada métrica.
A aplicação da PCA reuniu as métricas de composição descendente em um grupo com sentido e
orientação muito similares, este comportamento também se repetiu para as métricas de composição
ascendente, porém, de forma mais esparsa. As métricas pagerank inverso ponderado e pagerank
ponderado apresentaram sentido e orientação opostos aos dois grupos anteriores, possívelmente
devido ao fator de ponderação utilizado.
A distribuição dos vértices no plano cartesiano em função das duas componentes principais é
apresentada na Figura 5.4.a. Cada vértice no eixo da primeira componente pode ser utilizado para
uma classificação (ranking), em função de suas métricas topológicas onde foram consideradas suas
conexões diretas e indiretas.
50
RESULTADOS
5.2
Figura 5.3: Exemplo de grafos de genealogia para ilustração da aplicação da PCA.
Figura 5.4: Análise de componentes principais: (a) distribuição dos vértices da conjunto de grafos apresentada na Figura 5.3, nas duas componentes principais. Observe que, a primeira componente pode fornecer
uma classificação dos vértices segundo suas métricas; (b) orientação das métricas nas duas componentes
princiais.
O exemplo apresentado para ilustrar a classificação de vértices, em um conjunto de grafos de
genealogia em função de suas métricas topológicas, considerou todo o conjunto de vértices. Em
um contexto de grande quantidade de vértices, como é o caso da genealogia dos matemáticos,
considerar todo o conjunto de vértices pode influenciar o resultado da classificação. Vértices que
estejam posicionados nos níveis superiores do grafo de genealogia apresentam uma vantagem no
cálculo de suas métricas, quando comparados com os vértices posicionados nos níveis inferiores.
Esta vantagem é devida ao fator tempo, ou seja, estes vértices absorvem o desempenho de uma
descendência de maior magnitude que, a rigor, não é resultado do desempenho direto do vértice de
5.2
ANÁLISE DE COMPONENTES PRINCIPAIS
51
interesse.
Limitar a abrangência dos níveis considerados no grafo para o cálculo das métricas pode reduzir
o efeito gerado pelo tempo e, consequentemente, normalizar o desempenho de vértices pertencentes a níveis diferentes no grafo. Considerando o grupo dos matemáticos, podemos comparar dois
indivíduos que possuem diferentes números de gerações a partir de si, tornando-os equivalentes em
relação a profundidade do grafo. A diferenciação entre os matemáticos fica, exclusivamente, a cargo
do número de descendentes existentes nas gerações consideradas.
O conjunto de grafos de genealogia dos matemáticos possui 42 níveis (gerações), ou seja, o tamanho do maior caminho encontrado neste grafo é 41. O cálculo das métricas topológicas foi realizado
limitando o tamanho do maior caminho de 1 a 41, a partir do vértice de interesse tanto para o território quanto para o território inverso deste vértice (Capítulo 3). Esta limitação na influência dos
vértices que serão contemplados no cálculo é denominado janela. No contexto da genealogia dos matemáticos, o tamanho da janela definirá o número de gerações anteriores e posteriores consideradas
a partir do matemático de interesse.
Para ilustrar a influência do tamanho da janela considerado no cálculo das métricas, na Figura
5.5 é apresentado uma matriz de classificação para os 0,1% matemáticos melhores posicionados.
Cada coluna na matriz representa a posição na primeira componente principal, considerando um
tamanho de janela variando de 1 a 41. Os matemáticos são distinguidos pelos diferentes tons de
cores, que foram utilizadas para rotular indivíduos antes da classificação. O posicionamento dos
matemáticos no ranking é alterado em função do tamanho de janela considerado, observando-se
uma redução da influência do tamanho da janela a partir de um certo limiar (aproximadamente
para um tamanho de janela igual a 32).
Conforme discutido anteriormente, o posicionamento do vértice nos níveis do grafo de genealogia impacta o resultado de suas respectivas métricas. Para o conjunto de dados considerado, o
posicionamento do matemático no grafo está correlacionado com o ano de obtenção da titulação.
Na Figura 5.6 observa-se a variação do ano de titulação do matemático para diferentes tamanhos
de janela, sob a perspectiva da moda e da média dos anos de titulação.
Os resultados mostram que existe uma tendência de as janelas com menor abrangência resultarem em classificações onde os matemáticos mais contemporâneos estão melhores posicionados.
Considerando a moda como parâmetro, a janela de tamanho 1 produz um ranking em que os matemáticos melhores posicionados são aqueles que obtiveram suas titulações no século XX. As janelas
com tamanho variando de 2 a 6 produzem classificações onde os matemáticos titulação no século
XIX são destacados. Para valores superiores ao tamanho 15 existe uniformidade com relação ao
período de titulação.
Os dados representados na Figura 5.6 fornecem base para concluir que quanto maior for o
tamanho da janela considerada no cálculo das métricas topológicas, tanto maior será o impacto do
fator tempo na classificação obtida pela PCA, até um limiar de uniformidade (janela de tamanho 15),
52
RESULTADOS
5.2
Figura 5.5: Variação da classificação dos matemáticos em função do tamanho da janela considerada. As
colunas representam as diferentes classificações para as 41 janelas utilizadas para o cálculo das métricas. Foram representados os 0,1% matemáticos melhores colocados que são distinguidos pelas diferentes tonalidades
de cores.
para este conjunto de dados. O padrão deste comportamento pode ser representado pela sumarização
dos valores de moda e média dos anos de titulação por meio de um polinômio de grau 3 (linha
contínuas na figura).
Os diferentes tamanhos de janela não influenciam a variabilidade observada na aplicação da
PCA. A variação total, considerando as duas componentes, apresenta-se estável em cerca de 50%,
exceto para a janela de tamanho 1 que, para este conjunto, resulta em um percentual de variação
ligeiramente maior (aproximadamente 57%). Por outro lado, a média de orientados diretos para os
50 indivíduos melhores colocados é inversamente proporcional ao tamanho da janela, havendo uma
estabilidade a partir da janela 20. Estes dados são apresentados na Tabela 5.4.
A Figura 5.7 apresenta os resultados da aplicação da PCA para janelas de tamanho 1, 5, 10,
15, 20, 25, 30 e 41. Estas janelas foram escolhidas arbitrariamente com o objetivo de abranger
todo o intervalo. Os sentidos e orientações das métricas topológicas sofrem a influência do tamanho
da janela utilizada, conforme observado no segundo diagrama de cada uma das oito sub-figuras. A
distribuição dos vértices nas duas componentes principais, segundo os resultados de suas respectivas
métricas, apresenta um padrão similar. Porém, conforme discutido anteriormente, estas distribuições
5.2
ANÁLISE DE COMPONENTES PRINCIPAIS
53
Figura 5.6: Diagrama da moda (linha vermelha tracejada) e da média (linha azul tracejada) dos anos
de titulação dos matemáticos da plataforma do MGP em função do tamanho da janela considerada. A
correlação do tamanho da janela e do ano de titulação é representada pela sumarização dos dados por meio
de um polinômio de grau 3, tanto para a moda (linha vermelha contínua) quanto para a média (linha azul
contínua). Foram utilizados os 1% matemáticos com melhor classificação segundo a aplicação da PCA.
Tabela 5.4: Principais características para diferentes tamanhos de janelas.
Tamanho Orientados diretos Variação total nas duas
da janela
(média)
componentes principais
1
72,92
56,89%
5
25,18
50,64%
10
12,46
50,56%
15
7,34
49,53%
20
5,00
48,91%
25
4,60
49,24%
30
4,34
50,38%
41
4,32
50,57%
também são afetadas, havendo uma aparente alternância no posicionamento dos vértices de acordo
com o tamanho da janela considerado.
As análises realizadas não possibilitaram uma conclusão definitiva a respeito do tamanho ideal de
janela que resulte em uma efetiva classificação dos matemáticos. Entretanto, é fato que esta escolha
interfere fortemente no resultado pretendido. Note que, o tamanho da janela pode ser considerado
como um parâmetro a ser relevante como um parâmetro a ser considerado na tomada de decisões
em política científica.
Empíricamente, pode-se considerar um tamanho adequado de janela como sendo um valor entre
5 e 7, considerando que uma supervisão de doutorado tenha duração média de 5 anos, o período
total de atividade de um orientador é, no mínimo, de 25 à 35 anos, não considerando um período
54
RESULTADOS
5.2
intermediário de maturação entre as supervisões. Provavelmente, a influência de um acadêmico em
um indivíduo de sua descendência após este período é pouco relevante.
No Apêndice B são apresentados os ranking’s dos 50 matemáticos melhores posicionados segundo
os resultados de suas métricas topológicas para os oito tamanhos de janelas considerados.
Considerando a classificação obtida por meio da aplicação da PCA onde os valores das métricas
topológicas foram calculados com uma janela de tamanho 5, pode-se identificar os matemáticos
mais representativos segundo estes critérios. Na Figura 5.8 identifica-se o nome e o país de titulação
dos matemáticos com maior destaque em orientações acadêmicas.
O grupo identificado reúne matemáticos renomados por suas contribuições para o desenvolvimento da ciência. Entretanto, no contexto desta dissertação o ranking dos matemáticos é feito
exclusivamente por meio de seus respectivos desempenhos em orientação acadêmica.
O matemático de maior destaque neste grupo é David Hilbert. Apesar de Hilbert ser declarado
como pertencente à escola alemã no MGP, ele é natural de Königsberg, Prussia (hoje Kaliningrado,
Russia), onde titulou-se em 1885. De acordo com a base de dados obtida, Hilbert possui 13.238
descendentes sendo 75 diretos2 .
Os matemáticos identificados neste processo estão interligados por relacionamentos de orientação
acadêmica, seja direta ou indiretamente. As conexões existentes entre eles é apresentada na Figura
5.9, onde foram representados os 50 matemáticos mais importantes de acordo com esta classificação.
Os vértices foram rotulados com os respectivos países de titulação de cada matemático e foram
destacados os 8 melhores, em concordância com a Figura 5.8.
O grafo de relacionamentos apresenta dois aspectos importantes. O matemático de maior destaque (Hilbert) é filho acadêmico do segundo colocado (Lindermann), ou seja, o orientado apresenta
melhor desempenho em formação de recursos humanos que o orientador, intuitivamente seria natural que ocorresse o contrário. Outro aspecto interessante é sobre a formação das escolas. Observa-se
uma tendência de relação entre indivíduos de um mesmo país, quando há um relacionamento de
orientação entre matemáticos de países diferentes, novas escolas surgem.
A aplicação da PCA apresenta-se como uma forma efetiva de ordenar, de forma automática,
os vértices em um grafo de genealogia. A identificação de um tamanho de janela adequado como
elemento fundamental que possibilite a comparação entre vértices de “gerações” diferentes é ainda
um desafio que deverá ser tratado nos próximos passos deste projeto.
2
Dados de Abril de 2014.
5.2
ANÁLISE DE COMPONENTES PRINCIPAIS
(a) Janela com tamanho 1
(b) Janela com tamanho 5
(c) Janela com tamanho 10
(d) Janela com tamanho 15
(e) Janela com tamanho 20
(f) Janela com tamanho 25
(g) Janela com tamanho 30
(h) Janela com tamanho 41
55
Figura 5.7: Análises de componentes principais para janelas de tamanhos: 1, 5, 10, 15, 20, 25, 30 e 41. Para
cada análise é apresentado a projeção dos vértices em função das duas primeiras componentes principais e
a orientação das métricas topológicas.
56
5.2
RESULTADOS
Figura 5.8: Identificação dos principais matemáticos classificados por meio da PCA utilizando uma janela
de tamanho 5.
E. H. Moore
1885
C. F. Klein
1868
K. Weierstrass
1841
E. Kummer
1831
6
8
4
3
2
7
1
O. Veblen
1903
5
C.L.F. Lindemann
1873
E. Schmidt
1905
D. Hilbert
1885
Figura 5.9: Grafo de genealogia acadêmica que descreve os relacionamentos existentes entre os 50 principais
matemáticos, segundo a PCA com janela de tamanho 5.
Capítulo 6
Trabalhos correlatos
A análise de redes sociais é uma abordagem que origina-se em outras áreas do conhecimento
(sociologia, psicologia social e antropologia) [Matheus et al., 2006] e apresenta grande crescimento
nos últimos anos devido ao (i) aumento da quantidade de dados disponíveis para análise, (ii) desenvolvimento das áreas de informática e processamento de dados e (iii) a ampliação dos assuntos de
interesse e áreas do conhecimento que utilizam este tipo de análise. A utilização destas análises pode
ser de grande valor para a obtenção de conhecimento sobre diversos grupos sociais e envolve quatro componentes principais: gerenciamento e estruturação de dados, descoberta de conhecimento,
aprendizagem de máquina e técnicas de visualização [Freitas et al., 2008].
A representação de indivíduos e seus relacionamentos em forma de redes (grafos) apresenta-se
como método eficaz para extrair conhecimento em contextos, por vezes, de difícil interpretação.
Caracterizar a ciência, como por exemplo a área da Ciência da Informação, e a contribuição que a
análise de redes sociais proporciona para a correta interpretação é ainda um desafio.
Nesse contexto, utilizar grafos de genealogia como ferramenta para o estudo e descoberta de
conhecimento em grupos inter-relacionados é uma estratégia interessante que apresenta ampla aplicação. Um desafio importante, neste tipo de estudo, recai sobre a forma pela qual pode-se extrair
conhecimento relevante a respeito de tais estruturas.
Segundo Sugimoto [2014], os estudos de genealogia acadêmica são principalmente utilizados no
ambiente acadêmico por pesquisadores interessados em traçarem suas próprias raízes. Entretanto,
estes estudos são pouco explorados por aqueles que estudam a ciência a partir de perspectivas
históricas, filosóficas, sociológicas e científicas. A real importância da genealogia acadêmica deve-se
ao fato de oferecer insumos quantitativos e qualitativos para mensurar as interações, em diferentes
dimensões, dos orientadores e seus orientados/supervisados. Adicionalmente, este tipo de estudo
permite analisar a ciência desde um ponto de vista de transferência de conhecimento científico
entre diferentes gerações, assim como, o impacto ou influência desta transferência.
Os trabalhos desenvolvidos com objetivos correlatos ao desta dissertação são apresentados a
seguir. Os estudos estão agrupados em três categorias de acordo com os tipos de relacionamentos
considerados e os dados utilizados. O primeiro grupo refere-se aos trabalhos correlatos que utilizaram
57
58
TRABALHOS CORRELATOS
6.1
o mesmo tipo de relacionamento (orientação acadêmica) e a mesma base de dados (plataforma do
MGP ). O segundo grupo reúne aqueles trabalhos que utilizaram dados provenientes de outras bases
de dados e o mesmo tipo de relacionamento. Por fim, no terceiro grupo descreve-se os trabalhos
realizados em grafos estruturados em função de outros tipos de relacionamentos e outras bases de
dados.
6.1
Relacionamentos de orientação – base de dados do MGP
O MGP é o resultado dos esforços empreendidos por Harry Coonce [Jackson, 2007] para documentar todos os doutores em matemática do mundo e seus relacionamentos de orientação acadêmica
em todos os tempos. Este projeto constitui uma excelente base de dados sobre a comunidade acadêmica dos matemáticos. Uma descrição detalhada sobre os dados deste projeto é descrita no Capítulo
4.
Devido à sua importância e às características de seus dados, a plataforma do MGP serviu de
base para diversos estudos sobre este pequeno e seleto grupo de acadêmicos. É importante destacar
que o conjunto de dados gerado a partir da plataforma do MGP é uma base ímpar que ainda não
foi explorada completamente.
O papel da orientação acadêmica no desempenho dos orientados, para a área da matemática,
pode ser verificada analisando a fecundidade dos matemáticos estudados1 . Segundo Malmgren et al.
[2010], a fecundidade dos matemáticos se mantem estável ao longo dos últimos 60 anos e o desempenho dos orientados é impactado pelas características do orientador, no que se refere à orientação
acadêmica. As análises apresentadas nesse trabalho foram referentes a um subconjunto de 7.259
matemáticos, com titulação ocorrida entre 1900 e 1960, e suas respectivas contagens de descendentes diretos (fecundidade). O referido estudo apresenta resultados interessantes, utilizando análises
estatísticas descritivas, para a compreensão, em escala temporal, do desenvolvimento do grupo
considerado e correlações existentes entre fecundidade e outras medidas de desempenho acadêmico.
A representação dos matemáticos e seus relacionamentos como vértices e arestas, respectivamente, pode ser feita sob abordagens diferentes [Narayan, 2011]. Os relacionamentos podem ser representados como arestas direcionadas e não-direcionadas, sendo que para cada uma das modelagens
são obtidas possibilidades de análise distintas. Há, também, a possibilidade da utilização de relacionamentos não explícitos. Um relacionamento deste tipo ocorre, por exemplo, quando considera-se
um conjunto de vértices que são derivados de um único vértice. Este tipo de ligação é denominada
relacionamento entre “irmãos”. Veja no trabalho de [Narayan, 2011] um melhor aprofundamento de
representação de relacionamento entre pessoas.
O trabalho descrito anteriormente considerou um conjunto de 137.138 matemáticos e seus relacionamentos, obtidos na plataforma do MGP, com o objetivo de identificar o impacto do relacionamento de orientação e entender a formação da comunidade científica dos matemáticos.
1
No contexto desta dissertação de mestrado, a métrica que demonstra este resultado é a largura, definida no
Capítulo 3.
6.2
RELACIONAMENTOS DE ORIENTAÇÃO – OUTRAS BASES DE DADOS
59
A modelagem de dados pode mudar de acordo com a intenção do estudo. Myers et al. [2011]
utilizou os vértices de uma rede para representar as instituições norte-americanas cadastradas no
projeto e as orientações ocorridas entre matemáticos de diferentes instituições foram representadas por arestas. A rede resultante foi utilizada para determinar o prestígio matemático de cada
instituição estudada.
Os resultados possíveis, a partir da análise de dados genealógicos estruturados em forma de grafo
de genelogia, incluem a caracterização de indivíduos específicos ou de comunidades específicas. A caracterização de Johann Bernoulli e sua descendência foi objeto de estudo em Rossi & Mena-Chalco
[2014a]. Bernoulli foi um nome importante para a área da matemática que ajudou a eleva-lá ao
nível de ciência. Neste estudo, seu grafo genealógico, composto de 81.768 vértices e 88.955 arestas
direcionadas, foi caracterizado por meio de métricas topológicas em grafos, que permitiram a diferenciação entre os indivíduos na árvore e sua classificação pela redução de dimensões dos resultados
das métricas.
Finalmente, um registro histórico a respeito de um conjunto de matemáticos selecionados da
plataforma do MGP foi publicado por Chang [2011] no livro “Academic Genealogy of Mathematicians”. Esta obra apresenta os mais importantes matemáticos agrupados por meio de suas escolas
(países) e seus relacionamentos de orientação acadêmica.
6.2
Relacionamentos de orientação – outras bases de dados
A utilização de grafos de genealogia não se limita à análise da comunidade acadêmico-científica
dos matemáticos. Este tipo de abordagem é utilizada para estudos dos mais diversos grupos, principalmente em comunidades acadêmicas. A seguir apresenta-se uma descrição de trabalhos correlatos
a esta dissertação com a utilização de dados provenientes de outras áreas do conhecimento.
Os acadêmicos da área da neurociência foram documentados por meio de seus relacionamentos
de orientação acadêmica. O projeto Neurotree [David & Hayden, 2012], busca a compreensão da
comunidade acadêmica dos neurocientistas através do estudo de sua genealogia. Uma dificuldade
comum a este projeto e ao dos matemáticos é a obtenção de informações sobre os orientadores e suas
relações de orientação. O projeto Neurotree (http://neurotree.org/neurotree) foi pautado na obtenção
das informações da área e, pela primeira vez em projetos deste tipo, na interpretação de grafos de
genealogia acadêmica obtidos. A utilização de métricas de avaliação de grafos apresentou resultados
interessantes na caracterização da área da Neurociência. Este projeto conta com, aproximadamente,
40.000 pesquisadores e 60.000 relacionamentos cadastrados. Outras comunidades acadêmicas no
mundo que consideram a genealogia como ferramenta para a documentação e/ou caracterização
de seus membros são: a Química Orgânica [Andraos, 2005], a Fisiologia [Bennett & Lowe, 2005,
Jackson, 2011], a Metereologia [Hart & Cossuth, 2013], entre outros.
Iniciativas similares, com o objetivo de captar e estruturar dados genealógicos utilizando plataformas Web são observadas para a comunidade científica dos Físicos (http://academictree.org/physics)
e, de forma mais específica, para os acadêmicos titulados com doutorado (http://phdtree.org). Estes
60
TRABALHOS CORRELATOS
6.3
projetos, ainda não bem adotados pelas suas comunidades, são pautados na obtenção e documentação de seus membros, não oferecendo análises destes conjuntos de dados. Porém, esses registros
contribuem para a documentação histórica destas comunidades e resulta em campo fértil para estudos futuros.
Documentar a história e compreender a expansão de grupos com interesses comuns, destacando
principalmente as comunidades acadêmicas, passa obrigatoriamente pela utilização da genealogia e,
consequentemente, pela construção de grafos genealógicos. A utilização da genealogia foi o caminho
para o estudo de um seleto grupo de meteorologistas tropicais, apresentado em Hart & Cossuth
[2013]. Os resultados deste estudo motivaram, devido às características de interdisciplinaridade dos
indivíduos pertencentes ao grafo, a ampliação da busca por pessoas fora dos limites da área.
O desenvolvimento de métodos para caracterizar grafos genealógicos é parte importante do
trabalho de gerar conhecimento por meio destas estruturas. Estudos neste sentido, como o de
Griffiths [1987], demonstram a viabilidade da caracterização de grafos de genealogia por meio de
métricas específicas, como por exemplo: determinar o número de árvores de genealogia com um
dado grau ou com uma determinada sequência.
A escolha da modelagem dos dados está diretamente relacionada com os objetivos pretendidos.
Os relacionamentos entre irmãos ou redes de parentesco (kinship networks) resultam em grafos de
genealogia de composição mista. As arestas direcionadas (que indicam relacionamento top-down
comumente usadas para interligar pais e filhos), as arestas não-direcionadas (que indicam relacionamento, como por exemplo casamento, onde não existe uma orientação de origem e destino) são
menos frequentes neste tipo de abordagem. Essa forma de modelar árvores, ou estruturas mais sofisticadas, é descrita no estudo apresentado por Hamberger et al. [2011] e demonstra as possibilidades
de avaliação com diferentes estruturas.
6.3
Outros tipos de relacionamentos – no contexto brasileiro
A comunidade acadêmico-científica apresenta outros tipos de relacionamentos, além da orientação acadêmica, que podem ser utilizados na estruturação de redes. As coautorias em publicações
são um tipo de relacionamento muito utilizado com o objetivo de caracterizar grupos específicos
inter-relacionados por meio da colaboração em publicações.
A caracterização dos programas de pós-graduação de Ciência da Computação no Brasil foi objeto
de estudo de Digiampietri et al. [2014], que utilizaram os relacionamentos de coautoria em publicações científicas da área. Este estudo demonstrou, entre outros resultados, que há uma correlação
entre a produtividade dos programas e sua inserção na rede de co-autoria.
A Plataforma Lattes é uma importante fonte de dados acadêmicos e foi objeto de estudo em
[Mena-Chalco et al., 2014]. Esta base de dados conta com mais de 4 milhões de registros2 identificados e caracterizados, por meio de métricas topológicas, utilizando uma rede de co-autoria em
publicações.
2
Dados referentes à Maio de 2015.
6.3
OUTROS TIPOS DE RELACIONAMENTOS – NO CONTEXTO BRASILEIRO
61
A análise de redes de co-autoria em publicações é um tema importante para a extração de conhecimento e requer o estudo e desenvolvimento de novos métodos especificos [Perez-Cervantes et al.,
2013] que possam contribuir nesta tarefa. Devido à magnitude e complexidade das redes, novos métodos de caracterização apresentam-se como ferramenta fundamental para a correta interpretação
destas estruturas.
Atualmente, como parte do projeto do grupo de pesquisa na UFABC estão sendo considerados
todos os registros da Plataforma Lattes, assim como mais de 600 mil registros do Banco de Teses e
Dissertações da CAPES.
62
TRABALHOS CORRELATOS
6.3
Capítulo 7
Conclusões
7.1
Considerações finais
Qualificar os acadêmicos em função do desempenho percebido em suas atividades de orientação
e estudar sua contribuição no desenvolvimento da comunidade acadêmica é tão importante quanto
medir o impacto e a relevância de suas publicações científicas. Nesta dissertação foi apresentado um
estudo baseado em métricas topológicas para a caracterização de grafos de genealogia acadêmica.
A identificação dos acadêmicos mais proeminentes e a obtenção de características de formação da
comunidade acadêmica dos matemáticos, que é objeto de estudo desta dissertação, são os principais
resultados obtidos.
A importância do desenvolvimento e adaptação de métricas topológicas em conjunto com a possibilidade de prospecção, seleção e estruturação automáticas de dados genealógicos, se apresentam
como contribuições de destaque deste trabalho, que poderão auxiliar na busca de novas formas de
estudar o desenvolvimento acadêmico-científico e seu efeito, por meio do reconhecimento de padrões
de orientação acadêmica que influênciem positivamente na formação de novos orientadores.
Acreditamos que, a documentação perene de dados genealógicos e as informações que eles proporcionam, é tema atraente e de grande interesse por parte dos diversos atores envolvidos no contexto
acadêmico-científico.
7.2
Sugestões de pesquisas futuras
A abordagem de extração de conhecimento, apresentada nesta dissertação, em dados de genealogia acadêmica pode ser classificada em duas vertentes. A primeira está relacionada com o
desenvolvimento do método, de forma a proporcionar resultados mais assertivos na caracterização
de grafos de genealogia. Uma analogia que ilustra esta vertente é o desenvolvimento do “termômetro”
que produzirá medições de temperatura mais assertivas.
A segunda vertente é a implementação do método desenvolvido em diferentes conjuntos de dados
estruturados em grafos de genealogia, de forma a extrair conhecimento relevante a respeito destas
63
64
CONCLUSÕES
estruturas. Para este caso, o objetivo é a utilização do “termômetro” existente para a medição de
temperatura em diferentes contextos.
Como sugestões de pesquisas futuras, apresenta-se, a seguir, os objetivos classificados nas duas
vertentes descritas.
1. Desenvolvimento do método
1a. O estudo e desenvolvimento de novas métricas, com forte intuição semântica, podem
melhorar os resultados de trabalhos com grafos de genealogia. A utilização de métricas derivadas, onde seus resultados são obtidos por meio da implementação conjunta de
outras métricas que definam atributos simples, e.g. a utilização das métricas: profundidade, maior largura e fecundidade ponderada em conjunto podem resultar em uma
nova métrica composta que classificaria um grafo de genealogia segundo sua amplitude,
abrangência e densidade, simultâneamente.
1b. A identificação de padrões locais nas conexões do grafo (por exemplo, a identificação
de motifs em redes) pode gerar um maior conhecimento a respeito do processo de desenvolvimento de comunidades acadêmicas. Acreditamos que, como pesquisa futura, o
desenvolvimento e implementação de ferramentas computacionais que permitam a realização automática destas identificações elevará a qualidade dos resultados e análises de
grafos de genealogia acadêmica.
1c. O aprofundamento das análises referentes à identificação do tamanho ideal de janela para
a correta comparação entre vértices de diferentes “gerações” apresenta-se como passo
fundamental para a melhoria do método.
2. Aplicação do método
2a. A aplicação das métricas topológicas em conjuntos de dados mais heterogêneos (e.g. conjunto dos currículos da plataforma Lattes, conjunto de teses e dissertações) permitirá,
além da caracterização do conjunto, realizar estudos sobre a interdiciplinaridade entre
diversas áreas do conhecimento. A utilização de outros tipos de relacionamento (e.g.
iniciação científica, mestrado, doutorado e pós-doutorado) produzirão um conjunto de
dados propício para a identificação da evolução acadêmica de forma segmentada, facilitando, dessa forma, conclusões mais específicas de acordo com as particularidades de
cada tipo de relação.
2b. Ampliar a utilização de atributos (i.e., características próprias de cada indivíduo), tanto
dos vértices quanto das arestas, enriquecem os resultados. Acreditamos que, a consideração do período de orientação produzirá análises temporais sob a perspectiva do
desenvolvimento e formação do grupo que é objeto de estudo.
Apêndice A
Caracterização da base de dados
65
66
APÊNDICE A
Tabela A.1: Ranking dos países e instituições segundo os registros obtidos no MGP (parte I).
PAÍS
NOME PHDs
INSTITUIÇÃO
POS.
%. POS.
NOME
1o University of California, Berkeley
2o Massachusetts Institute of Technology
1o United
81353 45,53% 3o Stanford University
States
4o University of Illinois at Urbana-Champaign
5o University of Wisconsin-Madison
1o Georg-August-Universitat Gottingen
2o Rheinische Friedrich-Wilhelms-Universitat Bonn
o
2
Germany
21968 12,29% 3o Ludwig-Maximilians-Universitat Munchen
4o Technische Universitat Munchen
5o Universitat Leipzig
1o University of Cambridge
2o University of Oxford
3o United
9503 5,32% 3o University of London
4o University of Warwick
Kingdom
5o Imperial College
1o Universite Paris VI - Pierre et Marie Curie
2o Universite Paris-Sud XI - Orsay
o
4
France
6512 3,64% 3o Universite Denis Diderot - Paris VII
4o Universite Bordeaux 1
5o Universite de Paris
1o University of Toronto
2o University of Waterloo
5o Canada
5489 3,07% 3o University of British Columbia
4o McGill University
5o Universite de Montreal
1o Universiteit van Amsterdam
2o Universiteit Utrecht
o
6
Netherlands 5238 2,93% 3o Universiteit Leiden
4o Rijksuniversiteit Groningen
5o Technische Universiteit Delft
1o Moscow State University
2o St. Petersburg State University
7o Russia
4468 2,50% 3o Voronezh State University
4o Steklov Institute of Mathematics
5o Novosibirsk State University
1o Eidgenossische Technische Hochschule Zurich
2o Ecole Polytechnique Federale de Lausanne
o
8
Switzerland 2852 1,60% 3o Universitat Zurich
4o Universite de Geneve
5o Universitat Bern
1o Universitat Politecnica de Catalunycap
2o Universidad de Barcelona
o
9
Spain
2723 1,52% 3o University Complutense de Madrid
4o Universidad Complutense de Madrid
5o Universidad de Granada
1o Monash University
2o Australian National University
o
10 Australia
1806 1,01% 3o University of Adelaide
4o University of Sydney
5o University of Melbourne
PHDs
3616
3202
2893
2377
2135
1064
914
862
813
745
1975
1152
893
634
435
736
654
401
318
255
935
745
508
340
331
1042
1018
710
564
526
1604
492
485
234
164
1576
401
301
152
129
240
199
195
189
187
336
324
188
162
117
%
4,445%
3,936%
3,556%
2,922%
2,624%
4,843%
4,161%
3,924%
3,701%
3,391%
20,783%
12,122%
9,397%
6,672%
4,578%
11,302%
10,043%
6,158%
4,883%
3,916%
17,034%
13,573%
9,255%
6,194%
6,030%
19,893%
19,435%
13,555%
10,767%
10,042%
35,900%
11,012%
10,855%
5,237%
3,671%
55,259%
14,060%
10,554%
5,330%
4,523%
8,814%
7,308%
7,161%
6,941%
6,867%
18,605%
17,940%
10,410%
8,970%
6,478%
CARACTERIZAÇÃO DA BASE DE DADOS
67
Tabela A.1: Ranking dos países e instituições segundo os registros obtidos no MGP (parte II).
PAÍS
POS. NOME PHDs
11o
12o
13o
14o
15o
16o
17o
18o
19o
20o
INSTITUIÇÃO
%. POS.
NOME
1o Uniwersytet Jagiellonski
2o Uniwersytet Warszawski
Poland 1741 0,97% 3o Uniwersytet Lodzki
4o Uniwersytet im. Adama Mickiewicza Poznan
5o Uniwersytet Wroclawski
1o Universidade de Sao Paulo
2o Instituto de Matematica Pura e Aplicada
Brazil
1615 0,90% 3o Universidade Estadual de Campinas
4o Universidade Federal do Rio de Janeiro
5o Pontificia Universidade Catolica do Rio de Janeiro
1o Scuola Internazionale Superiore di Studi Avanzati
2o Universita di Pisa
Italy
1592 0,89% 3o Universita di Roma La Sapienza
4o Universita di Padova
5o Scuola Normale Superiore di Pisa
1o Indian Institute of Technology, Kanpur
2o Indian Statistical Institute, Calcutta
India
1566 0,88% 3o University of Pune
4o Indian Institute of Technology
5o University of Mumbai
1o Katholieke Universiteit Leuven
2o Universite Libre de Bruxelles
Belgium 1481 0,83% 3o Universite Catholique de Louvain
4o Universiteit Gent
5o Universiteit Antwerpen
1o Technion-Israel Institute of Technology
2o Hebrew University
Israel
1464 0,82% 3o Tel Aviv University
4o Weizmann Institute of Science
5o Bar-Ilan University
1o Kungliga Tekniska Hogskolan
2o Uppsala Universitet
Sweden 1452 0,81% 3o Lund University
4o Stockholm University
5o Chalmers Tekniska Hogskola
1o Universitat Wien
2o Technische Universitat Wien
Austria 1367 0,76% 3o Johannes Kepler Universitat Linz
4o Technische Universitat Graz
5o Universitat Innsbruck
1o Institute of Mathematics, Kiev
2o Kiev State University
Ukraine 1098 0,61% 3o Kharkiv State University
4o Ivan Franko National University of Lviv
5o Institute of Mathematics, Ukrainian Acad. of Science
1o Chinese Academy of Sciences
2o Peking University
China
880 0,49% 3o Tsinghua University
4o Lanzhou University
5o Shanghai University
PHDs
380
231
151
113
106
428
303
292
140
95
183
163
162
106
95
126
116
82
80
63
498
313
244
104
97
402
316
291
284
83
298
289
208
176
125
462
289
182
130
129
245
172
168
130
67
99
67
51
45
43
%
21,827%
13,268%
8,673%
6,491%
6,088%
26,502%
18,762%
18,080%
8,669%
5,882%
11,495%
10,239%
10,176%
6,658%
5,967%
8,046%
7,407%
5,236%
5,109%
4,023%
33,626%
21,134%
16,475%
7,022%
6,550%
27,459%
21,585%
19,877%
19,399%
5,669%
20,523%
19,904%
14,325%
12,121%
8,609%
33,797%
21,141%
13,314%
9,510%
9,437%
22,313%
15,665%
15,301%
11,840%
6,102%
11,250%
7,614%
5,795%
5,114%
4,886%
68
APÊNDICE A
Tabela A.2: Ranking das escolas mais relevantes. A ordem é dada pela quantidade de matemáticos pertencentes à sua linhagem (parte I).
POS.
ESCOLA
LINHAGEM
ORIGENS
1o
2o
3o
4o
5o
6o
7o
8o
9o
10o
11o
12o
13o
14o
15o
16o
17o
18o
19o
20o
21o
22o
23o
24o
25o
26o
27o
28o
29o
30o
31o
32o
33o
34o
35o
36o
France
UnitedKingdom
Germany
Poland
CzechRepublic
Belgium
Italy
UnitedStates
Austria
Hungary
Switzerland
Sweden
Norway
Netherlands
Russia
Spain
India
Canada
Japan
Ukraine
Serbia
Australia
Denmark
China
Argentina
Ireland
Portugal
Azerbaijan
Bulgaria
Slovakia
Estonia
Mexico
Romania
Israel
Finland
Bangladesh
123125
119161
117800
112680
92700
92148
13437
10591
6209
4920
3324
3011
1550
1034
850
558
548
499
461
423
387
334
194
111
103
68
49
48
45
41
38
31
31
25
17
11
205
1059
2840
30
25
22
36
3992
104
29
153
47
12
69
64
41
49
193
33
18
25
286
40
38
20
7
6
2
4
12
5
3
43
14
20
2
MÉDIA
/ORIGEM
600,61
112,52
41,48
3756,00
3708,00
4188,55
373,25
2,65
59,70
169,66
21,73
64,06
129,17
14,99
13,28
13,61
11,18
2,59
13,97
23,50
15,48
1,17
4,85
2,92
5,15
9,71
8,17
24,00
11,25
3,42
7,60
10,33
0,72
1,79
0,85
5,50
% DA
BASE
69,02%
67,28%
67,51%
63,07%
51,89%
51,58%
7,54%
8,16%
3,53%
2,77%
1,95%
1,71%
0,87%
0,62%
0,51%
0,34%
0,33%
0,39%
0,28%
0,25%
0,23%
0,35%
0,13%
0,08%
0,07%
0,04%
0,03%
0,03%
0,03%
0,03%
0,02%
0,02%
0,04%
0,02%
0,02%
0,01%
CARACTERIZAÇÃO DA BASE DE DADOS
69
Tabela A.2: Ranking das escolas mais relevantes. A ordem é dada pela quantidade de matemáticos pertencentes à sua linhagem (parte II).
POS.
ESCOLA
LINHAGEM
ORIGENS
37o
38o
39o
40o
41o
42o
43o
44o
45o
46o
47o
48o
49o
50o
51o
52o
53o
54o
55o
56o
57o
58o
59o
60o
61o
62o
63o
64o
65o
66o
67o
68o
69o
70o
71o
Georgia
SouthAfrica
NewZealand
Lithuania
Catalonia
Egypt
Singapore
Moldova
Philippines
Algeria
Belarus
Benin
Brazil
Latvia
Pakistan
Taiwan
Uzbekistan
Armenia
Cameroon
Chile
Cuba
Greece
HongKong
Iran
Kenya
Korea
Malaysia
Nigeria
Slovenia
SouthKorea
Thailand
Turkey
Uganda
Venezuela
Vietnam
11
8
7
5
4
3
3
2
2
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
9
7
1
2
2
2
2
4
3
1
8
14
3
1
5
1
1
5
1
1
4
1
12
4
1
1
2
1
3
1
20
2
2
1
MÉDIA
/ORIGEM
11,00
0,89
1,00
5,00
2,00
1,50
1,50
1,00
0,50
0,33
1,00
0,13
0,07
0,33
1,00
0,20
1,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
% DA
BASE
0,01%
0,01%
0,01%
0,00%
0,00%
0,00%
0,00%
0,00%
0,00%
0,00%
0,00%
0,01%
0,01%
0,00%
0,00%
0,00%
0,00%
0,00%
0,00%
0,00%
0,00%
0,00%
0,00%
0,01%
0,00%
0,00%
0,00%
0,00%
0,00%
0,00%
0,00%
0,01%
0,00%
0,00%
0,00%
70
APÊNDICE A
Tabela A.3: Distribuição das classificações encontradas na base de dados, de acordo com o Mathematics
Subject Classification (parte I).
CÓDIGO QTDE PORCENTAGEM
DESCRIÇÃO
00
99649
55,76%
General
13732
7,68%
Computer science
68
62
7057
3,95%
Statistics
65
3584
2,01%
Numerical analysis
60
3389
1,90%
Probability theory and stochastic processes
35
3038
1,70%
Partial differential equations
90
2661
1,49%
Operations research, mathematical programming
2289
1,28%
Number theory
11
94
2279
1,28%
Information and communication, circuits
46
2230
1,25%
Functional analysis
2072
1,16%
Combinatorics
05
20
1959
1,10%
Group theory and generalizations
1870
1,05%
Mathematical logic and foundations
03
76
1845
1,03%
Fluid mechanics
81
1821
1,02%
Quantum theory
53
1735
0,97%
Differential geometry
92
1734
0,97%
Biology and other natural sciences
14
1716
0,96%
Algebraic geometry
93
1603
0,90%
Systems theory; control
97
1411
0,79%
Mathematics education
37
1323
0,74%
Dynamical systems and ergodic theory
34
1229
0,69%
Ordinary differential equations
85
1162
0,65%
Astronomy and astrophysics
91
1059
0,59%
Game theory, economics, social and behavioral sciences
74
864
0,48%
Mechanics of deformable solids
832
0,47%
Associative rings and algebras
16
47
832
0,47%
Operator theory
83
799
0,45%
Relativity and gravitational theory
82
759
0,42%
Statistical mechanics, structure of matter
51
757
0,42%
Geometry
55
717
0,40%
Algebraic topology
30
712
0,40%
Functions of a complex variable
CARACTERIZAÇÃO DA BASE DE DADOS
71
Tabela A.3: Distribuição das classificações encontradas na base de dados, de acordo com o Mathematics
Subject Classification (parte II).
CÓDIGO QTDE PORCENTAGEM
DESCRIÇÃO
54
645
0,36%
General topology
57
615
0,34%
Manifolds and cell complexes
557
0,31%
Optics, electromagnetic theory
78
41
553
0,31%
Approximations and expansions
551
0,31%
Calculus of variations and optimal control; optimization
49
70
524
0,29%
Mechanics of particles and systems
518
0,29%
Commutative rings and algebras
13
42
460
0,26%
Fourier analysis
52
458
0,26%
Convex and discrete geometry
32
429
0,24%
Several complex variables and analytic spaces
17
389
0,22%
Nonassociative rings and algebras
366
0,20%
Global analysis, analysis on manifolds
58
18
361
0,20%
Category theory; homological algebra
15
355
0,20%
Linear and multilinear algebra; matrix theory
22
354
0,20%
Topological groups, Lie groups
287
0,16%
History and biography
01
86
279
0,16%
Geophysics
26
272
0,15%
Real functions
243
0,14%
Order, lattices, ordered algebraic structures
06
08
236
0,13%
General algebraic systems
43
184
0,10%
Abstract harmonic analysis
28
181
0,10%
Measure and integration
80
173
0,10%
Classical thermodynamics, heat transfer
33
162
0,09%
Special functions
12
141
0,08%
Field theory and polynomials
40
138
0,08%
Sequences, series, summability
39
132
0,07%
Difference and functional equations
19
125
0,07%
K-theory
45
120
0,07%
Integral equations
31
113
0,06%
Potential theory
58
0,03%
Integral transforms, operational calculus
44
72
APÊNDICE A
Apêndice B
Classificação por janelas
73
74
APÊNDICE B
Tabela B.1: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes
principais com janela de tamanho 1.
Registro
93643
11498
69895
51373
51374
21566
76955
7298
64567
7401
10480
45228
8415
65093
148660
12042
96080
79876
104644
85043
71057
58777
63602
9112
7952
64272
18355
30979
40628
7404
93649
18758
97284
18331
70804
21648
4209
37407
14701
15860
18746
13411
13300
21344
94950
61476
103443
129705
20846
13415
Nome
C.-C. Jay Kuo
Roger Temam
Andrew Whinston
Leonard Ornstein
Ludwig Prandtl
Willi Jager
Yurii Mitropolsky
David Hilbert
Ronold King
C. Felix Klein
Andrei Kolmogorov
Selim Krein
David Moursund
Alexander Mikhalev
Arnold Zellner
Wilhelm Magnus
Charles Ehresmann
Bruce Vogeli
Richard Eden
Egon Krause
Edward McCluskey, Jr.
Pekka Neittaanmaki
Robert Newcomb
Neil Davidson
Hubert Wall
Jean-Claude Nedelec
Beno Eckmann
Terence Speed
Wayne Fuller
C. L. Ferdinand Lindemann
Anatoliy Samoilenko
Shing-Tung Yau
Bart De Moor
Ernst Kummer
David Cox
Eduard Stiefel
David Blackwell
Azriel Rosenfeld
George Bachman
John Tukey
Roger Brockett
Joseph Keller
Arthur Bryson, Jr.
Heinz-Gerd Hegering
David Bogy
Peter Phillips
Donald Marcotte
Jack Wolf
Gunter Schwarze
Peter Lax
Ano de titulação
1987
1967
1962
1908
1899
1966
0
1885
1932
1868
1925
1942
1963
1967
1957
1931
1934
1960
1951
1966
1956
1978
1960
1970
1927
1970
1942
1968
1959
1873
1963
1971
1988
1831
1949
1935
1941
1960
1956
1939
1964
1948
1951
1971
1966
1974
1969
1960
1963
1949
País de titulação
UnitedStates
France
UnitedStates
Netherlands
Germany
Germany
Ukraine
Germany
UnitedStates
Germany
Russia
unknow
UnitedStates
Russia
UnitedStates
Germany
France
UnitedStates
UnitedKingdom
UnitedStates
UnitedStates
Finland
UnitedStates
UnitedStates
UnitedStates
France
Switzerland
Australia
UnitedStates
Germany
Ukraine
UnitedStates
Belgium
Germany
UnitedKingdom
Switzerland
UnitedStates
UnitedStates
UnitedStates
UnitedStates
UnitedStates
UnitedStates
UnitedStates
Germany
UnitedStates
UnitedKingdom
UnitedStates
UnitedStates
Germany
UnitedStates
Orientados diretos
120
112
97
95
88
91
87
75
100
63
82
81
82
85
81
74
78
77
80
76
71
81
70
73
66
71
72
69
67
48
68
66
77
55
62
63
65
58
63
56
60
59
59
65
62
59
61
59
62
55
CLASSIFICAÇÃO POR JANELAS
75
Tabela B.2: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes
principais com janela de tamanho 5.
Registro
7298
7404
7401
806
7361
18331
805
7486
7461
7865
5879
34254
4642
7378
7487
10479
17409
7451
11370
19524
34266
24109
7862
7488
31357
12545
25484
18571
7402
19964
8011
29458
10480
26995
34233
12543
51374
286
39071
7379
12544
17865
73816
36703
30176
17946
18589
8038
12546
17806
Nome
David Hilbert
C. L. Ferdinand Lindemann
C. Felix Klein
E. H. Moore
Erhard Schmidt
Ernst Kummer
Oswald Veblen
Karl Weierstrass
Solomon Lefschetz
H. A. Newton
George Birkhoff
Gaston Darboux
Ferdinand Frobenius
Richard Courant
Hermann Schwarz
Nikolai Luzin
Heinz Hopf
William Story
Lazarus Fuchs
Ludwig Bieberbach
C. Emile Picard
Dimitri Egorov
Edmund Landau
Leopold Fejer
Arnold Sommerfeld
Waclaw Sierpinski
Heinrich Scherk
Edmund Whittaker
Julius Plucker
Rudolf Lipschitz
Alonzo Church
Christoph Gudermann
Andrei Kolmogorov
Michel Chasles
Laurent Schwartz
Andrei Markov
Ludwig Prandtl
R. L. Moore
Emile Borel
Erich Hecke
Georgy Voronoy
Simeon Poisson
Georges Valiron
Jacques-Louis Lions
Karl Pearson
Gustav Dirichlet
Wilhelm Scheibner
Salomon Bochner
Stanislaw Zaremba
G. H. Hardy
Ano de titulação
1885
1873
1868
1885
1905
1831
1903
1841
1911
1850
1907
1866
1870
1910
1864
1915
1925
1875
1858
1910
1877
1901
1899
1902
1891
1906
1823
1895
1823
1853
1927
1823
1925
1814
1943
1884
1899
1905
1893
1910
1896
1800
1914
1954
1879
1827
1848
1921
1889
0
País de titulação
Germany
Germany
Germany
UnitedStates
Germany
Germany
UnitedStates
Germany
UnitedStates
UnitedStates
UnitedStates
France
Germany
Germany
Germany
Russia
Germany
Germany
Germany
Germany
France
Russia
Germany
Hungary
Germany
Poland
Germany
UnitedKingdom
Germany
Germany
UnitedStates
Germany
Russia
France
France
Russia
Germany
UnitedStates
France
Germany
Russia
France
France
France
UnitedKingdom
Germany
Germany
Germany
France
UnitedKingdom
Orientados diretos
75
48
63
31
32
55
16
41
26
4
46
6
17
36
19
17
50
20
28
25
15
12
31
20
35
9
2
8
1
1
34
2
82
2
16
6
88
50
6
14
2
3
7
44
4
6
32
38
10
24
76
APÊNDICE B
Tabela B.3: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes
principais com janela de tamanho 10.
Registro
17865
7401
17864
66476
18231
18230
17946
7404
19964
7402
108295
47064
47025
17981
29642
57670
26995
38586
25484
65161
7298
57667
18331
29458
18603
7486
108266
806
146036
7865
65162
34254
127710
53410
128986
15635
7361
805
12541
57659
12542
42016
41423
7461
5879
72669
34266
7487
127668
7451
Nome
Simeon Poisson
C. Felix Klein
Joseph Lagrange
Abraham Kastner
Carl Gauss
Johann Pfaff
Gustav Dirichlet
C. L. Ferdinand Lindemann
Rudolf Lipschitz
Julius Plucker
Pierre-Simon Laplace
Martin Ohm
Karl von Langsdorf
Jean-Baptiste Fourier
Christian Gerling
Christian Hausen
Michel Chasles
Leonhard Euler
Heinrich Scherk
Georg Lichtenberg
David Hilbert
Bernhard Thibaut
Ernst Kummer
Christoph Gudermann
Friedrich Bessel
Karl Weierstrass
Jean d’Alembert
E. H. Moore
Giovanni Battista Beccaria
H. A. Newton
Heinrich Brandes
Gaston Darboux
Johann Bode
Johann Bernoulli
Johann Planer
Carl Jacobi
Erhard Schmidt
Oswald Veblen
Nikolai Brashman
Johann Mayer
Pafnuty Chebyshev
William Hopkins
Enno Dirksen
Solomon Lefschetz
George Birkhoff
Johann Wichmannshausen
C. Emile Picard
Hermann Schwarz
Johann Busch
William Story
Ano de titulação
1800
1868
0
1739
1799
1786
1827
1873
1853
1823
0
1811
1781
0
1812
1713
1814
1726
1823
1765
1885
1796
1831
1823
1810
1841
0
1885
0
1850
1800
1866
0
1690
1686
1825
1905
1903
1834
1773
1849
1830
1820
1911
1907
1685
1877
1864
1752
1875
País de titulação
France
Germany
Italy
Germany
Germany
Germany
Germany
Germany
Germany
Germany
unknow
Germany
Germany
France
Germany
Germany
France
Switzerland
Germany
Germany
Germany
Germany
Germany
Germany
Germany
Germany
unknow
UnitedStates
unknow
UnitedStates
Germany
France
Germany
Switzerland
Germany
Germany
Germany
UnitedStates
Russia
Germany
Russia
UnitedKingdom
Germany
UnitedStates
UnitedStates
Germany
France
Germany
Germany
Germany
Orientados diretos
3
63
3
10
10
5
6
48
1
1
1
11
3
2
1
3
2
6
2
4
75
3
55
2
2
41
1
31
1
4
1
6
1
4
2
6
32
16
2
2
6
6
11
26
46
1
15
19
1
20
CLASSIFICAÇÃO POR JANELAS
77
Tabela B.4: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes
principais com janela de tamanho 15.
Registro
57670
66476
17865
17864
128986
38586
53410
18230
21235
54440
137705
7401
108295
18231
108266
60782
72669
146036
127962
143011
76481
127710
128938
127668
129628
128046
125886
7404
60985
17946
129708
47025
19964
65161
7402
17981
143084
47064
26995
29642
7298
143630
125971
57667
124000
123974
125125
18331
143083
25484
Nome
Christian Hausen
Abraham Kastner
Simeon Poisson
Joseph Lagrange
Johann Planer
Leonhard Euler
Johann Bernoulli
Johann Pfaff
Otto Mencke
Jacob Bernoulli
Jakob Thomasius
C. Felix Klein
Pierre-Simon Laplace
Carl Gauss
Jean d’Alembert
Johann Segner
Johann Wichmannshausen
Giovanni Battista Beccaria
Michael Walther, Jr.
Nicolas Malebranche
Elias Camerarius, Sr.
Johann Bode
Rudolf Camerarius
Johann Busch
Nikolaus Eglinger
Johann Pasch
Georg Hamberger
C. L. Ferdinand Lindemann
Gottfried Leibniz
Gustav Dirichlet
Johann Bauhin
Karl von Langsdorf
Rudolf Lipschitz
Georg Lichtenberg
Julius Plucker
Jean-Baptiste Fourier
Peter Werenfels
Martin Ohm
Michel Chasles
Christian Gerling
David Hilbert
Friedrich Leibniz
Simon Hilscher
Bernhard Thibaut
Rudolf Krause
Georg Metzger
Emmanuel Stupanus
Ernst Kummer
Theodor Zwinger, Jr.
Heinrich Scherk
Ano de titulação
1713
1739
1800
0
1686
1726
1690
1786
1665
1676
1643
1868
0
1799
0
1726
1685
0
1661
1672
1663
0
1684
1752
1660
1683
1721
1873
1666
1827
1649
1781
1853
1765
1823
0
1649
1811
1814
1812
1885
1622
1704
1796
1671
1644
1613
1831
1630
1823
País de titulação
Germany
Germany
France
Italy
Germany
Switzerland
Switzerland
Germany
Germany
Switzerland
Germany
Germany
unknow
Germany
unknow
Germany
Germany
unknow
Germany
unknow
Germany
Germany
Germany
Germany
Switzerland
Germany
Germany
Germany
Germany
Germany
Switzerland
Germany
Germany
Germany
Germany
France
Switzerland
Germany
France
Germany
Germany
Germany
Germany
Germany
Netherlands
Switzerland-Germany
Switzerland
Germany
Switzerland
Germany
Orientados diretos
3
10
3
3
2
6
4
5
2
3
3
63
1
10
1
4
1
1
2
2
2
1
1
1
1
1
2
48
2
6
1
3
1
4
1
2
1
11
2
1
75
1
1
3
2
2
4
55
1
2
78
APÊNDICE B
Tabela B.5: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes
principais com janela de tamanho 20.
Registro
137705
57670
66476
17865
17864
128986
143630
21235
7401
18230
127962
38586
53410
54440
125125
60985
76481
125148
143011
125434
127724
108295
18231
125450
60984
125408
60782
108266
101860
72669
130248
125886
146036
128938
124000
125488
125154
123974
127790
128046
7404
125006
129628
127710
129708
125561
143859
127956
128743
127923
Nome
Jakob Thomasius
Christian Hausen
Abraham Kastner
Simeon Poisson
Joseph Lagrange
Johann Planer
Friedrich Leibniz
Otto Mencke
C. Felix Klein
Johann Pfaff
Michael Walther, Jr.
Leonhard Euler
Johann Bernoulli
Jacob Bernoulli
Emmanuel Stupanus
Gottfried Leibniz
Elias Camerarius, Sr.
Theodor Zwinger
Nicolas Malebranche
Marin Mersenne
Christoph Notnagel
Pierre-Simon Laplace
Carl Gauss
Frans van Schooten, Jr.
Erhard Weigel
Jacobus Golius
Johann Segner
Jean d’Alembert
Franciscus Sylvius
Johann Wichmannshausen
Petrus Ryff
Georg Hamberger
Giovanni Battista Beccaria
Rudolf Camerarius
Rudolf Krause
Georg Wedel
Werner Rolfinck
Georg Metzger
Moritz Steinmetz
Johann Pasch
C. L. Ferdinand Lindemann
Adriaan van den Spieghel
Nikolaus Eglinger
Johann Bode
Johann Bauhin
Christiaan Huygens
Bartholomaus Schwendendorffer
Johann Quenstedt
Johann Macasius
Aegidius Strauch
Ano de titulação
1643
1713
1739
1800
0
1686
1622
1665
1868
1786
1661
1726
1690
1676
1613
1666
1663
1553
1672
1611
1630
0
1799
1635
1650
1612
1726
0
1634
1685
1584
1721
0
1684
1671
1667
1625
1644
1550
1683
1873
1603
1660
0
1649
1647
1656
1643
1638
1651
País de titulação
Germany
Germany
Germany
France
Italy
Germany
Germany
Germany
Germany
Germany
Germany
Switzerland
Switzerland
Switzerland
Switzerland
Germany
Germany
France
unknow
France
Germany
unknow
Germany
Netherlands
Germany
Netherlands
Germany
unknow
Netherlands-Switzerl
Germany
Switzerland
Germany
unknow
Germany
Netherlands
Netherlands-Germany
Germany-Italy
Switzerland-Germany
Germany
Germany
Germany
Belgium-Italy
Switzerland
Germany
Switzerland
Netherlands-France
Germany
Germany
Germany
Germany
Orientados diretos
3
3
10
3
3
2
1
2
63
5
2
6
4
3
4
2
2
3
2
3
2
1
10
5
10
3
4
1
11
1
1
2
1
1
2
2
3
2
2
1
48
3
1
1
1
1
1
1
1
1
CLASSIFICAÇÃO POR JANELAS
79
Tabela B.6: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes
principais com janela de tamanho 25.
Registro
57670
137705
125148
17865
66476
125047
17864
7401
125665
128986
131517
125181
143630
18230
21235
127962
38586
125125
53410
54440
125109
131443
130248
125434
131546
119159
76481
152903
60985
125006
131606
18231
136726
152905
127790
108295
125408
143011
125232
127606
152906
127724
126827
125450
108266
60984
60782
114992
127848
101860
Nome
Christian Hausen
Jakob Thomasius
Theodor Zwinger
Simeon Poisson
Abraham Kastner
Petrus Ramus
Joseph Lagrange
C. Felix Klein
Johannes Sturmius
Johann Planer
Guillaume Bude
Rudolph Snellius
Friedrich Leibniz
Johann Pfaff
Otto Mencke
Michael Walther, Jr.
Leonhard Euler
Emmanuel Stupanus
Johann Bernoulli
Jacob Bernoulli
Hieronymus Fabricius
Georgius Hermonymus
Petrus Ryff
Marin Mersenne
Jacques Toussain
Johannes von Andernach
Elias Camerarius, Sr.
Pietro Pomponazzi
Gottfried Leibniz
Adriaan van den Spieghel
Adrien Turnebe
Carl Gauss
Pietro Roccabonella
Vittore Trincavelli
Moritz Steinmetz
Pierre-Simon Laplace
Jacobus Golius
Nicolas Malebranche
Ludolph van Ceulen
Ambrosius Rhodius
Bassiano Landi
Christoph Notnagel
Georg Joachim Rheticus
Frans van Schooten, Jr.
Jean d’Alembert
Erhard Weigel
Johann Segner
Gilbert Jacchaeus
Jacobus Martini
Franciscus Sylvius
Ano de titulação
1713
1643
1553
1800
1739
1536
0
1868
1527
1686
1486
1572
1622
1786
1665
1661
1726
1613
1690
1676
1559
0
1584
1611
1521
1527
1663
1487
1666
1603
1532
1799
0
0
1550
0
1612
1672
0
1600
1542
1630
1535
1635
0
1650
1726
1601
1596
1634
País de titulação
Germany
Germany
France
France
Germany
France
Italy
Germany
Belgium
Germany
France
Germany
Germany
Germany
Germany
Germany
Switzerland
Switzerland
Switzerland
Switzerland
Italy
unknow
Switzerland
France
France
Belgium
Germany
Italy
Germany
Belgium-Italy
France
Germany
Italy
Italy
Germany
unknow
Netherlands
unknow
unknow
Germany
Italy
Germany
Germany
Netherlands
unknow
Germany
Germany
UnitedKingdom-German
Germany
Netherlands-Switzerl
Orientados diretos
3
3
3
3
10
3
3
63
4
2
2
4
1
5
2
2
6
4
4
3
5
2
1
3
2
4
2
2
2
3
2
10
2
2
2
1
3
2
2
3
1
2
4
5
1
10
4
3
4
11
80
APÊNDICE B
Tabela B.7: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes
principais com janela de tamanho 30.
Registro
57670
137705
17865
66476
125148
7401
17864
131517
125047
131443
125888
127181
125422
119159
128986
125665
125938
126659
131444
126736
131535
125181
18230
143630
131575
21235
38586
127962
125125
53410
54440
125109
152904
131546
130248
125434
128012
76481
18231
60985
127092
108295
127011
125006
131606
127166
152905
119097
125760
126827
Nome
Christian Hausen
Jakob Thomasius
Simeon Poisson
Abraham Kastner
Theodor Zwinger
C. Felix Klein
Joseph Lagrange
Guillaume Bude
Petrus Ramus
Georgius Hermonymus
Jan Standonck
Girolamo Aleandro
Jacobus Sylvius
Johannes von Andernach
Johann Planer
Johannes Sturmius
Desiderius Erasmus
Ulrich Zasius
Johannes Argyropoulos
Erasmus Reinhold
Angelo Poliziano
Rudolph Snellius
Johann Pfaff
Friedrich Leibniz
Georgios Gemistos
Otto Mencke
Leonhard Euler
Michael Walther, Jr.
Emmanuel Stupanus
Johann Bernoulli
Jacob Bernoulli
Hieronymus Fabricius
Giovanni Battista della Monte
Jacques Toussain
Petrus Ryff
Marin Mersenne
Rudolf Agricola
Elias Camerarius, Sr.
Carl Gauss
Gottfried Leibniz
Valentin Thau
Pierre-Simon Laplace
Johannes Hommel
Adriaan van den Spieghel
Adrien Turnebe
Niccolo Leoniceno
Vittore Trincavelli
Gemma Frisius
Johann Reuchlin
Georg Joachim Rheticus
Ano de titulação
1713
1643
1800
1739
1553
1868
0
1486
1536
0
1474
1499
1530
1527
1686
1527
1497
1501
1444
1535
1477
1572
1786
1622
1380
1665
1726
1661
1613
1690
1676
1559
0
1521
1584
1611
1478
1663
1799
1666
1555
0
1543
1603
1532
1446
0
1529
1477
1535
País de titulação
Germany
Germany
France
Germany
France
Germany
Italy
France
France
unknow
France
Italy
France
Belgium
Germany
Belgium
France
Germany
Italy
Germany
Italy
Germany
Germany
Germany
unknow
Germany
Switzerland
Germany
Switzerland
Switzerland
Switzerland
Italy
Italy
France
Switzerland
France
Italy
Germany
Germany
Germany
Germany
unknow
Germany
Belgium-Italy
France
Italy
Italy
Belgium
France-Switzerland
Germany
Orientados diretos
3
3
3
10
3
63
3
2
3
2
4
2
3
4
2
4
2
2
4
7
2
4
5
1
2
2
6
2
4
4
3
5
2
2
1
3
2
2
10
2
2
1
2
3
2
2
2
4
2
4
CLASSIFICAÇÃO POR JANELAS
81
Tabela B.8: Ranking dos 50 matemáticos melhores colocados de acordo com a análise de componentes
principais com janela de tamanho 41.
Registro
57670
17865
137705
66476
125148
7401
17864
131517
131443
125047
131575
131535
125888
128012
127181
126659
125938
131444
125422
119159
128986
125665
126736
18230
125181
143630
21235
38586
127962
53410
125125
54440
125109
152904
131546
130248
125434
76481
18231
108295
60985
127107
127092
127011
125006
131606
126956
127166
152905
119097
Nome
Christian Hausen
Simeon Poisson
Jakob Thomasius
Abraham Kastner
Theodor Zwinger
C. Felix Klein
Joseph Lagrange
Guillaume Bude
Georgius Hermonymus
Petrus Ramus
Georgios Gemistos
Angelo Poliziano
Jan Standonck
Rudolf Agricola
Girolamo Aleandro
Ulrich Zasius
Desiderius Erasmus
Johannes Argyropoulos
Jacobus Sylvius
Johannes von Andernach
Johann Planer
Johannes Sturmius
Erasmus Reinhold
Johann Pfaff
Rudolph Snellius
Friedrich Leibniz
Otto Mencke
Leonhard Euler
Michael Walther, Jr.
Johann Bernoulli
Emmanuel Stupanus
Jacob Bernoulli
Hieronymus Fabricius
Giovanni Battista della Monte
Jacques Toussain
Petrus Ryff
Marin Mersenne
Elias Camerarius, Sr.
Carl Gauss
Pierre-Simon Laplace
Gottfried Leibniz
Johannes Stoffler
Valentin Thau
Johannes Hommel
Adriaan van den Spieghel
Adrien Turnebe
Philipp Melanchthon
Niccolo Leoniceno
Vittore Trincavelli
Gemma Frisius
Ano de titulação
1713
1800
1643
1739
1553
1868
0
1486
0
1536
1380
1477
1474
1478
1499
1501
1497
1444
1530
1527
1686
1527
1535
1786
1572
1622
1665
1726
1661
1690
1613
1676
1559
0
1521
1584
1611
1663
1799
0
1666
1476
1555
1543
1603
1532
1511
1446
0
1529
País de titulação
Germany
France
Germany
Germany
France
Germany
Italy
France
unknow
France
unknow
Italy
France
Italy
Italy
Germany
France
Italy
France
Belgium
Germany
Belgium
Germany
Germany
Germany
Germany
Germany
Switzerland
Germany
Switzerland
Switzerland
Switzerland
Italy
Italy
France
Switzerland
France
Germany
Germany
unknow
Germany
Germany
Germany
Germany
Belgium-Italy
France
Germany
Italy
Italy
Belgium
Orientados diretos
3
3
3
10
3
63
3
2
2
3
2
2
4
2
2
2
2
4
3
4
2
4
7
5
4
1
2
6
2
4
4
3
5
2
2
1
3
2
10
1
2
2
2
2
3
2
3
2
2
4
82
APÊNDICE B
Apêndice C
Publicações realizadas no período do
mestrado
C.1
BRASNAM – III Brazilian Workshop on Social Network Analysis and Mining (2014)
83
Caracterização de árvores de genealogia acadêmica por meio
de métricas em grafos
Luciano Rossi1 , Jesús P. Mena-Chalco1
1
Centro de Matemática, Computação e Cognição – Universidade Federal do ABC
{luciano.rossi,jesus.mena}@ufabc.edu.br
Abstract. Documenting individuals and their relationships using the genealogy
aims to obtain knowledge about the origin, evolution and characteristics of interrelated groups. This approach allows to understand the formation and future
trends of groups. In this context, the characterization of the academic genealogy trees by topological metrics allows to categorize individuals screened by
their academic lineage and enables to obtain important new knowledge for understanding the scientific scenario about an area. In this work, we present nine
adapted and developed topological metrics to characterize academic genealogy
trees. In order to show the feasibility of our characterization method by making
use of topological metrics, we present an experiment focusing on the analysis of
the genealogy of Johann Bernoulli (1667-1748), consisting of 81,768 mathematicians and 88,955 relationships of academic advising.
Resumo. Documentar indivı́duos e seus relacionamentos utilizando a genealogia visa a obtenção de conhecimento sobre a origem, evolução e disseminação
de grupos inter-relacionados. Essa tarefa de documentação auxilia o entendimento da formação e tendências futuras de grupos de pessoas. Nesse contexto,
a caracterização de árvores de genealogia acadêmica, por meio de métricas topológicas, permite categorizar indivı́duos através de sua linhagem acadêmica e
possibilita a obtenção de novos conhecimentos importantes para a compreensão
do cenário cientı́fico de uma área. Neste trabalho apresentamos nove métricas
adaptadas e desenvolvidas para caracterizar árvores de genealogia acadêmica.
A fim de demonstrar a viabilidade do nosso método de caracterização por meio
da utilização de métricas topológicas, apresentamos testes preliminares voltados para a análise da genealogia de Johann Bernoulli (1667-1748), composto
de 81.768 matemáticos e 88.955 relações de orientação acadêmica.
1. Introdução
A genealogia é uma ciência auxiliar da história que estuda a origem, evolução e
disseminação de grupos familiares (Malmgren et al., 2010). O objeto de pesquisa da
genealogia são os ascendentes e descendentes de um indivı́duo. O processo de pesquisa
envolvido na genealogia abrange a identificação de parentesco entre indivı́duos através de
registros históricos como certidões de nascimento, casamento, óbito, registro de propriedades e outros documentos que possam comprovar uma ligação entre indivı́duos. Uma
árvore genealógica é um grafo conexo acı́clico que é comumente utilizado para documentar e facilitar o entendimento a respeitos de estudos de cunho genealógico (Hamberger
et al., 2011). Neste tipo de grafo, cada vértice representa um indivı́duo na árvore e cada
aresta indica a existência de algum tipo de relação entre os vértices. Neste contexto,
uma árvore de genealogia acadêmica é uma estrutura em que cada vértice é um orientador acadêmico e as arestas (direcionadas) representam as relações de orientação. Um
conjunto de árvores pode ser denominado floresta.
A utilização da genealogia (Derrida et al., 1999) como ferramenta para documentar e obter novos conhecimentos sobre grupos inter-relacionados é cada vez mais frequente em contextos acadêmico-cientı́ficos (Malmgren et al., 2010; Chang, 2011; Hart &
Cossuth, 2013; Mena-Chalco & Cesar-Jr., 2013). A estruturação de árvores de genealogia acadêmica, por meio de relações de orientação, pode ser de grande utilidade para o
registro histórico de grupos atuantes em especı́ficas áreas do conhecimento, onde os indivı́duos de interesse (orientadores e orientados) são representados por vértices na árvore
e os seus relacionamentos de orientação (e.g., orientações de doutorado ou supervisão
de pós-doutorado) são representados por arestas. A obtenção da floresta de genealogia
possibilita, também, a caracterização da área do conhecimento em questão por meio de
métricas que permitem, através de análises estatı́sticas, data mining e técnicas de reconhecimento de padrões, extrair conhecimento relevante para a área que é objeto de estudo.
A importância deste tipo de análise se revela por meio da possibilidade de avaliar o
impacto das orientações acadêmicas no desenvolvimento cientı́fico de especı́ficas áreas do
conhecimento e na identificação dos principais atores, ou grupos de maior relevância, que
se destacaram por suas contribuições na proliferação do conhecimento através deste tipo
de relação. A proposta deste trabalho é caracterizar árvores de genealogia por meio do
desenvolvimento, adaptação e aplicação de métricas topológicas que permitam diferenciar
os vértices das árvores, identificar grupos semelhantes e, de forma geral, promover um
maior entendimento sobre este tipo de estrutura.
Este estudo está estruturado em cinco seções, além desta introdução. Na seção 2,
apresentamos estudos que possuem temas correlatos ao aqui descrito. Na seção 3, apresentamos as métricas consideradas para a caracterização das árvores de genealogia. A
estratégia utilizada para a obtenção dos dados e os resultados obtidos neste estudo são
descritos nas seções 4 e 5, respectivamente. Finalmente, na seção 6 apresentamos os
pontos de relevância obtidos com este estudo bem como possı́veis trabalhos futuros.
2. Trabalhos correlatos
A análise de redes sociais é uma abordagem que origina-se em outras áreas do conhecimento (sociologia, psicologia social e antropologia) (Matheus et al., 2006) e apresenta
grande crescimento nos últimos anos devido ao (i) aumento da quantidade de dados disponı́veis para análise, (ii) desenvolvimento das áreas de informática e processamento de
dados e (iii) a ampliação dos assuntos de interesse e áreas do conhecimento que utilizam
este tipo de análise. A utilização destas análises pode ser de grande valor para a obtenção
de conhecimento sobre diversos grupos sociais e envolve quatro componentes principais:
gerenciamento e estruturação de dados, descoberta de conhecimento, aprendizagem de
máquina e técnicas de visualização (Freitas et al., 2008).
A representação de indivı́duos e seus relacionamentos na forma de redes
apresenta-se como forma eficaz para extrair conhecimento em contextos, por vezes, de
difı́cil interpretação. Caracterizar a ciência, como por exemplo a área da Ciência da
Informação, e a contribuição que a análise de redes sociais proporciona para a sua correta
interpretação é ainda um desafio. Nesse contexto, utilizar árvores de genealogia como
ferramenta para o estudo e descoberta de conhecimento sobre um grupo de indivı́duos é
uma estratégia eficiente de ampla aplicação. Um desafio importante, neste projeto, recai
sobre a forma pela qual pode-se extrair conhecimento relevante a respeito de tais estruturas. Um estudo, não muito recente, a respeito das propriedades estatı́sticas das árvores de
genealogia foi conduzido por Derrida et al. (1999) onde se busca, a partir da reconstrução
da genealogia de um indivı́duo pertencente à um pequeno grupo, medir a distribuição de
seus ancestrais que aparecem mais de uma vez na árvore construı́da.
Diferentes estudos foram dedicados à documentação, análise e classificação de
árvores de genealogia acadêmica através de relacionamentos de orientação. O trabalho ‘A
Labor of Love: The Mathematics Genealogy Project’ (Jackson, 2007) descreve o projeto,
idealizado e implementado por Harry Coonce, sobre os relacionamentos de orientação
acadêmica entre os doutores em matemática, e tem como principal objetivo ‘compilar
informações a respeito de todos os matemáticos do mundo’ (uma comunidade cientı́fica
seleta e pequena). O projeto, que em Março de 2014 disponibiliza, via Web, consulta a
mais de 178.000 matemáticos em diversos perı́odos, apresenta resultados históricos muito
significantes no que tange à documentação da área da matemática, porém neste projeto
não foi contemplada uma análise ampla do conjunto de dados. É importante destacar
que o conjunto de dados gerado com o projeto de genealogia matemática (Mathematics
Genealogy Project) é uma base ı́mpar que ainda não foi explorada completamente.
No estudo sobre o papel das relações de orientação acadêmica no desempenho
dos orientados, Malmgren et al. (2010) utilizaram a genealogia dos matemáticos como
base, estruturando-os por meio de suas relações de orientação acadêmica. As análises
apresentadas foram referentes à um subconjunto de 7.259 matemáticos, com graduação
ocorrida entre 1900 e 1960, e suas respectivas contagens de descendentes (fecundidade).
O referido estudo apresenta resultados interessantes, utilizando análises estatı́sticas, para a
compreensão, em escala temporal, do desenvolvimento do grupo pesquisado e correlações
existentes entre fecundidade e outras medidas de desempenho acadêmico.
Por outro lado, a identificação do impacto que uma orientação acadêmica exerce
sobre o orientado, a utilização dos registros do projeto de genealogia matemática e o entendimento de como a comunidade dos matemáticos se desenvolveu, são itens abordados
por Narayan (2011). O conjunto de dados obtido (137.138 matemáticos e seus relacionamentos) foi modelado em diferentes tipos de grafos considerando os relacionamentos, primeiramente, como arestas direcionadas, posteriormente, como arestas não-direcionadas
e os relacionamentos entre irmãos (quando dois ou mais indivı́duos tiveram o mesmo
orientador), de modo à possibilitar a análise dos grafos sob diferentes perspectivas.
A utilização de relacionamentos entre irmãos ou redes de parentesco (kinship
networks) resulta em árvores de genealogia de composição mista. As arestas direcionadas (que indicam relacionamento top-down é utilizada comumente para interligar pais
e filhos). As arestas não-direcionadas (que indicam relacionamento, como por exemplo
casamento, onde não existe uma orientação de origem e destino) são menos frequentes
neste tipo de abordagem. Essa forma de modelar às árvores é descrita no estudo de Hamberger et al. (2011) e demonstra as possibilidades de avaliação com diferentes estruturas.
A importância deste tipo de estudo também pode ser verificada no projeto Neurotree (David & Hayden, 2012). Em concordância com o projeto dos matemáticos, a
área da neurociência (outra comunidade cientı́fica seleta e pequena) também busca a
compreensão da ciência através do estudo de sua genealogia. Uma dificuldade comum
em ambos os projetos é a identificação dos orientadores e suas relações de orientação.
O projeto Neurotree (http://neurotree.org/neurotree) foi pautado na obtenção
das informações da área e, pela primeira vez em projetos deste tipo, na interpretação das
árvores de genealogia acadêmica constituı́das. A utilização de métricas de avaliação de
árvores apresentou resultados interessantes na caracterização da área da Neurociência.
Este projeto conta com, aproximadamente, 40.000 pesquisadores e 60.000 relacionamentos cadastrados. Iniciativas similares são observadas para a comunidade cientı́fica
dos Fı́sicos (http://academictree.org/physics) e, de forma mais ampla, para os
acadêmicos titulados com doutorado (http://phdtree.org). Estes projetos são, inicialmente, pautados na obtenção e documentação de seus membros, não oferecendo análises
destes conjuntos de dados.
Documentar a história e compreender a expansão de grupos com interesses comuns, destacando principalmente as comunidades acadêmicas, passa obrigatoriamente
pela utilização da genealogia e, consequentemente, pela construção de árvores genealógicas. A utilização da genealogia foi o caminho para o estudo de um seleto grupo de
meteorologistas tropicais, apresentado por Hart & Cossuth (2013). Os resultados desse
estudo motivaram, devido às caracterı́sticas de interdisciplinaridade dos indivı́duos pertencentes à árvore, a ampliação da busca por indivı́duos fora dos limites da área.
O desenvolvimento de métodos para caracterizar árvores genealógicas é parte importante do trabalho de gerar conhecimento por meio destas estruturas. Estudos neste sentido, como o de Griffiths (1987), demonstram a viabilidade da caracterização de árvores
de genealogia por meio de métricas especı́ficas. No nosso trabalho, exploramos nove
métricas topológicas adaptadas e desenvolvidas para caracterizar árvores de genealogia
acadêmica.
3. Métricas em grafos para a caracterização de árvores de genealogia
As árvores de genealogia podem ser caracterizadas por meio de métricas de avaliação
de grafos. Estas métricas têm como objetivo caracterizar o indivı́duo, ou seja, atribuir
um valor numérico que possa ser utilizado para qualificar este indivı́duo pela topologia
de sua árvore, de forma a descobrir informações ou padrões que possam auxiliar à uma
compreensão a respeito de sua formação, capacidade de propagação e diferenciação entre
as outras árvores da floresta. As métricas consideradas neste estudo são descritas a seguir.
• Fecundidade1 . O objetivo desta métrica é dimensionar a árvore por meio
do número de vértices que ela apresenta. É uma métrica importante para a
classificação de um vértice raiz com base na quantidade de descendentes que ele
influenciou. A fecundidade (f ) é estimada considerando a somatória do número
P
de vértices existentes em cada nı́vel, mi , da árvore f = m
i=1 (ni ) onde ni é o
número de vértices no nı́vel mi .
• Fecundidade ponderada. Esta métrica tem objetivo similar ao da fecundidade,
sua principal caracterı́stica é a atribuição de um peso maior para os vértices que
estão mais próximos do vértice raiz. Os relacionamentos diretos têm maior peso
1
As métricas fecundidade e fecundidade ponderada foram adaptadas do trabalho de árvores de genealogia dos neurocientistas descrito por David & Hayden (2012).
•
•
•
•
•
•
2
no cálculo do valor da métrica. A fecundidade ponderada (f p) reflete o potencial
de um vértice em se relacionar com outros vértices (orientação acadêmica) e sua
influência na propagação de relacionamentos. Neste trabalho, a f p utiliza como
fator de ponderação
a distância existente entre o vértice raiz e seus descendentes,
Pm n i f p = i=1 i2 , onde ni é o número de vértices no nı́vel i da árvore. Esta métrica
reduz o impacto da quantidade de vértices pertencentes à linhagem de um vértice
raiz a medida que estes se distanciam.
Número de folhas. Definida como a quantidade de vértices não fecundos, ou seja,
aqueles que não têm nenhum filho. O número de folhas (nf ) totaliza a quantidade
de vértices, na árvore, que não orientaram alunos. Comumente, isso acontece
quando um pesquisador não segue a vida acadêmica ou quando estiver no inı́cio da
vida acadêmica. Por outro lado, a quantidade de folhas existente no último nı́vel
da árvore, poderia nos indicar que esta estrutura tem potencial de crescimento,
visto que estas folhas tendem a se propagar. Já a quantidade de folhas observadas
nos nı́veis intermediários indicariam vértices com potencial esterilidade, pois não
procriaram em tempo hábil.
Profundidade2 . O objetivo da métrica profundidade (p) é fornecer o grau de
maturidade da árvore genealógica formada a partir de um vértice raiz. Ela mede
a quantidade de arestas existentes entre o vértice raiz e um vértice mais distante
que possa ser alcançado. A métrica profundidade (p) pode ser definida por: p =
max(d(i, j)), onde d(i, j) corresponde à distância geodésica entre os vértices i e j.
Largura. A métrica largura tem como objetivo medir a quantidade de relacionamentos diretos que um vértice raiz possui. Representa a quantidade de orientados
existente no nı́vel imediatamente posterior ao nı́vel do orientador (vértice raiz)
e reflete a produtividade (em termos de orientação) direta deste. A largura (l) é
uma medida simples usada para classificar um orientador. Trata-se de uma análise
quantitativa importante, porém, pouco diz sobre a qualidade da orientação.
Maior largura3 . A métrica maior largura (ml) tem como objetivo identificar o maior número de relacionamentos em um mesmo nı́vel da árvore genealógica. Este valor demonstra o quão ampla foi a influência de um vértice raiz
na propagação dos relacionamentos em sua árvore.
Distância média4 . A definição de proximidade entre um vértice raiz e todos os
vértices pertencentes à sua ascendência é o objetivo da métrica distância média
(dm). Neste contexto, quanto menor for o valor da dm, maior é a proximidade
existente entre os vértices de uma árvore. A dm é a média dos comprimentos dos
caminhos possı́veis entre um vértice raiz e os vértices pertencentes à sua linhagem,
P
e é definida por n1 i6=j d(i, j), onde d(i, j) é a distância (quantidade de arestas
existentes) entre os vértices i e j, n é a quantidade de caminhos contabilizados.
Média dos menores caminhos. Esta métrica apresenta um objetivo similar ao
da distância média, sua principal diferença está nos caminhos utilizados para o
cálculo. Objetiva-se com esta métrica ponderar o valor obtido. Assim, esta medida
representa a distância média entre os indivı́duos pertencentes à árvore. A média
P
1
dos menores caminhos (mmc) é definida por n(n−1)
i6=j d(i, j), onde d(i, j) é a
As métricas profundidade, largura e número de folhas foram adaptadas da Teoria dos Grafos.
A métrica maior largura foi desenvolvida para este trabalho.
4
As métricas distância média e média dos menores caminhos foram adaptadas da Teoria dos Grafos.
3
distância, quantidade de arestas existentes, entre os vértices i e j, n é a quantidade
de caminhos contabilizados.
• Índice H. O ı́ndice H genealógico (h) de um vértice é definido como o maior
número h de relações que este vértice possui com outros vértices que tenham, pelo
menos, o mesmo número h de relacionamentos cada um5 . O objetivo desta métrica
é considerar a quantidade e a qualidade genealógica (no sentido de perpetuidade)
dos relacionamentos dos vértices da árvore.
Para exemplificar as métricas, apresentamos na Figura 1 uma árvore de genealogia e os
resultados dos cálculos das respectivas métricas para os vértices mais representativos da
árvore.
Vértice
A
B
C
D
E
f
28
27
6
3
15
fp
3,51
6,53
3,61
3,00
5,03
nf
15
15
3
3
9
p
5
4
3
1
3
l
1
3
3
3
3
ml
9
9
3
3
7
dm
3,52
2,64
1,43
0,75
2,13
mmc
0,13
0,10
0,24
0,25
0,14
h
1
3
1
0
2
Figura 1. Exemplo de árvore de genealogia com os respectivos resultados das
métricas calculadas para seus principais vértices.
4. Conjunto de dados utilizados
Utilizamos em nosso estudo o conjunto de indivı́duos pertencentes à linhagem de Johann
Bernoulli, importante matemático de Basel (Basiléia) que, juntamente com Newton e
Leibniz, é considerado um dos fundadores do cálculo. Os dados foram obtidos por meio
de consultas recursivas ao website do projeto de genealogia de Matemáticos (Mathematics Genealogy Project, http://genealogy.math.ndsu.nodak.edu), onde, através
do fornecimento de um identificador numérico exclusivo (ID), temos acesso a uma página
html com informações sobre o matemático em questão. Em cada consulta foram obtidos:
(i) os ID’s referentes aos matemáticos orientados pelo indivı́duo em questão e (ii) seu
nome completo. As consultas recursivas foram realizadas em fevereiro de 2014 e totalizaram 81.768 matemáticos e 88.955 relacionamentos. É importante ressaltar que os
resultados apresentados pelo projeto dos matemáticos é de grande relevância, a motivação
deste trabalho é baseada na assertividade destes resultados e na possibilidade de, por meio
5
O ı́ndice H, proposta por Hirsch (2005), é uma métrica que combina quantidade (número de
publicações) e qualidade (número de citações) da produção acadêmica.
das métricas topológicas, aprofundar as análises e, consequentemente, o conhecimento a
respeito dos indivı́duos envolvidos e da estrutura resultante de seus relacionamentos.
O conjunto de dados foi utilizado para povoar um banco de dados em estrutura
de grafo, por meio da plataforma Neo4j (banco de dados orientado à grafos). A escolha
deste tipo de estrutura se justifica pelo ganho de desempenho que pode ser obtido quando
comparado à outras estruturas relacionais. Cada matemático obtido é representado, no
banco de dados, como um vértice da árvore e para cada relação de orientação acadêmica
existente é adicionado uma aresta (direcionada) ligando o orientador ao orientado.
5. Resultados
A árvore resultante da estruturação dos descendentes de Johann Bernoulli e seus relacionamentos apresenta a profundidade de 20 e a maior largura de 20.242. A fecundidade
e fecundidade ponderada do vértice raiz são 81.767 e 623,63, respectivamente. Apesar dos valores expressivos apresentados, Bernoulli orientou somente quatro matemáticos
(l = 4), destes apenas dois tiveram alunos (h = 2) e 80,69% dos indivı́duos pesquisados
não orientaram alunos (nf = 65.977).
A Figura 2 ilustra a árvore composta pela linhagem de Johann Bernoulli a tı́tulo
de visualizar sua magnitude e estrutura. O vértice existente na parte superior da figura
representa a raiz da árvore (Johann Bernoulli) e sua descendência é apresentada nos 20
nı́veis inferiores. Vértices e arestas com maior contraste indicam uma sobreposição destes
elementos.
Figura 2. Árvore genealógica de Johann Bernoulli.
A proposta de caracterização de árvores de genealogia, por meio das relações de
orientação acadêmica, foi implementada utilizando-se a árvore acima descrita, os resultados observados foram divididos em três tópicos principais: (i) classificar os matemáticos
(ranking) por meio de seus resultados, (ii) identificar grupos (clusters) que compartilhem
caracterı́sticas ou atributos semelhantes, e (iii) análise da distribuição das frequências observadas para intervalos pré-estabelecidos.
5.1. Classificação dos matemáticos
As medidas utilizadas neste estudo representam diferentes aspectos das árvores analisadas. Métricas que utilizam apenas contagens, sem ponderação, para o cálculo de seus
valores são de representatividade exclusivamente quantitativa e importantes para dimensionar a árvore derivada da linhagem de um vértice raiz. Dimensionar uma árvore utilizando
apenas medidas baseadas em contagens, pode produzir classificações inconsistentes, visto
que estamos atribuindo um valor numérico individual para um determinado vértice e, este
valor, não é resultado apenas dos relacionamentos diretos do vértice em questão, mas
também dos relacionamentos de seus descendentes. Para minimizar este tipo de inconsistência na classificação de vértices, medidas como f p e h, que no cálculo de seus resultados apresentam alguma ponderação, atribuem um maior grau de classificação para os
relacionamentos diretos do vértice analisado, refletindo com maior assertividade o desempenho do próprio indivı́duo em questão e, consequentemente, sua qualidade em termos
de orientação acadêmica. Para avaliar a densidade de uma árvore, ou seja, a proximidade
existente entre os vértices que a compõem, utilizamos as medidas dm e mmc.
A Tabela 1 apresenta os dez matemáticos melhores colocados em cada uma da
métricas avaliadas. Em concordância com o objetivo das métricas utilizadas, observamos
uma tendência de um indivı́duo que figura nas primeiras posições de um ranking de medida com base quantitativa (e.g., ranking f - Johann Bernoulli) figurar, também, no topo
de outras medidas de mesma base (e.g., ranking f o - Johann Bernoulli). Por outro lado,
as medidas ponderadas ou normalizadas (e.g., f p) apresentam matemáticos diferentes nas
primeiras posições, sugerindo que o desempenho destes indivı́duos foi mais relevante em
termos de contribuição direta com orientação acadêmica. Como exemplo da importância
do trabalho realizado pelo matemático, consideremos o primeiro colocado no ranking h
igual a 12, Heinz Hopf. Isso indica que este matemático orientou, no mı́nimo, 12 alunos que, por sua vez, orientaram, no mı́nimo, outros 12 alunos cada um. Um desempenho impressionante, não sendo possı́vel encontrar outro igual na linhagem de Bernoulli.
Os resultados ligados à densidade das árvores (e.g., dm), para este conjunto de dados,
apresentou uma alta correlação com a magnitude de sua árvore, ou seja, a densidade é
diretamente proporcional ao tamanho da árvore em questão.
A correta classificação dos matemáticos, identificando os indivı́duos mais relevantes quanto à realização e proliferação da atividade de orientação acadêmica, pode ser
feita analisando as medidas calculadas de maneira individual. Conforme discutido anteriormente, cada grupo de métricas de avaliação reflete uma caracterı́stica importante a
respeito da árvore de genealogia (i.e., quantidade e qualidade das relações e densidade da
árvore), porém, considerando o conjunto das métricas pode-se identificar os indivı́duos
mais prolı́ficos em forma de grupos (clusters) com caracterı́sticas similares.
Tabela 1. Ranking dos matemáticos pertencentes à árvore genealógica de Bernoulli para cada métrica calculada.
Fecundidade
J. Bernoulli
81767
L. Euler
81578
J. Lagrange
78218
S. Poisson
78215
J. B. Fourier
45929
G. Dirichlet
45927
R. Lipschitz
43954
C. F. Klein
43953
C. L. F. Lindemann 32069
M. Chasles
31734
Profundidade
J. Bernoulli
20
L. Euler
19
J. Lagrange
18
S. Poisson
17
J. B. Fourier
17
G. Dirichlet
16
R. Lipschitz
15
M. Chasles
15
J. Hennert
15
C. F. Klein
14
Distância média
J. Bernoulli
11,90
L. Euler
10,91
J. Lagrange
9,95
S. Konig
9,57
J. Hennert
9,54
J. B. Fourier
9,43
S. Poisson
8,95
P. Nieuwland
8,70
C. Damen
8,61
A. Brugmans
8,59
Fecundidade ponderada
C. F. Klein
1326,63
S. Poisson
1099,42
D. Hilbert
1093,95
C. L. F. Lindemann 1082,23
R.Lipschitz
901,72
J. Lagrange
868,36
G. Dirichlet
754,42
L. Euler
751,92
E. H. Moore
710,70
M.Chasles
633,01
Largura
C. C. J. Kuo
120
R. Temam
111
L. Ornstein
95
W. Jager
91
L. Prandtl
88
A. Kolmogorov
82
R. Eden
80
C. Ehresmann
78
B. De Moor
77
E. Krause
76
Média menores caminhos
A. V. Perez
0,5
R. Mazet
0,5
R. Oldenburger
0,5
G. Glaeser
0,5
W. Krolikowski
0,5
A. Chaudoir
0,5
F. Pfeiffer
0,5
U. N. de Alba
0,5
J. L. Chaboche
0,5
A. Vacroux
0,5
Número de folhas
J. Bernoulli
65977
L. Euler
65843
J. Lagrange
63216
S. Poisson
63215
J. B. Fourier
37713
G. Dirichlet
37712
C. F. Klein
36135
R. Lipschitz
36135
C. L. F. Lindemann 26415
M. Chasles
25302
Maior largura
J. Bernoulli
20242
L. Euler
20226
J. Lagrange
19361
S. Poisson
19361
C. F. Klein
11878
R. Lipschitz
11878
G. Dirichlet
11515
J. B. Fourier
11515
C. L. F. Lindemann
9911
M. Chasles
8401
Índice h
H. Hopf
12
E. Schmidt
11
H. Behnke
11
R. Baer
11
C. F. Klein
10
R. L. Moore
10
S. Bochner
10
H. Kneser
10
A. Kolmogorov
10
J. L. Lions
10
5.2. Identificação de grupos similares
A identificação dos matemáticos mais relevantes em cada medida apresentada não permite uma avaliação global, com a utilização das medidas em conjunto. Para realizar essa
classificação as dimensões obtidas, ou seja, as nove métricas, foram reduzidas para apenas duas dimensões por meio da análise de componentes principais (PCA). O método
PCA consiste da utilização de combinações lineares dos dados originais com o objetivo
de reduzir suas dimensões para obter formas representativas destes dados. A PCA é considerada uma ‘transformação linear ótima’ e apresenta-se como uma ferramenta muito
útil para os processos ligados a reconhecimento de padrões.
A Figura 3a apresenta o gráfico com os matemáticos diagramados nas duas dimensões ou componentes principais obtidas. Ambas componentes concentram cerca
de 82% da variância total. Podemos identificar três grupos distintos (A, B e C). O
grupo A reúne somente 4 indivı́duos com destaque evidente, Simeon Poisson, Leonhard
Euler, Johann Bernoulli e Joseph Lagrange nesta ordem. Trata-se de um grupo de
elite, matemáticos com relevância histórica, que apresentam, em suas biografias, diversas
contribuições na evolução da matemática (Chang, 2011).
Figura 3. Análise de componentes principais: (a) conjunto de dados representados nas duas primeiras componentes principais. (b) orientação das variáveis
(métricas) consideradas.
No grupo B, podemos observar a presença de 7 matemáticos importantes (C. Felix
Klein, Rudolf Lipschitz, Gustav Dirichlet, Jean-Baptiste Fourier, C. L. Ferdinand Lindemann, David Hilbert e Michel Chasles) porém com relevância inferior aos anteriores. O
último grupo reúne o restante dos indivı́duos analisados, podendo ainda serem diferenciados entre si.
A Figura 3b apresenta a orientação obtida para as métricas analisadas. As métricas
f , nf e ml são, praticamente, de mesma orientação. Já a métrica f p apresenta uma
orientação diferenciada das anteriores. Medidas com orientações muito semelhantes indicam que a informação fornecida por elas também é semelhante ou até redundante. Há uma
forte correlação, também, nas métricas p e dm que apresentam uma tendência próxima às
métricas l e h, que também se correlacionam bem. Por fim, a mmc mostra-se com uma
orientação oposta às últimas citadas, isso se deve pelas próprias caracterı́sticas da medida.
Aqui é importante notar que, com a utilização do método PCA, é possı́vel diferenciar a
maioria dos vértices da árvore genealógica.
5.3. Distribuição das frequências
Os resultados das métricas calculadas, para a árvore genealógica de Bernoulli, foram
divididos em dez intervalos, onde cada um deles representa 10% do intervalo completo,
e realizado uma contagem para identificar a frequência de valores obtidos para cada um
deles. A Figura 4 apresenta os gráficos dos intervalos e suas respectivas frequências para
as métricas utilizadas.
Para todos os casos, observamos que os valores de métricas que estão entre os 10%
menores resultados, concentram a grande maioria das ocorrências, confirmando, para o
conjunto de dados analisados, o princı́pio de Pareto ou Lei da Potência (Malmgren et al.,
2010). Na Figura 4a, observamos que existem poucos matemáticos com valores de f compreendidos na faixa de 90% do intervalo considerado. Este tipo de representação é devido
à estrutura que as árvores apresentam (a propagação dos vértices) à medida que descemos
&ĞĐƵŶĚŝĚĂĚĞƉŽŶĚĞƌĂĚĂ
ϲϮ͕ϳ
ϰϵ͕ϱ
ϰϮ͕ϵ
ϯϲ͕ϯ
Ϯϵ͕ϳ
ϱϲ͕ϭ
ϭϳ͕Ϯ
ϭϵ͕Ϯ
ϭϬ͕Ϯ
ϭϭ͕ϰ
ϭϱ͕Ϯ
ϭϯ͕Ϯ
ϭϭ͕ϭ
ϵ͕ϭ
1ŶĚŝĐĞŚ
ϵ͕Ϭ
ϳ͕ϴ
ϲ͕ϲ
ϱ͕ϰ
ϰ͕Ϯ
ϯ͕Ϭ
ϭ͕ϴ
ϭϬϬ͘ϬϬϬ
ϭϬ͘ϬϬϬ
ϭ͘ϬϬϬ
ϭϬϬ
ϭϬ
ϭ
Ϭ͕ϲ
Ϭ͕ϰϴ
Ϭ͕ϰϯ
&ƌĞƋƵġŶĐŝĂ
DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ
Ϭ͕ϯϴ
Ϭ͕ϯϯ
Ϭ͕Ϯϴ
Ϭ͕Ϯϯ
Ϭ͕ϭϴ
Ϭ͕ϭϯ
Ϭ͕Ϭϴ
Ϭ͕Ϭϯ
&ƌĞƋƵġŶĐŝĂ
ϭϭ͕ϯ
ϭϬ͕ϭ
ϴ͕ϵ
ϳ͕ϳ
ϲ͕ϱ
ϱ͕ϰ
;ĨͿ
ϭϬϬ͘ϬϬϬ
ϭϬ͘ϬϬϬ
ϭ͘ϬϬϬ
ϭϬϬ
ϭϬ
ϭ
;ŚͿ
ϳ͕ϭ
ϱ͕ϭ
ϯ͕Ϭ
ϭ͕Ϭ
ϭϭϰ͕Ϭ
DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ;ĞŵŵŝůŚĂƌĞƐͿ
DĠĚŝĂŵĞŶŽƌĞƐĐĂŵŝŶŚŽƐ
DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ
Ϯϯ͕ϭ
ϵ͕ϵ
ϯ͕ϯ
ϭϲ͕ϱ
&ƌĞƋƵġŶĐŝĂ
ϭϮ͕ϲ
ϵ͕ϵ
ϴ͕ϲ
ϳ͕ϯ
ϲ͕Ϭ
ϭϭ͕ϯ
ϭϬϮ͕Ϭ
ϵϬ͕Ϭ
ϳϴ͕Ϭ
ϲϲ͕Ϭ
DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ
ŝƐƚąŶĐŝĂŵĠĚŝĂ
ϰ͕Ϯ
ϭϬϬ͘ϬϬϬ
ϭϬ͘ϬϬϬ
ϭ͘ϬϬϬ
ϭϬϬ
ϭϬ
ϭ
;ĞͿ
ϭϬϬ͘ϬϬϬ
ϭϬ͘ϬϬϬ
ϭ͘ϬϬϬ
ϭϬϬ
ϭϬ
ϭ
ϯ͕Ϭ
ϱϰ͕Ϭ
&ƌĞƋƵġŶĐŝĂ
DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ
ϰϮ͕Ϭ
ϯϬ͕Ϭ
ϲ͕Ϭ
ϭϴ͕Ϭ
&ƌĞƋƵġŶĐŝĂ
ϭϵ͕Ϭ
ϭϳ͕Ϭ
ϭϱ͕Ϭ
ϭϯ͕Ϭ
ϭϭ͕Ϭ
ϵ͕Ϭ
ϳ͕Ϭ
ϱ͕Ϭ
ϯ͕Ϭ
ϭ͕Ϭ
DĂŝŽƌůĂƌŐƵƌĂ
ϭϬϬ͘ϬϬϬ
ϭϬ͘ϬϬϬ
ϭ͘ϬϬϬ
ϭϬϬ
ϭϬ
ϭ
;ĚͿ
ϭ͕ϴ
;ĐͿ
>ĂƌŐƵƌĂ
ϭϬϬ͘ϬϬϬ
ϭϬ͘ϬϬϬ
ϭ͘ϬϬϬ
ϭϬϬ
ϭϬ
ϭ
Ϭ͕ϲ
DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ;ĞŵŵŝůŚĂƌĞƐͿ
;ďͿ
WƌŽĨƵŶĚŝĚĂĚĞ
&ƌĞƋƵġŶĐŝĂ
ϭϬϬ͘ϬϬϬ
ϭϬ͘ϬϬϬ
ϭ͘ϬϬϬ
ϭϬϬ
ϭϬ
ϭ
DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ;ĞŵĐĞŶƚĞŶĂƐͿ
;ĂͿ
&ƌĞƋƵġŶĐŝĂ
ϰ͕ϲ
ϯ͕ϯ
Ϭ͕ϳ
Ϯ͕Ϭ
&ƌĞƋƵġŶĐŝĂ
DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ;ĞŵŵŝůŚĂƌĞƐͿ
;ŐͿ
YƵĂŶƚŝĚĂĚĞĚĞĨŽůŚĂƐ
ϭϬϬ͘ϬϬϬ
ϭϬ͘ϬϬϬ
ϭ͘ϬϬϬ
ϭϬϬ
ϭϬ
ϭ
ϳϳ͕ϳ
ϲϵ͕ϱ
ϲϭ͕ϯ
ϱϯ͕ϭ
ϰϱ͕Ϭ
ϯϲ͕ϴ
Ϯϴ͕ϲ
ϮϬ͕ϰ
ϰ͕ϭ
ϭϮ͕ϯ
&ƌĞƋƵġŶĐŝĂ
&ĞĐƵŶĚŝĚĂĚĞ
ϭϬϬ͘ϬϬϬ
ϭϬ͘ϬϬϬ
ϭ͘ϬϬϬ
ϭϬϬ
ϭϬ
ϭ
DĠĚŝĂĚŽŝŶƚĞƌǀĂůŽ
;ŝͿ
Figura 4. Distribuição das frequências observadas para cada intervalo de valores
das métricas. O eixo das frequências é apresentado em escala logarı́tmica.
aos nı́veis inferiores da árvore, identificamos um crescimento geométrico, resultando em
uma quantidade de vértices maior nos nı́veis inferiores e pequenas quantidades no topo da
árvore. Podemos verificar que esta mesma configuração é repetida nos gráficos apresentados nas Figuras 4c e 4f, estas métricas são, predominantemente, resultado de contagens
sem a aplicação de nenhum método de normalização ou ponderação. Quando utilizamos
métricas que são ponderadas, as distribuições mantém as caracterı́sticas das estruturas
das árvores, porém, com uma maior uniformidade na distribuição das frequências dos intervalos. As métricas que apresentam essa uniformidade são representadas nos gráficos
das Figuras 4b, 4d, 4e, 4g e 4i. Finalmente, a métrica mmc, Figura 4h, apresenta um
padrão mais linear, quando comparado às métricas anteriores, com exceção feita aos 10%
menores valores que apresentam conformidade com as demais métricas.
6. Conclusões
A caracterização de redes sociais, especificamente redes estruturadas em forma de árvores
genealógicas, é uma importante forma de se obter conhecimento a respeito destas estruturas. Neste contexto, neste trabalho foi apresentada uma proposta de caracterização de
árvores de genealogia considerando métricas de avaliação de grafos. A classificação dos
indivı́duos e a identificação de grupos com caracterı́sticas comuns foram consideradas e
podem contribuir para a compreensão de grupos inter-relacionados, sejam estas relações
de orientação acadêmica ou outro tipo de relacionamento.
Foi considerada a árvore de genealogia de J. Bernoulli como estudo de caso. Embora a linhagem de Bernoulli seja um conjunto de dados médio e não considerarmos
atributos dos indivı́duos (e.g., paı́s de origem) nem de seus relacionamentos (e.g., ano
da formação), os resultados aqui apresentados são relevantes e difı́ceis de serem obtidos
apenas com a utilização de abordagens convencionais. Estes resultados correspondem a
informações que até agora não foram tratadas por outras pesquisas.
O projeto e aplicação de novas métricas, a consideração de atributos para os
vértices e as arestas e o aprofundamento das análises sobre as estruturas obtidas podem
enriquecer as análises e a descoberta de conhecimento. Nosso trabalho considera como
direcionamentos futuros (i) aplicação do método em conjuntos de dados heterogéneos e
de grande magnitude (e.g., CVs extraı́dos da Plataforma Lattes), (ii) utilização de diferentes atributos associados aos vértices e arestas, e (iii) identificação de subgrafos mais
representativos nas árvores de genealogia (e.g., motifs (Milo et al., 2002)).
Agradecimentos
Os autores agradecem à Fundação UFABC e à CAPES pelo apoio financeiro concedido
para a realização deste trabalho. Os autores agradecem também aos pareceristas anônimos
pelas sugestões e comentários que contribuı́ram com o trabalho.
Referências Bibliográficas
S. C HANG (2011). Academic Genealogy of Mathematicians. World Scientific.
S. V. DAVID & B. Y. H AYDEN (2012). Neurotree: A Collaborative, Graphical Database
of the Academic Genealogy of Neuroscience. PloS one 7(10), e46 608.
B. D ERRIDA, S. C. M ANRUBIA & D. H. Z ANETTE (1999). Statistical Properties of
Genealogical Trees. Physicca Review Letters. 82, 1987–1990.
C. M. D. S. F REITAS, L. P. N EDEL, R. G ALANTE, L. C. L AMB, A. S. S PRITZER,
S. F UJII, J. P. M. DE O LIVEIRA, R. M. A RAUJO & M. M. M ORO (2008). Extração
de conhecimento e análise visual de redes sociais. SEMISH-SBC 106–120.
R. C. G RIFFITHS (1987). Counting genealogical trees. Journal of mathematical biology
25(4), 423–431.
K. H AMBERGER, M. H OUSEMAN & R.W. D OUGLAS (2011). Kinship network analysis.
The Sage Handbook of Social Network Analysis 533–549.
R.E. H ART & J.H. C OSSUTH (2013). A Family Tree of Tropical Meteorology’s Academic Community and its Proposed Expansion. Bulletin of the American Meteorological
Society 94(12).
J. H IRSCH (2005). An index to quantify an individual’s scientific research output. Proceedings of the National academy of Sciences of the United States of America 102(46),
16 569–16 572.
A. JACKSON (2007). A labor of love: the mathematics genealogy project. Notices of the
AMS 54(8), 1002–1003.
R.D. M ALMGREN, J.M. OTTINO & L.A.N. A MARAL (2010). The role of mentorship
in protégé performance. Nature 465(7298), 622–626.
R. F. M ATHEUS, F. S. PARREIRAS & T. A. S. PARREIRAS (2006). Análise de redes
sociais como metodologia de apoio para a discussão da interdisciplinaridade na ciência
da informação. Ciência da Informação 35(1), 72–93.
J.P. M ENA -C HALCO & R.M. C ESAR -J R . (2013). Bibliometria e Cientometria: reflexões
teóricas e interfaces, chapter Prospecção de dados acadêmicos de currı́culos Lattes
através de scriptLattes, 109–128. São Carlos: Pedro & João Editores.
R. M ILO, S. S HEN -O RR, S. I TZKOVITZ, N. K ASHTAN, D. C HKLOVSKII & U. A LON
(2002). Network motifs: simple building blocks of complex networks. Science
298(5594), 824–827.
P. NARAYAN (2011). Mathematics Genealogy Networks. Master’s thesis, University of
Oxford, United Kingdom.
96
C.2
APÊNDICE C
SPGABC – Simpósio de Pesquisa do Grande ABC (2014)
Aos ombros de gigantes: um estudo de genealogia acadêmica
dos matemáticos no Brasil
L. Rossi & J. P. Mena-Chalco
UFABC, Centro de Matemática, Computação e Cognição
e-mail: {luciano.rossi, jesus.mena}@ufabc.edu.br
Palavras-chave: árvores de genealogia, orientação acadêmica, genealogia dos matemáticos, teoria dos grafos.
1. Introdução
A busca da humanidade por suas origens é tema
recorrente nos estudos contemporâneos de cunho
genealógico. A genealogia é uma ciência auxiliar da
história que estuda a origem, evolução e disseminação
de grupos interconectados por algum tipo de relacionamento. Neste contexto, a genealogia acadêmica busca, por meio do estudo de acadêmicos e seus relacionamentos de orientação, a documentação e a caracterização de comunidades acadêmico-científicas [2]. A comunidade acadêmica dos doutores em matemática,
titulados no Brasil, é objeto de estudo neste trabalho.
Por meio da estruturação deste seleto grupo em árvores
de genealogia foram analisadas questões referentes ao
seu processo de formação, relevância e influência.
2. Objetivos
O objetivo deste estudo de caso é caracterizar a comunidade acadêmica dos doutores em matemática titulados no Brasil, em particular:
• Identificação das escolas/países mais influentes
na formação da comunidade de matemáticos no
Brasil;
• Verificação da representatividade deste grupo
em relação à comunidade internacional;
• Classificação, através de métricas em grafos,
dos matemáticos com base em seus relacionamentos de orientação;
• Identificação das instituições acadêmicas brasileiras mais representativas.
É importante destacar que este trabalho possibilita a
documentação (registro histórico perene atualmente desconhecido) e um maior entendimento sobre a formação
da comunidade dos matemáticos.
3. Material e método
A base de dados utilizada neste estudo consiste dos
registros disponíveis no “Mathematics Genealogy
Project – (MGP)”. O MGP tem por objetivo manter
registros de todos os doutores em matemática do mundo
através de uma plataforma WEB. Por meio de processos
computacionais, foram obtidos, em Abril de 2014, mais
de 178.000 matemáticos e 187.000 relacionamentos de
orientação acadêmica entre eles.
Para este trabalho foi utilizado um subconjunto composto de todos os matemáticos com titulação em instituições brasileiras (1.615 matemáticos). A estruturação
deste subgrupo de interesse foi realizada por meio de
seus relacionamentos de orientação acadêmica, resultando em uma floresta (conjunto de árvores) de genealogia.
Parte das análises estatísticas foram conduzidas
considerando atributos disponíveis no MGP (i.e. país e
ano de titulação) com o objetivo de descrever os dados
obtidos. Para a classificação dos matemáticos foi utilizado seu respectivo número de descendentes (fecundidade), ou seja, todos os vértices possíveis de serem
alcançados a partir do vértice analisado (raiz).
4. Resultados
O grupo dos doutores em matemática, titulados no
Brasil, corresponde a 0,90% da comunidade internacional (registrada na plataforma MGP) e, em valores
absolutos, ocupa a 12ª posição em número de matemáticos titulados. A Tabela I apresenta as dez instituições
com maior número de doutores formados .
Pos
Instituição
Cont
%
1º
Univ. de São Paulo
428
26,50
2º
Inst. Matemática Pura e Aplicada
303
18,76
3º
Univ. Estadual de Campinas
292
18,08
4º
Univ. Fed. do Rio de Janeiro
140
8,67
5º
Pont. Univ. Católica do Rio Janeiro
95
5,88
6º
Univ. Fed. de Pernambuco
67
4,15
7º
Univ. de Brasília
65
4,02
8º
Univ. Fed. do Rio Grande do Sul
45
2,79
9º
Univ. Fed. de São Carlos
26
1,61
10º Univ. Fed. do Ceará
23
1,42
Tabela I. Instituições com maior formação de matemáticos no
Brasil. O percentual refere-se ao total de 1.615 matemáticos.
A floresta de genealogia matemática brasileira
representa uma comunidade jovem, quando comparada
às escolas tradicionais como a francesa e a alemã, que
influenciaram a formação de toda a comunidade internacional e suas origens datam do século XIV. Além
destas escolas, o Brasil apresenta, também, influência
em sua formação das escolas britânica, belga e
polonesa, conforme ilustrado na Fig. 1.
A escola brasileira, ainda que jovem e com aparente
não influência no cenário internacional, apresenta uma
importante evolução em número de matemáticos
titulados.
Outro caso interessante é o de Paulo Ribenboim, formado na USP, representado na Fig. 3 pelo ponto colorido
no canto inferior esquerdo da floresta. Trata-se de um
matemático que não recebeu nem exerceu orientação
acadêmica com indivíduos titulados no Brasil. Sua
linhagem é formada por 48 descendentes canadenses.
Fig. 1. Influência das principais escolas matemáticas na
composição da comunidade internacional.
Os anos 2000 apresentaram um taxa de crescimentos
de 118% comparando com a década anterior, cujo
crescimento foi por volta de 159%, em referência aos
anos 1980. Os dados obtidos para os anos 2010 mostram
que foram titulados 286 matemáticos até o presente
momento, considerando que trata-se de um período
ainda incompleto (falta de registro), há uma tendência
de manutenção do crescimento observado. A Fig. 2
apresenta as curvas de evolução (anual e acumulada) do
número de matemáticos titulados no Brasil.
Pos
Matemático
Form.
Atual
1º
Marcelo Viana
IMPA
IMPA
2º
Paulo Ribenboim
USP
Queen's Univ.
3º
Gilberto Loibel
USP
USP
4º
Luis Medeiros
IMPA
UFRJ
5º
Edison Farah
USP
USP
6º
Manuel M. Miranda
UFRJ
UFRJ
7º
José Martinez
UFRJ
UNICAMP
8º
Luiz Favaro
USP
USP
9º
Newton Da Costa
UFP
USP
10º Maria Ruas
USP
USP
Tabela II. Matemáticos mais relevantes e suas respectivas instituições, segundo a topologia de suas árvores de genealogia.
Fig. 2. Número de registros observados entre 1950 até 2014.
Fig. 3. Floresta de genealogia dos matemáticos do Brasil.
A diferenciação dos matemáticos analisados, neste
estudo de caso, foi realizada por meio da obtenção do
número total de alunos, em todos os níveis, que o
indivíduo possui (linhagem). As orientações consideradas não são limitadas somente ao grupo em questão,
mas representam os relacionamentos dos matemáticos
brasileiros com toda a comunidade internacional, consequentemente a classificação (ranking baseado apenas
na fecundidade [1]), apresentada na Tabela II, considera
o desempenho dos matemáticos de forma global, i.e.,
considerando a comunidade mundial dos matemáticos.
A Universidade de São Paulo (USP) e o Instituto de
Matemática Pura e Aplicada (IMPA) são as instituições
com maior destaque, tanto em números absolutos de
titulados quanto em matemáticos com importante
desempenho em orientação acadêmica. Um destaque
brasileiro em orientação acadêmica é o matemático
Marcelo Viana do IMPA, que orientou 30 alunos no período de 1995 a 2014, e sua linhagem total (descendência) é de 49 matemáticos (dados de Abril de 2014).
5. Conclusões
A importância da orientação acadêmica para a
ampliação de comunidades científicas é inegável e
contribui diretamente no crescimento dos indivíduos e
seus respectivos grupos. Neste trabalho descrevemos a
comunidade de matemáticos que se formaram em
instituições brasileiras. Esta informação é um insumo
muito importante para a documentação da história e a
análise da trajetória da formação, relevância e influência
de uma seleta área acadêmica do Brasil constituída aos
ombros de gigantes.
Referências
[1] L. Rossi & J. P. Mena-Chalco (2014). Caracterização
de árvores de genealogia acadêmica por meio de
métricas em grafos. BraSNAM, 1–12. Brasília, DF.
[2] R.D.Malmgren, J.M.Ottino & L.A.N.Amaral (2010).
The role of mentorship in protégé performance. Nature
465(7298), 622–626.
BRASNAM – IV BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING (2015)
C.3
99
BRASNAM – IV Brazilian Workshop on Social Network Analysis and Mining (2015)
Índice-h genealógico expandido:
Uma medida de impacto em grafos de orientação acadêmica
Luciano Rossi1 , Jesús P. Mena-Chalco1
1
Centro de Matemática, Computação e Cognição – Universidade Federal do ABC
{luciano.rossi,jesus.mena}@ufabc.edu.br
Abstract. Academic Genealogy is defined as the study of intellectual legacy
perpetrated through the relationship between advisor and advisee. The set of
these relationships over several generations is commonly represented by a social structure as a graph. In this paper, we present the definition of a new topological metric, called “extended genealogical h-index”, which can be used
to evaluate the impact of an academic through their genealogical relationships.
This metric is based on the h-index and expand its concept to measure the impact
of an academic over different genealogical generations. For exemplification of
our proposed concept, we present a case study considering a genealogy graph
composed by more than 178,000 mathematicians registered in the Mathematics
Genealogy Project.
Resumo. A genealogia acadêmica é definida como o estudo da herança intelectual perpetrada por meio do relacionamento entre orientador e orientado.
O conjunto deste tipo de relacionamentos, ao longo de várias gerações, é comumente abstraı́da por uma estrutura social que é representada por um grafo.
Neste trabalho, apresentamos a definição de uma nova métrica, denominada
“ı́ndice-h genealógico expandido”, que pode ser usada para avaliar o impacto
de um acadêmico por meio de seus relacionamentos de orientação e tendo sua
abrangência limitada somente pela topologia do grafo. Esta métrica baseia-se
no ı́ndice-h bibliométrico e expande seu conceito para mensurar o impacto de
um acadêmico ao longo de diferentes gerações. Para exemplificação da nova
métrica, apresentamos um estudo de caso considerando um grafo de genealogia
composto por mais de 178 mil doutores em matemática registrados no Mathematics Genealogy Project.
1. Introdução
A genealogia acadêmica é definida como um estudo quantitativo da herança intelectual
perpetrada por meio de relacionamentos de orientação entre estudantes e seus orientadores
ao longo de diferentes gerações (Sugimoto, 2014). Os relacionamentos de orientação
acadêmica promovem a propagação de conhecimento cientı́fico por meio da interação
entre orientador, com diferentes desempenhos em orientação, e seus orientados, que são
influenciados pelas caracterı́sticas de seus orientadores (Malmgren et al., 2010). Neste
contexto, a genealogia acadêmica fornece meios para mensurar e analisar estas interações
de forma quantitativa.
Diferentes estudos foram publicados sobre genealogia acadêmica com o objetivo
de caracterizar áreas do conhecimento especı́ficas, como a Neurociência (David & Hayden, 2012), a Quı́mica Orgânica (Andraos, 2005), a Matemática (Chang, 2011; Malmgren et al., 2010), a Fisiologia (Bennett & Lowe, 2005; Jackson, 2011), a Metereologia
(Hart & Cossuth, 2013), entre outros. Há ainda, iniciativas para a captação e estruturação
de dados genealógicos utilizando plataformas Web. O Mathematics Genealogy Project (http://genealogy.math.ndsu.nodak.edu) e o projeto Neurotree (http:
//neurotree.org/neurotree) são pautados na obtenção de dados genealógicos das
respectivas áreas e na interpretação das estruturas genealógicas obtidas, a comunidade
cientı́fica dos Fı́sicos (http://academictree.org/physics) e, de forma mais especı́fica, para os acadêmicos titulados com doutorado (http://phdtree.org). Estes
projetos são, inicialmente, orientados para a obtenção e documentação de seus membros,
não oferecendo análises dos conjuntos de dados. Porém, estes registros contribuem para
a documentação histórica das comunidades acadêmicas e resulta em campo fértil para estudos futuros relacionados à influência ou impacto que tiveram acadêmicos desde o ponto
de vista da formação de recursos humanos.
Segundo Sugimoto (2014), os estudos de genealogia acadêmica são principalmente utilizados no ambiente acadêmico por pesquisadores interessados em traçarem suas
próprias raı́zes. Entretanto, estes estudos são pouco explorados por aqueles que estudam
a ciência a partir de perspectivas históricas, filosóficas, sociológicas e cientı́ficas. A real
importância da genealogia acadêmica deve-se ao fato de oferecer insumos quantitativos
e qualitativos para mensurar as interações, em diferentes dimensões, dos orientadores e
seus orientados/supervisados. Adicionalmente, este tipo de estudos permite analisar a
ciência desde um ponto de vista de transferência de conhecimento cientı́fico entre diferentes gerações, assim como, seu impacto ou influência desta transferência.
Como apresentado no trabalho de Rossi & Mena-Chalco (2014), as estruturas de
genealogia acadêmica podem ser analisadas por meio de métricas topológicas, que representam diferentes atributos destas estruturas e fornecem informações relevantes a respeito da formação da comunidade acadêmica bem como a identificação dos principais indivı́duos que contribuı́ram para o desenvolvimento da área por meio dos relacionamentos
de orientação. Dentre as diversas métricas utilizadas para a caracterização de estruturas
de genealogia, o ı́ndice-h genealógico é uma medida com forte intuição semântica que
fornece informações sobre a abrangência dos relacionamentos de orientação.
Este trabalho apresenta uma nova métrica topológica denominada ı́ndice-h genealógico expandido, que pode ser considerado para identificar o impacto ou influência
de acadêmicos em suas respectivas comunidades, considerando a amplitude de seus relacionamentos de orientação (número de orientados diretos) e expandindo a abrangência
(ordem) da métrica a todas as gerações possı́veis de serem identificadas (i.e., produtividade dos descendentes em termos de orientação). No nosso entendimento, esta abordagem é original e formaliza a adaptação do ı́ndice-h, originalmente concebida na área de
Bibliometria para avaliação de citações bibliográficas, para analisar relações de orientação
acadêmica. Esta medida abre uma nova perspectiva para estudar, de forma quantitativa, o
grau de impacto ou influência de acadêmicos priorizando a formação de recursos humanos ao invés de considerar somente sua relevância na produção de ciência em termos de
artigos acadêmicos ou participação em grandes projetos de pesquisa.
2. Grafos de genealogia acadêmica
A utilização de representações gráficas para estruturar os indivı́duos que têm algum tipo
de conexão facilita o estudo genealógico. A estrutura geralmente utilizada é denominada
árvore de genealogia1 . Neste trabalho é utilizado o termo grafo de genealogia acadêmica
para nomear as estruturas de genealogia, sendo categorizado como grafo dirigido acı́clico
conexo.
~ é um par (V, E), onde V é um conjunto finito
Formalmente, um grafo dirigido G
de vértices e E, as arestas, é uma relação binária ordenada em V . Para este trabalho,
os acadêmicos e seus relacionamentos de orientação são estruturados na forma de grafo
de genealogia acadêmica. Os vértices (V ) representam os indivı́duos (acadêmicos) e as
arestas direcionadas (E) representam seus relacionamentos de supervisão ou orientação.
Neste trabalho, dado um acadêmico deseja-se analisar toda sua descendência. Assim, um conceito que naturalmente aparece é o do caminho existente entre o acadêmico
e toda sua descendência. Formalmente, um caminho de comprimento k (C (k) ) de um
~ é uma sequência
vértice origem u a um vértice destino u0 em um grafo dirigido G
0
(v0 , v1 , v2 , . . . , vk ) de vértices tais que u = v0 , u = vk e (vi−1 , vi ) para i = 1, 2, 3, . . . , k.
Em um grafo dirigido, um caminho (v0 , v1 , v2 , . . . , vk ) forma um ciclo se v0 = vk e o
caminho contém no mı́nimo uma aresta. Um grafo que não possui ciclos é acı́clico. Adi~ é conexo se existe, no mı́nimo, um caminho ligando
cionalmente, um grafo dirigido G
todos os vértices deste grafo.
3. Índice-h genealógico expandido
Na área de Bibliometria/Cientometria, o ı́ndice-h é uma medida de desempenho proposta por Hirsch (2005) que classifica pesquisadores em função do número de suas
publicações e citações correspondentes. Apesar de existirem diferentes questionamentos
quanto a eficiência do ı́ndice-h (Yong, 2014), esta medida é amplamente utilizada no meio
acadêmico devido à sua caracterı́stica de combinar quantidade (número de publicações) e
qualidade relativa (número de citações) da produção acadêmica. Intuitivamente, o ı́ndiceh é definido como o maior número h de publicações que possuem, no mı́nimo, o mesmo
número h de citações cada uma.
A adaptação do ı́ndice-h, com o objetivo de caracterizar grafos de genealogia
acadêmica foi inicialmente desenvolvido por Rossi & Mena-Chalco (2014), entretanto
não foi formalizada sua definição. Este ı́ndice-h genealógioco permite o estudo de
acadêmicos orientadores em função do seu desempenho em formação de recursos humanos.
No contexto dos grafos de genealogia acadêmica, a descendência de um vértice é
comumente chamada de território do vértice e é definida por:
T (v) = {u ∈ V : ∃(v, u) − caminho em G}.
(1)
~ e um vértice de interesse v ∈ V , a
Por outro lado, dado um grafo de genealogia G
~ pode ser definida por:
descendência direta do vértice v em G
D(v) = {u ∈ V : (v, u) ∈ E},
(2)
l(v) = |D(v)|.
(3)
e a largura, l(v), é dada por:
1
A rigor, as estruturas construı́das a partir de dados de genealogia acadêmica não podem ser categorizadas como árvores, pois pode existir mais de um caminho entre dois vértices no grafo.
Figura 1. Grafos de genealogia que representam suas diferentes topologias em
função do ı́ndice-h genealógico.
Esta medida representa o número de vértices adjacentes (vizinhos) a um vértice de interesse2 .
O ı́ndice-h genealógico, de ordem 1, de um vértice é definido como o maior
número h de conexões existentes entre ele e seus vértices adjacentes (orientados diretos) que possuem, pelo menos, o mesmo número h de conexões cada um, ou seja, dado
~ um vértice de interesse v ∈ V é k-fértil se l(v) ≥ k. Assim, a
um grafo de genealogia G,
descendência direta k-fértil de um vértice u ∈ V é o conjunto:
D(k) (u) = {v ∈ D(u) : l(v) ≥ k},
(4)
l(k) (u) = |D(k) (u)|.
(5)
e a largura k-fértil de u é:
Neste contexto, o ı́ndice-h genealógico, de ordem 1, de um vértice u é definido por:
h(u) = max{k ∈ N : l(u), l(k) (u) ≥ k}.
(6)
Contextualizando o valor do ı́ndice-h genealógico para a caracterização de grafos
~ para o qual
de genealogia acadêmica, pode-se dizer que um vértice de interesse v ∈ G
observa-se h(v) = x, com x = (1, 2, 3, . . . , n), os grafos de genealogia, obtidos a partir
do vértice v, possuem, no mı́nimo, um sub-grafo unário completo (para x = 1), um subgrafo binário completo (para x = 2), um sub-grafo ternário completo (para x = 3) e assim
sucessivamente, todos com 2 nı́veis de profundidade, conforme representado nas Figuras
1(a), 1(b) e 1(c), respectivamente.
Intuitivamente, o ı́ndice-h genealógico define uma progressão geométrica de razão
q = h(v) com 3 termos, onde o primeiro termo representa o vértice de interesse, os
demais indicam o número de vértices encontrados em cada nı́vel. O ı́ndice-h genealógico
~
captura o impacto que um vértice de interesse v exerce sobre o grafo de genealogia G
com abrangência de até dois
P2 nı́veis. iDessa forma, o total de vértices pertencentes ao subgrafo n-ário completo é i=0 [h(v)] , onde d é um fator de expansão da métrica e indica
o número de nı́veis (d + 1) considerados.
Claramente, o valor obtido para h(v) representa uma cota inferior, visto que existe,
no mı́nimo, um sub-grafo n-ário completo e não existe um sub-grafo (n+1)-ário completo
para abrangência até o segundo nı́vel do grafo, considerando o território de v.
2
A largura é uma medida usada para classificar um vértice com base em sua capacidade de conexão.
É importante notar que, a co-orientação é uma atividade comum no contexto
acadêmico (um aluno pode ser orientado por mais do que um acadêmico). Assim, para os
casos onde se observa um vértice com grau de entrada3 maior que 1, segundo a métrica
apresentada, este vértice será considerado (contabilizado) para todos os adjacentes no
nı́vel anterior.
O ı́ndice-h genealógico apresenta-se como uma medida interessante para a
identificação do impacto de um orientador sobre a comunidade acadêmica, em termos
de relacionamentos de orientação, porém há uma limitação na ordem desta métrica, ficando a análise restrita aos dois primeiros nı́veis do seu território no grafo de genealogia
acadêmica.
Para aumentar a abrangência na análise, se faz necessário recalcular a medida
substituindo o parâmetro de entrada largura pelos valores de ı́ndice-h obtidos. Trata-se
de um processamento recursivo. Para um vértice v suponha h(v) = 2, conforme discutido anteriormente, o grafo proveniente de v possui, no mı́nimo, um sub-grafo binário
completo de dois nı́veis. Caso pelo menos dois dos vértices adjacentes a v apresentem o
mesmo valor (i.e., h = 2) podemos concluir que existe, no mı́nimo, um sub-grafo binário
completo com três nı́veis de profundidade a partir do vértice v.
~
Dado um grafo de genealogia G(V,
E) e um vértice de interesse v ∈ V , o conjunto
A dos ı́ndices-h dos vértices u adjacentes a v com h(u) ≥ k é:
A(k) (v) = {h(u) : (v, u) ∈ E, h(u) ≥ k}.
(7)
Com essa definição, o número de vértices adjacentes a v com ı́ndice-h maior ou igual a k
é |A(k) (v)|.
O ı́ndice-h genealógico pode ser definido de forma recursiva para considerar mais
do que dois nı́veis, i.e., para analisar o impacto de um acadêmico, considerando diferentes
ordens:
h(d) (v) = max{k ∈ N : h(d−1) (v), |A(k) (v)| ≥ k}.
(8)
onde d é a ordem a ser considerada na análise, para d ≥ 1. No caso d = 0, considerase h(0) = l, i.e. o número de descendentes diretos. Note que a definição do ı́ndice-h
genealógico apresentada na Equação 6 corresponde a ordem 1 (i.e., h(1) ).
O ı́ndice-h genealógico expandido pode ser utilizado para análises de impacto
com ordem limitada somente pela topologia do grafo de genealogia, ou seja, é possı́vel se
aprofundar no cálculo da métrica até o último nı́vel do grafo.
Para ilustrar a proposta, na Figura 2 apresentamos três resultados do cálculo do
ı́ndice-h expandido para um mesmo grafo de genealogia de profundidade igual a quatro.
O cálculo da métrica foi realizado considerando o limite topológico do grafo.
No primeiro grafo, os vértices estão rotulados com os respectivos ı́ndices-h de
ordem 1. O vértice da raiz do grafo (vértice de interesse) apresenta h(1) = 4, conforme
discutido anteriormente o território deste vértice contém no mı́nimo um sub-grafo quaternário completo com 2 nı́veis de abrangência a partir do vértice de interesse (destacado
na figura). No contexto deste trabalho, um grafo quaternário completo é aquele em que
3
O grau de entrada é o número de arestas que incidem no vértice de interesse.
Índice h(1)
Índice h(2)
Índice h(3)
Figura 2. Exemplos de grafos de genealogia com seus vértices rotulados com
os ı́ndices-h: h(1) , h(2) e h(3) . Os sub-grafos n-ários completos, identificados as
ordens 1, 2 e 3, são destacadas na cor vermelha.
seus vértices possuem grau de saı́da4 igual a 4, exceto os vértices pertencentes ao último
nı́vel considerado.
O segundo grafo tem seus vértices rotulados com o ı́ndice-h de ordem 2 e, para
o vértice de interesse, seu valor é h(2) = 2. Isto significa que no território a partir do vértice de interesse, existe, pelo menos, um sub-grafo binário completo com 3
nı́veis de abrangência. É importante notar que pode-se encontrar outro exemplo de subgrafo binário completo válido no grafo em questão, porém não existe um outro sub-grafo
ternário para este caso. Isto se deve ao fato de que h(d) é uma cota de limite inferior.
Para o terceiro grafo disponı́vel na Figura 2, os ı́ndices-h apresentados nos vértices
referem-se a ordem 3, que para o vértice de interesse tem valor h(3) = 2, o que sugere, no
mı́nimo, um sub-grafo binário completo com 4 nı́veis de abrangência contido no grafo
em questão. É importante frisar que, a recursão pode ser aplicada até que o último nı́vel
do grafo seja igual a d + 1.
Algoritmo para o cálculo do ı́ndice-h genealógico expandido
Como apresentado na Equação 8, o ı́ndice-h de ordem d pode ser implementado com uma
abordagem recursiva. O pseudocódigo apresentado a seguir foi projetado para calcular
do ı́ndice-h genealógico expandido (IHE). O procedimento IHE recebe como entrada três
~
parâmetros: o grafo de genealogia G(V,
E), um vértice de interesse (v) e a ordem (d).
4
O grau de saı́da é o número de arestas que incidem do (saem) vértice de interesse.
~ v, d)
IHE(G,
1
2
3
4
5
for i ← 0 to d
~ v, i)
IH(G,
~
for each u ∈ G.adj[v]
~ u, i)
IHE(G,
return v.hd
~ v, i)
IH(G,
1
2
3
4
5
6
7
8
9
10
11
if i = 0
~
v.hi ← |G.adj[v]|
~
for each u ∈ G.adj[v]
~
u.hi ← |G.adj[u]|
c←0
while v.hi > 0 and v.hi > c
~
for each u ∈ G.adj[v]
if v.hi 6 u.hi
c←c+1
v.hi ← v.hi − 1
v.hi+1 ← v.hi
No procedimento IHE, o laço da linha 1 é executado d vezes. Para cada execução
o vértice de interesse v é considerado como parâmetro de entrada para o procedimento
~ e a ordem i que será calculada (linha 2). O procedimento
IH, juntamente com o grafo G
é repetido recursivamente para cada vértice adjacente de v.
No procedimento IH verifica-se se o cálculo é referente a h(0) (linha 1) e, caso
verdadeiro, é utilizado como elemento de comparação a largura do vértice de interesse e
de seus adjacentes (linhas 2 – 4).
Um laço (linha 6), em IH, será executado enquanto o valor do atributo em questão
do vértice de interesse for maior que zero e maior que a contagem dos seus vértices
adjacentes O laço aninhado (linha 7) é utilizado para comparar os atributos do vértice
de interesse com todos os seus adjacentes, contabilizando o número de adjacentes que
possuem seus atributos maior ou igual ao valor do atributo dos adjacentes (linhas 8 – 9).
Caso o atributo do vértice de interesse seja menor ou igual ao total da contagem, o valor
deste atributo é assumido para h(i+1) (linha 11). Caso contrário, o atributo é decrementado
em uma unidade.
4. Conjunto de dados utilizado
A aplicabilidade do ı́ndice-h genealógico expandido foi testada utilizando-se o conjunto dos doutores em matemática e seus relacionamentos de orientação acadêmica. Estes dados são livremente disponibilizados pelo projeto de genealogia dos matemáticos
(Mathematic Genealogy Project – MGP, disponı́vel em: http://genealogy.math.
ndsu.nodak.edu/).
O MGP foi idealizado por Harry Coonce, um professor na North Dakota State
University, no inı́cio da década de 1990 (Jackson, 2007). O projeto tem como objetivo compilar informações sobre todos os matemáticos do mundo, por meio do registro
histórico, via Web, dos indı́viduos que obtiveram o tı́tulo de doutor em matemática (ou
tı́tulo semelhante) e seus respectivos alunos/doutores com formação concluı́da.
O site do MGP é apresentado como ferramenta para a captação e documentação
de novos registros genealógicos deste seleto grupo de acadêmicos. As informações que
são possı́veis de se obter, através do site do projeto, são listadas a seguir:
O nome completo do matemático;
A instituição e o paı́s onde foi obtida a titulação;
O ano no qual o grau foi obtido;
O tı́tulo da tese;
O número de classificação da área de atuação (Mathematics Subject Classification5 );
• Seu(s) orientador(es) e orientado(s);
• A quantidade total de descendentes.
•
•
•
•
•
Os registros do MGP são identificados por meio de um número exclusivo (id) para
cada matemático. Os dados, que são objeto de estudo neste trabalho, foram obtidos por
meio de consultas recursivas ao site do MGP (web crawling).
Em Abril de 2014 foram obtidos 178.698 registros de matemáticos e identificados
187.199 relacionamentos de orientação acadêmica. Estes indivı́duos estão distribuı́dos em
185 paı́ses ou combinação destes (isso ocorre devido à declaração de dois paı́ses como
local de titulação) e 2.671 instituições ou combinações destas.
O grafo de genealogia, resultante da representação dos matemáticos como vértices
e seus relacionamentos de orientação acadêmica como arestas direcionadas, possui 10.048
componentes conexas. A maior componente conexa contém aproximadamente 88,72%
dos vértices totais (158.548 vértices), por outro lado, a segunda componente conexa, em
relação ao número de vértices, apresenta apenas 0,08% dos vértices totais (141 vértices).
As últimas 7.542 componentes conexas referem-se a vértices isolados, ou seja, não possuem ascendentes ou descendentes. Ao todo, em média cada vértice do grafo possue
2,094 vizinhos.
5. Estudo de caso
O ı́ndice-h genealógico expandido foi aplicado ao conjunto de dados extraı́do do MGP.
A classificação dos vértices do conjunto de dados foi realizada considerando as duas
dimensões do h(d) . A primeira dimensão é o resultado da métrica que apresenta h(d) = n,
para n = (0, 1, 2, 3, . . . ). Esta dimensão representa a amplitude do grafo n-ário completo,
ou seja, o número de descendentes diretos para cada vértice do grafo, exceto os vértices
do último nı́vel.
A segunda dimensão considerada representa a ordem d, indicando os d + 1 nı́veis
ou gerações a partir do vértice de interesse. O calculo do ı́ndice-h foi realizado até a
ordem 10 (11 nı́veis), este limite foi escolhido pois, a partir da ordem 6 (d = 6) observase apenas grafos unários completos (caminhos), ou seja, o máximo resultado obtido para
d > 6 é h(d) = 1. Vale ressaltar que, o maior caminho existente neste conjunto de dados
é de 41.
5
Classificador alfanumérico formulado pela American Mathematical Society utilizado para categorizar
temas da matemática, disponı́vel em: http://www.ams.org/msc/msc2010.html
x
0
1
2
3
4
5
6
7
8
9
10
11
12
Tabela 1. Índices-h obtidos para o conjunto de dados dos matemáticos do MGP.
Cada célula contém os resultados considerando h(d) = x, para x = 0, . . . , 12,
e ordens d = 1, . . . , 10. As células em cinza correspondem à existência de
acadêmicos com estas caracterı́sticas no conjunto de dados.
h(1)
h(2)
h(3)
h(4)
h(5)
h(6)
h(7)
h(8)
h(9)
h(10)
162.647 171.072 174.519 176.157 176.991 177.454 177.727 177.896 178.023 178.111
1
1
1
1
1
1
1
1
1
1
11.371
6.676
3.987
2.506
1.700
1.244
971
802
675
587
3
4
5
6
7
8
9
10
11
12
2.753
767
176
35
7
7
15
31
63
127
255
511
1.023
2.047
4.095
1.013
149
16
13
40
121
364
1.093
3.280
9.841 29.524
88.573 265.720
463
28
21
85
341
1.365
5.461 21.845 87.381 349.525 1, 4×106 5, 6×106
238
5
31
156
781
3.906 19.531 97.656 488.281 2, 4×106 1, 2×107 6, 1×107
94
1
43
259
1.555
9.331 55.987 335.923 2, 0×106 1, 2×107 7, 3×107 4, 4×108
45
57
400
2.801 19.608 137.257 960.800 6, 7×106 4, 7×107 3, 3×108 2, 3×109
31
73
585
4.681 37.449 299.593 2, 4×106 1, 9×107 1, 5×108 1, 2×109 9, 8×109
26
91
820
7.381 66.430 597.871 5, 4×106 4, 8×107 4, 4×108 3, 9×109 3, 5×1010
11
111
1.111 11.111 111.111 1, 1×106 1, 1×107 1, 1×108 1, 1×109 1, 1×1010 1, 1×1011
5
133
1.464 16.105 177.156 1, 9×106 2, 1×107 2, 4×108 2, 6×109 2, 9×1010 3, 1×1011
1
157
1.885 22.621 271.453 3, 2×106 3, 9×107 4, 7×108 5, 6×109 6, 8×1010 8, 1×1011
Na Tabela 1 é apresentada a classificação dos grafos de genealogia dos matemáticos em função de h(d) . As linhas estão associadas aos valores do h(d) . Já as colunas estão associadas à ordem d. Para cada célula, linha x, coluna d, é apresentado,
na parte superior, o número total de acadêmicos com h(d) = x. Já na parte inferior da
célula é apresentado, o número total de descendentes que um acadêmico teria se h(d) = x.
Por exemplo, h(5) = 2 indica um grafo binário completo com 6 nı́veis de profundidade,
este tipo de sub-árvore contém 127 vértices e existem, no conjunto de dados do MGP, 7
acadêmicos com estas caracterı́sticas.
A identificação dos acadêmicos mais representativos em função de sua capacidade de propagação pode ser feita buscando-se os maiores ordens d e, simultâneamente,
os maiores valores de x. Para este conjunto de dados, um sub-grafo de genealogia representativo é originado a partir do vértice que representa o matemático alemão Heinz Hopf
(seus valores são destacados em negrito na tabela), que tem h(2) = 6 e é o único sub-grafo
com estas dimensões, sendo que há 259 vértices neste sub-grafo hexanário completo.
Na Figura 3 ilustra-se o sub-grafo de genealogia, originado a partir de Heinz Hopf,
identificado pelo maior ı́ndice-h genealógico expandido para a ordem 2. Pode-se verificar
que existem seis descendentes diretos de Hopf onde cada um deles possuem, também, seis
Figura 3. Grafo de genealogia de Heinz Hopf, identificado pelo ı́ndice-h genealógico expandido com 3 gerações de abrangência (ordem 2) e h(2) = 6. Para
cada matemático destacado é apresentado seu nome, o ano de titulação, o paı́s
de origem e seu respectivo vetor de ı́ndices-h para as 10 primeiras gerações.
descendentes com o mesmo grau de produtividade em termos de orientação acadêmica.
Trata-se de indivı́duos com desempenho similar em orientação acadêmica, considerando
a descendência direta de cada um.
A relevância da atividade de orientação acadêmica de Heinz Hopf pode ser verificada por meio do seu vetor de ı́ndices-h para outras ordens h(d) = [12, 6, 3, 2, 1, 1, 1],
para d variando de 1 a 7. É importante notar que a comparação entre diferentes indivı́duos
é efetiva somente quando se utiliza a mesma ordem d para comparação ou o vetor completo aplicando algum método de classificação estatı́stica. Apesar de Hopf ser o único
matemático com h(1) = 12 e h(2) = 6 existem 16 indivı́duos com h(3) = 3. Para h(4) = 2
são 35 no total.
A fim de estudarmos o grupo dos matemáticos sob a perspectiva do ı́ndice-h e
do número de gerações posteriores ao matemático em questão (profundidade – maior
caminho existente entre o vértice de interesse e outro sem descendente), na Figura 4(a),
apresentamos as distribuições correspondentes ı́ndice-h de ordem 1. Para os resultados de
h(1) variando de 1 a 12, observa-se que as medianas tendem a ser uniformes, indicando
que o número de gerações posteriores para a maior parte dos matemáticos que apresentam
valores de h(1) no intervalo especificado é em torno de 29. A dispersão nas distribuições
diminui à medida que os resultados de h(1) aumentam.
Um grupo de matemáticos com especial desempenho pode ser encontrado por
meio da identificação dos outlier’s. Considerando que o número de gerações posteriores
indica o quão remoto é o matemático, pode-se utilizar este parâmetro como complemento
para identificação de desempenho. Analisando, por exemplo, a distribuição do número
de gerações posteriores dos matemáticos com h(1) = 10 identifica-se um único indivı́duo
40
100
●
80
●
●
40
●
●
1
2
●
●
●
●
●
●
●
●
●
●
●
●
3
4
5
●
●
●
20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1
2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
3
4
●
●
●
●
●
●
●
●
●
●
●
●
●
0
0
10
●
●
●
●
●
●
●
●
●
●
●
●
●
●
60
grau de saída
●
20
profundidade
30
●
●
●
●
●
6
7
8
9
10
11
12
5
6
7
h−index(1)
h−index(1)
(a)
(b)
8
9
10
11
12
Figura 4. Distribuição dos ı́ndices-h sob a perspectiva: (a) da profundidade dos
vértices (número de gerações posteriores), (b) do grau de saı́da dos vértices
(número de orientados diretos).
(outlier) com este resultado apresentando somente 7 gerações posteriores, enquanto seus
pares apresentam de 24 a 31 gerações, sendo potencialmente indivı́duos mais antigos.
Por outro lado, na Figura 4(b) apresentamos as distribuições dos valores de grau
de entrada para os matemáticos com o mesmo resultado de h(1) . Existe um comportamento crescente, do grau de entrada, para os valores de 1 a 7. Este comportamento não
é observado para valores maiores a 8. É importante destacar que, um comportamento
semelhante é obtido para os ı́ndices-h com maiores ordens, i.e., para d = 2, 3, 4, 5, 6.
6. Conclusões e direcionamentos futuros
A genealogia acadêmica apresenta-se como uma importante opção à análise de
publicações e citações, que atualmente é responsável por tudo que se sabe sobre o surgimento e desenvolvimento das disciplinas, a difusão do conhecimento e a evolução da
ciência. O ı́ndice-h genealógico expandido, apresentado neste trabalho, utiliza o número
de orientações para classificar um indivı́duo e possibilita uma expansão do número de
nı́veis (gerações) considerados. O desenvolvimento de métricas topológicas, como o
ı́ndice-h genealógico expandido, e sua aplicação em grafos de genealogia acadêmica pode
ser considerado como um meio efetivo de se mensurar e analisar a influência de orientadores acadêmicos em suas respectivas comunidades ao longo de diferentes gerações.
A estruturação de conjuntos de dados genealógicos mais heterogêneos, como os
currı́culos disponı́veis na Plataforma Lattes (Mena-Chalco et al., 2014), em grafos de genealogia e a utilização de métricas topológicas para sua caracterização, pode resultar em
importantes informações a respeito da formação, expansão e abrangência da comunidade
acadêmico-cientı́fica do Brasil. Além de possibilitar analises sobre a interdisciplinaridade
entre acadêmicos em grafos de genealogia. Neste contexto, como trabalhos futuros pretendemos analisar os registros curriculares do banco de dados da plataforma Lattes e fazer
seu mapeamento com o intuito de estudar a interdisciplinaridade na formação de recursos
humanos (Rafols & Meyer, 2010).
Finalmente, é importante frisar que, este trabalho está alinhado com a epistemologia da análise de grande volume de dados (Big Data), sob a forma de ciência orientada
a dados, e a questões referentes a possibilidade de descoberta, ou avaliação, de teorias
cientı́ficas universais, ferramentas instrumentistas, ou inferências indutivas como relatado
por Frické (2014).
Agradecimentos
Os autores agradecem ao CNPq e à CAPES pelo apoio financeiro concedido para a
realização deste trabalho.
Referências Bibliográficas
J. A NDRAOS (2005). Scientific genealogies of physical and mechanistic organic chemists. Canadian journal of chemistry 83(9), 1400–1414.
A. F. B ENNETT & C. L OWE (2005). The academic genealogy of George A. Bartholomew. Integrative and comparative biology 45(2), 231–233.
S. C HANG (2011). Academic Genealogy of Mathematicians. World Scientific.
S. V. DAVID & B. Y. H AYDEN (2012). Neurotree: A Collaborative, Graphical Database of the Academic Genealogy of Neuroscience. PloS one 7(10), e46 608.
M. F RICK É (2014). Big data and its epistemology. Journal of the Association for
Information Science and Technology .
R. E. H ART & J. H. C OSSUTH (2013). A Family Tree of Tropical Meteorology’s
Academic Community and its Proposed Expansion. Bulletin of the American Meteorological Society 94(12), 1837–1848.
J. H IRSCH (2005). An index to quantify an individual’s scientific research output.
Proceedings of the National academy of Sciences of the United States of America
102(46), 16 569–16 572.
A. JACKSON (2007). A labor of love: the mathematics genealogy project. Notices of
the AMS 54(8), 1002–1003.
D. C. JACKSON (2011). Academic genealogy and direct calorimetry: a personal
account. Advances in physiology education 35(2), 120–127.
R.D. M ALMGREN, J.M. OTTINO & L.A.N. A MARAL (2010). The role of mentorship
in protégé performance. Nature 465(7298), 622–626.
J. P. M ENA -C HALCO, L. A. D IGIAMPIETRI, F. M. L OPES & R. M. C ESAR -J R . (2014).
Brazilian bibliometric coauthorship networks. Journal of the Association for Information Science and Technology 65(7), 1424–1445.
I. R AFOLS & M. M EYER (2010). Diversity and network coherence as indicators of
interdisciplinarity: case studies in bionanoscience. Scientometrics 82(2), 263–287.
L. ROSSI & J. P. M ENA -C HALCO (2014). Caracterização de árvores de genealogia acadêmica por meio de métricas em grafos. In Brazilian Workshop on Social
Network Analysis and Mining (BraSNAM), 1–12. Brası́lia, DF, Brazil.
C. R. S UGIMOTO (2014). Academic Genealogy. In Beyond bibliometrics: Harnessing
multidimensional indicators of scholarly impact, B. C RONIN & C. R. S UGIMOTO,
editors, 365–382. MIT Press, 1st edition.
A. YONG (2014). Critique of Hirsch’s Citation Index: A Combinatorial Fermi Problem. Notices of the American Mathematical Society 61(9), 1040–1050.
112
APÊNDICE C
C.4
CMAC – Congresso de Matemática Aplicada e Computacional
(2015)
Proceeding Series of the Brazilian Society of Computational and Applied
Mathematics
O grafo de genealogia dos matemáticos:
coleta de dados e principais caracterı́sticas
Luciano Rossi, Jesús Pascual Mena-Chalco1
Centro de Matemática, Computação e Cognição, UFABC, Santo André, SP
Resumo. O estudo da genealogia acadêmica dos matemáticos apresenta-se como uma
importante ferramenta para a obtenção de informações sobre a origem, o desenvolvimento
e a identificação dos principais atores nesta seleta comunidade cientı́fico-acadêmica. Este
trabalho apresenta as principais caracterı́sticas do conjunto de dados obtidos no Mathematics
Genealogy Project estruturados em forma de grafo de genealogia.
Palavras-chave. Genealogia acadêmica, grafo de genealogia, genealogia dos matemáticos.
1
Introdução
Este resumo apresenta uma descrição dos dados disponı́veis no Mathematic Genealogy
Project – MGP 2 , o objetivo do projeto é obter informações sobre todos os matemáticos do
mundo, por meio do registro histórico, via Web, dos indı́viduos que obtiveram o tı́tulo de
doutor em matemática e seus respectivos alunos/doutores com formação concluı́da [1]. Em
Abril de 2014 foram obtidos 178.698 matemáticos e 187.199 relacionamentos de orientação
acadêmica, estes indivı́duos estão distribuı́dos em 185 paı́ses e 2.671 instituições3 . O
primeiro registro data de 1363, na França, e segue até os dias atuais, conforme ilustrado
na Figura 1, onde é apresentada a evolução do número de Doutores em Matemática nos
respectivos anos de obtenção do tı́tulo e em função de seus respectivos paı́ses de titulação.
Figura 1: Distribuição dos matemáticos ao longo dos anos e nos principais paı́ses.
2
Formação da comunidade cientı́fica dos matemáticos
Os dados do MGP foram estruturados em forma de grafo de genealogia acadêmica,
onde os vértices e arestas direcionadas representam os matemáticos e seus relacionamentos de orientação, respectivamente, de forma a possibilitar o estudo da formação desta
1
{luciano.rossi, jesus.mena}@ufabc.edu.br
Disponı́vel em: http://genealogy.math.ndsu.nodak.edu/
3
Veja os dados completos em: https://sites.google.com/site/lucianorossihomepage/
2
2
comunidade [2]. A identificação dos vértices origem (matemáticos primordiais) e seus respectivos paı́ses de titulação, permite a análise da influência que estes paı́ses exerceram
na formação desta comunidade. Na Figura 2 apresenta-se os 5 paı́ses com maior número
de matemáticos titulados em suas instituições. As linhas vermelha e azul representam
a influência do paı́s na formação da comunidade cientı́fica e a influência da comunidade
cientı́fica na formação deste mesmo paı́s, respectivamente. A representação considera somente os 20 paı́ses ordenados em função do número de matemáticos que possuem. Os EUA
são o maior paı́s em número de matemáticos, concentrando 45,53% do total e a França é
o mais influente, onde 69,02% dos matemáticos possuem, no mı́nimo, um ancestral deste
paı́s. O Brasil apresenta uma situação semelhante à dos EUA. Em número de titulações
ocorridas em instituições brasileiras o Brasil é o 12o colocado não apresentando influência
representativa em nenhum outro paı́s [3].
Figura 2: Análise de influência para os 5 paı́ses mais representativos.
3
Topologia do grafo
O grafo de genealogia dos matemáticos possue 10.048 componentes conexas. A maior
componente conexa interliga 88,72% dos vértices totais, sendo que a segunda componente
conexa reúne somente 0,08%. Há 7.542 componentes que possuem um único vértice isolado
e a vizinhança média dos vértices do grafo é de 2,094, onde a moda dos graus de entrada
e saı́da são 1 e 0, respectivamente. O tamanho do maior caminho no grafo de genealogia
é 41 com moda igual 20.
Agradecimentos
Os autores agradecem ao CNPq e à CAPES pelo apoio financeiro concedido para a
realização deste trabalho.
Referências
[1] R.D. Malmgren, J.M. Ottino & L.A.N. Amaral (2010). The role of mentorship in
protégé performance. Nature 465(7298), 622–626.
[2] L. Rossi & J. P. Mena-Chalco (2014a). Caracterização de árvores de genealogia
acadêmica por meio de métricas em grafos. In Brazilian Workshop on Social Network
Analysis and Mining (BraSNAM), 1–12. Brası́lia, DF, Brazil.
[3] L Rossi & JP Mena-Chalco (2014b). Aos ombros de gigantes: um estudo de genealogia acadêmica dos matemáticos no Brasil. In Simpósio de Pesquisa do Grande ABC
(SPGABC), 1–2. São Bernardo do Campo, SP, Brazil.
Referências Bibliográficas
J. Andraos (2005). Scientific genealogies of physical and mechanistic organic chemists.
Canadian journal of chemistry 83(9), 1400–1414. 2, 59
Ziv Bar-Yossef & Li-Tal Mashiach (2008). Local approximation of pagerank and reverse pagerank. In Proceedings of the 17th ACM conference on Information and knowledge
management, 279–288. ACM. 16, 27
A. F. Bennett & C. Lowe (2005). The academic genealogy of George A. Bartholomew.
Integrative and comparative biology 45(2), 231–233. 2, 59
J. A. Bondy & U. S. R. Murty (1976). Graph theory with applications, volume 290. Macmillan London. 27
S. Chang (2011). Academic Genealogy of Mathematicians. World Scientific. 2, 34, 59
J. Cohen (1992). Statistical power analysis. Current directions in psychological science 1(3),
98–101. 44
S. V. David & B. Y. Hayden (2012). Neurotree: A Collaborative, Graphical Database of
the Academic Genealogy of Neuroscience. PloS one 7(10), e46 608. 2, 27, 43, 59
L. A. Digiampietri, J. P. Mena-Chalco, P. O. S. Vaz de Melo, A. P. R. Malheiro,
D. N. O. Meira, L. F. Franco & L. B. Oliveira (2014). BraX-Ray: An X-Ray of the
Brazilian Computer Science Graduate Programs. PLoS ONE 9(4), e94 541. 60
Chris HQ Ding, Xiaofeng He, Hongyuan Zha, Ming Gu & Horst D Simon (2001). A
min-max cut algorithm for graph partitioning and data clustering. In Data Mining,
2001. ICDM 2001, Proceedings IEEE International Conference on, 107–114. IEEE. 17
C. M. D. S. Freitas, L. P. Nedel, R. Galante, L. C. Lamb, A. S. Spritzer, S. Fujii,
J. P. M. de Oliveira, R. M. Araujo & M. M. Moro (2008). Extração de conhecimento
e análise visual de redes sociais. SEMISH-SBC 106–120. 57
R. C. Griffiths (1987). Counting genealogical trees. Journal of mathematical biology 25(4),
423–431. 60
115
116
REFERÊNCIAS BIBLIOGRÁFICAS
K. Hamberger, M. Houseman & R.W. Douglas (2011). Kinship network analysis. The
Sage Handbook of Social Network Analysis 533–549. 60
R. E. Hart & J. H. Cossuth (2013). A Family Tree of Tropical Meteorology’s Academic
Community and its Proposed Expansion. Bulletin of the American Meteorological Society
94(12), 1837–1848. 2, 59, 60
A. J. G. Hey, S. Tansley, K. M. Tolle et al. (2009). The fourth paradigm: data-intensive
scientific discovery . 1, 6
J. Hirsch (2005). An index to quantify an individual’s scientific research output. Proceedings of the National academy of Sciences of the United States of America 102(46), 16 569–16 572.
14, 27
R. Hoffmann (1999). Componentes principais e análise fatorial. Série didática (90). 49
A. Jackson (2007). A labor of love: the mathematics genealogy project. Notices of the
AMS 54(8), 1002–1003. 29, 58
D. C. Jackson (2011). Academic genealogy and direct calorimetry: a personal account.
Advances in physiology education 35(2), 120–127. 2, 59
J. E. Jackson (2005). A user’s guide to principal components, volume 587. John Wiley &
Sons. 49
R.D. Malmgren, J.M. Ottino & L.A.N. Amaral (2010). The role of mentorship in protégé
performance. Nature 465(7298), 622–626. 2, 18, 58
K. Marton, K. Nagy & A. Suciu (2013). Collaborative genealogy tree in the cloud. In
Roedunet International Conference (RoEduNet), 2013 11th, 1–5. IEEE. 6
R. F. Matheus, F. S. Parreiras & T. A. S. Parreiras (2006). Análise de redes sociais
como metodologia de apoio para a discussão da interdisciplinaridade na ciência da
informação. Ciência da Informação 35(1), 72–93. 57
J. P. Mena-Chalco, L. A. Digiampietri, F. M. Lopes & R. M. Cesar-Jr. (2014). Brazilian
bibliometric co-authorship networks. Journal of the Association for Information Science and
Technology 65(7), 1424–1445. 60
F. Fava de Moraes (2000). Universidade, inovação e impacto socioeconômico. São Paulo
em Perspectiva 14(3), 8–11. 1
S. A. Myers, P. J. Mucha & M. A. Porter (2011). Mathematical genealogy and department prestige. Chaos-Woodbury 21(4), 041 104. 59
REFERÊNCIAS BIBLIOGRÁFICAS
117
P. Narayan (2011). Mathematics Genealogy Networks. Master’s thesis, University of Oxford,
United Kingdom. 32, 58
J. M. M. Neto & G. C. Moita (1998). Uma introdução à análise exploratória de dados
multivariados. Química Nova 21(4), 467–469. 18, 49
M. E. J. Newman (2002). Assortative mixing in networks. Physical review letters 89(20),
208 701. 32
L Page, S Brin, R Motwani & T Winograd (1999). The PageRank Citation Ranking:
Bringing Order to the Web. Technical Report 1999-66, Stanford InfoLab. URL http://ilpubs.
stanford.edu:8090/422/. 21, 27
E. Perez-Cervantes, J. P. Mena-Chalco, M. C. F. de Oliveira & R. M. Cesar-Jr. (2013).
Using Link Prediction to Estimate the Collaborative Influence of Researchers. In
IEEE 9th International Conference on e-Science 2013, 1–8. Beijing, China. 61
L. V. R. Pinheiro & J. M. M. Loureiro (1995). Traçados e limites da ciência da informação. Ciência da informação 24(1). 1
I. Robinson, J. Webber & E. Eifrem (2013). Graph Databases. O’Reilly Media. ISBN
9781449356248. 8
L. Rossi & J. P. Mena-Chalco (2014a). Caracterização de árvores de genealogia acadêmica por meio de métricas em grafos. In Brazilian Workshop on Social Network Analysis
and Mining (BraSNAM), 1–12. Brasília, DF, Brazil. 18, 46, 59
L Rossi & JP Mena-Chalco (2014b). Aos ombros de gigantes: um estudo de genealogia
acadêmica dos matemáticos no Brasil. In Simpósio de Pesquisa do Grande ABC (SPGABC),
1–2. São Bernardo do Campo, SP, Brazil. 8
C. R. Sugimoto (2014). Academic Genealogy. In Beyond bibliometrics: Harnessing multidimensional indicators of scholarly impact, B. Cronin & C. R. Sugimoto, editors, 365–382. MIT
Press, 1st edition. 2, 57
J. Tang, J. Zhang, L. Yao, J. Li, L. Zhang & Z. Su (2008). Arnetminer: extraction and
mining of academic social networks. In Proceedings of the 14th ACM SIGKDD international
conference on Knowledge discovery and data mining, 990–998. ACM. 1