Visualizando Bases Curriculares de Atividades Acadêmicas

Transcrição

Visualizando Bases Curriculares de Atividades Acadêmicas
U NIVERSIDADE F EDERAL DE G OIÁS
I NSTITUTO DE I NFORMÁTICA
L UCIANO C ARLOS R IBEIRO DA S ILVA
Visualizando Bases Curriculares de
Atividades Acadêmicas
Goiânia
2007
L UCIANO C ARLOS R IBEIRO DA S ILVA
Visualizando Bases Curriculares de
Atividades Acadêmicas
Dissertação apresentada ao Programa de Pós–Graduação do
Instituto de Informática da Universidade Federal de Goiás,
como requisito parcial para obtenção do título de Mestre em
Ciência da Computação.
Área de concentração: Visualização de Informações.
Orientador: Prof. Hugo Alexandre Dantas do Nascimento
Co–Orientador: Prof. Wellington Santos Martins
Goiânia
2007
Todos os direitos reservados. É proibida a reprodução total ou parcial do
trabalho sem autorização da universidade, do autor e do orientador(a).
Luciano Carlos Ribeiro da Silva
Graduou-se em Ciência da Computação na UNIP - Universidade Paulista.
Durante a sua graduação foi monitor de programação no seu departamento.
Desenvolveu softwares para empresas na área médica, ortodôntica e indústrias
metalúrgica de médio porte. Durante o mestrado na UFG - Universidade
Federal de Goiás, foi bolsista CAPES. Atualmente é professor substituto da
UFG.
À minha amada, virtuosa e bem presente esposa Lísia.
Agradecimentos
Agradeço ao meu Deus e Senhor, o Senhor de Israel. Não tenho dúvidas de que
os seus milagres se renovam a cada manhã em minha vida. Mesmo sem merecer, alcancei
graça diante dos Seus olhos e por isso até aqui Ele me ajudou.
Agradeço à minha mulher, a quem eu também dedico este trabalho. Sempre
pude contar com seu amor, suporte e compreensão. Sou grato por todas as vezes em que,
cuidadosamente, revisou meus textos.
Agradeço à minha mãe por todo apoio dispensado não só nesta etapa, mas em
todas as outras etapas da minha educação.
Agradeço aos meus familiares pelo suporte e incentivo.
Agradeço ao professor Hugo, meu orientador. A sua conduta e o seu caráter,
invariavelmente cerceados pela ética e honestidade, sempre me provocaram a ser alguém
melhor do que eu sou.
Agradeço ao professor Wellington, meu co-orientador, por sua presteza e paciência. Com ele, aprendi a importância de atitudes pautadas pelo bom senso e humildade.
Agradeço ao professor Humberto Longo, cuja nobreza o precede. Muito solícito
e acessível, sempre esteve disposto a nos remeter aos altos lugares do conhecimento.
Agradeço a todos os amigos e colegas do mestrado que me ajudaram a correr
esta corrida. Faço menção das colegas Joelma Moura e Karla Nascimento, que sempre
me apoiaram, mesmo antes do meu ingresso neste programa.
Agradeço ao Programa de Mestrado em Ciência da Computação da UFG.
Agradeço à CAPES, pelo suporte financeiro.
“When you can measure what you are speaking about and express it in
numbers, you know something about it, and when you can not measure it,
when you can not express it in numbers, your knowledge is of a meager
end unsatisfactory kind. It may be the beginning of knowledge, but you have
scarcely in your thought advanced to the stage of a science.”
Lord Kelvin,
The measurement of temperature, with some remarks on other physical
measurements, and applications to meteorology [54].
Resumo
Silva, Luciano Carlos R.. Visualizando Bases Curriculares de Atividades Acadêmicas. Goiânia, 2007. 101p. Dissertação de Mestrado. Instituto de Informática, Universidade Federal de Goiás.
A Cienciometria se define como a “ciência de se medir a ciência”. Com o grande volume
de dados de produção científica disponíveis atualmente, como bases de dados de citações,
de publicações e de currículos, e a grande capacidade de processamento e armazenamento
dos computadores modernos, tem crescido o interesse pelo desenvolvimento de aplicações
que sirvam de auxílio às atividades de exploração desses dados. O presente trabalho
busca levantar técnicas de Visualização de Informações que tornem a exploração dos
dados cienciométricos mais eficientes. Foram propostas e implementadas, para tal fim,
duas visualizações baseadas na combinação de técnicas de Visualização de Informações
tradicionais. Uma avaliação dessas implementações, envolvendo pesquisadores e gestores
de recursos de pesquisa, mostra que as visualizações são efetivas e eficazes para a
Cienciometria.
Palavras–chave
Visualização de Informações, Cienciometria, Informetria, Bibliometria, Coordenadas Paralelas, Themescape, Treemap
Abstract
Silva, Luciano Carlos R.. Visualizando Bases Curriculares de Produção Acadêmica. Goiânia, 2007. 101p. MSc. Dissertation. Instituto de Informática, Universidade Federal de Goiás.
The Scientometrics is the “science of mensure the science”. The large amount of data currently available about scientific production, such as bibliography, citation and curriculum
data bases, as well as the increased capacity of today’s computers for storing and processing information are motivating the development of computational tools for science
exploration. The present work investigates the possibility of using Information Visualization techniques for such an aim . It proposes and describes the implementation of two
visualizations that combines existing visualization techniques. An evaluation of the implemented tools with researchers and science-financial resource managers were developed.
The results of the evaluation show that the two visualization are effective and efficient for
Scienciometry.
Keywords
Information Visualization, Cientometrics, Informetrics, Bibliometrics, Parallel
Coordinates, Themescape, Treemap
Sumário
Lista de Figuras
10
1
13
14
14
14
Introdução
1.1
1.2
1.3
2
Objetivos
Metodologia de Trabalho
Organização da Dissertação
Revisão Bibliográfica
2.1
2.2
Cienciometria
2.1.1
Informetria e Bibliometria
2.1.2
Bibliometria e Cienciometria
2.1.3
Obstáculos
KDD - Knowledge Discovery in Databases
2.2.1
2.3
3
Visualização de Informações
2.3.1
Mineração Visual de Dados
2.3.2
Processo para a Criação de Visualizações de Informação
2.3.3
Técnicas de Visualização de Informações
2.3.4
Evoluções de Técnicas de Visualização de Informações
2.3.5
Visualização em Cienciometria
Questões Estratégicas em C&T e os Compêndios da Produção Científica
3.1
3.2
Levantamento de Questões Estratégicas
Bases de Dados Acadêmicas e de Produção Bibliográfica
3.2.1
3.3
4
Ética em KDD
A Plataforma Lattes
A Tríade: Questões - Base de Dados - Visualização
Propostas de Visualização para Bases de Dados Curriculares
4.1
4.2
CoordLensView: Indicadores de Produção com Coordenadas Paralelas e
Foco+Contexto
4.1.1
Definição da Visualização
4.1.2
Discussões
CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e
Treemapping
4.2.1
Definição da Visualização
4.2.2
Discussões
16
16
17
18
19
19
23
25
26
26
29
37
40
41
41
43
45
48
49
49
49
51
53
53
54
5
Ferramentas Implementadas
5.1
Arquitetura Conceitual das Ferramentas VLattes e GLattes
5.1.1
5.2
5.3
6
Base de Dados e Linguagem de Progração
VLattes
GLattes
Avaliação das Visualizações
6.1
6.2
6.3
Configuração da Avaliação
6.1.1
Escolha dos Avaliadores
6.1.2
Preparação e realização da avaliação
Resultados Obtidos
6.2.1
Primeira Entrevista
6.2.2
Segunda Entrevista
6.2.3
Terceira Entrevista
6.2.4
Quarta Entrevista
6.2.5
Quinto Avaliador
6.2.6
Resumo dos Resultados
Discussão dos Resultados
60
60
60
63
65
70
70
70
71
73
73
74
75
76
78
79
81
Trabalhos Futuros
85
86
Referências Bibliográficas
87
A
92
92
92
93
93
95
7
Conclusão
7.1
CD-ROM
A.1
A.2
A.3
A.4
A.5
B
Requisitos Mínimos
Instalação
Executando as Ferramentas
Script em SLQ para a Criação do Banco de Dados Interno
Telcas de Atalho do GLattes
Material utilizado em avaliações e entrevistas
B.1
B.2
B.3
B.4
Termo de Consentimento Livre e Esclarecido
Questionário para o Levantamento de Questões Cienciométricas
Questionário Utilizado na Avaliação das Ferramentas
Tabela Utilizada na Avaliação das Ferramentas
96
96
98
100
101
Lista de Figuras
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
Classificação dos Indicadores Cienciométricos
Um esquema típico de KDD
Mineração de Dados e áreas afins
Processo de Visualização de Informações
Mineração de Dados com Spotfire
Processo para a criação de Visualização de Informações
Propriedades das Marcas Visuais
Exemplos da técnica de Fish-Eye
(a)
(b)
(c)
2.9
2.10
2.11
2.12
2.13
2.14
2.15
2.16
Técnica Fish-Eye
Fish-Eye aplicada sobre texto
Fish-Eye Menu
Uso de Bifocal Display
Browser Hiperbólico
Perspective Wall
Table Lens
Coordenadas Paralelas
Star Coordinates
Um exemplo de Metáfora Themescape
Glyphs
(a)
(b)
Faces de Chernoff
Star Plots
2.17 Treemap
(a)
(b)
Árvore Hierárquica
Treemap
2.18 Técnicas de Visualizações
(a)
(b)
(c)
(d)
(e)
(f)
Parallel Coordinates + Star Glyphs
Worms
Mapa de Relacionamento entre Linhas de Pesquisa
Grafo de Citações
Treeecube
StepTree
2.19 Coordenadas Paralelas com linhas Curvas
2.20 Incomes x Outcomes
3.1
Plataforma Lattes em números
(a)
(b)
(c)
Plataforma Lattes, Alto Nível de Formação
Plataforma Lattes, Doutores por Área do Conhecimento
Plataforma Lattes, Instituições por Setor Econômico
19
21
22
25
26
27
27
31
31
31
31
31
32
32
32
33
34
34
35
35
35
36
36
36
38
38
38
38
38
38
38
39
40
46
46
46
46
3.2
Um currículo típico em XML/LMPL
47
4.1
4.2
Coordenadas Paralelas, filtros sobre os eixos
Coordenadas Paralelas, aumentando a expressividade.
50
51
51
51
52
52
52
52
53
55
55
55
55
55
56
57
57
57
57
57
58
58
58
58
58
59
59
59
(a)
(b)
4.3
Coordenadas Paralelas, identificando linhas
(a)
(b)
4.4
4.5
4.6
Cidade Zero
Cidade 1
Cidade 2
Cidade 3
Themescape, plano de intersecção
Diferentes layouts de Treemap
(a)
(b)
(c)
(d)
4.9
Coordenadas Paralelas, perda de identificação
Coordenadas Paralelas, legenda
CoordLens, Ant Footprints
Landscape, hierarquia
Themescape Hierárquico
(a)
(b)
(c)
(d)
4.7
4.8
Coordenadas Paralelas Hierárquicas
Parallel Clustering
Squartifield Treemap
Strip Treemap
Slice Treemap
Binary Tree Treemap
A visão da Torre do Sino
(a)
(b)
(c)
(d)
Alusão
Visão das escadas
Visão lateral
Visão do solo
4.10 Visualizações com transparência
(a)
(b)
Treecube
Themescape Hierárquico
5.5
5.6
5.7
GLattes-CityView
GLattes-BellTowerView, na perpendicular
GLattes-BellTowerView, de perfil
61
63
64
65
65
65
66
67
68
A.1
GLattes, telcas de Atalhos
95
B.1
B.2
B.3
B.4
B.5
Termo de Consentimento Livre e Esclarecido, pg. 1
Termo de Consentimento Livre e Esclarecido, pg. 2
Levantamento das Questões Cienciométricas, pg. 1
Levantamento das Questões Cienciométricas, pg. 2
Questionário de avaliação das ferramentas
5.1
5.2
5.3
5.4
Arquitetura Conceitual VLattes/GLattes
Tela da Ferramenta VLattes
Uma barra(coordenada) típica do VLattes
VLattes, filtro da lente bifocal
(a)
(b)
VLattes, lente com filtro inativo
VLattes, lente com filtro ativo
96
97
98
99
100
B.6
B.7
Tabela de Produção Científica, dados dos pesquisadores.
Tabela de Produção Científica, pesos dos indicadores.
101
102
CAPÍTULO 1
Introdução
À medida que os compêndios de produção científica, acadêmica e de publicações
passaram a ser disponibilizados em formato digital, perderam a característica de serem
utilizados somente como um repositório do conhecimento. A facilidade de análise que
a computação imputou a esses depósitos acabou por conferir-lhes um propósito maior:
o de ser uma base para se analisar a própria ciência. Os interessados em fazê-lo, a
saber, governantes, ministros, secretários de estado e gestores da ciência, utilizam suas
informações como indicadores para norteá-los na tomada de decisões estratégicas, tais
como a correta alocação de recursos ou a escolha de uma linha de pesquisa a ser
priorizada. É nesse escopo de atividades que se encontra a Cienciometria, ou a ciência
de se medir a ciência.
No entanto, o grande volume de dados existentes nos bancos de dados científicos
faz com que a exploração se dê de forma complexa. Por exemplo, a sondagem manual de
pesquisadores com determinados perfis, da pontuação de suas produções segundo algum
critério de seleção ou até mesmo a identificação de pesquisadores mais produtivos pode
exigir horas ou dias de acordo com as características das bases aferidas.
Em vista disso, é necessário que haja a aplicação, ou, até mesmo, a elaboração
de técnicas computacionais que tornem a atividade exploratória mais fácil e eficaz. Sabese que o uso da computação é de suma importância tanto para a utilização das bases de
dados como para a melhoria das atividades de análises cienciométricas.
Depreende-se, então, que a Visualização de Informações, área de pesquisa que
busca formas mais eficientes de se exibir dados e de se interagir com os mesmos, possa
trazer grandes benefícios para os pesquisadores da ciência. Porém, ainda verifica-se uma
escassez de estudos que investiguem de modo mais específico a aplicação de técnicas de
Visualização de Informações em Cienciometria. Esse trabalho se propõe a contribuir para
a redução dessa lacuna por meio da proposta de utlização de visualizações interativas para
a atividade de exploração de dados cienciométricos.
1.1 Objetivos
1.1
14
Objetivos
O objetivo geral desse estudo é investigar a atuação da Visualização de Informações em Cienciometria. Como objetivos específicos, destaca-se os seguintes pontos:
levantar as necessidades das comunidades que se valem dos indicadores cienciométricos;
analisar as principais bases de produção acadêmica; propor duas técnicas de visualização
que possam responder à demanda da comunidade e apresentar ferramentas que implementem as visualizações propostas.
1.2
Metodologia de Trabalho
A realização da presente pesquisa envolveu as seguintes etapas:
1. Levantamento das principais questões cienciométricas de interesses dos pesquisadores por meio de revisão bibliográfica e entrevistas feitas com especialistas em
gestão da ciência. A finalização dessa etapa possibilitou a definição das demandas
sobre os dados.
2. Investigação das bases de dados cienciométricas disponíveis, de sua acessibilidade
e de sua aplicabilidade.
3. Determinação de quais questões cienciométricas poderiam ser respondidas considerando as limitações inerentes a cada base de dados.
4. Elaboração de duas propostas de visualizações para a Cienciometria.
5. Implementação das duas propostas na forma de ferramentas computacionais.
6. Avaliação das ferramentas por especialistas. Embora se tenha investigado várias
bases de dados, utilizou-se a base curricular da Plataforma Lattes do Conselho
Nacional de Desenvolvimento Científico e Tecnológico (CNPq) para o teste das
ferramentas implementadas.
7. Análise dos resultados da avaliação e elaboração das conclusões finais.
1.3
Organização da Dissertação
O restante desse documento, que reflete os passos da metodologia adotada,
encontra-se organizado em sete capítulos. O Capítulo 2 conceitua a Cienciometria e a
Visualização de Informações. No Capítulo 3, são apresentadas e analisadas as principais
bases de dados de produção acadêmica existentes e é feito um levantamento dos principais
1.3 Organização da Dissertação
15
indicadores produtivos necessários à gerência da ciência. O Capítulo 4 introduz duas
técnicas de visualização de informações para a Cienciometria. O Capítulo 5 expõe
as ferramentas que implementam as técnicas discutidas no Capítulo 4. O Capítulo 6
promove uma avaliação das ferramentas apresentadas. Enfim, o Capítulo 7 expõe as
considerações finais acerca do trabalho e elenca um conjunto de trabalhos futuros que
podem dar continuidade a esse estudo. Os materiais utilizados nos levantamentos e
avaliações realizados bem como as ferramentas desenvolvidas são apresentados nos
apêndices.
CAPÍTULO 2
Revisão Bibliográfica
Esse capítulo fornece suporte teórico ao desenvolvimento desse estudo. Nele, são
conceituados a Cienciometria, os processos de descoberta de conhecimento em bases de
dados e a Visualização de Informações.
2.1
Cienciometria
“Quando você consegue mensurar um fato sobre o qual está falando, ou
expressá-lo numericamente, significa que você sabe alguma coisa sobre
ele. Mas quando você não pode mensurá-lo, não pode expressá-lo numericamente, seu conhecimento é exíguo e insatisfatório; pode até ser o início
do seu conhecimento sobre o fato, mas você mal tem em seus avançados
pensamentos o estado da ciência. ” Lord Kelivn [54].
Anualmente, inúmeras instituições de pesquisa no Brasil e no Mundo concluem
centenas de trabalhos em Ciência e Tecnologia(C&T). Obter um panorama dessa produção é importante para a definição de metas e políticas de desenvolvimento científico a
serem utilizadas pelos governos, pelas instituições e pelos pesquisadores envolvidos. Os
métodos de medição desses indicadores e também a análise dos resultados obtidos são
estudados pela Cienciometria.
Pode-se definir a Cienciometria como a ciência de se medir a ciência. Apesar do
caráter óbvio de tal definição, a tarefa de se criar indicadores coerentes para mensurar a
produção científico-tecnológica não é trivial, dada a subjetividade de seu objeto de trabalho. Ao contrário dos demais ramos de atividades sociais, como o comércio e a indústria,
que dispõem de diversos indicadores absolutos para se medir a sua produtividade, não se
mede facilmente o fruto do intelecto.
A simples contagem dos textos produzidos pelos pesquisadores pode ser usada
para medir a produção científica. Não obstante, essa técnica amplamente adotada pela Bi-
2.1 Cienciometria
17
bliometria1 deixa de lado inúmeros fatores relevantes, os quais devem ser contabilizados
para que problemas não passem desapercebidos e para que não ocorra a indução a graves
erros de análise. É nesse contexto de incertezas que surge a Cienciometria, que busca na
estatística, sociologia e filosofia técnicas sofisticadas por meio das quais a ciência possa
ser mensurada.
A importância de se medir a ciência se justifica não apenas pela competitividade intrínseca ao meio científico. Sem poder mensurar a ciência, instituições e governos
não teriam instrumental para tomar decisões importantes quanto a políticas de desenvolvimento tecnológico-científico de suas comunidades. Os pesquisadores, por sua vez,
possivelmente não teriam como avaliar, de modo eficaz, o impacto de seus estudos em um
âmbito maior, tal como um país ou continente. Sendo assim, destaca-se uma vez mais a
importância do estudo e do desenvolvimento das técnicas de se medir a ciência.
Basicamente, o que se almeja é mensurar a importância dos atores da ciência,
ou seja, aferir índices que possam classificar a relevância de uma pesquisa, de um
pesquisador, de uma instituição, de uma região, de um país, de uma área do conhecimento,
etc. Outra incógnita a ser respondida se refere ao relacionamento entre esses atores, isto
é, de que maneira os pesquisadores, as instituições, os países, as áreas do conhecimento,
etc., cooperam entre si. Os métodos que visam a responder questionamentos como esse
podem ser resumidos em três vertentes: Informetria, Bibliometria e Cienciometria. A
abordagem de cada uma delas se dará nas seções seguintes.
2.1.1 Informetria e Bibliometria
Tanto a Informetria quanto a Bibliometria se preocupam exclusivamente com os
aspectos quantitativos da produção intelectual. Em vista disso, utilizam-se de indicadores absolutos, como a quantidade de textos publicados ou de patentes requeridas, para
classificar os atores. O que de fato as diferencia é a fonte dos dados analisada. A Bibliometria está voltada exclusivamente para textos publicados em meios reconhecidamente
científicos, que seriam revistas especializadas, livros, teses, etc. Já a Informetria é mais
abrangente, porém menos confiável, pois leva em consideração mídias que nem sempre
garantem a procedência da informação, como sites de busca na Web (e.g. Google, Yahoo).
Embora a Bibliometria seja mais confiável, a sua aceitação é limitada, já que,
por analisar apenas fatores quantitativos, pode mascarar o real panorama da ciência. Por
exemplo, o fato de um pesquisador ter muitas publicações não significa que seu trabalho
tenha maior relevância do que o de outro pesquisador que publique menos. Sendo assim,
1o
conceitos de bibliometria e outros temas da área são definidos a seguir
2.1 Cienciometria
18
é necessário que haja uma análise qualitativa capaz de aferir o grau de importância da
revista ou do jornal onde esses pesquisadores publicam suas produções científicas.
2.1.2 Bibliometria e Cienciometria
Como foi dito na Seção 2.1.1, a Bibliometria se atém somente aos aspectos
quantitativos da ciência. Por esse motivo, tem sido alvo de muitas críticas no meio
científico, fato que dificulta sua aceitação por parte dos atores da ciência. A Cienciometria
surge nesse contexto de insatisfação. Oriunda da sociologia da ciência, preocupa-se não
somente com os aspectos quantitativos da ciência, mas também com os seus aspectos
qualitativos. Em conseqüência disso, é possível afirmar que a Cienciometria se sobrepõe
à Bibliometria, não deixando, contudo, de fazer uso de suas técnicas e métodos [40].
Como em todo tipo de análise, a análise cienciométrica se orienta por um
conjunto de indicadores de produção, os quais se classificam em income, responsáveis
por medir os investimentos financeiros em C&T; outcome, utilizados para se medir os
resultados obtidos; indicadores-produto, empregados para se medir de forma imediata
o grau de produção, sem levar em conta a relevância. E, finalmente, os indicadoresimpacto, que medem o grau de relevância da produção, o que só é possível a longo prazo
(pode-se levar anos ou décadas para que uma obra intelectual comece a ser difundida
no meio científico). A partir dessa classificação, define-se os principais indicadores da
Cienciometria, que são:
• Números de trabalhos: não leva em conta a sua relevância;
• Número de citações: muito utilizado pela Cienciometria por ser capaz de indicar o
impacto de um trabalho na comunidade. Ainda assim, continua sendo controverso,
já que os motivos que levam um ator a citar outro são os mais variados possíveis
(homenagear pioneiros, conferir credibilidade ao trabalho, retificar trabalhos, dar
destaque a trabalhos pouco disseminados, sustentar declarações, etc.). Além disso, a
análise automatizada de citações esbarra em vários obstáculos técnicos, tais como a
autoria múltipla, os homônimos, os sinônimos, os erros de edição, a regionalização
da literatura, a inexistência de textos antigos em formato digital, etc.;
• Co-autoria: identifica como os atores colaboram entre si;
• Números de patentes: inovações tecnológicas;
• Relevância do meio de publicação: indica o impacto de um trabalho;
• Riqueza da comunidade: normaliza os valores aferidos com relação ao poder
econômico das comunidades.
A Figura 2.1 mostra, de forma mais clara, como esses indicadores estão distribuídos e quais são os seus principais objetivos.
2.2 KDD - Knowledge Discovery in Databases
19
Figura 2.1: Classificação dos indicadores cienciométricos. Extraído de [41]
2.1.3 Obstáculos
Apesar dos esforços em se estabelecer normas matemáticas e estatísticas para se
valorar a produção científica, a Cienciometria ainda é vista com desconfiança e receio.
Pesquisadores temem que suas linhas de pesquisa sejam desvalorizadas por causa de
números que, na verdade, podem não refletir uma realidade. Instituições temem perder
status e investimentos. Governos receiam que suas políticas de desenvolvimento científico
e educacional sejam avaliadas pela sociedade, gerando críticas e descontentamento. Essas
reflexões reafirmam a complexidade em se medir as produções advindas do intelecto.
A falta de um agente centralizador de informações dos trabalhos em C&T
também é um problema grave. Geralmente, os textos estão espalhados em diversas bases
de dados, as quais por vários motivos, dentre eles os de ordem econômica, são de acesso
restrito a apenas parte do público interessado. Outra problemática é a adoção de métricas
cienciométricas diferentes por parte dos atores. Mesmo quando existe a convergência
de aceitação, a análise dos dados é complexa, e isso devido ao seu volume e aos seus
relacionamentos. O uso da computação tem auxiliado especialistas na análise dos dados
cienciométricos. Tecnologias como a Descoberta de Conhecimento em Banco de Dados
e a Visualização de Informações têm sido empregadas na Cienciometria. As Seções 2.2
e 2.3 conceituam essas tecnologias.
2.2
KDD - Knowledge Discovery in Databases
Com a evolução dos sistemas de informação, os processos de armazenamento
e de manutenção dos dados produzidos pelas instituições tiveram uma redução em seus
custos. Tal fato fez com que um crescente número de empresas iniciasse um processo
de armazenamento massivo não somente dos dados pertinentes ao seu negócio, mas
de qualquer informação que pudesse fornecer padrões de comportamentos das várias
2.2 KDD - Knowledge Discovery in Databases
20
transações realizadas. E foi a partir da análise de grandes bases de dados que veio à
tona a necessidade de se desenvolver ferramentas capazes de automatizar os processos
de inferência. Esse processo de descoberta é chamado de Knowledge Discovery in
Databases. A presente seção expõe as etapas e técnicas intrínsecas ao processo de KDD
e promove uma breve reflexão sobre as questões éticas nas quais o processo está inserido.
Pode-se definir KDD - Knowledge Discovery in Databases2 como sendo “o
processo não trivial de identificar padões novos, válidos, potencialmente proveitosos e
altamente compreensivos em dados” [22]. A Figura 2.2 esquematiza as etapas do processo
de KDD. Abaixo, explicita-se uma breve descrição das etapas geralmente envolvidas em
um processo KDD.
1. Limpeza dos dados: eliminação de ruídos e dados inconsistentes;
2. Integração dos dados: combinação de diversas fontes de dados;
3. Seleção dos dados: extração de dados relevantes às tarefas de análise do banco de
dados;
4. Transformação dos dados: escolha das formas apropriadas para mineração;
5. Mineração dos dados: extração de padrões interessantes através de métodos inteligentes, aplicados nos dados já preparados;
6. Pós-processamento dos padrões minerados: identificação de quais resultados são
realmente interessantes para o usuário;
7. Visualização: representação de conhecimento são utilizadas para que o conhecimento minerado seja apresentado ao usuário;
8. Testes: validação da consistência dos resultados obtidos pelo processo de mineração.
Existem quatro passos antes da aplicação dos processos de mineração de dados.
Essas etapas são necessárias porque facilitam o processo de inferência, que já é computacionalmente complexo. Ao se efetuar o pré-processamento, gera-se uma nova base de
dados altamente otimizada para a qualificação e inferência de informações. A Figura 2.2
mostra um esquema típico de KDD. Fica evidente que no datawarehouse não há limpeza
de dados. Nesse tipo de repositório, os dados já são nativamente organizados para a mineração.
2 Descoberta
de conhecimento em banco de dados
2.2 KDD - Knowledge Discovery in Databases
21
Figura 2.2: Um esquema típico de KDD, destaque para a camada
de limpeza entre as bases de dados e o processo de
mineração. É nessa camada que são feitos os passos
1, 2, 3 e 4
É importante salientar a diferença existente entre um processo de KDD e os
métodos clássicos de acesso à informação. Enquanto que nos métodos clássicos tem-se
um conhecimento prévio da informação que se quer buscar, em um processo KDD nada
se sabe sobre o que será descoberto, ou seja, a análise dos dados e sua exibição ao usuário
se dá através de um processo automatizado e inteligente. Para exemplificar os dois casos,
pode-se citar uma consulta clássica a uma base de dados como sendo algo do tipo “Quanto
de açúcar foi comprado este mês?”, ao passo que uma consulta típica a uma base de dados
usando KDD se pautaria em questionamentos como “Quais os itens que têm boa saída
conjuntamente?”.
Das etapas descritas acima, a mais importante é a da mineração de dados.
Han [28] define a mineração de dados como sendo “o processo de se descobrir conhecimentos interessantes de uma grande quantidade de dados armazenados tanto em banco
de dados, data warehouses ou outros repositórios de informação”3 . Esse processo se concretiza através de algoritmos oriundos das técnicas da Inteligência Artificial, as quais se
baseiam, em sua maioria, em análises estatísticas.
É importante perceber que quanto maior a quantidade de dados disponíveis,
melhor e mais confiável será a detecção dos padrões e associações. Tal característica se
evidencia por uma questão estatística: quanto mais amostragens, maior a acuidade.
Acerca do processo de KDD, enuncia-se que envolve quatro áreas do conheci3 “the process of discovering interesting knowledge from large amounts of data stored either in databases,
data warehouses, or other information repositories”
2.2 KDD - Knowledge Discovery in Databases
22
mento: Banco de Dados, Inteligência Artificial, Visualização de informações e Estatística [55], como ilistrado na Figura 2.3.
Figura 2.3: Mineração de Dados e sua forte relação com outras
quatro áreas do conhecimento humano
Atualmente, o processo de KDD, especificamente a etapa de mineração de dados,
gira em torno de cinco técnicas básicas: regras de associação, análise de seqüência,
classificação, clustering e outliers, as quais são brevemente definidas a seguir:
• Regras de associação – procura inferir associações entre os elementos do conjunto
de dados. Por exemplo, seria possível deduzir que a venda de leite está diretamente
relacionada com a venda de fraldas.
• Análise de seqüência – procura inferir padrões de comportamento através da análise
temporal dos dados. Por exemplo, seria pertinente inferir que clientes que compram
aparelhos de DVD hão de comprar, posteriormente, sistemas de áudio.
• Classificação – procura classificar elementos do conjunto através de regras prédefinidas. Exemplo disso seria a determinação de regras usando a idade, o tempo
de serviço e o nível de produção de pesquisadores para classificá-los em Pesquisadores_Estabelecidos, Pesquisadores_Iniciantes, Pesquisadores_Proeminentes. Os
algoritmos de classificação inseririam os pesquisadores nesses grupos conforme a
definição das regras atribuídas.
• Clustering – procura, assim como ocorre na classificação, separar os elementos de
um conjunto em classes. Porém, deve-se ressaltar que a técnica empregada em tal
procedimento se difere da que é usada na Classificação justamente por não ser
supervisionada. A técnica de clustering é por observação, o que faz com que as
regras e as classes não necessitem de uma pré-definição, uma vez que os próprios
algoritmos são capazes de inferí-las.
• Outliers – procura identificar eventos fora do padrão. Um outlier “é um fato que se
desvia de outros fatos a ponto de se levantar suspeitas de que foi gerado por um
2.2 KDD - Knowledge Discovery in Databases
23
mecanismo diferente” [29]. Por exemplo, quando se utiliza um cartão de crédito
para se realizar uma compra com um valor muito acima do que é de costume, um
algoritmo de outlier pode identificar a transação como sendo incomum, requisitando
automaticamente dos setores competentes uma investigação do fato.
2.2.1 Ética em KDD
Durante toda a história humana, nunca atribuiu-se à informação tanto valor
quanto atualmente. O conhecimento de determinados dados pode determinar a sobrevivência de uma empresa. Como já foi dito na Seção 2.2, uma prática que tem se tornado
comum em todos os seguimentos é a obtenção da maior quantidade possível de dados.
Pode-se imaginar, então, uma rede de supermercados que, além de todas as
informações costumeiras, acrescente ao seu banco de dados um item referente à cor de
pele dos seus clientes. Ainda que pareça algo desprovido de lógica, esse novo dado pode
representar uma informação valiosa para um algoritmo de associação. É possível que se
obtivesse, por meio desse algoritmo, a informação de que pessoas de pele clara consomem
mais hidratantes e protetores solares. De fato, não se sabe exatamente a que conclusão os
processos de dados podem chegar. Sendo assim, toda informação adicional não deixa de
ser útil.
Vale relembrar que um passo importante para o processo de mineração é o préprocessamento, no qual são eliminadas todas as informações ruidosas. Naturalmente,
campos de identificação, como nome, cpf, etc, são retirados, pois o que se procura
normalmente é um comportamento geral, e não individual. Não obstante, deve-se analisar
se os dados restantes serão suficientes para a identificação do indivíduo. Dependendo do
contexto considerado, uma pequena quantidade de atributos, como marca do carro, cor
dos olhos e profissão, pode ser útil na identificação de uma pessoa. Isso significa dizer
que o simples processo de limpeza não consegue garantir que dados identificadores não
passem para o datawarehouse.
É nesse contexto que as preocupações com a privacidade dos indivíduos envolvidos se evidenciam. Se por um lado o acréscimo de detalhes pode revelar fatos importantes através do KDD, por outro, não se sabe dos efeitos colaterais de se armazenar tantas
informações pessoais em uma base de dados. Várias pesquisas têm sido desenvolvidas
almejando a criação de técnicas eficientes que garantam a privacidade e não gerem prejuízos ao processo de mineração. Essas técnicas podem ser classificadas com base em
cinco níveis de efetividade [53]:
• Data Distribution: quando registros (vertical) ou dados (horizontal) diferentes são
armazenados em diferentes lugares;
2.2 KDD - Knowledge Discovery in Databases
24
• Data Modification: modifica os valores originais da base de dados que será exposta
ao público.Para isso, é possível usar uma das seguintes técnicas: perturbação,que
adiciona ruído nos dados ou invertendo valores [32]; bloqueio, que coloca o
caractere ’?’ nos atributos críticos; agregação ou mesclagem, que coloca diversos
valores em uma categoria genérica; troca, que realiza uma troca dos dados entre os
registros; amostragem, que coloca os dados em função de estatísticas populacionais;
• Data Mining Algorithm: nota-se o desenvolvimento de muitas idéias referentes a
esse processo. Todavia, não há um padrão a ser seguido. Procura-se, basicamente,
esconder dados que comprometam a proteção à privacidade;
• Data Hiding ou Rule Hiding: tenta decidir se um dado em estado bruto ou em
estado agregado pode ser omitido. Esse processo é computacionalmente complexo
e a construção de heurísticas é necessária;
• Privacy preservation: utiliza o conceito de modificação seletiva nos dados. É a mais
importante de todas as técnicas por ser a que menos apresenta efeito colateral [32];
Outra preocupação referente à mineração de dados está relacionada à semântica
dos resultados que podem ser obtidos [25]. Considere-se uma base de dados de um
departamento de polícia na qual uma série de características físicas dos criminosos
é armazenada. Um algoritmo associativo poderia detectar quais são as características
físicas de indivíduos que são associados a crimes hediondos. Se esse tipo de informação
chegasse ao conhecimento da população, certamente as pessoas discriminariam a todos os
indivíduos que apresentassem esse conjunto de características, independente da existência
de uma evidência concreta.
Outro exemplo seria treinar um algoritmo de classificação para detectar o perfil
de pessoas inadimplentes. Assim, diante de um cliente que se enquadrasse nesse perfil,
o sistema automaticamente iria postulá-lo como um inadimplente em potencial. Se essa
informação fosse compartilhada, um indivíduo não inadimplente, porém com o perfil que
o classificasse como tal, poderia ter a sua conduta questionada. Embora a possibilidade
de ocorrer tais situações não possa ser descartada, o KDD não deixa de ser utilizado
como uma importante ferramenta de análise, possibilitando a inferência de informações
fundamentais.
Com relação à Visualização de Informações, observa-se que é uma área de
pesquisa bem estabelecida e abrangente que tem sido investigada também dentro dos
processos de inferência de conhecimento. Pode ser abordada de duas formas. Na primeira,
ela se coloca como cooperadora na exploração dos resultados obtidos pelo processo de
KDD. Na outra faceta, posiciona-se como uma possível substituta para a exploração
dos dados. Vale lembrar que a aplicação de métodos de descobertas pressupõe grandes
bases de dados e equipamentos sofisticados que viabilizem a execução de algoritmos
2.3 Visualização de Informações
25
KDD, muitas vezes complexos. Em geral, como as visualizações não requerem tais
configurações, a mineração visual de dados surge como uma saída viável. Os conceitos
inerentes à Visualização de Informações e a mineração visual de dados são tratados com
detalhes na Seção 2.3.
Na Seção 2.2, foram conceituadas as técnicas básicas de Mineração de Dados,
uma ferramenta importante no auxílio à descoberta e análise de grande quantidade de
informações. Outro aspecto explorado foi o de que a Visualização de Informações é
área afim à mineração de dados. Porém, se dissociada dessa idéia de auto-inferência,
a visualização de dados pode ser utilizada como uma importante ferramenta de análise
e como um meio através do qual informações não percebidas pelos métodos comuns de
análise são evidenciadas (como uma tabela, ou um gráfico de barras). A esse processo
de descoberta visual dá-se o nome de Mineração Visual de Dados, que será discutido na
Seção 2.3.1
2.3
Visualização de Informações
A Visualização de Informações é uma área da Ciência da Computação que
busca formas inovadoras de se ampliar a legibilidade e a interatividade dos mais diversos
tipos de dados. Por meio de suas técnicas, desempenha a função de expor informações
que, se visualizadas através de tabelas, não seriam evidentes. Existem três motivações
básicas para se utilizar uma visualização. A primeira é a apresentação de dados bem
conhecidos. A segunda é a análise confirmativa, na qual o usuário varre a visualização
em busca de respostas para perguntas já definidas. A última é a análise exploratória, que
permite ao usuário varrer a visualização despretensiosamente, em busca de padrões e
relacionamentos [34]. Dessa forma, percebe-se que a constituição de uma visualização se
dá, basicamente, a partir da intenção do usuário e dos dados disponíveis. Sendo assim,
propõe-se um processo básico de visualização auxiliada por computador [42], que é
apresentado na Figura 2.4. Como já discutido na Seção 2.2, a Visualização de Informações
está intimamente ligada à mineração de dados, pois o que se deseja, ao final do processo,
é permitir a identificação de informações, padrões e comportamentos não trivialmente
perceptíveis.
Figura 2.4: Processo de Visualização de Informações. Extraído
de [42]
2.3 Visualização de Informações
26
Knight e outros [37] consideram que uma boa visualização deve apresentar duas
características, que são expressividade e efetividade. A expressividade é a adequação
da visualização à tarefa a qual se propõe a auxiliar, apresentando apenas os dados
necessários à compreensão daquilo que busca transmitir. A efetividade é a característica
de se possibilitar uma interpretação mais rápida e menos sujeita a erros do que outras
formas de visualização. Uma boa visualização é, portanto, aquela que é capaz de enfatizar
e representar todas as informações necessárias de um modo intuitivo, rápido e menos
propenso a erros. Na busca pela elaboração de visualizações realmente eficientes, várias
técnicas foram desenvolvidas. Nas seções que se seguem, essas técnicas são apresentadas,
bem como os aspectos concernentes às suas formulações.
2.3.1 Mineração Visual de Dados
A mineração visual de dados se preocupa em oferecer soluções gráficas que
enfatizem relações e padrões nas informações. Exemplo disso é a Figura 2.5, que mostra
uma ferramenta de mineração visual de dados. A partir dessa ferramenta, o especialista
pode, por meio de filtros facilmente acessados no lado direito, selecionar subconjuntos
de dados, navegar pela imagem usando recursos de ampliação (zoom) e de rotação 3D e
modificar a aparência do gráfico conforme sua necessidade (cores, tipo de gráfico, etc.)
Figura 2.5: Uma visualização gerada pela ferramenta Spotfire
(www.spotfire.com). A base de dados é da Agência Nacional de Petróleo (ANP) e mostra a relação Teor do
Álcool x Destilação 90% x Destilação PFE x Conformidade
2.3.2 Processo para a Criação de Visualizações de Informação
A Figura 2.6 representa um modelo clássico para construção de visualizações
de informação [12]. No primeiro passo, uma transformação dos dados é realizada. Nessa
2.3 Visualização de Informações
27
etapa, dados indesejados e redundantes são eliminados e um formato da base onde os
dados serão alocados é definido. Para a alocação dos dados, pode ser utilizado um banco
de dados sofisticado ou uma simples tabela. De forma geral, alocam-se as t-uplas em
linhas e as variáveis em colunas. Isso faz com que a densidade da visualização seja dada
em função das linhas da tabela e a dimensionalidade seja representada pelas colunas.
Figura 2.6: Processo para a criação de Visualização de Informações. Extraído de [42]
Na segunda etapa é realizado o Mapeamento Visual, que consiste em relacionar
elementos gráficos abstratos com os dados contidos na base de dados. Esses elementos
gráficos são organizados em uma estrutura visual [42], segmentada em três elementos:
substrato espacial, marcas e as suas propriedades.
O substrato espacial define se as marcas serão projetadas em uma região bidimensional, tridimensional, etc. As marcas, por seu turno, definem os elementos representativos da informação, como, por exemplo, linhas, círculos, cubos, superfícies, etc. Podem
também ter características próprias, como posição, área, volume, ângulo, inclinação, orientação, cor, textura, forma ou efeitos de animação [42]. A Figura 2.7 exemplifica tais
propriedades.
Figura 2.7: Propriedades das Marcas Visuais. Extraído de [42]
A última etapa é a de Transformações Visuais, na qual o usuário interage com
a visualização de forma a alterar dinamicamente a sua exibição. Nessa etapa, o usuário
2.3 Visualização de Informações
28
pode tentar adequar a visualização às suas necessidades particulares através de operações
como translação, rotação e zoom.
Uma vez que as etapas para a criação de visualizações estejam bem definidas,
o desenvolvedor deve levar em consideração o nível de efetividade e expressividade
das visualizações geradas [37]. Devido ao caráter abstrato das visualizações, não existe
uma norma para o processo de mapeamento. Porém, com o intuito de se criar boas
visualizações, é necessário que o desenvolvedor observe determinados preceitos para a
realização do mapeamento visual. A lista abaixo elenca alguns deles [42]:
• Deve-se levar para a base de dados da visualização somente aquilo que for estritamente necessário.
• Deve-se ater-se estritamente às necessidades dos especialistas, evitando exibir
informações inúteis.
• Deve-se procurar marcas simples e intuitivas.
• Deve-se evitar a sobreposição de marcas, o que sobrecarregaria a visualização e
dificultaria a percepção de detalhes importantes.
• Deve-se utilizar, sempre que possível, dispositivos de alta resolução e telas grandes.
• Deve-se promover o maior nível de interatividade.
• Deve-se preservar o mapa mental do usuário, evitando alterações drásticas na
visualização quando o usuário estiver utilizando os recursos de interação.
• Deve-se priorizar as formas de interação na seguinte ordem: visão geral, zoom,
filtros, relações e histórico [50]. A atividade de interação com a visualização deve
permitir ao usuário ter uma visão geral dos dados, aproximar ou afastar detalhes
das imagens, filtrar o conjunto de dados exibidos, identificar relacionamentos entre
os dados e, por último, retroceder em suas ações por meio de funções desfazer e
refazer (undo/redo).
Ao estabelecer tais questões como prioritárias, o desenvolvedor de novas visualizações pode cercear sua atividade de criação nos cinco passos descritos abaixo [42]:
1. Avaliar as necessidades dos especialistas e conjunto de dados disponíveis.
2. Definir quais técnicas de visualização supririam as necessidades dos especialistas
com relação aos dados. Para tanto, seria pertinente a elaboração de novas técnicas
ou ainda a combinação das já existentes, de modo a melhorar a expressividade e a
efetividade das originais.
2.3 Visualização de Informações
29
3. Definir os mecanismos de interação, levando em consideração não só os que
podem ser promovidos por software, mas também os dispositivos de hardware
que permitam maior interatividade com os dados, como telas grandes, mesas de
interações, dispositivos de imersão 3D, luvas de interação, etc.
4. Desenvolver protótipos a partir de uma análise das plataformas, das linguagens de
programação e das APIs mais adequadas ao desenvolvimento das ferramentas de
visualização.
5. Avaliar a efetividade e a expressividade das visualizações propostas. Antes de tudo,
deve-se observar qual o impacto que a ferramenta desenvolvida produzirá sobre a
visualização, uma vez que uma aplicação lenta e com falhas pode alterar as impressões do usuário. A partir dessa idéia, é possível escolher entre duas abordagens
de avaliação: avaliação informal e experimentos controlados. Como exemplo de
avaliação informal, tem-se a Heuristic Evaluation [45, 44], na qual um grupo de
três a cinco especialistas no domínio do problema é convocado a utilizar e criticar,
por meio de um questionário de usabilidade, as ferramentas desenvolvidas. Sobre
os experimentos controlados, afirma-se que devem ser realizados tais quais preconizam os estudos com Seres Humanos adotados pela Psicologia. Nesses estudos,
uma hipótese é definida e os mecanismos de controles das variáveis são determinados. Posteriormente, um experimento com um número significativo de pessoas é
realizado e, finalmente, os dados coletados são analisados estatisticamente.
Ao longo do tempo, muitos mapeamentos visuais efetivos foram implementados,
sendo que alguns deles se tornaram clássicos por terem demonstrado sua efetividade
na apresentação de vários tipos de informações. Existe um esforço da comunidade de
pesquisadores de Visualização de Informações em se classificar e se catalogar esses
mapeamentos, elevando-os à categoria de técnicas de Visualização de Informações. A
Seção 2.3.3 descreve as técnicas de visualização mais reconhecidas atualmente.
2.3.3 Técnicas de Visualização de Informações
As muitas técnicas de Visualização de Informações existentes podem ser classificadas de acordo com a forma que possuem (simbólica ou geométrica), a dimensionalidade
na qual são apresentadas (2D ou 3D) e também de acordo com a sua interatividade (estáticas ou dinâmicas) [23]. Partindo de tal pressuposto, diz-se que uma visualização é
geométrica quando o mapeamento é feito sobre eixos. É simbólica quando o mapeamento
se realiza através de representações pictóricas. Com respeito aos mecanismos de exibição,
é possível afirmar que uma visualização pode ser projetada em duas ou três dimensões.
2.3 Visualização de Informações
30
A projeção tridimensional dos dados é uma característica que se atribui à visualização ainda que esta não disponha de dispositivos especiais para projeção 3D. Basta
que ela transmita ao usuário a sensação de tridimensionalidade. Sobre a interatividade,
diz-se que uma visualização é considerada estática quando não permite que o usuário a
configure. Em contrapartida, é dinâmica quando permite ao usuário configurá-la. Duas
modalidades de interação podem ser utilizadas para se alterar uma visualização: alteração
sobre o conjunto dos dados (filtros) e alteração sobre o ponto de vista da visualização
(rotação, translação e zoom).
A seguir, apresenta-se uma revisão das principais técnicas de Visualização de
Informações. É interessante esclarecer que a tentativa de se catalogar tais técnicas aborda
apenas suas generalidades e não contempla, portanto, as suas possíveis variações.
a) Foco+Contexto
Técnica que fornece mecanismos para se destacar uma determinada região de
interesse (foco), mantendo, porém, uma visão geral dos dados (contexto). Para sua implementação, submete-se a imagem original a distorções que geralmente são produzidas
através de simulação de lentes. As técnicas Fish-Eye, Bifocal Lens, Hiberbolic Browser,
Perspective Wall e Table Lens são exemplos de visualizações que implementam a técnica
em discussão.
Fish Eye [26] é uma técnica por meio da qual se propõe uma visualização
interativa que tenta simular uma lente “olho de peixe” sobre um plano. O efeito desse
tipo de lente é a ampliação da região que está em foco e a redução da região periférica
do foco. Como toda a imagem é exibida, o usuário consegue manter um mapa mental da
localização dos elementos do seu interesse, podendo, assim, “deslocar” facilmente o foco
para esses pontos. A Figura 2.8 exemplifica formas de utilização lente olho de peixe.
Bifocal Display é uma técnica semelhante à do Fish-Eye. A diferença se centra
no fato de que na técnica Bifocal Display a área ampliada se sobrepõe à área fora do foco,
além de que há uma perda sutil do mapa mental, principalmente nos arredores da lente.
Não obstante, a imagem ampliada é plana, ou seja, livre de distorções. A Figura 2.9 é um
exemplo comum do uso dessa técnica em uma ferramenta para exibir mapas de caracteres.
À medida que o usuário desliza o cursor do mouse sobre os elementos da matriz, eles são
ampliados um a um.
Hiperbolic Browser combina a técnica de Desenho de Grafos com a
Foco+Contexto, permitindo que sejam exibidas grandes redes de relacionamentos. Ao
contrário da Fish-Eye, não existe garantia de que todo o gráfico será desenhado na tela.
O usuário tem a sensação interativa de “puxar” para o centro os elementos que deseja
analisar com mais detalhes. A Figura 2.10 exemplifica a aplicação dessa técnica na visualização de um Web Site.
2.3 Visualização de Informações
(a) Técnica Fish-Eye. Extraído de [39]
31
(b) Fish-Eye, proposta original, na qual a técnica
de Fish-Eye é aplicada em um editor de código.
As linhas centrais, em foco, são sensivelmente
ampliadas em relação às linhas periféricas. Extraído de [26]
(c) Fish-Eye Menu: uma vez encontrada a posição
de um item, achá-lo novamente é uma tarefa fácil.
Extraído de [42]
Figura 2.8: Exemplos da técnica de Fish-Eye
Figura 2.9: Uso da técnica Bifocal Display. Nota-se que há sobreposição do elemento focado sobre os demais.
Com respeito à técnica Perspective Wall, é possível dizer que tenta simular
um papel que “corre” sobre uma parede, ampliando a imagem que estiver sobre ela. A
Figura 2.11(a) exibe o seu mecanismo de funcionamento e a Figura 2.11(b) mostra um
exemplo do efeito da ampliação.
Table Lens [48]: Técnica que dispõe todas as dimensões em colunas, dando a
idéia de uma tabela cujas linhas são compactadas à medida que a densidade aumenta,
de forma a garantir que todas elas sejam exibidas no espaço da tela. Para tornar uma
determinada linha legível, o usuário interage com uma lente que a “amplia”, como pode
ser observado na Figura 2.12.
Essa visualização permite que as variáveis sejam exploradas com rapidez e
individualidade, além de manter um feedback das demais variáveis relacionadas.
2.3 Visualização de Informações
32
Figura 2.10: Browser Hiperbólico. Extraído de [6]
(a)
(b)
Figura 2.11: Perspective Wall. Extraído de [39]
Figura 2.12: Uma lente amplia a região de uma das colunas,
promovendo a ampliação de toda a linha. Extraído
de [48]
2.3 Visualização de Informações
33
b) Cordenadas Paralelas
Em Coordenadas Paralelas [30, 31], as dimensões são mapeadas em eixos
paralelos eqüidistantes, os quais são usualmente dispostos na vertical. Os dados podem
ser normalizados e escalados novamente conforme o maior e o menor valor encontrado.
Esses valores podem ser definidos para cada eixo ou para um conjunto de eixos.
Figura 2.13: Coordenadas Paralelas: barras representando indicadores de produção e linhas representando a produção dos pesquisadores. Screen Shot extraído do VLattes.
Essa técnica possui, contudo, uma grave deficiência, que é a sobreposição das
linhas principalmente quando a quantidade de dados é elevada. Em tais condições, a visualização não consegue ser precisa na detecção de padrões (pois sequer gera uma silhueta
compreensível dos dados) tampouco na identificação das linhas (uma vez que estas estão
sobrepostas). No entanto, a técnica apresenta modificações que tratam exclusivamente
dessa questão, como a Parallel Clustering [15].
Star Coordinates [33] distribui os eixos em torno de um ponto central. Os
eixos podem ter tamanhos diferentes ou escalas diferentes. A visualização de projeção
bidimensional pode refletir várias informações, permitindo, de forma simples, a rápida
comparação entre as variáveis contempladas em cada eixo, como mostra a Figura 2.14. A
Figura 2.20 também é um exemplo de uso dessa técnica. Porém, ao invés de distribuir
pontos, as coordenadas são interceptadas por linhas, aproximando-se mais da técnica
original de Coordenadas Paralelas.
c) Metáforas
Consiste em uma técnica simbólica que mapeia o conjunto de dados em fatos
do mundo real. Desse modo, o desenho de uma face que expresse um sentimento pode
ser utilizado no mapeamento de classes de dados. O estereótipo físico de um indivíduo,
2.3 Visualização de Informações
34
Figura 2.14: Eixos radiais representando valores independentes.
Extraído de [33]
o tempo, o relevo, a vegetação, a hidrografia e o urbanismo são exemplos de temas que
podem metaforicamente mapear dados.
Um exemplo em especial do uso de metáforas é a técnica de Themecape, que usa
acidentes geográficos para representar informações. A Figura 2.15 exemplifica tal técnica.
Figura 2.15: Um exemplo de metáfora landscape. Montanhas representam agrupamentos de determinados tipos de
documentos. Quanto mais alta for a montanha, maior
o volume de documentos daquele tipo. A proximidade
dos acidentes é determinada pela relação que os documentos mantêm entre si.
Em uma visualização, muitas metáforas podem ser empregadas, desde que uma
não se sobreponha à outra. Além disso, espera-se que a metáfora adotada seja o mais
intuitiva possível e que o excesso de elementos não faça da atividade de análise uma
tarefa confusa e onerosa.
O componente semântico da metáfora está intimamente ligado às impressões
pessoais de cada indivíduo. Em conseqüência disso, um aspecto a ser observado no
mapeamento visual são os pré-conceitos formulados pelo usuário sobre uma determinada
ilustração. Por exemplo, a largura de um rio pode promover um sentimento positivo ou
2.3 Visualização de Informações
35
negativo no usuário, fazendo com que este, intuitivamente, chegue a certa conclusão
sobre algo que não passa de um ruído visual. Apesar de uma implementação estática
ser possível, o uso da interatividade é o que atribui expressividade à visualização, já que
permite uma exploração mais realista dos dados.
Glyphs
Essa técnica simbólica utiliza ícones para a representação dos dados.
Uma de suas primeiras aplicações foi a representação de dados por meio de facesc̃iteChernoff:1973. Via de regra, são projetados vários ícones, cada um podendo
expressar diversas variáveis (dimensões) de um subconjunto dos dados amostrados. Essa
técnica, que ficou conhecida com Faces de Chernoff, faz uso da percepção humana de
expressões faciais, mapeando dados para formatos de olhos, sobrancelhas, lábios, etc,
como exemplifica a Figura 2.16(a). Outros exemplos de técnicas pictóricas são a Star
Glyphs [13] e a Star Plot [38]. Esta última é apresentada na Figura 2.16(b). Apesar de
as técnicas baseadas em Glyphs exigirem mais tempo de treinamento – nem sempre são
intuitivas como as Faces de Chernoff, a quantidade de dimensões que elas conseguem
reduzir é seu ponto alto.
(a)Faces de Chernoff. Cada face representa um
aluno; o cabelo representa a quantidade de acesso
ao site de uma disciplina na qual estavam matriculados; a boca (feliz, séria ou triste) representa a
nota e a cor representa o sexo. Extraído de [42]
(b)Star Plots. Combina a técnica de Star Coordinates [33] com Glyphs. Cada ícone representa
professores e cada eixo uma atividade acadêmica.
Extraído de [42]
Figura 2.16: Exemplo de duas técnicas simbólicas que empregam
a técnica de Glyphs.
Desenho de Grafos
Um grafo é um modelo matemático composto por um conjunto de vértices
e arestas que os ligam. Grafos são estruturas muito utilizadas na representação de
relacionamentos. Sendo assim, se dois elementos (vértices) têm uma aresta que os liga,
significa que existe um relacionamento entre eles. A Figura 2.17(a) é um exemplo típico
2.3 Visualização de Informações
36
de um grafo para representação de estruturas hierárquicas. Outro exemplo é apresentado
na Figura 2.10 de um Browser Hiperbólico, que utiliza esse conceito para representar
caminhos entre Web Sites. O desenho de grafos inclui desafios como a sobreposição de
vértices, número de cruzamento de arestas e o posicionamento de vértices em grafos
direcionados. Muitos estudos foram desenvolvidos para se gerar desenhos de grafos mais
agradáveis e expressivos, como em [18, 19, 20, 9, 14].
Treemap
[49] Técnica utilizada na exibição da hierarquia de dados. Nela, atribui-se uma
árvore hierárquica aos dados a serem exibidos, a qual será representada por meio de
retângulos dentro de retângulos, distribuídos em uma área previamente estipulada. A área
de cada um dos retângulos pode ser definida por um valor também previamente estipulado.
A Figura 2.17(a) exemplifica o processo e representa a estrutura de pastas utilizada na
confecção dessa dissertação em LATEX. A variável utilizada para definir a área de cada
retângulo foi o tamanho em bytes dos arquivos contidos nas pastas.
Existem várias formas de arranjo das áreas dos retângulos. A Figura 2.17(b)
utiliza o método clássico de distribuição. Como pode ser observado, no primeiro nível
os retângulos são mais largos do que altos. Já os retângulos “filhos” usam a orientação
inversa, ou seja, são mais altos do que largos. Tal orientação irá se inverter a cada
nível. Essa comutação sucessiva serve, então, para demarcar a hierarquia dos nodos da
árvore. Existem também outras formas de distribuição, como o Squartifield Treemap,
Striped Treemap, Sliced Treemap e Binary Tree Treemap, que podem ser observados na
Figura 4.8.
(a) Árvore representando uma estrutura de pastas.
(b) Treemap gerado pela estrutura de pastas da
Figura 2.17(a).
Figura 2.17: Um possível uso para Treemap.
2.3 Visualização de Informações
37
2.3.4 Evoluções de Técnicas de Visualização de Informações
As técnicas de visualizações, por mais eficazes e expressivas que possam ser,
apresentam algumas deficiências. Por exemplo, a técnica de Coordenadas Paralelas deixa
de ser efetiva para grandes densidades de dados; a técnica de Themescape pode perder
expressividade quando a altura dos seus artefatos for similar; a técnica de Treemap também perde expressividade quando a árvore por ela representada for muito alta. Portanto,
observa-se que não existe uma visualização capaz de cobrir todas as necessidades sobre
um determinado conjunto de dados.
Com o intuito de se amenizar tais deficiências, existe a possibilidade de se oferecer ao usuário suítes de visualizações, permitindo que ele escolha a técnica que mais se
adeque às suas necessidades em um determinado momento [23]. Outra forma de melhorar
as visualizações dos dados é através de combinações de duas ou mais técnicas, fazendo
com que a combinação proposta reduza os pontos fracos das técnicas originais. As técnicas Browser Hiperbólico (Grafos+Foco+Contexto, Table Lens(Tabela+Lente Bifocal) e
Star Plots(Star Coordinates+Glyphs), descritas na Seção 2.3.3, são exemplos do uso de
combinações.
Por fim, uma visualização pode ser evoluída por meio da criação de novas versões
que busquem refletir relacionamentos antes não contemplados em suas versões originais,
como a proposta Parallel Clustering exibida na Figura 4.2(b). A Figura 2.18 traz alguns
exemplos de técnicas evoluídas por combinação ou pela criação de novas versões.
2.3 Visualização de Informações
38
(a) Parallel Coordinates + Star Glyphs, Extraído
de [21]
(b) Worms. Cada “minhoca” representa empresas.
A localização exprime o volume das movimentações realizadas entre cada empresa. A espessura
das minhocas representa o volume de fundos e as
arestas transações ocorrida. Extraído de [17]
(c) Mapa de Relacionamento entre Linhas de Pesquisa. Extraído de [16]
(d) Grafo de Citações. Extraído de [16]
(e) Treeecube. Extraído de [52]
(f) StepTree. Extraído de [11]
Figura 2.18: Técnicas de Visualizações, seja combinando ou evoluindo, as novas propostas permitem explorar novas
facetas nos dados
2.3 Visualização de Informações
Figura 2.19: Coordenadas Paralelas com linhas Curvas. Extraído
de [27]
39
2.3 Visualização de Informações
40
2.3.5 Visualização em Cienciometria
Algumas técnicas de Visualizações de Informações têm sido empregadas em Cienciometria. Como exemplo, tem-se a Figura 2.20, extraída de [35], que é uma visualização produzida a partir de dados cienciométricos. Essa visualização apresenta o grau de
pesquisa das nações G8 (grupo dos oito países mais ricos do mundo), com exceção da
Rússia, já que esta é uma nação que não tem renda econômica compatível com as demais.
A visualização exemplifica a redução de várias dimensões em duas e mostra como os dados podem ser sobrepostos sem afetar a sua compreensão. Os dados foram normalizados
pela média econômica das sete nações, sendo representados em um hexágono simétrico
(técnica conhecida como Star Coordinates). GDP (Gross Domestic Public) é o mesmo
que PIB (Produto Interno Bruto); R&D (Research and Development) é o mesmo que
P&D (Pesquisa e Desenvolvimento); HERD (High Education Funding of R&D) indica o
capital de investimento da educação superior em P&D.
Figura 2.20: Comparação dos investimentos financeiros (incomes)
com os resultados científicos (outcome). Extraído
de [35]
CAPÍTULO 3
Questões Estratégicas em C&T e os
Compêndios da Produção Científica
No Capítulo 2.3, discutiu-se acerca de uma metodologia genérica para a criação
de novas visualizações. Tal metodologia requer a interação entre três entidades envolvidas
no processo de análise de dados: o conjunto de questões, a base de dados e a visualização
propriamente dita. Como a proposta desse trabalho é definir visualizações que promovam
a eficácia e a efetividade na exploração de dados cienciométricos, faz-se necessário o
levantamento das questões envolvidas na atividade de análise de dados de produção acadêmica. Outrossim, é necessário também um levantamento das bases de dados existentes
que possam prover os dados suficientes para se responder às questões propostas.
Nesse capítulo, as principais questões envolvendo Ciência e Tecnologia no
âmbito nacional são apresentadas, bem como os principais compêndios de informações
cienciométricas.
3.1
Levantamento de Questões Estratégicas
De forma a confirmar o interesse real de pesquisadores e gestores de recursos
em Cienciometria e também identificar outras questões particularmente brasileiras, foram
realizadas entrevistas com profissionais ligados a atividades cienciométricas no estado
de Goiás. Para a realização das entrevistas, elaborou-se um questionário, que pode ser
verificado no Apêndice B.2. A partir desse questionário, fez-se um levantamento das
principais necessidades de informação de três gestores de ciência da UFG e da UCG,
os quais têm que lidar com uma série de variáveis atribuídas a um amplo quadro de
pesquisadores. Esse levantamento, que será detalhado nas próximas seções, determinou
as principais informações cienciométricas a serem evidenciadas por uma visualização.
As entrevistas foram realizadas nos ambientes de trabalhos dos entrevistados. Utilizou-se
somente uma caneta e um questionário, que era preenchido pelo entrevistador à medida
que os entrevistados respondiam às perguntas. Ao final, diziam se seus nomes podiam ou
não ser divulgados na pesquisa. Todos optaram por não serem identificados.
3.1 Levantamento de Questões Estratégicas
42
Independentemente da base de dados utilizada pelos entrevistados ou da forma
com que os dados eram coletados e manipulados, muitas questões vieram à tona. Após o
agrupamento das questões propostas, elaborou-se uma lista de perguntas, a qual pode
ser conferida abaixo. Para facilitar a exposição das questões, as entidades que geram
produção científica, tais como instituições, unidades acadêmicas, grupos de pesquisa e
pesquisadores, são denominadas genericamente aqui como “atores da ciência”.
• Q1 - Quais são os atores mais produtivos?
• Q2 - Quais os índices de produção atingidos pelos atores em determinado período
de tempo?
• Q3 - Qual o perfil de publicação dos atores?
• Q4 - Qual o volume de investimento financeiro que os atores estão recebendo?
• Q5 - Qual o índice de citação que os atores estão obtendo?
• Q6 - Como os atores se relacionam?
• Q7 - Atores com altos índices de produção em um determinado indicador também
obtêm altos índices em outros indicadores?
• Q8 - Quem são os atores que atingem certo índice de produção?
• Q9 - Quais são os atores que pertencem a determinado perfil de publicação?
• Q10 - Qual o tempo de serviço de um pesquisador?
• Q11 - Qual o tempo de serviço de um pesquisador em uma determinada instituição?
• Q12 - Qual a idade de um pesquisador?
• Q13 - Qual o sexo de um pesquisador?
• Q14 - Qual a titulação de um pesquisador?
• Q15 - Qual a quantidade de pesquisadores em determinado grupo, unidade ou
instituição?
• Q16 - Qual o cenário (distribuição) da produção acadêmica em uma unidade ou
instituição?
• Q17 - Qual impacto que os indivíduos provocam sobre a classificação das suas
comunidades grupos (unidades, instituições, etc)?
• Q18 - Quais são os atores que mais publicam em revistas indexadas?
• Q19 - Qual a região do país que mais se destaca em orientações de doutorado?
• Q20 - Em um contexto geral, qual ator que mais se destaca na pesquisa de uma
determinada tecnologia?
3.2 Bases de Dados Acadêmicas e de Produção Bibliográfica
43
• Q21 - Como os atores se relacionam/ cooperam entre si?
• Q22 - Como a pesquisa evoluiu historicamente em dada região do país?
• Q23 - Qual a distribuição da produção científica pelos seus atores em uma determinada área ou linha de pesquisa?
A utilidade dessas questões é inerente às atividades exercidas pelos entrevistados. Por exemplo, um entrevistado revelou que utiliza uma base interna de pesquisadores
de sua instituição para aferir os dados de produção científica. As informações coletadas
permitem que ele obtenha visões acerca da pesquisa em sua unidade e que escolha pesquisadores para participarem como colaboradores em editais. A seleção de pesquisadores
visa também à elaboração de argumentos persuasivos que aumentem as chances de captação de verbas. Para a realização desse procedimento, o entrevistado utiliza apenas certos
indicadores, como a quantidade de artigos completos em periódicos nacionais e internacionais, resumo em periódico internacional e artigos completos em evento internacional.
As entrevistas apontaram não somente as questões intrínsecas à atividade discutida, mas também diversas dificuldades enfrentadas pelos usuários das bases de dados
acadêmicas. Além da falta de um modelo específico para se analisar uma produção científica qualitativa em detrimento de uma puramente quantitativa, existem poucas ferramentas
especializadas na extração e exploração dessas informações.
Para exemplificar tal fato, um entrevistado relatou que varre mensalmente os currículos Lattes de todos os pesquisadores de sua instituição para promover o levantamento
de suas respectivas produções no referido mês. Essa atividade exaustiva inclui também
uma análise sistemática dos veículos de publicação onde os trabalhos foram aceitos. Uma
vez coletados, os dados são enviados a agentes externos, como o CNPq e a CAPES.
Nota-se, a partir do exposto, a necessidade de se desenvolver ferramentas que
facilitem a atividade de exploração das bases de dados. Mais uma vez, verifica-se que
a Visualização de Informações pode atuar como ferramenta de exposição ou de análise
dos dados, promovendo um ganho significativo nas atividades de exploração de dados
cienciométricos.
3.2
Bases de Dados Acadêmicas e de Produção Bibliográfica
Para suprir as necessidades na investigação cienciométrica, os pesquisadores têm
se utilizado de várias fontes de pesquisa, as quais podem ser classificadas genericamente
em três classes distintas: bases de publicações científicas, bases de citações bibliográficas
e bases curriculares. Nessa seção, são discutidas as principais bases representantes dessas
classes.
3.2 Bases de Dados Acadêmicas e de Produção Bibliográfica
44
As bases de publicações científicas compreendem todas as revistas e jornais
especializados nas mais variadas áreas do conhecimento humano. São essas bases que
mantêm o compêndio material de tudo aquilo que é produzido pela ciência. Como
exemplo de bases de publicações com grande abrangência temática, pode-se citar o
CiteSeer e o PubMed, ferramentas de maior abrangência temática. A ACM, Nature e
IEEE são exemplo de grandes bases de dados especializadas em tecnologia. No Brasil, a
CAPES disponibiliza uma lista que classifica a importância de centenas de revistas tanto
de circulação nacional como internacional. Denominada como Qualis, essa lista é de suma
importância para uma análise qualitativa da produção científica. Porém, em decorrência
de sua descentralização, a pesquisa nessas bases de publicação se configura como uma
tarefa árdua, exigindo horas de dedicação para se extrair uma pequena quantidade de
dados consolidada.
A principal característica das bases de citações bibliográficas é o desenvolvimento de mecanismos de busca para textos técnicos contidos nas bases de publicações
científicas. Nesse contexto, o Google Scholar tem despontado como uma ferramenta bastante útil à pesquisa de material acadêmico, já que tem grande abrangência, é de fácil
utilização e oferece recursos avançados para uma pesquisa com maior acuidade.
Além de agrupar trabalhos relacionados por tema ou autor, o Google Scholar
oferece a quantidade de citações de um determinado artigo e uma lista de autores que
o citaram. Essas informações são importantes para as aplicações que conseguem utilizar
tal ferramenta de forma automatizada. A partir dessa possibilidade, tais aplicações geram
uma pontuação quantitativa automática de um trabalho específico ou até mesmo de um
autor.
Embora o Google Scholar tenha alcançado uma considerável relevância nos seus
poucos anos de existência, a liderança em base de dados de citação bibliográficas ainda
pertence à multimilionária Thomson Corporation. Esta companhia é líder mundial no provimento de informações em diversas áreas, como a área legal, a financeira e a científica.
A sua ramificação responsável por fornecer informações sobre a ciência, denominada de
Thomson Scientific [7], é formada por um conglomerado de várias ferramentas e bases de
dados sobre publicação científica. Pertencem a Thomson Scientific as ferramentas Web
of Science [8], Journal Citation Reports [4], Essential Science Indicators [2], ISI Web
of Knowledge [3], Science Citation Index [5]. Tal rede de informações constitui o maior
repositório de citações bibliográficas da atualidade.
Ainda que seja de grande importância no cenário internacional, a Thomson Scientific não é um meio apropriado para a análise científica nos países em desenvolvimento,
uma vez que adota um processo de seleção que favorece as revistas de circulação internacional, geralmente originárias de países ricos [51, 41].
Em se tratando das bases curriculares, é possível afirmar que se diferem
3.2 Bases de Dados Acadêmicas e de Produção Bibliográfica
45
das demais bases no que diz respeito a sua matéria. Ao contrário das bases de citação
e de publicação, que têm seu foco na produção científica, as curriculares focalizam o
pesquisador. Existem várias bases curriculares, muitas delas mantidas internamente pelas
próprias universidades, como é o caso do Sistema de Cadastro de Atividades Docentes da
UFG (SICAD).
As bases internas, apesar de terem sua abrangência limitada, posicionam-se
como importante ferramenta para a análise da produtividade científica nas instituições
que as mantêm. Por serem mais específicas, geralmente contêm informações que uma
base de dados curricular mais genérica não contemplaria. Pode-se citar, como exemplo,
o histórico das progressões funcionais vivenciadas pelos pesquisadores, o histórico dos
cargos administrativos exercidos pelos mesmos no decorrer de seu serviço na instituição
ou até mesmo informações relacionadas à remuneração, aos investimentos captados, etc.
Essas informações são particularmente úteis para a cienciometria, pois possibilitam uma
análise do impacto dos investimentos na quantidade e qualidade das publicações.
Além das bases curriculares internas, outras bases de acesso também se despontam como importantes compêndios cienciométricos. Exemplo disso é a base do PINGIFES, ainda restrita ao MEC, que agrega informações acadêmicas de todas as Instituições
Federais de Ensino Superior (IFES). Através dessa base, o MEC pode analisar as atividades de ensino e distribuir recursos.
Apesar da visível relevância das bases curriculares acima mencionadas para
a atividade cienciométrica, são de abrangência limitada, em parte por causa da sua
especificidade, como é o caso das bases particulares das instituições, em parte por suas
restrições de publicação e acesso.
No Brasil, uma importante referência para a pesquisa nacional é a Plataforma
Lattes, do CNPq. Nela, são os próprios pesquisadores os responsáveis por publicar seus
dados de produção, preenchendo formulários que tentam padronizar a inclusão de cada
tipo de informação oferecida. Dessa forma, pesquisadores e alunos podem tornar públicas
suas atividades profissionais e suas produções científicas.
A escolha da plataforma Lattes como base de dados para as visualizações
desenvolvidas no presente trabalho se deu por sua relevância nacional. A eleição de uma
base curricular em detrimento das demais se justifica também pelo fato de as bases de
publicação e citação não apresentarem, em boa parte dos casos, a produção científica de
países em desenvolvimento de forma completa [41, 51].
3.2.1 A Plataforma Lattes
O CNPq tem desenvolvido um conjunto de sistemas de informações, bases de
dados e portais Web direcionados para a gestão de C&T, denominado de Plataforma Lattes
3.2 Bases de Dados Acadêmicas e de Produção Bibliográfica
46
(PL). Desde o seu lançamento em 1999, essa plataforma agrega milhares de currículos.
Obteve, nos últimos anos, uma projeção internacional através de parcerias estabelecidas
com países da América e Europa, formando a Rede ScienTI [46]. Atualmente, a sua base
de dados detém mais de 800 mil currículos, dos quais 30% são de mestres e doutores e
38% de graduandos e graduados [1]. A Figura 3.1 expõe maiores detalhes sobre o perfil
dos currículos contidos na PL.
(a) Plataforma Lattes, Alto Nível de Formação
(b) Plataforma Lattes, Doutores por Área do Conhecimento
(c) Plataforma Lattes, Instituições por Setor
Econômico
Figura 3.1: Plataforma Lattes em números. Extraído de [1]
O acesso aos dados da PL pode ser realizado de duas formas: pela pesquisa
pontual de pesquisadores ou por um convênio institucional chamado de Extrator Lattes.
Para se promover esse intercâmbio de informações entre as várias instituições interessadas nos dados contidos na PL, foi criada a Comunidade para Ontologias em Ciência,
Tecnologia e Informações de Aperfeiçoamento de Nível Superior (CONSCIENTIAS), advinda da Comunidade LMPL (Linguagem de Marcação da Plataforma Lattes). É função
da CONSCIENTIAS promover a padronização de meios para a exportação massiva dos
dados contidos na Plataforma Lattes.
Linguagem de Marcação da Plataforma Lattes - LMPL
Com o intuito de se promover a socialização dos dados contidos na Plataforma
Lattes, bem como tornar possível a integração de suas bases de dados com os mais variados sistemas utilizados pelas instituições de pesquisa, foi desenvolvida uma ontologia
3.2 Bases de Dados Acadêmicas e de Produção Bibliográfica
47
chamada LMPL ou Linguagem de Marcação da Plataforma Lattes. Essa linguagem utiliza
o padrão XML para atribuir significado aos dados da plataforma. Assim, os sistemas podem interoperar utilizando esses padrões, sem necessariamente compartilharem a mesma
estrutura de armazenamento de dados [46]. A Figura 3.2 apresenta um exemplo de um
currículo típico fornecido pelo Extrator Lattes em XML.
Figura 3.2: Um currículo típico em XML/LMPL
Não há dúvidas quanto ao benefício dessa ontologia. Mesmo assim, ainda
persistem alguns problemas que, aliás, são pertinentes à cienciometria. O mais importante
deles é a identificação unívoca de um pesquisador. Apesar de se atribuir um identificador
(id) a cada pesquisador, esse id ainda não é utilizado na tabela de co-autoria. Em vista
disso, homônimos e erros na digitação ocasionam problemas na análise dos dados. A
assertividade das informações contidas nos currículos, que são preenchidos pelos próprios
pesquisadores, é outra questão que também se configura como um problema. Exemplo
disso é a Figura 3.1(a), extraída do próprio site da PL, na qual se observa que 11%
dos pesquisadores cadastrados na base não informaram o seu nível de formação. A falta
de dados sobre a instituição e/ou unidade onde o pesquisador atua, nomes de unidades
escritos de maneiras diferentes ou abreviados, discriminação de departamentos contidos
em uma mesma unidade são exemplos de falhas existentes em muitos currículos.
Contudo, a Plataforma Lattes é a base de informação científica mais importante
do Brasil e será utilizada por esse trabalho para popular as bases de dados internas
3.3 A Tríade: Questões - Base de Dados - Visualização
48
das ferramentas visuais desenvolvidas. Na Seção 3.3, comenta-se acerca de possíveis
associações existentes entre as questões apontadas na Seção 3.1, as bases de dados e
as visualizações.
3.3
A Tríade: Questões - Base de Dados - Visualização
Como já foi exposto, existem diferentes fontes de informações cienciométricas.
Cada uma tem suas limitações, tais como restrições de acesso, abrangência limitada e
conjunto de variáveis distintas. Nesse contexto, nenhuma base atual possui todos os dados
e associações necessários para se responder a todas as questões levantadas na Seção 3.1.
Por exemplo, a Plataforma Lattes não está apta a responder questões sobre co-autoria,
uma vez que a identificação dos pesquisadores não tem sido utilizada na tabela de coautoria1 Isso comprova que algumas bases são mais adequadas à análise de determinados
tipos de questões do que outras.
De forma similar, existem visualizações que são mais adequadas para se responder a um determinado conjunto de questões. A técnica de Coordenadas Paralelas exemplifica tal afirmação, e isso porque o seu emprego na análise simultânea de vários indicadores
cienciométricos produz efeitos mais relevantes. Já o Desenho de Grafos é a técnica que
melhor se enquadra na representação de cadeias de citações ou de co-autorias. As questões
envolvendo hierarquias, como pesquisadores e suas respectivas instituições, são melhores
representadas por um Tremap. Metáforas também podem ser utilizadas para se obter respostas referentes a um considerável quadro de questões. Exemplo disso seria a utilização
de uma Themescape, na qual os relevos representariam níveis de produção acadêmica, a
cor da “grama” representaria capital investido e os fios de alta-tensão cooperação entre
instituições.
Depreende-se, então, que a criação de uma visualização que seja uma panacéia
é praticamente impossível. Mesmo se houvesse uma convergência dos dados em uma
única fonte, a variedade de questões cienciométricas existentes ainda não poderia ser
contemplada por uma única visualização. Dessa forma, as visualizações propostas nesse
trabalho se referem a apenas um pequeno conjunto de questões cienciométricas. Para
tanto, utiliza-se a Plataforma Lattes como fonte de dados.
1A
PL já oferece suporte para utilização de um código internacional do pesquisador, mas esse recurso
não tem sido utilizado amplamente.
CAPÍTULO 4
Propostas de Visualização para Bases de Dados
Curriculares
Os capítulos anteriores expuseram as atividades concernentes à Visualização
de Informações, bem como os problemas vivenciados na atividade de análise de dados
cienciométricos. Essa seção, por sua vez, apresenta duas propostas de visualizações que
sejam úteis à exploração de bases de dados sobre a ciência. As visualizações propostas se
baseiam na combinação de técnicas clássicas de visualizações.
4.1
CoordLensView: Indicadores de Produção com Coordenadas Paralelas e Foco+Contexto
4.1.1 Definição da Visualização
A visualização proposta intenta responder as questões Q3, Q8, Q9 e Q18,
levantadas na Seção 3.1. Para tanto, ela depende de uma base de dados que contenha
todos os indicadores de produção a serem analisados, os nomes dos pesquisadores e a
quantidade total de produção dos mesmos para cada indicador aferido. A visualização
combina a técnica de Coordenadas Paralelas, posicionada no lado esquerdo, com a técnica
de Lente Bifocal, posicionada no lado direito, como pode ser observado a Figura 4.1. Na
região das coordenadas paralelas, cada indicador é mapeado para um conjunto de eixos
paralelos e a produção é mapeada para uma linha que intercepta esses eixos.
Os eixos paralelos são escalados pelo maior valor de produção de todos os
indicadores, promovendo assim a equidade da escala entre os mesmos. Em cada grau da
escala, é adicionado um retângulo sólido, que é chamado de marca ou “ant footprint”
(que será comentada na Seção 4.1.2). A largura desse retângulo é duas vezes a largura
do eixo no qual está centralizado. Sua altura, por sua vez, é determinada pela razão entre
a quantidade máxima de pixels verticais que podem ser alocados para se desenhar o eixo
e o seu valor máximo. A cor da marca, inicialmente preta, tende ao vermelho à medida
4.1 CoordLensView: Indicadores de Produção com Coordenadas Paralelas e Foco+Contexto
50
que há mais linhas interceptando o ponto no qual ela está desenhada. A abreviação do
indicador de produção aferido por um determinado eixo é escrito na sua base.
Na região da lente bifocal se encontra uma lista com os nomes dos pesquisadores ordenados lexicograficamente. Juntamente com cada nome é apresentado um valor
consolidado de produção, o qual é obtido por meio da soma ponderada das pontuações
atingidas em cada indicador de produção. Ainda existe uma lente bifocal que consegue
ampliar até cinco pesquisadores por vez, criando automaticamente uma legenda de cores.
Essa combinação de duas visualizações permite diversas formas de interação.
Na região das coordenadas paralelas, o usuário pode adicionar restrições de intervalos de
valores sobre cada um dos eixos. O usuário pode criar várias restrições sobre o mesmo
eixo ou em eixos distintos. Restrições adicionadas a um mesmo eixo são calculadas
usando o operador lógico OU. Já restrições adicionadas a eixos diferentes são calculadas
através do operador lógico E. A Figura 4.1 é um exemplo de uso de restrições. No caso
mostrado, as linhas que não fazem parte do conjunto formado pela regra (7 ≤Orientações
Graduação≤ 17 OU 30 ≤Orientações de Graduação≤ 74) E (3 ≤Orientações Mestrado≤
11) ficam em segundo plano (inativas).
Figura 4.1: Adição de intervalos de valores. Regras em um mesmo
eixo são tratadas através do operador lógico “OU”,
enquanto regras em diferentes eixos são tratadas através do operador lógico “E”.
As restrições realizadas nas coordenadas paralelas também mudam a visualização da lente bifocal. Pode-se notar na Figura 4.1 que, na lista de pesquisadores, os nomes
daqueles que tiveram a sua produção incluída no conjunto estabelecido pelas restrições
são destacados.
Outra forma de interação é a possibilidade de se estabelecer pesos para os
indicadores referenciados pelos eixos através de uma caixa de texto presente na base de
cada coordenada paralela.
Na região da lente bifocal, o usuário pode deslizar a lente, ampliando os nomes
dos pesquisadores e fazendo com que suas linhas assumam a cor referenciada pela legenda
criada dentro da lente. O usuário pode também ativar o filtro da lente ocultando as linhas
que não pertencem aos pesquisadores ampliados na região das coordenadas paralelas.
4.1 CoordLensView: Indicadores de Produção com Coordenadas Paralelas e Foco+Contexto
51
4.1.2 Discussões
Para responder às questões propostas por essa visualização, é necessária uma
análise individual dos múltiplos indicadores de produção e da capacidade de se relacionar
cada pesquisador aos valores aferidos. A técnica de Coordenadas Paralelas é viável para
atender a primeira solicitação, porém, não possibilita uma identificação eficiente das
linhas traçadas, e isso por duas razões. Primeiramente, quando as linhas convergem para
um determinado ponto em um eixo, já não é mais possível identificá-las no próximo
eixo, conforme pode ser observado na Figura 4.3(a). Em segundo lugar, quando a
quantidade de pesquisadores aumenta, não é mais possível a identificação das linhas e
dos nomes dos pesquisadores. Dependendo do volume de dados, a visualização pode
ficar totalmente ilegível, perdendo sua expressividade. Com o intuito de se melhorar
a exibição dos dados sob essa condição, algumas variações da técnica de coordenadas
paralelas foram desenvolvidas, como as Coordenadas Paralelas Hierárquicas [24] ou a
Uncovering Clusters in Crowded Parallel Coordinates Visualizations [15].
(a) Coordenadas Paralelas Hierárquicas. Extraído
de [24]
(b) Parallel Clustering, identifica e destaca grupos de linhas com tendências similares. Extraído
de [15]
Figura 4.2: Técnicas que procuram aumentar a expressividade da
técnica de coordenadas paralelas para grandes quantidades de dados.
No presente trabalho, minimiza-se o problema da exibição dos nomes dos pesquisadores colocando-os em uma lista isolada na qual esses nomes podem ser ampliados
por uma lente bifocal. Para se promover a relação dos pesquisadores com suas respectivas
linhas de produção, é utilizada uma legenda de cores. Porém, seria inviável o uso dessa
legenda para todos os nomes, uma vez que pequenas variações nas cores não são perceptíveis. Por esse motivo, atribuiu-se à lente a função de gerar uma legenda de cores para
4.1 CoordLensView: Indicadores de Produção com Coordenadas Paralelas e Foco+Contexto
52
os nomes por ela ampliados. Dessa forma, à medida que o usuário desliza a lente, pode
também visualizar as linhas dos pesquisadores ampliados, como mostra a Figura 4.3(b).
(a) Perda de identificação após um (b) Uso de uma lente para se destacar um grupo de
feixe de linhas confluir para um ponto pesquisadores e gerar uma legenda para a identificação
de um eixo.
de suas linhas de produção.
Figura 4.3: O problema da identificação de linhas e uma possível
solução.
A sobreposição de linhas é outro problema enfrentado pela técnica de coordenadas paralelas. Para se oferecer pelo menos uma referência visual da quantidade de pesquisadores que atingiram uma determinada pontuação em um indicador de produção, foram
adicionadas as marcas de cores, que aqui são chamadas de Ant Footprints.
Essa idéia veio do fato de as formigas deixarem um rastro de feromônios por
onde passam. Quanto mais formigas passarem por um ponto, maior a quantidade de
feromônio exalado naquela região. Analogicamente, a cor de um determinado ponto em
um eixo fica gradativamente mais vermelha à medida que mais linhas “passam” por aquele
ponto, como mostra a Figura 4.4.
Figura 4.4: Ant Footprints: pontos mais vermelhos representam
maior sobreposição de linhas.
4.2 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping
4.2
53
CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping
4.2.1 Definição da Visualização
Na presente seção, são propostas duas visualizações que intentam responder às
questões Q1, Q8, Q15, Q16 e Q17, levantadas na Seção 3.1. Para tal, requer-se uma
base de dados que contenha todos os indicadores de produção de pesquisadores com
informações sobre sua instituição e unidade acadêmica. Além desses dados, deve ser
computada a média da produção desses pesquisadores com base nos indicadores de
produção aferidos e os pesos associados aos mesmos.
Os dados devem estar organizados em uma estrutura hierárquica de árvore, como
mostra a Figura 4.5. As folhas dessa árvore representam os pesquisadores com suas
médias de produção. O cálculo do valor de cada nodo interno se dará pela média das
folhas da sub-árvore enraizada neste nodo.
Figura 4.5: Organização dos dados utilizados pelo Themescape.
A primeira visualização, que é chamada de CityView, é baseada na metáfora de
uma cidade composta por edifícios. Existem quatro níveis de cidades. A cidade zero é
4.2 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping
54
aquela que representa a raiz da árvore apresentada na Figura 4.5. A cidade 1 representa
o nível 1, e assim sucessivamente. Os edifícios representam os elementos de cada nível e
suas alturas são definidas pelos valores de produção aferidos a cada nodo.
Já a área que cada edifício ocupa, representa a quantidade de folhas da subárvore enraizada naquele nodo, ou seja, representa a quantidade de pesquisadores lotados
naquela unidade ou instituição. Para se definir a posição geográfica que cada edifício
ocupa na cidade, é utilizada a técnica de Treemap [49]. Assim, pesquisadores referentes
a uma mesma unidade ficaram visualmente juntos dentro da região retangular definida
pelo Treemap. As unidades, por sua vez, estão dentro de um retângulo que representa sua
instituição.
Variações de cores do tipo Matiz/Saturação/Brilho (HSB) são utilizadas para
demarcar cada área ocupada por um edifício. Na cidade 1, são definidas cores sólidas para
cada um dos seus edifícios. Na cidade 2, o matiz e a saturação das cores anteriormente
definidas permanecem. Dessa forma, somente o brilho varia para os novos edifícios que
ocuparem a área de seus predecessores. Na cidade 3, permanecem o matiz e o brilho,
variando a saturação. A Figura 4.6 ilustra o mapeamento acima descrito.
O usuário pode facilmente rotacionar a cidade, transladá-la e aplicar zoom
sobre ela, bem como navegar entre seus níveis. Além disso, pode mover um “plano de
intersecção” para auxiliá-lo na comparação da altura dos edifícios, como exemplifica a
Figura 4.7. No mais, outros algoritmos de layout utilizados pelo Treemap também podem
ser selecionados a fim de se permitir outras formas de organização espacial dos edifícios,
como mostra a Figura 4.8.
Enfim, o usuário pode estabelecer pesos para os indicadores de produção, alterando a pontuação de todos os pesquisadores e, por conseqüência, a altura dos edifícios.
A metáfora usada na segunda visualização é a da visão que uma pessoa teria
se olhasse para baixo estando no alto de uma torre de um sino: uma escadaria cíclica,
apresentando detalhes dos degraus mais próximos e os demais sobrepostos até atingirem
o chão. O mapeamento e as interações dessa visualização são idênticos aos utilizadas
na visualização anterior. Para se produzir o efeito dessa visão, as laterais dos edifícios
não foram desenhadas, fazendo com que a visualização ficasse “vazada”. Adicionou-se
também um plano azul para se demarcar a base, dando uma idéia de piso. As alturas
são proporcionalmente maiores do que as da visualização anterior. A Figura 4.8 mostra
exemplos desta visualização.
4.2.2 Discussões
A técnica de Themscape foi escolhida por permitir a fácil comparação dos
elementos do conjunto amostrado. Há ainda o fato de sua exploração tridimensional ser
4.2 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping
(a) Cidade Zero, consolidando todas as instituições aferidas.
(b) Cidade 1, representando as
instituições. A cada edifício se
atribui uma cor HSB.
(c) Cidade 2, representando as
unidades acadêmicas. Para cada
edifício é atribuido uma variação
da componente B da cor HSB do
edifício predecessor.
(d) Cidade 3, representando os
pesquisadores. A cada edifício se
atribui uma variação da componente S da cor HSB do edifício
predecessor.
55
Figura 4.6: Metáfora de uma cidade composta por edifícios cujas
altura e área correspondem, respectivamente, à produção e à quantidade de pesquisadores. A distribuição é
definida por um Treemap [49].
altamente intuitiva, pois retrata, guardadas as devidas proporções, um mundo parecido
com aquele ao qual as pessoas já estão habituadas. No mundo real, as pessoas enxergam,
caminham e pensam em três dimensões. Também é comum que elas se impressionem com
os grandes arranha céus. Em conseqüência disso, os conceitos abordados pela metáfora
proposta têm chances de serem facilmente assimilados pelos usuários. Uma avaliação
discutida no Capítulo 6 aponta para esse fato.
Um problema em se construir uma “cidade da ciência” é a definição do posicionamento dos blocos (edifícios) dentro do mapa. Muitos trabalhos têm usado o grau de
afinidade para definir a posição dos elementos na visualização. Esse grau de afinidade
analisa os relacionamentos entre os elementos do conjunto e, por meio de heurísticas,
definem a sua melhor localização no mapa. No contexto abordado, tais relacionamentos
poderiam ser calculados por uma tabela de co-autoria ou a partir da rede de citação que
4.2 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping
56
Figura 4.7: O uso do plano de interseção possibilita ao usuário
comparar com mais facilidade a altura dos edifícios.
um pesquisador promove.
No presente trabalho, contudo, optou-se por abordar de forma diferenciada o
problema da distribuição dos elementos, priorizando não os relacionamentos, mas sim
a quantidade de elementos em cada conjunto. Visualizar a cardinalidade do conjunto é
importante para se extrair informações tais como o nível de eficiência do grupo ou o
impacto do numerário sobre o consolidado da produção final. Além do mais, a questão
da distribuição dos elementos não se resume apenas ao problema clássico de secções
de áreas. A visualização deve permitir a exibição hierárquica dos pesquisadores que se
encontram inseridos nas unidades acadêmicas e instituições. Por esse motivo, escolheu-se
agregar a técnica de Treemaping à técnica de Themescape para se definir a localização de
cada edifício.
Mesmo assim, a simples fusão das duas técnicas, como propõe a técnica StepTree [11], não permitiria uma análise detalhada dos grupos e indivíduos. Por essa razão,
foi criada a idéia de cidades que evoluem a níveis diferentes de acordo com a necessidade
de análise do usuário. Assim, este poderia realizar uma análise do estado geral de uma
instituição e simplesmente evoluir toda a visualização a um nível mais detalhado, observando, por exemplo, como a média do nível anterior foi composta pelo atual cenário de
suas unidades.
Diferentemente da CoordLens, proposta na Seção 4.1, a CityView e a BellTowerView não permitem a exibição dos indicadores de produção, mas sim a de um único valor,
o qual é gerado a partir de um cálculo realizado com os indicadores individuais. Porém,
a metodologia de análise cienciométrica é muito vasta e a visualização deve, de alguma
forma, flexibilizar o cálculo do valor consolidado.
Uma deficiência já conhecida na abordagem de Themescape é a obstrução que
as regiões mais altas geram sobre as mais baixas. Para amenizar esse efeito, podem ser
adotadas duas soluções: promover a transparência dos blocos ou construir apenas o seu
4.2 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping
(a) Squartifield Treemap
(b) Strip Treemap
(c) Slice Treemap
(d) Binary Tree Treemap
57
Figura 4.8: Diferentes layouts de Treemap, o usuário pode escolher a distribuição mais conveniente.
topo. Criar objetos transparentes nem sempre é viável, uma vez que tal procedimento
produz excesso de informações visuais, fato que reduz a eficácia da visualização. Pode-se,
de outra forma, criar uma transparência somente em uma determinada região estabelecida
pelo usuário. Dois exemplos da aplicação de transparência são mostrados na Figura 4.10.
Outra forma de se reduzir o efeito da obstrução acima mencionado é não
desenhar as paredes dos blocos, produzindo uma informação totalmente vazada, que é
o caso do BellTowerView. Ainda que gere uma visualização densa, essa solução é menos
complexa do que o uso de uma transparência, na qual as paredes dos blocos interferem
visualmente sobre a imagem formada através dos mesmos.
Por causa disso, propôs-se a visualização da torre do sino, que possibilitaria ao
usuário comparar com mais clareza os elementos antes obstruídos pela visualização da
cidade. Para facilitar a comparação dos elementos, a escala da altura foi aumentada,
4.2 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping
(a) Uma visão lateral de uma torre
do sino. Extraído de [36]
(c)
58
(b)
(d)
Figura 4.9: A visão da Torre do Sino. O usuário pode posicionar a
visualização em diversos ângulos para obter informações diferentes.
evidenciando-se a diferença existente entre topos com alturas semelhantes. Ambas as
visualizações contam com um plano que intercepta os blocos ou os topos, facilitando
a comparação de suas alturas.
4.2 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping
(a) Treecube, Extraído de [52]
(b) Themescape Hierárquico com transparência
Figura 4.10: As transparências reduzem sensivelmente o efeito da
obstrução. Geram, porém, distrações na visualização.
59
CAPÍTULO 5
Ferramentas Implementadas
Esse capítulo apresenta as ferramentas VLattes (VisualLattes) e GLattes(GeoLattes), as quais implementam as visualizações propostas nas Seções 4.1 e 4.2,
respectivamente. A arquitetura na qual as ferramentas são projetadas é discutida na
Seção 5.1
5.1
Arquitetura Conceitual das Ferramentas VLattes e
GLattes
Vários tipos de recursos computacionais de hardware e software foram utilizados
no desenvolvimento das ferramentas GLattes e VLattes. Um esquema da arquitetura a
partir da qual as ferramentas foram concebidas é mostrado na Figura 5.1.
Como pode ser notado, as camadas de importação, banco de dados e exportação
são comuns às duas ferramentas, assim como o primeiro nível da camada de programação
(Java). Por tal motivo, será iniciada uma discussão preliminar sobre essas camadas.
Posteriormente, as especificidades de cada uma das ferramentas implementadas serão
abordadas.
5.1.1 Base de Dados e Linguagem de Progração
Para a camada de dados, o Sistema Gerenciador de Banco de Dados (SGBD)
escolhido foi o MySql. O MySql é um SGBD robusto e conta com uma versão gratuita.
É oferecido como opção de banco de dados pela grande maioria dos servidores Web.
Devido ao fato de existirem versões do MySql para diversas plataformas, a portabilidade
dos dados é garantida. O Sistema oferece uma API para comunicação direta com JDBC
ou uma conexão ODBC/JODBC. No Apêndice A.4 é apresentado o script SQL para a
criação do banco de dados em MySQL. Abaixo, as tabelas utilizadas pelo banco de dados
interno são descritas.
5.1 Arquitetura Conceitual das Ferramentas VLattes e GLattes
61
Figura 5.1: Arquitetura Conceitual VLattes/GLattes.
• IES – entidade responsável por armazenar o nome e a sigla das Instituições de
Ensino Superior;
• UnidadeAcademica – entidade responsável por armazenar o nome e o tipo da unidade acadêmica. Alguns currículos são desprovidos da unidade onde um pesquisador está lotado. Neste caso, a camada de importação LMPL tenta utilizar o órgão
onde o pesquisador declarou trabalhar. Dessa maneira, o campo Tipo pode ser “Unidade”, “Orgão” ou NT (não tem). Atualmente essa entidade não é utilizada pelo
VLattes.
• TipoProdução – entidade responsável por armazenar o nome e a abreviação dos
tipos de produção, e.g. “Artigos publicados em periódicos científicos especializados
de circulação nacional com corpo editorial”, “Capítulo De Livro”, “Orientação
Doutorado”, etc;
• Pesquisador – entidade responsável por armazenar o nome do pesquisador e
relacioná-lo com uma instituição (através da chave estrangeira keyIES) e com uma
unidade acadêmica (através da chave estrangeira keyUnidade);
• Produção – entidade responsável por armazenar a soma individual das produções
de cada pesquisador por ano de publicação. Para cada tipo de produção aferido no
5.1 Arquitetura Conceitual das Ferramentas VLattes e GLattes
62
currículo do pesquisador uma tupla é gerada, relacionando o pesquisador (através
da chave estrangeira keyPesquisador) com um tipo de produção (através da chave
estrangeira keyTipoProducao);
A fim de se permitir a integração com a base curricular Lattes, desenvolveu-se
um plugin capaz de ler um diretório contendo currículos no formato LMPL e de importálos ao banco de dados interno. Esse plugin, implementado na Universidade Católica
de Goiás pelo pesquisador Rogério Fiúza, utiliza a API org.w3c e org.xml.sax de Java
para analisar cada um dos currículos, extraindo primeiramente os dados pessoais do
pesquisador, como nome, instituição e unidade e, posteriormente, consolidando os seus
dados de produção acadêmica.
Apesar da adoção da Plataforma Lattes, as ferramentas são independentes de
bases de produção acadêmica. Como se observa na Figura 5.1, foi prevista uma camada
de importação que tem o objetivo de promover essa independência. Sendo assim, basta
que se desenvolvam plugins que consigam popular as bases de dados interna com a base
desejada, a fim de que as ferramentas de visualização passem a refletir os seus dados.
Além da Camada de Importação, estabeleceu-se uma camada para possível
exportação dos dados contidos na base de dados interna. Essa camada é particularmente
útil se a base de dados utilizada for a Plataforma Lattes, que, em seu formato original não
passa de um diretório com arquivos XML. Atualmente, o único formato suportado para
exportação é o Comma Separeted Value (.csv).
O .csv é reconhecido por praticamente todas as planilhas eletrônicas, como o
OpenCalc, Google Documents e o Microsoft Excel. O separador padrão ‘,’ não pode ser
utilizado, uma vez que é comum encontrar este caractere nos valores contidos na base de
dados. Por este motivo utilizou-se o caractere ‘#’ como separador. O arquivo .csv gerado
contém o nome das instituições, unidades e a soma de todos os indicadores de produção
de cada pesquisador. Uma vez nesse formato, o usuário interessado pode se valer dos
inúmeros recursos oferecidos pelas diversas planilhas eletrônicas existentes no mercado.
Como indicado na Camada de Programação da Figura 5.1, Java foi a linguagem
adotada para o desenvolvimento das ferramentas de visualização. Produzida pela Sun Microsystems, essa linguagem foi escolhida por ser orientada a objetos, robusta, bem difundida e por ter APIs que possibilitem o desenvolvimento de aplicações gráficas de modo
mais simples. Outra característica importante da linguagem Java é a sua portabilidade,
possibilitada por uma máquina virtual que pode ser encontrada para diversas plataformas,
como Linux, MacOS e Windows.
Essa seção apresentou as camadas comuns às ferramentas VLattes e GLattes.
Um CD-ROM com os códigos fontes e um guia de instalação podem ser encontrados no
Apêndice A. Nas próximas seções serão discutidas as características específicas de cada
uma das ferramentas desenvolvidas.
5.2 VLattes
5.2
63
VLattes
O VLattes implementa a proposta abordada na Seção 4.1. A ferramenta foi
escrita em Java, utilizando recursos da API Java2D. A Figura 5.2 exibe uma tela da
aplicação que se divide em duas seções, conforme o proposto pela visualização. Por
conveniência, a seção direita será referenciada como barra de pesquisadores e a seção
esquerda como plano das coordenadas paralelas.
Figura 5.2: VLattes, ferramenta que combina as técnicas de Coordenadas Paralelas e Foco+Contexto
O plano das coordenadas paralelas é composto por um conjunto de barras que
representam itens de produção. Uma barra é composta por uma régua, por uma caixa
de texto e por um rótulo, como mostra a Figura 5.3. A quantidade de barras criadas
pelo VLattes dependerá da quantidade de indicadores de produção existentes no banco
de dados.
A régua é desenhada dinamicamente. Sua escala é a razão da altura máxima
do eixo em pixels pelo valor máximo de produção obtido entre todos os indicadores.
Obviamente, a escala é composta apenas de valores inteiros, uma vez que será utilizada
para exibir valores de produção. Em cada ponto da escala há uma marca que evidenciará,
por meio de um recurso chamado de Ant Footprints já discutido na Seção 4.1, a quantidade
de linhas que por ali “passarem”. Por fim, a régua pode perceber o movimento do cursor
do mouse e exibir o valor absoluto do ponto onde ele está parado.
O rótulo observado na porção inferior das barras exibe a abreviação do indicador
de produção relacionado a cada uma delas. Quando o usuário passa o cursor do mouse
5.2 VLattes
64
Figura 5.3: Uma barra típica do VLattes. Destaque para as marcas que tendem ao vermelho quando o número de linhas que as interceptam aumenta.
sobre o rótulo, o nome completo do referido indicador é mostrado.
A caixa de texto, posicionada abaixo do rótulo, é utilizada na atribuição de um
peso ao indicador aferido pela barra. Quando o usuário define um peso e pressiona a tecla
ENTER, todas as barras são escaladas a fim de que reflitam a nova configuração. Essa
alteração também modifica a pontuação geral dos pesquisadores.
A distância entre as barras é definida pela quantidade de indicadores de produção
a serem projetados. No entanto, existe uma distância mínima pré-definida. Para garantir a
exibição de todos os indicadores, uma barra de rolagem foi adicionada.
Através de uma função capaz de converter um valor de produção em pixel, o
VLattes cria, para cada pesquisador, um vetor de posições sob o eixo y (vertical) baseado
na pontuação atingida em cada indicador. Esse vetor é utilizado para se projetar a linha de
produção de um determinado pesquisador.
A interação com a ferramenta se dá por meio do mouse, o qual possibilita ao
usuário:
• Arrastar a lente pela lista.
• Clicar duas vezes sobre a lente para ativar ou desativar o seu filtro.
• Criar uma regra associada à região definida ao arrastá-lo sobre uma régua.
• Cancelar as regras de uma régua ao se clicar duas vezes sobre a mesma.
A partir dos menus, o usuário ainda pode:
• Remover todas as regras de todos os eixos ao mesmo tempo.
• Escolher as cores das linhas ativas e inativas.
• Exibir ou ocultar as linhas inativas.
• Importar currículos XML/ LMPL.
5.3 GLattes
65
• Exportar os dados para um arquivo .csv.
(a) VLattes, lente com filtro inativo: as linhas dos
pesquisadores ampliados são colocadas em destaque. As cores das linhas correspondem às cores atribuídas aos pesquisadores na legenda criada
pela lente.
(b) VLattes, lente com filtro ativo: são exibidas
apenas as linhas dos pesquisadores em destaque
Figura 5.4: VLattes, filtro da lente bifocal
As dificuldades no desenvolvimento dessa ferramenta giraram em torno dos processos de importação, exportação e manipulação dos dados. Muitas versões de algoritmos
para a análise eficiente de documentos XML foram feitas.
Desenvolveu-se uma API para a captura, armazenamento em memória e manipulação dos dados. A especificação e implementação dessa API também passou por várias
modificações até atingir um tempo de resposta satisfatório.
Com respeito à implementação da ferramenta VLattes, pode-se afirmar que não
houve grandes dificuldades, salvo a integração entre a área das coordenadas paralelas e a
área da lente bifocal.
5.3
GLattes
O GLattes implementa a proposta de visualização apresentada na Seção 4.2.
A ferramenta foi escrita em Java aproveitando-se dos recursos da API Java3D. A API
Java3D utilizada era baseada em OpenGL. Foi escolhida por oferecer um bom nível
de abstração das minúcias inerentes à computação gráfica, bem como por oferecer total
integração com a linguagem Java e coerência com o paradigma de programação orientada
a objetos. Utilizou-se também a API Treemaps-Java-Algorithms [10] para a divisão das
regiões e ainda a API JXInput [47], para a interação com dispositivos de jogo.
Como na proposta original, o GLattes exibe informações em quatro níveis: nível
zero, da visão geral; nível um, da visão das instituições; nível dois, da visão das unidades
acadêmicas e nível três, dos pesquisadores. Por conveniência, sempre que seja necessária
a generalização desses atores, eles serão referenciados por elementos.
5.3 GLattes
66
A Figura 5.5 exibe a tela inicial da aplicação. Na barra inferior, aqui denominada
como “Barra de Status”, apresenta três informações básicas. Da esquerda para a direita,
são mostradas a altura do plano de intersecção, informações relativas ao elemento atualmente apontado pelo cursor do mouse e a pontuação média desse elemento.
Figura 5.5: GLattes-CityView, com o plano de intersecção e painel
de configuração. A ferramenta mostra a cidade um,
das instituições.
No centro se encontra a visualização propriamente dita. Essa visualização é
composta por uma matriz de células. Cada célula contém informações sobre o elemento
que ela representa. As células são agrupadas por regiões, definidas por um algoritmo de
Treemap.
O algoritmo de Treemap requer uma estruturação dos dados na forma de uma
árvore hierárquica. Para tal, faz-se uma listagem de todos os pesquisadores, ordenados lexicograficamente por nome, instituição e unidade. Também é incluída, para cada pesquisador, a soma de suas produções acadêmicas. Através dessa listagem ordenada, constrói-se
a árvore requerida, fazendo com que as folhas contenham os pesquisadores e o um consolidado das produções. Esse consolidado é obtido por meio da soma ponderada, na qual
os pesos de cada indicador são atribuídos pelo próprio usuário.
Uma vez construída a árvore, define-se o layout de Treemap. A API fornece
quatro opções: Squartifield, Strip, Slice e Binary Tree. O resultado da aplicação de cada
um desses layouts pode ser conferido na Figura 4.8. Após a definição do layout, o
algortimo de Treemap atribui a área e, por conseguinte, a posição de cada região, tendo
como base a quantidade de folhas de um determinado nodo da árvore.
Foi desenvolvida uma função que retornasse apenas as regiões referentes a um
determinado nível da árvore definida, o que possibilitou o mapeamento sucessivo das
5.3 GLattes
67
células nas regiões geradas pelo Treemap. Essa função é importante para se implementar
a proposta das cidades que evoluem.
A altura de uma célula se baseia na média atribuída a cada nodo da árvore que
ela representa. Essa média pode ser feita de duas formas. Em ambas, a altura de um
nodo externo, que são os pesquisadores, é definida pelo consolidado de sua produção. A
diferença é que em uma das possibilidades a altura de um nodo interno é a média de seus
filhos, ao passo que, na outra, é a média de suas folhas. Deve-se ressaltar que a região
atribuída a um nodo pelo Treemap pode fazer com que várias células tenham a mesma
altura, por representarem o mesmo nodo.
Uma cor de um conjunto de cores sólidas é definida para cada elemento do nível
um. A cor dos elementos do nível dois é definida pelo matiz de seu pai, com uma variação
do brilho. Por fim, a cor dos elementos do nível três é definida pelo matiz e brilho de seus
ancestrais, variando apenas a saturação.
Para a implementação da técnica CityView, as células são desenhadas como blocos sólidos, dando a idéia de edifícios. Já para implementação da técncia BellTowerView,
somente o topo dos blocos são desenhados, transmitindo a impressão de escadas. Nessa
segunda implementação, a altura dos elementos é aumentada proporcionalmente a fim de
que se evidenciem as diferenças de alturas. As Figura 5.6 e 5.7 mostram a ferramenta em
duas posições distintas.
Figura 5.6: GLattes-BellTowerView, visto na perpendicular.
A interação da visualização se dá por meio do mouse, teclado e qualquer
dispositivo de jogo com um ou dois eixos. Através desses dispositivos, o usuário pode:
• Rotacionar, transladar e aplicar zoom.
5.3 GLattes
68
Figura 5.7: GLattes-BellTowerView, visto de perfil e com o plano
de intersecção
• Varrer as células para verificar as informações que nelas estão armazenadas.
O uso do teclado possibilita ao usuário:
• Mover o plano de intersecção para cima e para baixo.
• Navegar entre os níveis da árvore.
• Mudar a cor ou a figura do plano de fundo.
• Mudar o layout do Treemap.
• Alternar entre as duas formas de se calcular a altura.
• Ativar o painel de controle e atribuir pesos aos indicadores.
Com um joystick de um ou dois eixos, o usuário pode “viajar” pela visualização,
alterando sua aceleração, fazendo curvas, subindo e descendo pelos edifícios ou escadas.
Para isso, basta conectar e calibrar o dispositivo pelo sistema operacional e ele será
automaticamente ativado no GLattes.
As dificuldades decorrentes da implementação dessa ferramenta se resumiram
ao correto emprego das APIs e ao excessivo uso de recursos exigidos pelo Java, como
memória e processamento. Gastou-se muito tempo na aprendizagem de Java3D. As
demais APIs eram desvendadas através da sua própria documentação, isto é, consultas
em fóruns especializados e, quando não havia mais opção, empirismo.
Para contornar o problema de desempenho, as estruturas de dados utilizadas
foram simplificadas, os algoritmos recursivos utilizados foram revistos e a matriz de
células teve que ser reduzida. Ainda assim, a programação orientada a objetos nem sempre
5.3 GLattes
69
se mostrava eficiente no desenvolvimento de aplicações gráficas. Não obstante, tentou-se,
a todo custo, manter as aplicações fiéis aos preceitos desse paradigma.
Como as APIs para manipulação dos dados já haviam sido especificadas no
desenvolvimento do VLattes, a sua reutilização se deu de forma simples, não implicando
em nenhuma dificuldade extra.
CAPÍTULO 6
Avaliação das Visualizações
Esse capítulo apresenta uma avaliação das ferramentas discutidas no Capítulo 5.
A intenção é verificar se as visualizações propostas realmente auxiliam na exploração
e análise de dados acadêmicos e bibliográficos. Em particular, deseja-se descobrir se as
visualizações possuem as seguintes propriedades:
• São intuitivas e, conseqüentemente, demandam pouco tempo de treinamento.
• Permitem perceber os aspectos globais em relação aos diversos dados mostrados.
• Permitem responder as questões de forma rápida e menos sujeita a erros.
Em função da especificidade da área em que as ferramentas estão inseridas, bem
como da indisponibilidade de um número significativo de especialistas nesse assunto que
realizem experimentos controlados, optou-se por utilizar uma abordagem de avaliação
informal, similar ao Heuristic Evaluation [43, 45]. A forma como o experimento foi
composto e conduzido é descrita nas próximas seções.
6.1
Configuração da Avaliação
A avaliação foi realizada por meio de entrevistas. Nessas entrevistas, estavam
presentes o entrevistador – pesquisador envolvido com este trabalho - e o avaliador profissional eleito para qualificar as ferramentas. Esta avaliação ocorreu em duas fases,
sendo que na primeira houve a seleção dos especialistas (avaliadores). A segunda fase foi
a da preparação e realização da avaliação. Abaixo, faz-se uma descrição mais detalhada
de cada uma dessas etapas.
6.1.1 Escolha dos Avaliadores
Foram escolhidos cinco profissionais envolvidos direta ou indiretamente com a
Cienciometria. Vale dizer que nenhum deles pertence ao grupo de pesquisa vinculado ao
presente trabalho. De todos os entrevistados, apenas um preferiu manter-se no anonimato.
Os dados desses profissionais são apresentados a seguir.
6.1 Configuração da Avaliação
71
• Professor Dr. Luiz Mauricio Bini, bolsista de Produtividade em Pesquisa do CNPq
- Nível 1C. Esse professor figura na lista dos pesquisadores mais produtivos
da UFG. Além de sua atividade como pesquisador, realiza análises estatísticas
sobre a produção científica no seu departamento. Os resultados dessas análises
são utilizados na elaboração e fundamentação de projetos de pesquisa a serem
submetidos em pleitos de financiamento.
• Professora Dra. Divina das Dôres de Paula Cardoso, bolsista de Produtividade em
Pesquisa do CNPq - Nível 2, é Pró-Reitora de pesquisa da UFG. A professora utiliza
os dados da Plataforma Lattes e do SICAD1 para analisar e tomar decisões de gestão
em ciência. Como exemplo dessas atividades, em 2006 a Pró-Reitoria de Pesquisa
da UFG classificou e premiou parte dos recém doutores da instituição, com menos
de cinco anos de doutorado, com um recurso de auxílio à pesquisa, baseando-se na
pontuação dos seus currículos Lattes. Devido ao seu profundo conhecimento sobre
a pesquisa nessa Universidade, decorrente da função administrativa que exerce,
sua participação na avaliação permite uma análise mais criteriosa do mapeamento
visual e da coerência com que as informações são exibidas.
• O avaliador que optou por não identificar-se é mestre e doutor em estatística e atua
diretamente na análise da base de pesquisa interna da UFG.
• Professor Dr. Ovídio Cândido de Oliveira Filho, que foi Coordenador de Pesquisa
da Universidade Católica de Goiás e continua atuando como professor pesquisador
no Departamento de Matemática e Física da UCG.
• Gustavo Abrantes Codeixa, que atua há oito anos na Fundação de Apoio a Pesquisa
da UFG - FUNAP/UFG. Desses oito anos, quatro foram dedicados à gestão de
projetos. Tem como função direcionar aos institutos, grupos de pesquisa e pesquisadores da UFG as licitações e os editais dos projetos gerenciados pela FUNAPE.
6.1.2 Preparação e realização da avaliação
Para averiguar os benefícios das visualizações desenvolvidas sobre a atividade
de exploração de dados cienciométricos, contrapôs-se as ferramentas GLattes e VLattes
à uma tabela com dados reais de pesquisadores. A tabela foi composta por uma linha
para cada pesquisador, contendo o nome do mesmo, o nome da instituição e da unidade
acadêmica a qual pertencia, bem como todos os seus dados de produção. Além dessas
informações, disponibilizou-se ainda uma coluna com a média da produção de cada
pesquisador. Nessa tabela, foi possível ao avaliador realizar auto-filtros, buscas, somas,
1 SICAD:
Sistema de Cadastro de Atividades Docentes - sistema interno da UFG
6.1 Configuração da Avaliação
72
médias, máximos, mínimos e ordenações. Também foi criada uma seção que possibilitava
a configuração dos pesos para qualquer um dos indicadores de produção. A estrutura da
tabela pode ser conferida na íntegra no Apêndice B.4. Para popular essa tabela e a base
de dados internas das ferramentas, foram utilizados dois grupos de dados públicos de
pesquisadores vinculados à UFG e à UCG, extraídos da Plataforma Lattes. O primeiro
grupo continha em torno de 800 pesquisadores e o segundo cerca de 100 pesquisadores.
A apresentação das ferramentas, propostas na Seção 5, precedia a avaliação.
Por possuir duas versões, o GLattes-CityView e o GLattes-BellTowerView, o GLattes foi
mostrado ao usuário como aplicações distintas, possibilitando a análise das visualizações
de forma dissociada. Em virtude disso, o VLattes e o GLattes serão referenciados como
três aplicações distintas, a saber: VLattes, GLattes-CityView e GLattes-BellTowerView.
A figura a seguir exemplifica tal fato:
As ferramentas e a tabela foram devidamente instaladas em um notebook,
juntamente com o BrOffice (usado para manipular a tabela) e uma aplicação de gravação
de tela (usada para gravar as ações do usuário e os seus comentários). Um mouse USB foi
utilizado para evitar o uso do touchpad do notebook.
O Notebook utilizado tem as seguintes configurações: Intel Centrino Duo de
1.6Ghz, tela Widescreem de 15.1"com 512Mb de Memória RAM, Placa de Vídeo Intel
945GM com 128Mb de memória compartilhada, HD com 60Gb e Windows XP. Além da
gravação feita pelo notebook, utilizou-se uma câmera fotográfica digital parar filmar, em
baixa resolução, o experimento.
Houve a aplicação de um questionário, que pode ser conferido no Apêndice B.3,
o qual foi preenchido pelo entrevistador à medida que as questões eram respondidas. O
questionário possue três seções. Na primeira seção, alguns dados de identificação foram
colhidos, bem como a data e a hora de início e de término do experimento. Na segunda
seção, o avaliador respondeu uma tabela de perguntas sobre o uso das ferramentas para
localizar informações contidas na base de dados. O usuário foi inquirido a classificar
cada ferramenta entre N/A (Não Avaliado), Ruim, Regular, Bom, Excelente, no tocante
à apresentação visual dos dados e sua facilidade de uso. Por fim, na terceira seção,
foram levantadas questões gerais como a utilidade, intuitividade e aplicabilidade das
ferramentas.
Todas as avaliações ocorreram nos ambientes de trabalho dos respectivos pesquisadores. Os passos introdutórios eram a instalação do notebook e a inicialização das
aplicações, inclusive da tabela. Posteriormente, o avaliador preenchia o Termo de Consentimento de Livre e Esclarecido, no qual especificava se seus dados de identificação
poderiam ser divulgados.
Cumpridos os pré-requisitos acima citados, havia a apresentação da tabela e
das ferramentas. O avaliador tinha cerca de 50 minutos para familiarizar-se com os
6.2 Resultados Obtidos
73
aplicativos. Durante esse tempo, várias dúvidas eram esclarecidas. Após esse período, o
usuário era convidado a responder o questionário. As impressões e sugestões dos usuários
eram anotadas pelo entrevistador.
É interessante dizer que, apesar da avaliação ter sido guiada pelo questionário,
os avaliadores eram motivados a criticar abertamente quaisquer outros pontos da visualização e a sugerir alterações e inclusões de funcionalidades.
As avaliações foram realizadas de acordo com as prerrogativas estabelecidas pelo
Comitê de Ética da Universidade Federal de Goiás. Os seus resultados são apresentados e
discutidos nas próximas seções.
6.2
Resultados Obtidos
Foram realizados cinco entrevistas. Deve-se ressaltar que um dos avaliadores
optou por não ser identificado, logo o seu nome não será mencionado. Nas subseções que
se seguem, são mostrados os resultados obtidos em cada avaliação.
6.2.1 Primeira Entrevista
A primeira entrevista foi realizada no Instituto de Ciências Biológicas da UFG,
com o professor Maurício Bini. Como mencionado na Seção 6.1.1, o professor Bini
já utiliza ferramentas para análise estatística em sua atividade de pesquisa. Entre os
pontos favoráveis elencados pelo professor para as três aplicações visuais2 , constam a
originalidade das visualizações, a facilidade de interação e a intuitividade dos dados
apresentados. Porém, a opinião do referido pesquisador é a de que as ferramentas seriam
mais adequadas a usuários com perfil menos técnico, no que diz respeito à análise
estatística de dados.
O principal argumento do pesquisador foi o de que a tabela possibilita maior possibilidade de manipulação de dados, já que permite a criação de novas fórmulas e métricas
mais apropriadas. Para efeito de análise, o avaliador destacou que a média ponderada era
apenas uma das formas de se consolidar os dados e que as ferramentas deveriam oferecer recursos estatísticos consolidadores mais complexos, como, por exemplo, a análise
multivariada.
Para o professor, o VLattes teria que desempenhar uma função que ordenasse
a lista de pesquisadores. Isso deveria ocorrer tanto pela pontuação geral3 quanto pelos
próprios indicadores, de maneira individual. Além disso, a aplicação deveria permitir que
somente um conjunto pré-determinado de indicadores fosse exibido. Ainda com respeito
2 VLattes,
3a
GLattes-CityView e GLattes-BellTowerView
pontuação geral é calculada pela média ponderada dos indicadores
6.2 Resultados Obtidos
74
ao VLattes, o professor opinou que seria interessante se a aplicação oferecesse a préordenação das barras, com o intuito de tornar o fluxo das linhas mais significativo.
Sobre o GLattes-CityView, o professor Bini disse que a irregularidade dos
relevos gerados a partir do segundo nível de dados, que é o nível das unidades, torna
a exploração confusa e inexpressiva. Para melhorar essa condição, ele recomendou a
ordenação das barras como meio de se obter um relevo mais suave.
Outro comentário feito pelo professor foi o de que a visualização gerava muita
obstrução dos dados, necessitando interação extra para se explorar os dados de diversas
posições. Nesse sentido, sugeriu que houvesse uma forma de comutação entre a visualização tridimensional e uma bidimensional. Sua argumentação foi a de que, como a altura
dos relevos já expressa a média da produção, a quantidade de pesquisadores representada
pela largura da base era uma informação redundante e poderia ser eliminada. Acrescentou
ainda que quanto menor o número de dimensões, mais simples seria a análise dos dados.
Com relação ao GLattes-BellTowerView, observou que o problema da obstrução
era drasticamente minimizado e que essa abordagem valorizava a dispersão dos dados.
O professor concluiu sua avaliação afirmando que a ferramenta não o auxiliaria
em suas atividades de análise estatísticas. Em outras palavras, a tabela de dados continuava sendo a melhor opção para a realização das análises. Classificou a ferramenta como
uma aplicação útil apenas para grupos de usuários não tão familiarizados com a análise
estatística.
6.2.2 Segunda Entrevista
A segunda entrevista foi realizada no gabinete da Pró-Reitora de Pesquisas da
Universidade Federal de Goiás, professora Divina Cardoso.
Houve uma dificuldade inicial da avaliadora em rotacionar, transladar e aplicar
zoom no GLattes. No entanto, a pesquisadora rapidamente se habituou aos mecanismos de
interação 3D e dedicou um tempo considerável à exploração dos dados. O seu interesse
pela aplicação GLattes-CityView foi demonstrado por meio do comentário de que essa
é uma ferramenta excelente para a exploração dos dados, pois permite não somente
uma visão global do status quo da produção dos pesquisadores mas também uma visão
detalhada. Em outras palavras, havia a possibilidade de se obter uma visão global tanto
pela navegação entre os níveis, principalmente os níveis um e dois, como pela utilização
do zoom.
Já sua análise sobre o GLattes-BellTowerView foi a de que,se comparada
aoGLattes-CityView, essa aplicação responderia questões envolvendo a dispersão dos dados com maior facilidade. Percebeu que as diferenças entre a produção dos grupos se
6.2 Resultados Obtidos
75
destacavam mais e que a visualização era mais eficiente na exibição de valores mínimos
ou grupos com alturas muito próximas. Mesmo assim, ainda preferiu o GLattes-CityView.
A professora achou difícil a identificação das unidades, após avançar para o
nível dos pesquisadores. Essa dificuldade foi também percebida, ainda que de forma
mais amena, na transição do nível das instituições para o nível das unidades. Por causa
disso, sugeriu que fosse adicionada uma forma de se visualizar apenas uma determinada
intituição.
Sobre o VLattes, a professora afirmou que tal aplicação possibilita uma análise
mais profunda dos indicadores, uma vez que os apresenta de forma distinta e não
consolidada, como ocorre na outra ferramenta.
Ao referir-se à base de dados, a avaliadora fez menção de uma inconsistência,
que se configurava através da apresentação de pesquisadores de uma mesma unidade
como pertencentes a unidades diferentes. Porém, reconheceu que essa era uma dificuldade
oriunda da própria Plataforma Lattes, já que os pesquisadores são responsáveis pela
maneira como cadastram seus dados. Ainda sobre a base de dados, destacou a necessidade
da existência de meios que permitam a filtragem da produção acadêmica por mês e por
ano de publicação.
A professora finalizou sua participação ressaltando que as ferramentas visuais
são importantes para a atividade de análise. Declarou que certamente iria utilizá-las na
exploração e apresentação de informações.
6.2.3 Terceira Entrevista
A terceira entrevista foi realizada com o avaliador que não quis se identificar. Sua
opinião sobre as ferramentas é a de que são úteis e aplicáveis à atividade de exploração
de dados cienciométricos. Contudo, levantou alguns pontos nos quais as ferramentas
poderiam ser aprimoradas, visando a uma melhora em sua efetividade e eficiência. No
GLattes, por exemplo, um recurso adicional seria a busca por pesquisadores e unidades.
Na opinião do avaliador, as barras poderiam ser ordenadas, possibilitando assim uma
investigação mais consistente e facilitada.
O estatístico também pontuou que a ferramenta seria mais aplicável às suas
atividades se permitisse a criação de novas variáveis para o mapeamento da altura das
barras. Declarou que a base poderia incluir dados como a idade dos pesquisadores e o
tempo de serviço de cada um em sua unidade. Ainda sobre a base de dados, disse que a
confiabilidade advinda de uma base curricular como a Plataforma Lattes é discutível, uma
vez que não se pode criticar a forma como cada pesquisador insere seus dados.
Sobre o GLattes-BellTowerView, observou que permite analisar mais facilmente
os valores mínimos do que o GLattes-CityView. O avaliador afirmou que, para efeito
6.2 Resultados Obtidos
76
estatístico, a dispersão dos grupos e indivíduos pelo espaço também é válida. Porém,
disse que a exploração dos dados é mais interessante no GLattes-CityView. Quando
questionado sobre o instituto com maior quantidade de pesquisadores, respondeu que,
como existiam regiões mais quadradas e outras mais retangulares, não era possível
determinar com clareza a maior área.
Ao analisar o VLattes, um dos aspectos positivos destacados pelo usuário foi
a maneira como os nomes dos pesquisadores ficavam destacados após passarem pelos
crivos estabelecidos nas barras. O avaliador afirmou que a ferramenta poderia ser um
instrumento de análise desde que os nomes da listagem continuassem legíveis mesmo
sem o uso da lente. Disse ainda que a ferramenta também deveria oferecer o recurso de se
visualizar níveis ou que, pelo menos, pudesse filtrar a base de dados por uma instituição
ou unidade específica. Apontou que outras formas de ordenação dos pesquisadores que
levassem em conta a pontuação geral seriam mais úteis do que a simples ordenação
alfabética dos nomes. Outro recurso útil, na opinião do avaliador, seria a possibilidade
de se selecionar pesquisadores não contíguos na lista.
O parecer final do avaliador em questão foi o de que as ferramentas se complementam, ou seja, são “boas no conjunto geral”. Declarou que as utilizaria em suas
atividades por permitirem observar relações que as ferramentas tradicionais não conseguiam. Destacou a interatividade das ferramentas como sendo um ponto forte, pois além
de possibilitar a visualização das informações em muitos ângulos, permite a aplicação
dinâmica de filtros e o avanço rápido de um nível hierárquico para outro. O avaliador lamentou que o VLattes contemplasse apenas o nível dos pesquisadores, não oferecendo a
possibilidade de agrupá-los por unidades ou instituições.
6.2.4 Quarta Entrevista
A quarta entrevista foi realizada na Área III da Universidade Católica de Goiás,
com o professor Ovídio Filho. A atenção do avaliador se voltou mais ao VLattes. Após
realizar várias combinações de filtros, afirmou que a ferramenta seria de grande utilidade
na atividade de gestão da produção acadêmica. Isso porque a ferramenta proporciona a
visualização de vários indicadores separadamente. O professor disse que a ferramenta
respondia com eficácia questionamentos como: quais são os pesquisadores que têm
determinado número de publicações em congressos internacionais e que tenham também
alto índice de orientações em doutorado, ou ainda quais são os pesquisadores que
apresentam o mesmo grau de publicação em artigos nacionais e em resumos.
O VLattes, na opinião do professor Ovídio Filho, mostrava muito bem os
pontos fracos e fortes da produção acadêmica do conjunto de pesquisadores exibidos.
Nesse aspecto, o avaliador observou que as outras ferramentas, por mais que pudessem
6.2 Resultados Obtidos
77
se adequar a determinada configuração de pesos, não poderiam fornecer informações
detalhadas acerca dos indicadores de produção. Destacou que o VLattes permite ver
minuciosamente o perfil de pesquisa dos indivíduos e, por meio dos filtros, relacionar
indicadores de produção.
A respeito do GLattes, disse que a ferramenta é útil para se observar aspectos
gerais e comparar as unidades e instituições, funcionalidade esta que o VLattes não tem.
O GLattes evidencia duas idéias: a primeira diz respeito à quantidade de pessoas lotadas
em determinada instituição ou unidade; a segunda está relacionada à produtividade de
uma certa instituição ou unidade. O fato de essas duas referências estarem visualmente
agregadas faz com que se perceba com mais facilidade a influência da cardinalidade do
grupo sobre a sua produtividade média. Essa idéia também pode ser discutida na transição
do nível de unidades para o de pesquisadores e transmite com clareza o impacto de se ter
muitos indivíduos com baixa produtividade, mesmo quando se tem pesquisadores de alta
produtividade.
O avaliador sugeriu que o GLattes pudesse, no seu nível mais baixo, exibir os
indicadores de produção separadamente. Sendo assim, a menor unidade deixaria de ser o
pesquisador e passaria a ser os indicadores de produção. O professor reconheceu que o
GLattes-BellTowerView possibilita a análise da dispersão dos grupos e pesquisadores.
Contudo, a sua opinião foi a de que o GLattes-CityView é mais conveniente para a
exploração dos dados. O usuário enfatizou que a ferramenta é de grande utilidade para
uma instituição ou unidade se avaliar e se gerir. Porém, se a base de dados se tornar mais
complexa, como no caso de uma base de dados estadual, o GLattes não atenderia muito
bem, pois a exploração ficaria muito difícil. O avaliador ressaltou que, nesse caso, a área
do plano deveria ser maior e que outros níveis, como regiões e estados, deveriam ser
criados.
Assim como os demais participantes, o professor Ovídio afirmou que o VLattes
poderia oferecer meios para se destacar pesquisadores fora da ordem exibida pela lente.
Declarou que a ordenação dos pesquisadores poderia ser feita tanto pela pontuação quanto
por um determinado indicador. A grande limitação do VLattes em relação ao GLattes,
de acordo com o professor, é a falta dos níveis. Em decorrência disso, o professor
mencionou que seria de grande utilidade se o VLattes, assim como o GLattes, permitisse a
navegação nos níveis de instituições, unidades e pesquisadores, e mantivesse a separação
hierárquica, mesmo nos níveis mais baixos. Em outras palavras, as instituições e unidades
às quais os pesquisadores pertenciam deveriam ser apresentadas com bastante clareza. O
professor Ovídio foi o único usuário a opinar que o VLattes deveria oferecer um filtro
que promovesse a seleção somente de doutores ou mestres, a fim de que outras questões
pertinentes à gestão pudessem ser contempladas.
6.2 Resultados Obtidos
78
6.2.5 Quinto Avaliador
A quinta avaliação ocorreu no prédio da Fundação de Apoio a Pesquisa FUNAPE/UFG, com o senhor Gustavo Abrantes. Desde o início da avaliação, o usuário
se demonstrou muito satisfeito com as ferramentas e pontuou as grandes dificuldades que
a fundação encontra na análise de informações, uma vez que não dispõe de ferramentas
de visualização de dados com esse nível de sofisticação.
No VLattes, o avaliador valorizou o recurso de se estabelecer pesos para os indicadores, facilidade esta muito utilizada por ele. O avaliador explicou que um dos problemas enfrentados pela FUNAPE é a correta alocação dos profissionais para coordenar
projetos que a fundação capta. Deu o exemplo de uma empresa que requisitou uma solução em tecnologia. Disse que se a FUNAPE tivesse acesso ao VLattes, bastaria filtrar
os pesquisadores da UFG com maior índice de produtividade em softwares e patentes
para se encontrar os docentes mais adequados para interagir com essa empresa. Como os
demais avaliadores, destacou a necessidade da ordenação da lista de pesquisadores pela
pontuação.
Em sua análise do GLattes-CityView, o participante disse que, apesar de a
ferramenta ser excelente para se detectar máximos, a análise é mais difícil quando se
tem que visualizar os dados de altura média e baixa, principalmente aqueles que tem
alturas próximas. Afirmou, entretanto, que a visualização era intuitiva, tendo percebido
facilmente que a área da base representava a quantidade de pesquisadores e que a altura
representava a produtividade.
Ainda referindo-se à base, disse que deveria existir uma forma mais eficiente de
se enfatizar áreas maiores, pois, quando muito semelhantes, a percepção das diferenças
se torna difícil. Entre o GLattes-CityView e o GLattes-BellTowerView, o Sr. Gustavo
preferiu a primeira aplicação para se comparar a quantidade de pesquisadores, uma vez
que na segunda aplicação a base fica flutuando.
O usuário mencionou que a maioria das aplicações de manipulação de dados não
tem uma forma interessante de apresentar as informações, exibindo geralmente apenas
dados tabulares. Por esse motivo, afirmou ser procedente a idéia de uma ferramenta
totalmente dedicada à visualização de dados.
O avaliador disse, em suma, que o GLattes permitia ao gestor ter uma visão
mais apropriada do aspecto geral da produção acadêmica da universidade, facilitando a
comparação entre as unidades. Enfatizou que o conjunto VLattes + GLattes oferece apoio
significativo aos gestores que, como ele, usam a Plataforma Lattes nas sua atividades
diárias. Em virtude de tais análises, concluiu que inseriria as ferramentas no seu cotidiano
para auxiliá-lo na tomada de decisões.
6.2 Resultados Obtidos
79
6.2.6 Resumo dos Resultados
A seguir, é apresentada uma lista dos pontos levantados pelos avaliadores em
relação às ferramentas VLattes e GLattes.
Para o VLattes, os pontos observados foram:
• Pontos Fortes
– Compara melhor os indicadores entre si em relação ao GLattes;
– Exibe melhor os indicadores nos quais a instituição é mais ou menos produtiva;
– A forma de se filtrar os dados é intuitiva e rápida;
– Permite avaliar o perfil de um pesquisador;
– Permite responder a várias perguntas devido à ampla possibilidade de combinações dos filtros;
– Permite isolar facilmente um grupo de pesquisadores com um determinado
perfil (por exemplo, atribuindo filtros em um subconjunto de indicadores, de
modo a destacar apenas os pesquisadores que atingirem aqueles índices de
produção)
• Pontos Fracos
– A lente não permite selecionar pesquisadores não contíguos
– Não permite ordenar as barras sobre algum critério
– Quando a lente está desligada e a densidade dos dados aumenta, fica difícil
identificar as linhas coloridas
– Não permite visualizar instituições e unidades, tampouco filtrar pesquisadores
com esses quesitos
Para o GLattes-CityView, os pontos observados foram:
• Pontos Fortes
– Possibilita alta interatividade com a visualização
– Exibe melhor a relação entre quantidade de pesquisadores e sua produção
– Permite excluir facilmente da análise determinados tipos de produção, atribuindo, por exemplo, zero ao peso de algum item de produção;
– Permite ter uma visão geral da produtividade de algum conjunto de pesquisadores e compará-la com outros grupos, sem a perda de referência visual;
– Possibilita o Zoom, permitindo ao usuário verificar as generalidades e as
especificidades dos dados;
6.2 Resultados Obtidos
80
– Permite que o usuário navegue pelos níveis de forma rápida e compare o efeito
da produção dos indivíduos sobre a produção do grupo.
• Pontos Fracos
– Não permite a busca de informações;
– Como as barras são opacas, uma pode obstruir a outra;
– Torna-se menos informativa em regiões onde as barras estão adjacentes e suas
alturas muito próximas;
– Utiliza um esquema de cores que sofre uma variação no brilho quando se passa
do nível de instituições para o nível de unidades. Esse esquema de cores não
favorece a preservação do mapa mental do usuário;
– A grande oscilação que pode ocorrer na altura de barras adjacentes dificulta a
identificação de padrões visuais;
– A obstrução de barras muito baixas por outras altas dificulta a localização de
mínimos.
GLattes-BellTowerView
O GLattes-BellTowerView, por ser uma derivação do GLattes-CityView, possui
muitas características em comum com essa visualização. Por essa razão, serão elencados
os aspectos que caracterizam apenas o GLattes-BellTowerView .
• Pontos Fortes
– Permite avaliar melhor a dispersão da produção;
– Destaca, de forma mais evidente, a discrepância entre grupos ou pesquisadores;
– Evidencia a idéia de "quão alto"ou "quão baixo";
– Diminui sensivelmente o problema da obstrução;
– Permite acessar facilmente o mais baixo e o mais alto;
– As unidades são mais evidenciadas;
– Explora melhor os mínimos;
– Explora a idéia de escalada quando se posiciona o plano perpendicular à visão
e se utiliza o zoom para "subir"e "descer".
• Pontos Fracos
– A exploração é dificultada pela dispersão dos dados;
– A informação estilhaçada dificulta a identificação de padrões;
– O impacto visual não é muito forte;
6.3 Discussão dos Resultados
81
– São necessárias muitas rotações e reposicionamentos para se atingir um bom
ângulo de visão;
A seguir, discute-se os resultados apresentados anteriormente.
6.3
Discussão dos Resultados
As avaliações evidenciaram claramente que as ferramentas apresentadas na Seção anterior contribuem para a exploração visual. Com exceção do primeiro avaliador, que
não tinha interesse em ferramentas visuais para a atividade análise dos dados cienciométricos, os demais declararam que as ferramentas oferecem grande ajuda na exploração de
informações, sendo essa a razão pela qual as empregariam como instrumentos de auxílio
em suas atividades ligadas à Cienciometria. Esse resultado valida, por mais uma vez, o
impacto positivo que a Visualização de Informações produz onde é empregada.
Um dos avaliadores sugeriu que a informação da quantidade de pesquisadores
é redundante no processo de análise estatística, motivo pelo qual poderia ser eliminada.
Segundo ele, o GLattes deveria ter uma versão bidimensional, refletindo apenas as médias
das produções. Realmente é possível exibir a quantidade de pesquisadores e a média das
produções em duas dimensões. Para isso, basta que se construa barras2D com largura
variável, mapeando assim a quantidade de pesquisadores na largura dessas barras e a
produção em suas alturas. Porém, dada a grande quantidade de informação tratada por
essa visualização, seria necessário dispor de um espaço horizontal extra, o que dificultaria
uma visão geral dos dados apresentados. Outros dois avaliadores, um deles com formação
em Estatística, afirmaram que a exibição dessa informação é, na verdade, pertinente
à análise, pois permite observar o impacto da quantidade de pesquisadores sobre a
produtividade média.
Nota-se que o avaliador citado no início do parágrafo anterior já está bastante
familiarizado com a manipulação de tabelas e com as inúmeras possibilidades de se
criar novas fórmulas, variáveis, filtros e cenários. Para quem está acostumado a ler
e manipular informações em tão baixo nível, parece inadequada a utilização de uma
ferramenta de visualização que, de certa forma, não permite tanta adequação quanto
uma tabela. Contudo, não é possível concordar com a idéia de que uma tabela seja mais
expressiva do que um gráfico. Da mesma forma, é difícil crer que uma ferramenta de
exploração tridimensional ofereça menos possibilidades de exploração do que um gráfico
bidimensional estático. Assim, depreende-se que o avaliador em questão não percebeu
que as aplicações se tratavam, na verdade, de um instrumento computacional interativo
para a exploração visual dos dados.
Ao se analisar os comentários dos demais participantes e os fatos que se sucederam durante a execução do experimento, é possível afirmar que as ferramentas se
6.3 Discussão dos Resultados
82
apresentaram como importante dispositivo para a exploração de dados cienciométricos.
Verificou-se também que as visualizações propostas se complementam, já que cada uma
contribui de forma singular para a análise dos dados cienciométricos.
Constatou-se que a tabela de dados ainda é importante na tomada de decisões por
expressar valores com mais acuidade do que as visualizações. Todos os avaliadores relataram que utilizariam as visualizações para análise e exploração dos dados. Isso demonstra
que essas visualizações imprimem muitas facilidades na expressão da produção acadêmica, permitindo encontrar relações que são de difícil identificação em uma tabela. Não
obstante, os participantes revelaram que, no momento de tomar uma decisão definitiva,
recorreriam à tabela.
Como a base utilizada nos experimentos refletia dados reais de pesquisadores
conhecidos pelos avaliadores, estes puderam avaliar a coerência da visualização. Todavia, observaram que a utilização de uma base curricular é um ponto crítico. Como ela
é produzida pelos próprios pesquisadores, a sua credibilidade pode ser questionada. Os
usuários detectavam rapidamente as discrepâncias existentes na base curricular Lattes.
Um exemplo disso foi quando departamentos de uma mesma unidade apareceram dissociados. Houve também casos em que a base de dados da Plataforma Lattes apresentava
diferenças em relação à base de dados interna dos pesquisadores da UFG (SICAD).
É oportuno salientar que as ferramentas desenvolvidas podem ser utilizadas
com praticamente qualquer base de dados, uma vez que fazem uso de dispositivos de
importação para popular a sua base de dados interna. Ratifica-se, dessa forma, que os
avaliadores souberam discernir que o que estava sendo avaliado eram as ferramentas, e
não a base de dados em uso.
A maioria dos pontos negativos levantados sobre o VLattes refere-se a questões
pontuais inerentes às limitações da ferramenta, e não à técnica de visualização proposta.
A limitação mais pertinente é a que diz respeito à questão da densidade dos dados. É sabido que a técnica de Coordenadas Paralelas perde expressividade quando a quantidade
de dados aumenta. Não obstante, é possível ao VLattes implementar algumas das técnicas
para o aumento da expressividade discutidas na Seção 4.1. No mais, o filtro da lente pode
ser ativado a qualquer momento, possibilitando uma análise fina dos dados, independentemente da quantidade de dados aferidos. Também não é difícil fazer com que as linhas
coloridas pela lente fiquem mais destacadas. Uma solução viável, por exemplo, seria o
aumento de suas espessuras. Sobre a questão das instituições e unidades, deve-se pensar em formas de se adaptar a visualização a um novo mapeamento que contemple tais
informações hierárquicas.
O VLattes se mostrou uma boa ferramenta na solução de questões envolvendo a
análise simultânea de muitas variáveis. Através dessa ferramenta, os avaliadores puderam
filtrar pesquisadores por perfil de produção, avaliar as inclinações de pesquisa da insti-
6.3 Discussão dos Resultados
83
tuição como um todo e isolar tipos de produções deficitárias. No mais, a identificação
das linhas permitia a avaliação específica do pesquisador e a sua comparação com outros
pesquisadores. A possibilidade de se identificar as linhas nas coordenadas paralelas abre
várias possibilidades de análise, anteriormente limitada a tendências e padrões genéricos.
Semelhantemente ao VLattes, boa parte dos pontos fracos elencados em relação
ao GLattes se relaciona com a implementação da visualização e não com a técnica em si.
Com relação aos blocos com alturas semelhantes, observou-se que geraram insatisfação
em alguns usuários. Porém, os que reclamavam desse fato não faziam o uso devido do
plano de intersecção. Esse plano é capaz de solucionar o impasse visual ocasionado pela
proximidade ou até mesmo por questões de perspectiva. Apesar de o mapeamento de cores
proposto pela técnica não ter se demonstrado muito eficiente, é possível implementar com
facilidade bordas para as regiões delimitadas por níveis mais altos, auxiliando assim a
manutenção da hierarquia já refletida no mapeamento de cor.
Uma maneira de se amenizar a obstrução causada pelos blocos é através da adição de uma transparência seletiva, a qual permite ao usuário definir quando os elementos
da visualização devem ficar transparentes. Pode-se adicionar também uma transparência
por demanda, que possibilita ao usuário a escolha dos elementos que devem ficar transparentes. A análise dos mínimos pode ser facilitada pela ordenação das barras dentro das
suas respectivas regiões, diminuindo também a obstrução anteriormente mencionada.
Os avaliadores ficaram satisfeitos com as possibilidades de interação oferecidas
pelo GLattes, principalmente com a navegação entre os níveis. Exemplo disso é o fato de
terem observado constantemente o efeito que a quantidade de pesquisadores de um grupo
causava sobre a média. Fato esse evidenciado quando, por exemplo, se avançava do nível
de instituição para o nível de unidade, no qual muitas unidades ficavam bem acima da
média geral demonstrada no nível anterior.
Infelizmente, devido ao pouco tempo de avaliação, a maioria dos avaliadores não
explorava todo o potencial da ferramenta. O foco de atenção se voltava às suas funções
básicas. Porém, os que utilizavam o recurso dos pesos, por exemplo, podiam observar,
dentre outras coisas, o impacto causado pela exclusão de indicadores que, geralmente,
não têm grande representatividade. Quando havia a subtração de tais indicadores, a
altura de algumas unidades, anteriormente em posições privilegiadas, ficava próxima de
zero. Exemplo disso são as unidades que se destacavam por apresentar altos índices em
iniciação científica.
Apesar da preferência dos usuários pelo GLattes-CityView, o GLattesBellTowerView se demonstrou eficiente para a análise da dispersão dos dados. Além
disso, por ser uma versão vazada da CityView, a exploração dos mínimos é muito mais
simples. Como nessa aplicação a altura dos elementos era propositalmente exagerada, os
usuários se sentiam mais confortáveis em responder questões de máximos e mínimos.
6.3 Discussão dos Resultados
84
Porém, o que se esperava da visualização BellTowerView era que fosse mais utilizada na
forma de uma escadaria. Porém, nenhum dos avaliadores utilizou essa visão dos dados.
Talvez porque a ferramenta já começava mostrando a torre do sino de perfil, e não na
perpendicular. Infelizmente, a não observação desse fato antes do início das avaliações
pode ter prejudicado a análise da visualização.
Os avaliadores preferiam o GLattes-CityView para uma exploração sem nenhum
objetivo concreto. Porém, quando incumbidos a responder algumas questões referentes
aos dados, recorriam mais ao GLattes-BellTowerView.
Como resultados dessas avaliações, elenca-se:
• As ferramentas foram bem aceitas, sendo, por duas vezes, requisitadas para uso
imediato.
• A identificação promovida pelo uso de uma lente bifocal aumenta a utilidade das
Coordenadas Paralelas.
• O destaque promovido na lista de pesquisadores quando se realizava alterações no
plano de coordenadas paralelas também ampliava a utilidade do VLattes.
• O filtro da lente aumenta a expressividade e a efetividade das coordenadas paralelas.
• O GLattes pode ser útil na análise de dados cienciométricos.
• O GLattes-CityView detém a preferência para exploração sem objetivos definidos.
• O GLattes-BellTowerView detém a preferência na exploração com objetivos definidos.
• A exploração é mais efetiva quando as três aplicações são utilizadas em conjunto.
• Existe a necessidade de melhoramentos nas ferramentas implementadas.
• Existe a necessidade de ajustes pontuais no mapeamento original.
CAPÍTULO 7
Conclusão
Essa dissertação discorreu sobre o emprego de técnicas da Visualização de
Informações em cienciometria. Para tal, foi realizado um levantamento das principais
necessidades da comunidade científica, oriundas da exploração de dados cienciométricos.
Além disso, houve um levantamento das principais fontes de dados utilizadas nessa
exploração. Após esses levantamentos, foram propostas duas visualizações que visavam a
responder a um determinado conjunto de questões apontadas pelos usuários da base. Por
fim, foi realizada a implementação e a avaliação dessas visualizações utilizando dados
fornecidos pelo Extrator Lattes da Plataforma Lattes.
O resultado concreto obtido por esse trabalho foi a implementação de duas
ferramentas visuais. Essa foi a atividade na qual se empregou mais tempo. Não foram
poucas as vezes em que se cogitou o abandono das práticas da programação orientada a
objetos (POO) em favor da velocidade de desenvolvimento e desempenho gráfico. Porém,
a intenção de se desenvolver ferramentas portáveis, extensíveis e robustas, sem a quebra
das prerrogativas da POO subjugou essas dificuldades, proporcionando tanto a criação de
ferramentas consistentes quanto um considerável avanço nos conhecimentos do aluno.
Esse estudo traz contribuições à Visualização de Informações a partir da proposição de três técnicas para a visualização de dados cienciométricos, a saber, a CoordLensView, a CityView e a BellTowerView. A contribuição do trabalho para com a Cienciometria se deu por meio do desenvolvimento de duas ferramentas de código livre para análise
e exploração visual, a saber: o VLattes, que implementa a técnica CoordLensView e o
GLattes, que implementa as técnicas CityView e a BellTowerView.
A aceitação dessas ferramentas por parte dos avaliadores demonstra os efeitos
positivos que uma visualização especialmente elaborada para uma determinada aplicação
pode proporcionar. Por meio das avaliações efetuadas, expôs-se uma distância entre as
técnicas e teorias estabelecidas pela Visualização de Informações e sua aplicação em atividades cienciométricas. Essa constatação deve impelir os pesquisadores de Visualização
de Informações a estudar e a produzir ferramentas que possam auxiliar essa atividade de
pesquisa.
As ferramentas desenvolvidas, apesar de independentes, possibilitam uma aná-
7.1 Trabalhos Futuros
86
lise mais abrangente se utilizadas em conjunto, inclusive concomitante com a tabela de
dados. Isso demonstra que as suítes de aplicações para a exploração visual aumentam consideravelmente o poder de visualizações isoladas. Outrossim, observou-se que a combinação de visualizações distintas é uma proposta interessante, levando à criação de visualizações capazes de abranger questões não contempladas pelas técnicas originais. Isentandose da pretensão de ter promovido essa constatação encorajadora, o estudo da combinação
de técnicas de visualização pode ser tratado como uma nova linha de pesquisa dentro da
Visualização de Informações.
7.1
Trabalhos Futuros
Essa pesquisa abre espaço para vários trabalhos futuros entre os quais se destaca:
• Buscar formas de se aprimorar a técnica CoorLensView.
• Flexibilizar a aplicação do GLattes, inclusive para dados estruturados em k-níveis.
• Testar o GLattes com outros dispositivos de interação, com luvas3D, cavernas de
imersão 3D, mesas interativas e projeção em grandes telas.
• Prosseguir com a investigação de técnicas de Visualização de Informações para
Cienciometria.
• Explorar mais combinações de técnicas de Visualização de Informações.
Referências Bibliográficas
[1] Conteúdo da Base Lattes. http://lattes.cnpq.br/conheca/con_baseLattes.htm,
acessado em julho/2007.
[2] Essential Science Indicators. http://scientific.thomson.com/products/esi/,
acessado em julho/2007.
[3] ISI Web of Knowledge. http://isiwebofknowledge.com/, acessado em julho/2007.
[4] Journal Citation Reports. http://scientific.thomson.com/products/jcr/,
acessado em julho/2007.
[5] Science Citation Index.
http://scientific.thomson.com/products/sci/,
acessado em julho/2007.
[6] Site Lens Studio. http://www.flashkit.com/search/sitemap/index.shtml,
acessado em janeiro/2007.
[7] Thomson Scientific.
http://scientific.thomson.com/, acessado em ju-
lho/2007.
[8] Web of Science. http://scientific.thomson.com/products/wos/, acessado
em julho/2007.
[9] BATTISTA, G. D; EADES, P; TAMASSIA, R; TOLLIS, I. G. Algorithms for drawing
graphs: anannotated bibliography. Comput. Geom. Theory Appl., 4:235–282,
1994.
[10] BEDERSON,
B.
B;
WATTENBERG,
M.
Treemaps-java-algorithms.
http://www.cs.umd.edu/hcil/treemaps, 2001.
[11] BLADH, T; CARR, D. A; SCHOLL, J. Extending tree-maps to three dimensions: A
comparative study. In: APCHI, p. 50–59, 2004.
Referências Bibliográficas
[12] CARD, S. K; MACKINLAY, J. D; SHNEIDERMAN, B; CARD, M.
88
Readings in
information visualization: Using vision to think. Morgan Kaufmann Series in
Interactive Technologies, Academic Press., 1999.
[13] CHAMBERS, J. M; CLEVELAND, W. S; CICLANO; FULANO. Graphical methods
for data analysis. Wadsworth Internatinal Group, 1973.
[14] DAVIDSON, R; HAREL, D. Drawing graphics nicely using simulated annealing.
ACMTrans. Graph., 15:301–331, 1989.
[15] DE OLIVEIRA, M. C. F; LEVKOWITZ, H; ARTERO, A. O. Uncovering clusters
in crowded parallel coordinates visualizations. In: INFOVIS, p. 81–88, 2004.
http://doi.ieeecomputersociety.org/10.1109/INFOVIS.2004.68.
[16] DWYER, T. Extending the wilmascope 3d graph visualisation system – software
demonstration. Conferences in Research and Practice in Information Technology,
Asia Pacific Symposium on Information Visualisation (APVIS 2005), 45, 2005.
[17] DWYER, T; EADES, P. Visualising a fund manager flow graph with columns
and worms. Information Visualisation, 2002. Proceedings. Sixth International Conference, p. 147–152, 2006.
[18] EADES, P. A heuristic for graph drawing. Congr. Numer., 42:149—-160, 1984.
[19] EADES, P.
Complexity issues in drawing directed graphs. In Proceedings
of the International Workshop on Discrete Algorithms and Complexity, Institute of
Electronics, Information and Communication Engineers (IEICE), p. 9—-15, 1989.
[20] EADES, P; WORMALD, N. C. Edge crossings in drawings of bipartite graphs.
Algorithmica, 11:379—-403, 1994.
[21] FANEA, E; CARPENDALE, S; ISENBERG, T. An interactive 3d integration of
parallel coordinates and star glyphs. Department of Computer Science, University
of Calgary, Canada.
[22] FAYYAD, U; PIATETSKY-SHAPIRO, G; SMYTH, P. Knowledge discovery and data
mining: Towards a unifying framework. AAAI Press, 1996.
[23] FAYYAD, U; GRINSTEIN, G. G; WIERSE, A. Information Visualization in Data Mi-
ning and Knowledge Discovery. Morgan Kaufmann Publishers Inc., San Francisco,
CA, USA, 1 edition, 2001.
[24] FUA, Y.-H; WARD, M. O; RUNDENSTEINER, E. A. Hierarchical parallel coordina-
tes for exploration of large datasets. In: IEEE VISUALIZATION, p. 43–50, 1999.
Referências Bibliográficas
89
[25] FULE, P; RODDICK, J. Detecting privacy and ethical sensitivity in data mining
results. Twenty-Seventh Australasian Computer Science Conference, 26:159–166,
2004.
[26] FURNAS, G. W. The fisheye view: anewlookat structured files. Technical Report
#81-11221-9, BellLaboratories, Murray Hill, NewJersey 07974, U.S.A, 1981.
[27] GRAHAM, M; KENNEDY, J. Using curves to enhance parallel coordinate visuali-
sations. Proceedings of the Seventh International Conference on Information Visualization (IV’03), 2003.
[28] HAN, J; KAMBER, M. Data Mining: Concepts and Techniques. Morgan Kaufmann,
San Francisco, CA, 2001.
[29] HAWKINS, D. Identification of Outliers. Chapman and Hall, London, 1980.
[30] INSELBERG, A. The plane with parallel coordinates. The Visual Computer, 1:69–
91, 1985.
[31] INSELBERG, A; DIMSDALE, B. Parallel coordinates : A tool for visualizing multi-
dimensional geometry. Proc. IEEE Symposium of Information Visualization, p. 100–
107, 1990.
[32] ISLAM, Z; BRANKOVIC, L. A framework for privacy preserving classification in
data mining. Australasian Computer Science Week, 32:163–168, 2004.
[33] KANDOGAN, E. Star coordinates: A multi-dimensional visualization technique
with uniform treatment of dimensions. IEEE Symposium on Information Visualization 2000, Salt Lake City, Utah, 1:4, 2000.
[34] KEIM, D. A.
Visual database exploration techniques.
KDD’97 Int. Conf. on
Knowledge Discovery an Data Mining, Newport beach, CA, 1997.
[35] KING, D. A. The scientific impact of nations. Nature Publishing Group, 430:331–
316, 7 2004.
[36] KING, E; CHAMPNEY, J. W. Great South - a record of journeys. American
Publisher Company, Hartford, Conn, 1 edition, 1875.
[37] KNIGHT, C. Visualisation effectiveness. Conference on Imaging Science, Systems,
and Technology, 6 2001.
[38] LEE, M. D; REILLY, R. E; BUTAVICIUS, M. E. An empirical evaluation of chernoff
faces, star glyphs, and spatial visualizations for binary data. In CRPITS ’24:
Proceedings of the Australian symposium on Information Visualisation, p. 1–10, 2003.
Referências Bibliográficas
90
[39] LEUNG, Y. K; APPERLEY, M. D. A review and taxonomy of distortion-oriented
presentation techniques. ACM Trans. Comput.-Hum. Interact., 1(2):126–160, 1994.
O papel da informetria e da cienciometria e sua
perspectiva nacional e internacional. Ci. Inf., 27(2):134–140, 5 1998.
[40] MACIAS-CHAPULA, C. A.
[41] MUGNAINI, R; JANNUZZI, P; QUONIAM, L. Indicadores ciênciométricos. Ci. Inf.
Brasília, 33(2):123–131, 8 2004.
[42] NASCIMENTO, H. A. D. D; FERREIRA, C. B. R. Visualização de informações –
uma abordagem prática. XXIV JAI/XXV Congresso da Sociedade Brasileira da
Compuação, p. 1262–1312, 2006.
[43] NIELSEN, J. Heuristic evaluation of user interfaces. ACM - CHI’90 Proceedings,
1990.
[44] NIELSEN, J.
Usability Engineering.
Morgan Kaufmann Publishers Inc., San
Francisco, CA, USA, 1 edition, 1993.
[45] NIELSEN, J; MOLICH, R. Finding usability problems through heuristic evalua-
tion. ACM - CHI’92 Proceedings, 1992.
[46] PACHECO, R. C. S; KERN, V. M. Uma ontologia comum para a integração de
bases de informações e conhecimento sobre ciência e tecnologia. Ciência da
Informação, Brasília, 30(3):56–63, 12 2001.
[47] PLEWE, J; PHYS., D. Treemaps-java-algorithms. HARDCODE Development,
2002.
[48] RAO, R; CARD, S. The table lens: Merging graphical and symbolic representa-
tionsin an interactivefocus+context visualizationfor tabularinformation. Proceedings of the ACM SIGCHI Conference on Human Factors in Computing Systems,
p. 7, 1994.
[49] SHNEIDERMAN, B.
Tree visualization with tree-maps: A 2-D space-
filling approach.
ACM Transactions on Graphics, 11(1):92–99, 1992.
citeseer.ist.psu.edu/shneiderman91tree.html.
[50] SHNEIDERMAN, B. The eyes have it: A task by data type taxonomy for informa-
tion visualizations. IEEE, p. 336–343, 1996.
[51] SPINAK, E. Indicadores ciênciométricos. Ci. Inf. Brasília, 27(2):141–148, 8 1998.
Referências Bibliográficas
91
[52] TANAKA, Y; OKADA, Y; NIIJIMA, K. Treecube: Visualization tool for browsing
3d multimedia data. Proceedings of the Seventh International Conference on
Information Visualization (IV’03), 2003.
[53] VERYKIOS, V. S; BERTINO, E; ET. AL.. State-of-the-art in privacy preserving
data mining. ACM SIGMOD Record, 33(1):50–57, 3 2004.
[54] WOOLARD, E. W. The measurement of temperature, with some remarks on
other physical measurements, and applications to meteorology. Monthly Weather
Review of American Meteorological Society - AMS, 48:264–270, 1920.
[55] ZHOU, Z.-H. Three perspectives of data mining. Artificial Intelligence, 143:139–
136, 2003.
APÊNDICE A
CD-ROM
Junto a essa dissertação, encontra-se um CD-ROM contendo grande parte dos
textos utilizados e citados no decorrer do trabalho. Os textos são para simples referência
e não devem ser distribuídos, uma vez que muitos deles estão protegidos por leis de
propriedade autoral.
Também se encontram neste CD-ROM as ferramentas desenvolvidas e seus respectivos códigos fontes. Essas ferramentas são livres para serem distribuídas e alteradas,
desde que a fonte seja citada. Os requisitos mínimos e os procedimentos de instalação e
de execução das ferramentas são descritos a seguir.
A.1
Requisitos Mínimos
• Um computador com processador de 1.7 Ghz, 256Mb de memória RAM, 256Mb
em disco para memória virtual, placa de vídeo com OpenGL 1.2 ou superior.
Recomenda-se monitor com pelo menos 17"e placa de vídeo dedicada com 128Mb.
• Java Runtime Enviroment (JRE) 1.4 ou superior, que pode ser encontrado em
www.java.sun.com.
• Java3D, que pode ser encontrado em http://java.sun.com/products/java-media/3D/.
• MySql 4.0, que pode ser encontrado em http://dev.mysql.com/downloads/mysql/5.0.html
• MySql Connector/J, que pode ser encontrado em http://dev.mysql.com/downloads/connect
• JXInput, que pode ser encontrado em http://www.hardcode.de/jxinput/.
A.2
Instalação
1. Copie para a pasta [data], localizada na pasta de instalação do MySQL, a pasta
[tools
data
lattes], localizada na pasta [tools] deste CD-ROM.
Apêndice A
93
2. Instale o MySql Connector/J, copiando o arquivo [mysql-connector-java-x.x.xbin.jar] para a pasta [lib
ext], localizada na pasta de instalação do JRE.
3. Configure o MySql para permitir acesso ao usuário “root@localhost”, com senha
“root”.
4. Copie os arquivos [jxinput.jar] e [jxinput.dll] para a pasta [lib
ext], localizada na pasta de instalação do JRE.
A.3
Executando as Ferramentas
Para executar o VLattes, execute a seguinte linha de comando:
java -Xms128Mb -Xmx256Mb
<CD-ROM>:\tools\VLattes\src\VLattes\parallelCoord.GUI
Para executar o GLattes-CityView, execute a seguinte linha de comando:
java -Xms128Mb -Xmx256Mb
<CD-ROM>:\tools\GLattes\src\GLattes\landscape3D.GUI
Para executar o GLattes-BellTowerView, execute a seguinte linha de comando:
java -Xms128Mb -Xmx256Mb
<CD-ROM>:\tools\GLattes\src\GLattes\landscape3D.GUI t
Qualquer dúvida, favor entrar em contato com o autor pelo e-mail [email protected].
A.4
Script em SLQ para a Criação do Banco de Dados
Interno
Abaixo, é apresentado um script em MySql para a criação das tabelas que
formam a base de dados interna das ferramentas.
Apêndice A
94
Código A.1 Script em SLQ para a criação do banco de dados
interno
1
2
/*CRIA O BANCO DE DADOS*/
‘lattes‘.CREATE DATABASE ‘lattes‘ /*!40100 DEFAULT CHARACTER SET latin1 */;
3
4
5
6
7
8
9
10
11
/*CRIA A TABELA IES*/
CREATE TABLE ‘lattes‘.‘ies‘ (
‘IDIES‘ int(10) unsigned NOT NULL auto_increment,
‘NOME‘ varchar(60) default ’0’,‘SIGLA‘ varchar(10) default ’0’,
PRIMARY KEY (‘IDIES‘),
UNIQUE KEY ‘IDIES‘ (‘IDIES‘,‘NOME‘,‘SIGLA‘),
KEY ‘IDIES_2‘ (‘IDIES‘,‘NOME‘,‘SIGLA‘)
) ENGINE=MyISAM DEFAULT CHARSET=latin1;
12
13
14
15
16
17
18
19
/*CRIA A TABELA UNIDADEACADEMICA*/
CREATE TABLE ‘lattes‘.‘unidadeacademica‘ (
‘idunidade‘ int(10) unsigned NOT NULL auto_increment,
‘nome‘ varchar(60) NOT NULL default ’’,
‘tipo‘ varchar(10) NOT NULL default ’’,
PRIMARY KEY (‘idunidade‘)
) ENGINE=MyISAM DEFAULT CHARSET=latin1;
20
21
22
23
24
25
26
27
28
29
/*CRIA A TEBELA TIPOPRODUCAO*/
CREATE TABLE ‘lattes‘.‘tipoproducao‘ (
‘IDTIPOPRODUCAO‘ int(10) unsigned NOT NULL auto_increment,
‘NOME‘ varchar(120) default ’0’,
‘ABREVIACAO‘ varchar(4) default NULL,
PRIMARY KEY (‘IDTIPOPRODUCAO‘),
UNIQUE KEY ‘IDTIPOPRODUCAO‘ (‘IDTIPOPRODUCAO‘,‘NOME‘),
KEY ‘IDTIPOPRODUCAO_2‘ (‘IDTIPOPRODUCAO‘,‘NOME‘)
) ENGINE=MyISAM DEFAULT CHARSET=latin1;
30
31
32
33
34
35
36
37
38
39
40
/*CRIA A TABELA PESQUISADOR*/
CREATE TABLE ‘lattes‘.‘pesquisador‘ (
‘IDPESQUISADOR‘ int(10) unsigned NOT NULL auto_increment,
‘KEYIES‘ int(10) unsigned default ’0’,
‘NOME‘ varchar(60) default ’0’,
‘KEYUNIDADE‘ int(10) unsigned NOT NULL default ’0’,
PRIMARY KEY (‘IDPESQUISADOR‘),
UNIQUE KEY ‘IDPESQUISADOR‘ (‘IDPESQUISADOR‘),
KEY ‘IDPESQUISADOR_2‘ (‘IDPESQUISADOR‘)
) ENGINE=MyISAM DEFAULT CHARSET=latin1;
41
42
43
44
45
46
47
48
49
50
51
52
/*CRIA A TABELA TIPOPRODUCAO*/
CREATE TABLE ‘lattes‘.‘producao‘ (
‘IDPRODUCAO‘ int(10) unsigned NOT NULL auto_increment,
‘KEYPESQUISADOR‘ int(10) unsigned default ’0’,
‘KEYTIPOPRODUCAO‘ int(10) unsigned default ’0’,
‘ANO‘ int(4) unsigned default ’0’,
‘VALOR‘ int(10) unsigned default ’0’,
PRIMARY KEY (‘IDPRODUCAO‘),
UNIQUE KEY ‘IDPRODUCAO‘ (‘IDPRODUCAO‘),
KEY ‘IDPRODUCAO_2‘ (‘IDPRODUCAO‘)
) ENGINE=MyISAM DEFAULT CHARSET=latin1;
Apêndice A
A.5
95
Telcas de Atalho do GLattes
Figura A.1: GLattes, telcas de Atalhos
APÊNDICE B
Material utilizado em avaliações e entrevistas
B.1
Termo de Consentimento Livre e Esclarecido
Figura B.1: Termo de Consentimento Livre e Esclarecido, pg. 1
Apêndice B
97
Figura B.2: Termo de Consentimento Livre e Esclarecido, pg. 2
Apêndice B
B.2
98
Questionário para o Levantamento de Questões Cienciométricas
Figura B.3: Levantamento das Questões Cienciométricas, pg. 1
Apêndice B
99
Figura B.4: Levantamento das Questões Cienciométricas, pg. 2
Apêndice B
B.3
100
Questionário Utilizado na Avaliação das Ferramentas
Figura B.5: Questionário de avaliação das ferramentas
Apêndice B
B.4
101
Tabela Utilizada na Avaliação das Ferramentas
Figura B.6: Tabela de Produção Científica, dados dos pesquisadores.
Apêndice B
102
Figura B.7: Tabela de Produção Científica, pesos dos indicadores.

Documentos relacionados