Visualizando Bases Curriculares de Atividades Acadêmicas
Transcrição
Visualizando Bases Curriculares de Atividades Acadêmicas
U NIVERSIDADE F EDERAL DE G OIÁS I NSTITUTO DE I NFORMÁTICA L UCIANO C ARLOS R IBEIRO DA S ILVA Visualizando Bases Curriculares de Atividades Acadêmicas Goiânia 2007 L UCIANO C ARLOS R IBEIRO DA S ILVA Visualizando Bases Curriculares de Atividades Acadêmicas Dissertação apresentada ao Programa de Pós–Graduação do Instituto de Informática da Universidade Federal de Goiás, como requisito parcial para obtenção do título de Mestre em Ciência da Computação. Área de concentração: Visualização de Informações. Orientador: Prof. Hugo Alexandre Dantas do Nascimento Co–Orientador: Prof. Wellington Santos Martins Goiânia 2007 Todos os direitos reservados. É proibida a reprodução total ou parcial do trabalho sem autorização da universidade, do autor e do orientador(a). Luciano Carlos Ribeiro da Silva Graduou-se em Ciência da Computação na UNIP - Universidade Paulista. Durante a sua graduação foi monitor de programação no seu departamento. Desenvolveu softwares para empresas na área médica, ortodôntica e indústrias metalúrgica de médio porte. Durante o mestrado na UFG - Universidade Federal de Goiás, foi bolsista CAPES. Atualmente é professor substituto da UFG. À minha amada, virtuosa e bem presente esposa Lísia. Agradecimentos Agradeço ao meu Deus e Senhor, o Senhor de Israel. Não tenho dúvidas de que os seus milagres se renovam a cada manhã em minha vida. Mesmo sem merecer, alcancei graça diante dos Seus olhos e por isso até aqui Ele me ajudou. Agradeço à minha mulher, a quem eu também dedico este trabalho. Sempre pude contar com seu amor, suporte e compreensão. Sou grato por todas as vezes em que, cuidadosamente, revisou meus textos. Agradeço à minha mãe por todo apoio dispensado não só nesta etapa, mas em todas as outras etapas da minha educação. Agradeço aos meus familiares pelo suporte e incentivo. Agradeço ao professor Hugo, meu orientador. A sua conduta e o seu caráter, invariavelmente cerceados pela ética e honestidade, sempre me provocaram a ser alguém melhor do que eu sou. Agradeço ao professor Wellington, meu co-orientador, por sua presteza e paciência. Com ele, aprendi a importância de atitudes pautadas pelo bom senso e humildade. Agradeço ao professor Humberto Longo, cuja nobreza o precede. Muito solícito e acessível, sempre esteve disposto a nos remeter aos altos lugares do conhecimento. Agradeço a todos os amigos e colegas do mestrado que me ajudaram a correr esta corrida. Faço menção das colegas Joelma Moura e Karla Nascimento, que sempre me apoiaram, mesmo antes do meu ingresso neste programa. Agradeço ao Programa de Mestrado em Ciência da Computação da UFG. Agradeço à CAPES, pelo suporte financeiro. “When you can measure what you are speaking about and express it in numbers, you know something about it, and when you can not measure it, when you can not express it in numbers, your knowledge is of a meager end unsatisfactory kind. It may be the beginning of knowledge, but you have scarcely in your thought advanced to the stage of a science.” Lord Kelvin, The measurement of temperature, with some remarks on other physical measurements, and applications to meteorology [54]. Resumo Silva, Luciano Carlos R.. Visualizando Bases Curriculares de Atividades Acadêmicas. Goiânia, 2007. 101p. Dissertação de Mestrado. Instituto de Informática, Universidade Federal de Goiás. A Cienciometria se define como a “ciência de se medir a ciência”. Com o grande volume de dados de produção científica disponíveis atualmente, como bases de dados de citações, de publicações e de currículos, e a grande capacidade de processamento e armazenamento dos computadores modernos, tem crescido o interesse pelo desenvolvimento de aplicações que sirvam de auxílio às atividades de exploração desses dados. O presente trabalho busca levantar técnicas de Visualização de Informações que tornem a exploração dos dados cienciométricos mais eficientes. Foram propostas e implementadas, para tal fim, duas visualizações baseadas na combinação de técnicas de Visualização de Informações tradicionais. Uma avaliação dessas implementações, envolvendo pesquisadores e gestores de recursos de pesquisa, mostra que as visualizações são efetivas e eficazes para a Cienciometria. Palavras–chave Visualização de Informações, Cienciometria, Informetria, Bibliometria, Coordenadas Paralelas, Themescape, Treemap Abstract Silva, Luciano Carlos R.. Visualizando Bases Curriculares de Produção Acadêmica. Goiânia, 2007. 101p. MSc. Dissertation. Instituto de Informática, Universidade Federal de Goiás. The Scientometrics is the “science of mensure the science”. The large amount of data currently available about scientific production, such as bibliography, citation and curriculum data bases, as well as the increased capacity of today’s computers for storing and processing information are motivating the development of computational tools for science exploration. The present work investigates the possibility of using Information Visualization techniques for such an aim . It proposes and describes the implementation of two visualizations that combines existing visualization techniques. An evaluation of the implemented tools with researchers and science-financial resource managers were developed. The results of the evaluation show that the two visualization are effective and efficient for Scienciometry. Keywords Information Visualization, Cientometrics, Informetrics, Bibliometrics, Parallel Coordinates, Themescape, Treemap Sumário Lista de Figuras 10 1 13 14 14 14 Introdução 1.1 1.2 1.3 2 Objetivos Metodologia de Trabalho Organização da Dissertação Revisão Bibliográfica 2.1 2.2 Cienciometria 2.1.1 Informetria e Bibliometria 2.1.2 Bibliometria e Cienciometria 2.1.3 Obstáculos KDD - Knowledge Discovery in Databases 2.2.1 2.3 3 Visualização de Informações 2.3.1 Mineração Visual de Dados 2.3.2 Processo para a Criação de Visualizações de Informação 2.3.3 Técnicas de Visualização de Informações 2.3.4 Evoluções de Técnicas de Visualização de Informações 2.3.5 Visualização em Cienciometria Questões Estratégicas em C&T e os Compêndios da Produção Científica 3.1 3.2 Levantamento de Questões Estratégicas Bases de Dados Acadêmicas e de Produção Bibliográfica 3.2.1 3.3 4 Ética em KDD A Plataforma Lattes A Tríade: Questões - Base de Dados - Visualização Propostas de Visualização para Bases de Dados Curriculares 4.1 4.2 CoordLensView: Indicadores de Produção com Coordenadas Paralelas e Foco+Contexto 4.1.1 Definição da Visualização 4.1.2 Discussões CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping 4.2.1 Definição da Visualização 4.2.2 Discussões 16 16 17 18 19 19 23 25 26 26 29 37 40 41 41 43 45 48 49 49 49 51 53 53 54 5 Ferramentas Implementadas 5.1 Arquitetura Conceitual das Ferramentas VLattes e GLattes 5.1.1 5.2 5.3 6 Base de Dados e Linguagem de Progração VLattes GLattes Avaliação das Visualizações 6.1 6.2 6.3 Configuração da Avaliação 6.1.1 Escolha dos Avaliadores 6.1.2 Preparação e realização da avaliação Resultados Obtidos 6.2.1 Primeira Entrevista 6.2.2 Segunda Entrevista 6.2.3 Terceira Entrevista 6.2.4 Quarta Entrevista 6.2.5 Quinto Avaliador 6.2.6 Resumo dos Resultados Discussão dos Resultados 60 60 60 63 65 70 70 70 71 73 73 74 75 76 78 79 81 Trabalhos Futuros 85 86 Referências Bibliográficas 87 A 92 92 92 93 93 95 7 Conclusão 7.1 CD-ROM A.1 A.2 A.3 A.4 A.5 B Requisitos Mínimos Instalação Executando as Ferramentas Script em SLQ para a Criação do Banco de Dados Interno Telcas de Atalho do GLattes Material utilizado em avaliações e entrevistas B.1 B.2 B.3 B.4 Termo de Consentimento Livre e Esclarecido Questionário para o Levantamento de Questões Cienciométricas Questionário Utilizado na Avaliação das Ferramentas Tabela Utilizada na Avaliação das Ferramentas 96 96 98 100 101 Lista de Figuras 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 Classificação dos Indicadores Cienciométricos Um esquema típico de KDD Mineração de Dados e áreas afins Processo de Visualização de Informações Mineração de Dados com Spotfire Processo para a criação de Visualização de Informações Propriedades das Marcas Visuais Exemplos da técnica de Fish-Eye (a) (b) (c) 2.9 2.10 2.11 2.12 2.13 2.14 2.15 2.16 Técnica Fish-Eye Fish-Eye aplicada sobre texto Fish-Eye Menu Uso de Bifocal Display Browser Hiperbólico Perspective Wall Table Lens Coordenadas Paralelas Star Coordinates Um exemplo de Metáfora Themescape Glyphs (a) (b) Faces de Chernoff Star Plots 2.17 Treemap (a) (b) Árvore Hierárquica Treemap 2.18 Técnicas de Visualizações (a) (b) (c) (d) (e) (f) Parallel Coordinates + Star Glyphs Worms Mapa de Relacionamento entre Linhas de Pesquisa Grafo de Citações Treeecube StepTree 2.19 Coordenadas Paralelas com linhas Curvas 2.20 Incomes x Outcomes 3.1 Plataforma Lattes em números (a) (b) (c) Plataforma Lattes, Alto Nível de Formação Plataforma Lattes, Doutores por Área do Conhecimento Plataforma Lattes, Instituições por Setor Econômico 19 21 22 25 26 27 27 31 31 31 31 31 32 32 32 33 34 34 35 35 35 36 36 36 38 38 38 38 38 38 38 39 40 46 46 46 46 3.2 Um currículo típico em XML/LMPL 47 4.1 4.2 Coordenadas Paralelas, filtros sobre os eixos Coordenadas Paralelas, aumentando a expressividade. 50 51 51 51 52 52 52 52 53 55 55 55 55 55 56 57 57 57 57 57 58 58 58 58 58 59 59 59 (a) (b) 4.3 Coordenadas Paralelas, identificando linhas (a) (b) 4.4 4.5 4.6 Cidade Zero Cidade 1 Cidade 2 Cidade 3 Themescape, plano de intersecção Diferentes layouts de Treemap (a) (b) (c) (d) 4.9 Coordenadas Paralelas, perda de identificação Coordenadas Paralelas, legenda CoordLens, Ant Footprints Landscape, hierarquia Themescape Hierárquico (a) (b) (c) (d) 4.7 4.8 Coordenadas Paralelas Hierárquicas Parallel Clustering Squartifield Treemap Strip Treemap Slice Treemap Binary Tree Treemap A visão da Torre do Sino (a) (b) (c) (d) Alusão Visão das escadas Visão lateral Visão do solo 4.10 Visualizações com transparência (a) (b) Treecube Themescape Hierárquico 5.5 5.6 5.7 GLattes-CityView GLattes-BellTowerView, na perpendicular GLattes-BellTowerView, de perfil 61 63 64 65 65 65 66 67 68 A.1 GLattes, telcas de Atalhos 95 B.1 B.2 B.3 B.4 B.5 Termo de Consentimento Livre e Esclarecido, pg. 1 Termo de Consentimento Livre e Esclarecido, pg. 2 Levantamento das Questões Cienciométricas, pg. 1 Levantamento das Questões Cienciométricas, pg. 2 Questionário de avaliação das ferramentas 5.1 5.2 5.3 5.4 Arquitetura Conceitual VLattes/GLattes Tela da Ferramenta VLattes Uma barra(coordenada) típica do VLattes VLattes, filtro da lente bifocal (a) (b) VLattes, lente com filtro inativo VLattes, lente com filtro ativo 96 97 98 99 100 B.6 B.7 Tabela de Produção Científica, dados dos pesquisadores. Tabela de Produção Científica, pesos dos indicadores. 101 102 CAPÍTULO 1 Introdução À medida que os compêndios de produção científica, acadêmica e de publicações passaram a ser disponibilizados em formato digital, perderam a característica de serem utilizados somente como um repositório do conhecimento. A facilidade de análise que a computação imputou a esses depósitos acabou por conferir-lhes um propósito maior: o de ser uma base para se analisar a própria ciência. Os interessados em fazê-lo, a saber, governantes, ministros, secretários de estado e gestores da ciência, utilizam suas informações como indicadores para norteá-los na tomada de decisões estratégicas, tais como a correta alocação de recursos ou a escolha de uma linha de pesquisa a ser priorizada. É nesse escopo de atividades que se encontra a Cienciometria, ou a ciência de se medir a ciência. No entanto, o grande volume de dados existentes nos bancos de dados científicos faz com que a exploração se dê de forma complexa. Por exemplo, a sondagem manual de pesquisadores com determinados perfis, da pontuação de suas produções segundo algum critério de seleção ou até mesmo a identificação de pesquisadores mais produtivos pode exigir horas ou dias de acordo com as características das bases aferidas. Em vista disso, é necessário que haja a aplicação, ou, até mesmo, a elaboração de técnicas computacionais que tornem a atividade exploratória mais fácil e eficaz. Sabese que o uso da computação é de suma importância tanto para a utilização das bases de dados como para a melhoria das atividades de análises cienciométricas. Depreende-se, então, que a Visualização de Informações, área de pesquisa que busca formas mais eficientes de se exibir dados e de se interagir com os mesmos, possa trazer grandes benefícios para os pesquisadores da ciência. Porém, ainda verifica-se uma escassez de estudos que investiguem de modo mais específico a aplicação de técnicas de Visualização de Informações em Cienciometria. Esse trabalho se propõe a contribuir para a redução dessa lacuna por meio da proposta de utlização de visualizações interativas para a atividade de exploração de dados cienciométricos. 1.1 Objetivos 1.1 14 Objetivos O objetivo geral desse estudo é investigar a atuação da Visualização de Informações em Cienciometria. Como objetivos específicos, destaca-se os seguintes pontos: levantar as necessidades das comunidades que se valem dos indicadores cienciométricos; analisar as principais bases de produção acadêmica; propor duas técnicas de visualização que possam responder à demanda da comunidade e apresentar ferramentas que implementem as visualizações propostas. 1.2 Metodologia de Trabalho A realização da presente pesquisa envolveu as seguintes etapas: 1. Levantamento das principais questões cienciométricas de interesses dos pesquisadores por meio de revisão bibliográfica e entrevistas feitas com especialistas em gestão da ciência. A finalização dessa etapa possibilitou a definição das demandas sobre os dados. 2. Investigação das bases de dados cienciométricas disponíveis, de sua acessibilidade e de sua aplicabilidade. 3. Determinação de quais questões cienciométricas poderiam ser respondidas considerando as limitações inerentes a cada base de dados. 4. Elaboração de duas propostas de visualizações para a Cienciometria. 5. Implementação das duas propostas na forma de ferramentas computacionais. 6. Avaliação das ferramentas por especialistas. Embora se tenha investigado várias bases de dados, utilizou-se a base curricular da Plataforma Lattes do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) para o teste das ferramentas implementadas. 7. Análise dos resultados da avaliação e elaboração das conclusões finais. 1.3 Organização da Dissertação O restante desse documento, que reflete os passos da metodologia adotada, encontra-se organizado em sete capítulos. O Capítulo 2 conceitua a Cienciometria e a Visualização de Informações. No Capítulo 3, são apresentadas e analisadas as principais bases de dados de produção acadêmica existentes e é feito um levantamento dos principais 1.3 Organização da Dissertação 15 indicadores produtivos necessários à gerência da ciência. O Capítulo 4 introduz duas técnicas de visualização de informações para a Cienciometria. O Capítulo 5 expõe as ferramentas que implementam as técnicas discutidas no Capítulo 4. O Capítulo 6 promove uma avaliação das ferramentas apresentadas. Enfim, o Capítulo 7 expõe as considerações finais acerca do trabalho e elenca um conjunto de trabalhos futuros que podem dar continuidade a esse estudo. Os materiais utilizados nos levantamentos e avaliações realizados bem como as ferramentas desenvolvidas são apresentados nos apêndices. CAPÍTULO 2 Revisão Bibliográfica Esse capítulo fornece suporte teórico ao desenvolvimento desse estudo. Nele, são conceituados a Cienciometria, os processos de descoberta de conhecimento em bases de dados e a Visualização de Informações. 2.1 Cienciometria “Quando você consegue mensurar um fato sobre o qual está falando, ou expressá-lo numericamente, significa que você sabe alguma coisa sobre ele. Mas quando você não pode mensurá-lo, não pode expressá-lo numericamente, seu conhecimento é exíguo e insatisfatório; pode até ser o início do seu conhecimento sobre o fato, mas você mal tem em seus avançados pensamentos o estado da ciência. ” Lord Kelivn [54]. Anualmente, inúmeras instituições de pesquisa no Brasil e no Mundo concluem centenas de trabalhos em Ciência e Tecnologia(C&T). Obter um panorama dessa produção é importante para a definição de metas e políticas de desenvolvimento científico a serem utilizadas pelos governos, pelas instituições e pelos pesquisadores envolvidos. Os métodos de medição desses indicadores e também a análise dos resultados obtidos são estudados pela Cienciometria. Pode-se definir a Cienciometria como a ciência de se medir a ciência. Apesar do caráter óbvio de tal definição, a tarefa de se criar indicadores coerentes para mensurar a produção científico-tecnológica não é trivial, dada a subjetividade de seu objeto de trabalho. Ao contrário dos demais ramos de atividades sociais, como o comércio e a indústria, que dispõem de diversos indicadores absolutos para se medir a sua produtividade, não se mede facilmente o fruto do intelecto. A simples contagem dos textos produzidos pelos pesquisadores pode ser usada para medir a produção científica. Não obstante, essa técnica amplamente adotada pela Bi- 2.1 Cienciometria 17 bliometria1 deixa de lado inúmeros fatores relevantes, os quais devem ser contabilizados para que problemas não passem desapercebidos e para que não ocorra a indução a graves erros de análise. É nesse contexto de incertezas que surge a Cienciometria, que busca na estatística, sociologia e filosofia técnicas sofisticadas por meio das quais a ciência possa ser mensurada. A importância de se medir a ciência se justifica não apenas pela competitividade intrínseca ao meio científico. Sem poder mensurar a ciência, instituições e governos não teriam instrumental para tomar decisões importantes quanto a políticas de desenvolvimento tecnológico-científico de suas comunidades. Os pesquisadores, por sua vez, possivelmente não teriam como avaliar, de modo eficaz, o impacto de seus estudos em um âmbito maior, tal como um país ou continente. Sendo assim, destaca-se uma vez mais a importância do estudo e do desenvolvimento das técnicas de se medir a ciência. Basicamente, o que se almeja é mensurar a importância dos atores da ciência, ou seja, aferir índices que possam classificar a relevância de uma pesquisa, de um pesquisador, de uma instituição, de uma região, de um país, de uma área do conhecimento, etc. Outra incógnita a ser respondida se refere ao relacionamento entre esses atores, isto é, de que maneira os pesquisadores, as instituições, os países, as áreas do conhecimento, etc., cooperam entre si. Os métodos que visam a responder questionamentos como esse podem ser resumidos em três vertentes: Informetria, Bibliometria e Cienciometria. A abordagem de cada uma delas se dará nas seções seguintes. 2.1.1 Informetria e Bibliometria Tanto a Informetria quanto a Bibliometria se preocupam exclusivamente com os aspectos quantitativos da produção intelectual. Em vista disso, utilizam-se de indicadores absolutos, como a quantidade de textos publicados ou de patentes requeridas, para classificar os atores. O que de fato as diferencia é a fonte dos dados analisada. A Bibliometria está voltada exclusivamente para textos publicados em meios reconhecidamente científicos, que seriam revistas especializadas, livros, teses, etc. Já a Informetria é mais abrangente, porém menos confiável, pois leva em consideração mídias que nem sempre garantem a procedência da informação, como sites de busca na Web (e.g. Google, Yahoo). Embora a Bibliometria seja mais confiável, a sua aceitação é limitada, já que, por analisar apenas fatores quantitativos, pode mascarar o real panorama da ciência. Por exemplo, o fato de um pesquisador ter muitas publicações não significa que seu trabalho tenha maior relevância do que o de outro pesquisador que publique menos. Sendo assim, 1o conceitos de bibliometria e outros temas da área são definidos a seguir 2.1 Cienciometria 18 é necessário que haja uma análise qualitativa capaz de aferir o grau de importância da revista ou do jornal onde esses pesquisadores publicam suas produções científicas. 2.1.2 Bibliometria e Cienciometria Como foi dito na Seção 2.1.1, a Bibliometria se atém somente aos aspectos quantitativos da ciência. Por esse motivo, tem sido alvo de muitas críticas no meio científico, fato que dificulta sua aceitação por parte dos atores da ciência. A Cienciometria surge nesse contexto de insatisfação. Oriunda da sociologia da ciência, preocupa-se não somente com os aspectos quantitativos da ciência, mas também com os seus aspectos qualitativos. Em conseqüência disso, é possível afirmar que a Cienciometria se sobrepõe à Bibliometria, não deixando, contudo, de fazer uso de suas técnicas e métodos [40]. Como em todo tipo de análise, a análise cienciométrica se orienta por um conjunto de indicadores de produção, os quais se classificam em income, responsáveis por medir os investimentos financeiros em C&T; outcome, utilizados para se medir os resultados obtidos; indicadores-produto, empregados para se medir de forma imediata o grau de produção, sem levar em conta a relevância. E, finalmente, os indicadoresimpacto, que medem o grau de relevância da produção, o que só é possível a longo prazo (pode-se levar anos ou décadas para que uma obra intelectual comece a ser difundida no meio científico). A partir dessa classificação, define-se os principais indicadores da Cienciometria, que são: • Números de trabalhos: não leva em conta a sua relevância; • Número de citações: muito utilizado pela Cienciometria por ser capaz de indicar o impacto de um trabalho na comunidade. Ainda assim, continua sendo controverso, já que os motivos que levam um ator a citar outro são os mais variados possíveis (homenagear pioneiros, conferir credibilidade ao trabalho, retificar trabalhos, dar destaque a trabalhos pouco disseminados, sustentar declarações, etc.). Além disso, a análise automatizada de citações esbarra em vários obstáculos técnicos, tais como a autoria múltipla, os homônimos, os sinônimos, os erros de edição, a regionalização da literatura, a inexistência de textos antigos em formato digital, etc.; • Co-autoria: identifica como os atores colaboram entre si; • Números de patentes: inovações tecnológicas; • Relevância do meio de publicação: indica o impacto de um trabalho; • Riqueza da comunidade: normaliza os valores aferidos com relação ao poder econômico das comunidades. A Figura 2.1 mostra, de forma mais clara, como esses indicadores estão distribuídos e quais são os seus principais objetivos. 2.2 KDD - Knowledge Discovery in Databases 19 Figura 2.1: Classificação dos indicadores cienciométricos. Extraído de [41] 2.1.3 Obstáculos Apesar dos esforços em se estabelecer normas matemáticas e estatísticas para se valorar a produção científica, a Cienciometria ainda é vista com desconfiança e receio. Pesquisadores temem que suas linhas de pesquisa sejam desvalorizadas por causa de números que, na verdade, podem não refletir uma realidade. Instituições temem perder status e investimentos. Governos receiam que suas políticas de desenvolvimento científico e educacional sejam avaliadas pela sociedade, gerando críticas e descontentamento. Essas reflexões reafirmam a complexidade em se medir as produções advindas do intelecto. A falta de um agente centralizador de informações dos trabalhos em C&T também é um problema grave. Geralmente, os textos estão espalhados em diversas bases de dados, as quais por vários motivos, dentre eles os de ordem econômica, são de acesso restrito a apenas parte do público interessado. Outra problemática é a adoção de métricas cienciométricas diferentes por parte dos atores. Mesmo quando existe a convergência de aceitação, a análise dos dados é complexa, e isso devido ao seu volume e aos seus relacionamentos. O uso da computação tem auxiliado especialistas na análise dos dados cienciométricos. Tecnologias como a Descoberta de Conhecimento em Banco de Dados e a Visualização de Informações têm sido empregadas na Cienciometria. As Seções 2.2 e 2.3 conceituam essas tecnologias. 2.2 KDD - Knowledge Discovery in Databases Com a evolução dos sistemas de informação, os processos de armazenamento e de manutenção dos dados produzidos pelas instituições tiveram uma redução em seus custos. Tal fato fez com que um crescente número de empresas iniciasse um processo de armazenamento massivo não somente dos dados pertinentes ao seu negócio, mas de qualquer informação que pudesse fornecer padrões de comportamentos das várias 2.2 KDD - Knowledge Discovery in Databases 20 transações realizadas. E foi a partir da análise de grandes bases de dados que veio à tona a necessidade de se desenvolver ferramentas capazes de automatizar os processos de inferência. Esse processo de descoberta é chamado de Knowledge Discovery in Databases. A presente seção expõe as etapas e técnicas intrínsecas ao processo de KDD e promove uma breve reflexão sobre as questões éticas nas quais o processo está inserido. Pode-se definir KDD - Knowledge Discovery in Databases2 como sendo “o processo não trivial de identificar padões novos, válidos, potencialmente proveitosos e altamente compreensivos em dados” [22]. A Figura 2.2 esquematiza as etapas do processo de KDD. Abaixo, explicita-se uma breve descrição das etapas geralmente envolvidas em um processo KDD. 1. Limpeza dos dados: eliminação de ruídos e dados inconsistentes; 2. Integração dos dados: combinação de diversas fontes de dados; 3. Seleção dos dados: extração de dados relevantes às tarefas de análise do banco de dados; 4. Transformação dos dados: escolha das formas apropriadas para mineração; 5. Mineração dos dados: extração de padrões interessantes através de métodos inteligentes, aplicados nos dados já preparados; 6. Pós-processamento dos padrões minerados: identificação de quais resultados são realmente interessantes para o usuário; 7. Visualização: representação de conhecimento são utilizadas para que o conhecimento minerado seja apresentado ao usuário; 8. Testes: validação da consistência dos resultados obtidos pelo processo de mineração. Existem quatro passos antes da aplicação dos processos de mineração de dados. Essas etapas são necessárias porque facilitam o processo de inferência, que já é computacionalmente complexo. Ao se efetuar o pré-processamento, gera-se uma nova base de dados altamente otimizada para a qualificação e inferência de informações. A Figura 2.2 mostra um esquema típico de KDD. Fica evidente que no datawarehouse não há limpeza de dados. Nesse tipo de repositório, os dados já são nativamente organizados para a mineração. 2 Descoberta de conhecimento em banco de dados 2.2 KDD - Knowledge Discovery in Databases 21 Figura 2.2: Um esquema típico de KDD, destaque para a camada de limpeza entre as bases de dados e o processo de mineração. É nessa camada que são feitos os passos 1, 2, 3 e 4 É importante salientar a diferença existente entre um processo de KDD e os métodos clássicos de acesso à informação. Enquanto que nos métodos clássicos tem-se um conhecimento prévio da informação que se quer buscar, em um processo KDD nada se sabe sobre o que será descoberto, ou seja, a análise dos dados e sua exibição ao usuário se dá através de um processo automatizado e inteligente. Para exemplificar os dois casos, pode-se citar uma consulta clássica a uma base de dados como sendo algo do tipo “Quanto de açúcar foi comprado este mês?”, ao passo que uma consulta típica a uma base de dados usando KDD se pautaria em questionamentos como “Quais os itens que têm boa saída conjuntamente?”. Das etapas descritas acima, a mais importante é a da mineração de dados. Han [28] define a mineração de dados como sendo “o processo de se descobrir conhecimentos interessantes de uma grande quantidade de dados armazenados tanto em banco de dados, data warehouses ou outros repositórios de informação”3 . Esse processo se concretiza através de algoritmos oriundos das técnicas da Inteligência Artificial, as quais se baseiam, em sua maioria, em análises estatísticas. É importante perceber que quanto maior a quantidade de dados disponíveis, melhor e mais confiável será a detecção dos padrões e associações. Tal característica se evidencia por uma questão estatística: quanto mais amostragens, maior a acuidade. Acerca do processo de KDD, enuncia-se que envolve quatro áreas do conheci3 “the process of discovering interesting knowledge from large amounts of data stored either in databases, data warehouses, or other information repositories” 2.2 KDD - Knowledge Discovery in Databases 22 mento: Banco de Dados, Inteligência Artificial, Visualização de informações e Estatística [55], como ilistrado na Figura 2.3. Figura 2.3: Mineração de Dados e sua forte relação com outras quatro áreas do conhecimento humano Atualmente, o processo de KDD, especificamente a etapa de mineração de dados, gira em torno de cinco técnicas básicas: regras de associação, análise de seqüência, classificação, clustering e outliers, as quais são brevemente definidas a seguir: • Regras de associação – procura inferir associações entre os elementos do conjunto de dados. Por exemplo, seria possível deduzir que a venda de leite está diretamente relacionada com a venda de fraldas. • Análise de seqüência – procura inferir padrões de comportamento através da análise temporal dos dados. Por exemplo, seria pertinente inferir que clientes que compram aparelhos de DVD hão de comprar, posteriormente, sistemas de áudio. • Classificação – procura classificar elementos do conjunto através de regras prédefinidas. Exemplo disso seria a determinação de regras usando a idade, o tempo de serviço e o nível de produção de pesquisadores para classificá-los em Pesquisadores_Estabelecidos, Pesquisadores_Iniciantes, Pesquisadores_Proeminentes. Os algoritmos de classificação inseririam os pesquisadores nesses grupos conforme a definição das regras atribuídas. • Clustering – procura, assim como ocorre na classificação, separar os elementos de um conjunto em classes. Porém, deve-se ressaltar que a técnica empregada em tal procedimento se difere da que é usada na Classificação justamente por não ser supervisionada. A técnica de clustering é por observação, o que faz com que as regras e as classes não necessitem de uma pré-definição, uma vez que os próprios algoritmos são capazes de inferí-las. • Outliers – procura identificar eventos fora do padrão. Um outlier “é um fato que se desvia de outros fatos a ponto de se levantar suspeitas de que foi gerado por um 2.2 KDD - Knowledge Discovery in Databases 23 mecanismo diferente” [29]. Por exemplo, quando se utiliza um cartão de crédito para se realizar uma compra com um valor muito acima do que é de costume, um algoritmo de outlier pode identificar a transação como sendo incomum, requisitando automaticamente dos setores competentes uma investigação do fato. 2.2.1 Ética em KDD Durante toda a história humana, nunca atribuiu-se à informação tanto valor quanto atualmente. O conhecimento de determinados dados pode determinar a sobrevivência de uma empresa. Como já foi dito na Seção 2.2, uma prática que tem se tornado comum em todos os seguimentos é a obtenção da maior quantidade possível de dados. Pode-se imaginar, então, uma rede de supermercados que, além de todas as informações costumeiras, acrescente ao seu banco de dados um item referente à cor de pele dos seus clientes. Ainda que pareça algo desprovido de lógica, esse novo dado pode representar uma informação valiosa para um algoritmo de associação. É possível que se obtivesse, por meio desse algoritmo, a informação de que pessoas de pele clara consomem mais hidratantes e protetores solares. De fato, não se sabe exatamente a que conclusão os processos de dados podem chegar. Sendo assim, toda informação adicional não deixa de ser útil. Vale relembrar que um passo importante para o processo de mineração é o préprocessamento, no qual são eliminadas todas as informações ruidosas. Naturalmente, campos de identificação, como nome, cpf, etc, são retirados, pois o que se procura normalmente é um comportamento geral, e não individual. Não obstante, deve-se analisar se os dados restantes serão suficientes para a identificação do indivíduo. Dependendo do contexto considerado, uma pequena quantidade de atributos, como marca do carro, cor dos olhos e profissão, pode ser útil na identificação de uma pessoa. Isso significa dizer que o simples processo de limpeza não consegue garantir que dados identificadores não passem para o datawarehouse. É nesse contexto que as preocupações com a privacidade dos indivíduos envolvidos se evidenciam. Se por um lado o acréscimo de detalhes pode revelar fatos importantes através do KDD, por outro, não se sabe dos efeitos colaterais de se armazenar tantas informações pessoais em uma base de dados. Várias pesquisas têm sido desenvolvidas almejando a criação de técnicas eficientes que garantam a privacidade e não gerem prejuízos ao processo de mineração. Essas técnicas podem ser classificadas com base em cinco níveis de efetividade [53]: • Data Distribution: quando registros (vertical) ou dados (horizontal) diferentes são armazenados em diferentes lugares; 2.2 KDD - Knowledge Discovery in Databases 24 • Data Modification: modifica os valores originais da base de dados que será exposta ao público.Para isso, é possível usar uma das seguintes técnicas: perturbação,que adiciona ruído nos dados ou invertendo valores [32]; bloqueio, que coloca o caractere ’?’ nos atributos críticos; agregação ou mesclagem, que coloca diversos valores em uma categoria genérica; troca, que realiza uma troca dos dados entre os registros; amostragem, que coloca os dados em função de estatísticas populacionais; • Data Mining Algorithm: nota-se o desenvolvimento de muitas idéias referentes a esse processo. Todavia, não há um padrão a ser seguido. Procura-se, basicamente, esconder dados que comprometam a proteção à privacidade; • Data Hiding ou Rule Hiding: tenta decidir se um dado em estado bruto ou em estado agregado pode ser omitido. Esse processo é computacionalmente complexo e a construção de heurísticas é necessária; • Privacy preservation: utiliza o conceito de modificação seletiva nos dados. É a mais importante de todas as técnicas por ser a que menos apresenta efeito colateral [32]; Outra preocupação referente à mineração de dados está relacionada à semântica dos resultados que podem ser obtidos [25]. Considere-se uma base de dados de um departamento de polícia na qual uma série de características físicas dos criminosos é armazenada. Um algoritmo associativo poderia detectar quais são as características físicas de indivíduos que são associados a crimes hediondos. Se esse tipo de informação chegasse ao conhecimento da população, certamente as pessoas discriminariam a todos os indivíduos que apresentassem esse conjunto de características, independente da existência de uma evidência concreta. Outro exemplo seria treinar um algoritmo de classificação para detectar o perfil de pessoas inadimplentes. Assim, diante de um cliente que se enquadrasse nesse perfil, o sistema automaticamente iria postulá-lo como um inadimplente em potencial. Se essa informação fosse compartilhada, um indivíduo não inadimplente, porém com o perfil que o classificasse como tal, poderia ter a sua conduta questionada. Embora a possibilidade de ocorrer tais situações não possa ser descartada, o KDD não deixa de ser utilizado como uma importante ferramenta de análise, possibilitando a inferência de informações fundamentais. Com relação à Visualização de Informações, observa-se que é uma área de pesquisa bem estabelecida e abrangente que tem sido investigada também dentro dos processos de inferência de conhecimento. Pode ser abordada de duas formas. Na primeira, ela se coloca como cooperadora na exploração dos resultados obtidos pelo processo de KDD. Na outra faceta, posiciona-se como uma possível substituta para a exploração dos dados. Vale lembrar que a aplicação de métodos de descobertas pressupõe grandes bases de dados e equipamentos sofisticados que viabilizem a execução de algoritmos 2.3 Visualização de Informações 25 KDD, muitas vezes complexos. Em geral, como as visualizações não requerem tais configurações, a mineração visual de dados surge como uma saída viável. Os conceitos inerentes à Visualização de Informações e a mineração visual de dados são tratados com detalhes na Seção 2.3. Na Seção 2.2, foram conceituadas as técnicas básicas de Mineração de Dados, uma ferramenta importante no auxílio à descoberta e análise de grande quantidade de informações. Outro aspecto explorado foi o de que a Visualização de Informações é área afim à mineração de dados. Porém, se dissociada dessa idéia de auto-inferência, a visualização de dados pode ser utilizada como uma importante ferramenta de análise e como um meio através do qual informações não percebidas pelos métodos comuns de análise são evidenciadas (como uma tabela, ou um gráfico de barras). A esse processo de descoberta visual dá-se o nome de Mineração Visual de Dados, que será discutido na Seção 2.3.1 2.3 Visualização de Informações A Visualização de Informações é uma área da Ciência da Computação que busca formas inovadoras de se ampliar a legibilidade e a interatividade dos mais diversos tipos de dados. Por meio de suas técnicas, desempenha a função de expor informações que, se visualizadas através de tabelas, não seriam evidentes. Existem três motivações básicas para se utilizar uma visualização. A primeira é a apresentação de dados bem conhecidos. A segunda é a análise confirmativa, na qual o usuário varre a visualização em busca de respostas para perguntas já definidas. A última é a análise exploratória, que permite ao usuário varrer a visualização despretensiosamente, em busca de padrões e relacionamentos [34]. Dessa forma, percebe-se que a constituição de uma visualização se dá, basicamente, a partir da intenção do usuário e dos dados disponíveis. Sendo assim, propõe-se um processo básico de visualização auxiliada por computador [42], que é apresentado na Figura 2.4. Como já discutido na Seção 2.2, a Visualização de Informações está intimamente ligada à mineração de dados, pois o que se deseja, ao final do processo, é permitir a identificação de informações, padrões e comportamentos não trivialmente perceptíveis. Figura 2.4: Processo de Visualização de Informações. Extraído de [42] 2.3 Visualização de Informações 26 Knight e outros [37] consideram que uma boa visualização deve apresentar duas características, que são expressividade e efetividade. A expressividade é a adequação da visualização à tarefa a qual se propõe a auxiliar, apresentando apenas os dados necessários à compreensão daquilo que busca transmitir. A efetividade é a característica de se possibilitar uma interpretação mais rápida e menos sujeita a erros do que outras formas de visualização. Uma boa visualização é, portanto, aquela que é capaz de enfatizar e representar todas as informações necessárias de um modo intuitivo, rápido e menos propenso a erros. Na busca pela elaboração de visualizações realmente eficientes, várias técnicas foram desenvolvidas. Nas seções que se seguem, essas técnicas são apresentadas, bem como os aspectos concernentes às suas formulações. 2.3.1 Mineração Visual de Dados A mineração visual de dados se preocupa em oferecer soluções gráficas que enfatizem relações e padrões nas informações. Exemplo disso é a Figura 2.5, que mostra uma ferramenta de mineração visual de dados. A partir dessa ferramenta, o especialista pode, por meio de filtros facilmente acessados no lado direito, selecionar subconjuntos de dados, navegar pela imagem usando recursos de ampliação (zoom) e de rotação 3D e modificar a aparência do gráfico conforme sua necessidade (cores, tipo de gráfico, etc.) Figura 2.5: Uma visualização gerada pela ferramenta Spotfire (www.spotfire.com). A base de dados é da Agência Nacional de Petróleo (ANP) e mostra a relação Teor do Álcool x Destilação 90% x Destilação PFE x Conformidade 2.3.2 Processo para a Criação de Visualizações de Informação A Figura 2.6 representa um modelo clássico para construção de visualizações de informação [12]. No primeiro passo, uma transformação dos dados é realizada. Nessa 2.3 Visualização de Informações 27 etapa, dados indesejados e redundantes são eliminados e um formato da base onde os dados serão alocados é definido. Para a alocação dos dados, pode ser utilizado um banco de dados sofisticado ou uma simples tabela. De forma geral, alocam-se as t-uplas em linhas e as variáveis em colunas. Isso faz com que a densidade da visualização seja dada em função das linhas da tabela e a dimensionalidade seja representada pelas colunas. Figura 2.6: Processo para a criação de Visualização de Informações. Extraído de [42] Na segunda etapa é realizado o Mapeamento Visual, que consiste em relacionar elementos gráficos abstratos com os dados contidos na base de dados. Esses elementos gráficos são organizados em uma estrutura visual [42], segmentada em três elementos: substrato espacial, marcas e as suas propriedades. O substrato espacial define se as marcas serão projetadas em uma região bidimensional, tridimensional, etc. As marcas, por seu turno, definem os elementos representativos da informação, como, por exemplo, linhas, círculos, cubos, superfícies, etc. Podem também ter características próprias, como posição, área, volume, ângulo, inclinação, orientação, cor, textura, forma ou efeitos de animação [42]. A Figura 2.7 exemplifica tais propriedades. Figura 2.7: Propriedades das Marcas Visuais. Extraído de [42] A última etapa é a de Transformações Visuais, na qual o usuário interage com a visualização de forma a alterar dinamicamente a sua exibição. Nessa etapa, o usuário 2.3 Visualização de Informações 28 pode tentar adequar a visualização às suas necessidades particulares através de operações como translação, rotação e zoom. Uma vez que as etapas para a criação de visualizações estejam bem definidas, o desenvolvedor deve levar em consideração o nível de efetividade e expressividade das visualizações geradas [37]. Devido ao caráter abstrato das visualizações, não existe uma norma para o processo de mapeamento. Porém, com o intuito de se criar boas visualizações, é necessário que o desenvolvedor observe determinados preceitos para a realização do mapeamento visual. A lista abaixo elenca alguns deles [42]: • Deve-se levar para a base de dados da visualização somente aquilo que for estritamente necessário. • Deve-se ater-se estritamente às necessidades dos especialistas, evitando exibir informações inúteis. • Deve-se procurar marcas simples e intuitivas. • Deve-se evitar a sobreposição de marcas, o que sobrecarregaria a visualização e dificultaria a percepção de detalhes importantes. • Deve-se utilizar, sempre que possível, dispositivos de alta resolução e telas grandes. • Deve-se promover o maior nível de interatividade. • Deve-se preservar o mapa mental do usuário, evitando alterações drásticas na visualização quando o usuário estiver utilizando os recursos de interação. • Deve-se priorizar as formas de interação na seguinte ordem: visão geral, zoom, filtros, relações e histórico [50]. A atividade de interação com a visualização deve permitir ao usuário ter uma visão geral dos dados, aproximar ou afastar detalhes das imagens, filtrar o conjunto de dados exibidos, identificar relacionamentos entre os dados e, por último, retroceder em suas ações por meio de funções desfazer e refazer (undo/redo). Ao estabelecer tais questões como prioritárias, o desenvolvedor de novas visualizações pode cercear sua atividade de criação nos cinco passos descritos abaixo [42]: 1. Avaliar as necessidades dos especialistas e conjunto de dados disponíveis. 2. Definir quais técnicas de visualização supririam as necessidades dos especialistas com relação aos dados. Para tanto, seria pertinente a elaboração de novas técnicas ou ainda a combinação das já existentes, de modo a melhorar a expressividade e a efetividade das originais. 2.3 Visualização de Informações 29 3. Definir os mecanismos de interação, levando em consideração não só os que podem ser promovidos por software, mas também os dispositivos de hardware que permitam maior interatividade com os dados, como telas grandes, mesas de interações, dispositivos de imersão 3D, luvas de interação, etc. 4. Desenvolver protótipos a partir de uma análise das plataformas, das linguagens de programação e das APIs mais adequadas ao desenvolvimento das ferramentas de visualização. 5. Avaliar a efetividade e a expressividade das visualizações propostas. Antes de tudo, deve-se observar qual o impacto que a ferramenta desenvolvida produzirá sobre a visualização, uma vez que uma aplicação lenta e com falhas pode alterar as impressões do usuário. A partir dessa idéia, é possível escolher entre duas abordagens de avaliação: avaliação informal e experimentos controlados. Como exemplo de avaliação informal, tem-se a Heuristic Evaluation [45, 44], na qual um grupo de três a cinco especialistas no domínio do problema é convocado a utilizar e criticar, por meio de um questionário de usabilidade, as ferramentas desenvolvidas. Sobre os experimentos controlados, afirma-se que devem ser realizados tais quais preconizam os estudos com Seres Humanos adotados pela Psicologia. Nesses estudos, uma hipótese é definida e os mecanismos de controles das variáveis são determinados. Posteriormente, um experimento com um número significativo de pessoas é realizado e, finalmente, os dados coletados são analisados estatisticamente. Ao longo do tempo, muitos mapeamentos visuais efetivos foram implementados, sendo que alguns deles se tornaram clássicos por terem demonstrado sua efetividade na apresentação de vários tipos de informações. Existe um esforço da comunidade de pesquisadores de Visualização de Informações em se classificar e se catalogar esses mapeamentos, elevando-os à categoria de técnicas de Visualização de Informações. A Seção 2.3.3 descreve as técnicas de visualização mais reconhecidas atualmente. 2.3.3 Técnicas de Visualização de Informações As muitas técnicas de Visualização de Informações existentes podem ser classificadas de acordo com a forma que possuem (simbólica ou geométrica), a dimensionalidade na qual são apresentadas (2D ou 3D) e também de acordo com a sua interatividade (estáticas ou dinâmicas) [23]. Partindo de tal pressuposto, diz-se que uma visualização é geométrica quando o mapeamento é feito sobre eixos. É simbólica quando o mapeamento se realiza através de representações pictóricas. Com respeito aos mecanismos de exibição, é possível afirmar que uma visualização pode ser projetada em duas ou três dimensões. 2.3 Visualização de Informações 30 A projeção tridimensional dos dados é uma característica que se atribui à visualização ainda que esta não disponha de dispositivos especiais para projeção 3D. Basta que ela transmita ao usuário a sensação de tridimensionalidade. Sobre a interatividade, diz-se que uma visualização é considerada estática quando não permite que o usuário a configure. Em contrapartida, é dinâmica quando permite ao usuário configurá-la. Duas modalidades de interação podem ser utilizadas para se alterar uma visualização: alteração sobre o conjunto dos dados (filtros) e alteração sobre o ponto de vista da visualização (rotação, translação e zoom). A seguir, apresenta-se uma revisão das principais técnicas de Visualização de Informações. É interessante esclarecer que a tentativa de se catalogar tais técnicas aborda apenas suas generalidades e não contempla, portanto, as suas possíveis variações. a) Foco+Contexto Técnica que fornece mecanismos para se destacar uma determinada região de interesse (foco), mantendo, porém, uma visão geral dos dados (contexto). Para sua implementação, submete-se a imagem original a distorções que geralmente são produzidas através de simulação de lentes. As técnicas Fish-Eye, Bifocal Lens, Hiberbolic Browser, Perspective Wall e Table Lens são exemplos de visualizações que implementam a técnica em discussão. Fish Eye [26] é uma técnica por meio da qual se propõe uma visualização interativa que tenta simular uma lente “olho de peixe” sobre um plano. O efeito desse tipo de lente é a ampliação da região que está em foco e a redução da região periférica do foco. Como toda a imagem é exibida, o usuário consegue manter um mapa mental da localização dos elementos do seu interesse, podendo, assim, “deslocar” facilmente o foco para esses pontos. A Figura 2.8 exemplifica formas de utilização lente olho de peixe. Bifocal Display é uma técnica semelhante à do Fish-Eye. A diferença se centra no fato de que na técnica Bifocal Display a área ampliada se sobrepõe à área fora do foco, além de que há uma perda sutil do mapa mental, principalmente nos arredores da lente. Não obstante, a imagem ampliada é plana, ou seja, livre de distorções. A Figura 2.9 é um exemplo comum do uso dessa técnica em uma ferramenta para exibir mapas de caracteres. À medida que o usuário desliza o cursor do mouse sobre os elementos da matriz, eles são ampliados um a um. Hiperbolic Browser combina a técnica de Desenho de Grafos com a Foco+Contexto, permitindo que sejam exibidas grandes redes de relacionamentos. Ao contrário da Fish-Eye, não existe garantia de que todo o gráfico será desenhado na tela. O usuário tem a sensação interativa de “puxar” para o centro os elementos que deseja analisar com mais detalhes. A Figura 2.10 exemplifica a aplicação dessa técnica na visualização de um Web Site. 2.3 Visualização de Informações (a) Técnica Fish-Eye. Extraído de [39] 31 (b) Fish-Eye, proposta original, na qual a técnica de Fish-Eye é aplicada em um editor de código. As linhas centrais, em foco, são sensivelmente ampliadas em relação às linhas periféricas. Extraído de [26] (c) Fish-Eye Menu: uma vez encontrada a posição de um item, achá-lo novamente é uma tarefa fácil. Extraído de [42] Figura 2.8: Exemplos da técnica de Fish-Eye Figura 2.9: Uso da técnica Bifocal Display. Nota-se que há sobreposição do elemento focado sobre os demais. Com respeito à técnica Perspective Wall, é possível dizer que tenta simular um papel que “corre” sobre uma parede, ampliando a imagem que estiver sobre ela. A Figura 2.11(a) exibe o seu mecanismo de funcionamento e a Figura 2.11(b) mostra um exemplo do efeito da ampliação. Table Lens [48]: Técnica que dispõe todas as dimensões em colunas, dando a idéia de uma tabela cujas linhas são compactadas à medida que a densidade aumenta, de forma a garantir que todas elas sejam exibidas no espaço da tela. Para tornar uma determinada linha legível, o usuário interage com uma lente que a “amplia”, como pode ser observado na Figura 2.12. Essa visualização permite que as variáveis sejam exploradas com rapidez e individualidade, além de manter um feedback das demais variáveis relacionadas. 2.3 Visualização de Informações 32 Figura 2.10: Browser Hiperbólico. Extraído de [6] (a) (b) Figura 2.11: Perspective Wall. Extraído de [39] Figura 2.12: Uma lente amplia a região de uma das colunas, promovendo a ampliação de toda a linha. Extraído de [48] 2.3 Visualização de Informações 33 b) Cordenadas Paralelas Em Coordenadas Paralelas [30, 31], as dimensões são mapeadas em eixos paralelos eqüidistantes, os quais são usualmente dispostos na vertical. Os dados podem ser normalizados e escalados novamente conforme o maior e o menor valor encontrado. Esses valores podem ser definidos para cada eixo ou para um conjunto de eixos. Figura 2.13: Coordenadas Paralelas: barras representando indicadores de produção e linhas representando a produção dos pesquisadores. Screen Shot extraído do VLattes. Essa técnica possui, contudo, uma grave deficiência, que é a sobreposição das linhas principalmente quando a quantidade de dados é elevada. Em tais condições, a visualização não consegue ser precisa na detecção de padrões (pois sequer gera uma silhueta compreensível dos dados) tampouco na identificação das linhas (uma vez que estas estão sobrepostas). No entanto, a técnica apresenta modificações que tratam exclusivamente dessa questão, como a Parallel Clustering [15]. Star Coordinates [33] distribui os eixos em torno de um ponto central. Os eixos podem ter tamanhos diferentes ou escalas diferentes. A visualização de projeção bidimensional pode refletir várias informações, permitindo, de forma simples, a rápida comparação entre as variáveis contempladas em cada eixo, como mostra a Figura 2.14. A Figura 2.20 também é um exemplo de uso dessa técnica. Porém, ao invés de distribuir pontos, as coordenadas são interceptadas por linhas, aproximando-se mais da técnica original de Coordenadas Paralelas. c) Metáforas Consiste em uma técnica simbólica que mapeia o conjunto de dados em fatos do mundo real. Desse modo, o desenho de uma face que expresse um sentimento pode ser utilizado no mapeamento de classes de dados. O estereótipo físico de um indivíduo, 2.3 Visualização de Informações 34 Figura 2.14: Eixos radiais representando valores independentes. Extraído de [33] o tempo, o relevo, a vegetação, a hidrografia e o urbanismo são exemplos de temas que podem metaforicamente mapear dados. Um exemplo em especial do uso de metáforas é a técnica de Themecape, que usa acidentes geográficos para representar informações. A Figura 2.15 exemplifica tal técnica. Figura 2.15: Um exemplo de metáfora landscape. Montanhas representam agrupamentos de determinados tipos de documentos. Quanto mais alta for a montanha, maior o volume de documentos daquele tipo. A proximidade dos acidentes é determinada pela relação que os documentos mantêm entre si. Em uma visualização, muitas metáforas podem ser empregadas, desde que uma não se sobreponha à outra. Além disso, espera-se que a metáfora adotada seja o mais intuitiva possível e que o excesso de elementos não faça da atividade de análise uma tarefa confusa e onerosa. O componente semântico da metáfora está intimamente ligado às impressões pessoais de cada indivíduo. Em conseqüência disso, um aspecto a ser observado no mapeamento visual são os pré-conceitos formulados pelo usuário sobre uma determinada ilustração. Por exemplo, a largura de um rio pode promover um sentimento positivo ou 2.3 Visualização de Informações 35 negativo no usuário, fazendo com que este, intuitivamente, chegue a certa conclusão sobre algo que não passa de um ruído visual. Apesar de uma implementação estática ser possível, o uso da interatividade é o que atribui expressividade à visualização, já que permite uma exploração mais realista dos dados. Glyphs Essa técnica simbólica utiliza ícones para a representação dos dados. Uma de suas primeiras aplicações foi a representação de dados por meio de facesc̃iteChernoff:1973. Via de regra, são projetados vários ícones, cada um podendo expressar diversas variáveis (dimensões) de um subconjunto dos dados amostrados. Essa técnica, que ficou conhecida com Faces de Chernoff, faz uso da percepção humana de expressões faciais, mapeando dados para formatos de olhos, sobrancelhas, lábios, etc, como exemplifica a Figura 2.16(a). Outros exemplos de técnicas pictóricas são a Star Glyphs [13] e a Star Plot [38]. Esta última é apresentada na Figura 2.16(b). Apesar de as técnicas baseadas em Glyphs exigirem mais tempo de treinamento – nem sempre são intuitivas como as Faces de Chernoff, a quantidade de dimensões que elas conseguem reduzir é seu ponto alto. (a)Faces de Chernoff. Cada face representa um aluno; o cabelo representa a quantidade de acesso ao site de uma disciplina na qual estavam matriculados; a boca (feliz, séria ou triste) representa a nota e a cor representa o sexo. Extraído de [42] (b)Star Plots. Combina a técnica de Star Coordinates [33] com Glyphs. Cada ícone representa professores e cada eixo uma atividade acadêmica. Extraído de [42] Figura 2.16: Exemplo de duas técnicas simbólicas que empregam a técnica de Glyphs. Desenho de Grafos Um grafo é um modelo matemático composto por um conjunto de vértices e arestas que os ligam. Grafos são estruturas muito utilizadas na representação de relacionamentos. Sendo assim, se dois elementos (vértices) têm uma aresta que os liga, significa que existe um relacionamento entre eles. A Figura 2.17(a) é um exemplo típico 2.3 Visualização de Informações 36 de um grafo para representação de estruturas hierárquicas. Outro exemplo é apresentado na Figura 2.10 de um Browser Hiperbólico, que utiliza esse conceito para representar caminhos entre Web Sites. O desenho de grafos inclui desafios como a sobreposição de vértices, número de cruzamento de arestas e o posicionamento de vértices em grafos direcionados. Muitos estudos foram desenvolvidos para se gerar desenhos de grafos mais agradáveis e expressivos, como em [18, 19, 20, 9, 14]. Treemap [49] Técnica utilizada na exibição da hierarquia de dados. Nela, atribui-se uma árvore hierárquica aos dados a serem exibidos, a qual será representada por meio de retângulos dentro de retângulos, distribuídos em uma área previamente estipulada. A área de cada um dos retângulos pode ser definida por um valor também previamente estipulado. A Figura 2.17(a) exemplifica o processo e representa a estrutura de pastas utilizada na confecção dessa dissertação em LATEX. A variável utilizada para definir a área de cada retângulo foi o tamanho em bytes dos arquivos contidos nas pastas. Existem várias formas de arranjo das áreas dos retângulos. A Figura 2.17(b) utiliza o método clássico de distribuição. Como pode ser observado, no primeiro nível os retângulos são mais largos do que altos. Já os retângulos “filhos” usam a orientação inversa, ou seja, são mais altos do que largos. Tal orientação irá se inverter a cada nível. Essa comutação sucessiva serve, então, para demarcar a hierarquia dos nodos da árvore. Existem também outras formas de distribuição, como o Squartifield Treemap, Striped Treemap, Sliced Treemap e Binary Tree Treemap, que podem ser observados na Figura 4.8. (a) Árvore representando uma estrutura de pastas. (b) Treemap gerado pela estrutura de pastas da Figura 2.17(a). Figura 2.17: Um possível uso para Treemap. 2.3 Visualização de Informações 37 2.3.4 Evoluções de Técnicas de Visualização de Informações As técnicas de visualizações, por mais eficazes e expressivas que possam ser, apresentam algumas deficiências. Por exemplo, a técnica de Coordenadas Paralelas deixa de ser efetiva para grandes densidades de dados; a técnica de Themescape pode perder expressividade quando a altura dos seus artefatos for similar; a técnica de Treemap também perde expressividade quando a árvore por ela representada for muito alta. Portanto, observa-se que não existe uma visualização capaz de cobrir todas as necessidades sobre um determinado conjunto de dados. Com o intuito de se amenizar tais deficiências, existe a possibilidade de se oferecer ao usuário suítes de visualizações, permitindo que ele escolha a técnica que mais se adeque às suas necessidades em um determinado momento [23]. Outra forma de melhorar as visualizações dos dados é através de combinações de duas ou mais técnicas, fazendo com que a combinação proposta reduza os pontos fracos das técnicas originais. As técnicas Browser Hiperbólico (Grafos+Foco+Contexto, Table Lens(Tabela+Lente Bifocal) e Star Plots(Star Coordinates+Glyphs), descritas na Seção 2.3.3, são exemplos do uso de combinações. Por fim, uma visualização pode ser evoluída por meio da criação de novas versões que busquem refletir relacionamentos antes não contemplados em suas versões originais, como a proposta Parallel Clustering exibida na Figura 4.2(b). A Figura 2.18 traz alguns exemplos de técnicas evoluídas por combinação ou pela criação de novas versões. 2.3 Visualização de Informações 38 (a) Parallel Coordinates + Star Glyphs, Extraído de [21] (b) Worms. Cada “minhoca” representa empresas. A localização exprime o volume das movimentações realizadas entre cada empresa. A espessura das minhocas representa o volume de fundos e as arestas transações ocorrida. Extraído de [17] (c) Mapa de Relacionamento entre Linhas de Pesquisa. Extraído de [16] (d) Grafo de Citações. Extraído de [16] (e) Treeecube. Extraído de [52] (f) StepTree. Extraído de [11] Figura 2.18: Técnicas de Visualizações, seja combinando ou evoluindo, as novas propostas permitem explorar novas facetas nos dados 2.3 Visualização de Informações Figura 2.19: Coordenadas Paralelas com linhas Curvas. Extraído de [27] 39 2.3 Visualização de Informações 40 2.3.5 Visualização em Cienciometria Algumas técnicas de Visualizações de Informações têm sido empregadas em Cienciometria. Como exemplo, tem-se a Figura 2.20, extraída de [35], que é uma visualização produzida a partir de dados cienciométricos. Essa visualização apresenta o grau de pesquisa das nações G8 (grupo dos oito países mais ricos do mundo), com exceção da Rússia, já que esta é uma nação que não tem renda econômica compatível com as demais. A visualização exemplifica a redução de várias dimensões em duas e mostra como os dados podem ser sobrepostos sem afetar a sua compreensão. Os dados foram normalizados pela média econômica das sete nações, sendo representados em um hexágono simétrico (técnica conhecida como Star Coordinates). GDP (Gross Domestic Public) é o mesmo que PIB (Produto Interno Bruto); R&D (Research and Development) é o mesmo que P&D (Pesquisa e Desenvolvimento); HERD (High Education Funding of R&D) indica o capital de investimento da educação superior em P&D. Figura 2.20: Comparação dos investimentos financeiros (incomes) com os resultados científicos (outcome). Extraído de [35] CAPÍTULO 3 Questões Estratégicas em C&T e os Compêndios da Produção Científica No Capítulo 2.3, discutiu-se acerca de uma metodologia genérica para a criação de novas visualizações. Tal metodologia requer a interação entre três entidades envolvidas no processo de análise de dados: o conjunto de questões, a base de dados e a visualização propriamente dita. Como a proposta desse trabalho é definir visualizações que promovam a eficácia e a efetividade na exploração de dados cienciométricos, faz-se necessário o levantamento das questões envolvidas na atividade de análise de dados de produção acadêmica. Outrossim, é necessário também um levantamento das bases de dados existentes que possam prover os dados suficientes para se responder às questões propostas. Nesse capítulo, as principais questões envolvendo Ciência e Tecnologia no âmbito nacional são apresentadas, bem como os principais compêndios de informações cienciométricas. 3.1 Levantamento de Questões Estratégicas De forma a confirmar o interesse real de pesquisadores e gestores de recursos em Cienciometria e também identificar outras questões particularmente brasileiras, foram realizadas entrevistas com profissionais ligados a atividades cienciométricas no estado de Goiás. Para a realização das entrevistas, elaborou-se um questionário, que pode ser verificado no Apêndice B.2. A partir desse questionário, fez-se um levantamento das principais necessidades de informação de três gestores de ciência da UFG e da UCG, os quais têm que lidar com uma série de variáveis atribuídas a um amplo quadro de pesquisadores. Esse levantamento, que será detalhado nas próximas seções, determinou as principais informações cienciométricas a serem evidenciadas por uma visualização. As entrevistas foram realizadas nos ambientes de trabalhos dos entrevistados. Utilizou-se somente uma caneta e um questionário, que era preenchido pelo entrevistador à medida que os entrevistados respondiam às perguntas. Ao final, diziam se seus nomes podiam ou não ser divulgados na pesquisa. Todos optaram por não serem identificados. 3.1 Levantamento de Questões Estratégicas 42 Independentemente da base de dados utilizada pelos entrevistados ou da forma com que os dados eram coletados e manipulados, muitas questões vieram à tona. Após o agrupamento das questões propostas, elaborou-se uma lista de perguntas, a qual pode ser conferida abaixo. Para facilitar a exposição das questões, as entidades que geram produção científica, tais como instituições, unidades acadêmicas, grupos de pesquisa e pesquisadores, são denominadas genericamente aqui como “atores da ciência”. • Q1 - Quais são os atores mais produtivos? • Q2 - Quais os índices de produção atingidos pelos atores em determinado período de tempo? • Q3 - Qual o perfil de publicação dos atores? • Q4 - Qual o volume de investimento financeiro que os atores estão recebendo? • Q5 - Qual o índice de citação que os atores estão obtendo? • Q6 - Como os atores se relacionam? • Q7 - Atores com altos índices de produção em um determinado indicador também obtêm altos índices em outros indicadores? • Q8 - Quem são os atores que atingem certo índice de produção? • Q9 - Quais são os atores que pertencem a determinado perfil de publicação? • Q10 - Qual o tempo de serviço de um pesquisador? • Q11 - Qual o tempo de serviço de um pesquisador em uma determinada instituição? • Q12 - Qual a idade de um pesquisador? • Q13 - Qual o sexo de um pesquisador? • Q14 - Qual a titulação de um pesquisador? • Q15 - Qual a quantidade de pesquisadores em determinado grupo, unidade ou instituição? • Q16 - Qual o cenário (distribuição) da produção acadêmica em uma unidade ou instituição? • Q17 - Qual impacto que os indivíduos provocam sobre a classificação das suas comunidades grupos (unidades, instituições, etc)? • Q18 - Quais são os atores que mais publicam em revistas indexadas? • Q19 - Qual a região do país que mais se destaca em orientações de doutorado? • Q20 - Em um contexto geral, qual ator que mais se destaca na pesquisa de uma determinada tecnologia? 3.2 Bases de Dados Acadêmicas e de Produção Bibliográfica 43 • Q21 - Como os atores se relacionam/ cooperam entre si? • Q22 - Como a pesquisa evoluiu historicamente em dada região do país? • Q23 - Qual a distribuição da produção científica pelos seus atores em uma determinada área ou linha de pesquisa? A utilidade dessas questões é inerente às atividades exercidas pelos entrevistados. Por exemplo, um entrevistado revelou que utiliza uma base interna de pesquisadores de sua instituição para aferir os dados de produção científica. As informações coletadas permitem que ele obtenha visões acerca da pesquisa em sua unidade e que escolha pesquisadores para participarem como colaboradores em editais. A seleção de pesquisadores visa também à elaboração de argumentos persuasivos que aumentem as chances de captação de verbas. Para a realização desse procedimento, o entrevistado utiliza apenas certos indicadores, como a quantidade de artigos completos em periódicos nacionais e internacionais, resumo em periódico internacional e artigos completos em evento internacional. As entrevistas apontaram não somente as questões intrínsecas à atividade discutida, mas também diversas dificuldades enfrentadas pelos usuários das bases de dados acadêmicas. Além da falta de um modelo específico para se analisar uma produção científica qualitativa em detrimento de uma puramente quantitativa, existem poucas ferramentas especializadas na extração e exploração dessas informações. Para exemplificar tal fato, um entrevistado relatou que varre mensalmente os currículos Lattes de todos os pesquisadores de sua instituição para promover o levantamento de suas respectivas produções no referido mês. Essa atividade exaustiva inclui também uma análise sistemática dos veículos de publicação onde os trabalhos foram aceitos. Uma vez coletados, os dados são enviados a agentes externos, como o CNPq e a CAPES. Nota-se, a partir do exposto, a necessidade de se desenvolver ferramentas que facilitem a atividade de exploração das bases de dados. Mais uma vez, verifica-se que a Visualização de Informações pode atuar como ferramenta de exposição ou de análise dos dados, promovendo um ganho significativo nas atividades de exploração de dados cienciométricos. 3.2 Bases de Dados Acadêmicas e de Produção Bibliográfica Para suprir as necessidades na investigação cienciométrica, os pesquisadores têm se utilizado de várias fontes de pesquisa, as quais podem ser classificadas genericamente em três classes distintas: bases de publicações científicas, bases de citações bibliográficas e bases curriculares. Nessa seção, são discutidas as principais bases representantes dessas classes. 3.2 Bases de Dados Acadêmicas e de Produção Bibliográfica 44 As bases de publicações científicas compreendem todas as revistas e jornais especializados nas mais variadas áreas do conhecimento humano. São essas bases que mantêm o compêndio material de tudo aquilo que é produzido pela ciência. Como exemplo de bases de publicações com grande abrangência temática, pode-se citar o CiteSeer e o PubMed, ferramentas de maior abrangência temática. A ACM, Nature e IEEE são exemplo de grandes bases de dados especializadas em tecnologia. No Brasil, a CAPES disponibiliza uma lista que classifica a importância de centenas de revistas tanto de circulação nacional como internacional. Denominada como Qualis, essa lista é de suma importância para uma análise qualitativa da produção científica. Porém, em decorrência de sua descentralização, a pesquisa nessas bases de publicação se configura como uma tarefa árdua, exigindo horas de dedicação para se extrair uma pequena quantidade de dados consolidada. A principal característica das bases de citações bibliográficas é o desenvolvimento de mecanismos de busca para textos técnicos contidos nas bases de publicações científicas. Nesse contexto, o Google Scholar tem despontado como uma ferramenta bastante útil à pesquisa de material acadêmico, já que tem grande abrangência, é de fácil utilização e oferece recursos avançados para uma pesquisa com maior acuidade. Além de agrupar trabalhos relacionados por tema ou autor, o Google Scholar oferece a quantidade de citações de um determinado artigo e uma lista de autores que o citaram. Essas informações são importantes para as aplicações que conseguem utilizar tal ferramenta de forma automatizada. A partir dessa possibilidade, tais aplicações geram uma pontuação quantitativa automática de um trabalho específico ou até mesmo de um autor. Embora o Google Scholar tenha alcançado uma considerável relevância nos seus poucos anos de existência, a liderança em base de dados de citação bibliográficas ainda pertence à multimilionária Thomson Corporation. Esta companhia é líder mundial no provimento de informações em diversas áreas, como a área legal, a financeira e a científica. A sua ramificação responsável por fornecer informações sobre a ciência, denominada de Thomson Scientific [7], é formada por um conglomerado de várias ferramentas e bases de dados sobre publicação científica. Pertencem a Thomson Scientific as ferramentas Web of Science [8], Journal Citation Reports [4], Essential Science Indicators [2], ISI Web of Knowledge [3], Science Citation Index [5]. Tal rede de informações constitui o maior repositório de citações bibliográficas da atualidade. Ainda que seja de grande importância no cenário internacional, a Thomson Scientific não é um meio apropriado para a análise científica nos países em desenvolvimento, uma vez que adota um processo de seleção que favorece as revistas de circulação internacional, geralmente originárias de países ricos [51, 41]. Em se tratando das bases curriculares, é possível afirmar que se diferem 3.2 Bases de Dados Acadêmicas e de Produção Bibliográfica 45 das demais bases no que diz respeito a sua matéria. Ao contrário das bases de citação e de publicação, que têm seu foco na produção científica, as curriculares focalizam o pesquisador. Existem várias bases curriculares, muitas delas mantidas internamente pelas próprias universidades, como é o caso do Sistema de Cadastro de Atividades Docentes da UFG (SICAD). As bases internas, apesar de terem sua abrangência limitada, posicionam-se como importante ferramenta para a análise da produtividade científica nas instituições que as mantêm. Por serem mais específicas, geralmente contêm informações que uma base de dados curricular mais genérica não contemplaria. Pode-se citar, como exemplo, o histórico das progressões funcionais vivenciadas pelos pesquisadores, o histórico dos cargos administrativos exercidos pelos mesmos no decorrer de seu serviço na instituição ou até mesmo informações relacionadas à remuneração, aos investimentos captados, etc. Essas informações são particularmente úteis para a cienciometria, pois possibilitam uma análise do impacto dos investimentos na quantidade e qualidade das publicações. Além das bases curriculares internas, outras bases de acesso também se despontam como importantes compêndios cienciométricos. Exemplo disso é a base do PINGIFES, ainda restrita ao MEC, que agrega informações acadêmicas de todas as Instituições Federais de Ensino Superior (IFES). Através dessa base, o MEC pode analisar as atividades de ensino e distribuir recursos. Apesar da visível relevância das bases curriculares acima mencionadas para a atividade cienciométrica, são de abrangência limitada, em parte por causa da sua especificidade, como é o caso das bases particulares das instituições, em parte por suas restrições de publicação e acesso. No Brasil, uma importante referência para a pesquisa nacional é a Plataforma Lattes, do CNPq. Nela, são os próprios pesquisadores os responsáveis por publicar seus dados de produção, preenchendo formulários que tentam padronizar a inclusão de cada tipo de informação oferecida. Dessa forma, pesquisadores e alunos podem tornar públicas suas atividades profissionais e suas produções científicas. A escolha da plataforma Lattes como base de dados para as visualizações desenvolvidas no presente trabalho se deu por sua relevância nacional. A eleição de uma base curricular em detrimento das demais se justifica também pelo fato de as bases de publicação e citação não apresentarem, em boa parte dos casos, a produção científica de países em desenvolvimento de forma completa [41, 51]. 3.2.1 A Plataforma Lattes O CNPq tem desenvolvido um conjunto de sistemas de informações, bases de dados e portais Web direcionados para a gestão de C&T, denominado de Plataforma Lattes 3.2 Bases de Dados Acadêmicas e de Produção Bibliográfica 46 (PL). Desde o seu lançamento em 1999, essa plataforma agrega milhares de currículos. Obteve, nos últimos anos, uma projeção internacional através de parcerias estabelecidas com países da América e Europa, formando a Rede ScienTI [46]. Atualmente, a sua base de dados detém mais de 800 mil currículos, dos quais 30% são de mestres e doutores e 38% de graduandos e graduados [1]. A Figura 3.1 expõe maiores detalhes sobre o perfil dos currículos contidos na PL. (a) Plataforma Lattes, Alto Nível de Formação (b) Plataforma Lattes, Doutores por Área do Conhecimento (c) Plataforma Lattes, Instituições por Setor Econômico Figura 3.1: Plataforma Lattes em números. Extraído de [1] O acesso aos dados da PL pode ser realizado de duas formas: pela pesquisa pontual de pesquisadores ou por um convênio institucional chamado de Extrator Lattes. Para se promover esse intercâmbio de informações entre as várias instituições interessadas nos dados contidos na PL, foi criada a Comunidade para Ontologias em Ciência, Tecnologia e Informações de Aperfeiçoamento de Nível Superior (CONSCIENTIAS), advinda da Comunidade LMPL (Linguagem de Marcação da Plataforma Lattes). É função da CONSCIENTIAS promover a padronização de meios para a exportação massiva dos dados contidos na Plataforma Lattes. Linguagem de Marcação da Plataforma Lattes - LMPL Com o intuito de se promover a socialização dos dados contidos na Plataforma Lattes, bem como tornar possível a integração de suas bases de dados com os mais variados sistemas utilizados pelas instituições de pesquisa, foi desenvolvida uma ontologia 3.2 Bases de Dados Acadêmicas e de Produção Bibliográfica 47 chamada LMPL ou Linguagem de Marcação da Plataforma Lattes. Essa linguagem utiliza o padrão XML para atribuir significado aos dados da plataforma. Assim, os sistemas podem interoperar utilizando esses padrões, sem necessariamente compartilharem a mesma estrutura de armazenamento de dados [46]. A Figura 3.2 apresenta um exemplo de um currículo típico fornecido pelo Extrator Lattes em XML. Figura 3.2: Um currículo típico em XML/LMPL Não há dúvidas quanto ao benefício dessa ontologia. Mesmo assim, ainda persistem alguns problemas que, aliás, são pertinentes à cienciometria. O mais importante deles é a identificação unívoca de um pesquisador. Apesar de se atribuir um identificador (id) a cada pesquisador, esse id ainda não é utilizado na tabela de co-autoria. Em vista disso, homônimos e erros na digitação ocasionam problemas na análise dos dados. A assertividade das informações contidas nos currículos, que são preenchidos pelos próprios pesquisadores, é outra questão que também se configura como um problema. Exemplo disso é a Figura 3.1(a), extraída do próprio site da PL, na qual se observa que 11% dos pesquisadores cadastrados na base não informaram o seu nível de formação. A falta de dados sobre a instituição e/ou unidade onde o pesquisador atua, nomes de unidades escritos de maneiras diferentes ou abreviados, discriminação de departamentos contidos em uma mesma unidade são exemplos de falhas existentes em muitos currículos. Contudo, a Plataforma Lattes é a base de informação científica mais importante do Brasil e será utilizada por esse trabalho para popular as bases de dados internas 3.3 A Tríade: Questões - Base de Dados - Visualização 48 das ferramentas visuais desenvolvidas. Na Seção 3.3, comenta-se acerca de possíveis associações existentes entre as questões apontadas na Seção 3.1, as bases de dados e as visualizações. 3.3 A Tríade: Questões - Base de Dados - Visualização Como já foi exposto, existem diferentes fontes de informações cienciométricas. Cada uma tem suas limitações, tais como restrições de acesso, abrangência limitada e conjunto de variáveis distintas. Nesse contexto, nenhuma base atual possui todos os dados e associações necessários para se responder a todas as questões levantadas na Seção 3.1. Por exemplo, a Plataforma Lattes não está apta a responder questões sobre co-autoria, uma vez que a identificação dos pesquisadores não tem sido utilizada na tabela de coautoria1 Isso comprova que algumas bases são mais adequadas à análise de determinados tipos de questões do que outras. De forma similar, existem visualizações que são mais adequadas para se responder a um determinado conjunto de questões. A técnica de Coordenadas Paralelas exemplifica tal afirmação, e isso porque o seu emprego na análise simultânea de vários indicadores cienciométricos produz efeitos mais relevantes. Já o Desenho de Grafos é a técnica que melhor se enquadra na representação de cadeias de citações ou de co-autorias. As questões envolvendo hierarquias, como pesquisadores e suas respectivas instituições, são melhores representadas por um Tremap. Metáforas também podem ser utilizadas para se obter respostas referentes a um considerável quadro de questões. Exemplo disso seria a utilização de uma Themescape, na qual os relevos representariam níveis de produção acadêmica, a cor da “grama” representaria capital investido e os fios de alta-tensão cooperação entre instituições. Depreende-se, então, que a criação de uma visualização que seja uma panacéia é praticamente impossível. Mesmo se houvesse uma convergência dos dados em uma única fonte, a variedade de questões cienciométricas existentes ainda não poderia ser contemplada por uma única visualização. Dessa forma, as visualizações propostas nesse trabalho se referem a apenas um pequeno conjunto de questões cienciométricas. Para tanto, utiliza-se a Plataforma Lattes como fonte de dados. 1A PL já oferece suporte para utilização de um código internacional do pesquisador, mas esse recurso não tem sido utilizado amplamente. CAPÍTULO 4 Propostas de Visualização para Bases de Dados Curriculares Os capítulos anteriores expuseram as atividades concernentes à Visualização de Informações, bem como os problemas vivenciados na atividade de análise de dados cienciométricos. Essa seção, por sua vez, apresenta duas propostas de visualizações que sejam úteis à exploração de bases de dados sobre a ciência. As visualizações propostas se baseiam na combinação de técnicas clássicas de visualizações. 4.1 CoordLensView: Indicadores de Produção com Coordenadas Paralelas e Foco+Contexto 4.1.1 Definição da Visualização A visualização proposta intenta responder as questões Q3, Q8, Q9 e Q18, levantadas na Seção 3.1. Para tanto, ela depende de uma base de dados que contenha todos os indicadores de produção a serem analisados, os nomes dos pesquisadores e a quantidade total de produção dos mesmos para cada indicador aferido. A visualização combina a técnica de Coordenadas Paralelas, posicionada no lado esquerdo, com a técnica de Lente Bifocal, posicionada no lado direito, como pode ser observado a Figura 4.1. Na região das coordenadas paralelas, cada indicador é mapeado para um conjunto de eixos paralelos e a produção é mapeada para uma linha que intercepta esses eixos. Os eixos paralelos são escalados pelo maior valor de produção de todos os indicadores, promovendo assim a equidade da escala entre os mesmos. Em cada grau da escala, é adicionado um retângulo sólido, que é chamado de marca ou “ant footprint” (que será comentada na Seção 4.1.2). A largura desse retângulo é duas vezes a largura do eixo no qual está centralizado. Sua altura, por sua vez, é determinada pela razão entre a quantidade máxima de pixels verticais que podem ser alocados para se desenhar o eixo e o seu valor máximo. A cor da marca, inicialmente preta, tende ao vermelho à medida 4.1 CoordLensView: Indicadores de Produção com Coordenadas Paralelas e Foco+Contexto 50 que há mais linhas interceptando o ponto no qual ela está desenhada. A abreviação do indicador de produção aferido por um determinado eixo é escrito na sua base. Na região da lente bifocal se encontra uma lista com os nomes dos pesquisadores ordenados lexicograficamente. Juntamente com cada nome é apresentado um valor consolidado de produção, o qual é obtido por meio da soma ponderada das pontuações atingidas em cada indicador de produção. Ainda existe uma lente bifocal que consegue ampliar até cinco pesquisadores por vez, criando automaticamente uma legenda de cores. Essa combinação de duas visualizações permite diversas formas de interação. Na região das coordenadas paralelas, o usuário pode adicionar restrições de intervalos de valores sobre cada um dos eixos. O usuário pode criar várias restrições sobre o mesmo eixo ou em eixos distintos. Restrições adicionadas a um mesmo eixo são calculadas usando o operador lógico OU. Já restrições adicionadas a eixos diferentes são calculadas através do operador lógico E. A Figura 4.1 é um exemplo de uso de restrições. No caso mostrado, as linhas que não fazem parte do conjunto formado pela regra (7 ≤Orientações Graduação≤ 17 OU 30 ≤Orientações de Graduação≤ 74) E (3 ≤Orientações Mestrado≤ 11) ficam em segundo plano (inativas). Figura 4.1: Adição de intervalos de valores. Regras em um mesmo eixo são tratadas através do operador lógico “OU”, enquanto regras em diferentes eixos são tratadas através do operador lógico “E”. As restrições realizadas nas coordenadas paralelas também mudam a visualização da lente bifocal. Pode-se notar na Figura 4.1 que, na lista de pesquisadores, os nomes daqueles que tiveram a sua produção incluída no conjunto estabelecido pelas restrições são destacados. Outra forma de interação é a possibilidade de se estabelecer pesos para os indicadores referenciados pelos eixos através de uma caixa de texto presente na base de cada coordenada paralela. Na região da lente bifocal, o usuário pode deslizar a lente, ampliando os nomes dos pesquisadores e fazendo com que suas linhas assumam a cor referenciada pela legenda criada dentro da lente. O usuário pode também ativar o filtro da lente ocultando as linhas que não pertencem aos pesquisadores ampliados na região das coordenadas paralelas. 4.1 CoordLensView: Indicadores de Produção com Coordenadas Paralelas e Foco+Contexto 51 4.1.2 Discussões Para responder às questões propostas por essa visualização, é necessária uma análise individual dos múltiplos indicadores de produção e da capacidade de se relacionar cada pesquisador aos valores aferidos. A técnica de Coordenadas Paralelas é viável para atender a primeira solicitação, porém, não possibilita uma identificação eficiente das linhas traçadas, e isso por duas razões. Primeiramente, quando as linhas convergem para um determinado ponto em um eixo, já não é mais possível identificá-las no próximo eixo, conforme pode ser observado na Figura 4.3(a). Em segundo lugar, quando a quantidade de pesquisadores aumenta, não é mais possível a identificação das linhas e dos nomes dos pesquisadores. Dependendo do volume de dados, a visualização pode ficar totalmente ilegível, perdendo sua expressividade. Com o intuito de se melhorar a exibição dos dados sob essa condição, algumas variações da técnica de coordenadas paralelas foram desenvolvidas, como as Coordenadas Paralelas Hierárquicas [24] ou a Uncovering Clusters in Crowded Parallel Coordinates Visualizations [15]. (a) Coordenadas Paralelas Hierárquicas. Extraído de [24] (b) Parallel Clustering, identifica e destaca grupos de linhas com tendências similares. Extraído de [15] Figura 4.2: Técnicas que procuram aumentar a expressividade da técnica de coordenadas paralelas para grandes quantidades de dados. No presente trabalho, minimiza-se o problema da exibição dos nomes dos pesquisadores colocando-os em uma lista isolada na qual esses nomes podem ser ampliados por uma lente bifocal. Para se promover a relação dos pesquisadores com suas respectivas linhas de produção, é utilizada uma legenda de cores. Porém, seria inviável o uso dessa legenda para todos os nomes, uma vez que pequenas variações nas cores não são perceptíveis. Por esse motivo, atribuiu-se à lente a função de gerar uma legenda de cores para 4.1 CoordLensView: Indicadores de Produção com Coordenadas Paralelas e Foco+Contexto 52 os nomes por ela ampliados. Dessa forma, à medida que o usuário desliza a lente, pode também visualizar as linhas dos pesquisadores ampliados, como mostra a Figura 4.3(b). (a) Perda de identificação após um (b) Uso de uma lente para se destacar um grupo de feixe de linhas confluir para um ponto pesquisadores e gerar uma legenda para a identificação de um eixo. de suas linhas de produção. Figura 4.3: O problema da identificação de linhas e uma possível solução. A sobreposição de linhas é outro problema enfrentado pela técnica de coordenadas paralelas. Para se oferecer pelo menos uma referência visual da quantidade de pesquisadores que atingiram uma determinada pontuação em um indicador de produção, foram adicionadas as marcas de cores, que aqui são chamadas de Ant Footprints. Essa idéia veio do fato de as formigas deixarem um rastro de feromônios por onde passam. Quanto mais formigas passarem por um ponto, maior a quantidade de feromônio exalado naquela região. Analogicamente, a cor de um determinado ponto em um eixo fica gradativamente mais vermelha à medida que mais linhas “passam” por aquele ponto, como mostra a Figura 4.4. Figura 4.4: Ant Footprints: pontos mais vermelhos representam maior sobreposição de linhas. 4.2 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping 4.2 53 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping 4.2.1 Definição da Visualização Na presente seção, são propostas duas visualizações que intentam responder às questões Q1, Q8, Q15, Q16 e Q17, levantadas na Seção 3.1. Para tal, requer-se uma base de dados que contenha todos os indicadores de produção de pesquisadores com informações sobre sua instituição e unidade acadêmica. Além desses dados, deve ser computada a média da produção desses pesquisadores com base nos indicadores de produção aferidos e os pesos associados aos mesmos. Os dados devem estar organizados em uma estrutura hierárquica de árvore, como mostra a Figura 4.5. As folhas dessa árvore representam os pesquisadores com suas médias de produção. O cálculo do valor de cada nodo interno se dará pela média das folhas da sub-árvore enraizada neste nodo. Figura 4.5: Organização dos dados utilizados pelo Themescape. A primeira visualização, que é chamada de CityView, é baseada na metáfora de uma cidade composta por edifícios. Existem quatro níveis de cidades. A cidade zero é 4.2 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping 54 aquela que representa a raiz da árvore apresentada na Figura 4.5. A cidade 1 representa o nível 1, e assim sucessivamente. Os edifícios representam os elementos de cada nível e suas alturas são definidas pelos valores de produção aferidos a cada nodo. Já a área que cada edifício ocupa, representa a quantidade de folhas da subárvore enraizada naquele nodo, ou seja, representa a quantidade de pesquisadores lotados naquela unidade ou instituição. Para se definir a posição geográfica que cada edifício ocupa na cidade, é utilizada a técnica de Treemap [49]. Assim, pesquisadores referentes a uma mesma unidade ficaram visualmente juntos dentro da região retangular definida pelo Treemap. As unidades, por sua vez, estão dentro de um retângulo que representa sua instituição. Variações de cores do tipo Matiz/Saturação/Brilho (HSB) são utilizadas para demarcar cada área ocupada por um edifício. Na cidade 1, são definidas cores sólidas para cada um dos seus edifícios. Na cidade 2, o matiz e a saturação das cores anteriormente definidas permanecem. Dessa forma, somente o brilho varia para os novos edifícios que ocuparem a área de seus predecessores. Na cidade 3, permanecem o matiz e o brilho, variando a saturação. A Figura 4.6 ilustra o mapeamento acima descrito. O usuário pode facilmente rotacionar a cidade, transladá-la e aplicar zoom sobre ela, bem como navegar entre seus níveis. Além disso, pode mover um “plano de intersecção” para auxiliá-lo na comparação da altura dos edifícios, como exemplifica a Figura 4.7. No mais, outros algoritmos de layout utilizados pelo Treemap também podem ser selecionados a fim de se permitir outras formas de organização espacial dos edifícios, como mostra a Figura 4.8. Enfim, o usuário pode estabelecer pesos para os indicadores de produção, alterando a pontuação de todos os pesquisadores e, por conseqüência, a altura dos edifícios. A metáfora usada na segunda visualização é a da visão que uma pessoa teria se olhasse para baixo estando no alto de uma torre de um sino: uma escadaria cíclica, apresentando detalhes dos degraus mais próximos e os demais sobrepostos até atingirem o chão. O mapeamento e as interações dessa visualização são idênticos aos utilizadas na visualização anterior. Para se produzir o efeito dessa visão, as laterais dos edifícios não foram desenhadas, fazendo com que a visualização ficasse “vazada”. Adicionou-se também um plano azul para se demarcar a base, dando uma idéia de piso. As alturas são proporcionalmente maiores do que as da visualização anterior. A Figura 4.8 mostra exemplos desta visualização. 4.2.2 Discussões A técnica de Themscape foi escolhida por permitir a fácil comparação dos elementos do conjunto amostrado. Há ainda o fato de sua exploração tridimensional ser 4.2 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping (a) Cidade Zero, consolidando todas as instituições aferidas. (b) Cidade 1, representando as instituições. A cada edifício se atribui uma cor HSB. (c) Cidade 2, representando as unidades acadêmicas. Para cada edifício é atribuido uma variação da componente B da cor HSB do edifício predecessor. (d) Cidade 3, representando os pesquisadores. A cada edifício se atribui uma variação da componente S da cor HSB do edifício predecessor. 55 Figura 4.6: Metáfora de uma cidade composta por edifícios cujas altura e área correspondem, respectivamente, à produção e à quantidade de pesquisadores. A distribuição é definida por um Treemap [49]. altamente intuitiva, pois retrata, guardadas as devidas proporções, um mundo parecido com aquele ao qual as pessoas já estão habituadas. No mundo real, as pessoas enxergam, caminham e pensam em três dimensões. Também é comum que elas se impressionem com os grandes arranha céus. Em conseqüência disso, os conceitos abordados pela metáfora proposta têm chances de serem facilmente assimilados pelos usuários. Uma avaliação discutida no Capítulo 6 aponta para esse fato. Um problema em se construir uma “cidade da ciência” é a definição do posicionamento dos blocos (edifícios) dentro do mapa. Muitos trabalhos têm usado o grau de afinidade para definir a posição dos elementos na visualização. Esse grau de afinidade analisa os relacionamentos entre os elementos do conjunto e, por meio de heurísticas, definem a sua melhor localização no mapa. No contexto abordado, tais relacionamentos poderiam ser calculados por uma tabela de co-autoria ou a partir da rede de citação que 4.2 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping 56 Figura 4.7: O uso do plano de interseção possibilita ao usuário comparar com mais facilidade a altura dos edifícios. um pesquisador promove. No presente trabalho, contudo, optou-se por abordar de forma diferenciada o problema da distribuição dos elementos, priorizando não os relacionamentos, mas sim a quantidade de elementos em cada conjunto. Visualizar a cardinalidade do conjunto é importante para se extrair informações tais como o nível de eficiência do grupo ou o impacto do numerário sobre o consolidado da produção final. Além do mais, a questão da distribuição dos elementos não se resume apenas ao problema clássico de secções de áreas. A visualização deve permitir a exibição hierárquica dos pesquisadores que se encontram inseridos nas unidades acadêmicas e instituições. Por esse motivo, escolheu-se agregar a técnica de Treemaping à técnica de Themescape para se definir a localização de cada edifício. Mesmo assim, a simples fusão das duas técnicas, como propõe a técnica StepTree [11], não permitiria uma análise detalhada dos grupos e indivíduos. Por essa razão, foi criada a idéia de cidades que evoluem a níveis diferentes de acordo com a necessidade de análise do usuário. Assim, este poderia realizar uma análise do estado geral de uma instituição e simplesmente evoluir toda a visualização a um nível mais detalhado, observando, por exemplo, como a média do nível anterior foi composta pelo atual cenário de suas unidades. Diferentemente da CoordLens, proposta na Seção 4.1, a CityView e a BellTowerView não permitem a exibição dos indicadores de produção, mas sim a de um único valor, o qual é gerado a partir de um cálculo realizado com os indicadores individuais. Porém, a metodologia de análise cienciométrica é muito vasta e a visualização deve, de alguma forma, flexibilizar o cálculo do valor consolidado. Uma deficiência já conhecida na abordagem de Themescape é a obstrução que as regiões mais altas geram sobre as mais baixas. Para amenizar esse efeito, podem ser adotadas duas soluções: promover a transparência dos blocos ou construir apenas o seu 4.2 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping (a) Squartifield Treemap (b) Strip Treemap (c) Slice Treemap (d) Binary Tree Treemap 57 Figura 4.8: Diferentes layouts de Treemap, o usuário pode escolher a distribuição mais conveniente. topo. Criar objetos transparentes nem sempre é viável, uma vez que tal procedimento produz excesso de informações visuais, fato que reduz a eficácia da visualização. Pode-se, de outra forma, criar uma transparência somente em uma determinada região estabelecida pelo usuário. Dois exemplos da aplicação de transparência são mostrados na Figura 4.10. Outra forma de se reduzir o efeito da obstrução acima mencionado é não desenhar as paredes dos blocos, produzindo uma informação totalmente vazada, que é o caso do BellTowerView. Ainda que gere uma visualização densa, essa solução é menos complexa do que o uso de uma transparência, na qual as paredes dos blocos interferem visualmente sobre a imagem formada através dos mesmos. Por causa disso, propôs-se a visualização da torre do sino, que possibilitaria ao usuário comparar com mais clareza os elementos antes obstruídos pela visualização da cidade. Para facilitar a comparação dos elementos, a escala da altura foi aumentada, 4.2 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping (a) Uma visão lateral de uma torre do sino. Extraído de [36] (c) 58 (b) (d) Figura 4.9: A visão da Torre do Sino. O usuário pode posicionar a visualização em diversos ângulos para obter informações diferentes. evidenciando-se a diferença existente entre topos com alturas semelhantes. Ambas as visualizações contam com um plano que intercepta os blocos ou os topos, facilitando a comparação de suas alturas. 4.2 CityView e BellTowerView: Dados de Produção Hierárquicos com Themescape e Treemapping (a) Treecube, Extraído de [52] (b) Themescape Hierárquico com transparência Figura 4.10: As transparências reduzem sensivelmente o efeito da obstrução. Geram, porém, distrações na visualização. 59 CAPÍTULO 5 Ferramentas Implementadas Esse capítulo apresenta as ferramentas VLattes (VisualLattes) e GLattes(GeoLattes), as quais implementam as visualizações propostas nas Seções 4.1 e 4.2, respectivamente. A arquitetura na qual as ferramentas são projetadas é discutida na Seção 5.1 5.1 Arquitetura Conceitual das Ferramentas VLattes e GLattes Vários tipos de recursos computacionais de hardware e software foram utilizados no desenvolvimento das ferramentas GLattes e VLattes. Um esquema da arquitetura a partir da qual as ferramentas foram concebidas é mostrado na Figura 5.1. Como pode ser notado, as camadas de importação, banco de dados e exportação são comuns às duas ferramentas, assim como o primeiro nível da camada de programação (Java). Por tal motivo, será iniciada uma discussão preliminar sobre essas camadas. Posteriormente, as especificidades de cada uma das ferramentas implementadas serão abordadas. 5.1.1 Base de Dados e Linguagem de Progração Para a camada de dados, o Sistema Gerenciador de Banco de Dados (SGBD) escolhido foi o MySql. O MySql é um SGBD robusto e conta com uma versão gratuita. É oferecido como opção de banco de dados pela grande maioria dos servidores Web. Devido ao fato de existirem versões do MySql para diversas plataformas, a portabilidade dos dados é garantida. O Sistema oferece uma API para comunicação direta com JDBC ou uma conexão ODBC/JODBC. No Apêndice A.4 é apresentado o script SQL para a criação do banco de dados em MySQL. Abaixo, as tabelas utilizadas pelo banco de dados interno são descritas. 5.1 Arquitetura Conceitual das Ferramentas VLattes e GLattes 61 Figura 5.1: Arquitetura Conceitual VLattes/GLattes. • IES – entidade responsável por armazenar o nome e a sigla das Instituições de Ensino Superior; • UnidadeAcademica – entidade responsável por armazenar o nome e o tipo da unidade acadêmica. Alguns currículos são desprovidos da unidade onde um pesquisador está lotado. Neste caso, a camada de importação LMPL tenta utilizar o órgão onde o pesquisador declarou trabalhar. Dessa maneira, o campo Tipo pode ser “Unidade”, “Orgão” ou NT (não tem). Atualmente essa entidade não é utilizada pelo VLattes. • TipoProdução – entidade responsável por armazenar o nome e a abreviação dos tipos de produção, e.g. “Artigos publicados em periódicos científicos especializados de circulação nacional com corpo editorial”, “Capítulo De Livro”, “Orientação Doutorado”, etc; • Pesquisador – entidade responsável por armazenar o nome do pesquisador e relacioná-lo com uma instituição (através da chave estrangeira keyIES) e com uma unidade acadêmica (através da chave estrangeira keyUnidade); • Produção – entidade responsável por armazenar a soma individual das produções de cada pesquisador por ano de publicação. Para cada tipo de produção aferido no 5.1 Arquitetura Conceitual das Ferramentas VLattes e GLattes 62 currículo do pesquisador uma tupla é gerada, relacionando o pesquisador (através da chave estrangeira keyPesquisador) com um tipo de produção (através da chave estrangeira keyTipoProducao); A fim de se permitir a integração com a base curricular Lattes, desenvolveu-se um plugin capaz de ler um diretório contendo currículos no formato LMPL e de importálos ao banco de dados interno. Esse plugin, implementado na Universidade Católica de Goiás pelo pesquisador Rogério Fiúza, utiliza a API org.w3c e org.xml.sax de Java para analisar cada um dos currículos, extraindo primeiramente os dados pessoais do pesquisador, como nome, instituição e unidade e, posteriormente, consolidando os seus dados de produção acadêmica. Apesar da adoção da Plataforma Lattes, as ferramentas são independentes de bases de produção acadêmica. Como se observa na Figura 5.1, foi prevista uma camada de importação que tem o objetivo de promover essa independência. Sendo assim, basta que se desenvolvam plugins que consigam popular as bases de dados interna com a base desejada, a fim de que as ferramentas de visualização passem a refletir os seus dados. Além da Camada de Importação, estabeleceu-se uma camada para possível exportação dos dados contidos na base de dados interna. Essa camada é particularmente útil se a base de dados utilizada for a Plataforma Lattes, que, em seu formato original não passa de um diretório com arquivos XML. Atualmente, o único formato suportado para exportação é o Comma Separeted Value (.csv). O .csv é reconhecido por praticamente todas as planilhas eletrônicas, como o OpenCalc, Google Documents e o Microsoft Excel. O separador padrão ‘,’ não pode ser utilizado, uma vez que é comum encontrar este caractere nos valores contidos na base de dados. Por este motivo utilizou-se o caractere ‘#’ como separador. O arquivo .csv gerado contém o nome das instituições, unidades e a soma de todos os indicadores de produção de cada pesquisador. Uma vez nesse formato, o usuário interessado pode se valer dos inúmeros recursos oferecidos pelas diversas planilhas eletrônicas existentes no mercado. Como indicado na Camada de Programação da Figura 5.1, Java foi a linguagem adotada para o desenvolvimento das ferramentas de visualização. Produzida pela Sun Microsystems, essa linguagem foi escolhida por ser orientada a objetos, robusta, bem difundida e por ter APIs que possibilitem o desenvolvimento de aplicações gráficas de modo mais simples. Outra característica importante da linguagem Java é a sua portabilidade, possibilitada por uma máquina virtual que pode ser encontrada para diversas plataformas, como Linux, MacOS e Windows. Essa seção apresentou as camadas comuns às ferramentas VLattes e GLattes. Um CD-ROM com os códigos fontes e um guia de instalação podem ser encontrados no Apêndice A. Nas próximas seções serão discutidas as características específicas de cada uma das ferramentas desenvolvidas. 5.2 VLattes 5.2 63 VLattes O VLattes implementa a proposta abordada na Seção 4.1. A ferramenta foi escrita em Java, utilizando recursos da API Java2D. A Figura 5.2 exibe uma tela da aplicação que se divide em duas seções, conforme o proposto pela visualização. Por conveniência, a seção direita será referenciada como barra de pesquisadores e a seção esquerda como plano das coordenadas paralelas. Figura 5.2: VLattes, ferramenta que combina as técnicas de Coordenadas Paralelas e Foco+Contexto O plano das coordenadas paralelas é composto por um conjunto de barras que representam itens de produção. Uma barra é composta por uma régua, por uma caixa de texto e por um rótulo, como mostra a Figura 5.3. A quantidade de barras criadas pelo VLattes dependerá da quantidade de indicadores de produção existentes no banco de dados. A régua é desenhada dinamicamente. Sua escala é a razão da altura máxima do eixo em pixels pelo valor máximo de produção obtido entre todos os indicadores. Obviamente, a escala é composta apenas de valores inteiros, uma vez que será utilizada para exibir valores de produção. Em cada ponto da escala há uma marca que evidenciará, por meio de um recurso chamado de Ant Footprints já discutido na Seção 4.1, a quantidade de linhas que por ali “passarem”. Por fim, a régua pode perceber o movimento do cursor do mouse e exibir o valor absoluto do ponto onde ele está parado. O rótulo observado na porção inferior das barras exibe a abreviação do indicador de produção relacionado a cada uma delas. Quando o usuário passa o cursor do mouse 5.2 VLattes 64 Figura 5.3: Uma barra típica do VLattes. Destaque para as marcas que tendem ao vermelho quando o número de linhas que as interceptam aumenta. sobre o rótulo, o nome completo do referido indicador é mostrado. A caixa de texto, posicionada abaixo do rótulo, é utilizada na atribuição de um peso ao indicador aferido pela barra. Quando o usuário define um peso e pressiona a tecla ENTER, todas as barras são escaladas a fim de que reflitam a nova configuração. Essa alteração também modifica a pontuação geral dos pesquisadores. A distância entre as barras é definida pela quantidade de indicadores de produção a serem projetados. No entanto, existe uma distância mínima pré-definida. Para garantir a exibição de todos os indicadores, uma barra de rolagem foi adicionada. Através de uma função capaz de converter um valor de produção em pixel, o VLattes cria, para cada pesquisador, um vetor de posições sob o eixo y (vertical) baseado na pontuação atingida em cada indicador. Esse vetor é utilizado para se projetar a linha de produção de um determinado pesquisador. A interação com a ferramenta se dá por meio do mouse, o qual possibilita ao usuário: • Arrastar a lente pela lista. • Clicar duas vezes sobre a lente para ativar ou desativar o seu filtro. • Criar uma regra associada à região definida ao arrastá-lo sobre uma régua. • Cancelar as regras de uma régua ao se clicar duas vezes sobre a mesma. A partir dos menus, o usuário ainda pode: • Remover todas as regras de todos os eixos ao mesmo tempo. • Escolher as cores das linhas ativas e inativas. • Exibir ou ocultar as linhas inativas. • Importar currículos XML/ LMPL. 5.3 GLattes 65 • Exportar os dados para um arquivo .csv. (a) VLattes, lente com filtro inativo: as linhas dos pesquisadores ampliados são colocadas em destaque. As cores das linhas correspondem às cores atribuídas aos pesquisadores na legenda criada pela lente. (b) VLattes, lente com filtro ativo: são exibidas apenas as linhas dos pesquisadores em destaque Figura 5.4: VLattes, filtro da lente bifocal As dificuldades no desenvolvimento dessa ferramenta giraram em torno dos processos de importação, exportação e manipulação dos dados. Muitas versões de algoritmos para a análise eficiente de documentos XML foram feitas. Desenvolveu-se uma API para a captura, armazenamento em memória e manipulação dos dados. A especificação e implementação dessa API também passou por várias modificações até atingir um tempo de resposta satisfatório. Com respeito à implementação da ferramenta VLattes, pode-se afirmar que não houve grandes dificuldades, salvo a integração entre a área das coordenadas paralelas e a área da lente bifocal. 5.3 GLattes O GLattes implementa a proposta de visualização apresentada na Seção 4.2. A ferramenta foi escrita em Java aproveitando-se dos recursos da API Java3D. A API Java3D utilizada era baseada em OpenGL. Foi escolhida por oferecer um bom nível de abstração das minúcias inerentes à computação gráfica, bem como por oferecer total integração com a linguagem Java e coerência com o paradigma de programação orientada a objetos. Utilizou-se também a API Treemaps-Java-Algorithms [10] para a divisão das regiões e ainda a API JXInput [47], para a interação com dispositivos de jogo. Como na proposta original, o GLattes exibe informações em quatro níveis: nível zero, da visão geral; nível um, da visão das instituições; nível dois, da visão das unidades acadêmicas e nível três, dos pesquisadores. Por conveniência, sempre que seja necessária a generalização desses atores, eles serão referenciados por elementos. 5.3 GLattes 66 A Figura 5.5 exibe a tela inicial da aplicação. Na barra inferior, aqui denominada como “Barra de Status”, apresenta três informações básicas. Da esquerda para a direita, são mostradas a altura do plano de intersecção, informações relativas ao elemento atualmente apontado pelo cursor do mouse e a pontuação média desse elemento. Figura 5.5: GLattes-CityView, com o plano de intersecção e painel de configuração. A ferramenta mostra a cidade um, das instituições. No centro se encontra a visualização propriamente dita. Essa visualização é composta por uma matriz de células. Cada célula contém informações sobre o elemento que ela representa. As células são agrupadas por regiões, definidas por um algoritmo de Treemap. O algoritmo de Treemap requer uma estruturação dos dados na forma de uma árvore hierárquica. Para tal, faz-se uma listagem de todos os pesquisadores, ordenados lexicograficamente por nome, instituição e unidade. Também é incluída, para cada pesquisador, a soma de suas produções acadêmicas. Através dessa listagem ordenada, constrói-se a árvore requerida, fazendo com que as folhas contenham os pesquisadores e o um consolidado das produções. Esse consolidado é obtido por meio da soma ponderada, na qual os pesos de cada indicador são atribuídos pelo próprio usuário. Uma vez construída a árvore, define-se o layout de Treemap. A API fornece quatro opções: Squartifield, Strip, Slice e Binary Tree. O resultado da aplicação de cada um desses layouts pode ser conferido na Figura 4.8. Após a definição do layout, o algortimo de Treemap atribui a área e, por conseguinte, a posição de cada região, tendo como base a quantidade de folhas de um determinado nodo da árvore. Foi desenvolvida uma função que retornasse apenas as regiões referentes a um determinado nível da árvore definida, o que possibilitou o mapeamento sucessivo das 5.3 GLattes 67 células nas regiões geradas pelo Treemap. Essa função é importante para se implementar a proposta das cidades que evoluem. A altura de uma célula se baseia na média atribuída a cada nodo da árvore que ela representa. Essa média pode ser feita de duas formas. Em ambas, a altura de um nodo externo, que são os pesquisadores, é definida pelo consolidado de sua produção. A diferença é que em uma das possibilidades a altura de um nodo interno é a média de seus filhos, ao passo que, na outra, é a média de suas folhas. Deve-se ressaltar que a região atribuída a um nodo pelo Treemap pode fazer com que várias células tenham a mesma altura, por representarem o mesmo nodo. Uma cor de um conjunto de cores sólidas é definida para cada elemento do nível um. A cor dos elementos do nível dois é definida pelo matiz de seu pai, com uma variação do brilho. Por fim, a cor dos elementos do nível três é definida pelo matiz e brilho de seus ancestrais, variando apenas a saturação. Para a implementação da técnica CityView, as células são desenhadas como blocos sólidos, dando a idéia de edifícios. Já para implementação da técncia BellTowerView, somente o topo dos blocos são desenhados, transmitindo a impressão de escadas. Nessa segunda implementação, a altura dos elementos é aumentada proporcionalmente a fim de que se evidenciem as diferenças de alturas. As Figura 5.6 e 5.7 mostram a ferramenta em duas posições distintas. Figura 5.6: GLattes-BellTowerView, visto na perpendicular. A interação da visualização se dá por meio do mouse, teclado e qualquer dispositivo de jogo com um ou dois eixos. Através desses dispositivos, o usuário pode: • Rotacionar, transladar e aplicar zoom. 5.3 GLattes 68 Figura 5.7: GLattes-BellTowerView, visto de perfil e com o plano de intersecção • Varrer as células para verificar as informações que nelas estão armazenadas. O uso do teclado possibilita ao usuário: • Mover o plano de intersecção para cima e para baixo. • Navegar entre os níveis da árvore. • Mudar a cor ou a figura do plano de fundo. • Mudar o layout do Treemap. • Alternar entre as duas formas de se calcular a altura. • Ativar o painel de controle e atribuir pesos aos indicadores. Com um joystick de um ou dois eixos, o usuário pode “viajar” pela visualização, alterando sua aceleração, fazendo curvas, subindo e descendo pelos edifícios ou escadas. Para isso, basta conectar e calibrar o dispositivo pelo sistema operacional e ele será automaticamente ativado no GLattes. As dificuldades decorrentes da implementação dessa ferramenta se resumiram ao correto emprego das APIs e ao excessivo uso de recursos exigidos pelo Java, como memória e processamento. Gastou-se muito tempo na aprendizagem de Java3D. As demais APIs eram desvendadas através da sua própria documentação, isto é, consultas em fóruns especializados e, quando não havia mais opção, empirismo. Para contornar o problema de desempenho, as estruturas de dados utilizadas foram simplificadas, os algoritmos recursivos utilizados foram revistos e a matriz de células teve que ser reduzida. Ainda assim, a programação orientada a objetos nem sempre 5.3 GLattes 69 se mostrava eficiente no desenvolvimento de aplicações gráficas. Não obstante, tentou-se, a todo custo, manter as aplicações fiéis aos preceitos desse paradigma. Como as APIs para manipulação dos dados já haviam sido especificadas no desenvolvimento do VLattes, a sua reutilização se deu de forma simples, não implicando em nenhuma dificuldade extra. CAPÍTULO 6 Avaliação das Visualizações Esse capítulo apresenta uma avaliação das ferramentas discutidas no Capítulo 5. A intenção é verificar se as visualizações propostas realmente auxiliam na exploração e análise de dados acadêmicos e bibliográficos. Em particular, deseja-se descobrir se as visualizações possuem as seguintes propriedades: • São intuitivas e, conseqüentemente, demandam pouco tempo de treinamento. • Permitem perceber os aspectos globais em relação aos diversos dados mostrados. • Permitem responder as questões de forma rápida e menos sujeita a erros. Em função da especificidade da área em que as ferramentas estão inseridas, bem como da indisponibilidade de um número significativo de especialistas nesse assunto que realizem experimentos controlados, optou-se por utilizar uma abordagem de avaliação informal, similar ao Heuristic Evaluation [43, 45]. A forma como o experimento foi composto e conduzido é descrita nas próximas seções. 6.1 Configuração da Avaliação A avaliação foi realizada por meio de entrevistas. Nessas entrevistas, estavam presentes o entrevistador – pesquisador envolvido com este trabalho - e o avaliador profissional eleito para qualificar as ferramentas. Esta avaliação ocorreu em duas fases, sendo que na primeira houve a seleção dos especialistas (avaliadores). A segunda fase foi a da preparação e realização da avaliação. Abaixo, faz-se uma descrição mais detalhada de cada uma dessas etapas. 6.1.1 Escolha dos Avaliadores Foram escolhidos cinco profissionais envolvidos direta ou indiretamente com a Cienciometria. Vale dizer que nenhum deles pertence ao grupo de pesquisa vinculado ao presente trabalho. De todos os entrevistados, apenas um preferiu manter-se no anonimato. Os dados desses profissionais são apresentados a seguir. 6.1 Configuração da Avaliação 71 • Professor Dr. Luiz Mauricio Bini, bolsista de Produtividade em Pesquisa do CNPq - Nível 1C. Esse professor figura na lista dos pesquisadores mais produtivos da UFG. Além de sua atividade como pesquisador, realiza análises estatísticas sobre a produção científica no seu departamento. Os resultados dessas análises são utilizados na elaboração e fundamentação de projetos de pesquisa a serem submetidos em pleitos de financiamento. • Professora Dra. Divina das Dôres de Paula Cardoso, bolsista de Produtividade em Pesquisa do CNPq - Nível 2, é Pró-Reitora de pesquisa da UFG. A professora utiliza os dados da Plataforma Lattes e do SICAD1 para analisar e tomar decisões de gestão em ciência. Como exemplo dessas atividades, em 2006 a Pró-Reitoria de Pesquisa da UFG classificou e premiou parte dos recém doutores da instituição, com menos de cinco anos de doutorado, com um recurso de auxílio à pesquisa, baseando-se na pontuação dos seus currículos Lattes. Devido ao seu profundo conhecimento sobre a pesquisa nessa Universidade, decorrente da função administrativa que exerce, sua participação na avaliação permite uma análise mais criteriosa do mapeamento visual e da coerência com que as informações são exibidas. • O avaliador que optou por não identificar-se é mestre e doutor em estatística e atua diretamente na análise da base de pesquisa interna da UFG. • Professor Dr. Ovídio Cândido de Oliveira Filho, que foi Coordenador de Pesquisa da Universidade Católica de Goiás e continua atuando como professor pesquisador no Departamento de Matemática e Física da UCG. • Gustavo Abrantes Codeixa, que atua há oito anos na Fundação de Apoio a Pesquisa da UFG - FUNAP/UFG. Desses oito anos, quatro foram dedicados à gestão de projetos. Tem como função direcionar aos institutos, grupos de pesquisa e pesquisadores da UFG as licitações e os editais dos projetos gerenciados pela FUNAPE. 6.1.2 Preparação e realização da avaliação Para averiguar os benefícios das visualizações desenvolvidas sobre a atividade de exploração de dados cienciométricos, contrapôs-se as ferramentas GLattes e VLattes à uma tabela com dados reais de pesquisadores. A tabela foi composta por uma linha para cada pesquisador, contendo o nome do mesmo, o nome da instituição e da unidade acadêmica a qual pertencia, bem como todos os seus dados de produção. Além dessas informações, disponibilizou-se ainda uma coluna com a média da produção de cada pesquisador. Nessa tabela, foi possível ao avaliador realizar auto-filtros, buscas, somas, 1 SICAD: Sistema de Cadastro de Atividades Docentes - sistema interno da UFG 6.1 Configuração da Avaliação 72 médias, máximos, mínimos e ordenações. Também foi criada uma seção que possibilitava a configuração dos pesos para qualquer um dos indicadores de produção. A estrutura da tabela pode ser conferida na íntegra no Apêndice B.4. Para popular essa tabela e a base de dados internas das ferramentas, foram utilizados dois grupos de dados públicos de pesquisadores vinculados à UFG e à UCG, extraídos da Plataforma Lattes. O primeiro grupo continha em torno de 800 pesquisadores e o segundo cerca de 100 pesquisadores. A apresentação das ferramentas, propostas na Seção 5, precedia a avaliação. Por possuir duas versões, o GLattes-CityView e o GLattes-BellTowerView, o GLattes foi mostrado ao usuário como aplicações distintas, possibilitando a análise das visualizações de forma dissociada. Em virtude disso, o VLattes e o GLattes serão referenciados como três aplicações distintas, a saber: VLattes, GLattes-CityView e GLattes-BellTowerView. A figura a seguir exemplifica tal fato: As ferramentas e a tabela foram devidamente instaladas em um notebook, juntamente com o BrOffice (usado para manipular a tabela) e uma aplicação de gravação de tela (usada para gravar as ações do usuário e os seus comentários). Um mouse USB foi utilizado para evitar o uso do touchpad do notebook. O Notebook utilizado tem as seguintes configurações: Intel Centrino Duo de 1.6Ghz, tela Widescreem de 15.1"com 512Mb de Memória RAM, Placa de Vídeo Intel 945GM com 128Mb de memória compartilhada, HD com 60Gb e Windows XP. Além da gravação feita pelo notebook, utilizou-se uma câmera fotográfica digital parar filmar, em baixa resolução, o experimento. Houve a aplicação de um questionário, que pode ser conferido no Apêndice B.3, o qual foi preenchido pelo entrevistador à medida que as questões eram respondidas. O questionário possue três seções. Na primeira seção, alguns dados de identificação foram colhidos, bem como a data e a hora de início e de término do experimento. Na segunda seção, o avaliador respondeu uma tabela de perguntas sobre o uso das ferramentas para localizar informações contidas na base de dados. O usuário foi inquirido a classificar cada ferramenta entre N/A (Não Avaliado), Ruim, Regular, Bom, Excelente, no tocante à apresentação visual dos dados e sua facilidade de uso. Por fim, na terceira seção, foram levantadas questões gerais como a utilidade, intuitividade e aplicabilidade das ferramentas. Todas as avaliações ocorreram nos ambientes de trabalho dos respectivos pesquisadores. Os passos introdutórios eram a instalação do notebook e a inicialização das aplicações, inclusive da tabela. Posteriormente, o avaliador preenchia o Termo de Consentimento de Livre e Esclarecido, no qual especificava se seus dados de identificação poderiam ser divulgados. Cumpridos os pré-requisitos acima citados, havia a apresentação da tabela e das ferramentas. O avaliador tinha cerca de 50 minutos para familiarizar-se com os 6.2 Resultados Obtidos 73 aplicativos. Durante esse tempo, várias dúvidas eram esclarecidas. Após esse período, o usuário era convidado a responder o questionário. As impressões e sugestões dos usuários eram anotadas pelo entrevistador. É interessante dizer que, apesar da avaliação ter sido guiada pelo questionário, os avaliadores eram motivados a criticar abertamente quaisquer outros pontos da visualização e a sugerir alterações e inclusões de funcionalidades. As avaliações foram realizadas de acordo com as prerrogativas estabelecidas pelo Comitê de Ética da Universidade Federal de Goiás. Os seus resultados são apresentados e discutidos nas próximas seções. 6.2 Resultados Obtidos Foram realizados cinco entrevistas. Deve-se ressaltar que um dos avaliadores optou por não ser identificado, logo o seu nome não será mencionado. Nas subseções que se seguem, são mostrados os resultados obtidos em cada avaliação. 6.2.1 Primeira Entrevista A primeira entrevista foi realizada no Instituto de Ciências Biológicas da UFG, com o professor Maurício Bini. Como mencionado na Seção 6.1.1, o professor Bini já utiliza ferramentas para análise estatística em sua atividade de pesquisa. Entre os pontos favoráveis elencados pelo professor para as três aplicações visuais2 , constam a originalidade das visualizações, a facilidade de interação e a intuitividade dos dados apresentados. Porém, a opinião do referido pesquisador é a de que as ferramentas seriam mais adequadas a usuários com perfil menos técnico, no que diz respeito à análise estatística de dados. O principal argumento do pesquisador foi o de que a tabela possibilita maior possibilidade de manipulação de dados, já que permite a criação de novas fórmulas e métricas mais apropriadas. Para efeito de análise, o avaliador destacou que a média ponderada era apenas uma das formas de se consolidar os dados e que as ferramentas deveriam oferecer recursos estatísticos consolidadores mais complexos, como, por exemplo, a análise multivariada. Para o professor, o VLattes teria que desempenhar uma função que ordenasse a lista de pesquisadores. Isso deveria ocorrer tanto pela pontuação geral3 quanto pelos próprios indicadores, de maneira individual. Além disso, a aplicação deveria permitir que somente um conjunto pré-determinado de indicadores fosse exibido. Ainda com respeito 2 VLattes, 3a GLattes-CityView e GLattes-BellTowerView pontuação geral é calculada pela média ponderada dos indicadores 6.2 Resultados Obtidos 74 ao VLattes, o professor opinou que seria interessante se a aplicação oferecesse a préordenação das barras, com o intuito de tornar o fluxo das linhas mais significativo. Sobre o GLattes-CityView, o professor Bini disse que a irregularidade dos relevos gerados a partir do segundo nível de dados, que é o nível das unidades, torna a exploração confusa e inexpressiva. Para melhorar essa condição, ele recomendou a ordenação das barras como meio de se obter um relevo mais suave. Outro comentário feito pelo professor foi o de que a visualização gerava muita obstrução dos dados, necessitando interação extra para se explorar os dados de diversas posições. Nesse sentido, sugeriu que houvesse uma forma de comutação entre a visualização tridimensional e uma bidimensional. Sua argumentação foi a de que, como a altura dos relevos já expressa a média da produção, a quantidade de pesquisadores representada pela largura da base era uma informação redundante e poderia ser eliminada. Acrescentou ainda que quanto menor o número de dimensões, mais simples seria a análise dos dados. Com relação ao GLattes-BellTowerView, observou que o problema da obstrução era drasticamente minimizado e que essa abordagem valorizava a dispersão dos dados. O professor concluiu sua avaliação afirmando que a ferramenta não o auxiliaria em suas atividades de análise estatísticas. Em outras palavras, a tabela de dados continuava sendo a melhor opção para a realização das análises. Classificou a ferramenta como uma aplicação útil apenas para grupos de usuários não tão familiarizados com a análise estatística. 6.2.2 Segunda Entrevista A segunda entrevista foi realizada no gabinete da Pró-Reitora de Pesquisas da Universidade Federal de Goiás, professora Divina Cardoso. Houve uma dificuldade inicial da avaliadora em rotacionar, transladar e aplicar zoom no GLattes. No entanto, a pesquisadora rapidamente se habituou aos mecanismos de interação 3D e dedicou um tempo considerável à exploração dos dados. O seu interesse pela aplicação GLattes-CityView foi demonstrado por meio do comentário de que essa é uma ferramenta excelente para a exploração dos dados, pois permite não somente uma visão global do status quo da produção dos pesquisadores mas também uma visão detalhada. Em outras palavras, havia a possibilidade de se obter uma visão global tanto pela navegação entre os níveis, principalmente os níveis um e dois, como pela utilização do zoom. Já sua análise sobre o GLattes-BellTowerView foi a de que,se comparada aoGLattes-CityView, essa aplicação responderia questões envolvendo a dispersão dos dados com maior facilidade. Percebeu que as diferenças entre a produção dos grupos se 6.2 Resultados Obtidos 75 destacavam mais e que a visualização era mais eficiente na exibição de valores mínimos ou grupos com alturas muito próximas. Mesmo assim, ainda preferiu o GLattes-CityView. A professora achou difícil a identificação das unidades, após avançar para o nível dos pesquisadores. Essa dificuldade foi também percebida, ainda que de forma mais amena, na transição do nível das instituições para o nível das unidades. Por causa disso, sugeriu que fosse adicionada uma forma de se visualizar apenas uma determinada intituição. Sobre o VLattes, a professora afirmou que tal aplicação possibilita uma análise mais profunda dos indicadores, uma vez que os apresenta de forma distinta e não consolidada, como ocorre na outra ferramenta. Ao referir-se à base de dados, a avaliadora fez menção de uma inconsistência, que se configurava através da apresentação de pesquisadores de uma mesma unidade como pertencentes a unidades diferentes. Porém, reconheceu que essa era uma dificuldade oriunda da própria Plataforma Lattes, já que os pesquisadores são responsáveis pela maneira como cadastram seus dados. Ainda sobre a base de dados, destacou a necessidade da existência de meios que permitam a filtragem da produção acadêmica por mês e por ano de publicação. A professora finalizou sua participação ressaltando que as ferramentas visuais são importantes para a atividade de análise. Declarou que certamente iria utilizá-las na exploração e apresentação de informações. 6.2.3 Terceira Entrevista A terceira entrevista foi realizada com o avaliador que não quis se identificar. Sua opinião sobre as ferramentas é a de que são úteis e aplicáveis à atividade de exploração de dados cienciométricos. Contudo, levantou alguns pontos nos quais as ferramentas poderiam ser aprimoradas, visando a uma melhora em sua efetividade e eficiência. No GLattes, por exemplo, um recurso adicional seria a busca por pesquisadores e unidades. Na opinião do avaliador, as barras poderiam ser ordenadas, possibilitando assim uma investigação mais consistente e facilitada. O estatístico também pontuou que a ferramenta seria mais aplicável às suas atividades se permitisse a criação de novas variáveis para o mapeamento da altura das barras. Declarou que a base poderia incluir dados como a idade dos pesquisadores e o tempo de serviço de cada um em sua unidade. Ainda sobre a base de dados, disse que a confiabilidade advinda de uma base curricular como a Plataforma Lattes é discutível, uma vez que não se pode criticar a forma como cada pesquisador insere seus dados. Sobre o GLattes-BellTowerView, observou que permite analisar mais facilmente os valores mínimos do que o GLattes-CityView. O avaliador afirmou que, para efeito 6.2 Resultados Obtidos 76 estatístico, a dispersão dos grupos e indivíduos pelo espaço também é válida. Porém, disse que a exploração dos dados é mais interessante no GLattes-CityView. Quando questionado sobre o instituto com maior quantidade de pesquisadores, respondeu que, como existiam regiões mais quadradas e outras mais retangulares, não era possível determinar com clareza a maior área. Ao analisar o VLattes, um dos aspectos positivos destacados pelo usuário foi a maneira como os nomes dos pesquisadores ficavam destacados após passarem pelos crivos estabelecidos nas barras. O avaliador afirmou que a ferramenta poderia ser um instrumento de análise desde que os nomes da listagem continuassem legíveis mesmo sem o uso da lente. Disse ainda que a ferramenta também deveria oferecer o recurso de se visualizar níveis ou que, pelo menos, pudesse filtrar a base de dados por uma instituição ou unidade específica. Apontou que outras formas de ordenação dos pesquisadores que levassem em conta a pontuação geral seriam mais úteis do que a simples ordenação alfabética dos nomes. Outro recurso útil, na opinião do avaliador, seria a possibilidade de se selecionar pesquisadores não contíguos na lista. O parecer final do avaliador em questão foi o de que as ferramentas se complementam, ou seja, são “boas no conjunto geral”. Declarou que as utilizaria em suas atividades por permitirem observar relações que as ferramentas tradicionais não conseguiam. Destacou a interatividade das ferramentas como sendo um ponto forte, pois além de possibilitar a visualização das informações em muitos ângulos, permite a aplicação dinâmica de filtros e o avanço rápido de um nível hierárquico para outro. O avaliador lamentou que o VLattes contemplasse apenas o nível dos pesquisadores, não oferecendo a possibilidade de agrupá-los por unidades ou instituições. 6.2.4 Quarta Entrevista A quarta entrevista foi realizada na Área III da Universidade Católica de Goiás, com o professor Ovídio Filho. A atenção do avaliador se voltou mais ao VLattes. Após realizar várias combinações de filtros, afirmou que a ferramenta seria de grande utilidade na atividade de gestão da produção acadêmica. Isso porque a ferramenta proporciona a visualização de vários indicadores separadamente. O professor disse que a ferramenta respondia com eficácia questionamentos como: quais são os pesquisadores que têm determinado número de publicações em congressos internacionais e que tenham também alto índice de orientações em doutorado, ou ainda quais são os pesquisadores que apresentam o mesmo grau de publicação em artigos nacionais e em resumos. O VLattes, na opinião do professor Ovídio Filho, mostrava muito bem os pontos fracos e fortes da produção acadêmica do conjunto de pesquisadores exibidos. Nesse aspecto, o avaliador observou que as outras ferramentas, por mais que pudessem 6.2 Resultados Obtidos 77 se adequar a determinada configuração de pesos, não poderiam fornecer informações detalhadas acerca dos indicadores de produção. Destacou que o VLattes permite ver minuciosamente o perfil de pesquisa dos indivíduos e, por meio dos filtros, relacionar indicadores de produção. A respeito do GLattes, disse que a ferramenta é útil para se observar aspectos gerais e comparar as unidades e instituições, funcionalidade esta que o VLattes não tem. O GLattes evidencia duas idéias: a primeira diz respeito à quantidade de pessoas lotadas em determinada instituição ou unidade; a segunda está relacionada à produtividade de uma certa instituição ou unidade. O fato de essas duas referências estarem visualmente agregadas faz com que se perceba com mais facilidade a influência da cardinalidade do grupo sobre a sua produtividade média. Essa idéia também pode ser discutida na transição do nível de unidades para o de pesquisadores e transmite com clareza o impacto de se ter muitos indivíduos com baixa produtividade, mesmo quando se tem pesquisadores de alta produtividade. O avaliador sugeriu que o GLattes pudesse, no seu nível mais baixo, exibir os indicadores de produção separadamente. Sendo assim, a menor unidade deixaria de ser o pesquisador e passaria a ser os indicadores de produção. O professor reconheceu que o GLattes-BellTowerView possibilita a análise da dispersão dos grupos e pesquisadores. Contudo, a sua opinião foi a de que o GLattes-CityView é mais conveniente para a exploração dos dados. O usuário enfatizou que a ferramenta é de grande utilidade para uma instituição ou unidade se avaliar e se gerir. Porém, se a base de dados se tornar mais complexa, como no caso de uma base de dados estadual, o GLattes não atenderia muito bem, pois a exploração ficaria muito difícil. O avaliador ressaltou que, nesse caso, a área do plano deveria ser maior e que outros níveis, como regiões e estados, deveriam ser criados. Assim como os demais participantes, o professor Ovídio afirmou que o VLattes poderia oferecer meios para se destacar pesquisadores fora da ordem exibida pela lente. Declarou que a ordenação dos pesquisadores poderia ser feita tanto pela pontuação quanto por um determinado indicador. A grande limitação do VLattes em relação ao GLattes, de acordo com o professor, é a falta dos níveis. Em decorrência disso, o professor mencionou que seria de grande utilidade se o VLattes, assim como o GLattes, permitisse a navegação nos níveis de instituições, unidades e pesquisadores, e mantivesse a separação hierárquica, mesmo nos níveis mais baixos. Em outras palavras, as instituições e unidades às quais os pesquisadores pertenciam deveriam ser apresentadas com bastante clareza. O professor Ovídio foi o único usuário a opinar que o VLattes deveria oferecer um filtro que promovesse a seleção somente de doutores ou mestres, a fim de que outras questões pertinentes à gestão pudessem ser contempladas. 6.2 Resultados Obtidos 78 6.2.5 Quinto Avaliador A quinta avaliação ocorreu no prédio da Fundação de Apoio a Pesquisa FUNAPE/UFG, com o senhor Gustavo Abrantes. Desde o início da avaliação, o usuário se demonstrou muito satisfeito com as ferramentas e pontuou as grandes dificuldades que a fundação encontra na análise de informações, uma vez que não dispõe de ferramentas de visualização de dados com esse nível de sofisticação. No VLattes, o avaliador valorizou o recurso de se estabelecer pesos para os indicadores, facilidade esta muito utilizada por ele. O avaliador explicou que um dos problemas enfrentados pela FUNAPE é a correta alocação dos profissionais para coordenar projetos que a fundação capta. Deu o exemplo de uma empresa que requisitou uma solução em tecnologia. Disse que se a FUNAPE tivesse acesso ao VLattes, bastaria filtrar os pesquisadores da UFG com maior índice de produtividade em softwares e patentes para se encontrar os docentes mais adequados para interagir com essa empresa. Como os demais avaliadores, destacou a necessidade da ordenação da lista de pesquisadores pela pontuação. Em sua análise do GLattes-CityView, o participante disse que, apesar de a ferramenta ser excelente para se detectar máximos, a análise é mais difícil quando se tem que visualizar os dados de altura média e baixa, principalmente aqueles que tem alturas próximas. Afirmou, entretanto, que a visualização era intuitiva, tendo percebido facilmente que a área da base representava a quantidade de pesquisadores e que a altura representava a produtividade. Ainda referindo-se à base, disse que deveria existir uma forma mais eficiente de se enfatizar áreas maiores, pois, quando muito semelhantes, a percepção das diferenças se torna difícil. Entre o GLattes-CityView e o GLattes-BellTowerView, o Sr. Gustavo preferiu a primeira aplicação para se comparar a quantidade de pesquisadores, uma vez que na segunda aplicação a base fica flutuando. O usuário mencionou que a maioria das aplicações de manipulação de dados não tem uma forma interessante de apresentar as informações, exibindo geralmente apenas dados tabulares. Por esse motivo, afirmou ser procedente a idéia de uma ferramenta totalmente dedicada à visualização de dados. O avaliador disse, em suma, que o GLattes permitia ao gestor ter uma visão mais apropriada do aspecto geral da produção acadêmica da universidade, facilitando a comparação entre as unidades. Enfatizou que o conjunto VLattes + GLattes oferece apoio significativo aos gestores que, como ele, usam a Plataforma Lattes nas sua atividades diárias. Em virtude de tais análises, concluiu que inseriria as ferramentas no seu cotidiano para auxiliá-lo na tomada de decisões. 6.2 Resultados Obtidos 79 6.2.6 Resumo dos Resultados A seguir, é apresentada uma lista dos pontos levantados pelos avaliadores em relação às ferramentas VLattes e GLattes. Para o VLattes, os pontos observados foram: • Pontos Fortes – Compara melhor os indicadores entre si em relação ao GLattes; – Exibe melhor os indicadores nos quais a instituição é mais ou menos produtiva; – A forma de se filtrar os dados é intuitiva e rápida; – Permite avaliar o perfil de um pesquisador; – Permite responder a várias perguntas devido à ampla possibilidade de combinações dos filtros; – Permite isolar facilmente um grupo de pesquisadores com um determinado perfil (por exemplo, atribuindo filtros em um subconjunto de indicadores, de modo a destacar apenas os pesquisadores que atingirem aqueles índices de produção) • Pontos Fracos – A lente não permite selecionar pesquisadores não contíguos – Não permite ordenar as barras sobre algum critério – Quando a lente está desligada e a densidade dos dados aumenta, fica difícil identificar as linhas coloridas – Não permite visualizar instituições e unidades, tampouco filtrar pesquisadores com esses quesitos Para o GLattes-CityView, os pontos observados foram: • Pontos Fortes – Possibilita alta interatividade com a visualização – Exibe melhor a relação entre quantidade de pesquisadores e sua produção – Permite excluir facilmente da análise determinados tipos de produção, atribuindo, por exemplo, zero ao peso de algum item de produção; – Permite ter uma visão geral da produtividade de algum conjunto de pesquisadores e compará-la com outros grupos, sem a perda de referência visual; – Possibilita o Zoom, permitindo ao usuário verificar as generalidades e as especificidades dos dados; 6.2 Resultados Obtidos 80 – Permite que o usuário navegue pelos níveis de forma rápida e compare o efeito da produção dos indivíduos sobre a produção do grupo. • Pontos Fracos – Não permite a busca de informações; – Como as barras são opacas, uma pode obstruir a outra; – Torna-se menos informativa em regiões onde as barras estão adjacentes e suas alturas muito próximas; – Utiliza um esquema de cores que sofre uma variação no brilho quando se passa do nível de instituições para o nível de unidades. Esse esquema de cores não favorece a preservação do mapa mental do usuário; – A grande oscilação que pode ocorrer na altura de barras adjacentes dificulta a identificação de padrões visuais; – A obstrução de barras muito baixas por outras altas dificulta a localização de mínimos. GLattes-BellTowerView O GLattes-BellTowerView, por ser uma derivação do GLattes-CityView, possui muitas características em comum com essa visualização. Por essa razão, serão elencados os aspectos que caracterizam apenas o GLattes-BellTowerView . • Pontos Fortes – Permite avaliar melhor a dispersão da produção; – Destaca, de forma mais evidente, a discrepância entre grupos ou pesquisadores; – Evidencia a idéia de "quão alto"ou "quão baixo"; – Diminui sensivelmente o problema da obstrução; – Permite acessar facilmente o mais baixo e o mais alto; – As unidades são mais evidenciadas; – Explora melhor os mínimos; – Explora a idéia de escalada quando se posiciona o plano perpendicular à visão e se utiliza o zoom para "subir"e "descer". • Pontos Fracos – A exploração é dificultada pela dispersão dos dados; – A informação estilhaçada dificulta a identificação de padrões; – O impacto visual não é muito forte; 6.3 Discussão dos Resultados 81 – São necessárias muitas rotações e reposicionamentos para se atingir um bom ângulo de visão; A seguir, discute-se os resultados apresentados anteriormente. 6.3 Discussão dos Resultados As avaliações evidenciaram claramente que as ferramentas apresentadas na Seção anterior contribuem para a exploração visual. Com exceção do primeiro avaliador, que não tinha interesse em ferramentas visuais para a atividade análise dos dados cienciométricos, os demais declararam que as ferramentas oferecem grande ajuda na exploração de informações, sendo essa a razão pela qual as empregariam como instrumentos de auxílio em suas atividades ligadas à Cienciometria. Esse resultado valida, por mais uma vez, o impacto positivo que a Visualização de Informações produz onde é empregada. Um dos avaliadores sugeriu que a informação da quantidade de pesquisadores é redundante no processo de análise estatística, motivo pelo qual poderia ser eliminada. Segundo ele, o GLattes deveria ter uma versão bidimensional, refletindo apenas as médias das produções. Realmente é possível exibir a quantidade de pesquisadores e a média das produções em duas dimensões. Para isso, basta que se construa barras2D com largura variável, mapeando assim a quantidade de pesquisadores na largura dessas barras e a produção em suas alturas. Porém, dada a grande quantidade de informação tratada por essa visualização, seria necessário dispor de um espaço horizontal extra, o que dificultaria uma visão geral dos dados apresentados. Outros dois avaliadores, um deles com formação em Estatística, afirmaram que a exibição dessa informação é, na verdade, pertinente à análise, pois permite observar o impacto da quantidade de pesquisadores sobre a produtividade média. Nota-se que o avaliador citado no início do parágrafo anterior já está bastante familiarizado com a manipulação de tabelas e com as inúmeras possibilidades de se criar novas fórmulas, variáveis, filtros e cenários. Para quem está acostumado a ler e manipular informações em tão baixo nível, parece inadequada a utilização de uma ferramenta de visualização que, de certa forma, não permite tanta adequação quanto uma tabela. Contudo, não é possível concordar com a idéia de que uma tabela seja mais expressiva do que um gráfico. Da mesma forma, é difícil crer que uma ferramenta de exploração tridimensional ofereça menos possibilidades de exploração do que um gráfico bidimensional estático. Assim, depreende-se que o avaliador em questão não percebeu que as aplicações se tratavam, na verdade, de um instrumento computacional interativo para a exploração visual dos dados. Ao se analisar os comentários dos demais participantes e os fatos que se sucederam durante a execução do experimento, é possível afirmar que as ferramentas se 6.3 Discussão dos Resultados 82 apresentaram como importante dispositivo para a exploração de dados cienciométricos. Verificou-se também que as visualizações propostas se complementam, já que cada uma contribui de forma singular para a análise dos dados cienciométricos. Constatou-se que a tabela de dados ainda é importante na tomada de decisões por expressar valores com mais acuidade do que as visualizações. Todos os avaliadores relataram que utilizariam as visualizações para análise e exploração dos dados. Isso demonstra que essas visualizações imprimem muitas facilidades na expressão da produção acadêmica, permitindo encontrar relações que são de difícil identificação em uma tabela. Não obstante, os participantes revelaram que, no momento de tomar uma decisão definitiva, recorreriam à tabela. Como a base utilizada nos experimentos refletia dados reais de pesquisadores conhecidos pelos avaliadores, estes puderam avaliar a coerência da visualização. Todavia, observaram que a utilização de uma base curricular é um ponto crítico. Como ela é produzida pelos próprios pesquisadores, a sua credibilidade pode ser questionada. Os usuários detectavam rapidamente as discrepâncias existentes na base curricular Lattes. Um exemplo disso foi quando departamentos de uma mesma unidade apareceram dissociados. Houve também casos em que a base de dados da Plataforma Lattes apresentava diferenças em relação à base de dados interna dos pesquisadores da UFG (SICAD). É oportuno salientar que as ferramentas desenvolvidas podem ser utilizadas com praticamente qualquer base de dados, uma vez que fazem uso de dispositivos de importação para popular a sua base de dados interna. Ratifica-se, dessa forma, que os avaliadores souberam discernir que o que estava sendo avaliado eram as ferramentas, e não a base de dados em uso. A maioria dos pontos negativos levantados sobre o VLattes refere-se a questões pontuais inerentes às limitações da ferramenta, e não à técnica de visualização proposta. A limitação mais pertinente é a que diz respeito à questão da densidade dos dados. É sabido que a técnica de Coordenadas Paralelas perde expressividade quando a quantidade de dados aumenta. Não obstante, é possível ao VLattes implementar algumas das técnicas para o aumento da expressividade discutidas na Seção 4.1. No mais, o filtro da lente pode ser ativado a qualquer momento, possibilitando uma análise fina dos dados, independentemente da quantidade de dados aferidos. Também não é difícil fazer com que as linhas coloridas pela lente fiquem mais destacadas. Uma solução viável, por exemplo, seria o aumento de suas espessuras. Sobre a questão das instituições e unidades, deve-se pensar em formas de se adaptar a visualização a um novo mapeamento que contemple tais informações hierárquicas. O VLattes se mostrou uma boa ferramenta na solução de questões envolvendo a análise simultânea de muitas variáveis. Através dessa ferramenta, os avaliadores puderam filtrar pesquisadores por perfil de produção, avaliar as inclinações de pesquisa da insti- 6.3 Discussão dos Resultados 83 tuição como um todo e isolar tipos de produções deficitárias. No mais, a identificação das linhas permitia a avaliação específica do pesquisador e a sua comparação com outros pesquisadores. A possibilidade de se identificar as linhas nas coordenadas paralelas abre várias possibilidades de análise, anteriormente limitada a tendências e padrões genéricos. Semelhantemente ao VLattes, boa parte dos pontos fracos elencados em relação ao GLattes se relaciona com a implementação da visualização e não com a técnica em si. Com relação aos blocos com alturas semelhantes, observou-se que geraram insatisfação em alguns usuários. Porém, os que reclamavam desse fato não faziam o uso devido do plano de intersecção. Esse plano é capaz de solucionar o impasse visual ocasionado pela proximidade ou até mesmo por questões de perspectiva. Apesar de o mapeamento de cores proposto pela técnica não ter se demonstrado muito eficiente, é possível implementar com facilidade bordas para as regiões delimitadas por níveis mais altos, auxiliando assim a manutenção da hierarquia já refletida no mapeamento de cor. Uma maneira de se amenizar a obstrução causada pelos blocos é através da adição de uma transparência seletiva, a qual permite ao usuário definir quando os elementos da visualização devem ficar transparentes. Pode-se adicionar também uma transparência por demanda, que possibilita ao usuário a escolha dos elementos que devem ficar transparentes. A análise dos mínimos pode ser facilitada pela ordenação das barras dentro das suas respectivas regiões, diminuindo também a obstrução anteriormente mencionada. Os avaliadores ficaram satisfeitos com as possibilidades de interação oferecidas pelo GLattes, principalmente com a navegação entre os níveis. Exemplo disso é o fato de terem observado constantemente o efeito que a quantidade de pesquisadores de um grupo causava sobre a média. Fato esse evidenciado quando, por exemplo, se avançava do nível de instituição para o nível de unidade, no qual muitas unidades ficavam bem acima da média geral demonstrada no nível anterior. Infelizmente, devido ao pouco tempo de avaliação, a maioria dos avaliadores não explorava todo o potencial da ferramenta. O foco de atenção se voltava às suas funções básicas. Porém, os que utilizavam o recurso dos pesos, por exemplo, podiam observar, dentre outras coisas, o impacto causado pela exclusão de indicadores que, geralmente, não têm grande representatividade. Quando havia a subtração de tais indicadores, a altura de algumas unidades, anteriormente em posições privilegiadas, ficava próxima de zero. Exemplo disso são as unidades que se destacavam por apresentar altos índices em iniciação científica. Apesar da preferência dos usuários pelo GLattes-CityView, o GLattesBellTowerView se demonstrou eficiente para a análise da dispersão dos dados. Além disso, por ser uma versão vazada da CityView, a exploração dos mínimos é muito mais simples. Como nessa aplicação a altura dos elementos era propositalmente exagerada, os usuários se sentiam mais confortáveis em responder questões de máximos e mínimos. 6.3 Discussão dos Resultados 84 Porém, o que se esperava da visualização BellTowerView era que fosse mais utilizada na forma de uma escadaria. Porém, nenhum dos avaliadores utilizou essa visão dos dados. Talvez porque a ferramenta já começava mostrando a torre do sino de perfil, e não na perpendicular. Infelizmente, a não observação desse fato antes do início das avaliações pode ter prejudicado a análise da visualização. Os avaliadores preferiam o GLattes-CityView para uma exploração sem nenhum objetivo concreto. Porém, quando incumbidos a responder algumas questões referentes aos dados, recorriam mais ao GLattes-BellTowerView. Como resultados dessas avaliações, elenca-se: • As ferramentas foram bem aceitas, sendo, por duas vezes, requisitadas para uso imediato. • A identificação promovida pelo uso de uma lente bifocal aumenta a utilidade das Coordenadas Paralelas. • O destaque promovido na lista de pesquisadores quando se realizava alterações no plano de coordenadas paralelas também ampliava a utilidade do VLattes. • O filtro da lente aumenta a expressividade e a efetividade das coordenadas paralelas. • O GLattes pode ser útil na análise de dados cienciométricos. • O GLattes-CityView detém a preferência para exploração sem objetivos definidos. • O GLattes-BellTowerView detém a preferência na exploração com objetivos definidos. • A exploração é mais efetiva quando as três aplicações são utilizadas em conjunto. • Existe a necessidade de melhoramentos nas ferramentas implementadas. • Existe a necessidade de ajustes pontuais no mapeamento original. CAPÍTULO 7 Conclusão Essa dissertação discorreu sobre o emprego de técnicas da Visualização de Informações em cienciometria. Para tal, foi realizado um levantamento das principais necessidades da comunidade científica, oriundas da exploração de dados cienciométricos. Além disso, houve um levantamento das principais fontes de dados utilizadas nessa exploração. Após esses levantamentos, foram propostas duas visualizações que visavam a responder a um determinado conjunto de questões apontadas pelos usuários da base. Por fim, foi realizada a implementação e a avaliação dessas visualizações utilizando dados fornecidos pelo Extrator Lattes da Plataforma Lattes. O resultado concreto obtido por esse trabalho foi a implementação de duas ferramentas visuais. Essa foi a atividade na qual se empregou mais tempo. Não foram poucas as vezes em que se cogitou o abandono das práticas da programação orientada a objetos (POO) em favor da velocidade de desenvolvimento e desempenho gráfico. Porém, a intenção de se desenvolver ferramentas portáveis, extensíveis e robustas, sem a quebra das prerrogativas da POO subjugou essas dificuldades, proporcionando tanto a criação de ferramentas consistentes quanto um considerável avanço nos conhecimentos do aluno. Esse estudo traz contribuições à Visualização de Informações a partir da proposição de três técnicas para a visualização de dados cienciométricos, a saber, a CoordLensView, a CityView e a BellTowerView. A contribuição do trabalho para com a Cienciometria se deu por meio do desenvolvimento de duas ferramentas de código livre para análise e exploração visual, a saber: o VLattes, que implementa a técnica CoordLensView e o GLattes, que implementa as técnicas CityView e a BellTowerView. A aceitação dessas ferramentas por parte dos avaliadores demonstra os efeitos positivos que uma visualização especialmente elaborada para uma determinada aplicação pode proporcionar. Por meio das avaliações efetuadas, expôs-se uma distância entre as técnicas e teorias estabelecidas pela Visualização de Informações e sua aplicação em atividades cienciométricas. Essa constatação deve impelir os pesquisadores de Visualização de Informações a estudar e a produzir ferramentas que possam auxiliar essa atividade de pesquisa. As ferramentas desenvolvidas, apesar de independentes, possibilitam uma aná- 7.1 Trabalhos Futuros 86 lise mais abrangente se utilizadas em conjunto, inclusive concomitante com a tabela de dados. Isso demonstra que as suítes de aplicações para a exploração visual aumentam consideravelmente o poder de visualizações isoladas. Outrossim, observou-se que a combinação de visualizações distintas é uma proposta interessante, levando à criação de visualizações capazes de abranger questões não contempladas pelas técnicas originais. Isentandose da pretensão de ter promovido essa constatação encorajadora, o estudo da combinação de técnicas de visualização pode ser tratado como uma nova linha de pesquisa dentro da Visualização de Informações. 7.1 Trabalhos Futuros Essa pesquisa abre espaço para vários trabalhos futuros entre os quais se destaca: • Buscar formas de se aprimorar a técnica CoorLensView. • Flexibilizar a aplicação do GLattes, inclusive para dados estruturados em k-níveis. • Testar o GLattes com outros dispositivos de interação, com luvas3D, cavernas de imersão 3D, mesas interativas e projeção em grandes telas. • Prosseguir com a investigação de técnicas de Visualização de Informações para Cienciometria. • Explorar mais combinações de técnicas de Visualização de Informações. Referências Bibliográficas [1] Conteúdo da Base Lattes. http://lattes.cnpq.br/conheca/con_baseLattes.htm, acessado em julho/2007. [2] Essential Science Indicators. http://scientific.thomson.com/products/esi/, acessado em julho/2007. [3] ISI Web of Knowledge. http://isiwebofknowledge.com/, acessado em julho/2007. [4] Journal Citation Reports. http://scientific.thomson.com/products/jcr/, acessado em julho/2007. [5] Science Citation Index. http://scientific.thomson.com/products/sci/, acessado em julho/2007. [6] Site Lens Studio. http://www.flashkit.com/search/sitemap/index.shtml, acessado em janeiro/2007. [7] Thomson Scientific. http://scientific.thomson.com/, acessado em ju- lho/2007. [8] Web of Science. http://scientific.thomson.com/products/wos/, acessado em julho/2007. [9] BATTISTA, G. D; EADES, P; TAMASSIA, R; TOLLIS, I. G. Algorithms for drawing graphs: anannotated bibliography. Comput. Geom. Theory Appl., 4:235–282, 1994. [10] BEDERSON, B. B; WATTENBERG, M. Treemaps-java-algorithms. http://www.cs.umd.edu/hcil/treemaps, 2001. [11] BLADH, T; CARR, D. A; SCHOLL, J. Extending tree-maps to three dimensions: A comparative study. In: APCHI, p. 50–59, 2004. Referências Bibliográficas [12] CARD, S. K; MACKINLAY, J. D; SHNEIDERMAN, B; CARD, M. 88 Readings in information visualization: Using vision to think. Morgan Kaufmann Series in Interactive Technologies, Academic Press., 1999. [13] CHAMBERS, J. M; CLEVELAND, W. S; CICLANO; FULANO. Graphical methods for data analysis. Wadsworth Internatinal Group, 1973. [14] DAVIDSON, R; HAREL, D. Drawing graphics nicely using simulated annealing. ACMTrans. Graph., 15:301–331, 1989. [15] DE OLIVEIRA, M. C. F; LEVKOWITZ, H; ARTERO, A. O. Uncovering clusters in crowded parallel coordinates visualizations. In: INFOVIS, p. 81–88, 2004. http://doi.ieeecomputersociety.org/10.1109/INFOVIS.2004.68. [16] DWYER, T. Extending the wilmascope 3d graph visualisation system – software demonstration. Conferences in Research and Practice in Information Technology, Asia Pacific Symposium on Information Visualisation (APVIS 2005), 45, 2005. [17] DWYER, T; EADES, P. Visualising a fund manager flow graph with columns and worms. Information Visualisation, 2002. Proceedings. Sixth International Conference, p. 147–152, 2006. [18] EADES, P. A heuristic for graph drawing. Congr. Numer., 42:149—-160, 1984. [19] EADES, P. Complexity issues in drawing directed graphs. In Proceedings of the International Workshop on Discrete Algorithms and Complexity, Institute of Electronics, Information and Communication Engineers (IEICE), p. 9—-15, 1989. [20] EADES, P; WORMALD, N. C. Edge crossings in drawings of bipartite graphs. Algorithmica, 11:379—-403, 1994. [21] FANEA, E; CARPENDALE, S; ISENBERG, T. An interactive 3d integration of parallel coordinates and star glyphs. Department of Computer Science, University of Calgary, Canada. [22] FAYYAD, U; PIATETSKY-SHAPIRO, G; SMYTH, P. Knowledge discovery and data mining: Towards a unifying framework. AAAI Press, 1996. [23] FAYYAD, U; GRINSTEIN, G. G; WIERSE, A. Information Visualization in Data Mi- ning and Knowledge Discovery. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 1 edition, 2001. [24] FUA, Y.-H; WARD, M. O; RUNDENSTEINER, E. A. Hierarchical parallel coordina- tes for exploration of large datasets. In: IEEE VISUALIZATION, p. 43–50, 1999. Referências Bibliográficas 89 [25] FULE, P; RODDICK, J. Detecting privacy and ethical sensitivity in data mining results. Twenty-Seventh Australasian Computer Science Conference, 26:159–166, 2004. [26] FURNAS, G. W. The fisheye view: anewlookat structured files. Technical Report #81-11221-9, BellLaboratories, Murray Hill, NewJersey 07974, U.S.A, 1981. [27] GRAHAM, M; KENNEDY, J. Using curves to enhance parallel coordinate visuali- sations. Proceedings of the Seventh International Conference on Information Visualization (IV’03), 2003. [28] HAN, J; KAMBER, M. Data Mining: Concepts and Techniques. Morgan Kaufmann, San Francisco, CA, 2001. [29] HAWKINS, D. Identification of Outliers. Chapman and Hall, London, 1980. [30] INSELBERG, A. The plane with parallel coordinates. The Visual Computer, 1:69– 91, 1985. [31] INSELBERG, A; DIMSDALE, B. Parallel coordinates : A tool for visualizing multi- dimensional geometry. Proc. IEEE Symposium of Information Visualization, p. 100– 107, 1990. [32] ISLAM, Z; BRANKOVIC, L. A framework for privacy preserving classification in data mining. Australasian Computer Science Week, 32:163–168, 2004. [33] KANDOGAN, E. Star coordinates: A multi-dimensional visualization technique with uniform treatment of dimensions. IEEE Symposium on Information Visualization 2000, Salt Lake City, Utah, 1:4, 2000. [34] KEIM, D. A. Visual database exploration techniques. KDD’97 Int. Conf. on Knowledge Discovery an Data Mining, Newport beach, CA, 1997. [35] KING, D. A. The scientific impact of nations. Nature Publishing Group, 430:331– 316, 7 2004. [36] KING, E; CHAMPNEY, J. W. Great South - a record of journeys. American Publisher Company, Hartford, Conn, 1 edition, 1875. [37] KNIGHT, C. Visualisation effectiveness. Conference on Imaging Science, Systems, and Technology, 6 2001. [38] LEE, M. D; REILLY, R. E; BUTAVICIUS, M. E. An empirical evaluation of chernoff faces, star glyphs, and spatial visualizations for binary data. In CRPITS ’24: Proceedings of the Australian symposium on Information Visualisation, p. 1–10, 2003. Referências Bibliográficas 90 [39] LEUNG, Y. K; APPERLEY, M. D. A review and taxonomy of distortion-oriented presentation techniques. ACM Trans. Comput.-Hum. Interact., 1(2):126–160, 1994. O papel da informetria e da cienciometria e sua perspectiva nacional e internacional. Ci. Inf., 27(2):134–140, 5 1998. [40] MACIAS-CHAPULA, C. A. [41] MUGNAINI, R; JANNUZZI, P; QUONIAM, L. Indicadores ciênciométricos. Ci. Inf. Brasília, 33(2):123–131, 8 2004. [42] NASCIMENTO, H. A. D. D; FERREIRA, C. B. R. Visualização de informações – uma abordagem prática. XXIV JAI/XXV Congresso da Sociedade Brasileira da Compuação, p. 1262–1312, 2006. [43] NIELSEN, J. Heuristic evaluation of user interfaces. ACM - CHI’90 Proceedings, 1990. [44] NIELSEN, J. Usability Engineering. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 1 edition, 1993. [45] NIELSEN, J; MOLICH, R. Finding usability problems through heuristic evalua- tion. ACM - CHI’92 Proceedings, 1992. [46] PACHECO, R. C. S; KERN, V. M. Uma ontologia comum para a integração de bases de informações e conhecimento sobre ciência e tecnologia. Ciência da Informação, Brasília, 30(3):56–63, 12 2001. [47] PLEWE, J; PHYS., D. Treemaps-java-algorithms. HARDCODE Development, 2002. [48] RAO, R; CARD, S. The table lens: Merging graphical and symbolic representa- tionsin an interactivefocus+context visualizationfor tabularinformation. Proceedings of the ACM SIGCHI Conference on Human Factors in Computing Systems, p. 7, 1994. [49] SHNEIDERMAN, B. Tree visualization with tree-maps: A 2-D space- filling approach. ACM Transactions on Graphics, 11(1):92–99, 1992. citeseer.ist.psu.edu/shneiderman91tree.html. [50] SHNEIDERMAN, B. The eyes have it: A task by data type taxonomy for informa- tion visualizations. IEEE, p. 336–343, 1996. [51] SPINAK, E. Indicadores ciênciométricos. Ci. Inf. Brasília, 27(2):141–148, 8 1998. Referências Bibliográficas 91 [52] TANAKA, Y; OKADA, Y; NIIJIMA, K. Treecube: Visualization tool for browsing 3d multimedia data. Proceedings of the Seventh International Conference on Information Visualization (IV’03), 2003. [53] VERYKIOS, V. S; BERTINO, E; ET. AL.. State-of-the-art in privacy preserving data mining. ACM SIGMOD Record, 33(1):50–57, 3 2004. [54] WOOLARD, E. W. The measurement of temperature, with some remarks on other physical measurements, and applications to meteorology. Monthly Weather Review of American Meteorological Society - AMS, 48:264–270, 1920. [55] ZHOU, Z.-H. Three perspectives of data mining. Artificial Intelligence, 143:139– 136, 2003. APÊNDICE A CD-ROM Junto a essa dissertação, encontra-se um CD-ROM contendo grande parte dos textos utilizados e citados no decorrer do trabalho. Os textos são para simples referência e não devem ser distribuídos, uma vez que muitos deles estão protegidos por leis de propriedade autoral. Também se encontram neste CD-ROM as ferramentas desenvolvidas e seus respectivos códigos fontes. Essas ferramentas são livres para serem distribuídas e alteradas, desde que a fonte seja citada. Os requisitos mínimos e os procedimentos de instalação e de execução das ferramentas são descritos a seguir. A.1 Requisitos Mínimos • Um computador com processador de 1.7 Ghz, 256Mb de memória RAM, 256Mb em disco para memória virtual, placa de vídeo com OpenGL 1.2 ou superior. Recomenda-se monitor com pelo menos 17"e placa de vídeo dedicada com 128Mb. • Java Runtime Enviroment (JRE) 1.4 ou superior, que pode ser encontrado em www.java.sun.com. • Java3D, que pode ser encontrado em http://java.sun.com/products/java-media/3D/. • MySql 4.0, que pode ser encontrado em http://dev.mysql.com/downloads/mysql/5.0.html • MySql Connector/J, que pode ser encontrado em http://dev.mysql.com/downloads/connect • JXInput, que pode ser encontrado em http://www.hardcode.de/jxinput/. A.2 Instalação 1. Copie para a pasta [data], localizada na pasta de instalação do MySQL, a pasta [tools data lattes], localizada na pasta [tools] deste CD-ROM. Apêndice A 93 2. Instale o MySql Connector/J, copiando o arquivo [mysql-connector-java-x.x.xbin.jar] para a pasta [lib ext], localizada na pasta de instalação do JRE. 3. Configure o MySql para permitir acesso ao usuário “root@localhost”, com senha “root”. 4. Copie os arquivos [jxinput.jar] e [jxinput.dll] para a pasta [lib ext], localizada na pasta de instalação do JRE. A.3 Executando as Ferramentas Para executar o VLattes, execute a seguinte linha de comando: java -Xms128Mb -Xmx256Mb <CD-ROM>:\tools\VLattes\src\VLattes\parallelCoord.GUI Para executar o GLattes-CityView, execute a seguinte linha de comando: java -Xms128Mb -Xmx256Mb <CD-ROM>:\tools\GLattes\src\GLattes\landscape3D.GUI Para executar o GLattes-BellTowerView, execute a seguinte linha de comando: java -Xms128Mb -Xmx256Mb <CD-ROM>:\tools\GLattes\src\GLattes\landscape3D.GUI t Qualquer dúvida, favor entrar em contato com o autor pelo e-mail [email protected]. A.4 Script em SLQ para a Criação do Banco de Dados Interno Abaixo, é apresentado um script em MySql para a criação das tabelas que formam a base de dados interna das ferramentas. Apêndice A 94 Código A.1 Script em SLQ para a criação do banco de dados interno 1 2 /*CRIA O BANCO DE DADOS*/ ‘lattes‘.CREATE DATABASE ‘lattes‘ /*!40100 DEFAULT CHARACTER SET latin1 */; 3 4 5 6 7 8 9 10 11 /*CRIA A TABELA IES*/ CREATE TABLE ‘lattes‘.‘ies‘ ( ‘IDIES‘ int(10) unsigned NOT NULL auto_increment, ‘NOME‘ varchar(60) default ’0’,‘SIGLA‘ varchar(10) default ’0’, PRIMARY KEY (‘IDIES‘), UNIQUE KEY ‘IDIES‘ (‘IDIES‘,‘NOME‘,‘SIGLA‘), KEY ‘IDIES_2‘ (‘IDIES‘,‘NOME‘,‘SIGLA‘) ) ENGINE=MyISAM DEFAULT CHARSET=latin1; 12 13 14 15 16 17 18 19 /*CRIA A TABELA UNIDADEACADEMICA*/ CREATE TABLE ‘lattes‘.‘unidadeacademica‘ ( ‘idunidade‘ int(10) unsigned NOT NULL auto_increment, ‘nome‘ varchar(60) NOT NULL default ’’, ‘tipo‘ varchar(10) NOT NULL default ’’, PRIMARY KEY (‘idunidade‘) ) ENGINE=MyISAM DEFAULT CHARSET=latin1; 20 21 22 23 24 25 26 27 28 29 /*CRIA A TEBELA TIPOPRODUCAO*/ CREATE TABLE ‘lattes‘.‘tipoproducao‘ ( ‘IDTIPOPRODUCAO‘ int(10) unsigned NOT NULL auto_increment, ‘NOME‘ varchar(120) default ’0’, ‘ABREVIACAO‘ varchar(4) default NULL, PRIMARY KEY (‘IDTIPOPRODUCAO‘), UNIQUE KEY ‘IDTIPOPRODUCAO‘ (‘IDTIPOPRODUCAO‘,‘NOME‘), KEY ‘IDTIPOPRODUCAO_2‘ (‘IDTIPOPRODUCAO‘,‘NOME‘) ) ENGINE=MyISAM DEFAULT CHARSET=latin1; 30 31 32 33 34 35 36 37 38 39 40 /*CRIA A TABELA PESQUISADOR*/ CREATE TABLE ‘lattes‘.‘pesquisador‘ ( ‘IDPESQUISADOR‘ int(10) unsigned NOT NULL auto_increment, ‘KEYIES‘ int(10) unsigned default ’0’, ‘NOME‘ varchar(60) default ’0’, ‘KEYUNIDADE‘ int(10) unsigned NOT NULL default ’0’, PRIMARY KEY (‘IDPESQUISADOR‘), UNIQUE KEY ‘IDPESQUISADOR‘ (‘IDPESQUISADOR‘), KEY ‘IDPESQUISADOR_2‘ (‘IDPESQUISADOR‘) ) ENGINE=MyISAM DEFAULT CHARSET=latin1; 41 42 43 44 45 46 47 48 49 50 51 52 /*CRIA A TABELA TIPOPRODUCAO*/ CREATE TABLE ‘lattes‘.‘producao‘ ( ‘IDPRODUCAO‘ int(10) unsigned NOT NULL auto_increment, ‘KEYPESQUISADOR‘ int(10) unsigned default ’0’, ‘KEYTIPOPRODUCAO‘ int(10) unsigned default ’0’, ‘ANO‘ int(4) unsigned default ’0’, ‘VALOR‘ int(10) unsigned default ’0’, PRIMARY KEY (‘IDPRODUCAO‘), UNIQUE KEY ‘IDPRODUCAO‘ (‘IDPRODUCAO‘), KEY ‘IDPRODUCAO_2‘ (‘IDPRODUCAO‘) ) ENGINE=MyISAM DEFAULT CHARSET=latin1; Apêndice A A.5 95 Telcas de Atalho do GLattes Figura A.1: GLattes, telcas de Atalhos APÊNDICE B Material utilizado em avaliações e entrevistas B.1 Termo de Consentimento Livre e Esclarecido Figura B.1: Termo de Consentimento Livre e Esclarecido, pg. 1 Apêndice B 97 Figura B.2: Termo de Consentimento Livre e Esclarecido, pg. 2 Apêndice B B.2 98 Questionário para o Levantamento de Questões Cienciométricas Figura B.3: Levantamento das Questões Cienciométricas, pg. 1 Apêndice B 99 Figura B.4: Levantamento das Questões Cienciométricas, pg. 2 Apêndice B B.3 100 Questionário Utilizado na Avaliação das Ferramentas Figura B.5: Questionário de avaliação das ferramentas Apêndice B B.4 101 Tabela Utilizada na Avaliação das Ferramentas Figura B.6: Tabela de Produção Científica, dados dos pesquisadores. Apêndice B 102 Figura B.7: Tabela de Produção Científica, pesos dos indicadores.