Por que Tech Mining? - Wiki do Vantage Point
Transcrição
Por que Tech Mining? - Wiki do Vantage Point
Palestra "Contribuições do Text-Mining para a pesquisa“ O caso dos d bi biomateriais t i i e engenharia h i d de ttecidos id medicos di Fernando Palop Recife, 16 maio 2014 www.TheVantagePoint.com Conteúdo 1. Introdução ao Tech Mining 1 2. Vantage Point, VP, um software para fazer Tech Mining 3. Primeiros indo com VP. Fontes de informaçao, buscas, download dos dados. 4. Importaçao em VP 5. As Listas 6. Limpeza dos dados & campos / grupos 7 O Análise com Listas, 7. Listas Matrizes e Mapas 8. Matrizes de co-ocurrencias 9. Mapas de relaçoes 10. Os Relatorios com os resultados Anexo: VP Institute www.TheVantagePoint.com Desenvolvimento do Workshop / Seminario 1. Os assistentes devem p participar p com seus laptops p p em uma proporção aproximada de um computador para cada dois assistentes. 2 Os computadores devem ter conexão de internet wi-fi 2. wi-fi, a fim de facilitar a instalação de software. Por esta razão, embora o workshop terá início às 2:00pm, meia hora antes será fornecido aos assistentes apoio para a instalação instalação. 3. O tempo do workshop: metade do tempo de conceitos e outro meia de exercícios. 4. No final do workshop, Para aqueles que querem continuar a mais, alguns exercícios adicionais e tutoriais por e-mail serão fornecidos para usar o software até a data de vencimento em 7 de setembro setembro. www.TheVantagePoint.com Por que Tech Mining? • Bem-vindo à era da informação demais. • Precisamos tratar: o texto como dados para g p ganhar inteligência. g •Mineração de recursos de informação de CT & I para responder a perguntas de gestão de tecnologia = Tech Mining. www.TheVantagePoint.com Mas se queremos usar toda esta informação o que vamos fazer? informação, • Mudar a nossa perspectiva sobre a informação baseada em texto. • Ficar Fi llonge d de nossa ""necessidade id d d de ller““ • Tratar o texto como DADOS • Use técnicas de mineração de dados – ”data mining”- para analisar o texto www.TheVantagePoint.com O processo de text mining Fonte: Porter, A. L. www.TheVantagePoint.com Tech Mining precisa – 6 tipos de informação Informação técnica A. Bancos de dados CT&I (Ciencia Tecnologia & (Ciencia, Inovação) (ex : ISI WoS, (ex.: WoS Medline, Medline Micropatents, Scielo) B Fontes na Internet B. (ex., Googling) C. Perícia Técnica Informação o ação do contexto co te to D. Negócios, concorrência cliente concorrência, cliente, b. de d. de conteúdo de política (e.g., (e g LexisLexis Nexis, Factiva) E Fontes da Internet E. (ex., blogs, website “profiling”) profiling ) F. Perícia em negócios Fonte: Porter, A. L. www.TheVantagePoint.com MOT Issues, Questões & Indicadores de inovação 13 MOT Issues 39 MOT Questions ~200 Innovation Indicators WHAT? • 1. 2. 3. 4. 5. 6. Mapping of topic clusters within th technology the t h l 3-D trend charts for topic clusters Ratio of conference to journal papers (benchmarked) Scorecard rate-of-change metrics for topic clusters Time slices to show evolution of topical emphases Topic op c growth g o t modeling ode g (S-curve) (S cu e) fit & extrapolation • • • • • R&D Portfolio M t Mgt R&D Project Initiation Engr Project Initiation New Product Development Strategic Planning, etc. etc What’s hot? Fit into tech landscape? Drivers? Competing technologies? Likely development paths? etc. MOT=Gestão MOT Gestão de questões de tecnologia Fonte: Porter, A. L. WHO? Pie chart: Company vs. Academic vs. Government publishing Topical main players players’ profiles Spreading (or constricting) # of players by topic Escopo El abordagem de MOT nos ajuda a definir o escopo www.TheVantagePoint.com Tech Mining Ancestry: Bibliometria, Cienciometria, Informetria e Webometria Possibilidades de aplicação das técnicas bibliométricas, cientométricas, informétricas e webométricas: identificar as tendências e o crescimento do conhecimento em uma área; identificar as revistas do núcleo de uma disciplina; mensurar a cobertura das revistas secundárias; identificar os usuários de uma disciplina; prever as tendências de publicação; estudar d a di dispersão ã e a obsolescência b l ê i d da liliteratura científica; i ífi prever a produtividade de autores individuais, organizações e países; medir o g grau e p padrões de colaboração ç entre autores; analisar os processos de citação e co-citação; determinar o desempenho dos sistemas de recuperação da informação; avaliar os aspectos estatísticos da linguagem, linguagem das palavras e das frases; avaliar a circulação e uso de documentos em um centro de documentação; medir o crescimento de determinadas áreas e o surgimento de novos temas. Gilda Massari Coelho Tech Mining: Dez Passos 1. Especificar questões em gestão (ou política) da tecnologia e como responder a elas para serem abordadas através de análise empírica de "inteligência tecnológica"; (MOT e indicadores) 2. Obter acesso a dados adequados; Briefing + Microocultura 3. Buscar (Iteração) e recuperar registros de resumos de fontes de C&T, bancos de patentes, etc.; 4. Fazer importação das informações f para o software f de mineração de textos (Vantage Point); 5. Limpar os dados (removendo ambigüidades relativas a pesquisadores, entidades, etc.); 6. Analisar e gerar "indicadores de inovação" que focalizem as questões alvo; 7. Visualizar (matrizes e mapas); 8. Integrar estas análises empíricas com pesquisas na internet e opinião de especialistas; 9. Resumir, interpretar, recomendar e comunicar; (multi-dimensional!) 10 Padronizar P d i i t ti di t sempre que 10. e semi-automatizar procedimentos possível. © 2009 Search Technology, Inc. Etapas usuais do Text Mining Definição do tema de estudo Busca em bases de dados Análise automática Text Mining Definição das bases para busca Download dos dados Relatórios preliminares Definição da estratégia de busca Reformatação Análise dos dados dados. Integrar pesquisas Internet e opinião de especialistas Relatorio fi l final Adaptado de Gilda Massari Coelho Q competências Que p são fundamentais para p fazer Tech Mining em seu ambiente? 1 A familiaridade com o assunto técnicamente 1. 2. Pesquisar em banco de dados e técnicas de interpretação 3. Habilidades analíticas em Tech mining 4 Familiaridade 4. F ili id d com os usuários á i e suas necessidades id d 5. Habilidades de representação p ç e comunicação ç www.TheVantagePoint.com Q e o VantagePoint? Que V t P i t? VantagePoint é um desktop software de “desktop” mineração de textos –text mining para descoberta de miningconhecimento em praticamente qualquer banco de dados de texto estruturado. VantagePoint é um analisador, analisa os dados. Precisa que nós fornecemos os dados www.TheVantagePoint.com Por que precisamos de uma ferramenta como esta? • Buscamos o conhecimento utilizável á de recursos de informação de Ciência, Tecnologia & Inovação (CT & I) • La L Inteligência I t li ê i Competitiva C titi Técnica Té i (CTI) resultante lt t informa várias decisões de Gestão de a Tecnologia (MOT) [do setor privado e público e acadêmico "perfiles perfiles da pesquisa" ] • "Tech Tech Mining" Mining é o nosso processo para obter apoio útil à decisão do MOT, principalmente através da análise e representação do conhecimento derivado de pesquisas em publicaçãoes de P & D e bancos de dados de patentes www.TheVantagePoint.com Como funciona o VP? 1. Buscar a informação nos bancos de dados textuais estruturados. 2. Baixar os resultados da busca. 3. Importar os resultados da busca para o VantagePoint. 4. Usar o VantagePoint para descobrir padrões nos res ltados da busca. resultados b sca Bancos de d d online dados li Download Importar Resultados da busca Analisar www.TheVantagePoint.com The List Cooccurrence Mapping pp g Drill Down List Comparison Relator R rio Fuzzy M t hi Matching Thesaurus Grouping p g Manual Editing Análisse RegEx P tt Pattern Matching Entity E t ti Extraction NLP Limpez L za Imp portaçã ão O conjunto de Ferramentas do VantagePoint g Visualizations Export Reader Macros Automação www.TheVantagePoint.com O conjunto j t de d ferramentas f t do d VantagePoint V t P i t VantagePoint g tem diversos instrumentos para ajudar a analisar um texto: – Reformatação de dados – Thesaurus – Scripts para emissão de relatórios – Ferramenta de importação adaptável a centenas de bases de dados www.TheVantagePoint.com Oq que é p possível fazer com o VantagePoint? g • • • • • Analisar a informação Mapear relacionamentos Identificar tendências Desenvolver indicadores Automatizar a análise • Descobrir o conhecimento www.TheVantagePoint.com Dados textuais estruturados (campos) Exemplo de um registro bruto • Campo • Delimitado • Estruturado www.TheVantagePoint.com Que tipos Q p de p perguntas g se p poden responder p com o VP? Quem?? Quem Onde?? Onde O que? que? Quando?? Quando Como? e por quê? – Exigen colaboraçao com os especialistas em interpretar os dados d d www.TheVantagePoint.com Mineraçao para o qué? Padrãos ((+ “p pepitas p de ouro”)) Use Bibliometria dos Co-termos / estatística de coocorrências ê para encontrar relações õ • Contar o número de vezes as palavras aparecem j t em um conjunto juntas j t d de d documentos t • Quanto maior a co-ocorrência, mais forte a relação potencial Termo 1 Termo 2 www.TheVantagePoint.com Fontes de informação eletrônica e de pesquisa. A mudança de foco de mineração de textos. Faça ç o “download” e importação p ç de dados na ferramenta de análise Vantage Point. “R “Records” d ” / Registros. R i t www.TheVantagePoint.com A busca b • Onde buscar – Any Structured Text Databases • Dialog, STN, Micropatent, Excel etc Excel,etc... • Como buscar – usando as interfaces de busca padronizados • Estratégia de Busca - Inclusive / Lançe uma ampla rede • Baixe os resultados da pesquisa – Cuanto mais campos, melhor • ISI WoS – formato completo • STN – IALL or ALL www.TheVantagePoint.com On-line Data Sources Cambridge Scientific Abstracts Delphion Dialog EBSCOHost EBSCOHost Ei Engineering Village Custom Data Factiva ISI Web Of Knowledge Lexis Nexis Micropatent Ovid Patbase Questel‐Orbit SilverPlatter STN Thomson Innovation Databases Aerospace Art Abstracts Biobase Biological Abstracts Biological Sciences Biosis Biotechno Business & Industry CAPlus (AnaVist export) Cassis CBNB Claims Computer & Info Systems Corrosion Current Contents Derwent Biotech Abstracts Derwent Biotech Abstracts Derwent Innovations Index Derwent World Patent Index Ei Compendex EMBase EnCompass Literature EnCompass Literature EnCompass Patents Energy EnergySciTech Engineering Materials Abstr Envr Sci & Pollution Mgmt Envr Sci & Pollution Mgmt ERIC EuroPat FamPat Comma/tab delimited tables Microsoft Excel and Access SmartCharts XML Record/Field Tools Focust Food Sci & Tech Foodline Market Foodline Science Forege Frosti FSTA Gale PROMT GeoRef Global Reporter IFIPAT IFIUDB INPADOC INSPEC IPA ISD ITRD JAPIO JICST Kosmet LGST MATBUS Medline METADEX Mgmt and Org Studies Micropatent Materials Micropatent Materials Mobility NSF Awards NTIS Pascal Patent Citation Index PCT PCTPAT Phin Pira Pluspat PROMT PsycINFO PubMed p Rapra Recent Refs Reference Manager Science Citation Index SciSearch Scopus Tech Research ToxFile Transport USApps USPat USPat Waternet WaterResAbs Web of Science WeldaSearch Wisdomain Wisdomain Combine duplicate records Remove duplicate records Create “frankenrecords” (merge records from dissimilar sources) Classify records Merge fields Clean up fields Apply thesauri A wealth of diverse information sources for innovation management g VantagePoint Filters and Tools www.TheVantagePoint.com Os operadores booleanos são o padrão OR AND NOT www.TheVantagePoint.com Importante não esquecer a qualidade dos resultados da busca. Lembre!: Fiabilidade, Pertinência, Exaustividade www.TheVantagePoint.com A mudança de foco de mineração de textos Abordagem tradicional • Leitura seqüencial dos artigos limitada pelo tempo p p disponível. • Apenas aqueles que parece mais i relevantes (Em primeiro lugar nos resultados da pesquisa?) p q ) www.TheVantagePoint.com A mudança de foco de mineração de textos Abordagem tradicional Difícil abordar a tempo as novos conhecimentos emergentes (acesso a sinais precoces) Vain ser muitas vezes relegados dentro resultados da busca www.TheVantagePoint.com A mudança d d de foco f de d mineração i ã de d ttextos t Acesso transversal ao conhecimento. Uma nova forma de leitura. • O processo de importação, que converte o texto para dados converte os campos em listas www.TheVantagePoint.com Recursos de “AJUDA” para trabalhar com o Vantage Point •As fichas em Vantage Point HELP •O Guia do usuário de Vantage Point •Os recursos de VantagePoint Analyst Analyst´s s Guide, ex.: How to videos www.TheVantagePoint.com Ajudas em VantagePoint A Guia do usuário em formato PDF está incluída com cada instalação VantagePoint. g . VP Help : Ajuda on-line também está disponível a partir do interior VantagePoint. VantagePoint Ajuda é sensível ao contexto q quando você pressiona F1 www.TheVantagePoint.com Guia do análista VantagePoint VantagePoint inclui um guia do análista – VP Analyst’s Analyst s Guide- com uma coleção de orientações ç e demonstrações (videos, podcasts,...) de várias técnicas analíticas. www.TheVantagePoint.com Guia do usuário VantagePoint VantagePoint inclui uma completa Guia do Usuário de 236 páginas: - VP User’s G id Guide-. www.TheVantagePoint.com Recursos “On-Line” / Visit downloads Page ”downloads” … • Import Filters / p • Macros/Scripts • Tesaurus • Fuzzy Match Regals Desde mesmo VP ou precisa User ID e senha! www.TheVantagePoint.com VP “Readerpara p compartilhar p os resultados dentro da organização g ç Disponível sem custo t para organizações que usam a licença Vantage Point. Sujeito aos termos e condições especificadas na sua instalação. www.TheVantagePoint.com Exercício 1 Importação de dados Visualizations Export Reader M Macros Repo ort The List Cooccurrence Mapping M apping Drill Down List C i Comparison Analyz A ze Fuzzy M hi Matching Thesaurus Grouping Manual Editing Clea an Impo ort RegEx P Pattern Matching Entity Extraction NLP Automation www.TheVantagePoint.com Exercício mãos a Massa I Importação t ã de d dados d d www.TheVantagePoint.com Importação de dados • Iniciar VantagePoint Importação de Dados Brutos Selecione a opção "insulin-pubmed-2001on.txt" Arquivo está localizado no diretório SampleData / VantagePoint • Use a configuração de formato “PUBMED-Medline” I Importe t todos t d os campos não-secundários ã dá i Salve o arquivo de VantagePoint com o nome de "insulina" insulina www.TheVantagePoint.com Os três ferramentas analíticas essenciais do VantagePoint As "listas" de dados sobre uma variável ou campo A "matriz" de co-ocorrências Os mapas p de relações ç www.TheVantagePoint.com Listas Trabalhando os campos (“fields”) com “Li t ” “Lists” www.TheVantagePoint.com Os três ferramentas analíticas g essenciais do VantagePoint • LIST • A MATRIZ de coocorrência • Os MAPAS www.TheVantagePoint.com A Lista / The List • Registros de textos estruturados t t d contêm tê campos. • Estes E t campos contêm tê informações como o nome do autor autor, palavras-chave para descrever os documentos, etc... www.TheVantagePoint.com A Lista / The List • O processo de importação que converte o texto em dados, converte os campos em listas www.TheVantagePoint.com A Lista Li t / The Th List Li t • Listas mostrar-lhe todos os itens em um campo especial em todos os registros no conjunto importado. – # Records / registros – # Instances / i tâ i instâncias www.TheVantagePoint.com A Lista / The List • Creating Lists – From the Menu • Sheets/Add List – From the Button – From the Summary Sheet • Navigating g g within List – Slider – Sort – Finding Item(s) • Edit/Find (Ctrl-F) – Getting to the raw records www.TheVantagePoint.com Trabalhando com Listas • Renaming Fields – Fields/Rename Field • D li i Duplicating – Fields/Copy Field • Deleting g – Fields/Delete Field • Merging Fields – Fields/Merge Fields • Copying and Pasting – Edit/Copy (Ctrl-C) • G Groups – Group/Edit Groups (Ctrl-G) – Creating/Adding/Removing www.TheVantagePoint.com Usos analíticos de os Listas ¿Quem? ¿O que? ¿Onde? ¿Quando? www.TheVantagePoint.com Vistas de detalhe / Detail Views • Detail Views allow you to view sub-lists for any selected items in the main list • Selecting within Detail Views highlights associated titles • You can open as many detail views as needed • Expectancy Arrows www.TheVantagePoint.com Criar Sub-Conjunto Sub Conjunto de dados / Create Sub-Data Sub Data Set • Criar novo conjunto de dados (Arquivo / Criar Sub-Dataset) permite criar novos conjuntos j de dados a partir de um grupo ou uma seleção • Registros com itens excluídos ou registros ignorados não serão incluídos em o novo conjunto de dados www.TheVantagePoint.com Exercício 2 Limpeza Visualizations Export Reader M Macros Repo ort The List Cooccurrence Mapping M apping Drill Down List C i Comparison Analyz A ze Fuzzy M hi Matching Thesaurus Grouping Manual Editing Clea an Impo ort RegEx P Pattern Matching Entity Extraction NLP Automation www.TheVantagePoint.com Limpeza y formatando Data Cleaning & Trabalhando com campos / Fields Fi ld e grupos / Groups www.TheVantagePoint.com Limpe seus dados • Como você já deve ter notado por agora, são principalmente fazendo análise estatístico de textos textos. Garbage G b In I = Garbage G b Out O t/ Lixo dentro = lixo para fora • Dados precisan ser limpos antes de executar sua análise. • Você também pode achar que uma limpeza adicional ou manipulação de dados é necessária como você conduz a sua análise. • VantagePoint tem vários dados diferentes f ferramentas f de manipulação de limpeza / dados. www.TheVantagePoint.com Remoção duplicados / Duplicate Removal Remoção ç de duplicados p (Tools/Combine/Remove Duplicate Records) elimina todos menos um registro que coinciden com os critérios especificados www.TheVantagePoint.com Li Limpeza d listas das li t / List Li t Cleanup Cl Small differences in the data can distort results Li Cleanup List Cl (Fields/List Fi ld /Li Cleanup) helps remove: • Misspellings • Hyphenation • Capitalization • Different Styles Cleaned data can be saved as a thesaurus th List Cleanup produces a new list It does not change the list. original list. www.TheVantagePoint.com Thesaurus Th Os Thesaurus (Fields/Thesaurus) ajuda a reduzir e categorizar os dados. Como com “List Cleanup”, executar um Thesauri cria uma nova lista. www.TheVantagePoint.com G Grupos / Groups G • Grupos permitem categorizar o conteúdo de campo • Os grupos podem ser criados manualmente, manualmente semi manualmente ou automaticamente • Check/X/Blank toggle • Find/Select All • Groups G using i SStemming i And/Or www.TheVantagePoint.com Gestão do grupos • O comando “Edit Groups” (Groups/Edit Groups) permite que você gerencie seus grupos • Create new groups • Delete groups • Change state of entire group • Reorder Groups • Rename Groups www.TheVantagePoint.com “List List Cleanup”/Thesauri/Grupos Cleanup /Thesauri/Grupos estão relacionados e ac o ados Note que durante a limpeza de lista, você pode salvar a sua limpeza como um tesauro. Você também pode transformar seus grupos em um tesauro. E você pode transformar seu tesauro em grupos. Estas E t três t ê funções f õ relacionadas l i d são ã projetados j t d para permitir iti que você substitua o conteúdo dentro do banco de dados VP com algo mais apropriado para a sua análise. • “List Cleanup” depende do software (Fuzzy Matching) p de conhecimento codificado p pré-gravadao g • Thesaurus depende (Thesauri) • Groups rely on you the user (Manual Changes) Grupos d dependen d d de você, ê o usuário, á i ((as alterações lt õ manuais) i ) www.TheVantagePoint.com Exercício 2 mãos a Massa Li Limpeza d dados dos d d www.TheVantagePoint.com Limpeza dos dados • Usando o arquivo Workshop: "DSSC-4104-WOS for newmans.vpt" • Campo “Countries”, fazemos uma Lista dos paises O que mantém a sua atenção? Está tudo bem? • Limpe o campo usando a “General.fuz" algoritmo de ló i dif lógica difusa www.TheVantagePoint.com Exercício 2 1. Limpe o campo “Countries” 2 Realice 2. R li alguma l lilimpeza d de la l lista li com List Li Cleanup Cl (por exemplo, tente com “general.fuz” neste campo) 3 Aplique 3. A li t b tambem um Tesaurus T ( (por exemplo, l ttentar t “Country.the" neste campo;) Que tipo de diferenças percebe você agora entre a Li t Li Lista Limpa e a iinicial? i i l? Que diferenças entre a limpeza com um Tesaurus e com a List Li t Cleanup Cl © 2009 Search Technology, Inc. www.TheVantagePoint.com Exercício 3 mãos a Massa Criando Grupos manualmente e com Thesaurus www.TheVantagePoint.com Exercício 3 1. Criar manualmente um Grupo com as cinco primeiras i i empresas por publicações. bli õ 2. Criar automaticamente grupos de empresas, universidades i id d e centros t d de pesquisa i d do governo usando AcadCorpGov.the Thesaurus Que tipo de diferenças percebe você agora entre as d fformas de dos d ttrabalho? b lh ? © 2009 Search Technology, Inc. www.TheVantagePoint.com Mesclar campos / Merge Fields • Under Fields – Merge Fields • Combine content of multiple fi ld as desired fields d i d © 2009 Search Technology, Inc. Incremental Import (Import More Fields) Incremental Import p ((Fields/Import p More Fields) allows you to bring in fields which are not already imported [Check for Secondary Fields too] Import Filter file is stored with the data; it can be replaced •Change Dataset Ch D t t Properties P ti •Change Database Configurations •Select Database Name and click “Replace Database” •Browse to find desired filter; select; click “OK” •Say “Yes” to Reassign; click “OK”; click “OK” •You You can now choose fields this filter accesses © 2009 Search Technology, Inc. Analisando dados Automation Visualizations Export Reader M Macros Repo ort The List Cooccurrence Mapping M apping Drill Down List C i Comparison Analyz A ze Fuzzy M hi Matching Thesaurus Grouping Manual Editing Clea an Impo ort RegEx P Pattern Matching Entity Extraction NLP Os três ferramentas analíticas g essenciais do VantagePoint • A LISTA • A MATRIZ de cocoocorrência • Os MAPAS www.TheVantagePoint.com Di Direcionando i d a informação. i f ã Campos C e grupos. Matrizes • A LISTA • A MATRIZ de cocoocorrência • Os MAPAS www.TheVantagePoint.com A matriz t i de d co-ocorrência ê i Item A Item B Item C Field 2 Field 1 F • A matriz de co-ocorrência mostra a relação numérica entre t dois d i campos. • É a forma mais simple de d d bibli dados bibliométricos ét i copalavras / termos. • Com C a matriz ti d de coocorrência, você pode ver a relação entre um campo e qualquer outro campo It Item X 3 0 2 Item Y 0 7 0 Item Z 0 4 2 www.TheVantagePoint.com Criando uma matriz de co-ocorrência • From the Menu – Sheets/Add Matrix • From the Button www.TheVantagePoint.com Navegando na matriz de coco ocorrência • The functions within Cooccurrence include – – – – Sorting Re Sort Re-Sort Flooding G tti to Getting t the th Raw R Record – Painting – Copying/Pasting • Edit/Copy www.TheVantagePoint.com Usos analíticos de matrizes de co-ocorrência Quem/Onde? Onde/O O de/O qué qué? Quem/Quando? etc……. www.TheVantagePoint.com Visualização de matrizes de co-ocorrência: co ocorrência: “Matrix Viewer” www.TheVantagePoint.com Visualização de matrizes de co-ocorrência : Script “Matrix Viewer” Controles: • Layout Select a layout style in the drop-down box. • Pause When viewing a force directed layout, push to stop calc lations and pa calculations pause se the animation animation. P Push sh again to res resume. me • Export to file Export the graph in JPG, PNG, or BMP format. • Select node Click an item to list its titles. • Drag Left-click and drag a node to move it around. • Pan Left-click and drag the background to pan the display view. • Zoom Right-click and drag the mouse up or down or use the scroll wheel to zoom the display view. • Zoom-To-Fit Right-click once to zoom the display to fit the whole graph. www.TheVantagePoint.com Visualização de matrizes de co-ocorrência co ocorrência : Script Aduna www.TheVantagePoint.com Exercício 4 mãos a Massa C Co-ocorrência ê i www.TheVantagePoint.com Exercício 4 : Matrizes 1 Faça uma Matriz - atravessa combinações interessantes 1. interessantes. a) Faça um grupo (por exemplo, "Top 10") em um campo [por exemplo, [p p , filiação ç ((“Author Affiliations”)] )] cruzada contra um campo tópico "Top 10" do grupo [por exemplo “Abstract (NLP) (Phrases) + Title (NLP) (Phrases) (Cleaned). b) Tome "Top 10" Autores por Categorias dos topicos c) Cruze Ano de Publicação com outro campo (possivelmente apenas para um grupo superior) g , escolher uma matriz de interesse. Mostre como 2. Em seguida, você pode "minar" a matriz para obter uma visão útil. Relatório. www.TheVantagePoint.com © 2009 Search Technology, Inc. Os três ferramentas analíticas g essenciais do VantagePoint • A LISTA • A MATRIZ de co ocorrência co-ocorrência • Os MAPAS www.TheVantagePoint.com Mapas tecnológicos e científicos. p Macros y Scripts. • The LIST • The CO-OCCURRENCE MATRIX • Os MAPAS de relações www.TheVantagePoint.com O que é um mapa? ? Auto-Correlation Map • Um mapa é uma visualização de uma análise co-palavras (cotermos) multidimensional • Os mapas mostram as relações entre os itens selecionados Winder W Winder, W. W W. A h (T Author (Top A Authors) h ) Top 100 links shown > 0.75 0.50 - 0.75 0.25 - 0.50 < 0.25 1 (0) 3 (0) 2 (0) 36 (0) Hawley, S. A. Hardie, D. G. Carling, D. Viollet, B. Richter, E. A. Lopaschuk, G. D. Wojtaszewski, J. F. P. Greengard, P. Goodyear, L. J. Witters, L. A. Kemp, B. E. Ruderman, N. B. Saha,, A. K. Stapleton, D. www.TheVantagePoint.com Navegando em um mapa • Todos os mapas têm esquema e navegação semelhante Navigating to raw record • Click on a Ball • Click on a title – The meaning of the ball • Represents item mapped – The meaning of stick • Represents linkage • Similarity Strength Legend – Drop down • Roll over Ball • Double Click to Stick www.TheVantagePoint.com Navegando em um mapa (Continuação) • The Map Menu (Right Click) – Ch Choose Field Fi ld • Changes Dropdown – Add Field to Map p • Makes Fields Available – Zoom – Copy to Clipboard – Export to File – Edit Preferences – On Factor Maps Only • Rename Cluster • Show Cluster Abstract www.TheVantagePoint.com Representações dos mapas de VP • Our Multi-Dimensional Scaling (MDS) algorithm • No meaning associated with X and Y location per se • Proximity suggests association parameter, but on the selected p “exact” representation would require ~N-1 dimensions (where N = # off nodes) d ) – vs. our 2-D 2D • So, we augment with a Patherasing Algorithm Algorithm, reflecting in relative strength of linkage [no line does not mean zero relationship] © 2009 Search Technology, Inc. Tipos de Mapas • Três diferentes tipos de mapas em Sheets>Add Sh t Add Map – Cross-Correlation – Auto-Correlation – Factor www.TheVantagePoint.com Mapa de Correlação cruzada (Cross(Cross Correlation) : O que é? • O Mapa de correlação cruzada mostra como itens selecionados de uma lista se relacionan com itens de outra lista. www.TheVantagePoint.com Como fazer um mapa de correlação cruzada • Steps to making a CrossC Correlation l ti M Map – Create a group t target t list li t in the ((NOTE: Don’t try y to map p everything!) y g) – Using the map command select a Cross-Correlation Map www.TheVantagePoint.com Como fazer um mapa de correlação cruzada... • ….Steps to making a Cross-Correlation Map – Expand the tree on the target field to find your group – Select Next – Select S l t the th list li t ((or group)) tto relate to the target group – click finish hydroxymethylglutaryl coenzyme A reductase kinase adenylate kinase (endogenous compound) Cross-Correlation Map EM TREE Drug Index Terms (Ma Author protein kinase (endogenous compound) Top links shown > 0.75 0.50 - 0.75 0.25 - 0.50 < 0.25 0 (0) 3 (0) 7 (9) 0 (47) adenosine phosphate hydroxymethylglutaryl coenzyme A reductase kinase (endogenous compound) cyclic AMP dependent protein kinase (endogenous compound) glucose cyclic AMP (endogenous compound) insulin cyclic AMP dependent protein kinase protein t i kinase ki C ((endogenous d compound) d) protein kinase C www.TheVantagePoint.com Mapa de Auto- correlação: O que é? • O Mapa de autocorrelação mostra como itens selecionados de uma lista se relacionam entre si www.TheVantagePoint.com Como fazer um mapa de Auto- correlação • Steps to making an Auto-Correlation Map – Create a group in the target list (NOTE: Don’t try to map everything!) – Using the map command select an AutoCorrelation Map www.TheVantagePoint.com Como fazer um mapa de Auto- correlação... Auto-Correlation Map • ….Steps to making an AutoCorrelation Map – Expand the tree on the target field to find your group – Select your group and click finish. Carling D Carling, D. Author (Top Authors) All links shown > 0.75 0.50 - 0.75 0.25 - 0.50 < 0.25 1 (0) 2 (0) 1 (0) 26 (0) Hardie, D. G. Richter, E. A. Winder, W. W. Kemp, B. E. Stapleton, D. Witters, L. A. Lopaschuk, G. D. Goodyear, L. J. Ruderman, N. B. Saha, A. K. www.TheVantagePoint.com Edição do mapa • Title & Detail Windows available • Right-Click on the Map; choose “Edit Edit Preferences” Preferences • Links – experiment for what p most effectively y represents [no “right” way] g & spacing p g • Canvas – resizing quite handy • Fonts – helpful in making clear presentations © 2009 Search Technology, Inc. Vi Visualizações li õ analíticas líti © 2009 Search Technology, Inc. Vi Visualizações li õ analíticas líti © 2009 Search Technology, Inc. Vi Visualizações li õ analíticas líti © 2009 Search Technology, Inc. © 2009 Search Technology, Inc. O mapas cluster Os l t de d Aduna Ad • Aduna Cluster Maps Macro – Alternative Visualization – Java based pp application VantagePoint v7.1 v7 1 – Mapas do mundo © 2009 Search Technology, Inc. www.TheVantagePoint.com Exercício 5 mãos a Massa Visualizações: Vi li õ M Mapa d do mundo d e Matriz Aduna de co co-ocorrência ocorrência www.TheVantagePoint.com Exercício 5 : Visualizações Mapa do mundo e Aduna 1 Faça um Mapa do mondo 1. mondo. a) Com a Lista de paises limpa 2. Faça uma Matriz Aduna de co-ocorrência a) Com a Lista de paises limpa Estas duas visualizações fornecen resultados diferentes diferentes. Você acha que são complementares ou não? que tipo p de necessidades usaria você ? Para q www.TheVantagePoint.com © 2009 Search Technology, Inc. WHAT? A member consortium for users of text textmining, analysis, and visualization software (e.g. VantagePoint). WHY? To build cross-disciplinary networks of analysts, software specialists, and researchers to advance the use of textual information in multiple science, technology, and business development fields HOW? Platforms for collaboration and circulation of research results and case studies; training and tech support.for VantagePoint software VPInstitute.org Home * Body of Knowledge * Discussion Forum * Global TechMining Conference * VP “How-To” How-To * VP Macros * VP Import Filters * VP Thesauri VP Institute: Body of Knowledge Published text-analytic research ▼R ▼Research hE Examples l (269) ►Data Type (70) ▼Research Type (144) •Citation analysis (2) •CTI (4) •Future-oriented technology analysis(10) •Interdisciplinarity(2) •Literature Literature Based Discovery (1) •Network analysis(5) Research evaluation(8) •Research •Research profiling(17) •Science mapping (7) •ST&I indicators (6) •ST&I policy (12) •Strategic Strategic planning(8) •Tech mining (9) VP Institute: Body of Knowledge P bli h d text-analytic Published t t l ti research h “Tag Tag Cloud Cloud” Data Type – Research Type – Research Topic Association Analysis biodiesel biology Biotechnolgy Biotechnology China EBSCOHost Brazil centeredness EiVillage Electric Elect ic Vehicles Europe E o e FIP F French e ch FTA Group G o Support Systems INSPEC ISI WoK ISI WoS life sciences Materials mediametrics MEDLINE multiple p sclerosis Nanotechnology gy Patent data personalization pharma pharmaceuticals Portuguese ProQuest pulp & paper renewable energy Research Profiling SCI science mapping semantic web sensors solar SSCI Technology Neglected Diseases object-based computing Roadmapping WoS Body of Knowledge: Examples • “Trends in nanotechnology patents applied to the health sector” - Instituto Nacional de Propriedade Industrial • “Synthetic Biology: Mapping the Scientific Landscape” Lancaster University • “Applying text-mining to personalization and customization research literature – Who,, what and where?” - Aalto University School of Economics • Nanobiomedical Science in China: A Research Field on the Ri ” Rise” Chinese Academy of Sciences+ • “Predicting Breakthrough Papers: Ranking Statistics, Statistics Patterns, and Visualization” Discovery Logic • “Composing Technology Roadmapping According to Bibliometrics: Hybrid Model and Empirical Study” Beijing Institute of Technology Vantage Point: Help Home * Body of Knowledge * Discussion Forum * Global TechMining Conference * VP “How-To” * VP Macros * VP Import Filters * VP Thesauri VantagePoint Help: Examples • VP “How To” Understanding Structured Data and Regular Expression Webinar – Research Profiling • VP Macros Multidisciplinarity Index (MDI) Calculator Create Thesaurus Macro • Discussion Forum “What is the difference between cross correlation and d auto correlation?” l i ?” “How does stopword syntax work?” VP Institute: Stay Informed FIM • Boa Sorte e aproveitamento! p [email protected] t @ ht h e [email protected] f l @t i www.TheVantagePoint.com