Por que Tech Mining? - Wiki do Vantage Point

Transcrição

Por que Tech Mining? - Wiki do Vantage Point
Palestra
"Contribuições do Text-Mining para a pesquisa“
O caso dos
d bi
biomateriais
t i i e engenharia
h i d
de ttecidos
id medicos
di
Fernando Palop
Recife, 16 maio 2014
www.TheVantagePoint.com
Conteúdo
1. Introdução ao Tech Mining
1
2. Vantage Point, VP, um software para fazer Tech Mining
3. Primeiros indo com VP. Fontes de informaçao, buscas, download
dos dados.
4. Importaçao em VP
5. As Listas
6. Limpeza dos dados & campos / grupos
7 O Análise com Listas,
7.
Listas Matrizes e Mapas
8. Matrizes de co-ocurrencias
9. Mapas de relaçoes
10. Os Relatorios com os resultados
Anexo: VP Institute
www.TheVantagePoint.com
Desenvolvimento do Workshop / Seminario
1. Os assistentes devem p
participar
p com seus laptops
p p em uma
proporção aproximada de um computador para cada dois
assistentes.
2 Os computadores devem ter conexão de internet wi-fi
2.
wi-fi, a fim de
facilitar a instalação de software. Por esta razão, embora o
workshop terá início às 2:00pm, meia hora antes será fornecido aos
assistentes apoio para a instalação
instalação.
3. O tempo do workshop: metade do tempo de conceitos e outro meia
de exercícios.
4. No final do workshop, Para aqueles que querem continuar a mais,
alguns exercícios adicionais e tutoriais por e-mail serão fornecidos
para usar o software até a data de vencimento em 7 de setembro
setembro.
www.TheVantagePoint.com
Por que Tech Mining?
• Bem-vindo à era da
informação demais.
• Precisamos tratar:
o texto como dados
para g
p
ganhar inteligência.
g
•Mineração de recursos de
informação de CT & I para
responder a perguntas de
gestão de tecnologia
= Tech Mining.
www.TheVantagePoint.com
Mas se queremos usar toda esta
informação o que vamos fazer?
informação,
• Mudar a nossa perspectiva sobre a
informação baseada em texto.
• Ficar
Fi
llonge d
de nossa ""necessidade
id d d
de ller““
• Tratar o
texto como DADOS
• Use técnicas de mineração de dados –
”data mining”- para analisar o texto
www.TheVantagePoint.com
O processo de text mining
Fonte: Porter, A. L.
www.TheVantagePoint.com
Tech Mining precisa – 6 tipos de informação
Informação técnica
A. Bancos de dados CT&I
(Ciencia Tecnologia &
(Ciencia,
Inovação)
(ex : ISI WoS,
(ex.:
WoS Medline,
Medline
Micropatents, Scielo)
B Fontes na Internet
B.
(ex., Googling)
C. Perícia Técnica
Informação
o ação do contexto
co te to
D. Negócios,
concorrência cliente
concorrência,
cliente,
b. de d. de conteúdo
de política (e.g.,
(e g LexisLexis
Nexis, Factiva)
E Fontes da Internet
E.
(ex., blogs, website
“profiling”)
profiling )
F. Perícia em negócios
Fonte: Porter, A. L.
www.TheVantagePoint.com
MOT Issues, Questões & Indicadores de inovação
13 MOT Issues
39 MOT Questions
~200 Innovation Indicators
WHAT?
•
1.
2.
3.
4.
5.
6.
 Mapping of topic clusters within
th technology
the
t h l
 3-D trend charts for topic
clusters
 Ratio of conference to journal
papers (benchmarked)
 Scorecard rate-of-change
metrics for topic clusters
 Time slices to show evolution of
topical emphases
 Topic
op c growth
g o t modeling
ode g (S-curve)
(S cu e)
fit & extrapolation
•
•
•
•
•
R&D Portfolio
M t
Mgt
R&D Project
Initiation
Engr Project
Initiation
New Product
Development
Strategic
Planning,
etc.
etc
What’s hot?
Fit into tech landscape?
Drivers?
Competing technologies?
Likely development paths?
etc.
MOT=Gestão
MOT
Gestão de questões de tecnologia
Fonte: Porter, A. L.
WHO?
 Pie chart: Company vs.
Academic vs. Government
publishing
 Topical main players
players’ profiles
 Spreading (or constricting) # of
players by topic
Escopo
El abordagem de MOT nos ajuda a definir o
escopo
www.TheVantagePoint.com
Tech Mining Ancestry:
Bibliometria, Cienciometria, Informetria e Webometria
Possibilidades de aplicação das técnicas bibliométricas, cientométricas,
informétricas e webométricas:
 identificar as tendências e o crescimento do conhecimento em uma área;
 identificar as revistas do núcleo de uma disciplina;
 mensurar a cobertura das revistas secundárias;
 identificar os usuários de uma disciplina;
 prever as tendências de publicação;
 estudar
d a di
dispersão
ã e a obsolescência
b l
ê i d
da liliteratura científica;
i ífi
 prever a produtividade de autores individuais, organizações e países;
 medir o g
grau e p
padrões de colaboração
ç entre autores;
 analisar os processos de citação e co-citação;
 determinar o desempenho dos sistemas de recuperação da informação;
 avaliar os aspectos estatísticos da linguagem,
linguagem das palavras e das frases;
 avaliar a circulação e uso de documentos em um centro de documentação;
 medir o crescimento de determinadas áreas e o surgimento de novos
temas.
Gilda Massari Coelho
Tech Mining: Dez Passos
1. Especificar questões em gestão (ou política) da tecnologia e como
responder a elas para serem abordadas através de análise
empírica de "inteligência tecnológica"; (MOT e indicadores)
2. Obter acesso a dados adequados; Briefing + Microocultura
3. Buscar (Iteração) e recuperar registros de resumos de fontes de
C&T, bancos de patentes, etc.;
4. Fazer importação das informações
f
para o software
f
de mineração
de textos (Vantage Point);
5. Limpar os dados (removendo ambigüidades relativas a
pesquisadores, entidades, etc.);
6. Analisar e gerar "indicadores de inovação" que focalizem as
questões alvo;
7. Visualizar (matrizes e mapas);
8. Integrar estas análises empíricas com pesquisas na internet e
opinião de especialistas;
9. Resumir, interpretar, recomendar e comunicar; (multi-dimensional!)
10 Padronizar
P d i
i t
ti
di
t sempre que
10.
e semi-automatizar
procedimentos
possível.
© 2009 Search Technology, Inc.
Etapas usuais do Text Mining
Definição do
tema de estudo
Busca em
bases de dados
Análise
automática
Text Mining
Definição
das bases
para busca
Download
dos dados
Relatórios
preliminares
Definição da
estratégia
de busca
Reformatação
Análise dos dados
dados.
Integrar pesquisas Internet
e opinião de especialistas
Relatorio
fi l
final
Adaptado de Gilda Massari Coelho
Q competências
Que
p
são fundamentais para
p
fazer Tech Mining em seu ambiente?
1 A familiaridade com o assunto técnicamente
1.
2. Pesquisar em banco de dados e técnicas de interpretação
3. Habilidades analíticas em Tech mining
4 Familiaridade
4.
F ili id d com os usuários
á i e suas necessidades
id d
5. Habilidades de representação
p
ç e comunicação
ç
www.TheVantagePoint.com
Q e o VantagePoint?
Que
V t
P i t?
VantagePoint é um
desktop software de
“desktop”
mineração de textos –text
mining para descoberta de
miningconhecimento em
praticamente qualquer
banco de dados de texto
estruturado.
VantagePoint é um analisador, analisa os dados. Precisa que nós
fornecemos os dados
www.TheVantagePoint.com
Por que precisamos de uma ferramenta como
esta?
• Buscamos o conhecimento utilizável
á
de recursos de
informação de Ciência, Tecnologia & Inovação (CT & I)
• La
L Inteligência
I t li ê i Competitiva
C
titi Técnica
Té i (CTI) resultante
lt t
informa várias decisões de Gestão de a Tecnologia (MOT)
[do setor privado e público e acadêmico "perfiles
perfiles da
pesquisa" ]
• "Tech
Tech Mining"
Mining é o nosso processo para obter apoio útil à
decisão do MOT, principalmente através da análise e
representação do conhecimento derivado de pesquisas
em publicaçãoes de P & D e bancos de dados de patentes
www.TheVantagePoint.com
Como funciona o VP?
1. Buscar a informação nos bancos de dados textuais
estruturados.
2. Baixar os resultados da busca.
3. Importar os resultados da busca para o VantagePoint.
4. Usar o VantagePoint para descobrir padrões nos
res ltados da busca.
resultados
b sca
Bancos de
d d online
dados
li
Download
Importar
Resultados da
busca
Analisar
www.TheVantagePoint.com
The List
Cooccurrence
Mapping
pp g
Drill Down
List
Comparison
Relator
R
rio
Fuzzy
M t hi
Matching
Thesaurus
Grouping
p g
Manual
Editing
Análisse
RegEx
P tt
Pattern
Matching
Entity
E t ti
Extraction
NLP
Limpez
L
za
Imp
portaçã
ão
O conjunto de Ferramentas do
VantagePoint
g
Visualizations
Export
Reader
Macros
Automação
www.TheVantagePoint.com
O conjunto
j t de
d ferramentas
f
t do
d VantagePoint
V t
P i t
VantagePoint
g
tem diversos
instrumentos para ajudar a
analisar um texto:
– Reformatação de dados
– Thesaurus
– Scripts para emissão de
relatórios
– Ferramenta de importação
adaptável a centenas de
bases de dados
www.TheVantagePoint.com
Oq
que é p
possível fazer com o VantagePoint?
g
•
•
•
•
•
Analisar a informação
Mapear relacionamentos
Identificar tendências
Desenvolver indicadores
Automatizar a análise
• Descobrir o conhecimento
www.TheVantagePoint.com
Dados textuais estruturados (campos)
Exemplo de
um registro
bruto
• Campo
• Delimitado
• Estruturado
www.TheVantagePoint.com
Que tipos
Q
p de p
perguntas
g
se p
poden responder
p
com o VP?
Quem??
Quem
Onde??
Onde
O que?
que?
Quando??
Quando
Como? e por quê? – Exigen colaboraçao com os especialistas
em interpretar os dados
d d
www.TheVantagePoint.com
Mineraçao para o qué?
Padrãos ((+ “p
pepitas
p
de ouro”))
Use Bibliometria dos Co-termos / estatística de coocorrências
ê
para encontrar relações
õ
• Contar o número de vezes as palavras aparecem
j t em um conjunto
juntas
j t d
de d
documentos
t
• Quanto maior a co-ocorrência, mais forte a relação
potencial
Termo 1
Termo 2
www.TheVantagePoint.com
Fontes de informação eletrônica e de pesquisa.
A mudança de foco de mineração de textos.
Faça
ç o “download” e importação
p
ç de dados na ferramenta de
análise Vantage Point.
“R
“Records”
d ” / Registros.
R i t
www.TheVantagePoint.com
A busca
b
• Onde buscar
– Any Structured Text Databases
• Dialog, STN, Micropatent,
Excel etc
Excel,etc...
• Como buscar
– usando as interfaces de busca
padronizados
• Estratégia de Busca
- Inclusive / Lançe uma ampla rede
• Baixe os resultados da
pesquisa
– Cuanto mais campos, melhor
• ISI WoS – formato completo
• STN – IALL or ALL
www.TheVantagePoint.com
On-line Data Sources
Cambridge Scientific Abstracts
Delphion Dialog
EBSCOHost
EBSCOHost Ei Engineering Village
Custom Data
Factiva
ISI Web Of Knowledge
Lexis Nexis
Micropatent
Ovid
Patbase
Questel‐Orbit
SilverPlatter STN
Thomson Innovation
Databases
Aerospace
Art Abstracts
Biobase
Biological Abstracts
Biological Sciences
Biosis
Biotechno
Business & Industry
CAPlus (AnaVist export)
Cassis
CBNB
Claims
Computer & Info Systems
Corrosion
Current Contents
Derwent Biotech Abstracts
Derwent Biotech Abstracts
Derwent Innovations Index
Derwent World Patent Index
Ei Compendex
EMBase
EnCompass Literature
EnCompass Literature
EnCompass Patents
Energy
EnergySciTech
Engineering Materials Abstr Envr Sci & Pollution Mgmt
Envr Sci & Pollution Mgmt ERIC
EuroPat FamPat Comma/tab delimited tables
Microsoft Excel and Access
SmartCharts
XML
Record/Field Tools
Focust Food Sci & Tech
Foodline Market
Foodline Science
Forege Frosti FSTA
Gale PROMT
GeoRef Global Reporter
IFIPAT
IFIUDB
INPADOC
INSPEC
IPA
ISD
ITRD
JAPIO
JICST
Kosmet
LGST
MATBUS
Medline
METADEX
Mgmt and Org Studies
Micropatent Materials
Micropatent Materials
Mobility
NSF Awards
NTIS
Pascal
Patent Citation Index
PCT
PCTPAT
Phin
Pira
Pluspat
PROMT
PsycINFO
PubMed
p
Rapra Recent Refs
Reference Manager
Science Citation Index
SciSearch
Scopus
Tech Research
ToxFile Transport
USApps
USPat
USPat Waternet
WaterResAbs
Web of Science
WeldaSearch Wisdomain
Wisdomain Combine duplicate records
Remove duplicate records
Create “frankenrecords”
(merge records from
dissimilar sources)
Classify records
Merge fields
Clean up fields
Apply thesauri
A wealth of
diverse
information
sources for
innovation
management
g
VantagePoint Filters and Tools
www.TheVantagePoint.com
Os operadores booleanos
são o padrão
OR
AND
NOT
www.TheVantagePoint.com
Importante não esquecer a qualidade dos
resultados da busca. Lembre!:
Fiabilidade,
Pertinência,
Exaustividade
www.TheVantagePoint.com
A mudança de foco de mineração de textos
Abordagem
tradicional
• Leitura seqüencial
dos artigos limitada
pelo tempo
p
p
disponível.
• Apenas aqueles que
parece mais
i
relevantes (Em
primeiro lugar nos
resultados da
pesquisa?)
p
q
)
www.TheVantagePoint.com
A mudança de foco de mineração de textos
Abordagem tradicional
Difícil abordar a tempo as novos conhecimentos
emergentes (acesso a sinais precoces)
Vain ser muitas vezes relegados dentro resultados
da busca
www.TheVantagePoint.com
A mudança
d
d
de foco
f
de
d mineração
i
ã de
d ttextos
t
Acesso transversal
ao conhecimento.
Uma nova forma de
leitura.
• O processo de importação, que converte o
texto para dados converte os campos em listas
www.TheVantagePoint.com
Recursos de “AJUDA” para
trabalhar com o Vantage Point
•As fichas em Vantage Point HELP
•O Guia do usuário de Vantage Point
•Os recursos de VantagePoint Analyst
Analyst´s
s
Guide, ex.: How to videos
www.TheVantagePoint.com
Ajudas em VantagePoint
A Guia do usuário em
formato PDF está incluída
com cada instalação
VantagePoint.
g
.
VP Help : Ajuda on-line
também está disponível a
partir do interior
VantagePoint.
VantagePoint
Ajuda é sensível ao
contexto q
quando você
pressiona F1
www.TheVantagePoint.com
Guia do análista VantagePoint
VantagePoint inclui um guia
do análista – VP Analyst’s
Analyst s
Guide- com uma coleção
de orientações
ç
e
demonstrações (videos,
podcasts,...) de várias
técnicas analíticas.
www.TheVantagePoint.com
Guia do usuário VantagePoint
VantagePoint
inclui uma
completa Guia
do Usuário de
236 páginas:
- VP User’s
G id
Guide-.
www.TheVantagePoint.com
Recursos “On-Line” / Visit downloads Page
”downloads” …
• Import Filters
/
p
• Macros/Scripts
• Tesaurus
• Fuzzy Match
Regals
Desde mesmo VP ou
precisa User ID e
senha!
www.TheVantagePoint.com
VP “Readerpara
p
compartilhar
p
os resultados dentro da organização
g
ç
Disponível sem
custo
t para
organizações
que usam a
licença Vantage
Point.
Sujeito aos
termos e
condições
especificadas na
sua instalação.
www.TheVantagePoint.com
Exercício 1
Importação de dados
Visualizations
Export
Reader
M
Macros
Repo
ort
The List
Cooccurrence
Mapping
M
apping
Drill Down
List
C
i
Comparison
Analyz
A
ze
Fuzzy
M hi
Matching
Thesaurus
Grouping
Manual
Editing
Clea
an
Impo
ort
RegEx
P
Pattern
Matching
Entity
Extraction
NLP
Automation
www.TheVantagePoint.com
Exercício mãos a Massa
I
Importação
t ã de
d dados
d d
www.TheVantagePoint.com
Importação de dados
• Iniciar VantagePoint
Importação de Dados Brutos
Selecione a opção "insulin-pubmed-2001on.txt"
Arquivo está localizado no diretório SampleData /
VantagePoint
• Use a configuração de formato “PUBMED-Medline”
I
Importe
t todos
t d os campos não-secundários
ã
dá i
Salve o arquivo de VantagePoint
com o nome de "insulina"
insulina
www.TheVantagePoint.com
Os três ferramentas analíticas essenciais do
VantagePoint
As "listas" de dados sobre uma variável ou campo
A "matriz" de co-ocorrências
Os mapas
p de relações
ç
www.TheVantagePoint.com
Listas
Trabalhando os campos (“fields”) com
“Li t ”
“Lists”
www.TheVantagePoint.com
Os três ferramentas analíticas
g
essenciais do VantagePoint
• LIST
• A MATRIZ de coocorrência
• Os MAPAS
www.TheVantagePoint.com
A Lista / The List
• Registros de textos
estruturados
t t d contêm
tê
campos.
• Estes
E t campos contêm
tê
informações como o
nome do autor
autor,
palavras-chave para
descrever os
documentos, etc...
www.TheVantagePoint.com
A Lista / The List
• O processo de
importação que
converte o texto em
dados, converte os
campos em listas
www.TheVantagePoint.com
A Lista
Li t / The
Th List
Li t
• Listas mostrar-lhe
todos os itens em
um campo
especial em todos
os registros no
conjunto
importado.
– # Records /
registros
– # Instances /
i tâ i
instâncias
www.TheVantagePoint.com
A Lista / The List
• Creating Lists
– From the Menu
• Sheets/Add List
– From the
Button
– From the Summary Sheet
• Navigating
g
g within List
– Slider
– Sort
– Finding Item(s)
• Edit/Find (Ctrl-F)
– Getting to the raw records
www.TheVantagePoint.com
Trabalhando com Listas
•
Renaming Fields
– Fields/Rename Field
•
D li i
Duplicating
– Fields/Copy Field
•
Deleting
g
– Fields/Delete Field
•
Merging Fields
– Fields/Merge Fields
•
Copying and Pasting
– Edit/Copy (Ctrl-C)
•
G
Groups
– Group/Edit Groups (Ctrl-G)
– Creating/Adding/Removing
www.TheVantagePoint.com
Usos analíticos de os Listas
¿Quem?
¿O que?
¿Onde?
¿Quando?
www.TheVantagePoint.com
Vistas de detalhe / Detail Views
• Detail Views allow you
to view sub-lists for
any selected items in
the main list
• Selecting within Detail
Views highlights
associated titles
• You can open as many
detail views as needed
• Expectancy Arrows
www.TheVantagePoint.com
Criar Sub-Conjunto
Sub Conjunto de dados / Create Sub-Data
Sub Data Set
• Criar novo conjunto de
dados (Arquivo / Criar
Sub-Dataset) permite
criar novos conjuntos
j
de
dados a partir de um
grupo ou uma seleção
• Registros com itens
excluídos ou registros
ignorados não serão
incluídos em o novo
conjunto de dados
www.TheVantagePoint.com
Exercício 2
Limpeza
Visualizations
Export
Reader
M
Macros
Repo
ort
The List
Cooccurrence
Mapping
M
apping
Drill Down
List
C
i
Comparison
Analyz
A
ze
Fuzzy
M hi
Matching
Thesaurus
Grouping
Manual
Editing
Clea
an
Impo
ort
RegEx
P
Pattern
Matching
Entity
Extraction
NLP
Automation
www.TheVantagePoint.com
Limpeza y formatando
Data Cleaning
&
Trabalhando com
campos / Fields
Fi ld e
grupos / Groups
www.TheVantagePoint.com
Limpe seus dados
• Como você já deve ter notado por agora, são
principalmente fazendo análise estatístico de textos
textos.
Garbage
G
b
In
I = Garbage
G b
Out
O t/
Lixo dentro = lixo para fora
• Dados precisan ser limpos antes de executar sua análise.
• Você também pode achar que uma limpeza adicional ou
manipulação de dados é necessária como você conduz a
sua análise.
• VantagePoint tem vários dados diferentes
f
ferramentas
f
de
manipulação de limpeza / dados.
www.TheVantagePoint.com
Remoção duplicados / Duplicate Removal
Remoção
ç de duplicados
p
(Tools/Combine/Remove Duplicate Records)
elimina todos menos um registro que
coinciden com os critérios especificados
www.TheVantagePoint.com
Li
Limpeza
d listas
das
li t / List
Li t Cleanup
Cl
Small differences in the data
can distort results
Li Cleanup
List
Cl
(Fields/List
Fi ld /Li
Cleanup) helps remove:
• Misspellings
• Hyphenation
• Capitalization
• Different Styles
Cleaned data can be saved as
a thesaurus
th
List Cleanup produces a new
list It does not change the
list.
original list.
www.TheVantagePoint.com
Thesaurus
Th
Os Thesaurus
(Fields/Thesaurus)
ajuda a reduzir e
categorizar os
dados.
Como com “List
Cleanup”, executar
um Thesauri cria
uma nova lista.
www.TheVantagePoint.com
G
Grupos
/ Groups
G
• Grupos permitem
categorizar o conteúdo
de campo
• Os grupos podem ser
criados manualmente,
manualmente
semi manualmente ou
automaticamente
• Check/X/Blank toggle
• Find/Select All
• Groups
G
using
i SStemming
i
And/Or
www.TheVantagePoint.com
Gestão do grupos
•
O comando “Edit Groups”
(Groups/Edit Groups) permite que
você gerencie seus grupos
• Create new groups
• Delete groups
• Change state of entire group
• Reorder Groups
• Rename Groups
www.TheVantagePoint.com
“List
List Cleanup”/Thesauri/Grupos
Cleanup /Thesauri/Grupos
estão relacionados
e ac o ados
Note que durante a limpeza de lista, você pode salvar a sua limpeza
como um tesauro. Você também pode transformar seus grupos em
um tesauro. E você pode transformar seu tesauro em grupos.
Estas
E
t três
t ê funções
f
õ relacionadas
l i
d são
ã projetados
j t d para permitir
iti que
você substitua o conteúdo dentro do banco de dados VP com algo
mais apropriado para a sua análise.
• “List Cleanup” depende do software (Fuzzy Matching)
p
de conhecimento codificado p
pré-gravadao
g
• Thesaurus depende
(Thesauri)
• Groups rely on you the user (Manual Changes) Grupos
d
dependen
d d
de você,
ê o usuário,
á i ((as alterações
lt
õ manuais)
i )
www.TheVantagePoint.com
Exercício 2 mãos a Massa
Li
Limpeza
d dados
dos
d d
www.TheVantagePoint.com
Limpeza dos dados
• Usando o arquivo Workshop: "DSSC-4104-WOS for
newmans.vpt"
• Campo “Countries”, fazemos uma Lista dos paises
O que mantém a sua atenção? Está tudo bem?
• Limpe o campo usando a “General.fuz" algoritmo de
ló i dif
lógica
difusa
www.TheVantagePoint.com
Exercício 2
1. Limpe o campo “Countries”
2 Realice
2.
R li alguma
l
lilimpeza d
de la
l lista
li
com List
Li Cleanup
Cl
(por exemplo, tente com “general.fuz” neste campo)
3 Aplique
3.
A li
t b
tambem
um Tesaurus
T
(
(por
exemplo,
l ttentar
t
“Country.the" neste campo;)
Que tipo de diferenças percebe você agora entre a
Li t Li
Lista
Limpa e a iinicial?
i i l?
Que diferenças entre a limpeza com um Tesaurus e
com a List
Li t Cleanup
Cl
© 2009 Search Technology, Inc.
www.TheVantagePoint.com
Exercício 3 mãos a Massa
Criando Grupos
manualmente e com
Thesaurus
www.TheVantagePoint.com
Exercício 3
1. Criar manualmente um Grupo com as cinco
primeiras
i i
empresas por publicações.
bli
õ
2. Criar automaticamente grupos de empresas,
universidades
i
id d e centros
t
d
de pesquisa
i d
do governo
usando AcadCorpGov.the Thesaurus
Que tipo de diferenças percebe você agora entre as
d fformas de
dos
d ttrabalho?
b lh ?
© 2009 Search Technology, Inc.
www.TheVantagePoint.com
Mesclar campos / Merge Fields
• Under Fields – Merge Fields
• Combine content of multiple
fi ld as desired
fields
d i d
© 2009 Search Technology, Inc.
Incremental Import (Import More Fields)
Incremental Import
p ((Fields/Import
p
More Fields) allows you to bring in
fields which are not already
imported
[Check for Secondary Fields too]
Import Filter file is stored with the
data; it can be replaced
•Change
Dataset
Ch
D t
t Properties
P
ti
•Change Database Configurations
•Select Database Name and click
“Replace Database”
•Browse to find desired filter;
select; click “OK”
•Say “Yes” to Reassign; click
“OK”; click “OK”
•You
You can now choose fields this
filter accesses
© 2009 Search Technology, Inc.
Analisando dados
Automation
Visualizations
Export
Reader
M
Macros
Repo
ort
The List
Cooccurrence
Mapping
M
apping
Drill Down
List
C
i
Comparison
Analyz
A
ze
Fuzzy
M hi
Matching
Thesaurus
Grouping
Manual
Editing
Clea
an
Impo
ort
RegEx
P
Pattern
Matching
Entity
Extraction
NLP
Os três ferramentas analíticas
g
essenciais do VantagePoint
• A LISTA
• A MATRIZ de cocoocorrência
• Os MAPAS
www.TheVantagePoint.com
Di
Direcionando
i
d a informação.
i f
ã Campos
C
e grupos.
Matrizes
• A LISTA
• A MATRIZ de cocoocorrência
• Os MAPAS
www.TheVantagePoint.com
A matriz
t i de
d co-ocorrência
ê i
Item A
Item B
Item C
Field 2
Field 1
F
• A matriz de co-ocorrência
mostra a relação numérica
entre
t dois
d i campos.
• É a forma mais simple de
d d bibli
dados
bibliométricos
ét i
copalavras / termos.
• Com
C
a matriz
ti d
de coocorrência, você pode ver
a relação entre um campo
e qualquer outro campo
It
Item
X
3
0
2
Item Y
0
7
0
Item Z
0
4
2
www.TheVantagePoint.com
Criando uma matriz de
co-ocorrência
• From the Menu
– Sheets/Add Matrix
• From the
Button
www.TheVantagePoint.com
Navegando na matriz de coco
ocorrência
• The functions within Cooccurrence include
–
–
–
–
Sorting
Re Sort
Re-Sort
Flooding
G tti to
Getting
t the
th Raw
R
Record
– Painting
– Copying/Pasting
• Edit/Copy
www.TheVantagePoint.com
Usos analíticos de
matrizes de co-ocorrência
Quem/Onde?
Onde/O
O
de/O qué
qué?
Quem/Quando?
etc…….
www.TheVantagePoint.com
Visualização de matrizes de co-ocorrência:
co ocorrência:
“Matrix Viewer”
www.TheVantagePoint.com
Visualização de matrizes de co-ocorrência :
Script “Matrix Viewer”
Controles:
• Layout Select a layout style in the drop-down box.
• Pause When viewing a force directed layout, push to stop
calc lations and pa
calculations
pause
se the animation
animation. P
Push
sh again to res
resume.
me
• Export to file Export the graph in JPG, PNG, or BMP format.
• Select node Click an item to list its titles.
• Drag Left-click and drag a node to move it around.
• Pan Left-click and drag the background to pan the display view.
• Zoom Right-click and drag the mouse up or down or use the scroll
wheel to zoom the display view.
• Zoom-To-Fit Right-click once to zoom the display to fit the whole
graph.
www.TheVantagePoint.com
Visualização de matrizes de co-ocorrência
co ocorrência : Script Aduna
www.TheVantagePoint.com
Exercício 4 mãos a Massa
C
Co-ocorrência
ê i
www.TheVantagePoint.com
Exercício 4 : Matrizes
1 Faça uma Matriz - atravessa combinações interessantes
1.
interessantes.
a) Faça um grupo (por exemplo, "Top 10") em um campo
[por exemplo,
[p
p , filiação
ç ((“Author Affiliations”)]
)] cruzada
contra um campo tópico "Top 10" do grupo [por exemplo
“Abstract (NLP) (Phrases) + Title (NLP) (Phrases)
(Cleaned).
b) Tome "Top 10" Autores por Categorias dos topicos
c) Cruze Ano de Publicação com outro campo
(possivelmente apenas para um grupo superior)
g
, escolher uma matriz de interesse. Mostre como
2. Em seguida,
você pode "minar" a matriz para obter uma visão útil.
Relatório.
www.TheVantagePoint.com
© 2009
Search Technology, Inc.
Os três ferramentas analíticas
g
essenciais do VantagePoint
• A LISTA
• A MATRIZ de
co ocorrência
co-ocorrência
• Os MAPAS
www.TheVantagePoint.com
Mapas tecnológicos e científicos.
p
Macros y Scripts.
• The LIST
• The CO-OCCURRENCE
MATRIX
• Os MAPAS de relações
www.TheVantagePoint.com
O que é um mapa?
?
Auto-Correlation Map
• Um mapa é uma
visualização de uma
análise co-palavras (cotermos) multidimensional
• Os mapas mostram as
relações entre os itens
selecionados
Winder W
Winder,
W. W
W.
A h (T
Author
(Top A
Authors)
h )
Top 100 links shown
> 0.75
0.50 - 0.75
0.25 - 0.50
< 0.25
1 (0)
3 (0)
2 (0)
36 (0)
Hawley, S. A.
Hardie, D. G.
Carling, D.
Viollet, B.
Richter, E. A.
Lopaschuk, G. D.
Wojtaszewski, J. F. P.
Greengard, P.
Goodyear, L. J.
Witters, L. A.
Kemp, B. E.
Ruderman, N. B.
Saha,, A. K.
Stapleton, D.
www.TheVantagePoint.com
Navegando em um mapa
• Todos os mapas têm esquema e navegação
semelhante
Navigating to raw record
• Click on a Ball
• Click on a title
– The meaning of the ball
• Represents item mapped
– The meaning of stick
• Represents linkage
• Similarity Strength Legend
– Drop down
• Roll over Ball
• Double Click to Stick
www.TheVantagePoint.com
Navegando em um mapa (Continuação)
• The Map Menu (Right Click)
– Ch
Choose Field
Fi ld
• Changes Dropdown
– Add Field to Map
p
• Makes Fields Available
– Zoom
– Copy to Clipboard
– Export to File
– Edit Preferences
– On Factor Maps Only
• Rename Cluster
• Show Cluster Abstract
www.TheVantagePoint.com
Representações dos mapas de VP
• Our Multi-Dimensional Scaling
(MDS) algorithm
• No meaning associated with X
and Y location per se
• Proximity suggests association
parameter, but
on the selected p
“exact” representation would
require ~N-1 dimensions (where
N = # off nodes)
d ) – vs. our 2-D
2D
• So, we augment with a Patherasing Algorithm
Algorithm, reflecting in
relative strength of linkage
[no line does not mean zero
relationship]
© 2009 Search Technology, Inc.
Tipos de Mapas
• Três diferentes tipos de
mapas em Sheets>Add
Sh t Add
Map
– Cross-Correlation
– Auto-Correlation
– Factor
www.TheVantagePoint.com
Mapa de Correlação cruzada (Cross(Cross
Correlation) : O que é?
• O Mapa de correlação
cruzada mostra como
itens selecionados de
uma lista se relacionan
com itens de outra lista.
www.TheVantagePoint.com
Como fazer um mapa de correlação cruzada
• Steps to making a CrossC
Correlation
l ti M
Map
– Create a group
t
target
t list
li t
in the
((NOTE: Don’t try
y to map
p everything!)
y
g)
– Using the map command
select a Cross-Correlation
Map
www.TheVantagePoint.com
Como fazer um mapa de correlação cruzada...
• ….Steps to making a
Cross-Correlation Map
– Expand the tree on the
target field to find your
group
– Select Next
– Select
S l t the
th list
li t ((or group)) tto
relate to the target group
– click finish
hydroxymethylglutaryl coenzyme A reductase kinase
adenylate kinase (endogenous compound)
Cross-Correlation Map
EM TREE Drug Index Terms (Ma
Author
protein kinase (endogenous compound)
Top links shown
> 0.75
0.50 - 0.75
0.25 - 0.50
< 0.25
0 (0)
3 (0)
7 (9)
0 (47)
adenosine phosphate
hydroxymethylglutaryl coenzyme A reductase kinase (endogenous compound)
cyclic AMP dependent protein kinase (endogenous compound)
glucose
cyclic AMP (endogenous compound)
insulin
cyclic AMP dependent protein kinase
protein
t i kinase
ki
C ((endogenous
d
compound)
d)
protein kinase C
www.TheVantagePoint.com
Mapa de Auto- correlação: O que é?
• O Mapa de autocorrelação mostra
como itens
selecionados de uma
lista se relacionam
entre si
www.TheVantagePoint.com
Como fazer um mapa de Auto- correlação
• Steps to making an Auto-Correlation Map
– Create a group
in the target list
(NOTE: Don’t try to map everything!)
– Using the map command
select an AutoCorrelation Map
www.TheVantagePoint.com
Como fazer um mapa de Auto- correlação...
Auto-Correlation Map
• ….Steps to making an AutoCorrelation Map
– Expand the tree on the target
field to find your group
– Select your group and click
finish.
Carling D
Carling,
D.
Author (Top Authors)
All links shown
> 0.75
0.50 - 0.75
0.25 - 0.50
< 0.25
1 (0)
2 (0)
1 (0)
26 (0)
Hardie, D. G.
Richter, E. A.
Winder, W. W.
Kemp, B. E.
Stapleton, D.
Witters, L. A.
Lopaschuk, G. D.
Goodyear, L. J.
Ruderman, N. B.
Saha, A. K.
www.TheVantagePoint.com
Edição do mapa
• Title & Detail Windows
available
• Right-Click on the Map;
choose “Edit
Edit Preferences”
Preferences
• Links – experiment for what
p
most effectively
y
represents
[no “right” way]
g & spacing
p
g
• Canvas – resizing
quite handy
• Fonts – helpful in making
clear presentations
© 2009 Search Technology, Inc.
Vi
Visualizações
li
õ analíticas
líti
© 2009 Search Technology, Inc.
Vi
Visualizações
li
õ analíticas
líti
© 2009 Search Technology, Inc.
Vi
Visualizações
li
õ analíticas
líti
© 2009 Search Technology, Inc.
© 2009 Search Technology, Inc.
O mapas cluster
Os
l t de
d Aduna
Ad
• Aduna Cluster
Maps Macro
– Alternative
Visualization
– Java based
pp
application
VantagePoint v7.1
v7 1 – Mapas do mundo
© 2009 Search Technology, Inc.
www.TheVantagePoint.com
Exercício 5 mãos a Massa
Visualizações:
Vi
li
õ
M
Mapa d
do mundo
d
e Matriz Aduna de co
co-ocorrência
ocorrência
www.TheVantagePoint.com
Exercício 5 : Visualizações Mapa do mundo e
Aduna
1 Faça um Mapa do mondo
1.
mondo.
a) Com a Lista de paises limpa
2. Faça uma Matriz Aduna de co-ocorrência
a) Com a Lista de paises limpa
Estas duas visualizações fornecen resultados diferentes
diferentes.
Você acha que são complementares ou não?
que tipo
p de necessidades usaria você ?
Para q
www.TheVantagePoint.com
© 2009
Search Technology, Inc.
 WHAT? A member consortium for users of text
textmining, analysis, and visualization software (e.g.
VantagePoint).
 WHY? To build cross-disciplinary networks of
analysts, software specialists, and researchers to
advance the use of textual information in multiple
science, technology, and business development
fields
 HOW? Platforms for collaboration and circulation of
research results and case studies; training and tech
support.for VantagePoint software
VPInstitute.org
Home * Body of Knowledge * Discussion Forum * Global TechMining Conference * VP
“How-To”
How-To * VP Macros * VP Import Filters * VP Thesauri
VP Institute: Body of Knowledge
Published text-analytic research
▼R
▼Research
hE
Examples
l (269)
►Data Type (70)
▼Research Type (144)
•Citation analysis (2)
•CTI (4)
•Future-oriented technology analysis(10)
•Interdisciplinarity(2)
•Literature
Literature Based Discovery (1)
•Network analysis(5)
Research evaluation(8)
•Research
•Research profiling(17)
•Science mapping (7)
•ST&I indicators (6)
•ST&I policy (12)
•Strategic
Strategic planning(8)
•Tech mining (9)
VP Institute: Body of Knowledge
P bli h d text-analytic
Published
t t
l ti research
h
“Tag
Tag Cloud
Cloud”
Data Type – Research Type – Research Topic
Association Analysis biodiesel biology Biotechnolgy Biotechnology
China EBSCOHost
Brazil centeredness
EiVillage Electric
Elect ic Vehicles Europe
E o e FIP F
French
e ch FTA Group
G o
Support Systems INSPEC ISI WoK
ISI WoS life sciences Materials
mediametrics MEDLINE multiple
p sclerosis
Nanotechnology
gy
Patent data personalization
pharma pharmaceuticals Portuguese ProQuest pulp & paper renewable energy Research
Profiling SCI science mapping semantic web sensors solar SSCI Technology
Neglected Diseases object-based computing
Roadmapping WoS
Body of Knowledge: Examples
• “Trends in nanotechnology patents applied to the health
sector” - Instituto Nacional de Propriedade Industrial
• “Synthetic Biology: Mapping the Scientific Landscape” Lancaster University
• “Applying text-mining to personalization and
customization research literature – Who,, what and where?”
- Aalto University School of Economics
• Nanobiomedical Science in China: A Research Field on the
Ri ”
Rise”
Chinese Academy of Sciences+
• “Predicting Breakthrough Papers: Ranking Statistics,
Statistics
Patterns, and Visualization”
Discovery Logic
• “Composing Technology Roadmapping According to
Bibliometrics: Hybrid Model and Empirical Study”
Beijing Institute of Technology
Vantage Point: Help
Home * Body of Knowledge * Discussion Forum * Global
TechMining Conference * VP “How-To” * VP Macros * VP
Import Filters * VP Thesauri
VantagePoint Help: Examples
• VP “How To”
 Understanding Structured Data and Regular
Expression
 Webinar – Research Profiling
• VP Macros
 Multidisciplinarity Index (MDI) Calculator
 Create Thesaurus Macro
• Discussion Forum
 “What is the difference between cross correlation
and
d auto correlation?”
l i ?”
 “How does stopword syntax work?”
VP Institute: Stay Informed
FIM
• Boa Sorte e aproveitamento!
p
[email protected]
t @
ht h
e [email protected]
f l @t i
www.TheVantagePoint.com

Documentos relacionados