Tema 1

Transcrição

Tema 1
PLN
Análise
Extração
Aplicações
Introdução às tecnologias linguísticas
Pablo Gamallo Otero
Departamento de Língua Espanhola
Universidade de Santiago de Compostela
Matéria: Desenho e desenvolvimento de tecnologias
linguísticas
Mestrado em Linguística e as suas aplicações
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Índice
1
PLN
2
Análise
3
Extração
4
Aplicações
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Índice
1
PLN
2
Análise
3
Extração
4
Aplicações
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Processamento da Língua Natural
Áreas de investigação
Análise automática da língua: tokenização, PoS tagging,
parsing, ...
Extração de informação: entidades (NER), keywords,
multi-palavras, relações semânticas...
Aplicações: tradução automática, síntese/reconhecimento
da fala, recuperação de informação, corretores de língua,
análise do sentimento, resumos automáticos, busca de
respostas, ...
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Processamento da Língua Natural
Metodologia
Linguísticos: métodos baseados em regras, heurísticas, ...
Estatísticos: Machine Learning (métodos supervisados e
não supervisados)
Híbridos: linguístico-estatísticos.
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Índice
1
PLN
2
Análise
3
Extração
4
Aplicações
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Análise do texto
texto
tokenizador e
lematizador
texto tokenizado
léxico e
corpus
etiquetado
etiquetador
(PoS tagger)
gramática ou
corpus
analisado
texto etiquetado
analisador sintáctico
(parser)
texto analisado
analisador semântico
analisador discursivo
representação semântico-discursiva
Tecnologias Linguísticas
Tema 1
modelo do
domínio
PLN
Análise
Extração
Aplicações
Análise do texto
texto
tokenizador e
lematizador
texto tokenizado
léxico e
corpus
etiquetado
etiquetador
(PoS tagger)
gramática ou
corpus
analisado
texto etiquetado
analisador sintáctico
(parser)
texto analisado
analisador semântico
analisador discursivo
representação semântico-discursiva
Tecnologias Linguísticas
Tema 1
modelo do
domínio
PLN
Análise
Extração
Aplicações
Índice
1
PLN
2
Análise
3
Extração
4
Aplicações
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Extração de Informação
Named Entity Recognition (NER)
Entidades Nomeadas: entidades designadas por nomes
próprios e expressões numerais.
Reconhecimento: identificação de entidades mono-lexicais
(Rajoy) e multi-lexicais (Mariano Rajoy, Universidade de
Santiago de Compostela). Melhora a tokenização.
Classificação (NERC): localidades (Vigo), pessoas
(Manuel Rivas), organizações (La Voz de Galicia), etc.
Melhora a análise semântica.
Ambiguidade semântica: La Voz de Galicia pode ser organização ou
entidade informativa
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
NERC
Metodologia
Aprendizagem supervisado: corpus de treino e
classificador
Supervisão distante: listas classificadas (Wikipédia,
DBpédia...)
Demo:
http://fegalaz.usc.es/~gamallo/php/nec/index.php
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Extração de Informação
Keywords
Palavras clave: as mais representativas de um texto.
Método estatístico: comparar frequências das
palavras/lemas no texto contra as frequências dessas
palavras/lemas em corpus de referência.
Entrada: texto tokenizado e lematizado.
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Extração de Informação
Multi-palavras
Multiwords: expressões multi-lexicais (tomar em conta,
núcleo do átomo, ...
Métodos híbridos: padrões de PoS tags
(NOME-PREP-NOME, VERBO-PREP-NOME, etc.) e
medidas estatísticas de associação.
Entrada: texto etiquetado.
Terminologia: construção de glossários de termos.
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Extração de Informação
Relações (ou tripletas)
texto
Manuel Rivas (A Coruña, 1957), escritor e periodista,
actualmente colabora con el diario El País
tripleta
<Manuel Rivas , colabora con, El País>
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Extração de Informação
Relações (ou tripletas)
texto
Manuel Rivas (A Coruña, 1957), escritor e periodista,
actualmente colabora con el diario El País
tripleta
<Manuel Rivas , colabora con, El País>
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Extração de Informação
Relações (ou tripletas)
texto
Manuel Rivas (A Coruña, 1957), escritor e periodista,
actualmente colabora con el diario El País
tripleta
<Manuel Rivas , colabora con, El País>
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Extração de Informação
Relações (ou tripletas)
texto
Manuel Rivas (A Coruña, 1957), escritor y periodista,
actualmente colabora con el diario El País
Mais tripletas
<Manuel Rivas , lugar de nacimiento, A Coruña>
<Manuel Rivas , fecha de nacimiento, 1957>
<Manuel Rivas , es un, escritor>
<Manuel Rivas , es un, periodista>
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Extração de Informação
Relações (ou tripletas)
texto
Manuel Rivas (A Coruña, 1957), escritor y periodista,
actualmente colabora con el diario El País
Mais tripletas
<Manuel Rivas , lugar de nacimiento, A Coruña>
<Manuel Rivas , fecha de nacimiento, 1957>
<Manuel Rivas , es un, escritor>
<Manuel Rivas , es un, periodista>
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Extração de Informação
Relações (ou tripletas)
texto
Manuel Rivas (A Coruña, 1957), escritor y periodista,
actualmente colabora con el diario El País
Outras tripletas
<El País , es un, diario>
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Extração de Informação
Relações (ou tripletas)
texto
Manuel Rivas (A Coruña, 1957), escritor y periodista,
actualmente colabora con el diario El País
Outras tripletas
<El País , es un, diario>
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Extração de tripletas
Metodologia
Estratégias híbridas com informação linguística e
estatística.
Análise sintáctica de dependências para melhorar a
extração.
Open Information Extraction: conjunto aberto de relações.
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Índice
1
PLN
2
Análise
3
Extração
4
Aplicações
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Aplicações do PLN
Análise do sentimento / Minaria de opiniões
Milhões de tweets diários expressam opiniões ou
sentimentos sobre produtos, pessoas, marcas,
empresas...
O sistema estándard de análise do sentimento de um
texto devolve:
POSITIVO, NEGATIVO ou NEUTRO
Interesse para empresas e organizações: vigilância
tecnológica, seguimento dos competidores, etc.
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Análise do sentimento
Dificuldades
@coleghi los de Ataque Escampe tocan fatal y cantan una
mierda, pero me gustan que carallo :D
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Análise do sentimento
Dificuldades
@coleghi los de Ataque Escampe tocan fatal y cantan una
mierda, pero me gustan que carallo :D
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Análise do sentimento
Dificuldades
@coleghi los de Ataque Escampe tocan fatal y cantan una
mierda, pero me gustan que carallo :D
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Análise do sentimento
Dificuldades
@coleghi los de Ataque Escampe tocan fatal y cantan una
mierda, PERO me gustan que carallo :D
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Aplicações do PLN
Busca de respostas / Question&Answering
À diferença dos motores de busca (Recuperação de
Informação) que mostram um grande número de
documentos relevantes, os sistemas de
Question-Answering devem devolver respostas concisas,
que podem ser frases extraídas de documentos ou frases
construídas/geradas.
Método: Compreensão da pergunta realizada e busca da
resposta em grandes bases de dados (Linked Data) ou/e
em grandes coleções de documentos (PLN).
O sistema mais conhecido: Watson, de IBM.
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Linked Data
Figura: Repositórios do projecto Linked Data
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
Watson no jogo televisivo Jeopardy
Tecnologias Linguísticas
Tema 1
PLN
Análise
Extração
Aplicações
ONTOpedia Search
http://fegalaz.usc.es/ontopediaweb
Tecnologias Linguísticas
Tema 1

Documentos relacionados

PROCESSAMENTO NATURAL DA LINGUAGEM E

PROCESSAMENTO NATURAL DA LINGUAGEM E Informação, no sentido de identificar ferramentas que facilitem a recuperação e representação da informação, para identificação dos itens lexicais recorrentes em grandes volumes de textos. O objeti...

Leia mais