Baixar o PDF

Transcrição

Baixar o PDF
Simpósio Brasileiro de Bancos de Dados - SBBD 2012
Short Papers
Extrator de fatos relacionados ao tráfego
1,2
1,2
2
Fabio da Costa Albuquerque , Felipe Coimbra Bacelar , Ximena Alexandra Cabrera Tapia , Marcelo Tílio
1
Monteiro de Carvalho
1
2
Tecgraf, PUC-Rio, Rio de Janeiro, Brasil
Departamento de Informática, PUC-Rio, Rio de Janeiro, Brasil
{falbuquerque,fbacelar,xtapia}@inf.puc-rio.br, [email protected]
Abstract. With the increasing use of the Web, data are created and consumed by a large number of people and agents.
Recently, social networking started to play an important role in this scenario, where many users share data, forming a large
knowledge base. This work aims at extracting facts relevant to traffic from Twitter, chosen as a case study, through the
analysis of sentences written in Portuguese. Among the relevant facts contained in the text, we may emphasize traffic
intensity and the occurrence of an accident at a given location. The proposed solution is divided into two steps. The first
step is responsible for recognizing relevant entities in the text. The second step receives the recognized entities and
interprets the text extracting facts considered relevant to the application.
Resumo. Com o crescente uso da Web, dados são criados e consumidos por uma grande quantidade de pessoas e agentes.
Recentemente, as redes sociais passaram a desempenhar um papel importante nesse cenário, onde muitos usuários
compartilham dados, formando uma grande base de conhecimento. Esse trabalho tem como objetivo a extração de fatos
relevantes ao tráfego a partir do Twitter, escolhido como estudo de caso, através da análise de frases escritas em português.
Dentre os fatos relevantes contidos no texto, pode-se destacar a intensidade do tráfego e a ocorrência de algum acidente
em um determinado local. A solução proposta é dividida em duas etapas. A primeira etapa é responsável por identificar as
entidades relevantes no texto. A segunda etapa recebe as entidades identificadas e interpreta o texto para a efetiva extração
dos fatos relevantes à aplicação.
Categories and Subject Descriptors: H. Information Systems [H.m. Miscellaneous]: Databases
Keywords: Machine Learning, Structure Text Data, Named Entity Recognition, Information Extraction.
1. INTRODUÇÃO
Monitorar os eventos que acontecem em uma cidade e seus impactos não é uma tarefa simples, pois
requer um grande esforço físico e financeiro, se pensarmos numa solução com câmeras espalhadas
pela área a ser monitorada. Por outro lado, com o crescente uso da Web, dados são criados e
consumidos por uma grande quantidade de pessoas e agentes a todo instante. Recentemente, as redes
sociais passaram a desempenhar um importante papel nesse cenário, onde muitos usuários
compartilham dados, formando uma grande base de conhecimento.
Este trabalho concentra-se no Twitter como estudo de caso devido ao seu grande número de
usuários, sua grande capacidade de geração de dados e por sua consolidação no mercado. Em mais
detalhe, este trabalho descreve uma aplicação que recupera os tweets de uma determinada lista de
perfis e interpreta as sentenças encontradas para saber a situação do trânsito e a ocorrência de alguns
eventos de interesse, caracterizando um monitoramento de baixo custo e de origem colaborativa. Os
perfis mencionados são de caráter governamental e privado (empresas) e publicam informações
relativas ao tráfego. O exemplo mostrado na Fig. 1 representa o tweet: “Av Maracanã, sentido Centro,
tem trânsito intenso na altura da R São Rafael, por causa de obra na via. #zonanorte”, que foi
169
Simpósio Brasileiro de Bancos de Dados - SBBD 2012
Short Papers
Fig. 1. Exemplo de um tweet do usuário @OperacoesRio
publicado em 26/03/2012 por uma fonte governamental (@OperacoesRio). A figura ressalta as partes
da frase que são relevantes ao monitoramento do trânsito.
O uso de um programa convencional baseado em regras e condições pré-programadas é muito
custoso para resolver o problema em questão. Por exemplo, Endarnoto et al. (2011) propõem uma
solução baseada em templates para extrair os fatos de interesse e seus respectivos locais de ocorrência
de mensagens que possuem um formato comum sem muita variedade gramatical. Em contrapartida, o
cenário endereçado neste trabalho trata de sentenças com uma grande variedade gramatical. Para fazer
face à variedade gramatical, produzir um resultado aceitável e minimizar o custo de manutenção e
atualização da aplicação, esse trabalho propõe uma solução baseada em Inteligência Artificial usando
técnicas de processamento de linguagem natural e aprendizado de máquina.
Este trabalho está estruturado da seguinte forma. A seção 2 apresenta a decomposição do problema e
as abordagens utilizadas para resolvê-lo. A seção 3 destaca a modelagem do problema em aprendizado
de máquina, o tratamento feito nos dados e os atributos extraídos. A seção 4 descreve o corpus
utilizado na avaliação da solução proposta, os algoritmos utilizados e os resultados obtidos.
Finalmente, a seção 5 apresenta a conclusão e uma discussão sobre trabalhos futuros.
2. ABORDAGEM ADOTADA
2.1
DECOMPOSIÇÃO DO PROBLEMA
O problema foi decomposto em duas tarefas: (i) identificar e anotar as entidades relevantes no texto;
(ii) interpretar o texto, extraindo fatos relevantes, utilizando as entidades encontradas. A primeira
tarefa está relacionada ao problema de reconhecimento de entidades nomeadas (REN), e a segunda
tarefa ao problema de extração de informação (EI).
O problema de reconhecimento de entidades nomeadas já é bastante difundido na literatura [Nadeau
et al. 2007], inclusive no contexto do uso do Twitter como fonte de dados. Ritter et al. (2011) propõem
uma abordagem para reconhecimento de entidades usando o Twitter, chamando a atenção para gírias
utilizadas na Internet. Jung (2012) também usa o Twitter como estudo de caso.
A tarefa de extração de informação consiste em identificar e extrair de um documento determinadas
informações ou detalhes. Extração de informação é importante, por exemplo, no contexto de sistemas
de pergunta e resposta, onde se deve reconhecer em uma base de dados ou textos a informação
solicitada pelo usuário, e para sistemas de sumarização automática, nos casos em que o sumário a ser
produzido é focado em eventos ou conceitos descritos no texto [Mani e Bloedorn 1998].
170
Simpósio Brasileiro de Bancos de Dados - SBBD 2012
Short Papers
2.2
ENTIDADES NOMEADAS
Este trabalho utiliza a seguinte lista de entidades, onde a descrição é seguida do tipo da entidade e dos
seus respectivos objetivos:
• Local (LOC): Indica um local georeferenciável. Pode ser um país, estado, cidade, bairro, um
ponto de referência ou qualquer tipo de logradouro. Também inclui prédios e construções como
aeroportos, shoppings, etc. Como nome de uma rua pode-se usar como exemplo “Rua Marquês de
São Vicente”, onde todas essas palavras são utilizadas como local. Os pontos de referência que
indicam algum lugar no espaço também devem ser anotados como local, Nesse cenário destacamse as informações sobre um quilômetro específico de uma estrada, a saída de alguma via ou algum
local conhecido, como por exemplo “km 135”, “saída 5” ou “Praça Santos Dummont”.
• Ponto de referência (REF_N): Representa proximidade com outro local mais específico para
aumentar a precisão da localização. Essa entidade serve como ligação de um local principal com
um local secundário que, como dito anteriormente, serve para aumentar a precisão do local
desejado. Palavras que indicam proximidade e aumentam a precisão da localização principal são
utilizadas como referência.
• Direção da pista (DIR_N): Indica a direção ou sentido do fluxo. Uma informação sobre um
acidente em determinada via expressa que possui duas direções não é completa. As palavras que
representam essa entidade expressam a direção do fluxo de tráfego atingida por um fato ou
intensidade de trânsito. Por exemplo, a partir da direção do fluxo, é possível saber qual pista da
rua está sendo atingida. Assim como a entidade REF_N, a entidade DIR_N serve como ligação de
um local principal com um local secundário, onde o local secundário deverá indicar o destino da
pista afetada.
• Ambas as pistas (DIR_NS): Indica a ocorrência nos dois fluxos. Essa entidade deve ser utilizada
para representar palavras que expressam um fato ou intensidade do trânsito nos dois sentidos (em
ambas as pistas) de uma via.
• Co-referência (COREF_LOC): Indica uma coreferência ao local principal. Em alguns casos um
mesmo local pode ser alvo de vários acontecimentos, como um fato que tem como consequência
um trânsito lento. Nesse cenário, a entidade tem como objetivo referenciar o local principal do
acontecimento primário.
• Local restritivo (ABSL_N): Indica um local que tem o objetivo de restringir uma área geográfica
para um determinado local primário. Essa entidade serve como ligação de um local principal com
um local secundário, indicando um local restritivo para o local primário. Geralmente essas
entidades indicam o bairro ou cidade de uma determinada rua ou local.
• Intensidade do tráfego (TR_INT): Representa a intensidade do tráfego. O conjunto de palavras
anotadas por essa entidade deve ser orientado pelas condições de tráfego de um determinado local.
A classificação da intensidade do tráfego (e.g. bom, intenso, lento) pode ser medida através do uso
de um conjunto de palavras reservadas ou um mecanismo mais genérico que utilize os recursos
disponíveis na Web (e.g. WordNet).
• Fato (FACT): Indicam acontecimentos gerais que causam algum impacto no tráfego. Em geral
são relacionados a interdições, acidentes, colisões, atropelamentos ou emergências em geral. As
palavras associadas a essa entidade devem ser suficientes para exprimir um fato relevante ao
tráfego que cause alguma mudança no estado normal da via.
• Término de um fato (OPEN): Indica o fim de um fato. Pode ser a remoção de um veículo
acidentado, a liberação de uma via, a retirada de uma árvore caída após forte chuva, etc. As
palavras associadas a essa entidade geralmente são verbos que estão no passado.
171
Simpósio Brasileiro de Bancos de Dados - SBBD 2012
Short Papers
•
Outros (O): Entidades sem relevância para o problema. Deve ser utilizada quando a palavra em
questão não suprir nenhum dos requisitos anteriores.
Um problema muito comum no reconhecimento de entidades nomeadas é identificar onde começa e
termina uma entidade, pois uma entidade pode ser composta por uma ou mais palavras. Dando um
exemplo real, vamos usar o seguinte conjunto de palavras “Praça Santos Dumont”. Nesse exemplo,
partimos da premissa que o sistema identifica como entidade LOC as palavras “Praça Santos”, mas
erra a extremidade final ao ignorar “Dumont”, classificando-a como uma entidade do tipo Outros.
Em um caso como este, classificamos "Praça Santos" como uma predição positiva incorreta (falso
positivo) e classificamos "Dumont" como uma predição negativa incorreta (falso negativo). Desta
forma, uma única entidade gera dois registros incorretos apenas por falhar na definição da extensão de
suas extremidades. Na seção 4.2 esse tipo de avaliação é chamada de “conjunto de tokens”.
2.3
EXTRAÇÃO DE INFORMAÇÃO
Esse trabalho modela o resultado esperado do problema de extração de informação como uma árvore
de dependência, onde cada nó da árvore corresponde a uma entidade relevante (ER), que representa o
conjunto de todas as entidades utilizadas nesse trabalho, com exceção de entidades do tipo Outros. As
arestas entre pai e filho da árvore representam uma relação de dependência entre as entidades. A
estruturação das notícias em forma de árvore facilita seu uso em diversas aplicações (e.g.
georreferenciar e associar os locais aos fatos), onde cada aresta representa uma possível relação de pai
para filho entre duas entidades. A Fig. 2 ilustra as restrições de relacionamento entre entidades criadas
nesse trabalho. A construção dessas restrições levou em conta as características de cada entidade. O
tipo ROOT apenas corresponde à raiz da árvore e não representa uma entidade.
Fig. 2. Restrições de relacionamento entre entidades relevantes
3. MODELAGEM
Esta seção discute a engenharia de atributos adotada para cada um dos problemas apresentados nas
seções 2.2 e 2.3.
Algoritmos na área de aprendizado de máquina tipicamente não recebem texto propriamente dito
como entrada. Para utilizar texto nesses algoritmos é necessário converter as palavras em uma
estrutura chamada saco de palavras (Bag of Words) [Lewis 1998] [Maron 1961], onde é criada uma
representação vetorial para as palavras.
Para aumentar a qualidade do resultado das tarefas de aprendizado de máquina propostas, neste
trabalho foram desenvolvidos alguns geradores de atributos, com o objetivo de extrair informações
adicionais sobre cada objeto de entrada. Na literatura, esses atributos são conhecidos como features.
172
Simpósio Brasileiro de Bancos de Dados - SBBD 2012
Short Papers
3.1
ATRIBUTOS - RECONHECIMENTO DE ENTIDADES
Nessa tarefa, cada token possui um conjunto de características que são utilizadas pelo mecanismo de
aprendizado de máquina para definir sua entidade. Consideramos Xi = {X1, X2, …, Xn} ∈ T, tal que T
é a lista de tokens de uma notícia. As variações possíveis de X são: (Wi) Word - Indica a palavra do
token i ; (SWi) Simplified Word - Indica a palavra do token i simplificada (minúsculo, sem caracteres
especiais e remove as letras ou números de tamanho 1) ; (POSi) Part-of-Speech - Indica o Part-ofSpeech do token I ; (LOCi) Location - Indica se a palavra do token i é uma localização ou não ;
(STWi) - Indica o radical da palavra presente no token i.
Segue-se a lista dos geradores de atributos utilizados no reconhecimento de entidades:
CurrT(X) – Token corrente; Xi.
PrevT(X, N) – Representa os N tokens anteriores ao índice corrente, onde cada token representa
um atributo; Xi - 1 , …, Xi - N .
NextT(X, N) – Representa os N tokens posteriores ao índice corrente, onde cada token representa
um atributo; Xi + 1, …, Xi + N .
CurrWSC – Indica se Wi começa com letra maiúscula e não possui nenhuma outra maiúscula;
Ex.1: Avenida - true; Ex.2: AveniDa – false.
LocType – Indica se a Wi lowercased é um indicador de logradouro; Xi ∈ {av, avs, avenida,
avenidas, est, estrada, estradas, r, rua, ruas}.
•
•
•
•
•
3.2
ATRIBUTOS - EXTRAÇÃO DE INFORMAÇÃO
Nessa tarefa cada notícia (um Tweet) é transformada em um grafo direcionado que possui N nós, onde
cada nó é representado por uma entidade relevante. O número de arestas possíveis é |N|2-|N| e cada
aresta representa um par de entidades relevantes, onde A -> B indica que A é pai de B. Cada relação
entre duas entidades possui um conjunto de atributos, que são utilizados por algoritmos de
aprendizado de máquina para aprender sobre a natureza dos relacionamentos. Consideramos Yi = {Y1,
Y2, …, Yn} ∈ ENT, tal que ENT é a lista de entidades presentes na notícia. As variações de Y são:
(W) Word - Indica as palavras de Yi ; (SW) Simplified Word - Indica as palavras de Yi simplificadas ;
(RE) Ruler Entity - Indica a entidade nomeada de Yi, caso não seja uma ER o POS é utilizado ; (NE)
Named Entity - Indica a entidade nomeada de Yi, é ignorada caso não seja uma ER ; (PUNCT)
Punctuation - Indica se existe pontuação.
Segue-se a lista dos geradores de atributos utilizados na extração de informação:
• PossRel – Indica se o par de entidades pode ter uma relação de dependência.
• ConcT (Y) – Representa as palavras de Yi -> Yj concatenados.
• BetT (Y) – Representa todos os tokens presentes no intervalo Yi , Yj.
• NearT (Y, N) – Representa os tokens no intervalo N, onde: Yi - 1, …, Yi - N;Yj - 1 , …, Yj – N ;Yi + 1,
…, Yi + N ; Yj + 1, …, Yj + N . Conta como um único atributo, separado pelo caractere “_”.
• AbsLocPair – Indica se existe relação entre as entidades A -> B, onde A = {ABSL_N} e B =
{LOC}, caso contrário nenhum valor é utilizado.
• MetaWithLoc – Indica se existe relação entre as entidades A -> B, onde A = {REF_N ou
DIR_N} e B = {LOC}.
173
Simpósio Brasileiro de Bancos de Dados - SBBD 2012
Short Papers
4. AVALIAÇÃO
4.1
CORPUS
Esta seção discute os procedimentos empregados para a construção do corpus utilizado ao longo dos
experimentos apresentados na seção 4.2.
Como foi explicado na seção 1, os dados para as análises feitas nesse trabalho foram retirados do
Twitter. Como uma primeira versão, foram selecionadas duas fontes de dados, que são equivalentes a
dois usuários do Twitter, para extração das notícias referentes ao tráfego e suas causas. Os usuários
selecionados foram: @operacoesrio e @odia24horas. Essas duas fontes de dados possuem
características de publicar notícias somente do Rio de Janeiro, na sua grande maioria relativa ao
tráfego (cerca de 90%), e com uma escrita mais formal sem muitas gírias ou vícios de linguagem da
internet. Com isso, é garantida a construção de uma base com notícias de um determinado tipo, para
que em outra etapa do projeto outras fontes de dados, não necessariamente relativas ao tráfego, sejam
consumidas e interpretadas.
A preparação do corpus foi dividida nas seguintes etapas: (a) extrair os tokens de cada frase; (b)
definir a característica morfossintática de cada token; (c) associar cada token a uma entidade; (d)
estabelecer as relações de dependência entre as entidades. Para executar os passos (a) e (b), foi feito
um procedimento automático, utilizando o mecanismo proposto por Mota et al. (2010). O passo (c)
inicialmente foi feito automaticamente por um programa com algumas regras e posteriormente
verificado por uma pessoa. O processo de anotação foi guiado pelas diretrizes da seção 2.2. Para
diminuir o tempo gasto nesse procedimento, trocamos esse algoritmo pelo próprio mecanismo de
identificação de entidades baseado em aprendizado de máquina, utilizando 100 sentenças com suas
entidades anotadas. Como resultado, houve uma diminuição no tempo de verificação de duas horas e
meia para uma hora, para avaliar 100 sentenças. O passo (d) foi feito manualmente através de uma
interface gráfica para auxiliar na visualização da relação de dependência. Os passos (c) e (d) foram
feitos utilizando as diretrizes das seções 2.2 e 2.3, caracterizando-se anotações gold por terem sido
feitas por uma pessoa. O corpus atual possui um total de 475 notícias anotadas, com uma média de
23,5 tokens por notícia. A Tabela I mostra a relação entre entidades e tokens presente no corpus. A
Tabela II mostra informações do corpus sobre o ponto de vista das árvores de dependência.
Tabela I. Números sobre a relação entre entidades e tokens
Entidade
ABSL_N
COREF_LOC
DIR_N
DIR_NS
FACT
LOC
O
OPEN
REF_N
TR_INT
Total
Token a token
105
107
316
114
492
2898
6045
71
258
737
11158
Entidade completa
104
107
311
46
243
1461
6045
64
255
393
9039
Tabela II. Estatísticas sobre as árvores
Arestas
Combinações
Combinações reduzidas
Conectadas
Nº de arestas possíveis
24652
8325
2992
Relativo ao total
100,00%
33,60%
12,10%
Relativo ao total reduzido
297,00%
100,00%
36,00%
174
Simpósio Brasileiro de Bancos de Dados - SBBD 2012
Short Papers
4.2
RESULTADOS
Para a medição dos resultados, foi utilizada a técnica de validação cruzada ten-fold. O corpus foi
dividido em dez partes iguais e testado dez vezes, onde em cada teste uma parte é usada no conjunto
de teste e as outras nove são usadas no conjunto de treino. Após a execução dos dez testes, o resultado
das medidas de qualidade são uma média entre o resultado de todas as dez execuções. As medidas de
qualidade utilizadas foram: accuracy, recall, precision, f-measure, desvio padrão da f-measure.
Para o reconhecimento de entidades, foi utilizado o weka (http://www.cs.waikato.ac.nz/ml/weka) na
versão 3.6.5. O algoritmo que apresentou o melhor resultado dentre vários testados foi a
implementação SMO [Platt 1998] da família SVM. Para a extração da árvore de dependência foi
utilizada uma implementação (https://github.com/eraldoluis/Large-Margin-Structured-Perceptron)
que: (i) utiliza o algoritmo marge largin structured perceptron para calcular um peso para cada aresta,
formando um grafo direcionado com peso nas arestas; (ii) encontra a árvore geradora máxima no grafo
direcionado [Chu e Liu 1965][Edmonds 1967]. Todos os testes foram executados em um computador
com processador Core i3 de 2.13 GHz e 4GB de memória RAM.
Os resultados presentes na Tabela III foram obtidos em 952,3 segundos, utilizando o seguinte
conjunto de features apresentado na seção 3.1: CurrT(W), CurrT(SW), CurrT(STW) PrevT(W, 2),
NextT(W, 2), PrevT(STW, 1), NextT(STW, 1), PrevT(POS, 2), CurrT(POS), NextT(POS, 2),
LocType, CurrWSC.
Os resultados presentes na Tabela IV foram obtidos em 10,04 segundos com redução de arestas e
23,96 segundos sem redução de arestas, utilizando o seguinte conjunto de features apresentado na
seção 3.2: PossRel, ConcT(NE), ConcT(W), BetT(RE), BetT(W), BetT(NE), NearT(RE,3),
NearT(W,2), NearT(NE,2), AbsLocPair, MetaWithLoc, BetT(PUNCT).
Tabela III. Melhor resultado para o reconhecimento de entidades
Entidades
ABSL_N
COREF_LOC
DIR_N
DIR_NS
FACT
LOC
O
OPEN
REF_N
TR_INT
Média
Acc
99,85
99,96
99,58
99,99
98,60
98,07
95,58
99,82
99,81
99,54
99,09
Token a token
Prec
Recall
82,91
85,91
98,73
97,56
95,56
90,37
100
98,75
88,17
80,83
96,15
96,32
95,25
96,74
97,5
85,95
97,43
92,92
96,66
96,7
94,84
92,21
F1
83,99
98,1
92,68
99,33
83,91
96,22
95,98
90,83
94,92
96,65
93,26
D.P. F-1
4,93
2,6
8,33
2
5,5
1,36
0,90
9,13
4,3
2,56
4,16
Conjunto de tokens (por extremidade)
Acc
Prec
Recall
F1
D.P. F-1
95,46
100
95,46
97,56
3,5
97,56
100
97,56
98,73
1,94
89,41
99,71
89,53
93,94
7,33
92,5
93,33
95
94
18
39,69
64,52
51,49
55,72
12,83
83,75
92,6
89,61
91,04
3,55
97,44
100
96,44
98,70
0,58
79,2
91,75
83,58
86,07
17,3
92,01
100
92,01
95,62
4,79
87,04
95,09
90,86
92,7
6,5
85,41
93,69
88,25
90,41
7,63
Tabela IV. Melhores resultados para a árvore de dependência
Redução de arestas
NÃO
SIM
Acurácia por aresta
92,68
93,16
Acurácia por exemplo
69,38
73,37
Desvio padrão da acurácia por exemplo
9,45
8,41
5. CONCLUSÃO E TRABALHOS FUTUROS
Esse trabalho propôs um mecanismo para estruturação de notícias relacionadas ao tráfego sem a
utilização de regras pré-definidas ou templates, apenas baseado em aprendizado de máquina, com o
objetivo de identificar e relacionar as informações relevantes dentro do contexto do tráfego, como
informações sobre o estado do trânsito, acidentes, interdições e seus respectivos locais de ocorrência.
175
Simpósio Brasileiro de Bancos de Dados - SBBD 2012
Short Papers
Utilizando o corpus construído para esse trabalho, o mecanismo apresentou uma F-Measure média
para o reconhecimento de entidades por extremidades de 90,41% e uma acurácia de acerto por árvore
de 73,37%, mediante o uso de redução de arestas que contribui para reduzir o número de
possibilidades de conexão entre as arestas. Observando a Tabela III, o resultado do reconhecimento da
classe FACT mostrou-se abaixo do esperado, que era 70%, enquanto que os outros resultados
mostraram-se satisfatórios. Seu baixo resultado é justificado pelo tamanho do corpus que é muito
pequeno, e abre precedentes para: (i) aumentar o tamanho do corpus, triplicando seu tamanho atual;
(ii) testar o uso de novas features com o objetivo de ajudar a identificação possíveis acontecimentos
(e.g. lista de verbos, conjunções).
As técnicas apresentadas podem ser estendidas a fontes de dados de natureza diferente, não sendo
restritas apenas ao Twitter. Um dos próximos passos do trabalho será testar a abordagem proposta com
tweets de usuários comuns. O canal @LeiSecaRJ por exemplo, possui uma série de tweets com gírias e
excesso de abreviações.
Outro trabalho futuro será diminuir o esforço na construção do corpus utilizando técnicas de
aprendizado ativo (active learning), onde existem várias técnicas para otimizar a construção do
corpus. No nosso caso planejamos utilizar a técnica de extrair de um repositório muito maior de
notícias dessa natureza, com cerca de 35.000 notícias, as instâncias onde o classificador indicar uma
baixa margem de diferença de porcentagem entre duas entidades, ou seja, priorizando a adição de
instâncias que causam “dúvida” na caixa preta de classificação, fazendo com que o esforço manual
seja direcionado para exemplos com alto grau de incerteza. Por outro lado, pode-se usar técnicas de
aprendizado não-supervisionado, para diminuir o custo da criação e manutenção de um corpus
específico para o problema. Outro objetivo futuro seria fazer uso da entidade Data, que não foi
utilizada nesse trabalho devido ao seu baixo número de ocorrências no corpus construído.
O resultado desse trabalho será utilizado para georreferenciar os fatos e intensidade do tráfego
através de seus locais associados, utilizando as informações adicionais desses locais para aumentar a
precisão durante o processo de georreferenciamento [Albuquerque et al. 2012].
REFERENCES
ALBUQUERQUE F. DA C., B ARBOSA I., C ASANOVA M. A., C ARVALHO M. T.. HIGH PRECISION G EORREFERENCING OVER
STRUCTURED DATA. S UBMITTED FOR PUBLICATION , 2012.
C HU, Y. J., LIU, T. H. (1965). ON THE SHORTEST ARBORES-CENCE OF A DIRECTED GRAPH. S CIENCE S INICA(14), 1396--1400.
M OTTA, E. N. , FERNANDES, E. R., MILIDIÚ , R. L.. F-EXT-2.0: A WEB SERVICE FOR NATURAL LANGUAGE P ROCESSING. IN:
PROPOR 2010, SOFTWARE DEMONSTRATION , PORTO ALEGRE, RS, B RAZIL , APRIL 27-30, 2010.
EDMONDS, J. (1967). OPTIMUM BRANCHINGS. J OURNAL OF R ESEARCH OF THE NATIONAL B UREAU OF STANDARDS(71B), 233-240.
ENDARNOTO S. K., PRADIPTA S., NUGROHO A. S., P URNAMA J.: TRAFFIC C ONDITION INFORMATION EXTRACTION &
VISUALIZATION FROM SOCIAL MEDIA TWITTER FOR ANDROID MOBILE APPLICATION , P ROC. OF 3RD INTERNATIONAL
C ONFERENCE ON ELECTRICAL ENGINEERING AND INFORMATICS (ICEEI 2011), CDROM H3-5, INSTITUT TEKNOLOGI B ANDUNG,
B ANDUNG, INDONESIA, J ULY 17-19, 2011
JUNG J. J., ONLINE NAMED ENTITY RECOGNITION METHOD FOR MICROTEXTS IN SOCIAL NETWORKING SERVICES: A CASE STUDY OF
TWITTER , EXPERT S YSTEMS WITH A PPLICATIONS, V OLUME 39, ISSUE 9, J ULY 2012, PAGES 8066-8070, ISSN 0957-4174,
10.1016/J.ESWA.2012.01.136. ( HTTP://WWW. SCIENCEDIRECT .COM/ SCIENCE / ARTICLE/PII /S0957417412001546)
LEWIS, D. D.. NAIVE (BAYES) AT FORTY : THE INDEPENDENCE ASSUMPTION IN INFORMATION RETRIEVAL . P. 4{15. SPRINGER
VERLAG, 1998.
M ARON, M. E.. AUTOMATIC INDEXING : AN EXPERIMENTAL INQUIRY. J. ACM, 8:404{417, JULY 1961. 3.3
M ANI, I. AND B LOEDORN E. (1998). M ACHINE LEARNING OF G ENERIC AND USER -FOCUSED S UMMARIZATION. IN P ROCEEDINGS OF
THE FIFTEENTH N ATIONAL C ONFERENCE ON A RTIFICIAL INTELLIGENCE AAAI’98, PP . 821-826.
NADEAU, DAVID AND SEKINE , S. (2007) A S URVEY OF NAMED ENTITY R ECOGNITION AND C LASSIFICATION. IN: S EKINE, S. AND
R ANCHHOD, E. NAMED ENTITIES: RECOGNITION, CLASSIFICATION AND USE . SPECIAL ISSUE OF LINGVISTICÆ INVESTIGATIONES.
30(1) PP. 3-26.
P LATT , J. C. (1998). FAST TRAINING OF SUPPORT VECTOR MACHINES USING SEQUENTIAL MINIMAL OPTIMIZATION. IN B.
SCHÖLKOPF, C. B URGES, & A. S MOLA (EDS.). ADVANCES IN KERNEL METHODS: S UPPORT VECTOR MACHINES, C AMBRIDGE, MA:
MIT P RESS.
R ITTER A., C LARK S., M AUSAM , AND ETZIONI O. NAMED ENTITY R ECOGNITION IN TWEETS: AN EXPERIMENTAL S TUDY.
SUBMITTED, 2011.
176

Documentos relacionados