Classificação textual de atos de fala para atores - drama

Transcrição

Classificação textual de atos de fala para atores - drama
Dino Raffael Cristofoleti Magri
Classificação textual de atos de fala para atores virtuais
utilizando aprendizagem de máquina
Joinville
2012
Dino Raffael Cristofoleti Magri
Classificação textual de atos de fala para atores virtuais
utilizando aprendizagem de máquina
Relatório de Trabalho de Conclusão de Curso
(TCC) apresentado ao Curso de Graduação em
Ciência da Computação, da Universidade do Estado de Santa Catarina (UDESC), como requisito
parcial da disciplina de Trabalho de Conclusão de
Curso.
Orientador: Profo Rogério Eduardo da Silva
Joinville
2012
Dino Raffael Cristofoleti Magri
Classificação textual de atos de fala para atores virtuais
utilizando aprendizagem de máquina
Relatório de Trabalho de Conclusão de Curso
(TCC) apresentado ao Curso de Ciência da Computação da UDESC, como requisito parcial para a
obtenção do grau de BACHAREL em Ciência da
Computação.
Aprovado em
BANCA EXAMINADORA
Profo Rogério Eduardo da Silva
Profo Cristiano Damiani Vasconcellos
Profo Milton Roberto Heinen
“É um tanto divertido fazer o impossível”
– Walt Disney (1901-1966)
“A resposta à questão sobre a Vida, o
Universo e Tudo mais é 42”
– Douglas Adams, em O guia do mochileiro das galáxias
Agradecimentos
Agradeço minha família e namorada pela paciência, amor e carinho, que tiveram
durante essa fase, sempre incentivando e acreditando no meu trabalho. Ao professor orientador, amigo e mentor Rogério Eduardo da Silva pela contribuição no desenvolvimento
deste projeto e também pelas ótimas discussões construtivas. Ao grupo Colméia e o
coletivo MuSA que possibilitaram um aprendizado constante e grandes amizades.
Resumo
Este trabalho apresenta um estudo para a classificação textual de atos de fala
utilizando processamento de linguagem natural e métodos de aprendizagem de máquina.
Cada texto foi classificado em uma de cinco possíveis classes dos atos ilocutórios utilizando
aprendizagem de máquina para aprender com as críticas. O sistema proposto define a
utilização da análise léxica, sintática e semântica no processamento da linguagem natural.
Para a classificação automática foi desenvolvido um novo algoritmo. Para o escopo e o
conjunto de testes escolheu-se utilizar três falas de uma cena do filme Os IncríveisTM .
Demonstrou-se que com esta abordagem, a classificação automática apresentou um
melhor desempenho do que o puramente aleatório em relação à classificação manual.
Palavras-chave: Agentes Inteligentes, Processamento de Linguagem Natural, Aprendizagem de Máquina, Atos de Fala
Abstract
This paper presents a study on text classification of speech acts using natural
language processing and machine learning methods. Each text was classified into one of
five possible classes of illocutionary acts using machine learning to learn from criticism.
The proposed system defines the use of lexical, syntactic and semantic analysis in natural
language processing. For the automatic classification has developed a new algorithm.
As the scope and tests set have been chosen three dialogue lines of a scene from the
animation movie The IncreadibleTM . It has bem shown that, with this approach, the
automatic classification has presented a better performance than purely random relatively
to manual classification.
Keywords: Intelligence Agents, Natural Language Processing, Machine Learning, Speech
Acts
Sumário
Lista de Tabelas
10
Lista de Abreviaturas
11
1 Introdução
12
1.1
Trabalhos Correlacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3
Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Atores Digitais Autônomos
15
2.1
Humanos Virtuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2
Atores Digitais Autônomos . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1
2.3
Speech Acts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1
2.4
O Projeto D.R.A.M.A. . . . . . . . . . . . . . . . . . . . . . . . . . 17
Atos Ilocutórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 Técnicas Computacionais
3.1
3.2
22
Processamento de Linguagem Natural . . . . . . . . . . . . . . . . . . . . . 22
3.1.1
Análise Léxica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.2
Análise Sintática . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.3
Análise Semântica
3.1.4
Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
. . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Aprendizagem de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.1
Aprendizagem por reforço . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.1.1
3.2.2
Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.2.1
3.3
O problema de Aprendizagem por Reforço . . . . . . . . . 34
Diferença Temporal
. . . . . . . . . . . . . . . . . . . . . 37
Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4 Sistema Proposto
39
4.1
Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2
Linguagens, Bibliotecas e Framework . . . . . . . . . . . . . . . . . . . . . 45
4.3
4.4
4.2.1
Linguagem Python . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2.2
Framework Django . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.3
WordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.4
Natural Language ToolKit . . . . . . . . . . . . . . . . . . . . . . . 46
Metodologia de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3.1
Conjunto de testes . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3.2
Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3.2.1
Classificação Manual . . . . . . . . . . . . . . . . . . . . . 47
4.3.2.2
Classificação Aleatória . . . . . . . . . . . . . . . . . . . . 48
4.3.2.3
Métrica Utilizada . . . . . . . . . . . . . . . . . . . . . . . 49
Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5 Testes e Resultados
5.1
5.2
50
Coleta de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.1.1
Classificação Manual . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.1.2
Classificação Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . 51
Aferição dos dados coletados . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.3
5.4
5.2.1
Classificação Manual . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2.2
Classificação Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . 54
Resultados Obtidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.1
Considerações acerca dos dados . . . . . . . . . . . . . . . . . . . . 56
5.3.2
Comparações realizadas . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.3
Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.4
Limitações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3.5
Publicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 Conclusões
59
A Conjunto das POS tagging
61
B POS tagging para as 44 frases
69
C Árvores Sintáticas
75
D Coleta de dados - Classificação Manual
78
E Coleta de dados - Classificação Aleatória
80
F Coleta dados em porcentagem - Classificação Aleatória
82
G Coleta dados em porcentagem - Classificação Manual
84
H Fórmulario de Consentimento
86
I
88
Conjunto de Falas do Filme os Incríveis
J Gráfico - Classificação Manual
90
K Gráfico - Classificação Aleatória
91
Referências Bibliográficas
92
Lista de Figuras
2.1
Taxonomia dos Humanos Virtuais . . . . . . . . . . . . . . . . . . . . . . . 15
2.2
Arquitetura projeto D.R.A.M.A. . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1
Hierárquia de Chomsky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2
Interação agente-ambiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1
Arquitetura do módulo de anotação do projeto D.R.A.M.A. . . . . . . . . 39
4.2
Arquitetura Aprendizagem de Máquina . . . . . . . . . . . . . . . . . . . . 44
4.3
Métrica para dimensão de avaliação . . . . . . . . . . . . . . . . . . . . . . 49
5.1
Habilidades de Inglês . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2
Sexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.3
Idade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.4
Classificação Manual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.5
Classificação Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.6
Análise dos dados da classificação manual . . . . . . . . . . . . . . . . . . 56
J.1 Classificação Manual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
K.1 Classificação Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Lista de Tabelas
3.1
Conjunto Simplificado de tags . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2
Conjunto de categorias sintáticas . . . . . . . . . . . . . . . . . . . . . . . 25
3.3
Categorias Sintática, Tipos Semânticos e a Forma quase-lógica . . . . . . . 29
4.1
As três primeiras falas com os POS Taggings associados. . . . . . . . . . . 40
4.2
Conjunto de falas retiradas do Os IncríveisTM de Pixar Animation StudiosTM 47
5.1
Dados demográficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2
Dados coletados manualmente para conjunto de 44 falas . . . . . . . . . . . 51
5.3
Dados coletados aleatóriamente para conjunto de 44 falas . . . . . . . . . . 51
5.4
Três frases classificadas manualmente . . . . . . . . . . . . . . . . . . . . . 54
5.5
Dados coletados aleatóriamente para o conjunto das 44 falas . . . . . . . . 55
5.6
Resultados da Classificação Aleatória . . . . . . . . . . . . . . . . . . . . . 57
5.7
Resultado da Classificação Automática . . . . . . . . . . . . . . . . . . . . 57
D.1 Dados coletados manualmente para conjunto de 44 falas . . . . . . . . . . . 78
E.1 Dados coletados aleatóriamente para conjunto de 44 falas . . . . . . . . . . 80
F.1 Dados coletados aleatóriamente para conjunto de 44 falas . . . . . . . . . . 82
G.1 Dados coletados manualmente para conjunto de 44 falas . . . . . . . . . . . 84
I.1
Conjunto de falas retiradas do Os IncríveisTM de Pixar Animation StudiosTM 88
11
Lista de Abreviaturas
NPC
Non-player Character
ADA
Autonomous Digital Actors
ECA
Embodied Conversational Agents
VH
Virtual Humans
NP
Noun Phrase
VP
Verbal Phrase
POS
Part of Speech
AR
Aprendizagem por Reforço
PD
Programação Dinâmica
MC
Monte Carlo
DT
Diferença Temporal
PDM
Processo de Decisão Markoviano
12
1 Introdução
Estudos recentes indicam que as emoções tem um papel crítico na tomada de decisão
racional, na percepção, na interação e inteligência humana (PICARD, 1995).
Reconhecimento de emoções por máquina é uma sub-área da computação afetiva que
propõe criar dispositivos que possam reconhecer emoções.
Humanos Virtuais são modelos computacionais para o comportamento humano que
podem ser utilizados para substituir pessoas nas avaliações ergonômicas de projetos baseados em computador, como testar um veículo, máquinas-ferramentas, linhas de montagem,
etc., antes da construção real desses projetos. Ou ainda, incorporar a representação de nós
mesmos dentro de ambientes virtuais (BADLER, 1997). Outra abordagem para Humanos
Virtuais é utilizá-los como atores digitais, que são agentes inspirados no conhecimento de
atores humanos, podendo interpretar roteiros e sugerir atuações de maneira autônoma.
Este trabalho de conclusão de curso faz parte do projeto D.R.A.M.A.1 , que tem por
objetivo criar um plug-in para uma ferramenta de autoria de animação. Um dos módulos
do projeto aborda a classificação automática de sentenças para que seja possível aos atores
virtuais interpretarem um roteiro. Portanto, este trabalho apresenta uma abordagem para
resolver esse problema, desenvolvendo uma ferramenta capaz de classificar sentenças em
atos de fala.
Em geral, os atos de fala são atos de comunicação. Para comunicar, é preciso expressar
uma certa atitude, e o tipo de ato de fala que esta sendo executado corresponde ao tipo
da atitude expressada (TSOHATZIDIS, 1994).
Existem técnicas computacionais que possibilitam diversos tipos de análise contextual,
extraindo informações que podem auxiliar na classificação automática de sentenças em
atos de fala. Além disso, pode-se utilizar métodos que permitem à ferramenta aprender.
A hipótese deste trabalho é que a abordagem utilizando aprendizagem de máquina
apresenta um melhor desempenho do que a abordagem puramente aleatória.
Espera-se com esta abordagem, seja possível classificar sentenças em atos de fala,
1
Developing Rational Agents to Mimic Actors
1.1 Trabalhos Correlacionados
13
possibilitando assim que atores virtuais possam interpretar autônomamente um roteiro.
1.1
Trabalhos Correlacionados
Pesquisas de reconhecimento de atos de fala em textos focam em descobrir e utilizar
palavras chaves. Esta é a forma mais intuitiva de reconhecer ato de fala de um texto, e
vários métodos já propõem a utilização de palavras-chave. Subasic e Huettner (2001), classificaram um grupo de palavras emocionais adicionando, manualmente, o nível de emoção
de cada palavra. Já Zhe e Boucouvalas (2002), aplicaram um parser para identificar objetos associados a palavras-chave emocionais. Devillers et al. (2002), encontraram o mais
apropriado estado emocional calculando a probabilidade condicional entre as palavraschave emocionais para avaliar os estados emocionais. Tao e Tan (2004), dividiram as
palavras em palavras de conteúdo e palavras funcionais de emoção, ao invés de utilizarem
as palavras-chave emocionais. Seol et al. (2008) definem um sistema híbrido, que utilizam
a classificação por palavras-chave e um método de aprendizagem de máquina, o KBANN
(Knowledge-based Artificial Neural Network ). Cohen et al. (2004) apresentam o uso do
método de classificação de texto para detectar atos de fala em e-mail.
1.2
Objetivos
O principal objetivo deste trabalho é desenvolver uma ferramenta que realize a classificação automática dos atos de fala (Speech Acts) utilizando Aprendizagem de Máquina
para Atores Digitais Autônomos. Para atingir o objetivo principal, os objetivos específicos
são definidos:
• Entender a fundamentação teórica sobre Computação Afetiva
• Entender a fundamentação teórica sobre Atores Virtuais
• Entender a fundamentação teórica sobre Speech Acts
• Entender a fundamentação teórica sobre Aprendizagem de máquina
• Compreender e aplicar algoritmos de extração de Speech Acts
• Entender e especificar o modelo de classificação de textos escolhidos
1.3 Organização do Trabalho
14
• Entender e aplicar os modelos de aprendizagem de máquina
• Definir um caso para estudo, a fim de avaliar a eficiência do sistema proposto
• Avaliar o sistema desenvolvido
1.3
Organização do Trabalho
O desenvolvimento do referencial teórico do trabalho inicia a partir do Capítulo 2 –
Atores Digitais Autônomos, sobre a taxonomia dos Humanos Virtuais, que inclui o projeto
D.R.A.M.A. que contêm o módulo a ser desenvolvido neste trabalho, além da definição
de atos de fala.
No Capítulo 3 – Técnicas Computacionais, é detalhado quais as técnicas computacionais utilizadas, a explicação de cada componente do módulo de Anotação (Annotation
Module) e também a definição do algoritmo da aprendizagem por reforço.
No Capítulo 4 – Sistema Proposto, é descrito o modelo de desenvolvimento do sistema de classificação, bem como bibliotecas e linguagens utilizadas, o conjunto de testes
proposto e a definição das técnicas computacionais estudadas no Capítulo 3.
Os testes realizados e os resultados obtidos utilizando o sistema proposto (Capítulo
4) são apresentados no Capítulo 5 – Testes e Resultados.
Por último, o Capítulo 6 – Conclusões, apresenta a conclusão do trabalho desenvolvido
e também sugestões de trabalhos futuros.
15
2 Atores Digitais Autônomos
Este capítulo apresenta a taxonomia dos Humanos Virtuais, que define Atores Digitais
Autônomos, explanando o projeto D.R.A.M.A. e que por sua vez descreve o modulo de
classificação textual de Speech Acts.
2.1
Humanos Virtuais
A complexidade para criar personagens virtuais é representada na Figura 2.1. Digital Extras são personagens coadjuvantes virtuais criados com o intuito de povoar cenas
compostas por multidões, um exemplo de tal caso pode ser visto no filme Senhor dos
AnéisTM de New Line Cinema TM . Já os Non-player Characters (NPCs) são personagens
não controlados pelo jogador, mas que envolvem-se no enredo do jogo com o mesmo.
Figura 2.1: Taxonomia dos Humanos Virtuais
Os Autonomous Digital Actors (ADAs) são uma analogia à atores reais, que de forma
autônoma, e por suas interpretações independentes da situação, podem desempenhar um
papel de acordo com determinado script, como parte da estória (IURGEL; MARCOS,
2007), (ver seção 2.2). Embodied Conversational Agents (ECAs) (CASSELL, 2000) definem um novo paradigma de interface do computador com os aspectos humanos que estão
sendo utilizados em um número crescente de aplicações para transmitir informações complexas através de comportamentos verbais e não verbais, como a voz, entonação, olhar,
2.2 Atores Digitais Autônomos
16
gesto, expressões faciais, etc (BEVACQUA et al., 2007). Gebhard et al. (2003) ainda
define que personagens animados de conversação são utilizados em ambientes virtuais de
trainamento, ficção interativa e sistemas de contar estórias. E por último, os Virtual
Humans podem ser definidos como animações parecidas com humanos em 2D ou 3D que
mostram inteligência, emoções e sabem como interagir com outros usuários, sejam humanos ou não (NIJHOLT, 2005). Permitem comportamento de comunicação verbais e
não-verbais, e também através de linguagem corporal e/ou expressões faciais. Seu comportamento pode ser parcialmente ou totalmente autônomo, dependendo em qual caso
eles estejam inseridos para atuar (PRASOLOVA-FøRLAND; AL., 2005).
2.2
Atores Digitais Autônomos
Atores digitais autônomos (ADAs) são agentes inspirados no conhecimento de atores
humanos, de tal maneira que estes possam autônomamente interpretar roteiros e sugerir
atuações (comandos de animação em diversos níveis de abstração) para as ações a serem interpretadas durante o filme e ainda serem capazes de se adaptar às sugestões do
animador através de um processo iterativo.
Muitos métodos de animação são capazes de produzir resultados satisfatórios para realizar tipos de movimentos específicos, como andar, correr ou pular em um terreno plano.
Mas as vezes, é preciso realizar interações mais complexas com o ambiente, forçando o animador trabalhar em baixo nível de abstração, como por exemplo, especificar diretamente
qual a posição e a orientação de um membro do corpo (HUANG, 2003).
Em uma abordagem mais natural o animador poderia dirigir os personagens, como
um diretor faz com os atores reais. Sugere-se então criar animações trabalhando no nível
de tarefas, sem precisar especificar o nível operacional, por exemplo, qual membro será
movimentado. Como exemplo cita-se: “corra até a casa através da floresta; abra a porta
e caminhe lentamente em direção ao João” (HUANG, 2003).
Implementar um ator digital normalmente envolve três problemas chaves, dirigir o
personagem, planejar as movimentações e por último desenvolver a animação.
O problema de dirigir um personagem está ligado ao fato de como converter a intenção
do animador ou diretor para o personagem virtual, que normalmente está relacionada
a abstração mais alta do comportamento de um personagem de uma animação (LI et
2.2 Atores Digitais Autônomos
17
al., 2004). Já o problema da movimentação, por exemplo planejamento de rota (path
planning), define a elaboração da logística do corpo no contexto global, por exemplo,
planejar uma trajetória sem colisão e chegar a algum destino, por outro lado, a logística
de um membro do corpo tem um contexto local, por exemplo, movimentar as mãos para
agarrar um objeto qualquer. E por fim, o problema da animação, o qual implementa os
planos definidos pela movimentação para que a animação tenha uma forma natural.
Com isso, um ator digital autônomo pode ser dirigido mais facilmente, permitindo
o animador interagir com softwares de autoria que possibilitem treinar um ADA para
aceitar vários estilos de movimento, linguagem corporal, técnicas para melhor transmitir
emoções específicas, e outras habilidades.
2.2.1
O Projeto D.R.A.M.A.
O projeto D.R.A.M.A. (Developing Rational Agents to Mimic Actors), conforme ilustrado na Figura 2.2 tem por objetivo a criação de um plug-in para uma ferramenta de
autoria de animação no qual um roteiro é submetido a um conjunto de atores que produzem sugestões individuais para atuação de seus respectivos personagens, as quais serão
posteriormente combinadas em uma timeline não-linear a ser submetida à ferramenta, na
qual o usuário pode então visualizar e alterar o resultado em um processo iterativo.
Figura 2.2: Arquitetura projeto D.R.A.M.A.
2.3 Speech Acts
18
Desta forma, acredita-se que o esforço de criação de animações ficaria reduzido ao
treinamento dos atores e às críticas nas atuações. A contribuição deste trabalho para o
projeto D.R.A.M.A. é desenvolver um módulo de anotação (Annotation Module) apresentado na Figura 2.2.
2.3
Speech Acts
Um ato de fala (Speech acts) é o ato que o locutor emite quando pronuncia uma
expressão, que inclui o modo de proferir uma palavra, fazendo uma referência e/ou uma
previsão, com uma intenção para produzir o enunciado. Por exemplo, uma declaração
expressa crença, uma solicitação expressa um desejo, uma desculpa expressa arrependimento. Como um ato de comunicação, um ato de fala é bem sucedido se o ouvinte
identifica, através da intenção do locutor, a atitude que está sendo expressada (TSOHATZIDIS, 1994).
Austin e Urmson (1978) definem que atos de fala podem ser divididos em:
Ato locutório (Locutionary act) é o ato de dizer algo “dizer algo” em seu sentido
pleno.
Ato ilocutório (Illocutionary act) é o ato em que o locutor realiza quando pronuncia um enunciado em certas condições comunicativas e com certas intenções, tais
como ordenar, avisar, criticar, perguntar, etc. Deste modo, a intenção comunicativa
de execução está associada ao significado de determinado enunciado (ver na seção
2.3.1).
Ato perlocutório (Perlocutionary act) corresponde aos efeitos que um dado ato ilocutório produz no ouvinte. Verbos como convencer, persuadir ou assustar ocorrem
neste tipo de atos de fala, pois informam os efeitos causados no ouvinte.
Para a classificação textual utiliza-se os atos ilocutórios que permitem, não apenas
identificar as condições comunicativas, mas também possibilitam reconhecer intenções.
Com isso os Atores Digitais Autônomos teriam mais informações para poderem atuar.
2.3 Speech Acts
2.3.1
19
Atos Ilocutórios
Searle (1969) define que atos de fala dividem-se em dois segmentos interdependentes: a
força ilocutória e conteúdo proposicional. Na frase ‘I assert that John was here yesterday’,
a parte ‘I assert that’ refere-se a força ilocutória F e ‘John was here yesterday’ ao conteúdo
proposicional p. Assim, o ato ilocutório é simbolizado por:
F (p)
Searle (1976) define doze dimensões significativas de variação em que os atos ilocutórios diferem uns dos outros e constrói sua taxonomia em torno de três dimensões, illocutionary point (ponto ilocutório), direction of fit (direção de ajuste) e sincerity condition
(condição de sinceridade).
1. Diferenças no ponto ou propósito do tipo de ato: de acordo com a condição
essencial de cada ato de fala (o ponto ou propósito de uma ordem é fazer com que o
ouvinte faça algo). Searle define que o ponto ou o propósito de um tipo de ilocução
é chamada de illocutionary point (ponto ilocutório).
2. Diferenças na direção de ajuste entre palavras e o mundo: alguns atos de
fala tentam obter palavras (conteúdo proposicional) que coincidam com o mundo
(como no caso das descrições) enquanto outros tentam fazer o mundo coincidir com
as palavras (como no caso de promessas e pedidos). Desta forma Searle define
esta diferença como direction of fit (direção de ajuste), ou seja, a direção de ajuste
palavras-ao-mundo (como fazer declarações, descrições, afirmações e explicações),
representada com um seta para baixo (↓) ou a direção de ajuste mundo-a-palavras
(como fazer pedidos, ordens, promessas), representada com um seta para cima (↑).
3. Diferenças nos estados psicológicos expressados
Na performance de um ato ilocutório com um conteúdo proposicional, o locutor
expressa alguma atitude, estado, etc., para realizar aquele conteúdo proposicional.
Ou seja, ele define que não é possível dizer algo como ‘Eu afirmo que p, mas não
acredito que p’, ’Eu prometo que p, mas não pretendo que p’, etc. Note que isto
só tem uso performativo na primeira pessoa. O estado psicológico expressado na
performance de um ato ilocutório é a condição de sincerity condition (condição de
2.3 Speech Acts
20
sinceridade) do ato. Assim, Searle define que Belief (crenças) se refere não apenas a declarações, afirmações, observações e explicações, mas também postulações,
declarações, deduções e argumentos. Intention (intenção) refere-se a promessas,
ameaças e compromissos. Desire (desejo) refere-se aos pedidos, ordens, comandos,
orações e súplicas. Pleasure (prazer) refere-se a parabéns, felicitações e congratulações. Por fim, simboliza o estado psicológico expressado com as letras iniciais dos
verbos correspondentes, B para Belief, I para Intention, etc.
Com base na teoria de Austin e Urmson (1978), Searle (1976) procedeu a divisão e a
classificação dos atos ilocutórios em cinco classes, assertivo, diretivo, comissivo, expressivo
e declarativo.
Assertivo (Assertives). Todos os membros desta classe são determinados sobre a
dimensão da avaliação, no qual inclui verdadeiro e falso. É formalizado por:
`↓ B(p),
leia-se: afirmação, direção de ajuste (↓) palavras-ao-mundo, o estado psicológico expressado é Belief e o conteúdo proposicional (p). Verbos associados: affirm, assert, put
forward, state etc.
Exemplos: ‘John called’, ‘The sun will rise tomorrow’, ‘I swear I saw him on the crime
scene’, etc.
Diretivo (Directives). O ponto ilocutório desta classe, consiste no fato do locutor
persuadir o ouvinte a fazer a algo. Questionamentos são uma sub-classe dos diretivos,
pelo fato que quando se questiona, espera-se que o ouvinte faça algo. É formalizado por
! ↑ W (H does A),
leia-se: diretivo, a direção de ajuste é mundo-a-palavras (↑), o estado psicológico
expressado é Will e conteúdo proposicional atribui um futuro ato A ao ouvinte H. Verbos
associados: ask, beg, order, command, plead, pray, entreat, invite, permit, advise etc.
Exemplos: ‘Clean your room!’, ‘I suggest you take the Volvo’, ‘Do you have some
spare chanage?’
Compromissivo (Commissives). São atos ilocutórios onde o locutor denota a
intenção de realizar uma determinada ação no futuro. É formalizado por:
C ↑ I(S does A),
2.4 Considerações
21
leia-se: compromissivo, a direção de ajuste é mundo-a-palavras (↑), o estado psicológico expressado é Intention e o conteúdo proposicional atribui uma ação futura A ao
locutor S. Verbos associados: promise, swear, commit oneself to, etc.
Exemplos: ‘I promise I’ll clean the kitchen’, ‘You’ll get it done by Monday!’
Expressivo (Expressives). O ato ilocutório desta classe é a de apresentar o estado
psicológico expressado na sincerity condition (condição de sinceridade) sobre um estado
(sentimentos ou emoções) especificado no conteúdo proposicional. É formalizado por:
E φ (P ) (S/H + property),
leia-se: expressivo, a direção de ajuste é nula φ, o P indica os diversos estados psicológicos expressados e o conteúdo proposicional atribui alguma propriedade (property) (não
necessariamente uma ação) para S ou H. A propriedade especificada no conteúdo proposicional de um ato expressivo deve estar relacionado com S ou H. Verbos relacionados:
thank, congratulate, apologize, condole, deplore, welcome, etc.
Exemplos: ‘Congratulations for the award!’, ‘I hate Physics’
Declarativo (Declarations). O ato ilocutório desta classe muda a realidade de
acordo com o conteúdo proposicional, por exemplo, se eu executar com êxito o ato de
nomear você para presidente, então você é presidente; se eu executar com êxito o ato de
nomear você para ser um candidato, então você é um candidato. É formalizado por:
D l φ (P ),
leia-se: declarativo, a direção de ajuste é para ambos os lados (l), a condição de
sinceridade é nula (φ) e o conteúdo proposicional expressado por P . Verbos associados:
declare, pronounce, announce, condemn, etc.
Exemplos: ’You’re fired!’, ’I hereby declare war on Germany’
2.4
Considerações
Neste capítulo foi apresentado a definição de atores digitais autônomos, dos atos
ilocutórios e do módulo de anotação do projeto D.R.A.M.A., cuja arquitetura é descrita
no Capítulo 3.
22
3 Técnicas Computacionais
Este capítulo descreve os níveis de processamento de linguagem natural e o modelo
de aprendizagem de máquina utilizado.
3.1
Processamento de Linguagem Natural
O Processamento de Linguagem Natural (PLN) teve início na década de 50, quando
Turing (1950) publicou o artigo Computing Machinery and Intelligence, no qual propõe o
famoso Teste de Turing como critério de inteligência. Este critério depende da habilidade
de um programa do computador representar um ser humano numa conversa em tempo
real.
Na década de 60 os computadores já eram capazes de aceitar e de responder a questões
em inglês e podiam conduzir uma entrevista psiquiátrica de nível rudimentar em inglês,
galês, ou alemão. Pode-se citar exemplos, como STUDENT (BOBROW, 1964) e ELIZA
(WEIZENBAUM, 1966), de programas que tinham como objetivo a geração de um número
reduzido de resultados em domínios específicos.
Para que um sistema computacional interprete um texto em linguagem natural, é
necessário manter informações morfológicas, sintáticas e semânticas, armazenadas em
dicionários, juntamente com as palavras que o sistema compreende.
3.1.1
Análise Léxica
Na gramática, as partes do discurso (parts of speech) (POS) são categorias linguísticas das palavras, as quais, geralmente, são definidas pelo comportamento sintático ou
morfológico do item léxico em questão.
Nesta etapa as palavras são analisadas em termos de seus componentes e os sinais são
separados das palavras. POS tagging é o processo de marcação das palavras em um texto
(corpus) correspondendo a uma determinada parte do discurso, baseada na sua definição,
bem como em seu contexto. A Tabela 3.1 mostra um conjunto simplificado de tags para
3.1 Processamento de Linguagem Natural
23
as partes do discurso. O Anexo A mostra todo o conjunto das tags com suas respectivas
descrições.
Tag
Meaning
Examples
ADJ
adjective
new, good, high, special, big, local
ADV
adverb
really, already, still, early, now
CNJ
conjunction
and, or, but, if, while, although
DET
determiner
the, a some, most, every, no
N
noun
year, home, costs, time, education
PRO
pronoun
he, their, her, its, my, I, us
P
proposition
on, of, at, with, by, into, under
V
verb
is, has, get, do, make, see, run
VBP
verb, present tense, not 3rd person singular
predominate wrap resort sue hate
.
sentence terminator
. ! ?
Tabela 3.1: Conjunto Simplificado de tags
Por exemplo, a frase “I hate you!!”, pode ser classificada com as seguintes tags: ‘I’ →
‘PRO’, ‘hate’ → ‘VBP’, ‘you’ → ‘PRO’, ‘ !’ → ‘.’, ‘ !’ → ‘.’
Após esta classificação é feita a análise sintática, onde cria-se uma descrição estrutural
da frase.
3.1.2
Análise Sintática
O processamento sintático é a etapa em que a frase é convertida em estrutura hierárquica que corresponde às unidades do significado da frase (RICH; KNIGHT, 1994). Esse
processo é chamado de análise (parsing) e normalmente têm dois componentes principais,
gramática e analisador.
A gramática utilizada para representar uma linguagem natural deve apresentar um
equilíbrio entre sua expressividade e o processo de reconhecimento (VIEIRA; VERA,
2001). Chomsky (1956) definiu quatro tipos de gramáticas. O tipo 0 são Gramáticas com
Estrutura de Frase, tipo 1 são Gramáticas Sensíveis ao Contexto, tipo 2 são Gramáticas
Livres de Contexto e o tipo 3 são Gramáticas Regulares. As gramáticas do tipo três
são as mais restritas, e portanto, as linguagens geradas por essas gramáticas são mais
3.1 Processamento de Linguagem Natural
24
fáceis de serem reconhecidas. Já as gramáticas do tipo dois, são poderosas e permitem a
representação da linguagem com uma complexidade maior, porém apresentam problemas
para expressar dependências, como por exemplo, a concordância verbal. E as gramáticas
do tipo um resolvem o problema de dependência, porém sua implementação é complexa,
pode-se chegar a uma função exponencial sobre o tamanho da sentença. Na Figura 3.1
pode-se verificar a hierarquia das gramáticas.
Figura 3.1: Hierárquia de Chomsky
O fato de gramáticas regulares serem restritas e gramáticas sensíveis ao contexto
terem uma complexidade de implementação devido a função exponencial do tamanho da
sentença, sugere-se a utilização das Gramáticas Livres de Contexto para a geração das
árvores sintáticas.
Através da gramática da linguagem a ser analisada e das informações do analisador
morfológico, constrói-se árvores de derivação para cada sentença, mostrando como as
palavras estão relacionadas entre si. A Tabela 3.2 demonstra as categorias sintáticas.
As gramática descritas neste trabalho utilizam o formalismo chamado forma de
Backus-Naur (BNF - Backus-Naur-Form)1
Um exemplo de gramática livre de contexto é descrito na Equação 3.1, considere S:
Sentence (Sentença), NP: Noun Phrase (Sintagma Nominal) e VP: Verbal Phrase (Sintagma Verbal). Uma análise top-down é realizada, começando pelo símbolo S e procu1
http://en.wikipedia.org/wiki/Backus-Naur_Form
3.1 Processamento de Linguagem Natural
25
Symbol
Meaning
Example
S
sentence
the man walked
NP
noun phrase
a dog
VP
verb phrase
saw a park
PP
prepositional phrase
with a telescope
Det
determiner
the
N
noun
dog
V
verb
walked
P
preposition
in
Tabela 3.2: Conjunto de categorias sintáticas
rando por uma árvore que tenha as palavras como suas folhas.
S → <NP> <VP>
V P → <V> <NP> | <V> <NP> <PP>
P P → <P> <NP>
V → ‘saw0 |‘hate0 |‘ate0 |‘walked0
N P → ‘John0 |‘M ary 0 |‘Bob0 |‘I 0 |‘you0 | <Det> <N> | <Det> <N> <PP>
(3.1)
Det → ‘a0 |‘an0 |‘the0 |‘my 0
N → ‘man0 |‘dog 0 |‘cat0 |‘park 0 |‘telescope0
P → ‘in0 |‘on0 |‘by 0 |‘with0
A árvore sintática da sentença “I hate you”, utilizando a gramática definida acima é
mostrada abaixo.
S
NP
I
VP
V
NP
hate
you
A produção da análise sintática de uma frase não conclui o processo de compreensão.
Ainda é preciso produzir uma representação do significado da frase.
3.1 Processamento de Linguagem Natural
3.1.3
26
Análise Semântica
O analisador semântico analisa o sentido das estruturas das palavras que foram reagrupadas pelo analisador sintático, uma vez que o analisador morfológico permitiu identificar
estas palavras individualmente (NETO et al., 2009).
Vieira e Vera (2001) definem que a análise semântica consiste em associar a uma
sequência de marcadores linguísticos entendida como a representação do significado desta
sentença. A sequência de marcadores aqui citada geralmente é a proveniente da análise
sintática.
Uma possível forma de tratar a semântica da linguagem natural é através da especificação do ‘significado proposicional’. A análise semântica envolve a tradução de uma
sentença em linguagem natural para uma expressão em linguagem formal.
De acordo com a estrutura sintática de uma sentença, é possível estabelecer uma
representação lógica correspondente, onde o verbo indica uma relação entre os argumentos
expressados por sujeito e complemento verbal (objeto direto ou indireto). Os atos de fala
incidirão sobre essa representação (VIEIRA; VERA, 2001).
Como linguagem de representação é utilizado Lógica de Primeira Ordem, portanto a
interpretação semântica se torna um processo de associar uma expressão lógica de primeira ordem a um sintagma (phrase), onde determina-se quais representações semânticas
queremos associar a cada um dos sintagmas (RUSSELL; NORVIG, 2004). Considere a
frase “John loves Mary”. O NP (Noun Phrase) “John” tem como interpretação semântica
o termo lógico John e a sentença como um todo deve ser interpretada como uma sentença lógica Loves(John,Mary). A parte VP (Verbal Phrase) “loves Mary” da frase é uma
descrição que poderia ou não se aplicar a uma pessoa em particular (se aplica a John).
Isso significa que “loves Mary“ é um predicado que, quando combinado com um termo
que representa uma pessoa, produz uma sentença lógica completa. Utiliza-se a notação λ
(fórmula com falta de argumento) para representar o predicado “loves Mary”:
λx Loves(x, M ary)
A regra S(rel(obj)) → N P (obj)V P (rel) informa que “um NP com semântica obj
seguido por um VP com semântica rel gera uma sentença cuja semântica é o resultado de
3.1 Processamento de Linguagem Natural
27
se aplicar rel a obj ”. A interpretação semântica de “John loves Mary”
(λx Loves(x, M ary))(John)
que se equivale a Loves(John, Mary).
O verbo “loves” é representado por
λy λx Loves(x, y), o predicado que, ao receber o argumento Mary, retorna o predicado
λx Loves(x, M ary). Logo, a regra V P → V erb N P aplica o predicado que é a interpretação semântica do verbo ao objeto, que por sua vez, é a interpretação semântica de
NP para se obter a interpretação semântica do VP de forma completa. Resultando na
gramática (3.2).
S(rel(obj)) → <NP(obj)> <VP(rel)>
V P (rel(obj)) → <Verb(rel)> <NP(obj)>
N P (obj) → <Name(obj)>
(3.2)
N ame(John) → ‘John0
N ame(M ary) → ‘M ary 0
V erb(λx λy Loves(x, y)) → ‘loves0
Uma árvore de análise com interpretações semânticas para a cadeia “John loves Mary”:
S(Loves(John,Mary))
NP(John)
V P (λx Loves(x, M ary))
Name(John)
V (λy λx Loves(x, y))
NP(Mary)
loves
Name(Mary)
John
Mary
A língua inglesa utiliza tempos verbais (passado, presente e futuro) para indicar a
hora relativa de um evento (e). Para a representação de eventos é utilizado a notação
de cálculo de eventos (RUSSELL; NORVIG, 2004). Considere duas frases: “John loves
Mary” e “John loved Mary”, no cálculo de eventos temos, respectivamente (3.3) e (3.4):
3.1 Processamento de Linguagem Natural
28
e ∈ Loves(John, M ary) ∧ During(N ow, e)
(3.3)
e ∈ Loves(John, M ary) ∧ Af ter(N ow, e)
(3.4)
Logo, as duas regras léxicas2 para as palavras “loves” (3.5) e “loved” (3.6) são:
V erb(λx λy e ∈ Loves(John, M ary) ∧ During(N ow, e)) → loves
(3.5)
V erb(λx λy e ∈ Loves(x, y) ∧ Af ter(N ow, e)) → loved
(3.6)
Estudos mais avançados dessa questão incluem representação semântica para os quantificadores da linguagem natural. E esses devem ser traduzidos para os quantificadores
lógicos. A frase “Every agent smells a wumpus” (retirada de Russell e Norvig (2004))
é ambígua e o significado preferencial é o de que “os agentes poderiam estar sentindo o
cheiro de diferentes wumpus ” (3.7), ou um significado alternativo é o de que “existe um
único wumpus do qual todo mundo sente cheiro” (3.8). Podem ser representados por
(Considere a como agente, w como wumpus):
∀ a a ∈ Agents =⇒ ∃ w w ∈ W umpsuses ∧ ∃ e e ∃ Smells(a, w) ∧ During(N ow, e) (3.7)
∃ w w ∈ W umpsuses ∀ a a ∈ Agents =⇒ ∃ e e Smells(a, w) ∧ During(N ow, e)
(3.8)
A primeira interpretação é analisada de modo composicional (NP e VP), logo, “Every
agent” e “smells a wumpus” são representadas, respectivamente por (3.9) e (3.10).
N P (∀a a ∈ Agents =⇒ P )
(3.9)
V P (∃w w ∈ W umpsuses ∧ ∃ e (e ∈ Smells(a, w) ∧ During(N ow, e))) (3.10)
Segundo Russell e Norvig (2004), existem duas dificuldades:
1. A semântica de toda a sentença parece ser semântica do NP, e a semântica do VP
preenchendo a parte P, ou seja, não é possível formar a semântica da sentença com
rel(obj).
2
Regras léxicas são usadas para expressar as relações entre as descrições (BREDENKAMP et al.,
1996)
3.1 Processamento de Linguagem Natural
29
2. É preciso obter a variável a como um argumento para a relação Smells, ou seja,
a semântica da sentença é formada inserindo-se a semântica do VP no encaixe do
argumento correto do NP, enquanto também insere-se a variável a do NP no encaixe
do argumento correto da semântica do VP.
Para resolver essa confusão, utiliza-se a forma quase-lógica que inclui toda a lógica
de primeira ordem e é aumentada por expressões lambda e por uma nova construção,
chamado termo quantificado. Por exemplo, o termo quantificado de “every agent” é
escrito [∀a a ∈ Agents] e a forma quase-lógica para “Every agent smells a wumpus” é
visualizada em (3.11).
∃ e ((e ∈ Smells[∀a a ∈ Agents], [∃w w ∈ W umpsuses]) ∧ During(N ow, e)) (3.11)
A Tabela 3.3 (retira de Russell e Norvig (2004)) mostra os tipos semânticos e exemplos
de formas correspondentes a cada categoria sintática sobre a abordagem de forma quaselógica.
Categoria
Tipo Semântico
Example
Forma quase-lógica
S
sentence
the I sleep
∃e e ∈ Sleep(Speaker) ∧ During(now, e)
NP
object
a dog
[∃ d Dog(d)]
PP
object2 → sentence
in [2, 2]
λx In(x, [2, 2])
RelClause
object → sentence
that sees me
λx ∃e e ∈ See(x, Speaker) ∧ During(N ow, e)
VP
objectn → sentence
sees me
λx ∃e e ∈ See(x, Speaker) ∧ During(N ow, e)
Adjective
object → sentence
smelly
λx Smelly(x)
Adverb
event → sentence
today
λe During(e, T oday)
Article
quantifier
the
∃!
Conjunction
sentence2 → sentence
and
λp q (p ∧ q)
Digit
object
7
7
Noun
object → sentence
wumpus
λx x ∈ W umpsuses
2
Preposition
object → sentence
in
λx λy In(x, y)
Pronoun
object
I
Speaker
eats
λy λx∃e e ∈ Eat(x, y) ∧ During(N ow, e)
Verb
n
object → sentence
Tabela 3.3: Categorias Sintática, Tipos Semânticos e a Forma quase-lógica
Na Tabela 3.3 a notação t → r denota uma função que recebe um argumento do tipo t e
retorna um resultado do tipo r. Por exemplo, o tipo semântico de Preposição é objeto2 →
3.1 Processamento de Linguagem Natural
30
sentence, o que significa que a semântica da preposição é uma função que quando for
aplicada a dois objetos lógicos, produzirá uma sentença lógica (RUSSELL; NORVIG,
2004). A gramática completa com semântica em forma quase-lógica é apresentada em
3.12.
S(rel(obj)) → <NP(obj)> <VP(rel)>
S(conj(sem1 , sem2 )) → <S(sem_1)> <Conjunction(conj)> <S(sem_2)>
N P (sem) → <Pronoun(sem)>
N P (sem) → <Name(sem)>
N P ([q x sem(x)]) → <Article(q)><Noun(sem)>
N P ([q xobj ∧ rel(x)]) → <NP([q x obj])><PP(rel)>
N P ([q xobj ∧ rel(x)]) → <NP([q x obj])><RelClause(rel)>
(3.12)
N P ([sem1 , sem2 ]) → <Digit(sem_1)><Digit(Sem_2)>
V P (sem) → <Verb(sem)>
V P (rel(obj)) → <VP(rel)><NP(obj)>
V P (sem1 (sem2 )) → <VP(sem_1)><Adjective(sem_2)>
V P (sem1 (sem2 )) → <VP(sem_1)><PP(sem_2)>
RelClause(sem) → that <VP(sem)>
P P (λx rel(x, obj)) → <Preposition(rel)> <NP(obj)>
E por fim é necessário converter a forma quase-normal em lógica de primeira ordem.
Isto é feito com um regra simples:
para cada termo quantificado [q x P (x)] dentro de uma forma quase-lógica (FQL),
substitua o termo quantificado por x e substitua F QL por q x P (x) op F QL, onde op é
=⇒ quando q é ∀ e é ∧ quando q é ∃ ou ∃!.
Por exemplo, a sentença “Every dog has a day” tem a forma quase-lógica em (3.13).
Onde e, d, a, são respectivamente, evento, cão e dia.
∃ e (e ∈ Has([∀ d d ∈ Dogs], [∃a a ∈ Days], N ow))
(3.13)
Logo, existem duas interpretações lógicas possíveis, pois não foi especificado qual dos dois
termos quantificados seria extraído primeiro:
3.1 Processamento de Linguagem Natural
31
∀ d d ∈ Dogs =⇒ ∃ a a ∈ Days ∧ ∃ e e ∈ Has(d, a, N ow)
(3.14)
∃ a a ∈ Days ∧ ∀ d d ∈ Dogs =⇒ ∃ e e ∈ Has(d, a, N ow)
(3.15)
Portanto, a interpretação (3.14), diz que cada cão tem seu próprio dia, enquanto que
a (3.15) diz que existe um dia especial que todos os cães compartilham. A escolha entre
elas é trabalho de eliminação da ambiguidade.
3.1.4
Classificação
O módulo de classificação da arquitetura proposta, define a classificação do texto nas
cinco classes dos atos ilocutórios, utilizando a abordagem de classificação por templates
definida na Seção 2.3.1. Cada template definido é comparado com classe semântica encontrada, gerando a classificação. Na frase “John loves Mary”, constroí-se a árvore de
interpretação semântica:
S(Loves(John,Mary))
V P (λx Loves(x, M ary))
NP(John)
Name(John)
V (λy λx Loves(x, y))
NP(Mary)
loves
Name(Mary)
John
Mary
Uma
possível
E φ (P ) (S/H
abordagem
+
S(Loves(John, M ary)).
é
property),
comparar
o
quão
próximo
o
template
se relaciona com a interpretação semântica
Pode-se entender que a estrutura semântica criada na ár-
vore identifica o verbo Loves como um membro pertencente da classe Expressivo dos
atos ilocutórios.
Suponha que existam dois templates (A, B) e que comparado com a interpretação semântica (S), tem resultados idênticos, ou seja, classificar S em A ou S em B é uma questão
3.2 Aprendizagem de Máquina
32
de escolha aleatória. Nesses casos, uma possível abordagem, seria utilizar algoritmos de
aprendizagem de máquina.
3.2
Aprendizagem de Máquina
A ideia por trás da aprendizagem é que as percepções devem ser usadas não apenas
para agir, mas também para melhorar a habilidade do agente para agir no futuro. A
aprendizagem ocorre à medida que o agente observa suas interações com o mundo e com
seus próprios processos de tomada de decisão (RUSSELL; NORVIG, 2004).
Stephen Marsland (2009) define:
“Aprendizagem de máquina, então, é sobre fazer o computador modificar ou adaptar
suas ações (se essas ações estão a fazer previsões ou controlar um robô), para que essas
ações sejam mais precisas, onde a precisão é medida pela maneira como as ações escolhidas
refletem as corretas”
Tom M. Mitchell (1997) define: “Um programa de computador é dito para aprender
com a experiência E com relação a alguma classe de tarefas T e medindo o desempenho
P, se o seu desempenho nas tarefas em T, medido por P, melhora com a experiência E.”
Alguns tipos de aprendizagem de máquina são listados abaixo:
Aprendizagem Supervisionada - Um conjunto de exemplos de treinamento com as
respostas corretas (alvos) são fornecidos e, com base neste conjunto de treinamento,
o algoritmo generaliza para responder corretamente a todas as entradas possíveis.
Aprendizagem Não-supervisionada - Respostas corretas não são fornecidas, em vez
disso, o algoritmo tenta identificar sozinho relações, padrões, regularidades ou categorias nos dados que lhe vão sendo apresentados e codificá-las nas saídas.
Aprendizagem por Reforço - Quando se deseja que o agente tenha autonomia total,
significa que este deverá ser capaz de aprender com base em informações do tipo
recompensas ou reforços fornecidos por um “critico” ou pelo próprio ambiente (ver
Seção 3.2.1).
Aprendizagem Evolucionária - A evolução biológica pode ser vista como um processo
de aprendizagem: os organismos biológicos se adaptam para melhorar as suas taxas
3.2 Aprendizagem de Máquina
33
de sobrevivência e possibilidade de ter seus decendentes em seu ambiente.
A aprendizagem de máquina escolhida para ser utilizada no módulo de Classificação
(Classification) é Aprendizagem por Reforço, pelo fato de que os atores virtuais podem ser
criticados por um diretor e/ou animador sugerindo um modo diferente de interpretação,
portanto o algoritmo pode aprender com essa critica.
3.2.1
Aprendizagem por reforço
Aprendizagem por Reforço (AR) constitui-se basicamente de um agente interagindo
em um ambiente via percepção e ação (CAMPONOGARA; SERRA, 2005). Ou seja, o
agente percebe as situações encontradas no ambiente e então seleciona uma ação para ser
implementada. De alguma forma a ação muda o ambiente, afetando o estado de alcançar
o seu objetivo. Na Figura 3.2 é demonstrado toda a interação (Retirada e traduzida do
livro de Sutton e Barto (1998)).
Figura 3.2: Interação agente-ambiente
Em um sistema de aprendizagem por reforço, o estado do ambiente deve ser representado por:
1. conjunto de estados discretos do agente (S) é formado através do conjunto das
combinações de valores de variáveis de estado identificadas pelo agente;
2. conjunto de ações discretas, onde os agentes influenciam o estado do ambiente
(A(s)); e
3. valor das transições de estado: passado para o agente através de um sinal de reforço
(ganho)
3.2 Aprendizagem de Máquina
3.2.1.1
34
O problema de Aprendizagem por Reforço
O objetivo é encontrar uma política ótima, π ∗ , definida como o mapeamento de estados
em ações que maximize os sinais de refoço acumulados no tempo. (CAMPONOGARA;
SERRA, 2005) descreve cinco etapas fundamentais:
1. O Ambiente: todo sistema de AR aprende um mapeamento de situações em ações
por experimentação em um ambiente dinâmico. O ambiente no qual o agente está
inserido deve ser pelo menos parcialmente observável através de sensores, descrições
simbólicas ou situações mentais.
2. A Política de Controle/Decisão: um política expressa pela função, π, representa
o comportamento que o sistema AR segue para alcançar um objetivo. Em outras
palavras, uma política π é um mapeamento de estados s e ações a em um valor
π(s, a), o qual corresponde à probabilidade do agente tomar a ação a ∈ A(S) quando
este se encontrar no estado s ∈ S. Portanto, o processo de aprendizado no sistema
AR pode ser expresso em termos da convergência até uma política ótima (π ∗ ) que
conduza à solução do problema de forma ótima.
3. Reforço e Retorno: o reforço é um sinal do tipo escalar (rt+1 ) desenvolvido pelo
ambiente ao agente, assim que uma ação tenha sido efetuada a uma transição de
estado (st → st+1 ) tenha ocorrido. Para cada transição no ambiente, gera-se funções
de reforço, que expressam o objetivo que o agente AR deve alcançar. O retorno pode
ser definido como um função da sequência de valores de reforço até um tempo T
final. No caso mais simples o retorno é um somatório como aparece em (3.16).
RT = rt+1 + rt+2 + rt+3 + ... + rT
(3.16)
Em muitos casos a interação entre agentes e ambiente não termina naturalmente
em um episódio (sequência de estados que chegam até o estado final), mas continua
sem limite como, por exemplo, em tarefas de controle contínuo (CAMPONOGARA;
SERRA, 2005). Para essas tarefas a formulação do retorno é um problema, pois
T = ∞ e o retorno que se deseja também tenderá ao infinito (RT = ∞). Para isso,
criou-se a taxa de amortização (γ), que determina o grau de influência que têm os
3.2 Aprendizagem de Máquina
35
valors futuros sobre o reforço total. A expressão do retorno com a taxa γ é visto em
(3.17).
Rt = rt+1 + γrt+2 + γ 2 rt+2 + ... =
∞
X
γ k rt+k+1
(3.17)
k=0
onde 0 ≤ γ ≤ 1. Se γ = 0, o agente tem uma visão limitada dos reforços, maximizando apenas os reforços imediatos. Se γ = 1, a visão do reforço abrange todos os
estados futuros dando a mesma importância para ganhos atuais e qualquer ganho
futuro.
Um agente AR faz um mapeamento dos estados em ações baseado nos reforços
recebidos. A função de reforço define quais os bons e maus eventos para os agentes.
4. Função de Reforço: as funções de reforço podem ser bastante complicadas, porém
existem pelo menos três classes de problemas frequentemente usadas para criar
funções adequadas a cada tipo de problema:
(a) Reforço só no estado final : as recompensas são todas zero, exceto no estado
final, em que o agente recebe uma recompensa (e.g., +1) ou penalidade (e.g.,
-1). O agente aprende que os estados que correspondem a uma recompensa são
bons e os que levam um penalidade deve ser evitado.
(b) Tempo mínimo objetivo: faz com que o agente realize ações que produzem o
caminho ou a trajetória mais curta para um estado objetivo. Toda transição
tem penalidade (-1) exceto aquela que leva ao estado terminal (0). Como o
agente tenta maximizar valores de reforço, ele aprender a escolher ações que
minimizam o tempo que leva para alcançar o estado final.
(c) Minimizar reforços: nem sempre o agente precisa ou deve tentar maximizar a
função de reforço, pode-se também aprender a minimizá-la. Isto é, quando o
reforço é uma função para recursos limitados, então o agente deve aprender a
conservá-los ao mesmo tempo em que alcança o objetivo.
5. Função Valor : define-se uma função valor como o mapeamento do estado, ou par
estado-ação, em um valor que é obtido a partir do reforço atual e dos reforços futuros.
A função valor que considera só o estado s é denotada por V(s) e denominada função
valor-estado, enquanto que a função valor que considera o par estado-ação(s,a) é
denotada por Q(s,a) e denominada função valor-ação
3.2 Aprendizagem de Máquina
36
(a) Função Valor-Estado: uma vez que os reforços mantêm dependências das ações
futuras, as funções de valor dependem também da política π que o agente
adota. Em um Processo de Decisão Markoviano se define uma função valorestado V ∗ (s) dependente da política π apresentado em (3.18), onde a função
V ∗ (s) é o valor esperado do retorno a partir do estado st = s, no instante t,
quando o agente se comporta conforme a política π. Isto é V π é o somatório
dos reforços aplicando a taxa de amortização γ.
V π (s) = Eπ {Rt | st = s} = En
(∞
X
)
γ k rt+k+1 | st = s
(3.18)
k=0
(b) Função Valor-Ação: considerando o par estado-ação, a equação para a função
valor-ação Qπ (s, a) é demonstrado em (3.19), que considera o reforço esperado
para um estado st = s e uma ação at = a no instante t, e assumindo que o
comportamento do agente, passa a ser caracterizado pela política π.
π
Q (s, a) = Eπ {Rt | st = s, at = a} = En
(∞
X
)
k
γ rt+k+1 | st = s, at = a
(3.19)
k=0
As equações (3.18) e (3.19) dependem dos valores de reforço, do ambiente, podendo
este ser modelado por um Processo de Decisão Markoviano (PDM), e da política de
controle seguida pelo agente (CAMPONOGARA; SERRA, 2005).
3.2.2
Algoritmos
O problema de avaliação e a síntese de política de controle ótima são dois problemas
em Aprendizagem por Reforço. Serra e Camponogara definem três classes de métodos para
solucionar estes problemas, Programação Dinâmica, Monte Carlo e Diferença Temporal.
Programação Dinâmica (PD) . É definda como uma coleção de algoritmos que podem obter políticas ótimas sempre que exista uma modelagem perfeita do ambiete
com um PDM, isto é, como um conjunto de estados, ações, retornos e probabilidades
de transição em todos os estados (SNIEDOVICH, 2009).
Monte Carlo (MC) . Este método tem como base a simulação de sequências e a medida
dos termos obtidos que convergem para os valores desejados, como a função valorestado e a função valor-ação. Entretanto, o método não é viável quando a solução
3.2 Aprendizagem de Máquina
37
do problema é possível apenas de forma incremental, pois este método exige que o
estado final do processo seja alcançado o que pode se tornar excessivamente lento
(FISHMAN, 1996).
Diferença Temporal (DT) . Os método DT não exigem um modelo exato do ambiente
(da mesma forma que o MC) e permitem ser incrementais (da mesma forma que a
PD). O método de DF é foi escolhido para o desenvolvimento deste trabalho.
3.2.2.1
Diferença Temporal
Os métodos Diferença Temporal são uma combinação de características dos métodos
de Monte Carlo com as ideias da Programação Dinâmica, no que buscam estimar valores
de utilidade para cada estado do ambiente (SUTTON; BARTO, 1998).
O aprendizado ocorre a partir da experiência, mas tem a vantagem de atualizar as
estimativas da função do valor a partir de outras estimativas já aprendidas em estados
sucessivos (bootstrap), sem a necessidade de alcançar o estado final de um episódio antes
da atualização (MARSLAND, 2009). Neste caso, a avaliação de uma política é abordada
como um problema de estimar a função valor-estado V π sob a política π.
Camponogara e Serra (2005) definem que a vantagem da Diferença Temporal em
relação a Programação Dinâmica advém de DT não exigir a modelagem Processo de
Decisão de Markov do ambiente, de seus reforços e das distribuições de probabilidades
das transições entre os estados.
A vantagem deste método em relação ao de Monte Carlo é que o DT aguarda apenas
até o estado seguinte, executando as atualizações imediatamente, enquanto que o MC
aguarda até o final para obter o retorno verdadeiro e atualizar as estimativas.
Abaixo é descrito o algoritmo para síntese da política de controle ótima.
Algoritmo Q Learning É um algoritmo baseado em Diferença Temporal que dispensa
política. Uma característica deste algoritmo é que a função valor-ação Q aprendida
se aproxima diretamente da função valor ótima Qπ sem depender da política que
está sendo utilizada. A versão mais simples do algoritmo é definida em (3.20),
onde a função valor-ação Q(st , at ) é atualizada a partir de seu valor atual, o reforço
imediato rt+1 , e a diferença entre a máxima função valor no estado seguinte menos
3.3 Considerações
38
o valor da função valor-ação no tempo atual (VIEIRA; VERA, 2001)
Q(st , at ) ← Q(st , at ) + α rt+1 + γ maxa∈A(st +1) Q(st+1 , a) − Q(st , at )
(3.20)
Observa-se também que α é a taxa de aprendizagem (0 < α < 1) e γ é o fator de
desconto (0 ≤ γ < 1). O fato de selecionar a ação que maximize a função valor
no estado seguinte facilita a busca da função valor-ação ótima (CAMPONOGARA;
SERRA, 2005)
O pseudo-código do algoritmo Q − learning é demonstrado abaixo.
1.
Inicializar Q(s, a) de forma arbitrária
2.
Repete(para cada episódio)
3.
Inicializa s
4.
Repete(para cada passo do episódio):
5.
Escolher a para s usando política derivada de Q, tal como ε − gulosa
6.
Tomar a ação a
7.
8.
Observar o próximo estado s0 e o retorno r
Q(st , at ) ← Q(st , at ) + α rt+1 + γ maxa∈A(st +1) Q(st+1 , a) − Q(st , at )
9.
s ← s0
10.
Até s ser o estado final
A política ε−gulosa é definida no algoritmo pela escolha da ação que possui o maior valor esperado,
com probabilidade definida por (1−ε), e de ação aleatória, com probabilidade ε. Matematicamente,
dado Q obtemos a ação gulosa a∗ para um estado s fazendo:
a∗ = arg maxa∈A(st +1) Q(s, a)
ε
π(s, a∗ ) = 1 − ε +
|A(s)|
ε
, ∀a ∈ A(s) − a∗
π(s, a) =
|A(s)|
(3.21)
Esta restrição permite que o algoritmo explore o espaço de estados, sendo uma das condições
necessárias para garantir que o algoritmo encontre uma política de controle ótima.
3.3
Considerações
Nesta seção, apresentou-se as técnicas computacionais utilizadas no desenvolvimento
deste trabalho. A análise Morfológica, Sintática e Semântica aplicada no processamento de
linguagem natural, bem como a aprendizagem de máquina utilizada. O sistema proposto
para estas técnicas computacionais é descrito no Capítulo 4.
39
4 Sistema Proposto
Este capítulo apresenta uma proposta para a ferramenta de classificação automática
de atos de fala, além da definição do escopo, da arquitetura, das linguagens, das bibliotecas
e dos frameworks que foram utilizados no desenvolvimento deste trabalho.
4.1
Arquitetura
A Figura 4.1, define a arquitetura do sistema proposto, que é divida em duas partes:
processamento de linguagem natural e classificação.
Figura 4.1: Arquitetura do módulo de anotação do projeto D.R.A.M.A.
O objetivo do processamento de linguagem natural para este trabalho foi analisar
as frases nos níveis léxico, sintático e semântico. Foi realizado uma análise léxica para
associar cada palavra da frase à um marcador (tag), esses marcadores foram utilizados
para gerar a gramática livre de contexto, que foi utilizada na análise sintática para eliminar
a ambiguidade da mesma. E posteriormente, na análise semântica, essa gramática foi
4.1 Arquitetura
40
Frase e POS Tagging
I thought you would be back by eleven.
(’I’, ’PRP’), (’thought’, ’VBD’), (’you’, ’PRP’), (’would’, ’MD’), (’be’, ’VB’),
(’back’, ’RB’), (’by’, ’IN’), (’eleven’, ’RB’), (’.’, ’.’)
I said I would be back later.
(’I’, ’PRP’), (’said’, ’VBD’), (’I’, ’PRP’), (’would’, ’MD’), (’be’, ’VB’),
(’back’, ’RB’), (’later’, ’JJ’), (’.’, ’.’)
I assumed you would be back later.
(’I’, ’PRP’), (’assumed’, ’VBD’), (’you’, ’PRP’), (’would’, ’MD’), (’be’, ’VB’), (’back’, ’RB’),
(’later’, ’JJ’), (’.’, ’.’)
Tabela 4.1: As três primeiras falas com os POS Taggings associados.
expandida para interpretar regras semânticas.
Para o processamento de linguagem natural foi desenvolvido um software, escrito em
Python, que engloba a arquitetura (Figura 4.1). Foram utilizados três níveis de análises:
a léxica, a sintática e a semântica, abordados na Seção 3.1.
Na análise léxica, o método desenvolvido retorna as frases com suas respectivos marcadores das partes do discurso (tags do (Part of Speech)). Para essa associação foi utilizado
R
o WordNet
, que é uma base de dados léxica da língua inglesa. Os resultados das 44
frases podem ser visualizados no Anexo B. A Tabela 4.1 ilustra as três primeiras frases
com suas respectivas associações.
Na análise sintática foi desenvolvida uma grámatica livre de contexto para gerar as
árvores sintáticas. A gramática (Lista 4.1) foi construída manualmente com os elementos
de cada frase, gerados pela análise léxica.
Lista 4.1: Gramática Livre de Contexto
1
S −> <NP> <VP>
2
VP −> <Verb> <NP> <ModelAux> | <Verb> <NP> <ModelAux> <PP> | <Verb> <NP> |
<Verb> <NP> <PP> | <ModelAux> <Verb> <NP> | <Det> <A d j e c t i v e >
3
NP −>
<Pronoun> | <Adverb> <P r e p o s i t i o n > | <Adverb> <P r e p o s i t i o n > <Adverb>
| <Adverb> <A d j e c t i v e > | <P r e p o s i t i o n > <NP> | <Noun> <NP> | <Verb> |
<A d j e c t i v e > | <Adverb> <NP> <VP>
4
PP −> <Verb> <NP> | <P r e p o s i t i o n > <NP> | <ModelAux>
4.1 Arquitetura
5
41
Adverb −> ‘ back ’ | ‘ e l e v e n ’ | ‘ j u s t ’ | ‘ l i t t l e ’ | ‘ Just ’ | ‘ how ’ | <Det> |
<Noun> <P r e p o s i t i o n >
6
A d j e c t i v e −> ‘ l a t e r ’ | ‘ r u b b l e ’ | ‘ l o o s e ’ | <Noun> | <TO>
7
P r e p o s i t i o n −> ‘ by ’ | ‘ I f ’ | ‘ at ’ | ‘ out ’ | ‘ about ’ | <Det> <Adverb>
8
Verb −> ‘ thought ’ | ‘ be ’ | ‘ s a i d ’ | ‘ assumed ’ | ‘ came ’ | ‘am’ | ‘ I s ’ |
‘ was ’ | ‘ stay ’ | ‘ know ’ | ‘ f e e l ’
9
Pronoun −> ‘ I ’ | ‘ you ’ | ‘ You ’ | ‘ I t ’
10
ModelAux −> ‘ would ’
11
Det −> ‘ a l l ’ | ‘ t h i s ’ | ‘ a ’ | ‘ that ’
12
Noun −> ‘ Well ’ | ‘ Okay ’ | ‘ work ’ | ‘ Bob ’ | ‘ back ’
13
TO −> ‘ to ’
A Lista 4.2, ilustra as árvores sintáticas para as três primeiras frases utilizando a
gramática resultante. O Anexo C contêm as árvores geradas pela gramática para as 10
primeiras frases.
Lista 4.2: Árvores Sintáticas geradas pela Gramática Livre de Contexto
1
F r a s e 1 : I thought you would be back by e l e v e n .
2
(S
3
(NP ( Pronoun I ) )
4
(VP
5
( Verb thought )
6
(NP ( Pronoun you ) )
7
( ModelAux would )
8
(PP
( Verb be )
9
(NP ( Adverb back ) ( P r e p o s i t i o n by ) ( Adverb e l e v e n ) ) ) ) )
10
11
12
F r a s e 2 : I s a i d I would be back l a t e r .
13
(S
14
(NP ( Pronoun I ) )
15
(VP
16
( Verb s a i d )
17
(NP ( Pronoun I ) )
18
( ModelAux would )
19
(PP ( Verb be ) (NP ( Adverb back ) ( A d j e c t i v e l a t e r ) ) ) ) )
20
21
F r a s e 3 : I assumed you would be back l a t e r .
22
(S
23
(NP ( Pronoun I ) )
4.1 Arquitetura
24
42
(VP
25
( Verb assumed )
26
(NP ( Pronoun you ) )
27
( ModelAux would )
28
(PP ( Verb be ) (NP ( Adverb back ) ( A d j e c t i v e l a t e r ) ) ) ) )
Para a análise semântica, foi necessário expandir a gramática livre de contexto defnida
na análise sintática, adicionando regras semânticas. Tais regras mostram na raiz da árvore
a representação resultante para a sentença.
Lista 4.3: Gramática Livre de Contexto expandida com regras semânticas
1
% start S
2
# Grammar R u l e s
3
4
S [SEM=<?s u b j ( ? vp ) >] −> NP[SEM=? s u b j ] VP[SEM=?vp ]
5
NP[SEM=?np ] −> Pronoun [SEM=?np ]
6
NP[+BY, SEM=<?adv1 ( ? adv2 ) >] −> Adverb1 [SEM=?adv1 ] P r e p o s i t i o n [+BY]
Adverb2 [SEM=?adv2 ]
7
NP[SEM=<?adv1 ( ? a d j ) >] −> Adverb1 [SEM=?adv1 ] A d j e c t i v e [SEM=?a d j ]
8
VP[+WOULD, SEM=<?v ( ? pp ( ? o b j ) ) >] −> Verb [SEM=?v ] NP[SEM=?o b j ]
ModelAux[+WOULD] PP [SEM=?pp ]
9
PP[+BE, SEM=?o b j ] −> VerbBe[+BE] NP[SEM=?o b j ]
10
11
# L e x i c a l Rules
12
13
Pronoun [SEM=<\P . P( you ) >] −> ’ you ’
14
Pronoun [SEM=<\P . P( s e l f ) >] −> ’ I ’
15
Verb [SEM=<\Y x . ( thought ( x ,Y( x ) ) ) >] −> ’ thought ’
16
Verb [SEM=<\Y x . ( assumed ( x ,Y( x ) ) ) >] −> ’ assumed ’
17
Verb [SEM=<\Y x . ( s a i d ( x ,Y( x ) ) ) >] −> ’ s a i d ’
18
VerbBe[+ be ] −> ’ be ’
19
Adverb1 [SEM=<\Y X x .X( \ z .Y( \ y . back ( z , y ) ) ) >] −> ’ back ’
20
Adverb2 [SEM=<\P . P( e l e v e n ) >] −> ’ e l e v e n ’
21
A d j e c t i v e [SEM=<\P . P( l a t e r ) >] −> ’ l a t e r ’
22
P r e p o s i t i o n [+by ] −> ’ by ’
23
ModelAux[+ would ] −> ’ would ’
Aplicando a gramática (Lista 4.3) nas frases do conjunto de testes, é possível convertêlas para fórmula em lógica de primeira ordem (LPO). A saída para três primeiras frases
4.1 Arquitetura
43
com suas respectivas representações lógicas, é apresentada na Lista 4.4
Lista 4.4: Representação de LPO para as sentenças analisadas
1
F r a s e 1 : I thought you would be back by e l e v e n .
2
thought ( s e l f , back ( you , e l e v e n ) )
3
4
F r a s e 2 : I s a i d I would be back l a t e r .
5
s a i d ( s e l f , back ( s e l f , l a t e r ) )
6
7
F r a s e 3 : I assumed you would be back l a t e r .
8
assumed ( s e l f , back ( you , l a t e r ) )
O objetivo do módulo de classificação é associar classes a cada uma das representações
R
lógicas geradas pela análise semântica. Para essa associação, utizou-se o WordNet1
, para
encontrar os sinônimos dos verbos associados a cada classe dos atos ilocutórios. Após,
identificou-se o verbo associado à forma lógica (resultado da análise semântica) e verificouse se este verbo estava ou não relacionado a uma das classes.
Por exemplo, a frase “I assumed you would be back later.” tem a seguinte representação
lógica assumed(self,back(you,later) e o verbo associado é assumed, então verifica-se
em qual das classes dos atos ilocutório este verbo está associado, gerando assim a anotação.
Durante o processo de classificação é possível que uma mesma frase seja associada a
mais de uma classe. Assim, é necessário que a ambiguidade seja resolvida, como descrito
na Seção 3.1.4. Uma arquitetura para solucionar este problema é apresentada na Figura
4.2
1
http://wordnet.princeton.edu/
4.1 Arquitetura
44
Figura 4.2: Arquitetura Aprendizagem de Máquina
O primeiro passo depois de confirmada que a frase é ambígua, é saber quais as classes
que estão associadas a determinada sentença para então realizar uma verificação na base
para ientificar se alguma dessas classes já foi previamente classificada.
Caso a base esteja vazia ou não encontre as classes, gera-se, aleatóriamente uma
sugestão de classificação para que o crítico (usuário) possa escolher a classe desejada.
Após, ocorre o ajuste de peso (confiança2 e suporte3 ), e então gera-se a classificação da
sentença e a base de dados é atualizada. Se o crítico recursar a sugestão, todas as classes
selecionadas são listadas. O crítico então realiza uma escolha, ocorre o ajuste de pesos,
gera-se uma classificação e a base de dados é atualizada.
Caso seja encontrado uma das classes na bases, é feito um cálculo para determinar
qual das classes previamente cadastradas na base tem o maior índice de confiabilidade
dada pela equação:
conf iabilidade =
conf ianca
suporte
E então a de maior índice é sugerida para o crítico, que pode aceitar ou não a sugestão
do sistema.
2
3
Número de retornos positivos para determinada representação lógica
Número de vezes que uma dada representação lógica foi selecionada
4.2 Linguagens, Bibliotecas e Framework
45
Por exemplo, uma possível classificação para a sentença “I said I would be back later ”
é demonstrada a seguir:
Frase: I said I would be back later
Semântica: said(self,back(self,later))
Classificação ambígua: assertivo(0, 0), diretivo(0, 0), compromissivo(0, 0), declarativo(0, 0)
Se a base estiver vazia: O sistema aleatóriamente sugeriu a classe compromissivo(0,
1)
Caso 1: o crítico aceite a sugestão: atualiza-se o peso da template compromissivo(1,1) e gera-se a classificação.
Caso 2: o crítico não aceite a sugestão: todas as classes são listadas novamente: assertivo(0, 1), diretivo(0, 1), compromissivo(0, 1), declarativo(0, 1). O crítico então
escolhe uma delas, por exemplo, assertivo(0,1). Atualiza-se os pesos: compromissivo(0,1), assertivo(1, 1), diretivo(0, 1), declarativo(0, 1) e gera-se a classificação.
Numa próxima iteração hipotética, caso a sentença continuar sendo classificada de
forma ambígua, o sistema sugere a classe de mais alta confiança (afinal a base não está
vazia), que neste caso é o Assertivo.
4.2
Linguagens, Bibliotecas e Framework
Nesta seção apresenta-se uma introdução sobre a linguagem de programação Python, o
Framework Django, o conjunto de ferramentas para Processamento de Linguagem Latural
(NLTK) e a base de dados léxica do WordNet.
4.2.1
Linguagem Python
Python é uma linguagem dinâmica de alto nível, multi-paradigmas, interpretada e
intuitiva. A sintaxe é limpa e legível, o que torna a linguagem de fácil utilização possibilitando o rápido desenvolvimento de aplicações e protótipos. Por ser escrita em C,
4.2 Linguagens, Bibliotecas e Framework
46
possibilita a fácil integração com bibliotecas escritas nesta linguagem para obter melhor
desempenho (ROSSUM, 2009).
4.2.2
Framework Django
Django é um framework web de alto nível escrito em Python que estimula o desenvolvimento rápido e limpo. Focado na praticidade do desenvolvimento simplificando as
partes complicadas, como por exemplo se preocupar com os detalhes do banco de dados
ou com gerenciamento de sessões (GALESIBIRD, 2010).
4.2.3
WordNet
R 4 é uma base de dados léxica da língua inglesa. Substantivos, verbos,
WordNet
adjetivos e advérbios são agrupados em conjuntos de sinônimos cognitivos, cada um expressando um conceito distinto.
WordNet superficialmente se assemelha a um dicionário de sinônimos, em que as palavras se agrupam com base em seus significados. No entanto, existem algumas diferenças
importantes. Primeiro, WordNet interliga não apenas sequência de letras, mas sentido
específico da palavra. E segundo, WordNet rotula a relação semântica através das palavras, enquanto que o agrupamento de palavras em um dicionário de sinônimos não seguem
nenhum padrão explícito que não significa similaridade (MILLER, 1995).
4.2.4
Natural Language ToolKit
Natural Language Toolkit ou, NLTK, é um conjunto de bibliotecas e programas para
processamento de linguagem natural simbólica e estatística, desenvolvida para a linguagem de programação Python. NLTK inclui demonstração gráfica e dados de exemplos.
Acompanha uma extensiva documentação, incluindo um livro que explica o conceito por
trás das tarefas da linguagem de processamento que são suportadas pelo toolkit.
NLTK é ideal para realização de pesquisas em Processamento de Linguagem Natural
ou áreas estreitamente relacionadas, incluindo linguística empírica, ciência cognitiva, inteligência artificial, recuperação de informação e aprendizagem de máquina (BIRD et al.,
4
http://wordnet.princeton.edu/
4.3 Metodologia de Avaliação
47
2009).
4.3
Metodologia de Avaliação
Nesta seção é descrito o conjunto de testes e a metodologia de avaliação que foram
utilizados no desenvolvimento deste trabalho.
4.3.1
Conjunto de testes
Para a validação do sistema proposto, um conjunto de falas retiradas do filme Os
IncríveisTM de Pixar Animation StudiosTM foi utilizado. No Anexo I pode-se vizualizar
as falas transcritas dos personagens Sr. Incrível (Bob) e Mulher elástica (Helen).
Character
Text
Helen
I thought you’d be back by eleven.
Bob
I said I’d be back later.
Helen
I assumed you’d be back later.
Tabela 4.2: Conjunto de falas retiradas do Os IncríveisTM de Pixar Animation StudiosTM
Para a classificação aleatória e manual foram utilizadas as 44 frases retiradas do filme,
porém devido a complexidade de criar uma gramática livre de contexto expandida para
interpretar regras semânticas e também ao tempo de desenvolvimento da classificação
automática, o escopo de testes foi reduzido para as três primeiras frases do conjunto (I.1).
4.3.2
Avaliação
Para avaliar o sistema proposto foram desenvolvidos dois softwares, classificação manual e classificação aleatória.
4.3.2.1
Classificação Manual
Foi desenvolvido um questionário utilizando o framework web Django. Este questionário foi disponibilizado através de um website5 para que os participantes pudessem
5
http://dinomagri.pythonanywhere.com
4.3 Metodologia de Avaliação
48
classificar manualmente cada frase do conjunto de testes inicialmente proposto, em uma
das cinco classes dos atos ilocutórios.
Este questionário ficou disponível durante 45 dias, onde os participantes responderam
47 perguntas, sendo três delas questões demográficas e outras 44, o conjunto de testes
definido na Seção 4.3.1.
As instruções sobre como deveria ser realizada a pesquisa estava na página principal
do website. Para parcipar era preciso aceitar um formulário de consentimento (Anexo H)
e entender a definição das classes dos atos de ilocutórios. Para ilustrar, foi disponibilizada
o trecho do filme Os IncríveisTM de Pixar Animation StudiosTM , que mostra a discussão
entre os personagens Bob e Helen.
4.3.2.2
Classificação Aleatória
Foi desenvolvido um software para a classificação aleatória das 44 frases do conjunto de
teste inicialmente proposto, na qual seu funcionamento, analogamente ao método manual,
foi classificar as frases em uma das cinco classes dos atos ilocutórios.
O algoritmo utilizado para gerar a classificação aleatória é apresentado em Lista 4.5.
Lista 4.5: Algoritmo Random
1
d e f random ( ) :
2
l o a d XML f i l e
3
f o r each item i n XML f i l e :
save sentence in l i s t
4
5
6
f o r each s e n t e n c e i n l i s t :
7
f o r r a n g e ( 0 , max) :
8
c l a s s i f y t h e s e n t e n c e randomly
9
c l a s s i f i c a t i o n ( sentence , c l a s s )
Para carregar e explorar o XML6 , foi utilizado um parser 7 para identificar as tags
principais do arquivo, e então recuperar os valores das tags "actor "e "text". Esses valores
correspondem ao personagem (Helen ou Bob) e a frase, respectivamente.
6
7
eXtensible Markup Language
http://code.activestate.com/recipes/410469/
4.4 Considerações
4.3.2.3
49
Métrica Utilizada
A métrica para determinar a dimensão da avaliação é a distância euclidiana entre a
classificação manual e a classificação aleatória ou classificação automática.
A fórmula de cálculo é dada por:
PN
precision(M, (A|R)) =
i=1
|Mi − (Ai |Ri )|
N
onde M representa o vetor contendo a classificação manual, A o vetor contendo a classificação automática e R o vetor contendo a classificação aleatória.
Figura 4.3: Métrica para dimensão de avaliação
Para cada abordagem (Automática(A) ou Aleatória(R)) foi gerado um elemento resultante da métrica precision(M, (A|R)). Essas resultantes foram avaliadas comparativamente em relação à classificação manual (Figura 4.3).
4.4
Considerações
Neste capítulo foram apresentadas as ferramentas que foram utilizadas para o desenvolvimento do sistema proposto, a arquitetura, bem como o conjunto de testes e a
metodologia de avaliação.
50
5 Testes e Resultados
Este capítulo apresenta a coleta, aferição e análise dos dados coletados, os testes
realizados, bem como o resultados obtidos.
5.1
Coleta de Dados
5.1.1
Classificação Manual
A Tabela 5.1 demonstra os dados demográficos coletados. A Questão 1 retrata quais
as habilidades do participando tem em termos de leitura e compreensão do texto em
inglês, para isso existem 3 escolhas, A, B, ou C. Os participantes que optaram pela classe
C, declaram que estão aptos a entender textos longos e complexos, sendo literários ou
não, além de distinguir diferentes estilos. Já os que escolheram a classe B, são capazes de
entender textos que predominam em uma linguagem de alta frequência ou relacionadas ao
trabalho. E por fim a classe A, que conseguem compreender nomes de familiares, palavras
e sentenças bem simples.
Questão
A
B
C
1
3
9
11
2
M
F
0-17
18-25
26-35
36-45
46-55
Total
23
17
3
06
23
1
12
06
02
02
23
Tabela 5.1: Dados demográficos
Na questão 2 foi solicitado qual o sexo do participante, Masculino ou Feminino, representado na Tabela 5.1 por M e F, respectivamente. E por fim, a questão 3 abordava a
faixa etária dos participantes.
Para o conjunto de falas, cada participante deveria responder as 44 frases,
classificando-as em uma das cinco classes dos atos ilocutórios (Seção 2.3.1). A Tabela
5.2 lista as três primeiras frases classificadas manualmente. O Anexo D lista todas as
frases classificadas.
5.2 Aferição dos dados coletados
51
Questão
Assertivo
Diretivo
Compromissivo
Expressivo
Declarativo
Total
4
05
05
02
01
01
14
5
06
01
01
03
02
13
6
03
02
02
03
02
12
Tabela 5.2: Dados coletados manualmente para conjunto de 44 falas
5.1.2
Classificação Aleatória
Utilizando o algoritmo definido na Seção 4.3.2.2, foi gerada uma rodada de 100 classificações aleatórias para cada texto, os valores das três primeiras frases são apresentados
na Tabela 5.3. O Anexo E apresenta a classificação das 44 frases.
Tabela 5.3: Dados coletados aleatóriamente para conjunto de 44 falas
Frase
Assertivo
Diretivo
Compromissivo
Expressivo
Declarativo
1
19
23
15
18
25
2
15
19
12
28
26
3
23
17
22
15
23
5.2
5.2.1
Aferição dos dados coletados
Classificação Manual
Para os dados referentes à habilidade dos participantes em termos de leitura e compreensão do texto em inglês, 48% optaram pela classe C, 39% pela classe B e 13% para
a classe A, o que indica que a maioria dos participantes acreditava ter plenas condições
para responder o questionário.
5.2 Aferição dos dados coletados
52
Figura 5.1: Habilidades de Inglês
Os dados coletados na fase de classificação manual demonstram que 74% dos participantes são do sexo masculino enquanto que 26% são do sexo feminino (Figura 5.2).
Figura 5.2: Sexo
E por fim outro dado demográfico solicitado para os participantes foi a faixa etária,
onde 52% responderam ter entre 18 e 25 anos, 26% entre 26 e 35 anos, 8% entre 36 e 45
anos, 8% tem entre 46-55 anos e por fim, 4% tem 17 anos ou menos.
5.2 Aferição dos dados coletados
53
Figura 5.3: Idade
Após a pesquisa demográfica foi iniciado o questionário com as 44 frases do filme Os
IncríveisTM de Pixar Animation StudiosTM .
Entre as 44 frases adotadas para o conjunto de testes todas foram classificadas pelo
menos sete vezes (Anexo J), o que indica que esse foi o número de participantes que, de
fato, realizaram a pesquisa completamente.
A Figura 5.4 ilustra a porcentagem de votos das classes dos atos ilocutórios para as
três primeiras frases do conjunto de teste.
Figura 5.4: Classificação Manual
5.2 Aferição dos dados coletados
54
A Tabela 5.4 a seguir mostra para cada frase a porcentagem referente à classe em
questão. Para a escolha das classes foi utizada uma medida descritiva, a moda, que é
obtida através da inspeção da tabela de distribuição de frequência, ou seja, a(s) classe(s)
que aparece(m) com maior frequência.
Questão
Assertivo
Diretivo
Compromissivo
Expressivo
Declarativo
Total
4
36
36
14
7
7
14
5
46
8
8
23
15
13
6
26
16
16
26
16
14
Tabela 5.4: Três frases classificadas manualmente
Para a questão 4 da pesquisa, a frase “I thought you would be back by eleven”, teve um
total de 14 votos, sendo que 36% consideraram a frase Assertiva, 36% também classificaram como Diretivo, 14% em Compromissio, 7% em Expressivo e 7% em Declarativo. Com
esta classificação pode-se inferir que a escolha mais apropriada para a frase é Assertivo
ou Diretivo.
Na questão 5, a frase “I said I would be back later ” teve um total de 13 votos, sendo
que a classe que teve mais incidência foi a classe Assertiva, com 46%. Já na questão 6, a
frase “I assumed you would be back later ” recebeu 14 votos, e foi classificada com 26% em
Assertivo e 26% em Expressivo. No Anexo G apresenta-se a lista completa com todas as
frases, seus respectivos votos e a frequência de cada classe.
5.2.2
Classificação Aleatória
Para a classificação aleatória foi utilizada as mesmas 44 frases do filme. Todas as
frases foram classificadas de forma aleatória em 100 iterações (Anexo K). A Figura 5.5
mostra as três primeiras frases e suas respectivas porcentagens.
5.2 Aferição dos dados coletados
55
Figura 5.5: Classificação Aleatória
Utilizou-se o mesmo critério de seleção que o da classificação manual (moda).
Frase
Assertivo
Diretivo
Compromissivo
Expressivo
Declarativo
1
19
23
15
18
25
2
15
19
12
28
26
3
23
17
22
15
23
Tabela 5.5: Dados coletados aleatóriamente para o conjunto das 44 falas
A Tabela 5.5, mostra que a frase 1, “I thought you would be back by eleven”, foi
classificada aleatóriamente na classe Declarativo, com 25% de frequência. Já a frase 2, “I
said I would be back later ”, teve 28% de frequência na classe Expressiva. E por fim a frase
“I assumed you would be back later ” obteve a classificação Assertiva ou Diretiva, ambas
com 23% de frequência. No Anexo F apresenta-se a lista completa com todas as frases
classificadas aleatóriamente.
5.3 Resultados Obtidos
5.3
56
Resultados Obtidos
Para avaliar o sistema proposto foram utilizadas as abordagens de classificação manual
e a classificação aleatória, conforme apresentado na Seção 4.3.2.
5.3.1
Considerações acerca dos dados
Após o aferimento de dados, percebe-se que as três primeiras perguntas apresentam
um total de 23 votos, enquanto que a última apenas 7, o que demonstra uma desistência
gradual (Figura 5.6).
Figura 5.6: Análise dos dados da classificação manual
Essa inconsistência dos dados, associada à complexidade para a criação da gramática
livre de contexto, fez com que o escopo de testes fosse reduzido inicialmente para 10 frases.
Porém a complexidade para expandir essa gramática livre de contexto para interpretar
regras semânticas somado ao tempo limitado de desenvolvimento, optou-se (em consenso
com o orientador) por realizar uma análise completa da arquitetura proposta, desta forma,
reduzindo o escopo para as três primeiras frases do conjunto de testes inicialmene
propostos.
5.3 Resultados Obtidos
5.3.2
57
Comparações realizadas
Classificação Aleatória x Classificação Manual A métrica utilizada para realizar a
comparação entre a classificação aleatória e manual foi descrita na Seção 4.3.2.3. A
tabela 5.6 descreve a precisão da classificação aleatória considerando as frases sob a
dimensão da análise.
Frase
Manual
Aleatório
Precisão (%)
Frase 1
Assertivo ou Diretivo
Declarativo
0
Frase 2
Assertivo
Expressiva
0
Frase 3
Assertivo ou Expressivo
Assertivo ou Diretivo
25
Precisão Média
8,33%
Tabela 5.6: Resultados da Classificação Aleatória
Onde as frases um e dois não obtiveram precisão alguma e a frase 3 obteve precisão
de 25%.
Classificação Automática x Classificação Manual Com base na métrica apresentada na Seção 4.3.2.3, a Tabela 5.7 descreve a precisão da classificação automática
considerando as frases sob a dimensão da análise.
Frase
Frase 1
Frase 2
Frase 3
Manual
Assertivo ou Diretivo
Assertivo
Assertivo ou Expressivo
Automática
Assertivo ou Compromissivo
Assertivo, Diretivo, Compromissivo ou Declarativo
Assertivo
Precisão (%)
50
25
100
Precisão Média
58,33%
Tabela 5.7: Resultado da Classificação Automática
Onde a frase um obteve precisão de 50%, a frase dois uma precisão de 25% e a três
de 100%.
5.3.3
Resultados
Em relação aos dados comparativos apresentados nas Tabelas 5.6 e 5.7 percebe-se que
a precisão média apresentada pelo método aleatório foi de 8,33% e pelo método automático
58,33%. Representando uma diferença de 50% em favor do segundo método.
5.4 Considerações
58
Apesar destes resultados indicarem uma grande vantagem para o método automático,
é importante salientar que este estudo foi limitado à um domínio reduzido a três frases.
Tal limitação implica numa impossibilidade de validar esse sistema com maior grau de
confiança.
5.3.4
Limitações
Os problemas apresentados na seção 5.3.1, descrevem a limitação da gramática tanto
sintática quando semântica para análisar novas frases. Outra limitação apresentada pelo
software é que a classificação dos atos de fala é feita apenas em relação ao verbo associado
a representação lógica da frase, ao invés de considerar toda a estrutura gramatical da
mesma.
No aspecto da aprendizagem de máquina não foi possível aplicar o algortimo inicialmente proposto (Q-Learning) devido a quantidade limitada de frases, desta forma foi
implementado o algoritmo descrito no Capítulo 4, porém concluiu-se que esse algoritmo
se aproxima mais do método supervisionado do que por reforço.
5.3.5
Publicações
Artigo completo publicado durante o desenvolviemnto deste trabalho de conclusão de
curso:
MAGRI, D. R. C. ; SILVA, R. E. ; SÁ, C. C. ; HEINEN, Milton Roberto . Uma Revisão Teórica sobre Classificação Textual de Atos de Fala para Atores Virtuais Utilizando
Aprendizagem de Máquina. In: Computer on the Beach, 2012, Florianópolis. Computer
on the Beach, 2012
5.4
Considerações
Neste capítulo foram apresentados os modelos de obtenção dos dados, a coleta, a
aferição e a análise dos mesmos. Foi discutido o motivo da diminuição do escopo de
testes, dos resultados obtidos, e ainda suas limitações.
59
6 Conclusões
De acordo com Iurgel e Marcos (2007), os Atores Digitais Autonômos (ADA) são uma
analogia à atores reais, que de forma autônoma, e por suas interpretações independentes
da situação, podem desempenhar um papel de acordo com determinado script, como parte
da estória.
Este trabalho está inserido no projeto D.R.A.M.A.1 e teve por objetivo principal
estudar alternativas computacionais para a interpretação autônoma de um conjunto de
falas de um roteiro.
Neste trabalho foi realizado um estudo sobre os atos ilocutórios onde possibilitou compreender como identificar as condições comunicativas e também reconhecer as intenções,
permitindo que os ADA tenham mais informações para atuarem.
Também foi apresentado um estudo teórico sobre o processamento de linguagem natural, compreendendo as etapas envolvidas no processo para conseguir extrair informações
de texto. Essas etapas são descritas como Análise Léxica, que separa cada palavra individualmente e a classifica utilizando o método de POS tagging, a Análise Sintática que cria
uma árvore através de uma Gramática Livre de Contexto e por fim a Análise Semântica,
que tenta extrair relações semânticas das árvores geradas na fase anterior.
Outro tópico abordado neste trabalho foi a aprendizagem de máquina, o qual possibilita analisar a classificação entre a interpretação semântica e os templates dos atos de
fala.
Foram desenvolvidos dois módulos auxiliares afim de avaliar o trabalho proposto.
O primeiro foi um questionário onde os participantes escolheram uma das cinco classes
dos atos ilocutórios para cada frase. O segundo módulo desenvolvido tinha por objetivo
classificar aleatóriamente cada frase.
O sistema foi avaliado comparando-se as abordagens aleatória e a automática em
relação a classificação manual obtida pelo questionário. Desta comparação determinou-se
que a precisão média apresentada pelo método automático foi de 50% melhor do que o
1
Developing Rational Agents to Mimic Actors
6 Conclusões
60
método aleatório.
Apesar desses resultados indicarem uma grande vantagem para o método automático,
é importante salientar que este estudo foi limitado a um domínio reduzido, de três frases,
não devendo os resultados serem considerados conclusivos.
Desta forma, sugere-se como trabalhos futuros:
• Adicionar novas regras a gramática livre de contexto associada às análises sintática
e semântica;
• Modificar o template de classificação automática afim de que o mesmo considere
toda a estrutura gramatical da frase e não apenas o verbo.
• Investigar outras abordagens para a aprendizagem de máquina.
• Desenvolver um estudo comparativo mais aprofundado que envolva um domínio de
análise maior (por exemplo, um roteiro completo).
61
A Conjunto das POS tagging
Lista A.1: “Conjunto das POS tagging do NLTK”
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
$ : dollar
$ −$ −−$ A$ C$ HK$ M$ NZ$ S$ U. S . $ US$
’ ’ : c l o s i n g q u o t a t i o n mark
’ ’’
( : opening p a r e n t h e s i s
( [ {
) : closing parenthesis
) ] }
, : comma
,
−−: dash
−−
. : sentence terminator
. ! ?
: : colon or e l l i p s i s
: ;
...
CC: c o n j u n c t i o n , c o o r d i n a t i n g
& ’ n and both but e i t h e r et f o r l e s s minus n e i t h e r nor o r p l u s s o
t h e r e f o r e times v . v e r s u s vs . whether y e t
CD: numeral , c a r d i n a l
21
mid−1890 nine−t h i r t y f o r t y −two one−t e n t h t e n m i l l i o n 0 . 5 one f o r t y −
22
s e v e n 1987 twenty ’ 7 9 z e r o two 78− d e g r e e s e i g h t y −f o u r IX ’ 6 0 s . 0 2 5
23
f i f t e e n 2 7 1 , 1 2 4 dozen q u i n t i l l i o n DM2, 0 0 0 . . .
24
DT: d e t e r m i n e r
25
a l l an a n o t h e r any both d e l each e i t h e r e v e r y h a l f l a many much nary
26
n e i t h e r no some such t h a t t h e them t h e s e t h i s t h o s e
27
28
29
EX: e x i s t e n t i a l t h e r e
there
FW: f o r e i g n word
30
g e m e i n s c h a f t hund i c h j e u x habeas Haementeria Herr K’ ang−s i vous
31
lutihaw a l a i j e jour objets s a l u t a r i s
32
terram f i c h e o u i c o r p o r i s . . .
33
34
f i l l e quibusdam pas t r o p Monte
IN : p r e p o s i t i o n o r c o n j u n c t i o n , s u b o r d i n a t i n g
a s t r i d e among uppon whether out i n s i d e pro d e s p i t e on by t h r o u g h o u t
A Conjunto das POS tagging
62
35
below w i t h i n f o r towards n e a r behind atop around i f l i k e u n t i l below
36
next i n t o i f b e s i d e . . .
37
JJ : a d j e c t i v e o r numeral , o r d i n a l
38
t h i r d i l l −mannered pre−war r e g r e t t a b l e o i l e d c a l a m i t o u s f i r s t s e p a r a b l e
39
e c t o p l a s m i c b a t t e r y −powered p a r t i c i p a t o r y f o u r t h s t i l l −to−be−named
40
m u l t i l i n g u a l multi −d i s c i p l i n a r y
41
...
JJR : a d j e c t i v e , c o m p a r a t i v e
42
b l e a k e r b r a v e r b r e e z i e r b r i e f e r b r i g h t e r b r i s k e r b r o a d e r bumper b u s i e r
43
c a l m e r c h e a p e r c h o o s i e r c l e a n e r c l e a r e r c l o s e r c o l d e r commoner c o s t l i e r
44
c o z i e r creamier crunchier cuter . . .
45
JJS : a d j e c t i v e , s u p e r l a t i v e
46
c a l m e s t c h e a p e s t c h o i c e s t c l a s s i e s t c l e a n e s t c l e a r e s t c l o s e s t commonest
47
corniest c o s t l i e s t crassest c re epi est crudest cutest darkest deadliest
48
dearest deepest densest dinkiest . . .
49
LS : l i s t item marker
50
A A. B B . C C . D E F F i r s t G H I J K One SP−44001 SP−44002 SP−44005
51
SP−44007 Second Third Three Two ∗ a b c d f i r s t f i v e f o u r one s i x t h r e e
52
two
53
MD: modal a u x i l i a r y
54
can cannot c o u l d couldn ’ t d a r e may might must need ought s h a l l s h o u l d
55
shouldn ’ t w i l l would
56
NN: noun , common , s i n g u l a r o r mass
57
common−c a r r i e r cabbage knuckle −d u s t e r Casino afghan shed t h e r m o s t a t
58
i n v e s t m e n t s l i d e humour f a l l o f f s l i c k wind hyena o v e r r i d e subhumanity
59
machinist . . .
60
NNP: noun , proper , s i n g u l a r
61
Motown Venneboerger Czestochwa Ranzer Conchita Trumplane C h r i s t o s
62
O c e a n s i d e Escobar K r e i s l e r Sawyer Cougar Yvette Ervin ODI D a r r y l CTCA
63
Shannon A.K. C . Meltex L i v e r p o o l . . .
64
NNPS: noun , proper , p l u r a l
65
Americans Americas Amharas A m i t y v i l l e s Amusements Anarcho−S y n d i c a l i s t s
66
A n d a l u s i a n s Andes Andruses Angels Animals Anthony A n t i l l e s A n t i q u e s
67
Apache Apaches Apocrypha . . .
68
NNS: noun , common , p l u r a l
69
u n d e r g r a d u a t e s s c o t c h e s b r i c −a−b r a c p r o d u c t s bodyguards f a c e t s c o a s t s
70
d i v e s t i t u r e s storehouses designs clubs fragrances averages
71
s u b j e c t i v i s t s a p p r e h e n s i o n s muses f a c t o r y −jobs . . .
72
73
74
PDT: pre−d e t e r m i n e r
a l l both h a l f many q u i t e such s u r e t h i s
POS : g e n i t i v e marker
A Conjunto das POS tagging
75
76
63
’ ’s
PRP: pronoun , p e r s o n a l
77
h e r s h e r s e l f him h i m s e l f h i s s e l f i t i t s e l f me m y s e l f one o n e s e l f o u r s
78
o u r s e l v e s o w n s e l f s e l f s h e t h e e t h e i r s them t h e m s e l v e s they thou thy us
79
80
81
PRP$ : pronoun , p o s s e s s i v e
h e r h i s mine my our o u r s t h e i r thy your
RB: adverb
82
o c c a s i o n a l l y u n a b a t i n g l y maddeningly a d v e n t u r o u s l y p r o f e s s e d l y
83
s t i r r i n g l y prominently t e c h n o l o g i c a l l y m a g i s t e r i a l l y predominately
84
swiftly fiscally pitilessly
85
...
RBR: adverb , c o m p a r a t i v e
86
f u r t h e r g l o o m i e r g r a n d e r g r a v e r g r e a t e r grimmer h a r d e r h a r s h e r
87
h e a l t h i e r h e a v i e r h i g h e r however l a r g e r l a t e r l e a n e r l e n g t h i e r l e s s −
88
p e r f e c t l y l e s s e r l o n e l i e r l o n g e r l o u d e r l o w e r more . . .
89
RBS : adverb , s u p e r l a t i v e
90
best biggest bluntest e a r l i e s t f a r t h e s t f i r s t furthest hardest
91
h e a r t i e s t h i g h e s t l a r g e s t l e a s t l e s s most n e a r e s t s e c o n d t i g h t e s t w o r s t
92
RP: p a r t i c l e
93
aboard about a c r o s s a l o n g a p a r t around a s i d e a t away back b e f o r e behind
94
by c r o p down e v e r f a s t f o r f o r t h from go h i g h i . e . i n i n t o j u s t l a t e r
95
low more o f f on open out o v e r p e r p i e r a i s i n g s t a r t t e e t h t h a t through
96
under unto up up−pp upon whole with you
97
98
99
100
101
SYM: symbol
% & ’ ’’
’ ’ . ) ) . ∗ + , . < = > @ A[ f j ] U. S U. S . S .R ∗ ∗∗ ∗∗∗
TO: "to" a s p r e p o s i t i o n o r i n f i n i t i v e marker
to
UH: i n t e r j e c t i o n
102
Goodbye Goody Gosh Wow J e e p e r s Jee−s u s Hubba Hey Kee−r e i s t Oops amen
103
huh howdy uh dammit whammo s h u c k s heck anyways whodunnit honey g o l l y
104
man baby d i d d l e hush s o n u v a b i t c h . . .
105
VB: verb , b a s e form
106
ask a s s e m b l e a s s e s s a s s i g n assume a t o n e a t t e n t i o n a v o i d bake b a l k a n i z e
107
bank b e g i n b e h o l d b e l i e v e bend b e n e f i t b e v e l beware b l e s s b o i l bomb
108
b o o s t b r a c e break b r i n g b r o i l brush b u i l d . . .
109
VBD: verb , p a s t t e n s e
110
dipped p l e a d e d swiped regummed soaked t i d i e d convened h a l t e d r e g i s t e r e d
111
c u s h i o n e d e x a c t e d snubbed s t r o d e aimed adopted b e l i e d f i g g e r e d
112
s p e c u l a t e d wore a p p r e c i a t e d c o n t e m p l a t e d . . .
113
114
VBG: verb , p r e s e n t p a r t i c i p l e o r gerund
telegraphing s t i r r i n g focusing angering judging s t a l l i n g l a c t a t i n g
A Conjunto das POS tagging
115
hank erin ’ a l l e g i n g v e e r i n g c a p p i n g a p p r o a c h i n g t r a v e l i n g b e s i e g i n g
116
encrypting i n t e r r u p t i n g e r a s i n g wincing . . .
117
VBN: verb , p a s t p a r t i c i p l e
118
m u l t i h u l l e d d i l a p i d a t e d a e r o s o l i z e d c h a i r e d l a n g u i s h e d p a n e l i z e d used
119
e x p e r i m e n t e d f l o u r i s h e d i m i t a t e d r e u n i f e d f a c t o r e d condensed s h e a r e d
120
u n s e t t l e d primed dubbed d e s i r e d . . .
121
VBP: verb , p r e s e n t t e n s e , not 3 rd p e r s o n s i n g u l a r
122
predominate wrap r e s o r t s u e t w i s t s p i l l c u r e l e n g t h e n brush t e r m i n a t e
123
appear tend s t r a y g l i s t e n o b t a i n c o m p r i s e d e t e s t t e a s e a t t r a c t
124
emphasize mold p o s t p o n e s e v e r return wag . . .
125
VBZ: verb , p r e s e n t t e n s e , 3 rd p e r s o n s i n g u l a r
126
b a s e s r e c o n s t r u c t s marks mixes d i s p l e a s e s s e a l s c a r p s weaves s n a t c h e s
127
slumps s t r e t c h e s a u t h o r i z e s s m o l d e r s p i c t u r e s emerges s t o c k p i l e s
128
seduces f i z z e s uses b o l s t e r s s l a p s speaks pleads . . .
129
130
131
132
133
WDT: WH−d e t e r m i n e r
t h a t what whatever which w h i c h e v e r
WP: WH−pronoun
t h a t what whatever w h a t s o e v e r which who whom whosoever
WP$: WH−pronoun , p o s s e s s i v e
134
whose
135
WRB: Wh−adverb
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
64
how however whence whenever where whereby w h e r e e v e r w h e r e i n w h e r e o f why
‘ ‘ : o p e n i n g q u o t a t i o n mark
‘ ‘‘
$ : dollar
$ −$ −−$ A$ C$ HK$ M$ NZ$ S$ U. S . $ US$
’ ’ : c l o s i n g q u o t a t i o n mark
’ ’’
( : opening p a r e n t h e s i s
( [ {
) : closing parenthesis
) ] }
, : comma
,
−−: dash
−−
. : sentence terminator
. ! ?
: : colon or e l l i p s i s
: ;
...
A Conjunto das POS tagging
155
156
157
158
65
CC: c o n j u n c t i o n , c o o r d i n a t i n g
& ’ n and both but e i t h e r et f o r l e s s minus n e i t h e r nor o r p l u s s o
t h e r e f o r e times v . v e r s u s vs . whether y e t
CD: numeral , c a r d i n a l
159
mid−1890 nine−t h i r t y f o r t y −two one−t e n t h t e n m i l l i o n 0 . 5 one f o r t y −
160
s e v e n 1987 twenty ’ 7 9 z e r o two 78− d e g r e e s e i g h t y −f o u r IX ’ 6 0 s . 0 2 5
161
f i f t e e n 2 7 1 , 1 2 4 dozen q u i n t i l l i o n DM2, 0 0 0 . . .
162
DT: d e t e r m i n e r
163
a l l an a n o t h e r any both d e l each e i t h e r e v e r y h a l f l a many much nary
164
n e i t h e r no some such t h a t t h e them t h e s e t h i s t h o s e
165
166
167
EX: e x i s t e n t i a l t h e r e
there
FW: f o r e i g n word
168
g e m e i n s c h a f t hund i c h j e u x habeas Haementeria Herr K’ ang−s i vous
169
lutihaw a l a i j e jour objets s a l u t a r i s
170
terram f i c h e o u i c o r p o r i s . . .
171
f i l l e quibusdam pas t r o p Monte
IN : p r e p o s i t i o n o r c o n j u n c t i o n , s u b o r d i n a t i n g
172
a s t r i d e among uppon whether out i n s i d e pro d e s p i t e on by t h r o u g h o u t
173
below w i t h i n f o r towards n e a r behind atop around i f l i k e u n t i l below
174
next i n t o i f b e s i d e . . .
175
JJ : a d j e c t i v e o r numeral , o r d i n a l
176
t h i r d i l l −mannered pre−war r e g r e t t a b l e o i l e d c a l a m i t o u s f i r s t s e p a r a b l e
177
e c t o p l a s m i c b a t t e r y −powered p a r t i c i p a t o r y f o u r t h s t i l l −to−be−named
178
m u l t i l i n g u a l multi −d i s c i p l i n a r y
179
...
JJR : a d j e c t i v e , c o m p a r a t i v e
180
b l e a k e r b r a v e r b r e e z i e r b r i e f e r b r i g h t e r b r i s k e r b r o a d e r bumper b u s i e r
181
c a l m e r c h e a p e r c h o o s i e r c l e a n e r c l e a r e r c l o s e r c o l d e r commoner c o s t l i e r
182
c o z i e r creamier crunchier cuter . . .
183
JJS : a d j e c t i v e , s u p e r l a t i v e
184
c a l m e s t c h e a p e s t c h o i c e s t c l a s s i e s t c l e a n e s t c l e a r e s t c l o s e s t commonest
185
corniest c o s t l i e s t crassest c re epi est crudest cutest darkest deadliest
186
dearest deepest densest dinkiest . . .
187
LS : l i s t item marker
188
A A. B B . C C . D E F F i r s t G H I J K One SP−44001 SP−44002 SP−44005
189
SP−44007 Second Third Three Two ∗ a b c d f i r s t f i v e f o u r one s i x t h r e e
190
two
191
MD: modal a u x i l i a r y
192
can cannot c o u l d couldn ’ t d a r e may might must need ought s h a l l s h o u l d
193
shouldn ’ t w i l l would
194
NN: noun , common , s i n g u l a r o r mass
A Conjunto das POS tagging
66
195
common−c a r r i e r cabbage knuckle −d u s t e r Casino afghan shed t h e r m o s t a t
196
i n v e s t m e n t s l i d e humour f a l l o f f s l i c k wind hyena o v e r r i d e subhumanity
197
machinist . . .
198
NNP: noun , proper , s i n g u l a r
199
Motown Venneboerger Czestochwa Ranzer Conchita Trumplane C h r i s t o s
200
O c e a n s i d e Escobar K r e i s l e r Sawyer Cougar Yvette Ervin ODI D a r r y l CTCA
201
Shannon A.K. C . Meltex L i v e r p o o l . . .
202
NNPS: noun , proper , p l u r a l
203
Americans Americas Amharas A m i t y v i l l e s Amusements Anarcho−S y n d i c a l i s t s
204
A n d a l u s i a n s Andes Andruses Angels Animals Anthony A n t i l l e s A n t i q u e s
205
Apache Apaches Apocrypha . . .
206
NNS: noun , common , p l u r a l
207
u n d e r g r a d u a t e s s c o t c h e s b r i c −a−b r a c p r o d u c t s bodyguards f a c e t s c o a s t s
208
d i v e s t i t u r e s storehouses designs clubs fragrances averages
209
s u b j e c t i v i s t s a p p r e h e n s i o n s muses f a c t o r y −jobs . . .
210
211
212
213
214
PDT: pre−d e t e r m i n e r
a l l both h a l f many q u i t e such s u r e t h i s
POS : g e n i t i v e marker
’ ’s
PRP: pronoun , p e r s o n a l
215
h e r s h e r s e l f him h i m s e l f h i s s e l f i t i t s e l f me m y s e l f one o n e s e l f o u r s
216
o u r s e l v e s o w n s e l f s e l f s h e t h e e t h e i r s them t h e m s e l v e s they thou thy us
217
218
219
PRP$ : pronoun , p o s s e s s i v e
h e r h i s mine my our o u r s t h e i r thy your
RB: adverb
220
o c c a s i o n a l l y u n a b a t i n g l y maddeningly a d v e n t u r o u s l y p r o f e s s e d l y
221
s t i r r i n g l y prominently t e c h n o l o g i c a l l y m a g i s t e r i a l l y predominately
222
swiftly fiscally pitilessly
223
...
RBR: adverb , c o m p a r a t i v e
224
f u r t h e r g l o o m i e r g r a n d e r g r a v e r g r e a t e r grimmer h a r d e r h a r s h e r
225
h e a l t h i e r h e a v i e r h i g h e r however l a r g e r l a t e r l e a n e r l e n g t h i e r l e s s −
226
p e r f e c t l y l e s s e r l o n e l i e r l o n g e r l o u d e r l o w e r more . . .
227
RBS : adverb , s u p e r l a t i v e
228
best biggest bluntest e a r l i e s t f a r t h e s t f i r s t furthest hardest
229
h e a r t i e s t h i g h e s t l a r g e s t l e a s t l e s s most n e a r e s t s e c o n d t i g h t e s t w o r s t
230
RP: p a r t i c l e
231
aboard about a c r o s s a l o n g a p a r t around a s i d e a t away back b e f o r e behind
232
by c r o p down e v e r f a s t f o r f o r t h from go h i g h i . e . i n i n t o j u s t l a t e r
233
low more o f f on open out o v e r p e r p i e r a i s i n g s t a r t t e e t h t h a t through
234
under unto up up−pp upon whole with you
A Conjunto das POS tagging
235
236
237
238
239
SYM: symbol
% & ’ ’’
’ ’ . ) ) . ∗ + , . < = > @ A[ f j ] U. S U. S . S .R ∗ ∗∗ ∗∗∗
TO: "to" a s p r e p o s i t i o n o r i n f i n i t i v e marker
to
UH: i n t e r j e c t i o n
240
Goodbye Goody Gosh Wow J e e p e r s Jee−s u s Hubba Hey Kee−r e i s t Oops amen
241
huh howdy uh dammit whammo s h u c k s heck anyways whodunnit honey g o l l y
242
man baby d i d d l e hush s o n u v a b i t c h . . .
243
VB: verb , b a s e form
244
ask a s s e m b l e a s s e s s a s s i g n assume a t o n e a t t e n t i o n a v o i d bake b a l k a n i z e
245
bank b e g i n b e h o l d b e l i e v e bend b e n e f i t b e v e l beware b l e s s b o i l bomb
246
b o o s t b r a c e break b r i n g b r o i l brush b u i l d . . .
247
67
VBD: verb , p a s t t e n s e
248
dipped p l e a d e d swiped regummed soaked t i d i e d convened h a l t e d r e g i s t e r e d
249
c u s h i o n e d e x a c t e d snubbed s t r o d e aimed adopted b e l i e d f i g g e r e d
250
s p e c u l a t e d wore a p p r e c i a t e d c o n t e m p l a t e d . . .
251
VBG: verb , p r e s e n t p a r t i c i p l e o r gerund
252
telegraphing s t i r r i n g focusing angering judging s t a l l i n g l a c t a t i n g
253
han kerin ’ a l l e g i n g v e e r i n g c a p p i n g a p p r o a c h i n g t r a v e l i n g b e s i e g i n g
254
encrypting i n t e r r u p t i n g e r a s i n g wincing . . .
255
VBN: verb , p a s t p a r t i c i p l e
256
m u l t i h u l l e d d i l a p i d a t e d a e r o s o l i z e d c h a i r e d l a n g u i s h e d p a n e l i z e d used
257
e x p e r i m e n t e d f l o u r i s h e d i m i t a t e d r e u n i f e d f a c t o r e d condensed s h e a r e d
258
u n s e t t l e d primed dubbed d e s i r e d . . .
259
VBP: verb , p r e s e n t t e n s e , not 3 rd p e r s o n s i n g u l a r
260
predominate wrap r e s o r t s u e t w i s t s p i l l c u r e l e n g t h e n brush t e r m i n a t e
261
appear tend s t r a y g l i s t e n o b t a i n c o m p r i s e d e t e s t t e a s e a t t r a c t
262
emphasize mold p o s t p o n e s e v e r return wag . . .
263
VBZ: verb , p r e s e n t t e n s e , 3 rd p e r s o n s i n g u l a r
264
b a s e s r e c o n s t r u c t s marks mixes d i s p l e a s e s s e a l s c a r p s weaves s n a t c h e s
265
slumps s t r e t c h e s a u t h o r i z e s s m o l d e r s p i c t u r e s emerges s t o c k p i l e s
266
seduces f i z z e s uses b o l s t e r s s l a p s speaks pleads . . .
267
268
269
270
271
WDT: WH−d e t e r m i n e r
t h a t what whatever which w h i c h e v e r
WP: WH−pronoun
t h a t what whatever w h a t s o e v e r which who whom whosoever
WP$: WH−pronoun , p o s s e s s i v e
272
whose
273
WRB: Wh−adverb
274
how however whence whenever where whereby w h e r e e v e r w h e r e i n w h e r e o f why
A Conjunto das POS tagging
275
276
‘ ‘ : o p e n i n g q u o t a t i o n mark
‘ ‘‘
68
69
B POS tagging para as 44 frases
Lista B.1: “Classificação das tags para a Análise Léxica”
1
I thought you would be back by e l e v e n .
2
[ ( ’ I ’ , ’PRP’ ) , ( ’ thought ’ , ’VBD’ ) , ( ’ you ’ , ’PRP’ ) , ( ’ would ’ , ’MD’ ) , ( ’ be ’ ,
’VB’ ) , ( ’ back ’ , ’RB’ ) , ( ’ by ’ , ’ IN ’ ) , ( ’ e l e v e n ’ , ’RB’ ) , ( ’ . ’ ,
’. ’) ]
3
4
5
I s a i d I would be back l a t e r .
6
[ ( ’ I ’ , ’PRP’ ) , ( ’ s a i d ’ , ’VBD’ ) , ( ’ I ’ , ’PRP’ ) , ( ’ would ’ , ’MD’ ) , ( ’ be ’ , ’VB’ )
, ( ’ back ’ , ’RB’ ) , ( ’ l a t e r ’ , ’ JJ ’ ) , ( ’ . ’ ,
’. ’) ]
7
8
9
10
I assumed you would be back l a t e r .
[ ( ’ I ’ , ’PRP’ ) , ( ’ assumed ’ , ’VBD’ ) , ( ’ you ’ , ’PRP’ ) , ( ’ would ’ , ’MD’ ) , ( ’ be ’ ,
’VB’ ) , ( ’ back ’ , ’RB’ ) , ( ’ l a t e r ’ , ’ JJ ’ ) , ( ’ . ’ ,
’. ’) ]
11
12
13
I f you came back a t a l l !
14
[ ( ’ I f ’ , ’ IN ’ ) , ( ’ you ’ , ’PRP’ ) , ( ’ came ’ , ’VBD’ ) , ( ’ back ’ , ’RP’ ) , ( ’ at ’ , ’ IN
’ ) , ( ’ a l l ’ , ’DT’ ) , ( ’ ! ’ ,
’. ’) ]
15
16
17
You would be back l a t e r .
18
[ ( ’ You ’ , ’PRP’ ) , ( ’ would ’ , ’MD’ ) , ( ’ be ’ , ’VB’ ) , ( ’ back ’ , ’RB’ ) , ( ’ l a t e r ’ , ’
JJ ’ ) , ( ’ . ’ ,
’. ’) ]
19
20
21
Well , I am back . Okay?
22
[ ( ’ Well ’ , ’NNP’ ) , ( ’ , ’ ,
’ , ’ ) , ( ’ I ’ , ’PRP’ ) , ( ’ am’ , ’VBP’ ) , ( ’ back . ’ , ’NNP’ )
, ( ’ Okay ’ , ’NNP’ ) , ( ’ ? ’ ,
’. ’) ]
23
24
25
Is t h i s rubble ?
26
[ ( ’ I s ’ , ’VBZ’ ) , ( ’ t h i s ’ , ’DT’ ) , ( ’ r u b b l e ’ , ’ JJ ’ ) , ( ’ ? ’ ,
27
28
’. ’) ]
B POS tagging para as 44 frases
70
29
I t was j u s t a l i t t l e work out .
30
[ ( ’ I t ’ , ’PRP’ ) , ( ’ was ’ , ’VBD’ ) , ( ’ j u s t ’ , ’RB’ ) , ( ’ a ’ , ’DT’ ) , ( ’ l i t t l e ’ , ’RB
’ ) , ( ’ work ’ , ’NN’ ) , ( ’ out ’ , ’ IN ’ ) , ( ’ . ’ ,
’. ’) ]
31
32
33
Just to stay l o o s e .
34
[ ( ’ Just ’ , ’RB’ ) , ( ’ to ’ , ’TO’ ) , ( ’ stay ’ , ’VB’ ) , ( ’ l o o s e ’ , ’ JJ ’ ) , ( ’ . ’ ,
’. ’) ]
35
36
37
You know how I f e e l about that , Bob .
38
[ ( ’ You ’ , ’PRP’ ) , ( ’ know ’ , ’VBP’ ) , ( ’ how ’ , ’WRB’ ) , ( ’ I ’ , ’PRP’ ) , ( ’ f e e l ’ , ’
VBP’ ) , ( ’ about ’ , ’ IN ’ ) , ( ’ that ’ , ’DT’ ) , ( ’ , ’ ,
( ’. ’ ,
’ , ’ ) , ( ’ Bob ’ , ’NNP’ ) ,
’. ’) ]
39
40
41
Darn you !
42
[ ( ’ Darn ’ , ’NNP’ ) , ( ’ you ’ , ’PRP’ ) , ( ’ ! ’ ,
’. ’) ]
43
44
45
46
We can not blow c o v e r a g a i n .
[ ( ’ We’ , ’PRP’ ) , ( ’ can ’ , ’MD’ ) , ( ’ not ’ , ’RB’ ) , ( ’ blow ’ , ’VB’ ) , ( ’ cover ’ , ’RB
’ ) , ( ’ again ’ , ’RB’ ) , ( ’ . ’ ,
’. ’) ]
47
48
49
The b u i l d i n g was coming down anyway .
50
[ ( ’ The ’ , ’DT’ ) , ( ’ b u i l d i n g ’ , ’NN’ ) , ( ’ was ’ , ’VBD’ ) , ( ’ coming ’ , ’VBG’ ) , ( ’
down ’ , ’ IN ’ ) , ( ’ anyway ’ , ’NN’ ) , ( ’ . ’ ,
’. ’) ]
51
52
53
54
What ? !
[ ( ’ What ’ , ’WP’ ) , ( ’ ? ’ ,
’. ’) , ( ’! ’ ,
’. ’) ]
55
56
57
You knocked out a b u i l d i n g ? !
58
[ ( ’ You ’ , ’PRP’ ) , ( ’ knocked ’ , ’VBD’ ) , ( ’ out ’ , ’RP’ ) , ( ’ a ’ , ’DT’ ) , ( ’ b u i l d i n g
’ , ’NN’ ) , ( ’ ? ’ ,
’. ’) , ( ’! ’ ,
’. ’) ]
59
60
61
I t was on f i r e .
62
[ ( ’ I t ’ , ’PRP’ ) , ( ’ was ’ , ’VBD’ ) , ( ’ on ’ , ’ IN ’ ) , ( ’ f i r e ’ , ’NN’ ) , ( ’ . ’ ,
’. ’) ]
B POS tagging para as 44 frases
71
63
64
65
S t r u c t u r a l l y unsound .
66
[ ( ’ S t r u c t u r a l l y ’ , ’RB’ ) , ( ’ unsound ’ , ’VBD’ ) , ( ’ . ’ ,
’. ’) ]
67
68
69
I t was coming down anyway .
70
[ ( ’ I t ’ , ’PRP’ ) , ( ’ was ’ , ’VBD’ ) , ( ’ coming ’ , ’VBG’ ) , ( ’ down ’ , ’ IN ’ ) , ( ’ anyway
’ , ’NN’ ) , ( ’ . ’ ,
’. ’) ]
71
72
73
T e l l me you have not been l i s t e n i n g t h e p o l i c e s c a n n e r a g a i n .
74
[ ( ’ T e l l ’ , ’NNP’ ) , ( ’ me ’ , ’PRP’ ) , ( ’ you ’ , ’PRP’ ) , ( ’ have ’ , ’VBP’ ) , ( ’ not ’ , ’
RB’ ) , ( ’ been ’ , ’VBN’ ) , ( ’ l i s t e n i n g ’ , ’VBG’ ) , ( ’ the ’ , ’DT’ ) , ( ’ p o l i c e ’ , ’
NN’ ) , ( ’ s c a n n e r ’ , ’NN’ ) , ( ’ again ’ , ’RB’ ) , ( ’ . ’ ,
’. ’) ]
75
76
77
Look .
78
[ ( ’ Look ’ , ’NNP’ ) , ( ’ . ’ ,
’. ’) ]
79
80
81
I perform a p u b l i c s e r v i c e .
82
[ ( ’ I ’ , ’PRP’ ) , ( ’ perform ’ , ’VBP’ ) , ( ’ a ’ , ’DT’ ) , ( ’ p u b l i c ’ , ’ JJ ’ ) , ( ’ s e r v i c e
’ , ’NN’ ) , ( ’ . ’ ,
’. ’) ]
83
84
85
You a c t l i k e i t i s a bad t h i n g .
86
[ ( ’ You ’ , ’PRP’ ) , ( ’ act ’ , ’VBP’ ) , ( ’ l i k e ’ , ’ IN ’ ) , ( ’ i t ’ , ’PRP’ ) , ( ’ i s ’ , ’VBZ
’ ) , ( ’ a ’ , ’DT’ ) , ( ’ bad ’ , ’ JJ ’ ) , ( ’ t h i n g ’ , ’NN’ ) , ( ’ . ’ ,
’. ’) ]
87
88
89
I t i s a bad t h i n g , Bob !
90
[ ( ’ I t ’ , ’PRP’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’ a ’ , ’DT’ ) , ( ’ bad ’ , ’ JJ ’ ) , ( ’ t h i n g ’ , ’NN’ ) ,
(’,’,
’ , ’ ) , ( ’ Bob ’ , ’NNP’ ) , ( ’ ! ’ ,
’. ’) ]
91
92
93
Uprooting our f a m i l y a g a i n s o you can r e l i v e t h e g l o r y days i t i s a v e r y
bad t h i n g !
94
[ ( ’ Uprooting ’ , ’VBG’ ) , ( ’ our ’ , ’PRP$ ’ ) , ( ’ f a m i l y ’ , ’NN’ ) , ( ’ again ’ , ’RB’ ) ,
( ’ so ’ , ’RB’ ) , ( ’ you ’ , ’PRP’ ) , ( ’ can ’ , ’MD’ ) , ( ’ r e l i v e ’ , ’VB’ ) , ( ’ the ’ , ’
B POS tagging para as 44 frases
72
DT’ ) , ( ’ g l o r y ’ , ’NN’ ) , ( ’ days ’ , ’NNS’ ) , ( ’ i t ’ , ’PRP’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’
a ’ , ’DT’ ) , ( ’ very ’ , ’RB’ ) , ( ’ bad ’ , ’ JJ ’ ) , ( ’ t h i n g ’ , ’NN’ ) , ( ’ ! ’ ,
’. ’) ]
95
96
97
R e l i v i n g t h e g l o r y days i s b e t t e r than a c t i n g l i k e they d i d not happened .
98
[ ( ’ R e l i v i n g ’ , ’VBG’ ) , ( ’ the ’ , ’DT’ ) , ( ’ g l o r y ’ , ’NN’ ) , ( ’ days ’ , ’NNS’ ) , ( ’ i s
’ , ’VBZ’ ) , ( ’ b e t t e r ’ , ’RBR’ ) , ( ’ than ’ , ’ IN ’ ) , ( ’ a c t i n g ’ , ’VBG’ ) , ( ’ l i k e
’ , ’ IN ’ ) , ( ’ they ’ , ’PRP’ ) , ( ’ did ’ , ’VBD’ ) , ( ’ not ’ , ’RB’ ) , ( ’ happened ’ , ’
VBN’ ) , ( ’ . ’ ,
’. ’) ]
99
100
101
Yes , they happened .
102
[ ( ’ Yes ’ , ’NNS’ ) , ( ’ , ’ ,
’ , ’ ) , ( ’ they ’ , ’PRP’ ) , ( ’ happened ’ , ’VBD’ ) , ( ’ . ’ ,
’. ’) ]
103
104
105
But t h i s , our f a m i l y , i s what ’ s happening now Bob .
106
[ ( ’ But ’ , ’CC’ ) , ( ’ t h i s ’ , ’DT’ ) , ( ’ , ’ ,
’) , ( ’ , ’ ,
’ , ’ ) , ( ’ our ’ , ’PRP$ ’ ) , ( ’ f a m i l y ’ , ’NN
’ , ’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’ what ’ , ’WP’ ) , ( "’s" , ’VBZ’ ) , ( ’
happening ’ , ’VBG’ ) , ( ’ now ’ , ’RB’ ) , ( ’ Bob ’ , ’NNP’ ) , ( ’ . ’ ,
’. ’) ]
107
108
109
and you a r e m i s s i n g t h i s !
110
[ ( ’ and ’ , ’CC’ ) , ( ’ you ’ , ’PRP’ ) , ( ’ are ’ , ’VBP’ ) , ( ’ m i s s i n g ’ , ’VBG’ ) , ( ’ t h i s
’ , ’DT’ ) , ( ’ ! ’ ,
’. ’) ]
111
112
113
I can not b e l i e v e you do not want t o go t o your own son ’ s g r a d u a t i o n .
114
[ ( ’ I ’ , ’PRP’ ) , ( ’ can ’ , ’MD’ ) , ( ’ not ’ , ’RB’ ) , ( ’ b e l i e v e ’ , ’VB’ ) , ( ’ you ’ , ’
PRP’ ) , ( ’ do ’ , ’VBP’ ) , ( ’ not ’ , ’RB’ ) , ( ’ want ’ , ’VB’ ) , ( ’ to ’ , ’TO’ ) , ( ’ go
’ , ’VB’ ) , ( ’ to ’ , ’TO’ ) , ( ’ your ’ , ’PRP$ ’ ) , ( ’ own ’ , ’ JJ ’ ) , ( ’ son ’ , ’NN’ ) ,
( "’s" , ’POS’ ) , ( ’ g r a d u a t i o n ’ , ’NN’ ) , ( ’ . ’ ,
’. ’) ]
115
116
117
I t ’ s not a g r a d u a t i o n .
118
[ ( ’ I t ’ , ’PRP’ ) , ( "’s" , ’VBZ’ ) , ( ’ not ’ , ’RB’ ) , ( ’ a ’ , ’DT’ ) , ( ’ g r a d u a t i o n ’ , ’
NN’ ) , ( ’ . ’ ,
’. ’) ]
119
120
121
He ’ s moving from t h e f o u r t h g r a d e t o t h e f i f t h g r a d e .
B POS tagging para as 44 frases
122
73
[ ( ’ He ’ , ’PRP’ ) , ( "’s" , ’VBZ’ ) , ( ’ moving ’ , ’VBG’ ) , ( ’ from ’ , ’ IN ’ ) , ( ’ the ’ , ’
DT’ ) , ( ’ f o u r t h ’ , ’ JJ ’ ) , ( ’ grade ’ , ’NN’ ) , ( ’ to ’ , ’TO’ ) , ( ’ the ’ , ’DT’ ) , ( ’
f i f t h ’ , ’ JJ ’ ) , ( ’ grade ’ , ’NN’ ) , ( ’ . ’ ,
’. ’) ]
123
124
125
I t ’ s a ceremony !
126
[ ( ’ I t ’ , ’PRP’ ) , ( "’s" , ’VBZ’ ) , ( ’ a ’ , ’DT’ ) , ( ’ ceremony ’ , ’NN’ ) , ( ’ ! ’ ,
’. ’) ]
127
128
129
It ’ s psychotic !
130
[ ( ’ I t ’ , ’PRP’ ) , ( "’s" , ’VBZ’ ) , ( ’ p s y c h o t i c ’ , ’ JJ ’ ) , ( ’ ! ’ ,
’. ’) ]
131
132
133
They keep c r e a t i n g new ways t o c e l e b r a t e m e d i o c r i t y
134
[ ( ’ They ’ , ’PRP’ ) , ( ’ keep ’ , ’VBP’ ) , ( ’ c r e a t i n g ’ , ’VBG’ ) , ( ’ new ’ , ’ JJ ’ ) , ( ’
ways ’ , ’NNS’ ) , ( ’ to ’ , ’TO’ ) , ( ’ c e l e b r a t e ’ , ’VB’ ) , ( ’ m e d i o c r i t y ’ , ’NN’ ) ]
135
136
137
but i f someone i s g e n u i n e l y e x c e p t i o n a l then
138
[ ( ’ but ’ , ’CC’ ) , ( ’ i f ’ , ’ IN ’ ) , ( ’ someone ’ , ’NN’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’ g e n u i n e l y
’ , ’RB’ ) , ( ’ e x c e p t i o n a l ’ , ’ JJ ’ ) , ( ’ then ’ , ’RB’ ) ]
139
140
141
This i s not about you Bob .
142
[ ( ’ This ’ , ’DT’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’ not ’ , ’RB’ ) , ( ’ about ’ , ’ IN ’ ) , ( ’ you ’ , ’
PRP’ ) , ( ’ Bob ’ , ’NNP’ ) , ( ’ . ’ ,
’. ’) ]
143
144
145
This i s about Dash .
146
[ ( ’ This ’ , ’DT’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’ about ’ , ’ IN ’ ) , ( ’ Dash ’ , ’NNP’ ) , ( ’ . ’ ,
’. ’) ]
147
148
149
You wanna do something f o r Dash ?
150
[ ( ’ You ’ , ’PRP’ ) , ( ’ wan ’ , ’VBD’ ) , ( ’ na ’ , ’NNS’ ) , ( ’ do ’ , ’VBP’ ) , ( ’ something
’ , ’NN’ ) , ( ’ for ’ , ’ IN ’ ) , ( ’ Dash ’ , ’NNP’ ) , ( ’ ? ’ ,
151
152
153
Then l e t him a c t u a l l y compete .
’. ’) ]
B POS tagging para as 44 frases
154
74
[ ( ’ Then ’ , ’RB’ ) , ( ’ l e t ’ , ’VBD’ ) , ( ’ him ’ , ’PRP’ ) , ( ’ a c t u a l l y ’ , ’RB’ ) , ( ’
compete ’ , ’ JJ ’ ) , ( ’ . ’ ,
’. ’) ]
155
156
157
Let him go out f o r s p o r t s .
158
[ ( ’ Let ’ , ’NNP’ ) , ( ’ him ’ , ’PRP’ ) , ( ’ go ’ , ’VBP’ ) , ( ’ out ’ , ’RP’ ) , ( ’ for ’ , ’ IN
’ ) , ( ’ s p o r t s ’ , ’NNS’ ) , ( ’ . ’ ,
’. ’) ]
159
160
161
I w i l l not be made t h e enemy h e r e .
162
[ ( ’ I ’ , ’PRP’ ) , ( ’ w i l l ’ , ’MD’ ) , ( ’ not ’ , ’RB’ ) , ( ’ be ’ , ’VB’ ) , ( ’ made ’ , ’VBN’ )
, ( ’ the ’ , ’DT’ ) , ( ’ enemy ’ , ’NN’ ) , ( ’ here ’ , ’RB’ ) , ( ’ . ’ ,
’. ’) ]
163
164
165
You know why we can not do t h a t .
166
[ ( ’ You ’ , ’PRP’ ) , ( ’ know ’ , ’VBP’ ) , ( ’ why ’ , ’WRB’ ) , ( ’ we ’ , ’PRP’ ) , ( ’ can ’ , ’
MD’ ) , ( ’ not ’ , ’RB’ ) , ( ’ do ’ , ’VB’ ) , ( ’ that ’ , ’DT’ ) , ( ’ . ’ ,
’. ’) ]
167
168
169
Because he would be g r e a t !
170
[ ( ’ Because ’ , ’ IN ’ ) , ( ’ he ’ , ’PRP’ ) , ( ’ would ’ , ’MD’ ) , ( ’ be ’ , ’VB’ ) , ( ’ g r e a t ’ ,
’ JJ ’ ) , ( ’ ! ’ ,
’. ’) ]
171
172
173
This i s not about you !
174
[ ( ’ This ’ , ’DT’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’ not ’ , ’RB’ ) , ( ’ about ’ , ’ IN ’ ) , ( ’ you ’ , ’
PRP’ ) , ( ’ ! ’ ,
’. ’) ]
75
C Árvores Sintáticas
Lista C.1: “Árvores Sintáticas”
1
F r a s e 1 : I thought you would be back by e l e v e n .
2
(S
3
(NP ( Pronoun I ) )
4
(VP
5
( Verb thought )
6
(NP ( Pronoun you ) )
7
( ModelAux would )
8
(PP
( Verb be )
9
(NP ( Adverb back ) ( P r e p o s i t i o n by ) ( Adverb e l e v e n ) ) ) ) )
10
11
12
F r a s e 2 : I s a i d I would be back l a t e r .
13
(S
14
(NP ( Pronoun I ) )
15
(VP
16
( Verb s a i d )
17
(NP ( Pronoun I ) )
18
( ModelAux would )
19
(PP ( Verb be ) (NP ( Adverb back ) ( A d j e c t i v e l a t e r ) ) ) ) )
20
21
F r a s e 3 : I assumed you would be back l a t e r .
22
(S
23
(NP ( Pronoun I ) )
24
(VP
25
( Verb assumed )
26
(NP ( Pronoun you ) )
27
( ModelAux would )
28
(PP ( Verb be ) (NP ( Adverb back ) ( A d j e c t i v e l a t e r ) ) ) ) )
29
30
F r a s e 4 : I f you came back a t a l l !
31
(S
32
(NP ( P r e p o s i t i o n I f ) (NP ( Pronoun you ) ) )
33
(VP
34
( Verb came )
C Árvores Sintáticas
(NP ( Adverb back ) ( P r e p o s i t i o n a t ) ( Adverb ( Det a l l ) ) ) ) )
35
36
37
F r a s e 5 : You would be back l a t e r .
38
(S
39
(NP ( Pronoun You ) )
40
(VP
41
( ModelAux would )
42
( Verb be )
43
(NP ( Adverb back ) ( A d j e c t i v e l a t e r ) ) ) )
44
45
F r a s e 6 : Well , I am back . Okay?
46
(S
47
(NP ( Noun Well ) (NP ( Pronoun I ) ) )
48
(VP ( Verb am) (NP ( Noun back . ) (NP ( A d j e c t i v e ( Noun Okay ) ) ) ) ) )
49
50
Frase 7 : I s t h i s rubble ?
51
( S (NP ( Verb I s ) ) (VP ( Det t h i s ) ( A d j e c t i v e r u b b l e ) ) )
52
53
F r a s e 8 : I t was j u s t a l i t t l e work out .
54
(S
55
(NP ( Pronoun I t ) )
56
(VP
57
( Verb was )
58
(NP
59
( Adverb j u s t )
60
( P r e p o s i t i o n ( Det a ) ( Adverb l i t t l e ) )
61
( Adverb ( Noun work ) ( P r e p o s i t i o n out ) ) ) ) )
62
63
Frase 9 : Just to stay l o o s e .
64
(S
65
(NP ( Adverb J u s t ) ( A d j e c t i v e (TO t o ) ) )
66
(VP ( Verb s t a y ) (NP ( A d j e c t i v e l o o s e ) ) ) )
67
68
F r a s e 1 0 : You know how I f e e l about that , Bob .
69
(S
70
(NP ( Pronoun You ) )
71
(VP
72
( Verb know )
73
(NP
74
( Adverb how )
76
C Árvores Sintáticas
75
(NP ( Pronoun I ) )
76
(VP
77
( Verb f e e l )
78
(NP
79
( P r e p o s i t i o n about )
80
(NP ( Adverb ( Det t h a t ) ) ( A d j e c t i v e ( Noun Bob ) ) ) ) ) ) ) )
77
78
D Coleta de dados - Classificação Manual
Tabela D.1: Dados coletados manualmente para conjunto de 44 falas
Questão
Assertivo
Diretivo
Compromissivo
Expressivo
Declarativo
Total
4
05
05
02
01
01
14
5
06
01
01
03
02
13
6
03
02
02
03
02
12
7
01
01
01
07
00
10
8
03
04
02
01
00
10
9
03
01
02
03
02
11
10
02
03
02
00
02
09
11
04
01
00
00
04
09
12
03
02
01
02
01
09
13
01
01
01
04
02
09
14
01
01
00
07
00
09
15
05
01
03
00
00
09
16
05
00
00
00
03
08
17
01
04
00
03
00
08
18
01
04
02
01
01
09
19
06
00
01
00
01
08
20
06
00
00
00
02
08
21
07
00
00
00
01
08
22
01
05
00
01
01
08
23
02
03
02
01
00
08
24
04
00
01
01
02
08
25
03
02
00
02
01
08
26
01
02
01
03
01
08
27
01
00
00
06
01
08
28
02
00
01
03
02
08
29
06
00
01
00
01
08
30
04
01
02
01
00
08
31
02
03
01
01
01
08
32
01
02
02
03
00
08
33
04
00
00
00
04
08
34
05
00
02
00
01
08
35
02
03
00
03
00
08
D Coleta de dados - Classificação Manual
79
Tabela D.1 – continuação da página anterior
Questão
Assertivo
Diretivo
Compromissivo
Expressivo
Declarativo
Total
36
02
01
00
04
01
08
37
04
00
00
02
03
09
38
01
00
02
02
03
08
39
03
02
01
01
01
08
40
04
00
01
00
02
07
41
00
03
03
01
00
07
42
01
03
00
02
01
07
43
01
04
01
01
00
07
44
02
00
01
03
01
07
45
00
03
02
02
00
07
46
01
01
00
03
02
07
47
01
01
00
04
01
07
80
E Coleta de dados - Classificação Aleatória
Tabela E.1: Dados coletados aleatóriamente para conjunto de 44 falas
Frase
Assertivo
Diretivo
Compromissivo
Expressivo
Declarativo
1
19
23
15
18
25
2
15
19
12
28
26
3
23
17
22
15
23
4
22
17
26
19
16
5
17
17
23
23
20
6
22
20
19
18
21
7
20
15
25
20
20
8
20
23
21
20
16
9
18
20
15
22
25
10
19
19
19
24
19
11
17
18
25
21
19
12
20
22
25
14
19
13
18
23
17
24
18
14
24
24
15
21
16
15
18
17
27
20
18
16
25
20
20
15
20
17
14
27
15
23
21
18
22
15
24
17
22
19
20
24
19
17
20
20
15
21
31
16
17
21
16
17
21
24
22
22
28
19
17
13
23
23
15
19
27
18
21
24
17
22
22
18
21
25
27
22
16
14
21
26
19
17
12
17
35
27
23
23
16
22
16
28
23
17
23
19
18
29
19
16
20
20
25
30
17
17
23
23
20
31
12
24
17
25
22
32
25
17
20
15
23
E Coleta de dados - Classificação Aleatória
81
Tabela E.1 – continuação da página anterior
Frase
Assertivo
Diretivo
Compromissivo
Expressivo
Declarativo
33
23
23
19
14
21
34
21
14
19
18
28
35
21
23
20
14
22
36
17
14
21
22
26
37
23
14
22
20
21
38
16
22
22
20
20
39
25
18
18
17
22
40
20
24
20
15
21
41
25
16
19
20
20
42
21
25
18
13
23
43
25
17
17
19
22
44
19
21
14
28
18
82
F Coleta dados em porcentagem - Classificação
Aleatória
Tabela F.1: Dados coletados aleatóriamente para conjunto de 44 falas
Frase
Assertivo
Diretivo
Compromissivo
Expressivo
Declarativo
1
19
23
15
18
25
2
15
19
12
28
26
3
23
17
22
15
23
4
22
17
26
19
16
5
17
17
23
23
20
6
22
20
19
18
21
7
20
15
25
20
20
8
20
23
21
20
16
9
18
20
15
22
25
10
19
19
19
24
19
11
17
18
25
21
19
12
20
22
25
14
19
13
18
23
17
24
18
14
24
24
15
21
16
15
18
17
27
20
18
16
25
20
20
15
20
17
14
27
15
23
21
18
22
15
24
17
22
19
20
24
19
17
20
20
15
21
31
16
17
21
16
17
21
24
22
22
28
19
17
13
23
23
15
19
27
18
21
24
17
22
22
18
21
25
27
22
16
14
21
26
19
17
12
17
35
27
23
23
16
22
16
28
23
17
23
19
18
29
19
16
20
20
25
30
17
17
23
23
20
F Coleta dados em porcentagem - Classificação Aleatória
83
Tabela F.1 – continuação da página anterior
Frase
Assertivo
Diretivo
Compromissivo
Expressivo
Declarativo
31
12
24
17
25
22
32
25
17
20
15
23
33
23
23
19
14
21
34
21
14
19
18
28
35
21
23
20
14
22
36
17
14
21
22
26
37
23
14
22
20
21
38
16
22
22
20
20
39
25
18
18
17
22
40
20
24
20
15
21
41
25
16
19
20
20
42
21
25
18
13
23
43
25
17
17
19
22
44
19
21
14
28
18
84
G Coleta dados em porcentagem Classificação Manual
Tabela G.1: Dados coletados manualmente para conjunto de 44 falas
Frase
Assertivo
Diretivo
Compromissivo
Expressivo
Declarativo
Total
4
35,7142857143
35,7142857143
14,2857142857
7,1428571429
7,1428571429
14
5
46,1538461538
7,6923076923
7,6923076923
23,0769230769
15,3846153846
13
6
25
16,6666666667
16,6666666667
25
16,6666666667
12
7
10
10
10
70
0
10
8
30
40
20
10
0
10
9
27,2727272727
9,0909090909
18,1818181818
27,2727272727
18,1818181818
11
10
22,2222222222
33,3333333333
22,2222222222
0
22,2222222222
9
11
44,4444444444
11,1111111111
0
0
44,4444444444
9
12
33,3333333333
22,2222222222
11,1111111111
22,2222222222
11,1111111111
9
13
11,1111111111
11,1111111111
11,1111111111
44,4444444444
22,2222222222
9
14
11,1111111111
11,1111111111
0
77,7777777778
0
9
15
55,5555555556
11,1111111111
33,3333333333
0
0
9
16
62,5
0
0
0
37,5
8
17
12,5
50
0
37,5
0
8
18
11,1111111111
44,4444444444
22,2222222222
11,1111111111
11,1111111111
9
19
75
0
12,5
0
12,5
8
20
75
0
0
0
25
8
21
87,5
0
0
0
12,5
8
22
12,5
62,5
0
12,5
12,5
8
23
25
37,5
25
12,5
0
8
24
50
0
12,5
12,5
25
8
25
37,5
25
0
25
12,5
8
26
12,5
25
12,5
37,5
12,5
8
27
12,5
0
0
75
12,5
8
28
25
0
12,5
37,5
25
8
29
75
0
12,5
0
12,5
8
30
50
12,5
25
12,5
0
8
31
25
37,5
12,5
12,5
12,5
8
32
12,5
25
25
37,5
0
8
G Coleta dados em porcentagem - Classificação Manual
85
Tabela G.1 – continuação da página anterior
Frase
Assertivo
Diretivo
Compromissivo
Expressivo
Declarativo
Total
33
50
0
0
0
50
8
34
62,5
0
25
0
12,5
8
35
25
37,5
0
37,5
0
8
36
25
12,5
0
50
12,5
8
37
44,4444444444
0
0
22,2222222222
33,3333333333
9
38
12,5
0
25
25
37,5
8
39
37,5
25
12,5
12,5
12,5
8
40
57,1428571429
0
14,2857142857
0
28,5714285714
7
41
0
42,8571428571
42,8571428571
14,2857142857
0
7
42
14,2857142857
42,8571428571
0
28,5714285714
14,2857142857
7
43
14,2857142857
57,1428571429
14,2857142857
14,2857142857
0
7
44
28,5714285714
0
14,2857142857
42,8571428571
14,2857142857
7
45
0
42,8571428571
28,5714285714
28,5714285714
0
7
46
14,2857142857
14,2857142857
0
42,8571428571
28,5714285714
7
47
14,2857142857
14,2857142857
0
57,1428571429
14,2857142857
7
86
H Fórmulario de Consentimento
Lista H.1: “Consent Form”
1
D.R.A.M.A. − D e v e l o p i n g R a t i o n a l Agents t o Mimic A c t o r s
2
3
Consent Form
4
5
Dino Magri and R o g e r i o Eduardo da S i l v a
6
Santa C a t a r i n a S t a t e U n i v e r s i t y (UDESC) − B r a z i l
7
8
9
What w i l l happen i f you t a k e p a r t i n t h e study ?
I f you a g r e e t o p a r t i c i p a t e i n t h i s study , you w i l l be asked t o c o m p l e t e an
o n l i n e s u r v e y . The s u r v e y i n v o l v e s r e a d i n g 44 s e n t e n c e s o f a
10
s c e n e from The I n c r e d i b l e s ( P i x a r and Disney ) f e a t u r e a n i m a t i o n movie , and
c l a s s i f y them i n t o one o f f i v e c l a s s e s o f s p e e c h a c t s . The
11
s u r v e y i s e x p e c t e d t o t a k e between 20 and 25 minutes t o c o m p l e t e . Your
a ns w er s w i l l be c o l l e c t e d and s t o r e d f o r a n a l y s i s .
12
13
Risks
14
This study w i l l i n t r o d u c e no a d d i t i o n a l r i s k beyond normal computer u s e .
15
16
Confidentiality
17
None i d e n t i f i c a t i o n i n f o r m a t i o n w i l l be c o l l e c t e d about you a t any time .
You w i l l asked t o i n f o r m your gender , age r a n g e and a l s o what a r e
18
your E n g l i s h s k i l l s i n terms o f u n d e r s t a n d i n g and r e a d i n g ( i n a c c o r d a n c e
with Europass ) , but t h i s data w i l l n e v e r be a v a i l a b l e t o t h e p u b l i c
except in groups o f a n a l y s i s .
19
20
Compensation
21
No compensation w i l l be p r o v i d e d f o r p a r t i c i p a t i n g i n t h i s study .
22
23
What i f you a r e a UDESC s t u d e n t ?
24
P a r t i c i p a t i o n i n t h i s study i s not a c o u r s e r e q u i r e m e n t and your
p a r t i c i p a t i o n w i l l not a f f e c t your g r a d e s o r s t a n d i n g a s a s t u d e n t .
25
26
What i f you a r e a UDESC employee ?
H Fórmulario de Consentimento
27
87
P a r t i c i p a t i o n i n t h i s study i s not a r e q u i r e m e n t , and your p a r t i c i p a t i o n
w i l l not a f f e c t your j o b .
28
29
30
What i f you have q u e s t i o n s about t h i s study ?
I f you have q u e s t i o n s a t any time about t h e study o r t h e p r o c e d u r e s , you
may c o n t a c t t h e r e s e a r c h e r s :
31
32
Dino Magri : dinomagri@gmail . com
33
R o g e r i o Eduardo da S i l v a : r s i l v a @ j o i n v i l l e . u d e s c . br
34
35
Consent To P a r t i c i p a t e
36
By c l i c k i n g t h e " Agree " button below , you w i l l b e g i n t h e s u r v e y . You a r e
a g r e e i n g t o t h e f o l l o w i n g s t a t e m e n t : "I have read and understand
37
the above information . I know that I can keep a copy of this consent form.
I agree to freely participate in the survey understanding that I have no
obligation to do it nor should I expect any benefits from doing so. I
also understand and expect that my answers and data should be treated as
confidential and not be made public other than as part of an analysis
of the whole set of collected answers during the survey ."
88
I Conjunto de Falas do Filme os Incríveis
Tabela I.1: Conjunto de falas retiradas do Os IncríveisTM de Pixar Animation StudiosTM
Personagem
Frase
Helen
I thought you’d be back by eleven.
Bob
I said I’d be back later.
Helen
I assumed you’d be back later.
Helen
If you came back at all!
Helen
You’d be back later.
Bob
Well, I’m back. Okay?
Helen
Is this rubble?
Bob
It was just a little work out.
Bob
Just to stay loose.
Helen
You know how I feel about that, Bob.
Helen
Darn you!
Helen
We can’t blow cover again.
Bob
The building was coming down anyway.
Helen
What?!
Helen
You knocked out a building ?!
Bob
It was on fire.
Bob
Structurally unsound.
Bob
It was coming down anyway.
Helen
Tell me you haven’t been listening the police scanner again.
Bob
Look.
Bob
I perform a public service.
Bob
You act like it is a bad thing.
Helen
It is a bad thing, Bob!
Helen
Uprooting our family again so you can relive the glory days it is a very bad thing!
Bob
Reliving the glory days is better than acting like they didn’t happened.
Helen
Yes, they happened.
Helen
But this, our family, is what’s happening now Bob.
Helen
and you are missing this!
Helen
I can’t believe you don’t want to go to your own son’s graduation.
Bob
It’s not a graduation.
Bob
He’s moving from the fourth grade to the fifth grade.
Helen
It’s a ceremony!
I Conjunto de Falas do Filme os Incríveis
Tabela I.1 – continuação da página anterior
Personagem
Frase
Bob
It’s psychotic!
Bob
They keep creating new ways to celebrate mediocrity
Bob
but if someone is genuinely exceptional then
Helen
This is not about you Bob.
Helen
This is about Dash.
Bod
You wanna do something for Dash?
Bob
Then let him actually compete.
Bob
Let him go out for sports.
Helen
I will not be made the enemy here.
Helen
You know why we can’t do that.
Bob
Because he’d be great!
Helen
This is not about you!
89
90
J Gráfico - Classificação Manual
Figura J.1: Classificação Manual
91
K Gráfico - Classificação Aleatória
Figura K.1: Classificação Aleatória
Referências Bibliográficas
AUSTIN, J.; URMSON, J. How to do things with words. [S.l.]: Harvard University Press, 1978. ISBN
9780674411524.
BADLER, N. Virtual humans for animation, ergonomics, and simulation. In: Proceedings of the
1997 IEEE Workshop on Motion of Non-Rigid and Articulated Objects (NAM ’97). Washington,
DC, USA: IEEE Computer Society, 1997. (NAM ’97), p. 28–. ISBN 0-8186-8040-7. Disponível em:
<http://dl.acm.org/citation.cfm?id=523987.883064>.
BEVACQUA, E.; MANCINI, M.; NIEWIADOMSKI, R.; PELACHAUD, C. An expressive ECA showing
complex emotions. In: Proceedings of the AISB Annual Convention, Newcastle, UK. [S.l.: s.n.], 2007. p.
208–216.
BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python. [S.l.]: O’Reilly, 2009.
(O’Reilly Series). ISBN 9780596516499.
BOBROW, D. G. Natural Language Input for a Computer Problem Solving System. Cambridge, MA,
USA, 1964.
BREDENKAMP, A.; MARKANTONATOU, S.; SADLER, L. Lexical rules: What are they? In: In
COLING-1996. [S.l.: s.n.], 1996. p. 163–168.
CAMPONOGARA, E.; SERRA, M. R. G. Aprendizagem por reforço: Uma primeira introdução.
Universidade Federal de Santa Catarina, Florianópolis/SC, 2005.
CASSELL, J. Embodied conversational agents. [S.l.]: MIT Press, 2000. ISBN 9780262032780.
CHOMSKY, N. Three models for the description of language. Information Theory, IRE Transactions on,
IEEE, v. 2, n. 3, p. 113–124, set. 1956. Disponível em: <http://dx.doi.org/10.1109/TIT.1956.1056813>.
COHEN, W.; CARVALHO, V.; MITCHELL, T. Learning to classify email into “speech acts”. In:
Proceedings of EMNLP. [S.l.: s.n.], 2004. v. 4.
DEVILLERS, L.; VASILESCU, I.; LAMEL, L. Annotation and detection of emotion in a task-oriented
human-human dialog corpus. In: ISLE workshop on dialogue tagging. Edinburgh. [S.l.: s.n.], 2002.
FISHMAN, G. S. Monte Carlo: concepts, algorithms, and applications. [S.l.]: Springer-Verlag, 1996.
(Springer series in operations research). ISBN 9780387945279.
GALESIBIRD, O. S. e T. Python e Django - Desenvolvimento ágil de aplicações web. [S.l.]: Novatec,
2010. ISBN 9788575222478.
GEBHARD, P.; KIPP, M.; KLESEN, M.; RIST, T. Adding the emotional dimension to scripting
character dialogues. In: Intelligent Virtual Agents. [S.l.: s.n.], 2003. p. 48–56.
REFERÊNCIAS BIBLIOGRÁFICAS
93
HUANG, P. Generating Humanoid Animation with Versatile Motions in a Virtual Environment.
Tese (Master in Computer Science) — National Chengchi University, 2003. Disponível em:
<http://nccur.lib.nccu.edu.tw/handle/140.119/32633>.
IURGEL, I.; MARCOS, A. Employing personality-rich virtual persons - new tools required. Computers
& Graphics, v. 31, n. 6, p. 827–836, 2007.
LI, T.; LIAO, M.; LIAO, C. An extensible scripting language for interactive animation in a
speech-enabled virtual environment. In: Multimedia and Expo, 2004. ICME’04. 2004 IEEE International
Conference on. [S.l.: s.n.], 2004. v. 2, p. 851–854.
MARSLAND, S. Machine learning: an algorithmic perspective. [S.l.]: CRC Press, 2009. (Chapman &
Hall/CRC machine learning & pattern recognition series). ISBN 9781420067187.
MILLER, G. A. Wordnet: A lexical database for english. Communications of the ACM, v. 38, p. 39–41,
1995.
NETO, J. M. d. O.; TONIN, S. D.; PRIETCH, S. S. Processamento de linguagem natural e suas
aplicações computacionais. I Escola Regional de Informática - Regional Norte 1, Manaus/AM, 2009.
NIJHOLT, A. Human and virtual agents interacting in the virtuality continuum. Environments, Citeseer,
n. 1, p. 551–558, 2005. Disponível em: <http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.78.6041&rep=rep1&type=pdf>.
PICARD, R. W. Affective computing. MIT Media Laboratory, 1995.
PRASOLOVA-FøRLAND, E.; AL. et. Virtual humans vs. anthropomorphic robots for education: how
can they work together? 2005.
RICH, E.; KNIGHT, K. Inteligencia artificial. [S.l.]: McGraw-Hill, 1994. ISBN 9788448118587.
ROSSUM, G. V. The Python Language Reference: Release 2.7.2. Python Software Foundation, 2009.
RUSSELL, S.; NORVIG, P. Inteligência Artificial. [S.l.]: CAMPUS, 2004. ISBN 9788535211771.
SEARLE, J. Speech acts: an essay in the philosophy of language. [S.l.]: Cambridge University Press,
1969. ISBN 9780521096263.
SEARLE, J. R. A Classification of Illocutionary Acts. Language in Society, Cambridge University Press,
v. 5, n. 1, 1976. ISSN 00474045. Disponível em: <http://dx.doi.org/10.2307/4166848>.
SEOL, Y. S.; KIM, D. J.; KIM, H. W. Emotion Recognition from Text Using Knowledge-based
ANN. In: Proceedings of 23rd International Technical Conference on CircuitsSystems Computers
and Communications. ITC-CSCC 2008, 2008. p. 1569–1572. Disponível em: <http://www.ieice.org/proceedings/ITC-CSCC2008/pdf/p1569\ P2-43.pdf>.
SNIEDOVICH, M. Dynamic programming: foundations and principles. [S.l.]: Taylor and Francis, 2009.
(Pure and Applied Mathematics). ISBN 9780824740993.
SUBASIC, P.; HUETTNER, A. Affect analysis of text using fuzzy semantic typing. Fuzzy Systems,
IEEE Transactions on, v. 9, n. 4, p. 483–496, 2001.
REFERÊNCIAS BIBLIOGRÁFICAS
94
SUTTON, R.; BARTO, A. Reinforcement learning: an introduction. [S.l.]: MIT Press, 1998. (Adaptive
computation and machine learning). ISBN 9780262193986.
TAO, J.; TAN, T. Emotional chinese talking head system. In: Proceedings of the 6th international
conference on Multimodal interfaces. New York, NY, USA: ACM, 2004. (ICMI ’04), p. 273–280. ISBN
1-58113-995-0. Disponível em: <http://doi.acm.org/10.1145/1027933.1027978>.
TSOHATZIDIS, S. Foundations of speech act theory: philosophical and linguistic perspectives. [S.l.]:
Routledge, 1994. ISBN 9780415095242.
TURING, A. M. Computing Machinery and Intelligence. 1950. 433–460 p. One of the most influential
papers in the history of the cognitive sciences: http://cogsci.umn.edu/millennium/final.html. Disponível
em: <http://cogprints.org/499/>.
VIEIRA, R.; VERA. Lingüística computacional: princípios e aplicações. In: ANA TERESA MARTINS
AND DÍBIO LEANDRO BORGES. As Tecnologias da informação e a questão social. [S.l.], 2001.
WEIZENBAUM, J. Eliza – a computer program for the study of natural language communication
between man and machine. Commun. ACM, ACM, New York, NY, USA, v. 9, p. 36–45, January 1966.
ISSN 0001-0782. Disponível em: <http://doi.acm.org/10.1145/365153.365168>.
ZHE, X.; BOUCOUVALAS, A. Text-to-emotion engine for real time internet communication. In:
Proceedings of International Symposium on Communication Systems, Networks and DSPs. [S.l.: s.n.],
2002. p. 164–168.

Documentos relacionados