Classificação textual de atos de fala para atores - drama
Transcrição
Classificação textual de atos de fala para atores - drama
Dino Raffael Cristofoleti Magri Classificação textual de atos de fala para atores virtuais utilizando aprendizagem de máquina Joinville 2012 Dino Raffael Cristofoleti Magri Classificação textual de atos de fala para atores virtuais utilizando aprendizagem de máquina Relatório de Trabalho de Conclusão de Curso (TCC) apresentado ao Curso de Graduação em Ciência da Computação, da Universidade do Estado de Santa Catarina (UDESC), como requisito parcial da disciplina de Trabalho de Conclusão de Curso. Orientador: Profo Rogério Eduardo da Silva Joinville 2012 Dino Raffael Cristofoleti Magri Classificação textual de atos de fala para atores virtuais utilizando aprendizagem de máquina Relatório de Trabalho de Conclusão de Curso (TCC) apresentado ao Curso de Ciência da Computação da UDESC, como requisito parcial para a obtenção do grau de BACHAREL em Ciência da Computação. Aprovado em BANCA EXAMINADORA Profo Rogério Eduardo da Silva Profo Cristiano Damiani Vasconcellos Profo Milton Roberto Heinen “É um tanto divertido fazer o impossível” – Walt Disney (1901-1966) “A resposta à questão sobre a Vida, o Universo e Tudo mais é 42” – Douglas Adams, em O guia do mochileiro das galáxias Agradecimentos Agradeço minha família e namorada pela paciência, amor e carinho, que tiveram durante essa fase, sempre incentivando e acreditando no meu trabalho. Ao professor orientador, amigo e mentor Rogério Eduardo da Silva pela contribuição no desenvolvimento deste projeto e também pelas ótimas discussões construtivas. Ao grupo Colméia e o coletivo MuSA que possibilitaram um aprendizado constante e grandes amizades. Resumo Este trabalho apresenta um estudo para a classificação textual de atos de fala utilizando processamento de linguagem natural e métodos de aprendizagem de máquina. Cada texto foi classificado em uma de cinco possíveis classes dos atos ilocutórios utilizando aprendizagem de máquina para aprender com as críticas. O sistema proposto define a utilização da análise léxica, sintática e semântica no processamento da linguagem natural. Para a classificação automática foi desenvolvido um novo algoritmo. Para o escopo e o conjunto de testes escolheu-se utilizar três falas de uma cena do filme Os IncríveisTM . Demonstrou-se que com esta abordagem, a classificação automática apresentou um melhor desempenho do que o puramente aleatório em relação à classificação manual. Palavras-chave: Agentes Inteligentes, Processamento de Linguagem Natural, Aprendizagem de Máquina, Atos de Fala Abstract This paper presents a study on text classification of speech acts using natural language processing and machine learning methods. Each text was classified into one of five possible classes of illocutionary acts using machine learning to learn from criticism. The proposed system defines the use of lexical, syntactic and semantic analysis in natural language processing. For the automatic classification has developed a new algorithm. As the scope and tests set have been chosen three dialogue lines of a scene from the animation movie The IncreadibleTM . It has bem shown that, with this approach, the automatic classification has presented a better performance than purely random relatively to manual classification. Keywords: Intelligence Agents, Natural Language Processing, Machine Learning, Speech Acts Sumário Lista de Tabelas 10 Lista de Abreviaturas 11 1 Introdução 12 1.1 Trabalhos Correlacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.3 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2 Atores Digitais Autônomos 15 2.1 Humanos Virtuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2 Atores Digitais Autônomos . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2.1 2.3 Speech Acts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3.1 2.4 O Projeto D.R.A.M.A. . . . . . . . . . . . . . . . . . . . . . . . . . 17 Atos Ilocutórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3 Técnicas Computacionais 3.1 3.2 22 Processamento de Linguagem Natural . . . . . . . . . . . . . . . . . . . . . 22 3.1.1 Análise Léxica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.1.2 Análise Sintática . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.1.3 Análise Semântica 3.1.4 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Aprendizagem de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2.1 Aprendizagem por reforço . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.1.1 3.2.2 Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.2.2.1 3.3 O problema de Aprendizagem por Reforço . . . . . . . . . 34 Diferença Temporal . . . . . . . . . . . . . . . . . . . . . 37 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4 Sistema Proposto 39 4.1 Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.2 Linguagens, Bibliotecas e Framework . . . . . . . . . . . . . . . . . . . . . 45 4.3 4.4 4.2.1 Linguagem Python . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.2.2 Framework Django . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.2.3 WordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.2.4 Natural Language ToolKit . . . . . . . . . . . . . . . . . . . . . . . 46 Metodologia de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.3.1 Conjunto de testes . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.3.2 Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.3.2.1 Classificação Manual . . . . . . . . . . . . . . . . . . . . . 47 4.3.2.2 Classificação Aleatória . . . . . . . . . . . . . . . . . . . . 48 4.3.2.3 Métrica Utilizada . . . . . . . . . . . . . . . . . . . . . . . 49 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 5 Testes e Resultados 5.1 5.2 50 Coleta de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5.1.1 Classificação Manual . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5.1.2 Classificação Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . 51 Aferição dos dados coletados . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5.3 5.4 5.2.1 Classificação Manual . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5.2.2 Classificação Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . 54 Resultados Obtidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.3.1 Considerações acerca dos dados . . . . . . . . . . . . . . . . . . . . 56 5.3.2 Comparações realizadas . . . . . . . . . . . . . . . . . . . . . . . . 57 5.3.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.3.4 Limitações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.3.5 Publicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 6 Conclusões 59 A Conjunto das POS tagging 61 B POS tagging para as 44 frases 69 C Árvores Sintáticas 75 D Coleta de dados - Classificação Manual 78 E Coleta de dados - Classificação Aleatória 80 F Coleta dados em porcentagem - Classificação Aleatória 82 G Coleta dados em porcentagem - Classificação Manual 84 H Fórmulario de Consentimento 86 I 88 Conjunto de Falas do Filme os Incríveis J Gráfico - Classificação Manual 90 K Gráfico - Classificação Aleatória 91 Referências Bibliográficas 92 Lista de Figuras 2.1 Taxonomia dos Humanos Virtuais . . . . . . . . . . . . . . . . . . . . . . . 15 2.2 Arquitetura projeto D.R.A.M.A. . . . . . . . . . . . . . . . . . . . . . . . . 17 3.1 Hierárquia de Chomsky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2 Interação agente-ambiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.1 Arquitetura do módulo de anotação do projeto D.R.A.M.A. . . . . . . . . 39 4.2 Arquitetura Aprendizagem de Máquina . . . . . . . . . . . . . . . . . . . . 44 4.3 Métrica para dimensão de avaliação . . . . . . . . . . . . . . . . . . . . . . 49 5.1 Habilidades de Inglês . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 5.2 Sexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 5.3 Idade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.4 Classificação Manual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.5 Classificação Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.6 Análise dos dados da classificação manual . . . . . . . . . . . . . . . . . . 56 J.1 Classificação Manual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 K.1 Classificação Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 Lista de Tabelas 3.1 Conjunto Simplificado de tags . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2 Conjunto de categorias sintáticas . . . . . . . . . . . . . . . . . . . . . . . 25 3.3 Categorias Sintática, Tipos Semânticos e a Forma quase-lógica . . . . . . . 29 4.1 As três primeiras falas com os POS Taggings associados. . . . . . . . . . . 40 4.2 Conjunto de falas retiradas do Os IncríveisTM de Pixar Animation StudiosTM 47 5.1 Dados demográficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5.2 Dados coletados manualmente para conjunto de 44 falas . . . . . . . . . . . 51 5.3 Dados coletados aleatóriamente para conjunto de 44 falas . . . . . . . . . . 51 5.4 Três frases classificadas manualmente . . . . . . . . . . . . . . . . . . . . . 54 5.5 Dados coletados aleatóriamente para o conjunto das 44 falas . . . . . . . . 55 5.6 Resultados da Classificação Aleatória . . . . . . . . . . . . . . . . . . . . . 57 5.7 Resultado da Classificação Automática . . . . . . . . . . . . . . . . . . . . 57 D.1 Dados coletados manualmente para conjunto de 44 falas . . . . . . . . . . . 78 E.1 Dados coletados aleatóriamente para conjunto de 44 falas . . . . . . . . . . 80 F.1 Dados coletados aleatóriamente para conjunto de 44 falas . . . . . . . . . . 82 G.1 Dados coletados manualmente para conjunto de 44 falas . . . . . . . . . . . 84 I.1 Conjunto de falas retiradas do Os IncríveisTM de Pixar Animation StudiosTM 88 11 Lista de Abreviaturas NPC Non-player Character ADA Autonomous Digital Actors ECA Embodied Conversational Agents VH Virtual Humans NP Noun Phrase VP Verbal Phrase POS Part of Speech AR Aprendizagem por Reforço PD Programação Dinâmica MC Monte Carlo DT Diferença Temporal PDM Processo de Decisão Markoviano 12 1 Introdução Estudos recentes indicam que as emoções tem um papel crítico na tomada de decisão racional, na percepção, na interação e inteligência humana (PICARD, 1995). Reconhecimento de emoções por máquina é uma sub-área da computação afetiva que propõe criar dispositivos que possam reconhecer emoções. Humanos Virtuais são modelos computacionais para o comportamento humano que podem ser utilizados para substituir pessoas nas avaliações ergonômicas de projetos baseados em computador, como testar um veículo, máquinas-ferramentas, linhas de montagem, etc., antes da construção real desses projetos. Ou ainda, incorporar a representação de nós mesmos dentro de ambientes virtuais (BADLER, 1997). Outra abordagem para Humanos Virtuais é utilizá-los como atores digitais, que são agentes inspirados no conhecimento de atores humanos, podendo interpretar roteiros e sugerir atuações de maneira autônoma. Este trabalho de conclusão de curso faz parte do projeto D.R.A.M.A.1 , que tem por objetivo criar um plug-in para uma ferramenta de autoria de animação. Um dos módulos do projeto aborda a classificação automática de sentenças para que seja possível aos atores virtuais interpretarem um roteiro. Portanto, este trabalho apresenta uma abordagem para resolver esse problema, desenvolvendo uma ferramenta capaz de classificar sentenças em atos de fala. Em geral, os atos de fala são atos de comunicação. Para comunicar, é preciso expressar uma certa atitude, e o tipo de ato de fala que esta sendo executado corresponde ao tipo da atitude expressada (TSOHATZIDIS, 1994). Existem técnicas computacionais que possibilitam diversos tipos de análise contextual, extraindo informações que podem auxiliar na classificação automática de sentenças em atos de fala. Além disso, pode-se utilizar métodos que permitem à ferramenta aprender. A hipótese deste trabalho é que a abordagem utilizando aprendizagem de máquina apresenta um melhor desempenho do que a abordagem puramente aleatória. Espera-se com esta abordagem, seja possível classificar sentenças em atos de fala, 1 Developing Rational Agents to Mimic Actors 1.1 Trabalhos Correlacionados 13 possibilitando assim que atores virtuais possam interpretar autônomamente um roteiro. 1.1 Trabalhos Correlacionados Pesquisas de reconhecimento de atos de fala em textos focam em descobrir e utilizar palavras chaves. Esta é a forma mais intuitiva de reconhecer ato de fala de um texto, e vários métodos já propõem a utilização de palavras-chave. Subasic e Huettner (2001), classificaram um grupo de palavras emocionais adicionando, manualmente, o nível de emoção de cada palavra. Já Zhe e Boucouvalas (2002), aplicaram um parser para identificar objetos associados a palavras-chave emocionais. Devillers et al. (2002), encontraram o mais apropriado estado emocional calculando a probabilidade condicional entre as palavraschave emocionais para avaliar os estados emocionais. Tao e Tan (2004), dividiram as palavras em palavras de conteúdo e palavras funcionais de emoção, ao invés de utilizarem as palavras-chave emocionais. Seol et al. (2008) definem um sistema híbrido, que utilizam a classificação por palavras-chave e um método de aprendizagem de máquina, o KBANN (Knowledge-based Artificial Neural Network ). Cohen et al. (2004) apresentam o uso do método de classificação de texto para detectar atos de fala em e-mail. 1.2 Objetivos O principal objetivo deste trabalho é desenvolver uma ferramenta que realize a classificação automática dos atos de fala (Speech Acts) utilizando Aprendizagem de Máquina para Atores Digitais Autônomos. Para atingir o objetivo principal, os objetivos específicos são definidos: • Entender a fundamentação teórica sobre Computação Afetiva • Entender a fundamentação teórica sobre Atores Virtuais • Entender a fundamentação teórica sobre Speech Acts • Entender a fundamentação teórica sobre Aprendizagem de máquina • Compreender e aplicar algoritmos de extração de Speech Acts • Entender e especificar o modelo de classificação de textos escolhidos 1.3 Organização do Trabalho 14 • Entender e aplicar os modelos de aprendizagem de máquina • Definir um caso para estudo, a fim de avaliar a eficiência do sistema proposto • Avaliar o sistema desenvolvido 1.3 Organização do Trabalho O desenvolvimento do referencial teórico do trabalho inicia a partir do Capítulo 2 – Atores Digitais Autônomos, sobre a taxonomia dos Humanos Virtuais, que inclui o projeto D.R.A.M.A. que contêm o módulo a ser desenvolvido neste trabalho, além da definição de atos de fala. No Capítulo 3 – Técnicas Computacionais, é detalhado quais as técnicas computacionais utilizadas, a explicação de cada componente do módulo de Anotação (Annotation Module) e também a definição do algoritmo da aprendizagem por reforço. No Capítulo 4 – Sistema Proposto, é descrito o modelo de desenvolvimento do sistema de classificação, bem como bibliotecas e linguagens utilizadas, o conjunto de testes proposto e a definição das técnicas computacionais estudadas no Capítulo 3. Os testes realizados e os resultados obtidos utilizando o sistema proposto (Capítulo 4) são apresentados no Capítulo 5 – Testes e Resultados. Por último, o Capítulo 6 – Conclusões, apresenta a conclusão do trabalho desenvolvido e também sugestões de trabalhos futuros. 15 2 Atores Digitais Autônomos Este capítulo apresenta a taxonomia dos Humanos Virtuais, que define Atores Digitais Autônomos, explanando o projeto D.R.A.M.A. e que por sua vez descreve o modulo de classificação textual de Speech Acts. 2.1 Humanos Virtuais A complexidade para criar personagens virtuais é representada na Figura 2.1. Digital Extras são personagens coadjuvantes virtuais criados com o intuito de povoar cenas compostas por multidões, um exemplo de tal caso pode ser visto no filme Senhor dos AnéisTM de New Line Cinema TM . Já os Non-player Characters (NPCs) são personagens não controlados pelo jogador, mas que envolvem-se no enredo do jogo com o mesmo. Figura 2.1: Taxonomia dos Humanos Virtuais Os Autonomous Digital Actors (ADAs) são uma analogia à atores reais, que de forma autônoma, e por suas interpretações independentes da situação, podem desempenhar um papel de acordo com determinado script, como parte da estória (IURGEL; MARCOS, 2007), (ver seção 2.2). Embodied Conversational Agents (ECAs) (CASSELL, 2000) definem um novo paradigma de interface do computador com os aspectos humanos que estão sendo utilizados em um número crescente de aplicações para transmitir informações complexas através de comportamentos verbais e não verbais, como a voz, entonação, olhar, 2.2 Atores Digitais Autônomos 16 gesto, expressões faciais, etc (BEVACQUA et al., 2007). Gebhard et al. (2003) ainda define que personagens animados de conversação são utilizados em ambientes virtuais de trainamento, ficção interativa e sistemas de contar estórias. E por último, os Virtual Humans podem ser definidos como animações parecidas com humanos em 2D ou 3D que mostram inteligência, emoções e sabem como interagir com outros usuários, sejam humanos ou não (NIJHOLT, 2005). Permitem comportamento de comunicação verbais e não-verbais, e também através de linguagem corporal e/ou expressões faciais. Seu comportamento pode ser parcialmente ou totalmente autônomo, dependendo em qual caso eles estejam inseridos para atuar (PRASOLOVA-FøRLAND; AL., 2005). 2.2 Atores Digitais Autônomos Atores digitais autônomos (ADAs) são agentes inspirados no conhecimento de atores humanos, de tal maneira que estes possam autônomamente interpretar roteiros e sugerir atuações (comandos de animação em diversos níveis de abstração) para as ações a serem interpretadas durante o filme e ainda serem capazes de se adaptar às sugestões do animador através de um processo iterativo. Muitos métodos de animação são capazes de produzir resultados satisfatórios para realizar tipos de movimentos específicos, como andar, correr ou pular em um terreno plano. Mas as vezes, é preciso realizar interações mais complexas com o ambiente, forçando o animador trabalhar em baixo nível de abstração, como por exemplo, especificar diretamente qual a posição e a orientação de um membro do corpo (HUANG, 2003). Em uma abordagem mais natural o animador poderia dirigir os personagens, como um diretor faz com os atores reais. Sugere-se então criar animações trabalhando no nível de tarefas, sem precisar especificar o nível operacional, por exemplo, qual membro será movimentado. Como exemplo cita-se: “corra até a casa através da floresta; abra a porta e caminhe lentamente em direção ao João” (HUANG, 2003). Implementar um ator digital normalmente envolve três problemas chaves, dirigir o personagem, planejar as movimentações e por último desenvolver a animação. O problema de dirigir um personagem está ligado ao fato de como converter a intenção do animador ou diretor para o personagem virtual, que normalmente está relacionada a abstração mais alta do comportamento de um personagem de uma animação (LI et 2.2 Atores Digitais Autônomos 17 al., 2004). Já o problema da movimentação, por exemplo planejamento de rota (path planning), define a elaboração da logística do corpo no contexto global, por exemplo, planejar uma trajetória sem colisão e chegar a algum destino, por outro lado, a logística de um membro do corpo tem um contexto local, por exemplo, movimentar as mãos para agarrar um objeto qualquer. E por fim, o problema da animação, o qual implementa os planos definidos pela movimentação para que a animação tenha uma forma natural. Com isso, um ator digital autônomo pode ser dirigido mais facilmente, permitindo o animador interagir com softwares de autoria que possibilitem treinar um ADA para aceitar vários estilos de movimento, linguagem corporal, técnicas para melhor transmitir emoções específicas, e outras habilidades. 2.2.1 O Projeto D.R.A.M.A. O projeto D.R.A.M.A. (Developing Rational Agents to Mimic Actors), conforme ilustrado na Figura 2.2 tem por objetivo a criação de um plug-in para uma ferramenta de autoria de animação no qual um roteiro é submetido a um conjunto de atores que produzem sugestões individuais para atuação de seus respectivos personagens, as quais serão posteriormente combinadas em uma timeline não-linear a ser submetida à ferramenta, na qual o usuário pode então visualizar e alterar o resultado em um processo iterativo. Figura 2.2: Arquitetura projeto D.R.A.M.A. 2.3 Speech Acts 18 Desta forma, acredita-se que o esforço de criação de animações ficaria reduzido ao treinamento dos atores e às críticas nas atuações. A contribuição deste trabalho para o projeto D.R.A.M.A. é desenvolver um módulo de anotação (Annotation Module) apresentado na Figura 2.2. 2.3 Speech Acts Um ato de fala (Speech acts) é o ato que o locutor emite quando pronuncia uma expressão, que inclui o modo de proferir uma palavra, fazendo uma referência e/ou uma previsão, com uma intenção para produzir o enunciado. Por exemplo, uma declaração expressa crença, uma solicitação expressa um desejo, uma desculpa expressa arrependimento. Como um ato de comunicação, um ato de fala é bem sucedido se o ouvinte identifica, através da intenção do locutor, a atitude que está sendo expressada (TSOHATZIDIS, 1994). Austin e Urmson (1978) definem que atos de fala podem ser divididos em: Ato locutório (Locutionary act) é o ato de dizer algo “dizer algo” em seu sentido pleno. Ato ilocutório (Illocutionary act) é o ato em que o locutor realiza quando pronuncia um enunciado em certas condições comunicativas e com certas intenções, tais como ordenar, avisar, criticar, perguntar, etc. Deste modo, a intenção comunicativa de execução está associada ao significado de determinado enunciado (ver na seção 2.3.1). Ato perlocutório (Perlocutionary act) corresponde aos efeitos que um dado ato ilocutório produz no ouvinte. Verbos como convencer, persuadir ou assustar ocorrem neste tipo de atos de fala, pois informam os efeitos causados no ouvinte. Para a classificação textual utiliza-se os atos ilocutórios que permitem, não apenas identificar as condições comunicativas, mas também possibilitam reconhecer intenções. Com isso os Atores Digitais Autônomos teriam mais informações para poderem atuar. 2.3 Speech Acts 2.3.1 19 Atos Ilocutórios Searle (1969) define que atos de fala dividem-se em dois segmentos interdependentes: a força ilocutória e conteúdo proposicional. Na frase ‘I assert that John was here yesterday’, a parte ‘I assert that’ refere-se a força ilocutória F e ‘John was here yesterday’ ao conteúdo proposicional p. Assim, o ato ilocutório é simbolizado por: F (p) Searle (1976) define doze dimensões significativas de variação em que os atos ilocutórios diferem uns dos outros e constrói sua taxonomia em torno de três dimensões, illocutionary point (ponto ilocutório), direction of fit (direção de ajuste) e sincerity condition (condição de sinceridade). 1. Diferenças no ponto ou propósito do tipo de ato: de acordo com a condição essencial de cada ato de fala (o ponto ou propósito de uma ordem é fazer com que o ouvinte faça algo). Searle define que o ponto ou o propósito de um tipo de ilocução é chamada de illocutionary point (ponto ilocutório). 2. Diferenças na direção de ajuste entre palavras e o mundo: alguns atos de fala tentam obter palavras (conteúdo proposicional) que coincidam com o mundo (como no caso das descrições) enquanto outros tentam fazer o mundo coincidir com as palavras (como no caso de promessas e pedidos). Desta forma Searle define esta diferença como direction of fit (direção de ajuste), ou seja, a direção de ajuste palavras-ao-mundo (como fazer declarações, descrições, afirmações e explicações), representada com um seta para baixo (↓) ou a direção de ajuste mundo-a-palavras (como fazer pedidos, ordens, promessas), representada com um seta para cima (↑). 3. Diferenças nos estados psicológicos expressados Na performance de um ato ilocutório com um conteúdo proposicional, o locutor expressa alguma atitude, estado, etc., para realizar aquele conteúdo proposicional. Ou seja, ele define que não é possível dizer algo como ‘Eu afirmo que p, mas não acredito que p’, ’Eu prometo que p, mas não pretendo que p’, etc. Note que isto só tem uso performativo na primeira pessoa. O estado psicológico expressado na performance de um ato ilocutório é a condição de sincerity condition (condição de 2.3 Speech Acts 20 sinceridade) do ato. Assim, Searle define que Belief (crenças) se refere não apenas a declarações, afirmações, observações e explicações, mas também postulações, declarações, deduções e argumentos. Intention (intenção) refere-se a promessas, ameaças e compromissos. Desire (desejo) refere-se aos pedidos, ordens, comandos, orações e súplicas. Pleasure (prazer) refere-se a parabéns, felicitações e congratulações. Por fim, simboliza o estado psicológico expressado com as letras iniciais dos verbos correspondentes, B para Belief, I para Intention, etc. Com base na teoria de Austin e Urmson (1978), Searle (1976) procedeu a divisão e a classificação dos atos ilocutórios em cinco classes, assertivo, diretivo, comissivo, expressivo e declarativo. Assertivo (Assertives). Todos os membros desta classe são determinados sobre a dimensão da avaliação, no qual inclui verdadeiro e falso. É formalizado por: `↓ B(p), leia-se: afirmação, direção de ajuste (↓) palavras-ao-mundo, o estado psicológico expressado é Belief e o conteúdo proposicional (p). Verbos associados: affirm, assert, put forward, state etc. Exemplos: ‘John called’, ‘The sun will rise tomorrow’, ‘I swear I saw him on the crime scene’, etc. Diretivo (Directives). O ponto ilocutório desta classe, consiste no fato do locutor persuadir o ouvinte a fazer a algo. Questionamentos são uma sub-classe dos diretivos, pelo fato que quando se questiona, espera-se que o ouvinte faça algo. É formalizado por ! ↑ W (H does A), leia-se: diretivo, a direção de ajuste é mundo-a-palavras (↑), o estado psicológico expressado é Will e conteúdo proposicional atribui um futuro ato A ao ouvinte H. Verbos associados: ask, beg, order, command, plead, pray, entreat, invite, permit, advise etc. Exemplos: ‘Clean your room!’, ‘I suggest you take the Volvo’, ‘Do you have some spare chanage?’ Compromissivo (Commissives). São atos ilocutórios onde o locutor denota a intenção de realizar uma determinada ação no futuro. É formalizado por: C ↑ I(S does A), 2.4 Considerações 21 leia-se: compromissivo, a direção de ajuste é mundo-a-palavras (↑), o estado psicológico expressado é Intention e o conteúdo proposicional atribui uma ação futura A ao locutor S. Verbos associados: promise, swear, commit oneself to, etc. Exemplos: ‘I promise I’ll clean the kitchen’, ‘You’ll get it done by Monday!’ Expressivo (Expressives). O ato ilocutório desta classe é a de apresentar o estado psicológico expressado na sincerity condition (condição de sinceridade) sobre um estado (sentimentos ou emoções) especificado no conteúdo proposicional. É formalizado por: E φ (P ) (S/H + property), leia-se: expressivo, a direção de ajuste é nula φ, o P indica os diversos estados psicológicos expressados e o conteúdo proposicional atribui alguma propriedade (property) (não necessariamente uma ação) para S ou H. A propriedade especificada no conteúdo proposicional de um ato expressivo deve estar relacionado com S ou H. Verbos relacionados: thank, congratulate, apologize, condole, deplore, welcome, etc. Exemplos: ‘Congratulations for the award!’, ‘I hate Physics’ Declarativo (Declarations). O ato ilocutório desta classe muda a realidade de acordo com o conteúdo proposicional, por exemplo, se eu executar com êxito o ato de nomear você para presidente, então você é presidente; se eu executar com êxito o ato de nomear você para ser um candidato, então você é um candidato. É formalizado por: D l φ (P ), leia-se: declarativo, a direção de ajuste é para ambos os lados (l), a condição de sinceridade é nula (φ) e o conteúdo proposicional expressado por P . Verbos associados: declare, pronounce, announce, condemn, etc. Exemplos: ’You’re fired!’, ’I hereby declare war on Germany’ 2.4 Considerações Neste capítulo foi apresentado a definição de atores digitais autônomos, dos atos ilocutórios e do módulo de anotação do projeto D.R.A.M.A., cuja arquitetura é descrita no Capítulo 3. 22 3 Técnicas Computacionais Este capítulo descreve os níveis de processamento de linguagem natural e o modelo de aprendizagem de máquina utilizado. 3.1 Processamento de Linguagem Natural O Processamento de Linguagem Natural (PLN) teve início na década de 50, quando Turing (1950) publicou o artigo Computing Machinery and Intelligence, no qual propõe o famoso Teste de Turing como critério de inteligência. Este critério depende da habilidade de um programa do computador representar um ser humano numa conversa em tempo real. Na década de 60 os computadores já eram capazes de aceitar e de responder a questões em inglês e podiam conduzir uma entrevista psiquiátrica de nível rudimentar em inglês, galês, ou alemão. Pode-se citar exemplos, como STUDENT (BOBROW, 1964) e ELIZA (WEIZENBAUM, 1966), de programas que tinham como objetivo a geração de um número reduzido de resultados em domínios específicos. Para que um sistema computacional interprete um texto em linguagem natural, é necessário manter informações morfológicas, sintáticas e semânticas, armazenadas em dicionários, juntamente com as palavras que o sistema compreende. 3.1.1 Análise Léxica Na gramática, as partes do discurso (parts of speech) (POS) são categorias linguísticas das palavras, as quais, geralmente, são definidas pelo comportamento sintático ou morfológico do item léxico em questão. Nesta etapa as palavras são analisadas em termos de seus componentes e os sinais são separados das palavras. POS tagging é o processo de marcação das palavras em um texto (corpus) correspondendo a uma determinada parte do discurso, baseada na sua definição, bem como em seu contexto. A Tabela 3.1 mostra um conjunto simplificado de tags para 3.1 Processamento de Linguagem Natural 23 as partes do discurso. O Anexo A mostra todo o conjunto das tags com suas respectivas descrições. Tag Meaning Examples ADJ adjective new, good, high, special, big, local ADV adverb really, already, still, early, now CNJ conjunction and, or, but, if, while, although DET determiner the, a some, most, every, no N noun year, home, costs, time, education PRO pronoun he, their, her, its, my, I, us P proposition on, of, at, with, by, into, under V verb is, has, get, do, make, see, run VBP verb, present tense, not 3rd person singular predominate wrap resort sue hate . sentence terminator . ! ? Tabela 3.1: Conjunto Simplificado de tags Por exemplo, a frase “I hate you!!”, pode ser classificada com as seguintes tags: ‘I’ → ‘PRO’, ‘hate’ → ‘VBP’, ‘you’ → ‘PRO’, ‘ !’ → ‘.’, ‘ !’ → ‘.’ Após esta classificação é feita a análise sintática, onde cria-se uma descrição estrutural da frase. 3.1.2 Análise Sintática O processamento sintático é a etapa em que a frase é convertida em estrutura hierárquica que corresponde às unidades do significado da frase (RICH; KNIGHT, 1994). Esse processo é chamado de análise (parsing) e normalmente têm dois componentes principais, gramática e analisador. A gramática utilizada para representar uma linguagem natural deve apresentar um equilíbrio entre sua expressividade e o processo de reconhecimento (VIEIRA; VERA, 2001). Chomsky (1956) definiu quatro tipos de gramáticas. O tipo 0 são Gramáticas com Estrutura de Frase, tipo 1 são Gramáticas Sensíveis ao Contexto, tipo 2 são Gramáticas Livres de Contexto e o tipo 3 são Gramáticas Regulares. As gramáticas do tipo três são as mais restritas, e portanto, as linguagens geradas por essas gramáticas são mais 3.1 Processamento de Linguagem Natural 24 fáceis de serem reconhecidas. Já as gramáticas do tipo dois, são poderosas e permitem a representação da linguagem com uma complexidade maior, porém apresentam problemas para expressar dependências, como por exemplo, a concordância verbal. E as gramáticas do tipo um resolvem o problema de dependência, porém sua implementação é complexa, pode-se chegar a uma função exponencial sobre o tamanho da sentença. Na Figura 3.1 pode-se verificar a hierarquia das gramáticas. Figura 3.1: Hierárquia de Chomsky O fato de gramáticas regulares serem restritas e gramáticas sensíveis ao contexto terem uma complexidade de implementação devido a função exponencial do tamanho da sentença, sugere-se a utilização das Gramáticas Livres de Contexto para a geração das árvores sintáticas. Através da gramática da linguagem a ser analisada e das informações do analisador morfológico, constrói-se árvores de derivação para cada sentença, mostrando como as palavras estão relacionadas entre si. A Tabela 3.2 demonstra as categorias sintáticas. As gramática descritas neste trabalho utilizam o formalismo chamado forma de Backus-Naur (BNF - Backus-Naur-Form)1 Um exemplo de gramática livre de contexto é descrito na Equação 3.1, considere S: Sentence (Sentença), NP: Noun Phrase (Sintagma Nominal) e VP: Verbal Phrase (Sintagma Verbal). Uma análise top-down é realizada, começando pelo símbolo S e procu1 http://en.wikipedia.org/wiki/Backus-Naur_Form 3.1 Processamento de Linguagem Natural 25 Symbol Meaning Example S sentence the man walked NP noun phrase a dog VP verb phrase saw a park PP prepositional phrase with a telescope Det determiner the N noun dog V verb walked P preposition in Tabela 3.2: Conjunto de categorias sintáticas rando por uma árvore que tenha as palavras como suas folhas. S → <NP> <VP> V P → <V> <NP> | <V> <NP> <PP> P P → <P> <NP> V → ‘saw0 |‘hate0 |‘ate0 |‘walked0 N P → ‘John0 |‘M ary 0 |‘Bob0 |‘I 0 |‘you0 | <Det> <N> | <Det> <N> <PP> (3.1) Det → ‘a0 |‘an0 |‘the0 |‘my 0 N → ‘man0 |‘dog 0 |‘cat0 |‘park 0 |‘telescope0 P → ‘in0 |‘on0 |‘by 0 |‘with0 A árvore sintática da sentença “I hate you”, utilizando a gramática definida acima é mostrada abaixo. S NP I VP V NP hate you A produção da análise sintática de uma frase não conclui o processo de compreensão. Ainda é preciso produzir uma representação do significado da frase. 3.1 Processamento de Linguagem Natural 3.1.3 26 Análise Semântica O analisador semântico analisa o sentido das estruturas das palavras que foram reagrupadas pelo analisador sintático, uma vez que o analisador morfológico permitiu identificar estas palavras individualmente (NETO et al., 2009). Vieira e Vera (2001) definem que a análise semântica consiste em associar a uma sequência de marcadores linguísticos entendida como a representação do significado desta sentença. A sequência de marcadores aqui citada geralmente é a proveniente da análise sintática. Uma possível forma de tratar a semântica da linguagem natural é através da especificação do ‘significado proposicional’. A análise semântica envolve a tradução de uma sentença em linguagem natural para uma expressão em linguagem formal. De acordo com a estrutura sintática de uma sentença, é possível estabelecer uma representação lógica correspondente, onde o verbo indica uma relação entre os argumentos expressados por sujeito e complemento verbal (objeto direto ou indireto). Os atos de fala incidirão sobre essa representação (VIEIRA; VERA, 2001). Como linguagem de representação é utilizado Lógica de Primeira Ordem, portanto a interpretação semântica se torna um processo de associar uma expressão lógica de primeira ordem a um sintagma (phrase), onde determina-se quais representações semânticas queremos associar a cada um dos sintagmas (RUSSELL; NORVIG, 2004). Considere a frase “John loves Mary”. O NP (Noun Phrase) “John” tem como interpretação semântica o termo lógico John e a sentença como um todo deve ser interpretada como uma sentença lógica Loves(John,Mary). A parte VP (Verbal Phrase) “loves Mary” da frase é uma descrição que poderia ou não se aplicar a uma pessoa em particular (se aplica a John). Isso significa que “loves Mary“ é um predicado que, quando combinado com um termo que representa uma pessoa, produz uma sentença lógica completa. Utiliza-se a notação λ (fórmula com falta de argumento) para representar o predicado “loves Mary”: λx Loves(x, M ary) A regra S(rel(obj)) → N P (obj)V P (rel) informa que “um NP com semântica obj seguido por um VP com semântica rel gera uma sentença cuja semântica é o resultado de 3.1 Processamento de Linguagem Natural 27 se aplicar rel a obj ”. A interpretação semântica de “John loves Mary” (λx Loves(x, M ary))(John) que se equivale a Loves(John, Mary). O verbo “loves” é representado por λy λx Loves(x, y), o predicado que, ao receber o argumento Mary, retorna o predicado λx Loves(x, M ary). Logo, a regra V P → V erb N P aplica o predicado que é a interpretação semântica do verbo ao objeto, que por sua vez, é a interpretação semântica de NP para se obter a interpretação semântica do VP de forma completa. Resultando na gramática (3.2). S(rel(obj)) → <NP(obj)> <VP(rel)> V P (rel(obj)) → <Verb(rel)> <NP(obj)> N P (obj) → <Name(obj)> (3.2) N ame(John) → ‘John0 N ame(M ary) → ‘M ary 0 V erb(λx λy Loves(x, y)) → ‘loves0 Uma árvore de análise com interpretações semânticas para a cadeia “John loves Mary”: S(Loves(John,Mary)) NP(John) V P (λx Loves(x, M ary)) Name(John) V (λy λx Loves(x, y)) NP(Mary) loves Name(Mary) John Mary A língua inglesa utiliza tempos verbais (passado, presente e futuro) para indicar a hora relativa de um evento (e). Para a representação de eventos é utilizado a notação de cálculo de eventos (RUSSELL; NORVIG, 2004). Considere duas frases: “John loves Mary” e “John loved Mary”, no cálculo de eventos temos, respectivamente (3.3) e (3.4): 3.1 Processamento de Linguagem Natural 28 e ∈ Loves(John, M ary) ∧ During(N ow, e) (3.3) e ∈ Loves(John, M ary) ∧ Af ter(N ow, e) (3.4) Logo, as duas regras léxicas2 para as palavras “loves” (3.5) e “loved” (3.6) são: V erb(λx λy e ∈ Loves(John, M ary) ∧ During(N ow, e)) → loves (3.5) V erb(λx λy e ∈ Loves(x, y) ∧ Af ter(N ow, e)) → loved (3.6) Estudos mais avançados dessa questão incluem representação semântica para os quantificadores da linguagem natural. E esses devem ser traduzidos para os quantificadores lógicos. A frase “Every agent smells a wumpus” (retirada de Russell e Norvig (2004)) é ambígua e o significado preferencial é o de que “os agentes poderiam estar sentindo o cheiro de diferentes wumpus ” (3.7), ou um significado alternativo é o de que “existe um único wumpus do qual todo mundo sente cheiro” (3.8). Podem ser representados por (Considere a como agente, w como wumpus): ∀ a a ∈ Agents =⇒ ∃ w w ∈ W umpsuses ∧ ∃ e e ∃ Smells(a, w) ∧ During(N ow, e) (3.7) ∃ w w ∈ W umpsuses ∀ a a ∈ Agents =⇒ ∃ e e Smells(a, w) ∧ During(N ow, e) (3.8) A primeira interpretação é analisada de modo composicional (NP e VP), logo, “Every agent” e “smells a wumpus” são representadas, respectivamente por (3.9) e (3.10). N P (∀a a ∈ Agents =⇒ P ) (3.9) V P (∃w w ∈ W umpsuses ∧ ∃ e (e ∈ Smells(a, w) ∧ During(N ow, e))) (3.10) Segundo Russell e Norvig (2004), existem duas dificuldades: 1. A semântica de toda a sentença parece ser semântica do NP, e a semântica do VP preenchendo a parte P, ou seja, não é possível formar a semântica da sentença com rel(obj). 2 Regras léxicas são usadas para expressar as relações entre as descrições (BREDENKAMP et al., 1996) 3.1 Processamento de Linguagem Natural 29 2. É preciso obter a variável a como um argumento para a relação Smells, ou seja, a semântica da sentença é formada inserindo-se a semântica do VP no encaixe do argumento correto do NP, enquanto também insere-se a variável a do NP no encaixe do argumento correto da semântica do VP. Para resolver essa confusão, utiliza-se a forma quase-lógica que inclui toda a lógica de primeira ordem e é aumentada por expressões lambda e por uma nova construção, chamado termo quantificado. Por exemplo, o termo quantificado de “every agent” é escrito [∀a a ∈ Agents] e a forma quase-lógica para “Every agent smells a wumpus” é visualizada em (3.11). ∃ e ((e ∈ Smells[∀a a ∈ Agents], [∃w w ∈ W umpsuses]) ∧ During(N ow, e)) (3.11) A Tabela 3.3 (retira de Russell e Norvig (2004)) mostra os tipos semânticos e exemplos de formas correspondentes a cada categoria sintática sobre a abordagem de forma quaselógica. Categoria Tipo Semântico Example Forma quase-lógica S sentence the I sleep ∃e e ∈ Sleep(Speaker) ∧ During(now, e) NP object a dog [∃ d Dog(d)] PP object2 → sentence in [2, 2] λx In(x, [2, 2]) RelClause object → sentence that sees me λx ∃e e ∈ See(x, Speaker) ∧ During(N ow, e) VP objectn → sentence sees me λx ∃e e ∈ See(x, Speaker) ∧ During(N ow, e) Adjective object → sentence smelly λx Smelly(x) Adverb event → sentence today λe During(e, T oday) Article quantifier the ∃! Conjunction sentence2 → sentence and λp q (p ∧ q) Digit object 7 7 Noun object → sentence wumpus λx x ∈ W umpsuses 2 Preposition object → sentence in λx λy In(x, y) Pronoun object I Speaker eats λy λx∃e e ∈ Eat(x, y) ∧ During(N ow, e) Verb n object → sentence Tabela 3.3: Categorias Sintática, Tipos Semânticos e a Forma quase-lógica Na Tabela 3.3 a notação t → r denota uma função que recebe um argumento do tipo t e retorna um resultado do tipo r. Por exemplo, o tipo semântico de Preposição é objeto2 → 3.1 Processamento de Linguagem Natural 30 sentence, o que significa que a semântica da preposição é uma função que quando for aplicada a dois objetos lógicos, produzirá uma sentença lógica (RUSSELL; NORVIG, 2004). A gramática completa com semântica em forma quase-lógica é apresentada em 3.12. S(rel(obj)) → <NP(obj)> <VP(rel)> S(conj(sem1 , sem2 )) → <S(sem_1)> <Conjunction(conj)> <S(sem_2)> N P (sem) → <Pronoun(sem)> N P (sem) → <Name(sem)> N P ([q x sem(x)]) → <Article(q)><Noun(sem)> N P ([q xobj ∧ rel(x)]) → <NP([q x obj])><PP(rel)> N P ([q xobj ∧ rel(x)]) → <NP([q x obj])><RelClause(rel)> (3.12) N P ([sem1 , sem2 ]) → <Digit(sem_1)><Digit(Sem_2)> V P (sem) → <Verb(sem)> V P (rel(obj)) → <VP(rel)><NP(obj)> V P (sem1 (sem2 )) → <VP(sem_1)><Adjective(sem_2)> V P (sem1 (sem2 )) → <VP(sem_1)><PP(sem_2)> RelClause(sem) → that <VP(sem)> P P (λx rel(x, obj)) → <Preposition(rel)> <NP(obj)> E por fim é necessário converter a forma quase-normal em lógica de primeira ordem. Isto é feito com um regra simples: para cada termo quantificado [q x P (x)] dentro de uma forma quase-lógica (FQL), substitua o termo quantificado por x e substitua F QL por q x P (x) op F QL, onde op é =⇒ quando q é ∀ e é ∧ quando q é ∃ ou ∃!. Por exemplo, a sentença “Every dog has a day” tem a forma quase-lógica em (3.13). Onde e, d, a, são respectivamente, evento, cão e dia. ∃ e (e ∈ Has([∀ d d ∈ Dogs], [∃a a ∈ Days], N ow)) (3.13) Logo, existem duas interpretações lógicas possíveis, pois não foi especificado qual dos dois termos quantificados seria extraído primeiro: 3.1 Processamento de Linguagem Natural 31 ∀ d d ∈ Dogs =⇒ ∃ a a ∈ Days ∧ ∃ e e ∈ Has(d, a, N ow) (3.14) ∃ a a ∈ Days ∧ ∀ d d ∈ Dogs =⇒ ∃ e e ∈ Has(d, a, N ow) (3.15) Portanto, a interpretação (3.14), diz que cada cão tem seu próprio dia, enquanto que a (3.15) diz que existe um dia especial que todos os cães compartilham. A escolha entre elas é trabalho de eliminação da ambiguidade. 3.1.4 Classificação O módulo de classificação da arquitetura proposta, define a classificação do texto nas cinco classes dos atos ilocutórios, utilizando a abordagem de classificação por templates definida na Seção 2.3.1. Cada template definido é comparado com classe semântica encontrada, gerando a classificação. Na frase “John loves Mary”, constroí-se a árvore de interpretação semântica: S(Loves(John,Mary)) V P (λx Loves(x, M ary)) NP(John) Name(John) V (λy λx Loves(x, y)) NP(Mary) loves Name(Mary) John Mary Uma possível E φ (P ) (S/H abordagem + S(Loves(John, M ary)). é property), comparar o quão próximo o template se relaciona com a interpretação semântica Pode-se entender que a estrutura semântica criada na ár- vore identifica o verbo Loves como um membro pertencente da classe Expressivo dos atos ilocutórios. Suponha que existam dois templates (A, B) e que comparado com a interpretação semântica (S), tem resultados idênticos, ou seja, classificar S em A ou S em B é uma questão 3.2 Aprendizagem de Máquina 32 de escolha aleatória. Nesses casos, uma possível abordagem, seria utilizar algoritmos de aprendizagem de máquina. 3.2 Aprendizagem de Máquina A ideia por trás da aprendizagem é que as percepções devem ser usadas não apenas para agir, mas também para melhorar a habilidade do agente para agir no futuro. A aprendizagem ocorre à medida que o agente observa suas interações com o mundo e com seus próprios processos de tomada de decisão (RUSSELL; NORVIG, 2004). Stephen Marsland (2009) define: “Aprendizagem de máquina, então, é sobre fazer o computador modificar ou adaptar suas ações (se essas ações estão a fazer previsões ou controlar um robô), para que essas ações sejam mais precisas, onde a precisão é medida pela maneira como as ações escolhidas refletem as corretas” Tom M. Mitchell (1997) define: “Um programa de computador é dito para aprender com a experiência E com relação a alguma classe de tarefas T e medindo o desempenho P, se o seu desempenho nas tarefas em T, medido por P, melhora com a experiência E.” Alguns tipos de aprendizagem de máquina são listados abaixo: Aprendizagem Supervisionada - Um conjunto de exemplos de treinamento com as respostas corretas (alvos) são fornecidos e, com base neste conjunto de treinamento, o algoritmo generaliza para responder corretamente a todas as entradas possíveis. Aprendizagem Não-supervisionada - Respostas corretas não são fornecidas, em vez disso, o algoritmo tenta identificar sozinho relações, padrões, regularidades ou categorias nos dados que lhe vão sendo apresentados e codificá-las nas saídas. Aprendizagem por Reforço - Quando se deseja que o agente tenha autonomia total, significa que este deverá ser capaz de aprender com base em informações do tipo recompensas ou reforços fornecidos por um “critico” ou pelo próprio ambiente (ver Seção 3.2.1). Aprendizagem Evolucionária - A evolução biológica pode ser vista como um processo de aprendizagem: os organismos biológicos se adaptam para melhorar as suas taxas 3.2 Aprendizagem de Máquina 33 de sobrevivência e possibilidade de ter seus decendentes em seu ambiente. A aprendizagem de máquina escolhida para ser utilizada no módulo de Classificação (Classification) é Aprendizagem por Reforço, pelo fato de que os atores virtuais podem ser criticados por um diretor e/ou animador sugerindo um modo diferente de interpretação, portanto o algoritmo pode aprender com essa critica. 3.2.1 Aprendizagem por reforço Aprendizagem por Reforço (AR) constitui-se basicamente de um agente interagindo em um ambiente via percepção e ação (CAMPONOGARA; SERRA, 2005). Ou seja, o agente percebe as situações encontradas no ambiente e então seleciona uma ação para ser implementada. De alguma forma a ação muda o ambiente, afetando o estado de alcançar o seu objetivo. Na Figura 3.2 é demonstrado toda a interação (Retirada e traduzida do livro de Sutton e Barto (1998)). Figura 3.2: Interação agente-ambiente Em um sistema de aprendizagem por reforço, o estado do ambiente deve ser representado por: 1. conjunto de estados discretos do agente (S) é formado através do conjunto das combinações de valores de variáveis de estado identificadas pelo agente; 2. conjunto de ações discretas, onde os agentes influenciam o estado do ambiente (A(s)); e 3. valor das transições de estado: passado para o agente através de um sinal de reforço (ganho) 3.2 Aprendizagem de Máquina 3.2.1.1 34 O problema de Aprendizagem por Reforço O objetivo é encontrar uma política ótima, π ∗ , definida como o mapeamento de estados em ações que maximize os sinais de refoço acumulados no tempo. (CAMPONOGARA; SERRA, 2005) descreve cinco etapas fundamentais: 1. O Ambiente: todo sistema de AR aprende um mapeamento de situações em ações por experimentação em um ambiente dinâmico. O ambiente no qual o agente está inserido deve ser pelo menos parcialmente observável através de sensores, descrições simbólicas ou situações mentais. 2. A Política de Controle/Decisão: um política expressa pela função, π, representa o comportamento que o sistema AR segue para alcançar um objetivo. Em outras palavras, uma política π é um mapeamento de estados s e ações a em um valor π(s, a), o qual corresponde à probabilidade do agente tomar a ação a ∈ A(S) quando este se encontrar no estado s ∈ S. Portanto, o processo de aprendizado no sistema AR pode ser expresso em termos da convergência até uma política ótima (π ∗ ) que conduza à solução do problema de forma ótima. 3. Reforço e Retorno: o reforço é um sinal do tipo escalar (rt+1 ) desenvolvido pelo ambiente ao agente, assim que uma ação tenha sido efetuada a uma transição de estado (st → st+1 ) tenha ocorrido. Para cada transição no ambiente, gera-se funções de reforço, que expressam o objetivo que o agente AR deve alcançar. O retorno pode ser definido como um função da sequência de valores de reforço até um tempo T final. No caso mais simples o retorno é um somatório como aparece em (3.16). RT = rt+1 + rt+2 + rt+3 + ... + rT (3.16) Em muitos casos a interação entre agentes e ambiente não termina naturalmente em um episódio (sequência de estados que chegam até o estado final), mas continua sem limite como, por exemplo, em tarefas de controle contínuo (CAMPONOGARA; SERRA, 2005). Para essas tarefas a formulação do retorno é um problema, pois T = ∞ e o retorno que se deseja também tenderá ao infinito (RT = ∞). Para isso, criou-se a taxa de amortização (γ), que determina o grau de influência que têm os 3.2 Aprendizagem de Máquina 35 valors futuros sobre o reforço total. A expressão do retorno com a taxa γ é visto em (3.17). Rt = rt+1 + γrt+2 + γ 2 rt+2 + ... = ∞ X γ k rt+k+1 (3.17) k=0 onde 0 ≤ γ ≤ 1. Se γ = 0, o agente tem uma visão limitada dos reforços, maximizando apenas os reforços imediatos. Se γ = 1, a visão do reforço abrange todos os estados futuros dando a mesma importância para ganhos atuais e qualquer ganho futuro. Um agente AR faz um mapeamento dos estados em ações baseado nos reforços recebidos. A função de reforço define quais os bons e maus eventos para os agentes. 4. Função de Reforço: as funções de reforço podem ser bastante complicadas, porém existem pelo menos três classes de problemas frequentemente usadas para criar funções adequadas a cada tipo de problema: (a) Reforço só no estado final : as recompensas são todas zero, exceto no estado final, em que o agente recebe uma recompensa (e.g., +1) ou penalidade (e.g., -1). O agente aprende que os estados que correspondem a uma recompensa são bons e os que levam um penalidade deve ser evitado. (b) Tempo mínimo objetivo: faz com que o agente realize ações que produzem o caminho ou a trajetória mais curta para um estado objetivo. Toda transição tem penalidade (-1) exceto aquela que leva ao estado terminal (0). Como o agente tenta maximizar valores de reforço, ele aprender a escolher ações que minimizam o tempo que leva para alcançar o estado final. (c) Minimizar reforços: nem sempre o agente precisa ou deve tentar maximizar a função de reforço, pode-se também aprender a minimizá-la. Isto é, quando o reforço é uma função para recursos limitados, então o agente deve aprender a conservá-los ao mesmo tempo em que alcança o objetivo. 5. Função Valor : define-se uma função valor como o mapeamento do estado, ou par estado-ação, em um valor que é obtido a partir do reforço atual e dos reforços futuros. A função valor que considera só o estado s é denotada por V(s) e denominada função valor-estado, enquanto que a função valor que considera o par estado-ação(s,a) é denotada por Q(s,a) e denominada função valor-ação 3.2 Aprendizagem de Máquina 36 (a) Função Valor-Estado: uma vez que os reforços mantêm dependências das ações futuras, as funções de valor dependem também da política π que o agente adota. Em um Processo de Decisão Markoviano se define uma função valorestado V ∗ (s) dependente da política π apresentado em (3.18), onde a função V ∗ (s) é o valor esperado do retorno a partir do estado st = s, no instante t, quando o agente se comporta conforme a política π. Isto é V π é o somatório dos reforços aplicando a taxa de amortização γ. V π (s) = Eπ {Rt | st = s} = En (∞ X ) γ k rt+k+1 | st = s (3.18) k=0 (b) Função Valor-Ação: considerando o par estado-ação, a equação para a função valor-ação Qπ (s, a) é demonstrado em (3.19), que considera o reforço esperado para um estado st = s e uma ação at = a no instante t, e assumindo que o comportamento do agente, passa a ser caracterizado pela política π. π Q (s, a) = Eπ {Rt | st = s, at = a} = En (∞ X ) k γ rt+k+1 | st = s, at = a (3.19) k=0 As equações (3.18) e (3.19) dependem dos valores de reforço, do ambiente, podendo este ser modelado por um Processo de Decisão Markoviano (PDM), e da política de controle seguida pelo agente (CAMPONOGARA; SERRA, 2005). 3.2.2 Algoritmos O problema de avaliação e a síntese de política de controle ótima são dois problemas em Aprendizagem por Reforço. Serra e Camponogara definem três classes de métodos para solucionar estes problemas, Programação Dinâmica, Monte Carlo e Diferença Temporal. Programação Dinâmica (PD) . É definda como uma coleção de algoritmos que podem obter políticas ótimas sempre que exista uma modelagem perfeita do ambiete com um PDM, isto é, como um conjunto de estados, ações, retornos e probabilidades de transição em todos os estados (SNIEDOVICH, 2009). Monte Carlo (MC) . Este método tem como base a simulação de sequências e a medida dos termos obtidos que convergem para os valores desejados, como a função valorestado e a função valor-ação. Entretanto, o método não é viável quando a solução 3.2 Aprendizagem de Máquina 37 do problema é possível apenas de forma incremental, pois este método exige que o estado final do processo seja alcançado o que pode se tornar excessivamente lento (FISHMAN, 1996). Diferença Temporal (DT) . Os método DT não exigem um modelo exato do ambiente (da mesma forma que o MC) e permitem ser incrementais (da mesma forma que a PD). O método de DF é foi escolhido para o desenvolvimento deste trabalho. 3.2.2.1 Diferença Temporal Os métodos Diferença Temporal são uma combinação de características dos métodos de Monte Carlo com as ideias da Programação Dinâmica, no que buscam estimar valores de utilidade para cada estado do ambiente (SUTTON; BARTO, 1998). O aprendizado ocorre a partir da experiência, mas tem a vantagem de atualizar as estimativas da função do valor a partir de outras estimativas já aprendidas em estados sucessivos (bootstrap), sem a necessidade de alcançar o estado final de um episódio antes da atualização (MARSLAND, 2009). Neste caso, a avaliação de uma política é abordada como um problema de estimar a função valor-estado V π sob a política π. Camponogara e Serra (2005) definem que a vantagem da Diferença Temporal em relação a Programação Dinâmica advém de DT não exigir a modelagem Processo de Decisão de Markov do ambiente, de seus reforços e das distribuições de probabilidades das transições entre os estados. A vantagem deste método em relação ao de Monte Carlo é que o DT aguarda apenas até o estado seguinte, executando as atualizações imediatamente, enquanto que o MC aguarda até o final para obter o retorno verdadeiro e atualizar as estimativas. Abaixo é descrito o algoritmo para síntese da política de controle ótima. Algoritmo Q Learning É um algoritmo baseado em Diferença Temporal que dispensa política. Uma característica deste algoritmo é que a função valor-ação Q aprendida se aproxima diretamente da função valor ótima Qπ sem depender da política que está sendo utilizada. A versão mais simples do algoritmo é definida em (3.20), onde a função valor-ação Q(st , at ) é atualizada a partir de seu valor atual, o reforço imediato rt+1 , e a diferença entre a máxima função valor no estado seguinte menos 3.3 Considerações 38 o valor da função valor-ação no tempo atual (VIEIRA; VERA, 2001) Q(st , at ) ← Q(st , at ) + α rt+1 + γ maxa∈A(st +1) Q(st+1 , a) − Q(st , at ) (3.20) Observa-se também que α é a taxa de aprendizagem (0 < α < 1) e γ é o fator de desconto (0 ≤ γ < 1). O fato de selecionar a ação que maximize a função valor no estado seguinte facilita a busca da função valor-ação ótima (CAMPONOGARA; SERRA, 2005) O pseudo-código do algoritmo Q − learning é demonstrado abaixo. 1. Inicializar Q(s, a) de forma arbitrária 2. Repete(para cada episódio) 3. Inicializa s 4. Repete(para cada passo do episódio): 5. Escolher a para s usando política derivada de Q, tal como ε − gulosa 6. Tomar a ação a 7. 8. Observar o próximo estado s0 e o retorno r Q(st , at ) ← Q(st , at ) + α rt+1 + γ maxa∈A(st +1) Q(st+1 , a) − Q(st , at ) 9. s ← s0 10. Até s ser o estado final A política ε−gulosa é definida no algoritmo pela escolha da ação que possui o maior valor esperado, com probabilidade definida por (1−ε), e de ação aleatória, com probabilidade ε. Matematicamente, dado Q obtemos a ação gulosa a∗ para um estado s fazendo: a∗ = arg maxa∈A(st +1) Q(s, a) ε π(s, a∗ ) = 1 − ε + |A(s)| ε , ∀a ∈ A(s) − a∗ π(s, a) = |A(s)| (3.21) Esta restrição permite que o algoritmo explore o espaço de estados, sendo uma das condições necessárias para garantir que o algoritmo encontre uma política de controle ótima. 3.3 Considerações Nesta seção, apresentou-se as técnicas computacionais utilizadas no desenvolvimento deste trabalho. A análise Morfológica, Sintática e Semântica aplicada no processamento de linguagem natural, bem como a aprendizagem de máquina utilizada. O sistema proposto para estas técnicas computacionais é descrito no Capítulo 4. 39 4 Sistema Proposto Este capítulo apresenta uma proposta para a ferramenta de classificação automática de atos de fala, além da definição do escopo, da arquitetura, das linguagens, das bibliotecas e dos frameworks que foram utilizados no desenvolvimento deste trabalho. 4.1 Arquitetura A Figura 4.1, define a arquitetura do sistema proposto, que é divida em duas partes: processamento de linguagem natural e classificação. Figura 4.1: Arquitetura do módulo de anotação do projeto D.R.A.M.A. O objetivo do processamento de linguagem natural para este trabalho foi analisar as frases nos níveis léxico, sintático e semântico. Foi realizado uma análise léxica para associar cada palavra da frase à um marcador (tag), esses marcadores foram utilizados para gerar a gramática livre de contexto, que foi utilizada na análise sintática para eliminar a ambiguidade da mesma. E posteriormente, na análise semântica, essa gramática foi 4.1 Arquitetura 40 Frase e POS Tagging I thought you would be back by eleven. (’I’, ’PRP’), (’thought’, ’VBD’), (’you’, ’PRP’), (’would’, ’MD’), (’be’, ’VB’), (’back’, ’RB’), (’by’, ’IN’), (’eleven’, ’RB’), (’.’, ’.’) I said I would be back later. (’I’, ’PRP’), (’said’, ’VBD’), (’I’, ’PRP’), (’would’, ’MD’), (’be’, ’VB’), (’back’, ’RB’), (’later’, ’JJ’), (’.’, ’.’) I assumed you would be back later. (’I’, ’PRP’), (’assumed’, ’VBD’), (’you’, ’PRP’), (’would’, ’MD’), (’be’, ’VB’), (’back’, ’RB’), (’later’, ’JJ’), (’.’, ’.’) Tabela 4.1: As três primeiras falas com os POS Taggings associados. expandida para interpretar regras semânticas. Para o processamento de linguagem natural foi desenvolvido um software, escrito em Python, que engloba a arquitetura (Figura 4.1). Foram utilizados três níveis de análises: a léxica, a sintática e a semântica, abordados na Seção 3.1. Na análise léxica, o método desenvolvido retorna as frases com suas respectivos marcadores das partes do discurso (tags do (Part of Speech)). Para essa associação foi utilizado R o WordNet , que é uma base de dados léxica da língua inglesa. Os resultados das 44 frases podem ser visualizados no Anexo B. A Tabela 4.1 ilustra as três primeiras frases com suas respectivas associações. Na análise sintática foi desenvolvida uma grámatica livre de contexto para gerar as árvores sintáticas. A gramática (Lista 4.1) foi construída manualmente com os elementos de cada frase, gerados pela análise léxica. Lista 4.1: Gramática Livre de Contexto 1 S −> <NP> <VP> 2 VP −> <Verb> <NP> <ModelAux> | <Verb> <NP> <ModelAux> <PP> | <Verb> <NP> | <Verb> <NP> <PP> | <ModelAux> <Verb> <NP> | <Det> <A d j e c t i v e > 3 NP −> <Pronoun> | <Adverb> <P r e p o s i t i o n > | <Adverb> <P r e p o s i t i o n > <Adverb> | <Adverb> <A d j e c t i v e > | <P r e p o s i t i o n > <NP> | <Noun> <NP> | <Verb> | <A d j e c t i v e > | <Adverb> <NP> <VP> 4 PP −> <Verb> <NP> | <P r e p o s i t i o n > <NP> | <ModelAux> 4.1 Arquitetura 5 41 Adverb −> ‘ back ’ | ‘ e l e v e n ’ | ‘ j u s t ’ | ‘ l i t t l e ’ | ‘ Just ’ | ‘ how ’ | <Det> | <Noun> <P r e p o s i t i o n > 6 A d j e c t i v e −> ‘ l a t e r ’ | ‘ r u b b l e ’ | ‘ l o o s e ’ | <Noun> | <TO> 7 P r e p o s i t i o n −> ‘ by ’ | ‘ I f ’ | ‘ at ’ | ‘ out ’ | ‘ about ’ | <Det> <Adverb> 8 Verb −> ‘ thought ’ | ‘ be ’ | ‘ s a i d ’ | ‘ assumed ’ | ‘ came ’ | ‘am’ | ‘ I s ’ | ‘ was ’ | ‘ stay ’ | ‘ know ’ | ‘ f e e l ’ 9 Pronoun −> ‘ I ’ | ‘ you ’ | ‘ You ’ | ‘ I t ’ 10 ModelAux −> ‘ would ’ 11 Det −> ‘ a l l ’ | ‘ t h i s ’ | ‘ a ’ | ‘ that ’ 12 Noun −> ‘ Well ’ | ‘ Okay ’ | ‘ work ’ | ‘ Bob ’ | ‘ back ’ 13 TO −> ‘ to ’ A Lista 4.2, ilustra as árvores sintáticas para as três primeiras frases utilizando a gramática resultante. O Anexo C contêm as árvores geradas pela gramática para as 10 primeiras frases. Lista 4.2: Árvores Sintáticas geradas pela Gramática Livre de Contexto 1 F r a s e 1 : I thought you would be back by e l e v e n . 2 (S 3 (NP ( Pronoun I ) ) 4 (VP 5 ( Verb thought ) 6 (NP ( Pronoun you ) ) 7 ( ModelAux would ) 8 (PP ( Verb be ) 9 (NP ( Adverb back ) ( P r e p o s i t i o n by ) ( Adverb e l e v e n ) ) ) ) ) 10 11 12 F r a s e 2 : I s a i d I would be back l a t e r . 13 (S 14 (NP ( Pronoun I ) ) 15 (VP 16 ( Verb s a i d ) 17 (NP ( Pronoun I ) ) 18 ( ModelAux would ) 19 (PP ( Verb be ) (NP ( Adverb back ) ( A d j e c t i v e l a t e r ) ) ) ) ) 20 21 F r a s e 3 : I assumed you would be back l a t e r . 22 (S 23 (NP ( Pronoun I ) ) 4.1 Arquitetura 24 42 (VP 25 ( Verb assumed ) 26 (NP ( Pronoun you ) ) 27 ( ModelAux would ) 28 (PP ( Verb be ) (NP ( Adverb back ) ( A d j e c t i v e l a t e r ) ) ) ) ) Para a análise semântica, foi necessário expandir a gramática livre de contexto defnida na análise sintática, adicionando regras semânticas. Tais regras mostram na raiz da árvore a representação resultante para a sentença. Lista 4.3: Gramática Livre de Contexto expandida com regras semânticas 1 % start S 2 # Grammar R u l e s 3 4 S [SEM=<?s u b j ( ? vp ) >] −> NP[SEM=? s u b j ] VP[SEM=?vp ] 5 NP[SEM=?np ] −> Pronoun [SEM=?np ] 6 NP[+BY, SEM=<?adv1 ( ? adv2 ) >] −> Adverb1 [SEM=?adv1 ] P r e p o s i t i o n [+BY] Adverb2 [SEM=?adv2 ] 7 NP[SEM=<?adv1 ( ? a d j ) >] −> Adverb1 [SEM=?adv1 ] A d j e c t i v e [SEM=?a d j ] 8 VP[+WOULD, SEM=<?v ( ? pp ( ? o b j ) ) >] −> Verb [SEM=?v ] NP[SEM=?o b j ] ModelAux[+WOULD] PP [SEM=?pp ] 9 PP[+BE, SEM=?o b j ] −> VerbBe[+BE] NP[SEM=?o b j ] 10 11 # L e x i c a l Rules 12 13 Pronoun [SEM=<\P . P( you ) >] −> ’ you ’ 14 Pronoun [SEM=<\P . P( s e l f ) >] −> ’ I ’ 15 Verb [SEM=<\Y x . ( thought ( x ,Y( x ) ) ) >] −> ’ thought ’ 16 Verb [SEM=<\Y x . ( assumed ( x ,Y( x ) ) ) >] −> ’ assumed ’ 17 Verb [SEM=<\Y x . ( s a i d ( x ,Y( x ) ) ) >] −> ’ s a i d ’ 18 VerbBe[+ be ] −> ’ be ’ 19 Adverb1 [SEM=<\Y X x .X( \ z .Y( \ y . back ( z , y ) ) ) >] −> ’ back ’ 20 Adverb2 [SEM=<\P . P( e l e v e n ) >] −> ’ e l e v e n ’ 21 A d j e c t i v e [SEM=<\P . P( l a t e r ) >] −> ’ l a t e r ’ 22 P r e p o s i t i o n [+by ] −> ’ by ’ 23 ModelAux[+ would ] −> ’ would ’ Aplicando a gramática (Lista 4.3) nas frases do conjunto de testes, é possível convertêlas para fórmula em lógica de primeira ordem (LPO). A saída para três primeiras frases 4.1 Arquitetura 43 com suas respectivas representações lógicas, é apresentada na Lista 4.4 Lista 4.4: Representação de LPO para as sentenças analisadas 1 F r a s e 1 : I thought you would be back by e l e v e n . 2 thought ( s e l f , back ( you , e l e v e n ) ) 3 4 F r a s e 2 : I s a i d I would be back l a t e r . 5 s a i d ( s e l f , back ( s e l f , l a t e r ) ) 6 7 F r a s e 3 : I assumed you would be back l a t e r . 8 assumed ( s e l f , back ( you , l a t e r ) ) O objetivo do módulo de classificação é associar classes a cada uma das representações R lógicas geradas pela análise semântica. Para essa associação, utizou-se o WordNet1 , para encontrar os sinônimos dos verbos associados a cada classe dos atos ilocutórios. Após, identificou-se o verbo associado à forma lógica (resultado da análise semântica) e verificouse se este verbo estava ou não relacionado a uma das classes. Por exemplo, a frase “I assumed you would be back later.” tem a seguinte representação lógica assumed(self,back(you,later) e o verbo associado é assumed, então verifica-se em qual das classes dos atos ilocutório este verbo está associado, gerando assim a anotação. Durante o processo de classificação é possível que uma mesma frase seja associada a mais de uma classe. Assim, é necessário que a ambiguidade seja resolvida, como descrito na Seção 3.1.4. Uma arquitetura para solucionar este problema é apresentada na Figura 4.2 1 http://wordnet.princeton.edu/ 4.1 Arquitetura 44 Figura 4.2: Arquitetura Aprendizagem de Máquina O primeiro passo depois de confirmada que a frase é ambígua, é saber quais as classes que estão associadas a determinada sentença para então realizar uma verificação na base para ientificar se alguma dessas classes já foi previamente classificada. Caso a base esteja vazia ou não encontre as classes, gera-se, aleatóriamente uma sugestão de classificação para que o crítico (usuário) possa escolher a classe desejada. Após, ocorre o ajuste de peso (confiança2 e suporte3 ), e então gera-se a classificação da sentença e a base de dados é atualizada. Se o crítico recursar a sugestão, todas as classes selecionadas são listadas. O crítico então realiza uma escolha, ocorre o ajuste de pesos, gera-se uma classificação e a base de dados é atualizada. Caso seja encontrado uma das classes na bases, é feito um cálculo para determinar qual das classes previamente cadastradas na base tem o maior índice de confiabilidade dada pela equação: conf iabilidade = conf ianca suporte E então a de maior índice é sugerida para o crítico, que pode aceitar ou não a sugestão do sistema. 2 3 Número de retornos positivos para determinada representação lógica Número de vezes que uma dada representação lógica foi selecionada 4.2 Linguagens, Bibliotecas e Framework 45 Por exemplo, uma possível classificação para a sentença “I said I would be back later ” é demonstrada a seguir: Frase: I said I would be back later Semântica: said(self,back(self,later)) Classificação ambígua: assertivo(0, 0), diretivo(0, 0), compromissivo(0, 0), declarativo(0, 0) Se a base estiver vazia: O sistema aleatóriamente sugeriu a classe compromissivo(0, 1) Caso 1: o crítico aceite a sugestão: atualiza-se o peso da template compromissivo(1,1) e gera-se a classificação. Caso 2: o crítico não aceite a sugestão: todas as classes são listadas novamente: assertivo(0, 1), diretivo(0, 1), compromissivo(0, 1), declarativo(0, 1). O crítico então escolhe uma delas, por exemplo, assertivo(0,1). Atualiza-se os pesos: compromissivo(0,1), assertivo(1, 1), diretivo(0, 1), declarativo(0, 1) e gera-se a classificação. Numa próxima iteração hipotética, caso a sentença continuar sendo classificada de forma ambígua, o sistema sugere a classe de mais alta confiança (afinal a base não está vazia), que neste caso é o Assertivo. 4.2 Linguagens, Bibliotecas e Framework Nesta seção apresenta-se uma introdução sobre a linguagem de programação Python, o Framework Django, o conjunto de ferramentas para Processamento de Linguagem Latural (NLTK) e a base de dados léxica do WordNet. 4.2.1 Linguagem Python Python é uma linguagem dinâmica de alto nível, multi-paradigmas, interpretada e intuitiva. A sintaxe é limpa e legível, o que torna a linguagem de fácil utilização possibilitando o rápido desenvolvimento de aplicações e protótipos. Por ser escrita em C, 4.2 Linguagens, Bibliotecas e Framework 46 possibilita a fácil integração com bibliotecas escritas nesta linguagem para obter melhor desempenho (ROSSUM, 2009). 4.2.2 Framework Django Django é um framework web de alto nível escrito em Python que estimula o desenvolvimento rápido e limpo. Focado na praticidade do desenvolvimento simplificando as partes complicadas, como por exemplo se preocupar com os detalhes do banco de dados ou com gerenciamento de sessões (GALESIBIRD, 2010). 4.2.3 WordNet R 4 é uma base de dados léxica da língua inglesa. Substantivos, verbos, WordNet adjetivos e advérbios são agrupados em conjuntos de sinônimos cognitivos, cada um expressando um conceito distinto. WordNet superficialmente se assemelha a um dicionário de sinônimos, em que as palavras se agrupam com base em seus significados. No entanto, existem algumas diferenças importantes. Primeiro, WordNet interliga não apenas sequência de letras, mas sentido específico da palavra. E segundo, WordNet rotula a relação semântica através das palavras, enquanto que o agrupamento de palavras em um dicionário de sinônimos não seguem nenhum padrão explícito que não significa similaridade (MILLER, 1995). 4.2.4 Natural Language ToolKit Natural Language Toolkit ou, NLTK, é um conjunto de bibliotecas e programas para processamento de linguagem natural simbólica e estatística, desenvolvida para a linguagem de programação Python. NLTK inclui demonstração gráfica e dados de exemplos. Acompanha uma extensiva documentação, incluindo um livro que explica o conceito por trás das tarefas da linguagem de processamento que são suportadas pelo toolkit. NLTK é ideal para realização de pesquisas em Processamento de Linguagem Natural ou áreas estreitamente relacionadas, incluindo linguística empírica, ciência cognitiva, inteligência artificial, recuperação de informação e aprendizagem de máquina (BIRD et al., 4 http://wordnet.princeton.edu/ 4.3 Metodologia de Avaliação 47 2009). 4.3 Metodologia de Avaliação Nesta seção é descrito o conjunto de testes e a metodologia de avaliação que foram utilizados no desenvolvimento deste trabalho. 4.3.1 Conjunto de testes Para a validação do sistema proposto, um conjunto de falas retiradas do filme Os IncríveisTM de Pixar Animation StudiosTM foi utilizado. No Anexo I pode-se vizualizar as falas transcritas dos personagens Sr. Incrível (Bob) e Mulher elástica (Helen). Character Text Helen I thought you’d be back by eleven. Bob I said I’d be back later. Helen I assumed you’d be back later. Tabela 4.2: Conjunto de falas retiradas do Os IncríveisTM de Pixar Animation StudiosTM Para a classificação aleatória e manual foram utilizadas as 44 frases retiradas do filme, porém devido a complexidade de criar uma gramática livre de contexto expandida para interpretar regras semânticas e também ao tempo de desenvolvimento da classificação automática, o escopo de testes foi reduzido para as três primeiras frases do conjunto (I.1). 4.3.2 Avaliação Para avaliar o sistema proposto foram desenvolvidos dois softwares, classificação manual e classificação aleatória. 4.3.2.1 Classificação Manual Foi desenvolvido um questionário utilizando o framework web Django. Este questionário foi disponibilizado através de um website5 para que os participantes pudessem 5 http://dinomagri.pythonanywhere.com 4.3 Metodologia de Avaliação 48 classificar manualmente cada frase do conjunto de testes inicialmente proposto, em uma das cinco classes dos atos ilocutórios. Este questionário ficou disponível durante 45 dias, onde os participantes responderam 47 perguntas, sendo três delas questões demográficas e outras 44, o conjunto de testes definido na Seção 4.3.1. As instruções sobre como deveria ser realizada a pesquisa estava na página principal do website. Para parcipar era preciso aceitar um formulário de consentimento (Anexo H) e entender a definição das classes dos atos de ilocutórios. Para ilustrar, foi disponibilizada o trecho do filme Os IncríveisTM de Pixar Animation StudiosTM , que mostra a discussão entre os personagens Bob e Helen. 4.3.2.2 Classificação Aleatória Foi desenvolvido um software para a classificação aleatória das 44 frases do conjunto de teste inicialmente proposto, na qual seu funcionamento, analogamente ao método manual, foi classificar as frases em uma das cinco classes dos atos ilocutórios. O algoritmo utilizado para gerar a classificação aleatória é apresentado em Lista 4.5. Lista 4.5: Algoritmo Random 1 d e f random ( ) : 2 l o a d XML f i l e 3 f o r each item i n XML f i l e : save sentence in l i s t 4 5 6 f o r each s e n t e n c e i n l i s t : 7 f o r r a n g e ( 0 , max) : 8 c l a s s i f y t h e s e n t e n c e randomly 9 c l a s s i f i c a t i o n ( sentence , c l a s s ) Para carregar e explorar o XML6 , foi utilizado um parser 7 para identificar as tags principais do arquivo, e então recuperar os valores das tags "actor "e "text". Esses valores correspondem ao personagem (Helen ou Bob) e a frase, respectivamente. 6 7 eXtensible Markup Language http://code.activestate.com/recipes/410469/ 4.4 Considerações 4.3.2.3 49 Métrica Utilizada A métrica para determinar a dimensão da avaliação é a distância euclidiana entre a classificação manual e a classificação aleatória ou classificação automática. A fórmula de cálculo é dada por: PN precision(M, (A|R)) = i=1 |Mi − (Ai |Ri )| N onde M representa o vetor contendo a classificação manual, A o vetor contendo a classificação automática e R o vetor contendo a classificação aleatória. Figura 4.3: Métrica para dimensão de avaliação Para cada abordagem (Automática(A) ou Aleatória(R)) foi gerado um elemento resultante da métrica precision(M, (A|R)). Essas resultantes foram avaliadas comparativamente em relação à classificação manual (Figura 4.3). 4.4 Considerações Neste capítulo foram apresentadas as ferramentas que foram utilizadas para o desenvolvimento do sistema proposto, a arquitetura, bem como o conjunto de testes e a metodologia de avaliação. 50 5 Testes e Resultados Este capítulo apresenta a coleta, aferição e análise dos dados coletados, os testes realizados, bem como o resultados obtidos. 5.1 Coleta de Dados 5.1.1 Classificação Manual A Tabela 5.1 demonstra os dados demográficos coletados. A Questão 1 retrata quais as habilidades do participando tem em termos de leitura e compreensão do texto em inglês, para isso existem 3 escolhas, A, B, ou C. Os participantes que optaram pela classe C, declaram que estão aptos a entender textos longos e complexos, sendo literários ou não, além de distinguir diferentes estilos. Já os que escolheram a classe B, são capazes de entender textos que predominam em uma linguagem de alta frequência ou relacionadas ao trabalho. E por fim a classe A, que conseguem compreender nomes de familiares, palavras e sentenças bem simples. Questão A B C 1 3 9 11 2 M F 0-17 18-25 26-35 36-45 46-55 Total 23 17 3 06 23 1 12 06 02 02 23 Tabela 5.1: Dados demográficos Na questão 2 foi solicitado qual o sexo do participante, Masculino ou Feminino, representado na Tabela 5.1 por M e F, respectivamente. E por fim, a questão 3 abordava a faixa etária dos participantes. Para o conjunto de falas, cada participante deveria responder as 44 frases, classificando-as em uma das cinco classes dos atos ilocutórios (Seção 2.3.1). A Tabela 5.2 lista as três primeiras frases classificadas manualmente. O Anexo D lista todas as frases classificadas. 5.2 Aferição dos dados coletados 51 Questão Assertivo Diretivo Compromissivo Expressivo Declarativo Total 4 05 05 02 01 01 14 5 06 01 01 03 02 13 6 03 02 02 03 02 12 Tabela 5.2: Dados coletados manualmente para conjunto de 44 falas 5.1.2 Classificação Aleatória Utilizando o algoritmo definido na Seção 4.3.2.2, foi gerada uma rodada de 100 classificações aleatórias para cada texto, os valores das três primeiras frases são apresentados na Tabela 5.3. O Anexo E apresenta a classificação das 44 frases. Tabela 5.3: Dados coletados aleatóriamente para conjunto de 44 falas Frase Assertivo Diretivo Compromissivo Expressivo Declarativo 1 19 23 15 18 25 2 15 19 12 28 26 3 23 17 22 15 23 5.2 5.2.1 Aferição dos dados coletados Classificação Manual Para os dados referentes à habilidade dos participantes em termos de leitura e compreensão do texto em inglês, 48% optaram pela classe C, 39% pela classe B e 13% para a classe A, o que indica que a maioria dos participantes acreditava ter plenas condições para responder o questionário. 5.2 Aferição dos dados coletados 52 Figura 5.1: Habilidades de Inglês Os dados coletados na fase de classificação manual demonstram que 74% dos participantes são do sexo masculino enquanto que 26% são do sexo feminino (Figura 5.2). Figura 5.2: Sexo E por fim outro dado demográfico solicitado para os participantes foi a faixa etária, onde 52% responderam ter entre 18 e 25 anos, 26% entre 26 e 35 anos, 8% entre 36 e 45 anos, 8% tem entre 46-55 anos e por fim, 4% tem 17 anos ou menos. 5.2 Aferição dos dados coletados 53 Figura 5.3: Idade Após a pesquisa demográfica foi iniciado o questionário com as 44 frases do filme Os IncríveisTM de Pixar Animation StudiosTM . Entre as 44 frases adotadas para o conjunto de testes todas foram classificadas pelo menos sete vezes (Anexo J), o que indica que esse foi o número de participantes que, de fato, realizaram a pesquisa completamente. A Figura 5.4 ilustra a porcentagem de votos das classes dos atos ilocutórios para as três primeiras frases do conjunto de teste. Figura 5.4: Classificação Manual 5.2 Aferição dos dados coletados 54 A Tabela 5.4 a seguir mostra para cada frase a porcentagem referente à classe em questão. Para a escolha das classes foi utizada uma medida descritiva, a moda, que é obtida através da inspeção da tabela de distribuição de frequência, ou seja, a(s) classe(s) que aparece(m) com maior frequência. Questão Assertivo Diretivo Compromissivo Expressivo Declarativo Total 4 36 36 14 7 7 14 5 46 8 8 23 15 13 6 26 16 16 26 16 14 Tabela 5.4: Três frases classificadas manualmente Para a questão 4 da pesquisa, a frase “I thought you would be back by eleven”, teve um total de 14 votos, sendo que 36% consideraram a frase Assertiva, 36% também classificaram como Diretivo, 14% em Compromissio, 7% em Expressivo e 7% em Declarativo. Com esta classificação pode-se inferir que a escolha mais apropriada para a frase é Assertivo ou Diretivo. Na questão 5, a frase “I said I would be back later ” teve um total de 13 votos, sendo que a classe que teve mais incidência foi a classe Assertiva, com 46%. Já na questão 6, a frase “I assumed you would be back later ” recebeu 14 votos, e foi classificada com 26% em Assertivo e 26% em Expressivo. No Anexo G apresenta-se a lista completa com todas as frases, seus respectivos votos e a frequência de cada classe. 5.2.2 Classificação Aleatória Para a classificação aleatória foi utilizada as mesmas 44 frases do filme. Todas as frases foram classificadas de forma aleatória em 100 iterações (Anexo K). A Figura 5.5 mostra as três primeiras frases e suas respectivas porcentagens. 5.2 Aferição dos dados coletados 55 Figura 5.5: Classificação Aleatória Utilizou-se o mesmo critério de seleção que o da classificação manual (moda). Frase Assertivo Diretivo Compromissivo Expressivo Declarativo 1 19 23 15 18 25 2 15 19 12 28 26 3 23 17 22 15 23 Tabela 5.5: Dados coletados aleatóriamente para o conjunto das 44 falas A Tabela 5.5, mostra que a frase 1, “I thought you would be back by eleven”, foi classificada aleatóriamente na classe Declarativo, com 25% de frequência. Já a frase 2, “I said I would be back later ”, teve 28% de frequência na classe Expressiva. E por fim a frase “I assumed you would be back later ” obteve a classificação Assertiva ou Diretiva, ambas com 23% de frequência. No Anexo F apresenta-se a lista completa com todas as frases classificadas aleatóriamente. 5.3 Resultados Obtidos 5.3 56 Resultados Obtidos Para avaliar o sistema proposto foram utilizadas as abordagens de classificação manual e a classificação aleatória, conforme apresentado na Seção 4.3.2. 5.3.1 Considerações acerca dos dados Após o aferimento de dados, percebe-se que as três primeiras perguntas apresentam um total de 23 votos, enquanto que a última apenas 7, o que demonstra uma desistência gradual (Figura 5.6). Figura 5.6: Análise dos dados da classificação manual Essa inconsistência dos dados, associada à complexidade para a criação da gramática livre de contexto, fez com que o escopo de testes fosse reduzido inicialmente para 10 frases. Porém a complexidade para expandir essa gramática livre de contexto para interpretar regras semânticas somado ao tempo limitado de desenvolvimento, optou-se (em consenso com o orientador) por realizar uma análise completa da arquitetura proposta, desta forma, reduzindo o escopo para as três primeiras frases do conjunto de testes inicialmene propostos. 5.3 Resultados Obtidos 5.3.2 57 Comparações realizadas Classificação Aleatória x Classificação Manual A métrica utilizada para realizar a comparação entre a classificação aleatória e manual foi descrita na Seção 4.3.2.3. A tabela 5.6 descreve a precisão da classificação aleatória considerando as frases sob a dimensão da análise. Frase Manual Aleatório Precisão (%) Frase 1 Assertivo ou Diretivo Declarativo 0 Frase 2 Assertivo Expressiva 0 Frase 3 Assertivo ou Expressivo Assertivo ou Diretivo 25 Precisão Média 8,33% Tabela 5.6: Resultados da Classificação Aleatória Onde as frases um e dois não obtiveram precisão alguma e a frase 3 obteve precisão de 25%. Classificação Automática x Classificação Manual Com base na métrica apresentada na Seção 4.3.2.3, a Tabela 5.7 descreve a precisão da classificação automática considerando as frases sob a dimensão da análise. Frase Frase 1 Frase 2 Frase 3 Manual Assertivo ou Diretivo Assertivo Assertivo ou Expressivo Automática Assertivo ou Compromissivo Assertivo, Diretivo, Compromissivo ou Declarativo Assertivo Precisão (%) 50 25 100 Precisão Média 58,33% Tabela 5.7: Resultado da Classificação Automática Onde a frase um obteve precisão de 50%, a frase dois uma precisão de 25% e a três de 100%. 5.3.3 Resultados Em relação aos dados comparativos apresentados nas Tabelas 5.6 e 5.7 percebe-se que a precisão média apresentada pelo método aleatório foi de 8,33% e pelo método automático 58,33%. Representando uma diferença de 50% em favor do segundo método. 5.4 Considerações 58 Apesar destes resultados indicarem uma grande vantagem para o método automático, é importante salientar que este estudo foi limitado à um domínio reduzido a três frases. Tal limitação implica numa impossibilidade de validar esse sistema com maior grau de confiança. 5.3.4 Limitações Os problemas apresentados na seção 5.3.1, descrevem a limitação da gramática tanto sintática quando semântica para análisar novas frases. Outra limitação apresentada pelo software é que a classificação dos atos de fala é feita apenas em relação ao verbo associado a representação lógica da frase, ao invés de considerar toda a estrutura gramatical da mesma. No aspecto da aprendizagem de máquina não foi possível aplicar o algortimo inicialmente proposto (Q-Learning) devido a quantidade limitada de frases, desta forma foi implementado o algoritmo descrito no Capítulo 4, porém concluiu-se que esse algoritmo se aproxima mais do método supervisionado do que por reforço. 5.3.5 Publicações Artigo completo publicado durante o desenvolviemnto deste trabalho de conclusão de curso: MAGRI, D. R. C. ; SILVA, R. E. ; SÁ, C. C. ; HEINEN, Milton Roberto . Uma Revisão Teórica sobre Classificação Textual de Atos de Fala para Atores Virtuais Utilizando Aprendizagem de Máquina. In: Computer on the Beach, 2012, Florianópolis. Computer on the Beach, 2012 5.4 Considerações Neste capítulo foram apresentados os modelos de obtenção dos dados, a coleta, a aferição e a análise dos mesmos. Foi discutido o motivo da diminuição do escopo de testes, dos resultados obtidos, e ainda suas limitações. 59 6 Conclusões De acordo com Iurgel e Marcos (2007), os Atores Digitais Autonômos (ADA) são uma analogia à atores reais, que de forma autônoma, e por suas interpretações independentes da situação, podem desempenhar um papel de acordo com determinado script, como parte da estória. Este trabalho está inserido no projeto D.R.A.M.A.1 e teve por objetivo principal estudar alternativas computacionais para a interpretação autônoma de um conjunto de falas de um roteiro. Neste trabalho foi realizado um estudo sobre os atos ilocutórios onde possibilitou compreender como identificar as condições comunicativas e também reconhecer as intenções, permitindo que os ADA tenham mais informações para atuarem. Também foi apresentado um estudo teórico sobre o processamento de linguagem natural, compreendendo as etapas envolvidas no processo para conseguir extrair informações de texto. Essas etapas são descritas como Análise Léxica, que separa cada palavra individualmente e a classifica utilizando o método de POS tagging, a Análise Sintática que cria uma árvore através de uma Gramática Livre de Contexto e por fim a Análise Semântica, que tenta extrair relações semânticas das árvores geradas na fase anterior. Outro tópico abordado neste trabalho foi a aprendizagem de máquina, o qual possibilita analisar a classificação entre a interpretação semântica e os templates dos atos de fala. Foram desenvolvidos dois módulos auxiliares afim de avaliar o trabalho proposto. O primeiro foi um questionário onde os participantes escolheram uma das cinco classes dos atos ilocutórios para cada frase. O segundo módulo desenvolvido tinha por objetivo classificar aleatóriamente cada frase. O sistema foi avaliado comparando-se as abordagens aleatória e a automática em relação a classificação manual obtida pelo questionário. Desta comparação determinou-se que a precisão média apresentada pelo método automático foi de 50% melhor do que o 1 Developing Rational Agents to Mimic Actors 6 Conclusões 60 método aleatório. Apesar desses resultados indicarem uma grande vantagem para o método automático, é importante salientar que este estudo foi limitado a um domínio reduzido, de três frases, não devendo os resultados serem considerados conclusivos. Desta forma, sugere-se como trabalhos futuros: • Adicionar novas regras a gramática livre de contexto associada às análises sintática e semântica; • Modificar o template de classificação automática afim de que o mesmo considere toda a estrutura gramatical da frase e não apenas o verbo. • Investigar outras abordagens para a aprendizagem de máquina. • Desenvolver um estudo comparativo mais aprofundado que envolva um domínio de análise maior (por exemplo, um roteiro completo). 61 A Conjunto das POS tagging Lista A.1: “Conjunto das POS tagging do NLTK” 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 $ : dollar $ −$ −−$ A$ C$ HK$ M$ NZ$ S$ U. S . $ US$ ’ ’ : c l o s i n g q u o t a t i o n mark ’ ’’ ( : opening p a r e n t h e s i s ( [ { ) : closing parenthesis ) ] } , : comma , −−: dash −− . : sentence terminator . ! ? : : colon or e l l i p s i s : ; ... CC: c o n j u n c t i o n , c o o r d i n a t i n g & ’ n and both but e i t h e r et f o r l e s s minus n e i t h e r nor o r p l u s s o t h e r e f o r e times v . v e r s u s vs . whether y e t CD: numeral , c a r d i n a l 21 mid−1890 nine−t h i r t y f o r t y −two one−t e n t h t e n m i l l i o n 0 . 5 one f o r t y − 22 s e v e n 1987 twenty ’ 7 9 z e r o two 78− d e g r e e s e i g h t y −f o u r IX ’ 6 0 s . 0 2 5 23 f i f t e e n 2 7 1 , 1 2 4 dozen q u i n t i l l i o n DM2, 0 0 0 . . . 24 DT: d e t e r m i n e r 25 a l l an a n o t h e r any both d e l each e i t h e r e v e r y h a l f l a many much nary 26 n e i t h e r no some such t h a t t h e them t h e s e t h i s t h o s e 27 28 29 EX: e x i s t e n t i a l t h e r e there FW: f o r e i g n word 30 g e m e i n s c h a f t hund i c h j e u x habeas Haementeria Herr K’ ang−s i vous 31 lutihaw a l a i j e jour objets s a l u t a r i s 32 terram f i c h e o u i c o r p o r i s . . . 33 34 f i l l e quibusdam pas t r o p Monte IN : p r e p o s i t i o n o r c o n j u n c t i o n , s u b o r d i n a t i n g a s t r i d e among uppon whether out i n s i d e pro d e s p i t e on by t h r o u g h o u t A Conjunto das POS tagging 62 35 below w i t h i n f o r towards n e a r behind atop around i f l i k e u n t i l below 36 next i n t o i f b e s i d e . . . 37 JJ : a d j e c t i v e o r numeral , o r d i n a l 38 t h i r d i l l −mannered pre−war r e g r e t t a b l e o i l e d c a l a m i t o u s f i r s t s e p a r a b l e 39 e c t o p l a s m i c b a t t e r y −powered p a r t i c i p a t o r y f o u r t h s t i l l −to−be−named 40 m u l t i l i n g u a l multi −d i s c i p l i n a r y 41 ... JJR : a d j e c t i v e , c o m p a r a t i v e 42 b l e a k e r b r a v e r b r e e z i e r b r i e f e r b r i g h t e r b r i s k e r b r o a d e r bumper b u s i e r 43 c a l m e r c h e a p e r c h o o s i e r c l e a n e r c l e a r e r c l o s e r c o l d e r commoner c o s t l i e r 44 c o z i e r creamier crunchier cuter . . . 45 JJS : a d j e c t i v e , s u p e r l a t i v e 46 c a l m e s t c h e a p e s t c h o i c e s t c l a s s i e s t c l e a n e s t c l e a r e s t c l o s e s t commonest 47 corniest c o s t l i e s t crassest c re epi est crudest cutest darkest deadliest 48 dearest deepest densest dinkiest . . . 49 LS : l i s t item marker 50 A A. B B . C C . D E F F i r s t G H I J K One SP−44001 SP−44002 SP−44005 51 SP−44007 Second Third Three Two ∗ a b c d f i r s t f i v e f o u r one s i x t h r e e 52 two 53 MD: modal a u x i l i a r y 54 can cannot c o u l d couldn ’ t d a r e may might must need ought s h a l l s h o u l d 55 shouldn ’ t w i l l would 56 NN: noun , common , s i n g u l a r o r mass 57 common−c a r r i e r cabbage knuckle −d u s t e r Casino afghan shed t h e r m o s t a t 58 i n v e s t m e n t s l i d e humour f a l l o f f s l i c k wind hyena o v e r r i d e subhumanity 59 machinist . . . 60 NNP: noun , proper , s i n g u l a r 61 Motown Venneboerger Czestochwa Ranzer Conchita Trumplane C h r i s t o s 62 O c e a n s i d e Escobar K r e i s l e r Sawyer Cougar Yvette Ervin ODI D a r r y l CTCA 63 Shannon A.K. C . Meltex L i v e r p o o l . . . 64 NNPS: noun , proper , p l u r a l 65 Americans Americas Amharas A m i t y v i l l e s Amusements Anarcho−S y n d i c a l i s t s 66 A n d a l u s i a n s Andes Andruses Angels Animals Anthony A n t i l l e s A n t i q u e s 67 Apache Apaches Apocrypha . . . 68 NNS: noun , common , p l u r a l 69 u n d e r g r a d u a t e s s c o t c h e s b r i c −a−b r a c p r o d u c t s bodyguards f a c e t s c o a s t s 70 d i v e s t i t u r e s storehouses designs clubs fragrances averages 71 s u b j e c t i v i s t s a p p r e h e n s i o n s muses f a c t o r y −jobs . . . 72 73 74 PDT: pre−d e t e r m i n e r a l l both h a l f many q u i t e such s u r e t h i s POS : g e n i t i v e marker A Conjunto das POS tagging 75 76 63 ’ ’s PRP: pronoun , p e r s o n a l 77 h e r s h e r s e l f him h i m s e l f h i s s e l f i t i t s e l f me m y s e l f one o n e s e l f o u r s 78 o u r s e l v e s o w n s e l f s e l f s h e t h e e t h e i r s them t h e m s e l v e s they thou thy us 79 80 81 PRP$ : pronoun , p o s s e s s i v e h e r h i s mine my our o u r s t h e i r thy your RB: adverb 82 o c c a s i o n a l l y u n a b a t i n g l y maddeningly a d v e n t u r o u s l y p r o f e s s e d l y 83 s t i r r i n g l y prominently t e c h n o l o g i c a l l y m a g i s t e r i a l l y predominately 84 swiftly fiscally pitilessly 85 ... RBR: adverb , c o m p a r a t i v e 86 f u r t h e r g l o o m i e r g r a n d e r g r a v e r g r e a t e r grimmer h a r d e r h a r s h e r 87 h e a l t h i e r h e a v i e r h i g h e r however l a r g e r l a t e r l e a n e r l e n g t h i e r l e s s − 88 p e r f e c t l y l e s s e r l o n e l i e r l o n g e r l o u d e r l o w e r more . . . 89 RBS : adverb , s u p e r l a t i v e 90 best biggest bluntest e a r l i e s t f a r t h e s t f i r s t furthest hardest 91 h e a r t i e s t h i g h e s t l a r g e s t l e a s t l e s s most n e a r e s t s e c o n d t i g h t e s t w o r s t 92 RP: p a r t i c l e 93 aboard about a c r o s s a l o n g a p a r t around a s i d e a t away back b e f o r e behind 94 by c r o p down e v e r f a s t f o r f o r t h from go h i g h i . e . i n i n t o j u s t l a t e r 95 low more o f f on open out o v e r p e r p i e r a i s i n g s t a r t t e e t h t h a t through 96 under unto up up−pp upon whole with you 97 98 99 100 101 SYM: symbol % & ’ ’’ ’ ’ . ) ) . ∗ + , . < = > @ A[ f j ] U. S U. S . S .R ∗ ∗∗ ∗∗∗ TO: "to" a s p r e p o s i t i o n o r i n f i n i t i v e marker to UH: i n t e r j e c t i o n 102 Goodbye Goody Gosh Wow J e e p e r s Jee−s u s Hubba Hey Kee−r e i s t Oops amen 103 huh howdy uh dammit whammo s h u c k s heck anyways whodunnit honey g o l l y 104 man baby d i d d l e hush s o n u v a b i t c h . . . 105 VB: verb , b a s e form 106 ask a s s e m b l e a s s e s s a s s i g n assume a t o n e a t t e n t i o n a v o i d bake b a l k a n i z e 107 bank b e g i n b e h o l d b e l i e v e bend b e n e f i t b e v e l beware b l e s s b o i l bomb 108 b o o s t b r a c e break b r i n g b r o i l brush b u i l d . . . 109 VBD: verb , p a s t t e n s e 110 dipped p l e a d e d swiped regummed soaked t i d i e d convened h a l t e d r e g i s t e r e d 111 c u s h i o n e d e x a c t e d snubbed s t r o d e aimed adopted b e l i e d f i g g e r e d 112 s p e c u l a t e d wore a p p r e c i a t e d c o n t e m p l a t e d . . . 113 114 VBG: verb , p r e s e n t p a r t i c i p l e o r gerund telegraphing s t i r r i n g focusing angering judging s t a l l i n g l a c t a t i n g A Conjunto das POS tagging 115 hank erin ’ a l l e g i n g v e e r i n g c a p p i n g a p p r o a c h i n g t r a v e l i n g b e s i e g i n g 116 encrypting i n t e r r u p t i n g e r a s i n g wincing . . . 117 VBN: verb , p a s t p a r t i c i p l e 118 m u l t i h u l l e d d i l a p i d a t e d a e r o s o l i z e d c h a i r e d l a n g u i s h e d p a n e l i z e d used 119 e x p e r i m e n t e d f l o u r i s h e d i m i t a t e d r e u n i f e d f a c t o r e d condensed s h e a r e d 120 u n s e t t l e d primed dubbed d e s i r e d . . . 121 VBP: verb , p r e s e n t t e n s e , not 3 rd p e r s o n s i n g u l a r 122 predominate wrap r e s o r t s u e t w i s t s p i l l c u r e l e n g t h e n brush t e r m i n a t e 123 appear tend s t r a y g l i s t e n o b t a i n c o m p r i s e d e t e s t t e a s e a t t r a c t 124 emphasize mold p o s t p o n e s e v e r return wag . . . 125 VBZ: verb , p r e s e n t t e n s e , 3 rd p e r s o n s i n g u l a r 126 b a s e s r e c o n s t r u c t s marks mixes d i s p l e a s e s s e a l s c a r p s weaves s n a t c h e s 127 slumps s t r e t c h e s a u t h o r i z e s s m o l d e r s p i c t u r e s emerges s t o c k p i l e s 128 seduces f i z z e s uses b o l s t e r s s l a p s speaks pleads . . . 129 130 131 132 133 WDT: WH−d e t e r m i n e r t h a t what whatever which w h i c h e v e r WP: WH−pronoun t h a t what whatever w h a t s o e v e r which who whom whosoever WP$: WH−pronoun , p o s s e s s i v e 134 whose 135 WRB: Wh−adverb 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 64 how however whence whenever where whereby w h e r e e v e r w h e r e i n w h e r e o f why ‘ ‘ : o p e n i n g q u o t a t i o n mark ‘ ‘‘ $ : dollar $ −$ −−$ A$ C$ HK$ M$ NZ$ S$ U. S . $ US$ ’ ’ : c l o s i n g q u o t a t i o n mark ’ ’’ ( : opening p a r e n t h e s i s ( [ { ) : closing parenthesis ) ] } , : comma , −−: dash −− . : sentence terminator . ! ? : : colon or e l l i p s i s : ; ... A Conjunto das POS tagging 155 156 157 158 65 CC: c o n j u n c t i o n , c o o r d i n a t i n g & ’ n and both but e i t h e r et f o r l e s s minus n e i t h e r nor o r p l u s s o t h e r e f o r e times v . v e r s u s vs . whether y e t CD: numeral , c a r d i n a l 159 mid−1890 nine−t h i r t y f o r t y −two one−t e n t h t e n m i l l i o n 0 . 5 one f o r t y − 160 s e v e n 1987 twenty ’ 7 9 z e r o two 78− d e g r e e s e i g h t y −f o u r IX ’ 6 0 s . 0 2 5 161 f i f t e e n 2 7 1 , 1 2 4 dozen q u i n t i l l i o n DM2, 0 0 0 . . . 162 DT: d e t e r m i n e r 163 a l l an a n o t h e r any both d e l each e i t h e r e v e r y h a l f l a many much nary 164 n e i t h e r no some such t h a t t h e them t h e s e t h i s t h o s e 165 166 167 EX: e x i s t e n t i a l t h e r e there FW: f o r e i g n word 168 g e m e i n s c h a f t hund i c h j e u x habeas Haementeria Herr K’ ang−s i vous 169 lutihaw a l a i j e jour objets s a l u t a r i s 170 terram f i c h e o u i c o r p o r i s . . . 171 f i l l e quibusdam pas t r o p Monte IN : p r e p o s i t i o n o r c o n j u n c t i o n , s u b o r d i n a t i n g 172 a s t r i d e among uppon whether out i n s i d e pro d e s p i t e on by t h r o u g h o u t 173 below w i t h i n f o r towards n e a r behind atop around i f l i k e u n t i l below 174 next i n t o i f b e s i d e . . . 175 JJ : a d j e c t i v e o r numeral , o r d i n a l 176 t h i r d i l l −mannered pre−war r e g r e t t a b l e o i l e d c a l a m i t o u s f i r s t s e p a r a b l e 177 e c t o p l a s m i c b a t t e r y −powered p a r t i c i p a t o r y f o u r t h s t i l l −to−be−named 178 m u l t i l i n g u a l multi −d i s c i p l i n a r y 179 ... JJR : a d j e c t i v e , c o m p a r a t i v e 180 b l e a k e r b r a v e r b r e e z i e r b r i e f e r b r i g h t e r b r i s k e r b r o a d e r bumper b u s i e r 181 c a l m e r c h e a p e r c h o o s i e r c l e a n e r c l e a r e r c l o s e r c o l d e r commoner c o s t l i e r 182 c o z i e r creamier crunchier cuter . . . 183 JJS : a d j e c t i v e , s u p e r l a t i v e 184 c a l m e s t c h e a p e s t c h o i c e s t c l a s s i e s t c l e a n e s t c l e a r e s t c l o s e s t commonest 185 corniest c o s t l i e s t crassest c re epi est crudest cutest darkest deadliest 186 dearest deepest densest dinkiest . . . 187 LS : l i s t item marker 188 A A. B B . C C . D E F F i r s t G H I J K One SP−44001 SP−44002 SP−44005 189 SP−44007 Second Third Three Two ∗ a b c d f i r s t f i v e f o u r one s i x t h r e e 190 two 191 MD: modal a u x i l i a r y 192 can cannot c o u l d couldn ’ t d a r e may might must need ought s h a l l s h o u l d 193 shouldn ’ t w i l l would 194 NN: noun , common , s i n g u l a r o r mass A Conjunto das POS tagging 66 195 common−c a r r i e r cabbage knuckle −d u s t e r Casino afghan shed t h e r m o s t a t 196 i n v e s t m e n t s l i d e humour f a l l o f f s l i c k wind hyena o v e r r i d e subhumanity 197 machinist . . . 198 NNP: noun , proper , s i n g u l a r 199 Motown Venneboerger Czestochwa Ranzer Conchita Trumplane C h r i s t o s 200 O c e a n s i d e Escobar K r e i s l e r Sawyer Cougar Yvette Ervin ODI D a r r y l CTCA 201 Shannon A.K. C . Meltex L i v e r p o o l . . . 202 NNPS: noun , proper , p l u r a l 203 Americans Americas Amharas A m i t y v i l l e s Amusements Anarcho−S y n d i c a l i s t s 204 A n d a l u s i a n s Andes Andruses Angels Animals Anthony A n t i l l e s A n t i q u e s 205 Apache Apaches Apocrypha . . . 206 NNS: noun , common , p l u r a l 207 u n d e r g r a d u a t e s s c o t c h e s b r i c −a−b r a c p r o d u c t s bodyguards f a c e t s c o a s t s 208 d i v e s t i t u r e s storehouses designs clubs fragrances averages 209 s u b j e c t i v i s t s a p p r e h e n s i o n s muses f a c t o r y −jobs . . . 210 211 212 213 214 PDT: pre−d e t e r m i n e r a l l both h a l f many q u i t e such s u r e t h i s POS : g e n i t i v e marker ’ ’s PRP: pronoun , p e r s o n a l 215 h e r s h e r s e l f him h i m s e l f h i s s e l f i t i t s e l f me m y s e l f one o n e s e l f o u r s 216 o u r s e l v e s o w n s e l f s e l f s h e t h e e t h e i r s them t h e m s e l v e s they thou thy us 217 218 219 PRP$ : pronoun , p o s s e s s i v e h e r h i s mine my our o u r s t h e i r thy your RB: adverb 220 o c c a s i o n a l l y u n a b a t i n g l y maddeningly a d v e n t u r o u s l y p r o f e s s e d l y 221 s t i r r i n g l y prominently t e c h n o l o g i c a l l y m a g i s t e r i a l l y predominately 222 swiftly fiscally pitilessly 223 ... RBR: adverb , c o m p a r a t i v e 224 f u r t h e r g l o o m i e r g r a n d e r g r a v e r g r e a t e r grimmer h a r d e r h a r s h e r 225 h e a l t h i e r h e a v i e r h i g h e r however l a r g e r l a t e r l e a n e r l e n g t h i e r l e s s − 226 p e r f e c t l y l e s s e r l o n e l i e r l o n g e r l o u d e r l o w e r more . . . 227 RBS : adverb , s u p e r l a t i v e 228 best biggest bluntest e a r l i e s t f a r t h e s t f i r s t furthest hardest 229 h e a r t i e s t h i g h e s t l a r g e s t l e a s t l e s s most n e a r e s t s e c o n d t i g h t e s t w o r s t 230 RP: p a r t i c l e 231 aboard about a c r o s s a l o n g a p a r t around a s i d e a t away back b e f o r e behind 232 by c r o p down e v e r f a s t f o r f o r t h from go h i g h i . e . i n i n t o j u s t l a t e r 233 low more o f f on open out o v e r p e r p i e r a i s i n g s t a r t t e e t h t h a t through 234 under unto up up−pp upon whole with you A Conjunto das POS tagging 235 236 237 238 239 SYM: symbol % & ’ ’’ ’ ’ . ) ) . ∗ + , . < = > @ A[ f j ] U. S U. S . S .R ∗ ∗∗ ∗∗∗ TO: "to" a s p r e p o s i t i o n o r i n f i n i t i v e marker to UH: i n t e r j e c t i o n 240 Goodbye Goody Gosh Wow J e e p e r s Jee−s u s Hubba Hey Kee−r e i s t Oops amen 241 huh howdy uh dammit whammo s h u c k s heck anyways whodunnit honey g o l l y 242 man baby d i d d l e hush s o n u v a b i t c h . . . 243 VB: verb , b a s e form 244 ask a s s e m b l e a s s e s s a s s i g n assume a t o n e a t t e n t i o n a v o i d bake b a l k a n i z e 245 bank b e g i n b e h o l d b e l i e v e bend b e n e f i t b e v e l beware b l e s s b o i l bomb 246 b o o s t b r a c e break b r i n g b r o i l brush b u i l d . . . 247 67 VBD: verb , p a s t t e n s e 248 dipped p l e a d e d swiped regummed soaked t i d i e d convened h a l t e d r e g i s t e r e d 249 c u s h i o n e d e x a c t e d snubbed s t r o d e aimed adopted b e l i e d f i g g e r e d 250 s p e c u l a t e d wore a p p r e c i a t e d c o n t e m p l a t e d . . . 251 VBG: verb , p r e s e n t p a r t i c i p l e o r gerund 252 telegraphing s t i r r i n g focusing angering judging s t a l l i n g l a c t a t i n g 253 han kerin ’ a l l e g i n g v e e r i n g c a p p i n g a p p r o a c h i n g t r a v e l i n g b e s i e g i n g 254 encrypting i n t e r r u p t i n g e r a s i n g wincing . . . 255 VBN: verb , p a s t p a r t i c i p l e 256 m u l t i h u l l e d d i l a p i d a t e d a e r o s o l i z e d c h a i r e d l a n g u i s h e d p a n e l i z e d used 257 e x p e r i m e n t e d f l o u r i s h e d i m i t a t e d r e u n i f e d f a c t o r e d condensed s h e a r e d 258 u n s e t t l e d primed dubbed d e s i r e d . . . 259 VBP: verb , p r e s e n t t e n s e , not 3 rd p e r s o n s i n g u l a r 260 predominate wrap r e s o r t s u e t w i s t s p i l l c u r e l e n g t h e n brush t e r m i n a t e 261 appear tend s t r a y g l i s t e n o b t a i n c o m p r i s e d e t e s t t e a s e a t t r a c t 262 emphasize mold p o s t p o n e s e v e r return wag . . . 263 VBZ: verb , p r e s e n t t e n s e , 3 rd p e r s o n s i n g u l a r 264 b a s e s r e c o n s t r u c t s marks mixes d i s p l e a s e s s e a l s c a r p s weaves s n a t c h e s 265 slumps s t r e t c h e s a u t h o r i z e s s m o l d e r s p i c t u r e s emerges s t o c k p i l e s 266 seduces f i z z e s uses b o l s t e r s s l a p s speaks pleads . . . 267 268 269 270 271 WDT: WH−d e t e r m i n e r t h a t what whatever which w h i c h e v e r WP: WH−pronoun t h a t what whatever w h a t s o e v e r which who whom whosoever WP$: WH−pronoun , p o s s e s s i v e 272 whose 273 WRB: Wh−adverb 274 how however whence whenever where whereby w h e r e e v e r w h e r e i n w h e r e o f why A Conjunto das POS tagging 275 276 ‘ ‘ : o p e n i n g q u o t a t i o n mark ‘ ‘‘ 68 69 B POS tagging para as 44 frases Lista B.1: “Classificação das tags para a Análise Léxica” 1 I thought you would be back by e l e v e n . 2 [ ( ’ I ’ , ’PRP’ ) , ( ’ thought ’ , ’VBD’ ) , ( ’ you ’ , ’PRP’ ) , ( ’ would ’ , ’MD’ ) , ( ’ be ’ , ’VB’ ) , ( ’ back ’ , ’RB’ ) , ( ’ by ’ , ’ IN ’ ) , ( ’ e l e v e n ’ , ’RB’ ) , ( ’ . ’ , ’. ’) ] 3 4 5 I s a i d I would be back l a t e r . 6 [ ( ’ I ’ , ’PRP’ ) , ( ’ s a i d ’ , ’VBD’ ) , ( ’ I ’ , ’PRP’ ) , ( ’ would ’ , ’MD’ ) , ( ’ be ’ , ’VB’ ) , ( ’ back ’ , ’RB’ ) , ( ’ l a t e r ’ , ’ JJ ’ ) , ( ’ . ’ , ’. ’) ] 7 8 9 10 I assumed you would be back l a t e r . [ ( ’ I ’ , ’PRP’ ) , ( ’ assumed ’ , ’VBD’ ) , ( ’ you ’ , ’PRP’ ) , ( ’ would ’ , ’MD’ ) , ( ’ be ’ , ’VB’ ) , ( ’ back ’ , ’RB’ ) , ( ’ l a t e r ’ , ’ JJ ’ ) , ( ’ . ’ , ’. ’) ] 11 12 13 I f you came back a t a l l ! 14 [ ( ’ I f ’ , ’ IN ’ ) , ( ’ you ’ , ’PRP’ ) , ( ’ came ’ , ’VBD’ ) , ( ’ back ’ , ’RP’ ) , ( ’ at ’ , ’ IN ’ ) , ( ’ a l l ’ , ’DT’ ) , ( ’ ! ’ , ’. ’) ] 15 16 17 You would be back l a t e r . 18 [ ( ’ You ’ , ’PRP’ ) , ( ’ would ’ , ’MD’ ) , ( ’ be ’ , ’VB’ ) , ( ’ back ’ , ’RB’ ) , ( ’ l a t e r ’ , ’ JJ ’ ) , ( ’ . ’ , ’. ’) ] 19 20 21 Well , I am back . Okay? 22 [ ( ’ Well ’ , ’NNP’ ) , ( ’ , ’ , ’ , ’ ) , ( ’ I ’ , ’PRP’ ) , ( ’ am’ , ’VBP’ ) , ( ’ back . ’ , ’NNP’ ) , ( ’ Okay ’ , ’NNP’ ) , ( ’ ? ’ , ’. ’) ] 23 24 25 Is t h i s rubble ? 26 [ ( ’ I s ’ , ’VBZ’ ) , ( ’ t h i s ’ , ’DT’ ) , ( ’ r u b b l e ’ , ’ JJ ’ ) , ( ’ ? ’ , 27 28 ’. ’) ] B POS tagging para as 44 frases 70 29 I t was j u s t a l i t t l e work out . 30 [ ( ’ I t ’ , ’PRP’ ) , ( ’ was ’ , ’VBD’ ) , ( ’ j u s t ’ , ’RB’ ) , ( ’ a ’ , ’DT’ ) , ( ’ l i t t l e ’ , ’RB ’ ) , ( ’ work ’ , ’NN’ ) , ( ’ out ’ , ’ IN ’ ) , ( ’ . ’ , ’. ’) ] 31 32 33 Just to stay l o o s e . 34 [ ( ’ Just ’ , ’RB’ ) , ( ’ to ’ , ’TO’ ) , ( ’ stay ’ , ’VB’ ) , ( ’ l o o s e ’ , ’ JJ ’ ) , ( ’ . ’ , ’. ’) ] 35 36 37 You know how I f e e l about that , Bob . 38 [ ( ’ You ’ , ’PRP’ ) , ( ’ know ’ , ’VBP’ ) , ( ’ how ’ , ’WRB’ ) , ( ’ I ’ , ’PRP’ ) , ( ’ f e e l ’ , ’ VBP’ ) , ( ’ about ’ , ’ IN ’ ) , ( ’ that ’ , ’DT’ ) , ( ’ , ’ , ( ’. ’ , ’ , ’ ) , ( ’ Bob ’ , ’NNP’ ) , ’. ’) ] 39 40 41 Darn you ! 42 [ ( ’ Darn ’ , ’NNP’ ) , ( ’ you ’ , ’PRP’ ) , ( ’ ! ’ , ’. ’) ] 43 44 45 46 We can not blow c o v e r a g a i n . [ ( ’ We’ , ’PRP’ ) , ( ’ can ’ , ’MD’ ) , ( ’ not ’ , ’RB’ ) , ( ’ blow ’ , ’VB’ ) , ( ’ cover ’ , ’RB ’ ) , ( ’ again ’ , ’RB’ ) , ( ’ . ’ , ’. ’) ] 47 48 49 The b u i l d i n g was coming down anyway . 50 [ ( ’ The ’ , ’DT’ ) , ( ’ b u i l d i n g ’ , ’NN’ ) , ( ’ was ’ , ’VBD’ ) , ( ’ coming ’ , ’VBG’ ) , ( ’ down ’ , ’ IN ’ ) , ( ’ anyway ’ , ’NN’ ) , ( ’ . ’ , ’. ’) ] 51 52 53 54 What ? ! [ ( ’ What ’ , ’WP’ ) , ( ’ ? ’ , ’. ’) , ( ’! ’ , ’. ’) ] 55 56 57 You knocked out a b u i l d i n g ? ! 58 [ ( ’ You ’ , ’PRP’ ) , ( ’ knocked ’ , ’VBD’ ) , ( ’ out ’ , ’RP’ ) , ( ’ a ’ , ’DT’ ) , ( ’ b u i l d i n g ’ , ’NN’ ) , ( ’ ? ’ , ’. ’) , ( ’! ’ , ’. ’) ] 59 60 61 I t was on f i r e . 62 [ ( ’ I t ’ , ’PRP’ ) , ( ’ was ’ , ’VBD’ ) , ( ’ on ’ , ’ IN ’ ) , ( ’ f i r e ’ , ’NN’ ) , ( ’ . ’ , ’. ’) ] B POS tagging para as 44 frases 71 63 64 65 S t r u c t u r a l l y unsound . 66 [ ( ’ S t r u c t u r a l l y ’ , ’RB’ ) , ( ’ unsound ’ , ’VBD’ ) , ( ’ . ’ , ’. ’) ] 67 68 69 I t was coming down anyway . 70 [ ( ’ I t ’ , ’PRP’ ) , ( ’ was ’ , ’VBD’ ) , ( ’ coming ’ , ’VBG’ ) , ( ’ down ’ , ’ IN ’ ) , ( ’ anyway ’ , ’NN’ ) , ( ’ . ’ , ’. ’) ] 71 72 73 T e l l me you have not been l i s t e n i n g t h e p o l i c e s c a n n e r a g a i n . 74 [ ( ’ T e l l ’ , ’NNP’ ) , ( ’ me ’ , ’PRP’ ) , ( ’ you ’ , ’PRP’ ) , ( ’ have ’ , ’VBP’ ) , ( ’ not ’ , ’ RB’ ) , ( ’ been ’ , ’VBN’ ) , ( ’ l i s t e n i n g ’ , ’VBG’ ) , ( ’ the ’ , ’DT’ ) , ( ’ p o l i c e ’ , ’ NN’ ) , ( ’ s c a n n e r ’ , ’NN’ ) , ( ’ again ’ , ’RB’ ) , ( ’ . ’ , ’. ’) ] 75 76 77 Look . 78 [ ( ’ Look ’ , ’NNP’ ) , ( ’ . ’ , ’. ’) ] 79 80 81 I perform a p u b l i c s e r v i c e . 82 [ ( ’ I ’ , ’PRP’ ) , ( ’ perform ’ , ’VBP’ ) , ( ’ a ’ , ’DT’ ) , ( ’ p u b l i c ’ , ’ JJ ’ ) , ( ’ s e r v i c e ’ , ’NN’ ) , ( ’ . ’ , ’. ’) ] 83 84 85 You a c t l i k e i t i s a bad t h i n g . 86 [ ( ’ You ’ , ’PRP’ ) , ( ’ act ’ , ’VBP’ ) , ( ’ l i k e ’ , ’ IN ’ ) , ( ’ i t ’ , ’PRP’ ) , ( ’ i s ’ , ’VBZ ’ ) , ( ’ a ’ , ’DT’ ) , ( ’ bad ’ , ’ JJ ’ ) , ( ’ t h i n g ’ , ’NN’ ) , ( ’ . ’ , ’. ’) ] 87 88 89 I t i s a bad t h i n g , Bob ! 90 [ ( ’ I t ’ , ’PRP’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’ a ’ , ’DT’ ) , ( ’ bad ’ , ’ JJ ’ ) , ( ’ t h i n g ’ , ’NN’ ) , (’,’, ’ , ’ ) , ( ’ Bob ’ , ’NNP’ ) , ( ’ ! ’ , ’. ’) ] 91 92 93 Uprooting our f a m i l y a g a i n s o you can r e l i v e t h e g l o r y days i t i s a v e r y bad t h i n g ! 94 [ ( ’ Uprooting ’ , ’VBG’ ) , ( ’ our ’ , ’PRP$ ’ ) , ( ’ f a m i l y ’ , ’NN’ ) , ( ’ again ’ , ’RB’ ) , ( ’ so ’ , ’RB’ ) , ( ’ you ’ , ’PRP’ ) , ( ’ can ’ , ’MD’ ) , ( ’ r e l i v e ’ , ’VB’ ) , ( ’ the ’ , ’ B POS tagging para as 44 frases 72 DT’ ) , ( ’ g l o r y ’ , ’NN’ ) , ( ’ days ’ , ’NNS’ ) , ( ’ i t ’ , ’PRP’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’ a ’ , ’DT’ ) , ( ’ very ’ , ’RB’ ) , ( ’ bad ’ , ’ JJ ’ ) , ( ’ t h i n g ’ , ’NN’ ) , ( ’ ! ’ , ’. ’) ] 95 96 97 R e l i v i n g t h e g l o r y days i s b e t t e r than a c t i n g l i k e they d i d not happened . 98 [ ( ’ R e l i v i n g ’ , ’VBG’ ) , ( ’ the ’ , ’DT’ ) , ( ’ g l o r y ’ , ’NN’ ) , ( ’ days ’ , ’NNS’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’ b e t t e r ’ , ’RBR’ ) , ( ’ than ’ , ’ IN ’ ) , ( ’ a c t i n g ’ , ’VBG’ ) , ( ’ l i k e ’ , ’ IN ’ ) , ( ’ they ’ , ’PRP’ ) , ( ’ did ’ , ’VBD’ ) , ( ’ not ’ , ’RB’ ) , ( ’ happened ’ , ’ VBN’ ) , ( ’ . ’ , ’. ’) ] 99 100 101 Yes , they happened . 102 [ ( ’ Yes ’ , ’NNS’ ) , ( ’ , ’ , ’ , ’ ) , ( ’ they ’ , ’PRP’ ) , ( ’ happened ’ , ’VBD’ ) , ( ’ . ’ , ’. ’) ] 103 104 105 But t h i s , our f a m i l y , i s what ’ s happening now Bob . 106 [ ( ’ But ’ , ’CC’ ) , ( ’ t h i s ’ , ’DT’ ) , ( ’ , ’ , ’) , ( ’ , ’ , ’ , ’ ) , ( ’ our ’ , ’PRP$ ’ ) , ( ’ f a m i l y ’ , ’NN ’ , ’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’ what ’ , ’WP’ ) , ( "’s" , ’VBZ’ ) , ( ’ happening ’ , ’VBG’ ) , ( ’ now ’ , ’RB’ ) , ( ’ Bob ’ , ’NNP’ ) , ( ’ . ’ , ’. ’) ] 107 108 109 and you a r e m i s s i n g t h i s ! 110 [ ( ’ and ’ , ’CC’ ) , ( ’ you ’ , ’PRP’ ) , ( ’ are ’ , ’VBP’ ) , ( ’ m i s s i n g ’ , ’VBG’ ) , ( ’ t h i s ’ , ’DT’ ) , ( ’ ! ’ , ’. ’) ] 111 112 113 I can not b e l i e v e you do not want t o go t o your own son ’ s g r a d u a t i o n . 114 [ ( ’ I ’ , ’PRP’ ) , ( ’ can ’ , ’MD’ ) , ( ’ not ’ , ’RB’ ) , ( ’ b e l i e v e ’ , ’VB’ ) , ( ’ you ’ , ’ PRP’ ) , ( ’ do ’ , ’VBP’ ) , ( ’ not ’ , ’RB’ ) , ( ’ want ’ , ’VB’ ) , ( ’ to ’ , ’TO’ ) , ( ’ go ’ , ’VB’ ) , ( ’ to ’ , ’TO’ ) , ( ’ your ’ , ’PRP$ ’ ) , ( ’ own ’ , ’ JJ ’ ) , ( ’ son ’ , ’NN’ ) , ( "’s" , ’POS’ ) , ( ’ g r a d u a t i o n ’ , ’NN’ ) , ( ’ . ’ , ’. ’) ] 115 116 117 I t ’ s not a g r a d u a t i o n . 118 [ ( ’ I t ’ , ’PRP’ ) , ( "’s" , ’VBZ’ ) , ( ’ not ’ , ’RB’ ) , ( ’ a ’ , ’DT’ ) , ( ’ g r a d u a t i o n ’ , ’ NN’ ) , ( ’ . ’ , ’. ’) ] 119 120 121 He ’ s moving from t h e f o u r t h g r a d e t o t h e f i f t h g r a d e . B POS tagging para as 44 frases 122 73 [ ( ’ He ’ , ’PRP’ ) , ( "’s" , ’VBZ’ ) , ( ’ moving ’ , ’VBG’ ) , ( ’ from ’ , ’ IN ’ ) , ( ’ the ’ , ’ DT’ ) , ( ’ f o u r t h ’ , ’ JJ ’ ) , ( ’ grade ’ , ’NN’ ) , ( ’ to ’ , ’TO’ ) , ( ’ the ’ , ’DT’ ) , ( ’ f i f t h ’ , ’ JJ ’ ) , ( ’ grade ’ , ’NN’ ) , ( ’ . ’ , ’. ’) ] 123 124 125 I t ’ s a ceremony ! 126 [ ( ’ I t ’ , ’PRP’ ) , ( "’s" , ’VBZ’ ) , ( ’ a ’ , ’DT’ ) , ( ’ ceremony ’ , ’NN’ ) , ( ’ ! ’ , ’. ’) ] 127 128 129 It ’ s psychotic ! 130 [ ( ’ I t ’ , ’PRP’ ) , ( "’s" , ’VBZ’ ) , ( ’ p s y c h o t i c ’ , ’ JJ ’ ) , ( ’ ! ’ , ’. ’) ] 131 132 133 They keep c r e a t i n g new ways t o c e l e b r a t e m e d i o c r i t y 134 [ ( ’ They ’ , ’PRP’ ) , ( ’ keep ’ , ’VBP’ ) , ( ’ c r e a t i n g ’ , ’VBG’ ) , ( ’ new ’ , ’ JJ ’ ) , ( ’ ways ’ , ’NNS’ ) , ( ’ to ’ , ’TO’ ) , ( ’ c e l e b r a t e ’ , ’VB’ ) , ( ’ m e d i o c r i t y ’ , ’NN’ ) ] 135 136 137 but i f someone i s g e n u i n e l y e x c e p t i o n a l then 138 [ ( ’ but ’ , ’CC’ ) , ( ’ i f ’ , ’ IN ’ ) , ( ’ someone ’ , ’NN’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’ g e n u i n e l y ’ , ’RB’ ) , ( ’ e x c e p t i o n a l ’ , ’ JJ ’ ) , ( ’ then ’ , ’RB’ ) ] 139 140 141 This i s not about you Bob . 142 [ ( ’ This ’ , ’DT’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’ not ’ , ’RB’ ) , ( ’ about ’ , ’ IN ’ ) , ( ’ you ’ , ’ PRP’ ) , ( ’ Bob ’ , ’NNP’ ) , ( ’ . ’ , ’. ’) ] 143 144 145 This i s about Dash . 146 [ ( ’ This ’ , ’DT’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’ about ’ , ’ IN ’ ) , ( ’ Dash ’ , ’NNP’ ) , ( ’ . ’ , ’. ’) ] 147 148 149 You wanna do something f o r Dash ? 150 [ ( ’ You ’ , ’PRP’ ) , ( ’ wan ’ , ’VBD’ ) , ( ’ na ’ , ’NNS’ ) , ( ’ do ’ , ’VBP’ ) , ( ’ something ’ , ’NN’ ) , ( ’ for ’ , ’ IN ’ ) , ( ’ Dash ’ , ’NNP’ ) , ( ’ ? ’ , 151 152 153 Then l e t him a c t u a l l y compete . ’. ’) ] B POS tagging para as 44 frases 154 74 [ ( ’ Then ’ , ’RB’ ) , ( ’ l e t ’ , ’VBD’ ) , ( ’ him ’ , ’PRP’ ) , ( ’ a c t u a l l y ’ , ’RB’ ) , ( ’ compete ’ , ’ JJ ’ ) , ( ’ . ’ , ’. ’) ] 155 156 157 Let him go out f o r s p o r t s . 158 [ ( ’ Let ’ , ’NNP’ ) , ( ’ him ’ , ’PRP’ ) , ( ’ go ’ , ’VBP’ ) , ( ’ out ’ , ’RP’ ) , ( ’ for ’ , ’ IN ’ ) , ( ’ s p o r t s ’ , ’NNS’ ) , ( ’ . ’ , ’. ’) ] 159 160 161 I w i l l not be made t h e enemy h e r e . 162 [ ( ’ I ’ , ’PRP’ ) , ( ’ w i l l ’ , ’MD’ ) , ( ’ not ’ , ’RB’ ) , ( ’ be ’ , ’VB’ ) , ( ’ made ’ , ’VBN’ ) , ( ’ the ’ , ’DT’ ) , ( ’ enemy ’ , ’NN’ ) , ( ’ here ’ , ’RB’ ) , ( ’ . ’ , ’. ’) ] 163 164 165 You know why we can not do t h a t . 166 [ ( ’ You ’ , ’PRP’ ) , ( ’ know ’ , ’VBP’ ) , ( ’ why ’ , ’WRB’ ) , ( ’ we ’ , ’PRP’ ) , ( ’ can ’ , ’ MD’ ) , ( ’ not ’ , ’RB’ ) , ( ’ do ’ , ’VB’ ) , ( ’ that ’ , ’DT’ ) , ( ’ . ’ , ’. ’) ] 167 168 169 Because he would be g r e a t ! 170 [ ( ’ Because ’ , ’ IN ’ ) , ( ’ he ’ , ’PRP’ ) , ( ’ would ’ , ’MD’ ) , ( ’ be ’ , ’VB’ ) , ( ’ g r e a t ’ , ’ JJ ’ ) , ( ’ ! ’ , ’. ’) ] 171 172 173 This i s not about you ! 174 [ ( ’ This ’ , ’DT’ ) , ( ’ i s ’ , ’VBZ’ ) , ( ’ not ’ , ’RB’ ) , ( ’ about ’ , ’ IN ’ ) , ( ’ you ’ , ’ PRP’ ) , ( ’ ! ’ , ’. ’) ] 75 C Árvores Sintáticas Lista C.1: “Árvores Sintáticas” 1 F r a s e 1 : I thought you would be back by e l e v e n . 2 (S 3 (NP ( Pronoun I ) ) 4 (VP 5 ( Verb thought ) 6 (NP ( Pronoun you ) ) 7 ( ModelAux would ) 8 (PP ( Verb be ) 9 (NP ( Adverb back ) ( P r e p o s i t i o n by ) ( Adverb e l e v e n ) ) ) ) ) 10 11 12 F r a s e 2 : I s a i d I would be back l a t e r . 13 (S 14 (NP ( Pronoun I ) ) 15 (VP 16 ( Verb s a i d ) 17 (NP ( Pronoun I ) ) 18 ( ModelAux would ) 19 (PP ( Verb be ) (NP ( Adverb back ) ( A d j e c t i v e l a t e r ) ) ) ) ) 20 21 F r a s e 3 : I assumed you would be back l a t e r . 22 (S 23 (NP ( Pronoun I ) ) 24 (VP 25 ( Verb assumed ) 26 (NP ( Pronoun you ) ) 27 ( ModelAux would ) 28 (PP ( Verb be ) (NP ( Adverb back ) ( A d j e c t i v e l a t e r ) ) ) ) ) 29 30 F r a s e 4 : I f you came back a t a l l ! 31 (S 32 (NP ( P r e p o s i t i o n I f ) (NP ( Pronoun you ) ) ) 33 (VP 34 ( Verb came ) C Árvores Sintáticas (NP ( Adverb back ) ( P r e p o s i t i o n a t ) ( Adverb ( Det a l l ) ) ) ) ) 35 36 37 F r a s e 5 : You would be back l a t e r . 38 (S 39 (NP ( Pronoun You ) ) 40 (VP 41 ( ModelAux would ) 42 ( Verb be ) 43 (NP ( Adverb back ) ( A d j e c t i v e l a t e r ) ) ) ) 44 45 F r a s e 6 : Well , I am back . Okay? 46 (S 47 (NP ( Noun Well ) (NP ( Pronoun I ) ) ) 48 (VP ( Verb am) (NP ( Noun back . ) (NP ( A d j e c t i v e ( Noun Okay ) ) ) ) ) ) 49 50 Frase 7 : I s t h i s rubble ? 51 ( S (NP ( Verb I s ) ) (VP ( Det t h i s ) ( A d j e c t i v e r u b b l e ) ) ) 52 53 F r a s e 8 : I t was j u s t a l i t t l e work out . 54 (S 55 (NP ( Pronoun I t ) ) 56 (VP 57 ( Verb was ) 58 (NP 59 ( Adverb j u s t ) 60 ( P r e p o s i t i o n ( Det a ) ( Adverb l i t t l e ) ) 61 ( Adverb ( Noun work ) ( P r e p o s i t i o n out ) ) ) ) ) 62 63 Frase 9 : Just to stay l o o s e . 64 (S 65 (NP ( Adverb J u s t ) ( A d j e c t i v e (TO t o ) ) ) 66 (VP ( Verb s t a y ) (NP ( A d j e c t i v e l o o s e ) ) ) ) 67 68 F r a s e 1 0 : You know how I f e e l about that , Bob . 69 (S 70 (NP ( Pronoun You ) ) 71 (VP 72 ( Verb know ) 73 (NP 74 ( Adverb how ) 76 C Árvores Sintáticas 75 (NP ( Pronoun I ) ) 76 (VP 77 ( Verb f e e l ) 78 (NP 79 ( P r e p o s i t i o n about ) 80 (NP ( Adverb ( Det t h a t ) ) ( A d j e c t i v e ( Noun Bob ) ) ) ) ) ) ) ) 77 78 D Coleta de dados - Classificação Manual Tabela D.1: Dados coletados manualmente para conjunto de 44 falas Questão Assertivo Diretivo Compromissivo Expressivo Declarativo Total 4 05 05 02 01 01 14 5 06 01 01 03 02 13 6 03 02 02 03 02 12 7 01 01 01 07 00 10 8 03 04 02 01 00 10 9 03 01 02 03 02 11 10 02 03 02 00 02 09 11 04 01 00 00 04 09 12 03 02 01 02 01 09 13 01 01 01 04 02 09 14 01 01 00 07 00 09 15 05 01 03 00 00 09 16 05 00 00 00 03 08 17 01 04 00 03 00 08 18 01 04 02 01 01 09 19 06 00 01 00 01 08 20 06 00 00 00 02 08 21 07 00 00 00 01 08 22 01 05 00 01 01 08 23 02 03 02 01 00 08 24 04 00 01 01 02 08 25 03 02 00 02 01 08 26 01 02 01 03 01 08 27 01 00 00 06 01 08 28 02 00 01 03 02 08 29 06 00 01 00 01 08 30 04 01 02 01 00 08 31 02 03 01 01 01 08 32 01 02 02 03 00 08 33 04 00 00 00 04 08 34 05 00 02 00 01 08 35 02 03 00 03 00 08 D Coleta de dados - Classificação Manual 79 Tabela D.1 – continuação da página anterior Questão Assertivo Diretivo Compromissivo Expressivo Declarativo Total 36 02 01 00 04 01 08 37 04 00 00 02 03 09 38 01 00 02 02 03 08 39 03 02 01 01 01 08 40 04 00 01 00 02 07 41 00 03 03 01 00 07 42 01 03 00 02 01 07 43 01 04 01 01 00 07 44 02 00 01 03 01 07 45 00 03 02 02 00 07 46 01 01 00 03 02 07 47 01 01 00 04 01 07 80 E Coleta de dados - Classificação Aleatória Tabela E.1: Dados coletados aleatóriamente para conjunto de 44 falas Frase Assertivo Diretivo Compromissivo Expressivo Declarativo 1 19 23 15 18 25 2 15 19 12 28 26 3 23 17 22 15 23 4 22 17 26 19 16 5 17 17 23 23 20 6 22 20 19 18 21 7 20 15 25 20 20 8 20 23 21 20 16 9 18 20 15 22 25 10 19 19 19 24 19 11 17 18 25 21 19 12 20 22 25 14 19 13 18 23 17 24 18 14 24 24 15 21 16 15 18 17 27 20 18 16 25 20 20 15 20 17 14 27 15 23 21 18 22 15 24 17 22 19 20 24 19 17 20 20 15 21 31 16 17 21 16 17 21 24 22 22 28 19 17 13 23 23 15 19 27 18 21 24 17 22 22 18 21 25 27 22 16 14 21 26 19 17 12 17 35 27 23 23 16 22 16 28 23 17 23 19 18 29 19 16 20 20 25 30 17 17 23 23 20 31 12 24 17 25 22 32 25 17 20 15 23 E Coleta de dados - Classificação Aleatória 81 Tabela E.1 – continuação da página anterior Frase Assertivo Diretivo Compromissivo Expressivo Declarativo 33 23 23 19 14 21 34 21 14 19 18 28 35 21 23 20 14 22 36 17 14 21 22 26 37 23 14 22 20 21 38 16 22 22 20 20 39 25 18 18 17 22 40 20 24 20 15 21 41 25 16 19 20 20 42 21 25 18 13 23 43 25 17 17 19 22 44 19 21 14 28 18 82 F Coleta dados em porcentagem - Classificação Aleatória Tabela F.1: Dados coletados aleatóriamente para conjunto de 44 falas Frase Assertivo Diretivo Compromissivo Expressivo Declarativo 1 19 23 15 18 25 2 15 19 12 28 26 3 23 17 22 15 23 4 22 17 26 19 16 5 17 17 23 23 20 6 22 20 19 18 21 7 20 15 25 20 20 8 20 23 21 20 16 9 18 20 15 22 25 10 19 19 19 24 19 11 17 18 25 21 19 12 20 22 25 14 19 13 18 23 17 24 18 14 24 24 15 21 16 15 18 17 27 20 18 16 25 20 20 15 20 17 14 27 15 23 21 18 22 15 24 17 22 19 20 24 19 17 20 20 15 21 31 16 17 21 16 17 21 24 22 22 28 19 17 13 23 23 15 19 27 18 21 24 17 22 22 18 21 25 27 22 16 14 21 26 19 17 12 17 35 27 23 23 16 22 16 28 23 17 23 19 18 29 19 16 20 20 25 30 17 17 23 23 20 F Coleta dados em porcentagem - Classificação Aleatória 83 Tabela F.1 – continuação da página anterior Frase Assertivo Diretivo Compromissivo Expressivo Declarativo 31 12 24 17 25 22 32 25 17 20 15 23 33 23 23 19 14 21 34 21 14 19 18 28 35 21 23 20 14 22 36 17 14 21 22 26 37 23 14 22 20 21 38 16 22 22 20 20 39 25 18 18 17 22 40 20 24 20 15 21 41 25 16 19 20 20 42 21 25 18 13 23 43 25 17 17 19 22 44 19 21 14 28 18 84 G Coleta dados em porcentagem Classificação Manual Tabela G.1: Dados coletados manualmente para conjunto de 44 falas Frase Assertivo Diretivo Compromissivo Expressivo Declarativo Total 4 35,7142857143 35,7142857143 14,2857142857 7,1428571429 7,1428571429 14 5 46,1538461538 7,6923076923 7,6923076923 23,0769230769 15,3846153846 13 6 25 16,6666666667 16,6666666667 25 16,6666666667 12 7 10 10 10 70 0 10 8 30 40 20 10 0 10 9 27,2727272727 9,0909090909 18,1818181818 27,2727272727 18,1818181818 11 10 22,2222222222 33,3333333333 22,2222222222 0 22,2222222222 9 11 44,4444444444 11,1111111111 0 0 44,4444444444 9 12 33,3333333333 22,2222222222 11,1111111111 22,2222222222 11,1111111111 9 13 11,1111111111 11,1111111111 11,1111111111 44,4444444444 22,2222222222 9 14 11,1111111111 11,1111111111 0 77,7777777778 0 9 15 55,5555555556 11,1111111111 33,3333333333 0 0 9 16 62,5 0 0 0 37,5 8 17 12,5 50 0 37,5 0 8 18 11,1111111111 44,4444444444 22,2222222222 11,1111111111 11,1111111111 9 19 75 0 12,5 0 12,5 8 20 75 0 0 0 25 8 21 87,5 0 0 0 12,5 8 22 12,5 62,5 0 12,5 12,5 8 23 25 37,5 25 12,5 0 8 24 50 0 12,5 12,5 25 8 25 37,5 25 0 25 12,5 8 26 12,5 25 12,5 37,5 12,5 8 27 12,5 0 0 75 12,5 8 28 25 0 12,5 37,5 25 8 29 75 0 12,5 0 12,5 8 30 50 12,5 25 12,5 0 8 31 25 37,5 12,5 12,5 12,5 8 32 12,5 25 25 37,5 0 8 G Coleta dados em porcentagem - Classificação Manual 85 Tabela G.1 – continuação da página anterior Frase Assertivo Diretivo Compromissivo Expressivo Declarativo Total 33 50 0 0 0 50 8 34 62,5 0 25 0 12,5 8 35 25 37,5 0 37,5 0 8 36 25 12,5 0 50 12,5 8 37 44,4444444444 0 0 22,2222222222 33,3333333333 9 38 12,5 0 25 25 37,5 8 39 37,5 25 12,5 12,5 12,5 8 40 57,1428571429 0 14,2857142857 0 28,5714285714 7 41 0 42,8571428571 42,8571428571 14,2857142857 0 7 42 14,2857142857 42,8571428571 0 28,5714285714 14,2857142857 7 43 14,2857142857 57,1428571429 14,2857142857 14,2857142857 0 7 44 28,5714285714 0 14,2857142857 42,8571428571 14,2857142857 7 45 0 42,8571428571 28,5714285714 28,5714285714 0 7 46 14,2857142857 14,2857142857 0 42,8571428571 28,5714285714 7 47 14,2857142857 14,2857142857 0 57,1428571429 14,2857142857 7 86 H Fórmulario de Consentimento Lista H.1: “Consent Form” 1 D.R.A.M.A. − D e v e l o p i n g R a t i o n a l Agents t o Mimic A c t o r s 2 3 Consent Form 4 5 Dino Magri and R o g e r i o Eduardo da S i l v a 6 Santa C a t a r i n a S t a t e U n i v e r s i t y (UDESC) − B r a z i l 7 8 9 What w i l l happen i f you t a k e p a r t i n t h e study ? I f you a g r e e t o p a r t i c i p a t e i n t h i s study , you w i l l be asked t o c o m p l e t e an o n l i n e s u r v e y . The s u r v e y i n v o l v e s r e a d i n g 44 s e n t e n c e s o f a 10 s c e n e from The I n c r e d i b l e s ( P i x a r and Disney ) f e a t u r e a n i m a t i o n movie , and c l a s s i f y them i n t o one o f f i v e c l a s s e s o f s p e e c h a c t s . The 11 s u r v e y i s e x p e c t e d t o t a k e between 20 and 25 minutes t o c o m p l e t e . Your a ns w er s w i l l be c o l l e c t e d and s t o r e d f o r a n a l y s i s . 12 13 Risks 14 This study w i l l i n t r o d u c e no a d d i t i o n a l r i s k beyond normal computer u s e . 15 16 Confidentiality 17 None i d e n t i f i c a t i o n i n f o r m a t i o n w i l l be c o l l e c t e d about you a t any time . You w i l l asked t o i n f o r m your gender , age r a n g e and a l s o what a r e 18 your E n g l i s h s k i l l s i n terms o f u n d e r s t a n d i n g and r e a d i n g ( i n a c c o r d a n c e with Europass ) , but t h i s data w i l l n e v e r be a v a i l a b l e t o t h e p u b l i c except in groups o f a n a l y s i s . 19 20 Compensation 21 No compensation w i l l be p r o v i d e d f o r p a r t i c i p a t i n g i n t h i s study . 22 23 What i f you a r e a UDESC s t u d e n t ? 24 P a r t i c i p a t i o n i n t h i s study i s not a c o u r s e r e q u i r e m e n t and your p a r t i c i p a t i o n w i l l not a f f e c t your g r a d e s o r s t a n d i n g a s a s t u d e n t . 25 26 What i f you a r e a UDESC employee ? H Fórmulario de Consentimento 27 87 P a r t i c i p a t i o n i n t h i s study i s not a r e q u i r e m e n t , and your p a r t i c i p a t i o n w i l l not a f f e c t your j o b . 28 29 30 What i f you have q u e s t i o n s about t h i s study ? I f you have q u e s t i o n s a t any time about t h e study o r t h e p r o c e d u r e s , you may c o n t a c t t h e r e s e a r c h e r s : 31 32 Dino Magri : dinomagri@gmail . com 33 R o g e r i o Eduardo da S i l v a : r s i l v a @ j o i n v i l l e . u d e s c . br 34 35 Consent To P a r t i c i p a t e 36 By c l i c k i n g t h e " Agree " button below , you w i l l b e g i n t h e s u r v e y . You a r e a g r e e i n g t o t h e f o l l o w i n g s t a t e m e n t : "I have read and understand 37 the above information . I know that I can keep a copy of this consent form. I agree to freely participate in the survey understanding that I have no obligation to do it nor should I expect any benefits from doing so. I also understand and expect that my answers and data should be treated as confidential and not be made public other than as part of an analysis of the whole set of collected answers during the survey ." 88 I Conjunto de Falas do Filme os Incríveis Tabela I.1: Conjunto de falas retiradas do Os IncríveisTM de Pixar Animation StudiosTM Personagem Frase Helen I thought you’d be back by eleven. Bob I said I’d be back later. Helen I assumed you’d be back later. Helen If you came back at all! Helen You’d be back later. Bob Well, I’m back. Okay? Helen Is this rubble? Bob It was just a little work out. Bob Just to stay loose. Helen You know how I feel about that, Bob. Helen Darn you! Helen We can’t blow cover again. Bob The building was coming down anyway. Helen What?! Helen You knocked out a building ?! Bob It was on fire. Bob Structurally unsound. Bob It was coming down anyway. Helen Tell me you haven’t been listening the police scanner again. Bob Look. Bob I perform a public service. Bob You act like it is a bad thing. Helen It is a bad thing, Bob! Helen Uprooting our family again so you can relive the glory days it is a very bad thing! Bob Reliving the glory days is better than acting like they didn’t happened. Helen Yes, they happened. Helen But this, our family, is what’s happening now Bob. Helen and you are missing this! Helen I can’t believe you don’t want to go to your own son’s graduation. Bob It’s not a graduation. Bob He’s moving from the fourth grade to the fifth grade. Helen It’s a ceremony! I Conjunto de Falas do Filme os Incríveis Tabela I.1 – continuação da página anterior Personagem Frase Bob It’s psychotic! Bob They keep creating new ways to celebrate mediocrity Bob but if someone is genuinely exceptional then Helen This is not about you Bob. Helen This is about Dash. Bod You wanna do something for Dash? Bob Then let him actually compete. Bob Let him go out for sports. Helen I will not be made the enemy here. Helen You know why we can’t do that. Bob Because he’d be great! Helen This is not about you! 89 90 J Gráfico - Classificação Manual Figura J.1: Classificação Manual 91 K Gráfico - Classificação Aleatória Figura K.1: Classificação Aleatória Referências Bibliográficas AUSTIN, J.; URMSON, J. How to do things with words. [S.l.]: Harvard University Press, 1978. ISBN 9780674411524. BADLER, N. Virtual humans for animation, ergonomics, and simulation. In: Proceedings of the 1997 IEEE Workshop on Motion of Non-Rigid and Articulated Objects (NAM ’97). Washington, DC, USA: IEEE Computer Society, 1997. (NAM ’97), p. 28–. ISBN 0-8186-8040-7. Disponível em: <http://dl.acm.org/citation.cfm?id=523987.883064>. BEVACQUA, E.; MANCINI, M.; NIEWIADOMSKI, R.; PELACHAUD, C. An expressive ECA showing complex emotions. In: Proceedings of the AISB Annual Convention, Newcastle, UK. [S.l.: s.n.], 2007. p. 208–216. BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python. [S.l.]: O’Reilly, 2009. (O’Reilly Series). ISBN 9780596516499. BOBROW, D. G. Natural Language Input for a Computer Problem Solving System. Cambridge, MA, USA, 1964. BREDENKAMP, A.; MARKANTONATOU, S.; SADLER, L. Lexical rules: What are they? In: In COLING-1996. [S.l.: s.n.], 1996. p. 163–168. CAMPONOGARA, E.; SERRA, M. R. G. Aprendizagem por reforço: Uma primeira introdução. Universidade Federal de Santa Catarina, Florianópolis/SC, 2005. CASSELL, J. Embodied conversational agents. [S.l.]: MIT Press, 2000. ISBN 9780262032780. CHOMSKY, N. Three models for the description of language. Information Theory, IRE Transactions on, IEEE, v. 2, n. 3, p. 113–124, set. 1956. Disponível em: <http://dx.doi.org/10.1109/TIT.1956.1056813>. COHEN, W.; CARVALHO, V.; MITCHELL, T. Learning to classify email into “speech acts”. In: Proceedings of EMNLP. [S.l.: s.n.], 2004. v. 4. DEVILLERS, L.; VASILESCU, I.; LAMEL, L. Annotation and detection of emotion in a task-oriented human-human dialog corpus. In: ISLE workshop on dialogue tagging. Edinburgh. [S.l.: s.n.], 2002. FISHMAN, G. S. Monte Carlo: concepts, algorithms, and applications. [S.l.]: Springer-Verlag, 1996. (Springer series in operations research). ISBN 9780387945279. GALESIBIRD, O. S. e T. Python e Django - Desenvolvimento ágil de aplicações web. [S.l.]: Novatec, 2010. ISBN 9788575222478. GEBHARD, P.; KIPP, M.; KLESEN, M.; RIST, T. Adding the emotional dimension to scripting character dialogues. In: Intelligent Virtual Agents. [S.l.: s.n.], 2003. p. 48–56. REFERÊNCIAS BIBLIOGRÁFICAS 93 HUANG, P. Generating Humanoid Animation with Versatile Motions in a Virtual Environment. Tese (Master in Computer Science) — National Chengchi University, 2003. Disponível em: <http://nccur.lib.nccu.edu.tw/handle/140.119/32633>. IURGEL, I.; MARCOS, A. Employing personality-rich virtual persons - new tools required. Computers & Graphics, v. 31, n. 6, p. 827–836, 2007. LI, T.; LIAO, M.; LIAO, C. An extensible scripting language for interactive animation in a speech-enabled virtual environment. In: Multimedia and Expo, 2004. ICME’04. 2004 IEEE International Conference on. [S.l.: s.n.], 2004. v. 2, p. 851–854. MARSLAND, S. Machine learning: an algorithmic perspective. [S.l.]: CRC Press, 2009. (Chapman & Hall/CRC machine learning & pattern recognition series). ISBN 9781420067187. MILLER, G. A. Wordnet: A lexical database for english. Communications of the ACM, v. 38, p. 39–41, 1995. NETO, J. M. d. O.; TONIN, S. D.; PRIETCH, S. S. Processamento de linguagem natural e suas aplicações computacionais. I Escola Regional de Informática - Regional Norte 1, Manaus/AM, 2009. NIJHOLT, A. Human and virtual agents interacting in the virtuality continuum. Environments, Citeseer, n. 1, p. 551–558, 2005. Disponível em: <http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.78.6041&rep=rep1&type=pdf>. PICARD, R. W. Affective computing. MIT Media Laboratory, 1995. PRASOLOVA-FøRLAND, E.; AL. et. Virtual humans vs. anthropomorphic robots for education: how can they work together? 2005. RICH, E.; KNIGHT, K. Inteligencia artificial. [S.l.]: McGraw-Hill, 1994. ISBN 9788448118587. ROSSUM, G. V. The Python Language Reference: Release 2.7.2. Python Software Foundation, 2009. RUSSELL, S.; NORVIG, P. Inteligência Artificial. [S.l.]: CAMPUS, 2004. ISBN 9788535211771. SEARLE, J. Speech acts: an essay in the philosophy of language. [S.l.]: Cambridge University Press, 1969. ISBN 9780521096263. SEARLE, J. R. A Classification of Illocutionary Acts. Language in Society, Cambridge University Press, v. 5, n. 1, 1976. ISSN 00474045. Disponível em: <http://dx.doi.org/10.2307/4166848>. SEOL, Y. S.; KIM, D. J.; KIM, H. W. Emotion Recognition from Text Using Knowledge-based ANN. In: Proceedings of 23rd International Technical Conference on CircuitsSystems Computers and Communications. ITC-CSCC 2008, 2008. p. 1569–1572. Disponível em: <http://www.ieice.org/proceedings/ITC-CSCC2008/pdf/p1569\ P2-43.pdf>. SNIEDOVICH, M. Dynamic programming: foundations and principles. [S.l.]: Taylor and Francis, 2009. (Pure and Applied Mathematics). ISBN 9780824740993. SUBASIC, P.; HUETTNER, A. Affect analysis of text using fuzzy semantic typing. Fuzzy Systems, IEEE Transactions on, v. 9, n. 4, p. 483–496, 2001. REFERÊNCIAS BIBLIOGRÁFICAS 94 SUTTON, R.; BARTO, A. Reinforcement learning: an introduction. [S.l.]: MIT Press, 1998. (Adaptive computation and machine learning). ISBN 9780262193986. TAO, J.; TAN, T. Emotional chinese talking head system. In: Proceedings of the 6th international conference on Multimodal interfaces. New York, NY, USA: ACM, 2004. (ICMI ’04), p. 273–280. ISBN 1-58113-995-0. Disponível em: <http://doi.acm.org/10.1145/1027933.1027978>. TSOHATZIDIS, S. Foundations of speech act theory: philosophical and linguistic perspectives. [S.l.]: Routledge, 1994. ISBN 9780415095242. TURING, A. M. Computing Machinery and Intelligence. 1950. 433–460 p. One of the most influential papers in the history of the cognitive sciences: http://cogsci.umn.edu/millennium/final.html. Disponível em: <http://cogprints.org/499/>. VIEIRA, R.; VERA. Lingüística computacional: princípios e aplicações. In: ANA TERESA MARTINS AND DÍBIO LEANDRO BORGES. As Tecnologias da informação e a questão social. [S.l.], 2001. WEIZENBAUM, J. Eliza – a computer program for the study of natural language communication between man and machine. Commun. ACM, ACM, New York, NY, USA, v. 9, p. 36–45, January 1966. ISSN 0001-0782. Disponível em: <http://doi.acm.org/10.1145/365153.365168>. ZHE, X.; BOUCOUVALAS, A. Text-to-emotion engine for real time internet communication. In: Proceedings of International Symposium on Communication Systems, Networks and DSPs. [S.l.: s.n.], 2002. p. 164–168.