Resumo Hora da Pesquisa_Bianca Freitas_Linha 1
Transcrição
Resumo Hora da Pesquisa_Bianca Freitas_Linha 1
PUC-Rio Programa de Pós-Graduação em Estudos da Linguagem CDL 2015 BIANCA FREITAS Orientadora: Cláudia Freitas RESUMO AMPLIADO O discurso relatado: da tradução à descrição do português Os profissionais que traduzem textos do inglês para o português, principalmente nos âmbitos literário e jornalístico, deparam-se com uma exigência, por parte de editoras e agências de tradução, no que se refere à tradução de diálogos. Em inglês, por um lado, é extremamente comum que a introdução de discurso seja feita pelo verbo say em sua forma pretérita, said. Em português, por outro lado, os tradutores são orientados a diversificar os verbos introdutores de discurso e empregar também outros verbos, comumente chamamos de dicendi. Os verbos dicendi compreendem um grupo maior de verbos, relacionados à comunicação como um todo. O escopo deste estudo limita-se apenas aos verbos que introduzem discurso relatado. Uma das motivações desta pesquisa é a elaboração de um glossário dos verbos de dizer, que se chamará DISSE, tendo em vista facilitar essa tarefa tradutória. Classificado quanto a grupos de sentido, esse glossário servirá como auxílio ao tradutor, que, por conta da orientação de editoras e agências, deve lidar com uma variação lexical que não existe no texto fonte. Os verbos introdutores de discurso relatado interessam também a uma tarefa de Processamento de Linguagem Natural (PLN) chamada Identificação de Citação (Quotation Extraction), e esse interesse constitui uma motivação secundária desta pesquisa. Na tarefa de quotation, o foco não está exatamente no verbo, mas em quem fala e no conteúdo dessa fala. No entanto, sabemos que a forma de introduzir o discurso relatado também é indicativa de posicionamentos. Um estudo descritivo amplo dessa classe de verbos também pode interessar a outras áreas, como o ensino de português – quando se tematiza discurso direto e indireto – e a pragmática, devido aos atos de fala (Austin, 1962). Apesar de existirem trabalhos sobre o tema, com uma perspectiva mais estilística ou pragmática, há uma carência de estudos descritivos com base em corpus, destacando Moura Neves (2000). Este estudo tem, portanto, dois objetivos principais: (i) a elaboração de um glossário dos verbos de dizer para tradutores e (ii) a descrição dessa classe de verbos no português, tomando um viés semântico e com base em grandes corpora. Como contribuições secundárias, mas não menos importantes, destacam-se (iii) a criação e a disponibilização de um corpus anotado quanto aos verbos do discurso relatado e (iv) a colaboração na elaboração de sistemas capazes de identificar automaticamente citações em textos da língua portuguesa. Para tanto, conduzimos um amplo levantamento dos verbos de dizer, propomos uma classificação desses verbos em grupos de sentido e, além disso, estabelecemos os padrões de uso nos quais esses verbos costumam ser empregados. Em uma primeira etapa da pesquisa, foi feito o levantamento desses verbos a partir da exploração do COMPARA (Frankenberg-Garcia & Santos, 2002), um corpus paralelo bilíngue inglês-português com traduções de obras literárias, no qual buscamos traduções para a forma verbal said (no original). A escolha pelo COMPARA foi feita não só por conta da problemática que suscitou este trabalho, mas também por esse corpus incluir apenas traduções já publicadas por editoras (em oposição a traduções “livres” publicadas na internet, por exemplo), o que indicaria que a tradução de said foi considerada aceitável a ponto de ser publicada. Além disso, nem sempre é óbvia a identificação de um dado verbo como introdutor de discurso relatado (por exemplo, imaginar ou interromper). A escolha pela exploração inicial no COMPARA com a forma said buscou, também, garantir segurança quanto à seleção dos verbos: quando o texto original usa a forma said, não há dúvidas de que o verbo escolhido, em português, se refere a um discurso relatado: TEXTO FONTE: «Don't,» I said, in a muffled voice. TEXTO META: – Não! – interrompi numa voz abafada. Para fins deste estudo, o escopo da pesquisa foi limitado ao verbo say, em sua forma said, uma vez que o discurso é mais comumente relatado no pretérito. Nesta etapa, foram analisadas 958 linhas de concordância, e encontramos 58 verbos diferentes, empregados como tradução de said (Anexo 1). Com base nos 58 verbos levantados, seguimos dois caminhos em paralelo: (i) uma proposta de classificação dos verbos e (ii) a ampliação da lista de verbos compilados. Para a classificação dos verbos, criamos 21 classes (grupos de sentido) para abrigar os 58 verbos obtidos na busca inicial no COMPARA e, em seguida, elaboramos um teste, de modo a validar a classificação proposta. O teste consistia apenas na tarefa de classificar os verbos de acordo com as 21 classes, como é possível observar na Figura 1: Figura 1: Estrutura da primeira versão do experimento. No entanto, o resultado do experimento não foi o esperado, pois a discordância entre os dez participantes foi bastante acentuada; cada verbo recebeu uma média de 5,24 classificações diferentes, e os participantes apenas concordaram com 31% da nossa classificação. Ainda, contando com as sugestões dos participantes, chegamos a um total de 48 classes para os 58 verbos, uma classificação nada econômica e que inviabilizaria a utilização do glossário. O Anexo 1 contém os 58 verbos e a classificação inicial. Ao retomar o teste, ficou evidente que uma classificação granular demais (21 classes) suscita mais discordância e não facilita a tarefa do tradutor, pelo contrário: ele fica “obrigado” a decidir entre diferentes nuances de sentido, sendo levado a dúvidas que normalmente não existiriam. Ficou claro que uma reformulação das classes envolveria classes mais abrangentes, com grupos de sentido mais amplos. Mantivemos nossa opção pela distribuição em grupos de sentido, mesmo cientes das dificuldades (ou da impossibilidade) de classificação de tais verbos (Austin, 1962), porque o agrupamento é uma atividade que faz sentido no contexto do glossário pretendido (em oposição a uma tentativa de classificação geral desses verbos, por exemplo). Além disso, a ênfase em uma classificação motivada pelo sentido deve-se à sua utilidade para os usuários do glossário – por isso não utilizamos uma classificação de viés sintático, por exemplo, como feita por Moura Neves (2000). Paralelamente ao desenho da nova classificação, procedemos a uma estratégia semiautomática para ampliação dos verbos introdutores de discurso. No que se refere à ampliação dos verbos compilados, foi feita a exploração, em momentos diferentes, de grandes corpora monolíngues do projeto AC/DC (Costa et al., 2009): o Chave (Santos & Rocha, 2005), de textos jornalísticos (98 milhões de palavras); o OBras, de obras de literatura brasileira disponíveis em domínio público (1,2 milhão de palavras), e o Floresta (Freitas et al, 2008), majoritariamente jornalístico (6 milhões de palavras). Dos 58 verbos iniciais, 6 foram escolhidos para atuar como “sementes” na interface de busca em corpora AC/DC, usando inicialmente o corpus CHAVE, a fim de identificar padrões léxico-gramaticais tipicamente usados para introduzir um discurso relatado. Subjacente à identificação dos padrões de uso desses verbos, está a ideia de que os próprios padrões seriam capazes de facilitar a localização de demais verbos do dizer no corpus. Os verbos escolhidos foram dizer, perguntar, responder, admitir, contar e continuar. Os três primeiros verbos foram selecionados por serem frequentemente referenciados como introdutores de discurso, enquanto os últimos três verbos foram escolhidos por estarem associados a usos que nem sempre correspondem à estrutura de discurso relatado. Exemplo 1: O ministro da Educação, Murílio Hingel, admite: «Apesar de todos os esforços, nosso ensino básico é vexaminoso.» Exemplo 2: Pois lá a concorrência é muito grande e não são admitidos erros. A análise das linhas de concordância de cada um dos seis verbos possibilitou a depreensão de 10 padrões léxico-sintáticos, distribuídos em citação direta, indireta e mista. A seguir, encontram-se alguns exemplos, retirados do corpus Chave, de cada um dos padrões: Citação direta (1) «Talvez tenha sido mal interpretado», disse. (2) Até que uma amiga minha passou por ele e disse: «Oi, Fábio». (3) «Se não tivessem sido feitas», disse, "Portugal era hoje um país ao nível do Leste Europeu". (4) Só que o Benfica, como disse Abílio Rodrigues, «não pode acompanhar as propostas que o jogador recebeu». Citação indireta (5) Cauteloso, ele disse que não receberá empresários e empreiteiras. (6) Antes de tentar um acordo, ele passou em outra concessionária (não informou o nome), que, disse, teria lhe oferecido arcar com parte do II. (7) Em entrevista de dez minutos à TV russa, ele disse estar controlando o país. (8) O governo de Israel se disse surpreso com críticas do enviado do Vaticano a Israel, Andrea Di Montezemolo. (9) O Pp, por meio de Rocco Buttiglione, respondeu, aconselhando a leitura de «Mein Kampf» (Minha Luta), de Adolf Hitler, para entender porque o líder da Liga, senador Umberto Bossi, «age com um Führer (guia, como os alemães chamavam Hitler)». Citação mista (10) O presidente, Miguel Boieiro, disse «não compreender» a situação e acentuou os esforços da autarquia para que a GNR «esteja instalada condignamente». Em seguida, verificamos a possibilidade de aplicação de cada padrão aos 6 verbos selecionados. Além disso, também testamos os padrões com o corpus OBras, de textos literários, para confirmar os padrões, o que de fato aconteceu. A Tabela 1 apresenta a distribuição de padrões por verbo. PADRÃO VERBO 1 2 3 4 5 6 7 8 9 10 DIZER sim sim sim sim sim sim sim sim não sim PERGUNTAR sim sim sim sim sim sim não não não sim RESPONDER sim sim sim sim sim sim sim não sim sim ADMITIR sim sim sim sim sim sim sim não não sim CONTAR sim sim sim sim sim sim sim não não sim CONTINUAR sim sim sim sim sim sim não não não não Tabela 1: Distribuição de cada verbo em cada padrão proposto. No entanto, embora os padrões sejam bastante precisos, não há garantia de que capturem, exclusivamente, verbos do discurso relatado, como ilustram as frases abaixo: Verificada a licitude da «pré-campanha », regressemos ao caso do leitor . Ao longo de quase dois anos, os habitantes de Reveles ainda acreditaram que os trabalhos de estabilização dos solos pudessem vir a evitar o pior . Para eliminar tais verbos, repetimos a busca com os padrões aceitos por todos os verbos “modelo” (padrões 1 a 6), sem especificar o verbo na expressão (anexo 2) de busca e pedindo a distribuição dos lemas (anexo 3). Os verbos foram analisados caso a caso, mas consideramos apenas os verbos com mais de uma ocorrência. Para esta etapa, foi usado o corpus Floresta, pois este tem menos palavras do que o Chave. Com isso, foi possível filtrar os verbos que não se enquadravam nos objetivos da pesquisa. Como resultado desse processo de revisão, chegamos à lista de final de 292 verbos introdutores do discurso relatado. Além disso, produzimos também regras bastante precisas com relação à identificação desses verbos nos corpora investigados, que já estão sendo implementadas nos próprios corpora, contribuindo para a sua anotação semântica (Freitas et al. submetido). Ao longo desta pesquisa, foram consultados diversos estudos sobre essa classe de verbos (Levin, 1993, Garcia, 2010, por exemplo). Uma das principais referências desta pesquisa, Moura Neves (2000), faz um estudo aprofundado do que ela chama de “verbos de elocução” e levantou 103 verbos, quase um terço do que encontramos neste trabalho. Quanto ao glossário DISSE, a questão da classificação é ainda mais relevante, considerando um número tão grande de verbos. Com base nessa nova lista de 292 verbos, desenvolvemos 11 grupos de sentido, classes bem mais amplas, levando em consideração os resultados do primeiro experimento. Para chegar a essas 11 classes, (i) partimos dos resultados do experimento, que acabaram por indicar alguns caminhos a respeito dos nomes das classes1 e (ii) analisamos as ocorrências de cada verbo nos corpora Chave, Floresta e OBras, usando as expressões de busca desenvolvidas. É importante mencionar que um mesmo verbo pode integrar mais de uma classe. A seguir, encontra-se uma tabela com a distribuição dos verbos entre as 11 classes propostas (o Anexo 4 contém os 292 verbos distribuídos pelas 11 classes propostas): 1 A categoria declaração foi proposta por dois voluntários do teste para verbos que tinham sido enquadrados na categoria afirmação: os verbos declarar e falar. Consideramos que a categoria declaração era mais adequada do que a categoria afirmação, pois a primeira poderia abrigar um número maior de verbos (incluindo-se aqui, por exemplo, os verbos de negação). As categorias informação e opinião também foram incorporadas a essa nova categoria. Dessa forma, declaração constitui a categoria mais ampla, com 190 verbos dos 292 (65%). As classes acordo e contestação uniram-se para compor a classe concordância e discordância. Entendemos que essa classe reúne verbos que indicam qualquer tipo de posicionamento em relação ao que o outro fala. A opção pela troca das palavras que denominam a classe se deveu à necessidade de maior clareza; com base nos resultados do experimento, chegamos à conclusão de que os nomes acordo e contestação nem sempre ficaram claros para os participantes. Quantidade de verbos por categoria Concordância e discordância Continuidade e conclusão Declaração Destaque Emoções e exclamações Hesitação Outros Palpites e certezas Pedido, ordem e sugestão Pergunta Resposta 0 20 40 60 80 100 120 140 160 180 200 Quantidade de verbos por categoria Figura 2: Distribuição dos 292 verbos introdutores de discurso relatado entre as 11 classes propostas. A nova classificação está em fase de validação. Para tanto, estamos implementando o segundo experimento no Rêve (Santos et al, 2015), uma ferramenta on-line para descrição do português, com o intuito de testar a nova classificação proposta (Anexo 5). Uma vez concluído o segundo teste, pretendemos disponibilizar o glossário DISSE para o público. Os objetivos desta pesquisa já rendem resultados concretos. Neste momento, com base nos verbos e nas expressões de busca elaboradas por nós, estão sendo anotados os corpora do projeto AC/DC, para que se possa fazer pesquisas pelo campo semântico dizer. Vale mencionar que todo o material é público. Além disso, as regras criadas com base no Bosque estão sendo incorporadas na criação de um extrator de citações, no âmbito da dissertação de mestrado de Rafael Reis, do Departamento de Informática da PUC-Rio (Reis, 2015). Neste caso, o objetivo é a construção de um extrator que não apenas identifica a citação e o seu autor, mas também identifica como esse enunciado é relatado, isto é, por meio de quais verbos. REFERÊNCIAS AUSTIN, J. L. How to do things with words. 2ª ed. Cambridge, MA: Harvard University Press, 1962. FREITAS, Cláudia, ROCHA, Paulo & BICK, Eckhard. "Um mundo novo na Floresta Sintá(c)tica - o treebank para Português". Calidoscópio - Revista de Pós Graduação em Lingüística Aplicada da Unisinos, Rio Grande do Sul 6.3 (2008), pp. 142-148. FREITAS, Cláudia, FREITAS, Bianca & SANTOS, Diana. QUEMDISSE? Reported Speech in Portuguese. (submetido) FRANKENBERG-GARCIA, Ana e SANTOS, Diana. COMPARA, um corpus paralelo de português e de inglês na Web. Cadernos de Tradução IX.1 (2002), pp. 61-79. Universidade de Santa Catarina. ISSN: 1676-7047. GARCIA, Othon M. Comunicação em prosa moderna: aprenda a escrever, aprendendo a pensar. 27 ed. Rio de Janeiro: Editora FGV, 2010. LEVIN, Beth. English verb classes and alternations. Chicago: The University of Chicago Press, 1993. NEVES, Maria Helena de Moura. Gramática de usos do português. São Paulo: Editora Unesp, 2000. REIS, Rafael. Indirect Quotation Extraction for Portuguese. Proposta de Qualificação de Mestrado. Orientador: Ruy Milidiú. Departamento de Informática, PUCRio.Novembro, 2015. SANTOS, Diana, MARQUES, Rui, FREITAS, Cláudia, MOTA, Cristina & SIMÕES, Alberto. Comparando anotações na Gramateca: filosofia, ferramentas e exemplos. Domínios da Lingu@agem (no prelo). 2015 SANTOS, Diana & ROCHA, Paulo. The key to the first CLEF in Portuguese: Topics, questions and answers in CHAVE. In: Carol Peters, Paul Clough, Julio Gonzalo, Gareth J. F. Jones, Michael Kluck & Bernardo Magnini (eds.), Multilingual Information Access for Text, Speech and Images, 5th Workshop of the Cross-Language Evaluation Forum, CLEF 2004, Bath, UK, September 15-17, 2004, Revised Selected Papers. Berlin/Heidelberg: Springer, Lecture Notes in Computer Science, 2005, pp. 821-832. Revised version of Santos & Rocha (2004). COSTA, L., SANTOS, D. & ROCHA, P.. Estudando o português tal como é usado: o serviço AC/DC. In The 7th Brazilian Symposium in Information and Human Language Technology STIL, 2009. 2009.