Resumo Hora da Pesquisa_Bianca Freitas_Linha 1

Transcrição

Resumo Hora da Pesquisa_Bianca Freitas_Linha 1
PUC-Rio
Programa de Pós-Graduação em Estudos da Linguagem
CDL 2015
BIANCA FREITAS
Orientadora: Cláudia Freitas
RESUMO AMPLIADO
O discurso relatado: da tradução à descrição do português
Os profissionais que traduzem textos do inglês para o português, principalmente
nos âmbitos literário e jornalístico, deparam-se com uma exigência, por parte de
editoras e agências de tradução, no que se refere à tradução de diálogos. Em inglês, por
um lado, é extremamente comum que a introdução de discurso seja feita pelo verbo say
em sua forma pretérita, said. Em português, por outro lado, os tradutores são orientados
a diversificar os verbos introdutores de discurso e empregar também outros verbos,
comumente chamamos de dicendi. Os verbos dicendi compreendem um grupo maior de
verbos, relacionados à comunicação como um todo. O escopo deste estudo limita-se
apenas aos verbos que introduzem discurso relatado.
Uma das motivações desta pesquisa é a elaboração de um glossário dos verbos
de dizer, que se chamará DISSE, tendo em vista facilitar essa tarefa tradutória.
Classificado quanto a grupos de sentido, esse glossário servirá como auxílio ao tradutor,
que, por conta da orientação de editoras e agências, deve lidar com uma variação lexical
que não existe no texto fonte.
Os verbos introdutores de discurso relatado interessam também a uma tarefa de
Processamento de Linguagem Natural (PLN) chamada Identificação de Citação
(Quotation Extraction), e esse interesse constitui uma motivação secundária desta
pesquisa. Na tarefa de quotation, o foco não está exatamente no verbo, mas em quem
fala e no conteúdo dessa fala. No entanto, sabemos que a forma de introduzir o discurso
relatado também é indicativa de posicionamentos.
Um estudo descritivo amplo dessa classe de verbos também pode interessar a
outras áreas, como o ensino de português – quando se tematiza discurso direto e indireto
– e a pragmática, devido aos atos de fala (Austin, 1962). Apesar de existirem trabalhos
sobre o tema, com uma perspectiva mais estilística ou pragmática, há uma carência de
estudos descritivos com base em corpus, destacando Moura Neves (2000).
Este estudo tem, portanto, dois objetivos principais: (i) a elaboração de um
glossário dos verbos de dizer para tradutores e (ii) a descrição dessa classe de verbos no
português, tomando um viés semântico e com base em grandes corpora. Como
contribuições secundárias, mas não menos importantes, destacam-se (iii) a criação e a
disponibilização de um corpus anotado quanto aos verbos do discurso relatado e (iv) a
colaboração na elaboração de sistemas capazes de identificar automaticamente citações
em textos da língua portuguesa. Para tanto, conduzimos um amplo levantamento dos
verbos de dizer, propomos uma classificação desses verbos em grupos de sentido e,
além disso, estabelecemos os padrões de uso nos quais esses verbos costumam ser
empregados.
Em uma primeira etapa da pesquisa, foi feito o levantamento desses verbos a
partir da exploração do COMPARA (Frankenberg-Garcia & Santos, 2002), um corpus
paralelo bilíngue inglês-português com traduções de obras literárias, no qual buscamos
traduções para a forma verbal said (no original). A escolha pelo COMPARA foi feita
não só por conta da problemática que suscitou este trabalho, mas também por esse
corpus incluir apenas traduções já publicadas por editoras (em oposição a traduções
“livres” publicadas na internet, por exemplo), o que indicaria que a tradução de said foi
considerada aceitável a ponto de ser publicada.
Além disso, nem sempre é óbvia a identificação de um dado verbo como
introdutor de discurso relatado (por exemplo, imaginar ou interromper). A escolha pela
exploração inicial no COMPARA com a forma said buscou, também, garantir
segurança quanto à seleção dos verbos: quando o texto original usa a forma said, não há
dúvidas de que o verbo escolhido, em português, se refere a um discurso relatado:
TEXTO FONTE: «Don't,» I said, in a muffled voice.
TEXTO META: – Não! – interrompi numa voz abafada.
Para fins deste estudo, o escopo da pesquisa foi limitado ao verbo say, em sua
forma said, uma vez que o discurso é mais comumente relatado no pretérito. Nesta
etapa, foram analisadas 958 linhas de concordância, e encontramos 58 verbos diferentes,
empregados como tradução de said (Anexo 1). Com base nos 58 verbos levantados,
seguimos dois caminhos em paralelo: (i) uma proposta de classificação dos verbos e (ii)
a ampliação da lista de verbos compilados.
Para a classificação dos verbos, criamos 21 classes (grupos de sentido) para
abrigar os 58 verbos obtidos na busca inicial no COMPARA e, em seguida, elaboramos
um teste, de modo a validar a classificação proposta. O teste consistia apenas na tarefa
de classificar os verbos de acordo com as 21 classes, como é possível observar na
Figura 1:
Figura 1: Estrutura da primeira versão do experimento.
No entanto, o resultado do experimento não foi o esperado, pois a discordância
entre os dez participantes foi bastante acentuada; cada verbo recebeu uma média de 5,24
classificações diferentes, e os participantes apenas concordaram com 31% da nossa
classificação. Ainda, contando com as sugestões dos participantes, chegamos a um total
de 48 classes para os 58 verbos, uma classificação nada econômica e que inviabilizaria a
utilização do glossário. O Anexo 1 contém os 58 verbos e a classificação inicial.
Ao retomar o teste, ficou evidente que uma classificação granular demais (21
classes) suscita mais discordância e não facilita a tarefa do tradutor, pelo contrário: ele
fica “obrigado” a decidir entre diferentes nuances de sentido, sendo levado a dúvidas
que normalmente não existiriam. Ficou claro que uma reformulação das classes
envolveria classes mais abrangentes, com grupos de sentido mais amplos.
Mantivemos nossa opção pela distribuição em grupos de sentido, mesmo cientes
das dificuldades (ou da impossibilidade) de classificação de tais verbos (Austin, 1962),
porque o agrupamento é uma atividade que faz sentido no contexto do glossário
pretendido (em oposição a uma tentativa de classificação geral desses verbos, por
exemplo). Além disso, a ênfase em uma classificação motivada pelo sentido deve-se à
sua utilidade para os usuários do glossário – por isso não utilizamos uma classificação
de viés sintático, por exemplo, como feita por Moura Neves (2000).
Paralelamente ao desenho da nova classificação, procedemos a uma estratégia
semiautomática para ampliação dos verbos introdutores de discurso. No que se refere à
ampliação dos verbos compilados, foi feita a exploração, em momentos diferentes, de
grandes corpora monolíngues do projeto AC/DC (Costa et al., 2009): o Chave (Santos
& Rocha, 2005), de textos jornalísticos (98 milhões de palavras); o OBras, de obras de
literatura brasileira disponíveis em domínio público (1,2 milhão de palavras), e o
Floresta (Freitas et al, 2008), majoritariamente jornalístico (6 milhões de palavras).
Dos 58 verbos iniciais, 6 foram escolhidos para atuar como “sementes” na
interface de busca em corpora AC/DC, usando inicialmente o corpus CHAVE, a fim de
identificar padrões léxico-gramaticais tipicamente usados para introduzir um discurso
relatado. Subjacente à identificação dos padrões de uso desses verbos, está a ideia de
que os próprios padrões seriam capazes de facilitar a localização de demais verbos do
dizer no corpus. Os verbos escolhidos foram dizer, perguntar, responder, admitir,
contar e continuar. Os três primeiros verbos foram selecionados por serem
frequentemente referenciados como introdutores de discurso, enquanto os últimos três
verbos foram escolhidos por estarem associados a usos que nem sempre correspondem à
estrutura de discurso relatado.
Exemplo 1: O ministro da Educação, Murílio Hingel, admite: «Apesar de todos
os esforços, nosso ensino básico é vexaminoso.»
Exemplo 2: Pois lá a concorrência é muito grande e não são admitidos erros.
A análise das linhas de concordância de cada um dos seis verbos possibilitou a
depreensão de 10 padrões léxico-sintáticos, distribuídos em citação direta, indireta e
mista. A seguir, encontram-se alguns exemplos, retirados do corpus Chave, de cada um
dos padrões:
Citação direta
(1) «Talvez tenha sido mal interpretado», disse.
(2) Até que uma amiga minha passou por ele e disse: «Oi, Fábio».
(3) «Se não tivessem sido feitas», disse, "Portugal era hoje um país ao nível do Leste
Europeu".
(4) Só que o Benfica, como disse Abílio Rodrigues, «não pode acompanhar as
propostas que o jogador recebeu».
Citação indireta
(5) Cauteloso, ele disse que não receberá empresários e empreiteiras.
(6) Antes de tentar um acordo, ele passou em outra concessionária (não informou o
nome), que, disse, teria lhe oferecido arcar com parte do II.
(7) Em entrevista de dez minutos à TV russa, ele disse estar controlando o país.
(8) O governo de Israel se disse surpreso com críticas do enviado do Vaticano a Israel,
Andrea Di Montezemolo.
(9) O Pp, por meio de Rocco Buttiglione, respondeu, aconselhando a leitura de «Mein
Kampf» (Minha Luta), de Adolf Hitler, para entender porque o líder da Liga,
senador Umberto Bossi, «age com um Führer (guia, como os alemães chamavam
Hitler)».
Citação mista
(10)
O presidente, Miguel Boieiro, disse «não compreender» a situação e acentuou
os esforços da autarquia para que a GNR «esteja instalada condignamente».
Em seguida, verificamos a possibilidade de aplicação de cada padrão aos 6
verbos selecionados. Além disso, também testamos os padrões com o corpus OBras, de
textos literários, para confirmar os padrões, o que de fato aconteceu. A Tabela 1
apresenta a distribuição de padrões por verbo.
PADRÃO
VERBO
1
2
3
4
5
6
7
8
9
10
DIZER
sim
sim
sim
sim
sim
sim
sim
sim
não
sim
PERGUNTAR
sim
sim
sim
sim
sim
sim
não
não
não
sim
RESPONDER
sim
sim
sim
sim
sim
sim
sim
não
sim
sim
ADMITIR
sim
sim
sim
sim
sim
sim
sim
não
não
sim
CONTAR
sim
sim
sim
sim
sim
sim
sim
não
não
sim
CONTINUAR
sim
sim
sim
sim
sim
sim
não
não
não
não
Tabela 1: Distribuição de cada verbo em cada padrão proposto.
No entanto, embora os padrões sejam bastante precisos, não há garantia de que
capturem, exclusivamente, verbos do discurso relatado, como ilustram as frases abaixo:
Verificada a licitude da «pré-campanha », regressemos ao caso do leitor .
Ao longo de quase dois anos, os habitantes de Reveles ainda acreditaram que os
trabalhos de estabilização dos solos pudessem vir a evitar o pior .
Para eliminar tais verbos, repetimos a busca com os padrões aceitos por todos os
verbos “modelo” (padrões 1 a 6), sem especificar o verbo na expressão (anexo 2) de
busca e pedindo a distribuição dos lemas (anexo 3). Os verbos foram analisados caso a
caso, mas consideramos apenas os verbos com mais de uma ocorrência. Para esta etapa,
foi usado o corpus Floresta, pois este tem menos palavras do que o Chave. Com isso, foi
possível filtrar os verbos que não se enquadravam nos objetivos da pesquisa.
Como resultado desse processo de revisão, chegamos à lista de final de 292
verbos introdutores do discurso relatado. Além disso, produzimos também regras
bastante precisas com relação à identificação desses verbos nos corpora investigados,
que já estão sendo implementadas nos próprios corpora, contribuindo para a sua
anotação semântica (Freitas et al. submetido).
Ao longo desta pesquisa, foram consultados diversos estudos sobre essa classe
de verbos (Levin, 1993, Garcia, 2010, por exemplo). Uma das principais referências
desta pesquisa, Moura Neves (2000), faz um estudo aprofundado do que ela chama de
“verbos de elocução” e levantou 103 verbos, quase um terço do que encontramos neste
trabalho.
Quanto ao glossário DISSE, a questão da classificação é ainda mais relevante,
considerando um número tão grande de verbos. Com base nessa nova lista de 292
verbos, desenvolvemos 11 grupos de sentido, classes bem mais amplas, levando em
consideração os resultados do primeiro experimento. Para chegar a essas 11 classes, (i)
partimos dos resultados do experimento, que acabaram por indicar alguns caminhos a
respeito dos nomes das classes1 e (ii) analisamos as ocorrências de cada verbo nos
corpora Chave, Floresta e OBras, usando as expressões de busca desenvolvidas. É
importante mencionar que um mesmo verbo pode integrar mais de uma classe. A seguir,
encontra-se uma tabela com a distribuição dos verbos entre as 11 classes propostas (o
Anexo 4 contém os 292 verbos distribuídos pelas 11 classes propostas):
1
A categoria declaração foi proposta por dois voluntários do teste para verbos que tinham sido
enquadrados na categoria afirmação: os verbos declarar e falar. Consideramos que a categoria
declaração era mais adequada do que a categoria afirmação, pois a primeira poderia abrigar um número
maior de verbos (incluindo-se aqui, por exemplo, os verbos de negação). As categorias informação e
opinião também foram incorporadas a essa nova categoria. Dessa forma, declaração constitui a categoria
mais ampla, com 190 verbos dos 292 (65%). As classes acordo e contestação uniram-se para compor a
classe concordância e discordância. Entendemos que essa classe reúne verbos que indicam qualquer tipo
de posicionamento em relação ao que o outro fala. A opção pela troca das palavras que denominam a
classe se deveu à necessidade de maior clareza; com base nos resultados do experimento, chegamos à
conclusão de que os nomes acordo e contestação nem sempre ficaram claros para os participantes.
Quantidade de verbos por categoria
Concordância e discordância
Continuidade e conclusão
Declaração
Destaque
Emoções e exclamações
Hesitação
Outros
Palpites e certezas
Pedido, ordem e sugestão
Pergunta
Resposta
0
20
40
60
80
100
120
140
160
180
200
Quantidade de verbos por categoria
Figura 2: Distribuição dos 292 verbos introdutores de discurso relatado entre as 11 classes
propostas.
A nova classificação está em fase de validação. Para tanto, estamos
implementando o segundo experimento no Rêve (Santos et al, 2015), uma ferramenta
on-line para descrição do português, com o intuito de testar a nova classificação
proposta (Anexo 5). Uma vez concluído o segundo teste, pretendemos disponibilizar o
glossário DISSE para o público.
Os objetivos desta pesquisa já rendem resultados concretos. Neste momento,
com base nos verbos e nas expressões de busca elaboradas por nós, estão sendo
anotados os corpora do projeto AC/DC, para que se possa fazer pesquisas pelo campo
semântico dizer. Vale mencionar que todo o material é público.
Além disso, as regras criadas com base no Bosque estão sendo incorporadas na
criação de um extrator de citações, no âmbito da dissertação de mestrado de Rafael
Reis, do Departamento de Informática da PUC-Rio (Reis, 2015). Neste caso, o objetivo
é a construção de um extrator que não apenas identifica a citação e o seu autor, mas
também identifica como esse enunciado é relatado, isto é, por meio de quais verbos.
REFERÊNCIAS
AUSTIN, J. L. How to do things with words. 2ª ed. Cambridge, MA: Harvard
University Press, 1962.
FREITAS, Cláudia, ROCHA, Paulo & BICK, Eckhard. "Um mundo novo na Floresta
Sintá(c)tica - o treebank para Português". Calidoscópio - Revista de Pós Graduação em
Lingüística Aplicada da Unisinos, Rio Grande do Sul 6.3 (2008), pp. 142-148.
FREITAS, Cláudia, FREITAS, Bianca & SANTOS, Diana. QUEMDISSE? Reported
Speech in Portuguese. (submetido)
FRANKENBERG-GARCIA, Ana e SANTOS, Diana. COMPARA, um corpus paralelo
de português e de inglês na Web. Cadernos de Tradução IX.1 (2002), pp. 61-79.
Universidade de Santa Catarina. ISSN: 1676-7047.
GARCIA, Othon M. Comunicação em prosa moderna: aprenda a escrever,
aprendendo a pensar. 27 ed. Rio de Janeiro: Editora FGV, 2010.
LEVIN, Beth. English verb classes and alternations. Chicago: The University of
Chicago Press, 1993.
NEVES, Maria Helena de Moura. Gramática de usos do português. São Paulo:
Editora Unesp, 2000.
REIS, Rafael. Indirect Quotation Extraction for Portuguese. Proposta de Qualificação
de Mestrado. Orientador: Ruy Milidiú. Departamento de Informática, PUCRio.Novembro, 2015.
SANTOS, Diana, MARQUES, Rui, FREITAS, Cláudia, MOTA, Cristina & SIMÕES,
Alberto. Comparando anotações na Gramateca: filosofia, ferramentas e exemplos.
Domínios da Lingu@agem (no prelo). 2015
SANTOS, Diana & ROCHA, Paulo. The key to the first CLEF in Portuguese: Topics,
questions and answers in CHAVE. In: Carol Peters, Paul Clough, Julio Gonzalo, Gareth
J. F. Jones, Michael Kluck & Bernardo Magnini (eds.), Multilingual Information
Access for Text, Speech and Images, 5th Workshop of the Cross-Language Evaluation
Forum, CLEF 2004, Bath, UK, September 15-17, 2004, Revised Selected Papers.
Berlin/Heidelberg: Springer, Lecture Notes in Computer Science, 2005, pp. 821-832.
Revised version of Santos & Rocha (2004).
COSTA, L., SANTOS, D. & ROCHA, P.. Estudando o português tal como é usado: o
serviço AC/DC. In The 7th Brazilian Symposium in Information and Human Language
Technology STIL, 2009. 2009.

Documentos relacionados