9396_0_Siyou Liu et al. - Univ. Macau_V

Transcrição

9396_0_Siyou Liu et al. - Univ. Macau_V
Tradução automática chinês-português: uma análise dos adverbiais temporais
Siyou Liu
Marcia Schmaltz
Ana Luísa Leal
(Universidade de Macau)
Resumo: O presente estudo, desenvolvido no âmbito do projeto Autema-Syntre 1 , apresenta uma análise
contrastiva sobre a tradução automática dos adverbiais temporais do chinês para o português, e propõe
algumas regras gramaticais, para melhorar o desempenho do Sistema de Tradução Português-Chinês2 (PCT).
O corpus para análise é constituído por 46 textos-fonte (TF) na língua chinesa, cada um com cerca de 200
palavras, e pelos respectivos textos-alvo (TA) na língua portuguesa traduzidos respectivamente pelo PCT
(PCT MT) e por Humanos (HT). Os textos-fonte foram extraídos de The International Chinese Newsweekly.
As estruturas sintáticas dos TF chinês dos PCT MT e HT foram analisadas e comparadas, e foi possível
identificar que os resultados dos PCT MT’s apresentam inconsistências estruturais. Para resolvê-las,
discutimos e propomos algumas regras sintáticas.
Palavras-chave: Adjunto adverbial temporal. Tradução automática. Português. Chinês. Análise contrastiva.
1. Introdução
De acordo com a gramática, o elemento adverbial pode ser um advérbio, uma locução
adverbial ou uma oração adverbial e pode oferecer informações adicionais aos verbos,
advérbios, adjetivos ou sentenças, para os modificar ou descrever (i.e. tempo, lugar ou
maneira de acção na sentença). Em outras palavras, os adverbiais podem responder
perguntas como: Onde? Quando? Como? Por quê? O presente estudo analisa os adverbias
que respondem ao “Quando”, ou seja, como são representadas estruturalmente as locuções
adverbiais de tempo em textos traduzidos automaticamente do chinês para o português.
Na próxima seção, realizamos uma breve descrição do projeto em que se enquadra esta
pesquisa, incluindo a metodologia adotada. Na Seção 3, apresentamos uma revisão teórica,
sobre os adverbiais temporais em chinês e em português. Na Seção 4, descrevemos as
análises e contrastamos as diferenças no processo de tradução do adverbial temporal entre
chinês e português. Na última seção, apontamos algumas inconsistências no sistema de
1
Annotation and Analysis of Bilingual Syntactic Trees for Chinese/Portuguese, bolsa de pesquisa da
Universidade de Macau, MYRG102 (Y2-L2)-FSH11-ALL.
2
Wong, F.; Oliveira, F.; Li, Y. (2012).
1
tradução automática PCT e propomos algumas sugestões para melhorar a qualidade da
tradução automática.
Na presente seção apresentamos brevemente o projeto e o sistema relacionados à presente
pesquisa. Especificamente, estudo realizado identifica inadequações geradas pelo sistema
PCT no processo de tradução automática dos adverbiais entre Chinês e Português.
Projeto de pesquisa AuTema-Syntree: Annotation and Analysis of Bilingual Syntactic
Trees for Chinese/Portuguese – é um projeto que tem como objetivo apresentar algumas
soluções em termos de regras e heurísticas de cunho sintático, para resolver inconsistências
em textos traduzidos automaticamente do chinês para o português. As inconsistências
foram observadas a partir dos resultados analisados dos textos do corpus do projeto
AuTema-Dis II3, traduzidos pelo PCT, sistema automático de tradução desenvolvido por
Wong et al. (2012).
Conforme mencionamos, o projeto AuTema-Syntree foi desenvolvido para analisar e
manipular as estruturas sintáticas dos textos traduzidos pelo PCT. A partir da análise de
todos os textos do corpus traduzidos automaticamente, verificamos a necessidade de ajustar,
remodelar e refinar algumas regras e heurísticas de natureza sintática, as quais constituem a
base do sistema de tradução PCT, visando obter resultados mais aproximados aos
resultados da tradução humana. Nós buscamos encontrar uma equivalência estrutural a
partir da geração de árvores de dependência sintática em chinês e português que servem
como espelho entre as línguas.
Estudos realizados anteriormente no âmbito do Autema-Syntree, forneceram-nos dados
para acreditar que o espelhamento entre árvores sintáticas no chinês e português poderiam
apresentar regras, provendo um ajuste no sistema PCT. Além disso, o resultado gerado a
3
Automatization of Discursive Thematic Analysis (AuTema-Dis II), bolsa de pesquisa da Universidade de
Macau RG035/09-10S/ALL/FSH.
2
partir desse espelhamento e ajuste constituiu de uma das etapas do sistema AuTema-Dis II.
Observa-se que, a descrição das estruturas do chinês e do português é realizada por uma
gramática livre de contexto, que tem sido importante para o processo de tradução
automática.
Sistema de Tradução Português-Chinês (PCT): é um sistema que realiza a tarefa de
tradução automática; nele se aplicam as tecnologias da Memória de Tradução, as
metodologias de Tradução Automática, incluindo o esquema de anotação em Árvores na
representação dos exemplos bilinguais, e formalismo linguístico – Gramática Sincrônica
de Restrição na análise da estrutura sintática entre as línguas (WONG et al., 2012).
2. Metodologia da Pesquisa
O presente estudo, que foi desenvolvido no âmbito do projeto AuTema – Syntree, está
relacionado especificamente com duas questões técnicas:
1)
PCT: Melhorar e refinar a qualidade dos resultados obtidos em textos
traduzidos automaticamente do chinês para o português e vice-versa.
2)
Gramática: desenvolver uma base gramatical livre de contexto no sistema
PCT no par linguístico português-chinês, aproximando as duas línguas pela
aplicação ou substituição de regras internas do sistema, definidas pela produção e
imposição de outras restrições, as quais podem orientar a produção global.
Esta pesquisa constitui uma parte das análises feitas com ênfase na organização frasal do
par linguístico chinês e português, que é necessário para desenvolver as estruturas sintáticas
e melhorar o desempenho do PCT.
O corpus analisado é constituído por 46 textos-fonte, extraídos da revista The International
Chinese Newsweekly, e as respectivas traduções realizadas por máquina e manual. No total,
os textos-fonte têm 222 sentenças e em 51 sentenças verifica-se o adverbial temporal (cerca
de 23%), conforme pode ser observado na Tabela 1.
3
Número dos textos Número das
Percentagem
sentenças
Corpus do Projeto
46
222
100%
TF4 com Adverbial temporal
41
51
23%
HT5 com Adverbial temporal 41
51
23%
Tabela 1: Dados Estatísticos do Corpus
A metodologia utilizada para análise é contrastiva e a sua implementação é realizada
manualmente em quase todo o seu processo; as etapas são realizadas de forma sequencial e
hierárquica, conforme:
1)
Análise do corpus existente do projecto Autema-syntree (46 textos extraídos
de The Chinese International Weekly entre dezembro de 2009 e março de 2010.)
2)
Identificação ds sentenças que contêm adverbial temporal em chinês, bem
como em português;
3)
Análise dos sintagmas que possuem adverbial temporal em chinês de acordo
com a gramática tradicional;
4)
Organização e descrição dos constituintes adverbiais temporais em chinês,
para determinar quais adjuntos podem servir como adverbiais temporais;
5)
Indentificação, análise e classificação dos adverbiais temporais em
português, identificados na tradução automática do PCT de acordo com a integração
da gramática tradicional e o Léxico-gramática;
6)
Identificação, análise e classificação dos adverbiais temporais de acordo
com a integração da gramática tradicional e o Léxico-gramática;
7)
Organização dos constituintes adverbiais temporais em português foi
descrita considerando-se a tradução automática do PCT e HT;
8)
Contraste das organizações frasais nas traduções automáticas e manuais
consistiu de um espelhamento entre as árvores sintáticas de cada um dos pares dos
4 TF: Texto-Fonte.
5 HT: Tradução por Humanos.
4
textos, a fim de identificar inconsistências produzidas a partir da tradução
automática realizada pelo PCT.
9)
Contraste das organizações frasais entre os TFs em chinês e os textos
traduzidos automaticamente (doravante PCT MT) em português consistiu no
espelhamento das árvores sintáticas para cada um dos pares dos textos, a fim de
identificar as suas diferenças.
10)
Análise das diferenças foi discutida e reavaliada, visando melhorar os
resultados apresentados pelo sistema PCT em termos de adverbiais temporais.
3. Revisão Teórica
A presente análise é feita para aumentar a qualidade do funcionamento do sistema da
tradução automática. Assim, para embasar essa investigação, recorreu-se ao estudo LéxicoGramática, que foi desenvolvido por Gross (1986) com base nos princípios da gramática
transformacional de operadores de Z. S. Harris (apud Palma, 2009, p. 3). Todavia, o
adverbial é uma noção da gramática tradicional e, pela vertente da língua chinesa, é
bastante difícil de encontrar fundamento teórico sobre o adverbial, relacionado à gramática
gerativa. Portanto, decidimos também integrar nesta seção elementos gramaticais
tradicionalmente descritos e analisados.
3.1 Adverbiais em Português
De acordo com Palma (2009), “o Léxico-Gramática pode ser definido como um modelo de
sintaxe limitado às frases elementares das línguas naturais”, em que a frase elementar se
refere à formação do sujeito, predicado e outros argumentos essenciais.
Veja o exemplo seguinte:
(1)
A Casa Branca anunciou, em 22 de fevereiro, o novo projeto da reforma da
saúde de Obama.
Nesse exemplo, o verbo anunciar é o elemento predicativo, que seleciona dois argumentos
essenciais: o sujeito a Casa Branca e o complemento o novo projeto da reforma da saúde
de Obama, ou seja, a estrutura sintática da frase elementar pode ser representada pela
5
seguinte regra: SN anunciar SN. Em outras palavras, não pode faltar nenhum destes três
argumentos, senão, produzirá uma expressão inaceitável:
(2)
*A Casa Branca anunciou.
Em comparação com (1), na frase (3), a omissão do complemento temporal em 22 de
fevereiro não altera o significado global da construção verbal, nem a frase se torna
inaceitável:
(3)
A Casa Branca anunciou o novo projeto da reforma da saúde de Obama.
De acordo com o Léxico-Gramática, “as frases combinam-se entre si a partir da aplicação
de um conjunto de operações transformacionais (reduções, modificações morfológicas,
permuta de elementos, etc.) ” (PALMA, 2009, p. 5). Portanto, a junção dos adverbiais às
frases elementares também se baseia no conjunto mencionado acima.
Segundo Palma (2009), “M. Gross (1986, p. 11-12) propõe uma noção de advérbio
generalizado, aplicando-o a estruturas sintáticas que, na terminologia gramatical tradicional,
são considerados como objetos linguísticos distintos”, além disso, divide-o em três tipos:
“(a) os advérbios propriamente ditos, tanto os advérbios simples não derivados, como os
derivados em -mente e os advérbios compostos; (b) os complementos circunstanciais; (c) as
orações subordinadas circunstanciais”. Por exemplo:
(4)
Mas, atualmente, cerca de 16 mil de tripulantes também declararam que se
as duas partes não pudessem chegar ao consenso sobre o problema dos salários,
iriam iniciar de imediato uma grande greve, a situação poderia ficar ainda mais
grave para a companhia aérea.
Conforme a categorização de Gross, nos termos em destaque da frase (4): atualmente –
advérbio simples derivado em –mente do tipo (a); também, ainda e mais – advérbio simples
não derivado de tipo (a); se as duas partes não pudessem chegar ao consenso sobre o
problema dos salários – sendo a oração subordinada circunstancial do tipo (c); de imediato
– o advérbio composto do tipo (a). Ora, em 22 de fevereiro da frase (1) é o complemento
circunstancial do tipo (b), que na gramática tradicional é chamado como locução adverbial,
6
sendo a ênfase do presente estudo. Portanto, no resto da comunicação, a locução adverbial
será usada para indicar o tipo (b), o complemento circunstancial.
3.2 Adverbiais em Chinês
Na Gramática da Língua Chinesa, de acordo com a revisão da literatura realizada por Xia
(2001, p. 24), existem 13 tipos de adverbiais; todavia, no corpus de nossa pesquisa foram
evidenciados os seguintes: os adverbiais de tempo, de lugar, de maneira e de causa. Os
adverbiais temporais em chinês podem ser constituídos por uma locução nominal temporal
(5), um advérbio temporal (6), uma locução preposicional (7), e uma locução quantitativa
(8). Por exemplo:
(5)
mùqián
yuē
目 前 /n, 约 /adj
yí wànliùqiān
míng
kōngchéngrényuán
T. Interlinear
Atualmente, cerca de cento mil seis mil CLAS
T. Livre
Atualmente, cerca de
(6)
zhōngguó
mùqián
T. Interlinear
A China
atualmente estar a
T. Livre
A China atualmente está construindo…
(7)
jiāng
zài èr shíwǔ
rì zhào jí liǎng
dǎng yì yuán
… 将 /adv 在 /p 二 十 五 /num 日/n 召 集/v 两 /num 党 /n 议 员 /n …
T. Interlinear
…
T. Livre
… vai convocar, no dia 25, os deputados dos dois partidos …
(8)
yī jiǔ bā jiǔ
一 万 六 千 /num 名 /clas 空
16 mil
zhèngzài
乘 人 员 /n ……
tripulante de vôo…
tripulantes de vôo …
jiànshè
中 国 /n 目 前 /n 正 在 /adv 建 设 /v ……
ir
em
25
construir…
dia convocar dois
partido deputado…
nián
yángxiàn yì gōngkāi
zhǐzé zhōngguó zhèng fǔ
一九 八九 /num 年 /n , 杨 宪 益/n 公开 /adv 指责 /v 中 国 /n 政 府
/n …
T. Interlinear
1989
T. Livre
Em 1989, Yang Xianyi acusou o governo chinês publicamente…
ano,
Yang Xianyi publicamente acusar chinês governo…
De acordo com o Xiandai Hanyu cidian (Dicionário do chinês moderno), a expressão
adverbial de tempo em (5) muqian [atualmente] é um substantivo temporal. Em (6)
7
zhengzai [estar + V-indo] é um advérbio temporal. Em (7) zai ershiwu ri [no dia 25] é uma
locução preposicional. Em (8), de acordo com a gramática da língua chinesa, a locução
yijiubajiu nian [1989 ano] é uma locução quantitativa, porque é iniciada pelo numeral
“1989”, que possui função de adverbial de tempo.
Portanto, de acordo com os dados do presente corpus, a análise contrastiva mostra que os
constituintes das expressões adverbiais de tempo na língua chinesa podem ser um
substantivo temporal (5), um advérbio temporal (6), uma locução preposicional (7), uma
locução quantitativa (8), enquanto os constituintes das expressões adverbiais na língua
portuguesa são apenas compostas por sintagmas preposicionais. Quer dizer, os constituintes
em chinês são mais diversificados do que os constituintes na língua portuguesa, pelo menos
no presente corpus. Na seção seguinte, será detalhado o contraste das locuções adverbiais
de tempo na língua chinesa e portuguesa.
4. Análise e Contraste
Baseados na revisão da literatura, foram contrastadas as estruturas sintáticas entre os
adverbiais temporais nos TFs e as estruturas sintáticas no PCT MTs e HTs. De acordo com
as regras sintáticas da língua portuguesa e a análise contrastiva, identificamos no corpus 51
sentenças com a presença de adverbial temporal, traduzido pelo PCT MT. Neste conjunto,
foram identificadas 44 sentenças inadequadas (86%). A tabela 2 apresenta os tipos de
inadequações: em 19 locuções (43%), o sistema não traduziu a preposição; em 3 locuções
(7%) foi verificado o problema na ordenação das estruturas, de acordo com o princípio
Parte-Todo 6 em português; e, em 9 locuções (20%), a posição das preposições estão
incorretas.
Tipo de inadequação
Número de sentenças
Quantidade inadequadas
Percentagem de sentenças
inadequadas
6
O princípio Parte-Todo refere-se ao princípio existente na gramática que tem relação com a ordenação dos
nomes temporais num mesmo sintagma.
8
Falta de preposição
19
43%
Ordenação do Princípio Parte-Todo
3
7%
Ordenação da preposição
9
20%
Outros
13
30%
Total
44
100%
Tabela 2: Dados Estatísticos das Inadequações
No que se refere às inadequações identificadas e demonstradas acima na Tabela 2,
discutiremos, primeiramente, as instâncias de falta de preposição nas traduções dos
adverbiais para língua portuguesa.
(9)
TF
ào bā mǎ
jiāng
Obama
ir
zài
èrshíwǔ
rì
zhàojí liǎng
dǎng
yìyuán
奥巴 马 /n 将 /adv 在 /p 二十五 /num 日/n 召集 /v 两 /num 党 /n 议员 /n
em
25
dia convocar dois
partido
deputado…
HT
Obama vai convocar, em 25 deste mês, os deputados dos dois partidos…
PCT
Barack Obama em breve em vinte e cinco dias convocam o deputado de dois.
(10)
TF
sānyuè
yī
rì
wéi
yíngjiē shìbóhuì
三 月 /n 一/num 日/n , 为 /p 迎 接/v 世 博 会 /n
Março um dia, , para
acolher Expo Mundial…
HT
Em um de março, para a Expo Mundial”,
PCT
*Um de março, para acolher Expo Mundial…”
Os adverbiais de (9) referem-se às locuções preposicionais: a locução no TF possui a
preposição zai [em] e nas traduções manuais e PCT as locuções têm preposições
correspondentes em. Em contraste, em (10), de acordo com as regras gramaticais chinesas,
o adverbial do TF é a locução quantitativa, sem preposição iniciada pelo numeral san [três],
enquanto, na tradução manual, a locução está preposicionada, iniciando por em, enquanto
no PCT, observa-se a inadequação, pela ausência da preposição no adverbial.
9
Percebe-se que, quando o PCT MT traduz as locuções quantitativas adverbiais do chinês
para o português, o sistema não gera locuções preposicionadas. Em outras palavras, o que o
sistema faz é a tradução literal – traduz palavra por palavra. Quando o TF em chinês possui
uma locução preposicionada, o sistema gera corretamente a estrutura preposicional como o
exemplo (9) em + sintagma nominal de tempo. No entanto, quando o TF em chinês contém
uma locução quantitativa, o PCT MT traduz inadequadamente como uma locução nominal,
como mostra o exemplo (10).
Entretanto, observa o sintagma nominal de tempo no adverbial traduzido pelo PCT vinte e
cinco dias, cujo texto-fonte ershiwu ri quer dizer o dia 25. Ershiwu é o número 25 e ri é
correspondente ao dia. É digno de menção que em chinês existem duas noções para
expressar a noção de “dia”, uma é ri e a outra, tian. Essas duas noções são bastante
parecidas, tanto em significado quanto no aspecto de emprego. Todavia, em termos do
emprego, somente ri pode ser utilizado para expressar uma data precisa. Em comparação, o
tian possui o carácter que expressa “dia” de forma genérica.
A seguir, discute-se a geração da ordem das estruturas na locução preposicional de tempo
do TF, como mostra o exemplo (11):
(11)
TF
měiguó
yǒuxiàndiànshì
xīnwén
wǎng
yú
èryuè
rì
èrshíqī
wǎnshàng
美国 /n 有线电视 /n 新闻 /n 网 /n 于/p 二月/n 二十七/num 日/n 晚上 /n
American Cable
News Network em Fevereiro 27
HT
Na noite de vinte e sete de Fevereiro, CNN televisionou …
PCT
*CNN em vinte e sete de Fevereiro a noite produzir
dia
noite …
As pesquisas da área da Linguística Cognitiva apontam que os seres humanos experienciam
o mundo em que o rodeia em termos de “parte” e “todo”, denominado de Princípio de
Parte-Todo (Lakoff 1987, p.273). De acordo com Dai (2001, p. 6), na gramática chinesa, o
tempo é organizado na ordem: ano – mês – dia – hora (do maior para o menor), enquanto,
em português, observa-se que a ordem é inversa, do menor para o maior, isto é, hora – dia –
10
mês – ano. No TF em (11) acima, a ordem da estrutura em Chinês é eryue ershiqi ri
wanshang [Fevereiro 27 dia noite], cuja descrição é do mês para o dia e para uma hora
específica de um dia. No entanto, na HT, o adverbial temporal, na noite de vinte e sete de
fevereiro, demonstra a ordem inversa da estrutura em português, ou seja, de uma hora
específica do dia, o dia e o mês. Observe-se que no PCT o resultado *em vinte e sete de
fevereiro a noite corresponde parcialmente à ordem padrão da gramática portuguesa e é
mais aproximada ao padrão da gramática chinesa (do geral ao específico).
5. Conclusão
A partir das descrições e contrastes das estruturas sintáticas dos adverbiais entre os TFs em
chinês e os textos-alvo do PCT e HT em português, o nosso grupo de pesquisa discutiu
regras para serem inseridas na base do sistema de tradução automática, visando melhorar a
qualidade na geração do TA, ou seja, o texto gerado automaticamente sem interferência
humana.
Os problemas na tradução automática podem ser classificados em duas categorias. A
primeira refere-se à composição dos adverbiais temporais. Na gramática da língua
portuguesa, a preposição é um elemento essencial do adverbial temporal, enquanto, em
chinês, a preposição não é um elemento obrigatório no adverbial temporal. As locuções
nominais e quantitativas em chinês também devem ser tratadas como locuções
preposicionadas em português. A segunda categoria diz respeito à ordem das palavras na
estrutura. Tanto em português como em chinês, a locução nominal de tempo é o núcleo da
locução adverbial de tempo. Contudo, a ordem em português deve seguir o princípio do
parte-todo, que é do tempo específico ao geral, enquanto, em chinês, a ordem é inversa.
Quanto à tradução literal produzida pelo sistema PCT, esse não pode fazer a geração do
texto traduzido de forma precisa, por causa da falta de uma regra interna relativa à ordem
da locução preposicional de tempo no português.
Baseados nas descrições e comparações, apresentamos as seguintes conclusões. Primeiro,
quando o PCT traduz uma locução nominal de tempo (mês + data) do TF, o sistema deve
11
gerar uma locução preposicional de tempo no adverbial temporal, isto é, [preposição “em”
+ locução nominal de tempo]. Segundo, quando o PCT traduz uma locução adverbial de
tempo do chinês para o português, a ordem das palavras no que se refere aos elementos
temporais deve corresponder à ordem seguinte: hora / parte do dia – dia – mês – ano.
Referências
BAPTISTA, J.; GUITART, D. C. Compound Temporal Adverbs in Portuguese and in
Spanish. PorTAL, 2002, p. 133-136.
DAI, H. Gainian jiegou yu fei zizhuxing yufa: Hanyu yufa gainian xitong chutan
[Estruturas conceptuais e dependência sintática: alguns princípios conceptuais na gramática
chinesa]. In: Dangdai Yuyanxue [Linguística Contemporânea], v. 1, 2002, p. 1-12.
HAGÈGE, C.; BAPTISTA, J.; MAMEDE, N. Identificação, Classificação e Normalização
de Expressões Temporais do Português: a experiência do Segundo HAREM e o futuro. In:
MOTA, C.; SANTOS, D. (Eds.). Desafios na avaliação conjunta do reconhecimento de
entidades mencionadas. Actas do Encontro do Segundo HAREM. Aveiro, 11 de Setembro
de 2008, Lisboa: Linguateca, 2008.
LAKOFF, G. Women, Fire, and Dangerous Things. Chicago: The University of Chicago
Press, 1987.
LEAL, A. L. V. AuTema-Dis: uma arquitetura computacional para identificação da
temática discursiva em textos em Língua Portuguesa. Tese de Doutorado. Universidade de
Évora, 2009.
PALMA, C. M. B. Expressões Fixas Adverbiais: descrição léxico-sintática e subsídios
para um estudo contrastivo Português-Espanhol. Dissertação de Mestrado. Universidade
do Algarve, 2009.
PERINI, M. A. A gramática gerativa: Introdução ao estudo da sintaxe portuguesa. Belo
Horizonte: Vigília, 1985.
WONG, F.; OLIVEIRA, F.; LI, Y. Hybrid Machine Aided Translation System based on
Constraint Synchronous Grammar and Translation Corresponding Tree. Journal of
Computers, 7 (2), 2012, p. 309–316.
12
XIA, Y. The Study of Chinese Adverbial and Its Translation into Portuguese. Dissertação
de Mestrado. Universidade de Jinan, 2001.
Xiandai Hanyu cidian [Dicionário chinês moderno]. Editado pelo Instituto de Investigação
Linguística da Academia de Ciências Sociais da China. Pequim: Shangwu, 2011.
13