Do texto ao termo - GETerm - Universidade Federal de São Carlos

Transcrição

Do texto ao termo - GETerm - Universidade Federal de São Carlos
ALMEIDA, G. M. B.; VALE, O. A. Do texto ao termo: interação
entre Terminologia, Morfologia e Linguística de Corpus na extração
semi-automática de termos. In: ISQUERDO, Aparecida Negri;
FINATTO, Maria José Bocorny. (Orgs.). As ciências do Léxico:
Lexicologia, Lexicografia e Terminologia. 1 ed. Campo Grande:
Editora da UFMS, 2008, v. IV, p. 483-499.
DO TEXTO AO TERMO: INTERAÇÃO
ENTRE TERMINOLOGIA, MORFOLOGIA
E LINGÜÍSTICA DE CORPUS NA
EXTRAÇÃO SEMI-AUTOMÁTICA DE
TERMOS1
Gladis Maria de Barcellos Almeida*
Oto Araújo Vale**
O desenvolvimento tanto da Terminologia quanto
da Lingüística de Corpus tem motivado a mudança de
determinados procedimentos metodológicos na descrição
e/ou sistematização de terminologias. Um dos aspectos
mais perceptíveis verifica-se no momento da extração de
termos.
Quando a Terminologia não contava com recursos
computacionais, a extração de termos era feita
manualmente a partir de textos impressos. Após a extração
é que se fazia a descrição morfológica dos termos, com o
objetivo de observar os formantes mais produtivos de
determinada terminologia bem como os processos mais
recorrentes de formação de palavras. Isso, evidentemente,
atestava semelhanças e diferenças em relação aos padrões
morfológicos da língua geral, contribuindo, sem a menor
1
Os autores agradecem a Margarita Correia a leitura atenta e as sugestões
sempre pertinentes. Eventuais impropriedades são de responsabilidade
exclusiva dos autores.
*
Universidade Federal de São Carlos, Departamento de Letras,
[email protected]
**
Universidade Federal de São Carlos, Departamento de Letras,
[email protected].
483
dúvida, para os estudos morfológicos, lexicológicos e
mesmo terminológicos. Ao colocar os textos escritos num
formato eletrônico, como se vê hoje com os grandes
corpora terminológicos, uma nova situação se estabelece:
a possibilidade de extração de termos de forma semiautomática.
Dada a relativa facilidade de se obter textos já em
formato eletrônico a partir da Web, a compilação de
corpus nas pesquisas terminológicas tem sido cada vez
mais freqüente. Diante disso, há uma profusão hoje de
corpora terminológicos em projetos cujo objetivo é a
elaboração de dicionários ou glossários.
Após serem finalizadas todas as etapas que
envolvem o corpus (compilação, manipulação, anotação e
pré-processamento2), ele está pronto para ser objeto de
extração semi-automática de candidatos a termos. Os
candidatos constituem itens léxicos que se comportam nos
seus respectivos contextos como termos, mas cuja
autenticidade será validada posteriormente3.
Os sistemas de extração de candidatos são
tradicionalmente classificados conforme a metodologia
que utilizam para reconhecer as unidades terminológicas, a
saber: a) sistemas que utilizam apenas métodos baseados
em conhecimento estatístico; b) sistemas que utilizam
apenas métodos baseados em conhecimento lingüístico; e,
finalmente, c) sistemas que utilizam métodos baseados em
conhecimento estatístico e lingüístico, os chamados
híbridos (TELINE et al., 2003).
2
Sobre as etapas da construção de um corpus, ver ALUÍSIO e ALMEIDA,
2006.
3
A validação dos candidatos a termos pode ser feita das seguintes formas: 1)
pela comparação da lista de candidatos com uma lista de itens léxicos
provenientes de um corpus de referência (corpus da língua geral); 2) pela
submissão da lista de candidatos à análise de especialista(s) do domínio; 3)
pela utilização dos dois procedimentos seqüencialmente, ou seja, comparamse as listas e, após a comparação, submete-se o resultado à apreciação do(s)
especialista(s). Embora seja sempre recomendada a análise de especialista(s),
muitas vezes não se opta por esta última possibilidade por questões de tempo,
haja vista que esses profissionais normalmente não têm disponibilidade,
atrasando, portanto, o decurso do projeto.
484
Os métodos baseados em conhecimento estatístico
geralmente detectam as unidades terminológicas de acordo
com a freqüência com que elas ocorrem num corpus. Os
métodos estatísticos são dependentes do tamanho do
corpus que utilizam, diferentemente dos métodos
lingüísticos, mas, em compensação, não são dependentes
de língua.
Os sistemas baseados em conhecimento lingüístico
utilizam distintos recursos que contêm diferentes
informações lingüísticas4 para a extração dos termos. Este
tipo de conhecimento utilizado faz com que esses sistemas
sejam aplicados somente a uma língua e, às vezes, até
mesmo a uma única variante.
Os sistemas baseados em conhecimento híbrido
utilizam o conhecimento estatístico juntamente com o
lingüístico. A aplicação do conhecimento híbrido torna o
sistema mais eficiente, visto que ele integra ambos os
resultados (estatístico e lingüístico) (TELINE et al., 2003).
Dentre os três métodos de extração, os mais
eficientes são justamente os que dependem de
conhecimento lingüístico, conhecimento este que
constitui, sobretudo, uma exaustiva descrição morfológica
da terminologia em estudo, o que significa que se deve
proceder a essa descrição antes e durante a extração e não
depois, já que essa descrição será imprescindível para a
identificação dos candidatos a termos.
Nas terminologias5 que têm sido objeto de estudo,
constatou-se que há padrões morfológicos específicos. A
terminologia de Revestimento Cerâmico, por exemplo,
possui uma alta freqüência de lexias complexas (argila
refratária aluminosa, análise granulométrica por
peneiramento, resíduo em malha, etc.) e lexias simples
com determinados morfemas que podem servir como
identificadores de termos, como os sufixos derivacionais agem, -ção, -mento que podem indicar que o conceito
4
Essas informações lingüísticas constituem sistemas de classificação
morfológica, sintática, semântica, discursiva ou retórica.
5
Essas terminologias têm sido estudadas pelo Grupo de Estudos e Pesquisas
em Terminologia (GETerm), sediado na Universidade Federal de São Carlos
(UFSCar). Consulte-se o sítio www.geterm.ufscar.br.
485
veiculado é um processo: secagem, moagem, britagem,
ensilagem, etc; trituração, atomização, defloculação, etc;
peneiramento, destorroamento, envelhecimento, etc. Na
terminologia da Fisioterapia, o que é realmente produtivo
são as formações eruditas, já que essa terminologia tem
muitos termos emprestados da Medicina, ou seja, contém
termos cujos morfemas, tanto radicais quanto afixos, têm
origem grega ou latina, como por exemplo: artr(i/o)- (do
gr. árthron) – elemento de composição que significa
'juntura'; 'articulação': artralgia, artrectomia, artrite,
artrocentese, etc.; -óide (do gr. -(o)eîdos, pelo lat. cient. īdes) – sufixo que pode significar 'aspecto ou forma de',
'semelhante a', 'relativo a': deltóide, escafóide, articulação
elipsóide, articulação trocóide, etc.; -ose (do lat. cient. osis < gr. -ōsis) – sufixo muito produtivo na Anatomia e
na Medicina, utilizado para formar os substantivos de
diversos processos patológicos e doenças, agregando-se a
uma base que designa quer o órgão, quer parte dele:
artrose, aterosclerose, escoliose, hiperlordose, etc6.
A terminologia da Nanociência e Nanotecnologia7,
por sua vez, apresenta lexias simples e complexas,
entretanto, uma das características é a alta freqüência do
prefixo8 nano-9 (18.370 ocorrências num corpus de
2.565.490 palavras) em muitas unidades: nanocompósitos,
nanocristais,
nanoeletromecânicos,
nanossistema
biológico, nanopó cristalino, filme nanoestruturado,
6
As observações etimológicas referentes aos morfemas citados no texto foram
obtidas nos dicionários FERREIRA (2004) e HOUAISS e VILLAR (2001).
7
Terminologia elaborada no âmbito do projeto “Terminologia em Língua
Portuguesa da Nanociência e Nanotecnologia: Sistematização do Repertório
Vocabular e Elaboração de Dicionário-Piloto – NANOTERM”, coordenado
por Gladis Maria de Barcellos Almeida, com apoio do CNPq (cf. COLETI et
al., 2007).
8
Foram encontradas no corpus alguns casos em que o formante nano ocorre
na posição de base, tais como: escala micro-nano, dispositivos plasmo-nano,
catenano, etc.
9
O prefixo nano- é assim definido pelo dicionário Houaiss (HOUAISS e
VILLAR, 2001): “nano-: do SI, simbolizado por n, do gr. nánnos,é,on 'de
excessiva pequenez' ou nânos 'anão', adotado na 11ª Conferência Geral de
Pesos e Medidas, de 1960 (resolução nº 12), equivalente a um multiplicador
10-9, ou seja, milésimo milionésimo (na nomenclatura tradicional brasileira
bilionésimo) da unidade indicada.”
486
nanotubo de carbono, nanopartícula de dióxido de titânio,
imunonanoconchas, etc.10
Segundo Alves (1994), “a derivação prefixal é um
processo extremamente produtivo no português
contemporâneo. Ao unir-se a uma base, o prefixo exerce a
função de acrescentar-lhe variados significados:
‘grandeza, exagero, oposição, pequenez, repetição...’”
(ALVES, 1994, p. 14-15), confirmando, pois, a hipótese
da autora de que “os formantes prefixais constituem
microssistemas significativos em que cada prefixo tem seu
valor semântico delimitado em relação aos demais”
(ALVES, 2000, p. 307). A propósito da produtividade
desse prefixo, vale ressaltar a presença de itens léxicos
cujo prefixo não significa necessariamente “equivalente a
um multiplicador 10-9, ou seja, milésimo milionésimo (...)
da unidade indicada” (HOUAISS e VILLAR, 2001),
conforme explicitado na nota 9. Nos itens nanoartesanato,
nanopadronização,
nanoperiodicidade,
nanovitória,
nanopreocupação, o prefixo significa ‘de tamanho
reduzido’ ou ‘muito pequeno’. De fato, observa-se o traço
“tamanho reduzido” da base prefixada, mas não
necessariamente uma redução da ordem de um
bilionésimo. Já em itens como nano-mania, nano-isso,
nano-aquilo,
o
prefixo
significa
‘relativo
à
Nanociência/Nanotecnologia’,
e
não
uma
‘mania/isso/aquilo de tamanho reduzido’.
Procura-se aqui demonstrar a utilidade da
utilização do conhecimento lingüístico, em particular da
morfologia, na identificação de candidatos a termos. Para
tanto, a utilização de um software que permita a
incorporação desse conhecimento mostra-se bastante
proveitosa.
A manipulação do corpus foi feita utilizando-se o
software Unitex11, desenvolvido na Universidade MarneLa-Vallée (França) por Sébastien Paumier (PAUMIER,
2002). O Unitex consiste num conjunto de programas que
10
Todos
os
exemplos
referentes
à
terminologia
da
Nanociência/Nanotecnologia, os quais ilustram este artigo, foram retirados do
corpus do projeto NANOTERM, já citado na nota 7.
11
http://www-igm.univ-mlv.fr/~unitex/.
487
permite o processamento de grandes quantidades de
textos, em diversas línguas. Na versão 2.0, o Unitex tem
módulos para o alemão, coreano, espanhol, finlandês,
francês, grego antigo, grego moderno, inglês, italiano,
norueguês, polonês, português do Brasil, português
europeu, russo, sérvio (tanto com o alfabeto cirílico quanto
com o latino) e tailandês.
Uma característica que o diferencia de outros
programas que trabalham com corpus (como, por
exemplo, o WordSmith Tools) é o fato de o Unitex
funcionar com base em dicionários eletrônicos de cada
uma das línguas que o integram. Para o português do
Brasil, o Unitex traz um dicionário eletrônico bastante
extenso – cerca de 67.500 formas canônicas (ou lemas),
880 mil formas flexionadas e 4.500 formas compostas
com hífen – que foi construído por Muniz (2004) a partir
do léxico do Núcleo Interinstitucional de Lingüística
Computacional (NILC), sediado na Universidade de São
Paulo (USP), campus de São Carlos (SP, Brasil).
Além disso, o programa também permite que
qualquer usuário crie seus próprios dicionários, integrando
novas unidades lexicais ou, ainda, acrescentando novas
informações morfológicas, sintáticas e semânticas ao
léxico já existente ou ainda gerando novas formas a partir
de uma forma canônica.
Esses dicionários possibilitam ao usuário do
programa a realização de buscas pela forma exata, pela
forma canônica e também pelas categorias gramaticais.
Além disso, o programa permite a combinação desse tipo
de busca com a busca por formantes. Essas características
fazem com que o Unitex possa ser particularmente útil em
buscas de construções complexas.
Outra característica dessas buscas é o fato de elas
poderem ser realizadas tanto por expressões regulares
quanto por grafos, os quais podem ser desenhados pelos
utilizadores, como se verá mais adiante. Assim, podem-se
realizar buscas extremamente complexas em corpora.
No trabalho que aqui se apresenta, foram utilizados
alguns desses mecanismos de busca que se mostram
particularmente úteis na busca de candidatos a termos.
488
Uma primeira observação foi a de que o prefixo
nano- pode figurar como forma presa (unindo-se a uma
base com ou sem hífen) e como forma livre, e pode
exercer as funções de substantivo e de adjetivo.
Observem-se os exemplos:
◈
substantivo – nano-segregação, nanopartículas; e
ocorrendo como forma livre: Estima-se também que
sejam criados mais de cinco milhões de empregos em
“nano” nos próximos cinco anos.
◈
adjetivo – material nanocristalino, sistema
nanoeletromecânico; e ocorrendo como forma livre:
escala nano, ou ainda: Para 2014, recente estudo
internacional aponta que o mercado de produtos
“nano” será de cerca de US$ 2,3 trilhões
Para a identificação de todos os termos que
continham o prefixo nano-, utilizou-se uma série de
expressões de busca no Unitex, pois se constatou que a
digitação da expressão de busca nano recuperava apenas
os segmentos autônomos no singular ou derivados com
hífen, excluindo-se todas as demais ocorrências em que o
prefixo se une a uma base sem hífen. Iniciou-se, então,
pela expressão de busca <<nano>>. No Unitex, colocar
uma forma entre o conjunto de sinais ‘<<’ e ‘>>’
possibilita a busca por formantes. Essa sintaxe12 permite
que o programa recupere todas as ocorrências da forma
nano, tanto no singular quanto no plural (...foi uma das
mais práticas no sentido da fabricação de fibras nano bem
como a composição de componentes nanos em fibras e
materiais têxteis em geral); como as formas em que o
prefixo se une à base sem hífen (nanocondutor,
nanodispositivo, nanoencapsulado, etc) e ainda os casos
em que o morfema nano não aparece na posição inicial do
segmento ou não atua como prefixo, como nos exemplos:
bionanorrobô, bionanotecnologia, catenano.
Foram testadas, ainda, outras expressões de busca
para confirmar a presença/ausência de segmentos verbais
iniciados pelo prefixo nano-. Para essa busca, criaram-se
12
No âmbito deste artigo, o termo sintaxe está sendo utilizado como sinônimo
de expressão complexa de busca.
489
as
sintaxes:
<<nano.*ar$>>,
<<nano.*er$>>,
<<nano.*ir$>>, que permitiriam encontrar todas as
possíveis ocorrências de unidades lexicais simples
iniciadas por nano- e terminadas em -ar, em -er ou em -ir,
respectivamente. O intuito era identificar possíveis formas
verbais no infinitivo iniciadas por nano-. Constatou-se que
não há no corpus ocorrências de verbos no infinitivo
iniciados por nano-.
Decidiu-se observar se esses possíveis verbos
poderiam estar nominalizados, para tanto, criaram-se
várias expressões de busca. A primeira teve como objetivo
observar as formas no particípio, para isso, criou-se a
sintaxe (<<nano.*ad.$>>+<<nano.*ad..$>>), que permite
buscar todos os itens iniciados por nano- cujo segmento
final contenha ‘ad’ seguido de uma ou duas letras, de
maneira a contemplar as ocorrências no singular e no
plural. Obtiveram-se 888 ocorrências, confirmando a
existência de formas verbais nominalizadas, realizadas ou
como particípio com função adjetiva, nesse caso
integrando lexias complexas, tais como material
nanoparticulado, superfície nanofabricada, fertilizante
nanoencapsulado, etc.; ou como substantivos, como por
exemplo, nanolaminado:
A estudante Ruxandra Costescu,
professor David Cahill, construiu
de diversos materiais refratários
novo material composto a
nanolaminados.
orientada pelo
nanolaminados
e construiu um
partir desses
Ressalte-se, entretanto, que essa expressão de
busca ((<<nano.*ad.$>>+<<nano.*ad..$>>)) também
resultou na identificação de itens como nanocamada,
nanocavidade, nanocristalinidade, nanoperiodicidade,
nanomanipulador, nanoindentador, etc.
Utilizaram-se, em seguida, as expressões
<<nano.*agem$>>; <<nano.*ão$>>; <<nano.*mento$>>
para averiguar as nominalizações terminadas pelos sufixos
490
-agem, -ão e -mento, uma vez que elas se revelaram muito
produtivas na terminologia de Revestimento Cerâmico.
Todavia, encontrou-se um número pouco representativo de
substantivos de processos terminados por -agem e -mento
no corpus do NANOTERM, com exceção dos
substantivos terminados em -ão. Observem-se os
resultados:
nenhuma ocorrência com o sufixo -agem; note-se,
entretanto, que a busca por <<nano.*agens$>>
encontrou 1 único exemplo: nanoengrenagens;
216 ocorrências com o sufixo -ão: nanocristalização,
nanodifusão, nanofabricação, nanomanipulação, etc.,
todavia, neste total estão inclusos casos de itens
léxicos que não se constituem deverbais, tais como:
nanocomputação, nanodiapasão, nanodimensão,
nanoemulsão, nanogrão. Ressalte-se que a busca pela
forma no plural recuperou 36 ocorrências, das quais
pelo menos 4 também não são deverbais:
nanopadrões,
nanobastões,
nanopreocupações,
nanosoluções;
apenas 9 ocorrências de -mento, assim divididas:
nanobioprocessamento
(duas
ocorrências);
nanoencapsulamento
(três
ocorrências),
nanorevestimento (sem hífen e grafado com apenas um
‘r’, com três ocorrências), nanorrolamento (sem hífen
e grafado com dois ‘r’, com uma ocorrência).
Além de identificar os termos que continham o
prefixo nano-, era preciso selecionar outros itens léxicos
que, apesar de não conterem tal prefixo, também se
constituíam termos13, sobretudo as lexias complexas.
Iniciaram-se, então, as análises morfológicas que
subsidiaram a identificação de mais candidatos.
Partiu-se da lista de freqüência, isto é,
selecionaram-se os itens léxicos mais freqüentes e, com
eles,
organizaram-se
expressões
de
buscas
morfologicamente motivadas, de forma a observar no
13
Ressalte-se que os termos sem o prefixo nano- e com apenas uma unidade
(unigrama) puderam ser obtidos pela lista de freqüência.
491
concordanciador se tais expressões de fato identificavam
termos.
Excluindo-se os itens léxicos que de fato não
constituem termos, tais como artigos, preposições,
conjunções, pronomes, advérbios, nomes próprios,
determinados substantivos (país, instituto, exemplo, etc),
determinados adjetivos (novo, bom, etc.) e determinados
verbos (sobretudo os modais), selecionaram-se os itens
léxicos mais freqüentes. Para efeito deste artigo,
apresentar-se-ão as expressões de busca e os resultados
obtidos com o item léxico material (com 7.198
ocorrências). Em seguida, a título de ilustração, serão
exibidos exemplos dos itens léxicos: processo (5.496
ocorrências), sistema (4.735 ocorrências), amostra (6.520
ocorrências), estrutura (3.926 ocorrências), propriedade
(2.739 ocorrências) e tecnologia (2.847 ocorrências).
Inicialmente a busca foi feita com <material>14. A
partir dos resultados obtidos no concordanciador,
observou-se que o item léxico material (substantivo ou N,
de acordo com o Unitex) ocorre na posição de base da
lexia complexa, seguido de um adjetivo (A) ou um de um
sintagma preposicionado. Observe-se a tela do
concordanciador na figura 1.
14
No Unitex, pode-se efetuar uma busca pela forma canônica, bastando
colocá-la entre os sinais “<” e “>”. No caso, a busca por <material> permite
encontrar material e materiais. A busca por <A>, <N> e <V> encontra
qualquer adjetivo, substantivo ou verbo presentes nos dicionários carregados
junto com o programa. A busca por <DIC> tem como resultado qualquer
palavra que esteja no dicionário, enquanto que a busca por <!DIC> encontra
todas seqüências de letras que não estejam nos dicionários incorporados.
492
Figura 1: Resultado das concordâncias com o item léxico material
Assim, as próximas buscas foram realizadas com
as sintaxes:
<material><A>: item léxico ‘material’ lematizado, que
recupera formas no singular e no plural, seguido de
adjetivo. A expressão recuperou 1.989 ocorrências –
materiais amorfos, materiais luminescentes, materiais
moleculares, etc;
<material><!DIC>: item léxico material lematizado
seguido de qualquer item léxico inexistente no
dicionário do Unitex. A expressão recuperou 722
ocorrências, tais como – material adsorvente,
materiais biocerâmicos, materiais eletródicos,
materiais ferrelétricos, etc. Neste caso, trata-se de
493
palavras que não se encontram incorporadas ao
dicionário do Unitex;
<material>de<!DIC><A>: item léxico material
lematizado, seguido de um sintagma preposicionado
(preposição ‘de’ + qualquer item inexistente no
dicionário do Unitex), mais adjetivo. Essa expressão
não se mostrou produtiva, pois recuperou apenas 2
ocorrências – materiais de dimensäes muito e
materiais de dimensäes normais. Observa-se aqui um
problema de compilação do próprio corpus, já que o
item ‘dimensões’ está grafado com erro fazendo com
que o Unitex não reconheça essa unidade a ponto de
incorporá-la na lista de palavras inexistentes em seu
dicionário. Observe-se também que na anotação do
programa o item léxico ‘muito’ é também classificado
como adjetivo, gerando um dos erros acima;
<material>de<N>: item léxico material lematizado
seguido de um sintagma preposicionado (preposição
‘de’ + substantivo). A expressão recuperou 353
ocorrências – material de eletrodo, material de
enchimento, etc. Entretanto, recuperou muitas lexias
que não se comportam como candidatos a termos:
material de alta, material de baixa, material de
consumo, material de estudo, material de uso, etc.
<material>de<N><A>:
item
léxico
material
lematizado, seguido de um sintagma preposicionado
(preposição ‘de’ + substantivo), mais adjetivo. A
expressão recuperou 127 ocorrências – material de
banca direita, material de cor escura, material de cor
amarela, material de filme fino, etc. Todavia, essa
expressão recuperou também muitas lexias que não se
comportam como candidatos a termos, como no caso
anterior: material de consumo encontrado, materiais
de modo curioso, cujo contexto de ocorrência é
cientistas andam lidando com a física de materiais de
modo curioso;
<material>de<N><!DIC>: item léxico material
lematizado, seguido de um sintagma preposicionado
(preposição ‘de’ + substantivo), mais qualquer item
inexistente no dicionário do Unitex. Essa expressão
494
recuperou apenas 3 ocorrências – materiais de
compostos III-V, materiais de fase perovskita e
materiais de símbolos Å.
Além dessa possibilidade de fazer buscas pela
digitação das sintaxes acima, uma de cada vez, é possível
também unir todas as possibilidades acima em uma única
expressão regular, que no caso teria a forma:
(<material>).(<A>+<!DIC>+de<!DIC>+de<N>+de<N><!DIC>+
de<!DIC><A>+de<N><A>)
Expressões como essa tendem a se tornar
extremamente complexas e difíceis de serem manipuladas,
dependendo do tipo de busca que se efetua. O Unitex
possibilita colocar esse tipo de expressão de busca num
único grafo que pode ser facilmente desenhado pelo
usuário. Observe-se, na Figura 2, o grafo elaborado para a
identificação de lexias complexas cuja base é ‘material’,
que corresponde à expressão regular explicitada acima:
Figura 2: Grafo de busca das combinações de material
Esse grafo é um autômato de estado finito e pode
ser lido da esquerda para a direita, seguindo-se os
caminhos que ligam as caixas entre si.
A diferença na utilização do grafo em vez das
expressões isoladas de busca é que todos os resultados são
apresentados numa única tela do concordanciador. No
caso de um corpus grande (como é o caso deste com
495
2.565.490 palavras), essa operação pode tornar-se mais
lenta.
As mesmas sintaxes de busca apresentadas acima
para o item ‘material’ foram utilizadas para os itens
processo, sistema, amostra, estrutura, propriedade e
tecnologia. Observe-se, na tabela 1 a seguir, cada sintaxe
seguida do número de ocorrências:
Sintaxes
Ocorrências
(<processo>).(<A>+<!DIC>+de<!DIC>+de<N>+
de<N><!DIC>+de<!DIC><A>+de<N><A>)
(<sistema>).(<A>+<!DIC>+de<!DIC>+de<N>+d
e<N><!DIC>+de<!DIC><A>+de<N><A>)
(<amostra>).(<A>+<!DIC>+de<!DIC>+de<N>+d
e<N><!DIC>+de<!DIC><A>+de<N><A>)
(<estrutura>).(<A>+<!DIC>+de<!DIC>+de<N>
+de<N><!DIC>+de<!DIC><A>+de<N><A>)
(<propriedade>).(<A>+<!DIC>+de<!DIC>+de<
N>+de<N><!DIC>+de<!DIC><A>+de<N><A>)
(<tecnologia>).(<A>+<!DIC>+de<!DIC>+de<N
>+de<N><!DIC>+de<!DIC><A>+de<N><A>)
4.071
3.041
2.546
2.099
2.012
1.051
Tabela 1: Sintaxes de busca e respectivas ocorrências
Apresenta-se, na tabela 2, um exemplo de cada
item léxico obtido para cada expressão de busca. Na
coluna 1, são apresentadas as expressões de busca,
tomando-se o ‘X’ como cada um dos itens léxicos
apresentados nas colunas subseqüentes.
496
Itens lexicais pesquisados
processo
sistema
amostra
estrutura
Proprie
dade
tecnologia
X><A>
processo
corrosivo
sistema
capilar
amostra
aglomerada
estrutura
amorfa
Propriedade
bactericida
tecnologia
aeroespacial
X><!DIC>
processo
catalítico
sistema
agroalimentar
amostra
pirolisada
estrutura
dendrítica
Propriedade
fotoativa
tecnologia
MEMS
X>de<!DI
C><A>
processo de
citrato
amorfo
sistema
de
freagem
regenerativo
amostras de
preformas
porosas
estruturas
de
nanotubos
suspensas
propriedades de
intervalência
metálica
tecnologia
de
microcanais
inteligentes
processo de
acoplamento
sistema
de espectroscopia
amostra de
acompanhamento
estruturas
de
multicamadas
propriedade de
autoafinidade
tecnologias
de recobrimento
processos
de terapia
celular
sistemas
de feixes
combinados
amostras de
diamante
nitrogenado
estrutura
de rede
casada
proprieda
des de
chaveame
nto
molecular
tecnologia
de plasmas
frios
processo de
realinhamento
cristalográfico
sistemas
de servomecanismos
avançados
amostras de
cobalto
eletrodepositado
estruturas
de
carbono
diamantífero
proprieda
de de
anisotropia
magnetocristalina
tecnologia
de tecido
non-woven
sintaxes
de busca
X>de<N>
X>de<N>
<A>
X>de<N>
<!DIC>
Tabela 1: Exemplos de candidatos a termos obtidos a partir das
sintaxes
Esse tipo de busca, como se observou, pode ser
uma boa ferramenta para a listagem de candidatos a
termos. Entretanto, o sucesso dessa busca pode ser
determinado pela qualidade dos recursos lingüísticos que
servem de base para ela.
Considerações finais
Abordou-se neste artigo a pertinência da descrição
morfológica para a extração de terminologias num cenário
em que há corpus em formato eletrônico. Para isso, foram
citados os métodos de extração de termos, com especial
ênfase para os que utilizam conhecimento lingüístico, com
497
destaque para a Morfologia; logo após, foram realizadas
demonstrações utilizando o programa Unitex no corpus do
projeto NANOTERM, de forma a atestar na prática o
estreito vínculo entre Terminologia, Morfologia e
Lingüística de Corpus.
Observa-se, a partir dessas demonstrações, que
cada terminologia tem suas estruturas morfológicas
características, o que exige uma descrição pormenorizada
dessas estruturas para o sucesso de uma extração que faça
uso de conhecimento lingüístico. Nesse sentido, cria-se
um processo iterativo e dinâmico: a partir da observação
dos termos no corpus, é possível descrever a sua
morfologia e, a partir dessa descrição morfológica,
extraem-se mais termos, de forma cada vez mais eficiente,
o que revela a pertinência da Morfologia para a geração de
terminologias.
REFERÊNCIAS
ALVES, I. M. Neologismo: Criação lexical. 2a.ed. São
Paulo: Ática, 1994.
ALVES, I. M. Um estudo sobre a neologia lexical: os
microssistemas prefixais do português contemporâneo.
Tese de Livre-Docência. São Paulo: USP, 2000.
ALUÍSIO, S.M.; ALMEIDA, G.M.B. O que é e como se
constrói um corpus? Lições aprendidas na compilação de
vários corpora para pesquisa lingüística. Calidoscópio
(UNISINOS). Vol. 4, n. 3 , p. 155-177, set/dez 2006.
Disponível
em:
http://www.unisinos.br/publicacoes_cientificas/images/sto
ries/pdfs_calidoscopio/vol4n3/art04_aluisio.pdf
COLETI, J.S. et al. Compilação de corpus em língua
portuguesa na área de Nanociência/Nanotecnologia:
problemas e soluções. Anais do VI Encontro de
Lingüística de Corpus. USP – São Paulo, 6 e 7 de
setembro
de
2007.
Disponível
em:
http://www.nilc.icmc.usp.br/viencontro/anais.htm
FERREIRA, A.B.H. Novo Dicionário Eletrônico Aurélio,
versão 5.0. Curitiba: Positivo Informática Ltda., 2004.
498
HOUAISS, A.; VILLAR, M. S. Dicionário Houaiss da
língua portuguesa. Rio de Janeiro: Objetiva, 2001.
MUNIZ, M. C. M. A construção de recursos lingüísticocomputacionais para o português do Brasil: o projeto de
Unitex-PB. Dissertação de Mestrado. Instituto de Ciências
Matemáticas de São Carlos, USP. 72p. 2004.
PAUMIER, S. Unitex user manual. disponível em:
http://www-igm.univ-mlv.fr/~unitex. 2002.
TELINE, M.F.; ALMEIDA, G.M.B.; ALUÍSIO, S.M.
Extração manual e automática de terminologia:
comparando abordagens e critérios . In: 1o. Workshop em
Tecnologia da Informação e da Linguagem Humana,
2003, São Carlos. Anais do TIL'2003, 2003.
499