Do texto ao termo - GETerm - Universidade Federal de São Carlos
Transcrição
Do texto ao termo - GETerm - Universidade Federal de São Carlos
ALMEIDA, G. M. B.; VALE, O. A. Do texto ao termo: interação entre Terminologia, Morfologia e Linguística de Corpus na extração semi-automática de termos. In: ISQUERDO, Aparecida Negri; FINATTO, Maria José Bocorny. (Orgs.). As ciências do Léxico: Lexicologia, Lexicografia e Terminologia. 1 ed. Campo Grande: Editora da UFMS, 2008, v. IV, p. 483-499. DO TEXTO AO TERMO: INTERAÇÃO ENTRE TERMINOLOGIA, MORFOLOGIA E LINGÜÍSTICA DE CORPUS NA EXTRAÇÃO SEMI-AUTOMÁTICA DE TERMOS1 Gladis Maria de Barcellos Almeida* Oto Araújo Vale** O desenvolvimento tanto da Terminologia quanto da Lingüística de Corpus tem motivado a mudança de determinados procedimentos metodológicos na descrição e/ou sistematização de terminologias. Um dos aspectos mais perceptíveis verifica-se no momento da extração de termos. Quando a Terminologia não contava com recursos computacionais, a extração de termos era feita manualmente a partir de textos impressos. Após a extração é que se fazia a descrição morfológica dos termos, com o objetivo de observar os formantes mais produtivos de determinada terminologia bem como os processos mais recorrentes de formação de palavras. Isso, evidentemente, atestava semelhanças e diferenças em relação aos padrões morfológicos da língua geral, contribuindo, sem a menor 1 Os autores agradecem a Margarita Correia a leitura atenta e as sugestões sempre pertinentes. Eventuais impropriedades são de responsabilidade exclusiva dos autores. * Universidade Federal de São Carlos, Departamento de Letras, [email protected] ** Universidade Federal de São Carlos, Departamento de Letras, [email protected]. 483 dúvida, para os estudos morfológicos, lexicológicos e mesmo terminológicos. Ao colocar os textos escritos num formato eletrônico, como se vê hoje com os grandes corpora terminológicos, uma nova situação se estabelece: a possibilidade de extração de termos de forma semiautomática. Dada a relativa facilidade de se obter textos já em formato eletrônico a partir da Web, a compilação de corpus nas pesquisas terminológicas tem sido cada vez mais freqüente. Diante disso, há uma profusão hoje de corpora terminológicos em projetos cujo objetivo é a elaboração de dicionários ou glossários. Após serem finalizadas todas as etapas que envolvem o corpus (compilação, manipulação, anotação e pré-processamento2), ele está pronto para ser objeto de extração semi-automática de candidatos a termos. Os candidatos constituem itens léxicos que se comportam nos seus respectivos contextos como termos, mas cuja autenticidade será validada posteriormente3. Os sistemas de extração de candidatos são tradicionalmente classificados conforme a metodologia que utilizam para reconhecer as unidades terminológicas, a saber: a) sistemas que utilizam apenas métodos baseados em conhecimento estatístico; b) sistemas que utilizam apenas métodos baseados em conhecimento lingüístico; e, finalmente, c) sistemas que utilizam métodos baseados em conhecimento estatístico e lingüístico, os chamados híbridos (TELINE et al., 2003). 2 Sobre as etapas da construção de um corpus, ver ALUÍSIO e ALMEIDA, 2006. 3 A validação dos candidatos a termos pode ser feita das seguintes formas: 1) pela comparação da lista de candidatos com uma lista de itens léxicos provenientes de um corpus de referência (corpus da língua geral); 2) pela submissão da lista de candidatos à análise de especialista(s) do domínio; 3) pela utilização dos dois procedimentos seqüencialmente, ou seja, comparamse as listas e, após a comparação, submete-se o resultado à apreciação do(s) especialista(s). Embora seja sempre recomendada a análise de especialista(s), muitas vezes não se opta por esta última possibilidade por questões de tempo, haja vista que esses profissionais normalmente não têm disponibilidade, atrasando, portanto, o decurso do projeto. 484 Os métodos baseados em conhecimento estatístico geralmente detectam as unidades terminológicas de acordo com a freqüência com que elas ocorrem num corpus. Os métodos estatísticos são dependentes do tamanho do corpus que utilizam, diferentemente dos métodos lingüísticos, mas, em compensação, não são dependentes de língua. Os sistemas baseados em conhecimento lingüístico utilizam distintos recursos que contêm diferentes informações lingüísticas4 para a extração dos termos. Este tipo de conhecimento utilizado faz com que esses sistemas sejam aplicados somente a uma língua e, às vezes, até mesmo a uma única variante. Os sistemas baseados em conhecimento híbrido utilizam o conhecimento estatístico juntamente com o lingüístico. A aplicação do conhecimento híbrido torna o sistema mais eficiente, visto que ele integra ambos os resultados (estatístico e lingüístico) (TELINE et al., 2003). Dentre os três métodos de extração, os mais eficientes são justamente os que dependem de conhecimento lingüístico, conhecimento este que constitui, sobretudo, uma exaustiva descrição morfológica da terminologia em estudo, o que significa que se deve proceder a essa descrição antes e durante a extração e não depois, já que essa descrição será imprescindível para a identificação dos candidatos a termos. Nas terminologias5 que têm sido objeto de estudo, constatou-se que há padrões morfológicos específicos. A terminologia de Revestimento Cerâmico, por exemplo, possui uma alta freqüência de lexias complexas (argila refratária aluminosa, análise granulométrica por peneiramento, resíduo em malha, etc.) e lexias simples com determinados morfemas que podem servir como identificadores de termos, como os sufixos derivacionais agem, -ção, -mento que podem indicar que o conceito 4 Essas informações lingüísticas constituem sistemas de classificação morfológica, sintática, semântica, discursiva ou retórica. 5 Essas terminologias têm sido estudadas pelo Grupo de Estudos e Pesquisas em Terminologia (GETerm), sediado na Universidade Federal de São Carlos (UFSCar). Consulte-se o sítio www.geterm.ufscar.br. 485 veiculado é um processo: secagem, moagem, britagem, ensilagem, etc; trituração, atomização, defloculação, etc; peneiramento, destorroamento, envelhecimento, etc. Na terminologia da Fisioterapia, o que é realmente produtivo são as formações eruditas, já que essa terminologia tem muitos termos emprestados da Medicina, ou seja, contém termos cujos morfemas, tanto radicais quanto afixos, têm origem grega ou latina, como por exemplo: artr(i/o)- (do gr. árthron) – elemento de composição que significa 'juntura'; 'articulação': artralgia, artrectomia, artrite, artrocentese, etc.; -óide (do gr. -(o)eîdos, pelo lat. cient. īdes) – sufixo que pode significar 'aspecto ou forma de', 'semelhante a', 'relativo a': deltóide, escafóide, articulação elipsóide, articulação trocóide, etc.; -ose (do lat. cient. osis < gr. -ōsis) – sufixo muito produtivo na Anatomia e na Medicina, utilizado para formar os substantivos de diversos processos patológicos e doenças, agregando-se a uma base que designa quer o órgão, quer parte dele: artrose, aterosclerose, escoliose, hiperlordose, etc6. A terminologia da Nanociência e Nanotecnologia7, por sua vez, apresenta lexias simples e complexas, entretanto, uma das características é a alta freqüência do prefixo8 nano-9 (18.370 ocorrências num corpus de 2.565.490 palavras) em muitas unidades: nanocompósitos, nanocristais, nanoeletromecânicos, nanossistema biológico, nanopó cristalino, filme nanoestruturado, 6 As observações etimológicas referentes aos morfemas citados no texto foram obtidas nos dicionários FERREIRA (2004) e HOUAISS e VILLAR (2001). 7 Terminologia elaborada no âmbito do projeto “Terminologia em Língua Portuguesa da Nanociência e Nanotecnologia: Sistematização do Repertório Vocabular e Elaboração de Dicionário-Piloto – NANOTERM”, coordenado por Gladis Maria de Barcellos Almeida, com apoio do CNPq (cf. COLETI et al., 2007). 8 Foram encontradas no corpus alguns casos em que o formante nano ocorre na posição de base, tais como: escala micro-nano, dispositivos plasmo-nano, catenano, etc. 9 O prefixo nano- é assim definido pelo dicionário Houaiss (HOUAISS e VILLAR, 2001): “nano-: do SI, simbolizado por n, do gr. nánnos,é,on 'de excessiva pequenez' ou nânos 'anão', adotado na 11ª Conferência Geral de Pesos e Medidas, de 1960 (resolução nº 12), equivalente a um multiplicador 10-9, ou seja, milésimo milionésimo (na nomenclatura tradicional brasileira bilionésimo) da unidade indicada.” 486 nanotubo de carbono, nanopartícula de dióxido de titânio, imunonanoconchas, etc.10 Segundo Alves (1994), “a derivação prefixal é um processo extremamente produtivo no português contemporâneo. Ao unir-se a uma base, o prefixo exerce a função de acrescentar-lhe variados significados: ‘grandeza, exagero, oposição, pequenez, repetição...’” (ALVES, 1994, p. 14-15), confirmando, pois, a hipótese da autora de que “os formantes prefixais constituem microssistemas significativos em que cada prefixo tem seu valor semântico delimitado em relação aos demais” (ALVES, 2000, p. 307). A propósito da produtividade desse prefixo, vale ressaltar a presença de itens léxicos cujo prefixo não significa necessariamente “equivalente a um multiplicador 10-9, ou seja, milésimo milionésimo (...) da unidade indicada” (HOUAISS e VILLAR, 2001), conforme explicitado na nota 9. Nos itens nanoartesanato, nanopadronização, nanoperiodicidade, nanovitória, nanopreocupação, o prefixo significa ‘de tamanho reduzido’ ou ‘muito pequeno’. De fato, observa-se o traço “tamanho reduzido” da base prefixada, mas não necessariamente uma redução da ordem de um bilionésimo. Já em itens como nano-mania, nano-isso, nano-aquilo, o prefixo significa ‘relativo à Nanociência/Nanotecnologia’, e não uma ‘mania/isso/aquilo de tamanho reduzido’. Procura-se aqui demonstrar a utilidade da utilização do conhecimento lingüístico, em particular da morfologia, na identificação de candidatos a termos. Para tanto, a utilização de um software que permita a incorporação desse conhecimento mostra-se bastante proveitosa. A manipulação do corpus foi feita utilizando-se o software Unitex11, desenvolvido na Universidade MarneLa-Vallée (França) por Sébastien Paumier (PAUMIER, 2002). O Unitex consiste num conjunto de programas que 10 Todos os exemplos referentes à terminologia da Nanociência/Nanotecnologia, os quais ilustram este artigo, foram retirados do corpus do projeto NANOTERM, já citado na nota 7. 11 http://www-igm.univ-mlv.fr/~unitex/. 487 permite o processamento de grandes quantidades de textos, em diversas línguas. Na versão 2.0, o Unitex tem módulos para o alemão, coreano, espanhol, finlandês, francês, grego antigo, grego moderno, inglês, italiano, norueguês, polonês, português do Brasil, português europeu, russo, sérvio (tanto com o alfabeto cirílico quanto com o latino) e tailandês. Uma característica que o diferencia de outros programas que trabalham com corpus (como, por exemplo, o WordSmith Tools) é o fato de o Unitex funcionar com base em dicionários eletrônicos de cada uma das línguas que o integram. Para o português do Brasil, o Unitex traz um dicionário eletrônico bastante extenso – cerca de 67.500 formas canônicas (ou lemas), 880 mil formas flexionadas e 4.500 formas compostas com hífen – que foi construído por Muniz (2004) a partir do léxico do Núcleo Interinstitucional de Lingüística Computacional (NILC), sediado na Universidade de São Paulo (USP), campus de São Carlos (SP, Brasil). Além disso, o programa também permite que qualquer usuário crie seus próprios dicionários, integrando novas unidades lexicais ou, ainda, acrescentando novas informações morfológicas, sintáticas e semânticas ao léxico já existente ou ainda gerando novas formas a partir de uma forma canônica. Esses dicionários possibilitam ao usuário do programa a realização de buscas pela forma exata, pela forma canônica e também pelas categorias gramaticais. Além disso, o programa permite a combinação desse tipo de busca com a busca por formantes. Essas características fazem com que o Unitex possa ser particularmente útil em buscas de construções complexas. Outra característica dessas buscas é o fato de elas poderem ser realizadas tanto por expressões regulares quanto por grafos, os quais podem ser desenhados pelos utilizadores, como se verá mais adiante. Assim, podem-se realizar buscas extremamente complexas em corpora. No trabalho que aqui se apresenta, foram utilizados alguns desses mecanismos de busca que se mostram particularmente úteis na busca de candidatos a termos. 488 Uma primeira observação foi a de que o prefixo nano- pode figurar como forma presa (unindo-se a uma base com ou sem hífen) e como forma livre, e pode exercer as funções de substantivo e de adjetivo. Observem-se os exemplos: ◈ substantivo – nano-segregação, nanopartículas; e ocorrendo como forma livre: Estima-se também que sejam criados mais de cinco milhões de empregos em “nano” nos próximos cinco anos. ◈ adjetivo – material nanocristalino, sistema nanoeletromecânico; e ocorrendo como forma livre: escala nano, ou ainda: Para 2014, recente estudo internacional aponta que o mercado de produtos “nano” será de cerca de US$ 2,3 trilhões Para a identificação de todos os termos que continham o prefixo nano-, utilizou-se uma série de expressões de busca no Unitex, pois se constatou que a digitação da expressão de busca nano recuperava apenas os segmentos autônomos no singular ou derivados com hífen, excluindo-se todas as demais ocorrências em que o prefixo se une a uma base sem hífen. Iniciou-se, então, pela expressão de busca <<nano>>. No Unitex, colocar uma forma entre o conjunto de sinais ‘<<’ e ‘>>’ possibilita a busca por formantes. Essa sintaxe12 permite que o programa recupere todas as ocorrências da forma nano, tanto no singular quanto no plural (...foi uma das mais práticas no sentido da fabricação de fibras nano bem como a composição de componentes nanos em fibras e materiais têxteis em geral); como as formas em que o prefixo se une à base sem hífen (nanocondutor, nanodispositivo, nanoencapsulado, etc) e ainda os casos em que o morfema nano não aparece na posição inicial do segmento ou não atua como prefixo, como nos exemplos: bionanorrobô, bionanotecnologia, catenano. Foram testadas, ainda, outras expressões de busca para confirmar a presença/ausência de segmentos verbais iniciados pelo prefixo nano-. Para essa busca, criaram-se 12 No âmbito deste artigo, o termo sintaxe está sendo utilizado como sinônimo de expressão complexa de busca. 489 as sintaxes: <<nano.*ar$>>, <<nano.*er$>>, <<nano.*ir$>>, que permitiriam encontrar todas as possíveis ocorrências de unidades lexicais simples iniciadas por nano- e terminadas em -ar, em -er ou em -ir, respectivamente. O intuito era identificar possíveis formas verbais no infinitivo iniciadas por nano-. Constatou-se que não há no corpus ocorrências de verbos no infinitivo iniciados por nano-. Decidiu-se observar se esses possíveis verbos poderiam estar nominalizados, para tanto, criaram-se várias expressões de busca. A primeira teve como objetivo observar as formas no particípio, para isso, criou-se a sintaxe (<<nano.*ad.$>>+<<nano.*ad..$>>), que permite buscar todos os itens iniciados por nano- cujo segmento final contenha ‘ad’ seguido de uma ou duas letras, de maneira a contemplar as ocorrências no singular e no plural. Obtiveram-se 888 ocorrências, confirmando a existência de formas verbais nominalizadas, realizadas ou como particípio com função adjetiva, nesse caso integrando lexias complexas, tais como material nanoparticulado, superfície nanofabricada, fertilizante nanoencapsulado, etc.; ou como substantivos, como por exemplo, nanolaminado: A estudante Ruxandra Costescu, professor David Cahill, construiu de diversos materiais refratários novo material composto a nanolaminados. orientada pelo nanolaminados e construiu um partir desses Ressalte-se, entretanto, que essa expressão de busca ((<<nano.*ad.$>>+<<nano.*ad..$>>)) também resultou na identificação de itens como nanocamada, nanocavidade, nanocristalinidade, nanoperiodicidade, nanomanipulador, nanoindentador, etc. Utilizaram-se, em seguida, as expressões <<nano.*agem$>>; <<nano.*ão$>>; <<nano.*mento$>> para averiguar as nominalizações terminadas pelos sufixos 490 -agem, -ão e -mento, uma vez que elas se revelaram muito produtivas na terminologia de Revestimento Cerâmico. Todavia, encontrou-se um número pouco representativo de substantivos de processos terminados por -agem e -mento no corpus do NANOTERM, com exceção dos substantivos terminados em -ão. Observem-se os resultados: nenhuma ocorrência com o sufixo -agem; note-se, entretanto, que a busca por <<nano.*agens$>> encontrou 1 único exemplo: nanoengrenagens; 216 ocorrências com o sufixo -ão: nanocristalização, nanodifusão, nanofabricação, nanomanipulação, etc., todavia, neste total estão inclusos casos de itens léxicos que não se constituem deverbais, tais como: nanocomputação, nanodiapasão, nanodimensão, nanoemulsão, nanogrão. Ressalte-se que a busca pela forma no plural recuperou 36 ocorrências, das quais pelo menos 4 também não são deverbais: nanopadrões, nanobastões, nanopreocupações, nanosoluções; apenas 9 ocorrências de -mento, assim divididas: nanobioprocessamento (duas ocorrências); nanoencapsulamento (três ocorrências), nanorevestimento (sem hífen e grafado com apenas um ‘r’, com três ocorrências), nanorrolamento (sem hífen e grafado com dois ‘r’, com uma ocorrência). Além de identificar os termos que continham o prefixo nano-, era preciso selecionar outros itens léxicos que, apesar de não conterem tal prefixo, também se constituíam termos13, sobretudo as lexias complexas. Iniciaram-se, então, as análises morfológicas que subsidiaram a identificação de mais candidatos. Partiu-se da lista de freqüência, isto é, selecionaram-se os itens léxicos mais freqüentes e, com eles, organizaram-se expressões de buscas morfologicamente motivadas, de forma a observar no 13 Ressalte-se que os termos sem o prefixo nano- e com apenas uma unidade (unigrama) puderam ser obtidos pela lista de freqüência. 491 concordanciador se tais expressões de fato identificavam termos. Excluindo-se os itens léxicos que de fato não constituem termos, tais como artigos, preposições, conjunções, pronomes, advérbios, nomes próprios, determinados substantivos (país, instituto, exemplo, etc), determinados adjetivos (novo, bom, etc.) e determinados verbos (sobretudo os modais), selecionaram-se os itens léxicos mais freqüentes. Para efeito deste artigo, apresentar-se-ão as expressões de busca e os resultados obtidos com o item léxico material (com 7.198 ocorrências). Em seguida, a título de ilustração, serão exibidos exemplos dos itens léxicos: processo (5.496 ocorrências), sistema (4.735 ocorrências), amostra (6.520 ocorrências), estrutura (3.926 ocorrências), propriedade (2.739 ocorrências) e tecnologia (2.847 ocorrências). Inicialmente a busca foi feita com <material>14. A partir dos resultados obtidos no concordanciador, observou-se que o item léxico material (substantivo ou N, de acordo com o Unitex) ocorre na posição de base da lexia complexa, seguido de um adjetivo (A) ou um de um sintagma preposicionado. Observe-se a tela do concordanciador na figura 1. 14 No Unitex, pode-se efetuar uma busca pela forma canônica, bastando colocá-la entre os sinais “<” e “>”. No caso, a busca por <material> permite encontrar material e materiais. A busca por <A>, <N> e <V> encontra qualquer adjetivo, substantivo ou verbo presentes nos dicionários carregados junto com o programa. A busca por <DIC> tem como resultado qualquer palavra que esteja no dicionário, enquanto que a busca por <!DIC> encontra todas seqüências de letras que não estejam nos dicionários incorporados. 492 Figura 1: Resultado das concordâncias com o item léxico material Assim, as próximas buscas foram realizadas com as sintaxes: <material><A>: item léxico ‘material’ lematizado, que recupera formas no singular e no plural, seguido de adjetivo. A expressão recuperou 1.989 ocorrências – materiais amorfos, materiais luminescentes, materiais moleculares, etc; <material><!DIC>: item léxico material lematizado seguido de qualquer item léxico inexistente no dicionário do Unitex. A expressão recuperou 722 ocorrências, tais como – material adsorvente, materiais biocerâmicos, materiais eletródicos, materiais ferrelétricos, etc. Neste caso, trata-se de 493 palavras que não se encontram incorporadas ao dicionário do Unitex; <material>de<!DIC><A>: item léxico material lematizado, seguido de um sintagma preposicionado (preposição ‘de’ + qualquer item inexistente no dicionário do Unitex), mais adjetivo. Essa expressão não se mostrou produtiva, pois recuperou apenas 2 ocorrências – materiais de dimensäes muito e materiais de dimensäes normais. Observa-se aqui um problema de compilação do próprio corpus, já que o item ‘dimensões’ está grafado com erro fazendo com que o Unitex não reconheça essa unidade a ponto de incorporá-la na lista de palavras inexistentes em seu dicionário. Observe-se também que na anotação do programa o item léxico ‘muito’ é também classificado como adjetivo, gerando um dos erros acima; <material>de<N>: item léxico material lematizado seguido de um sintagma preposicionado (preposição ‘de’ + substantivo). A expressão recuperou 353 ocorrências – material de eletrodo, material de enchimento, etc. Entretanto, recuperou muitas lexias que não se comportam como candidatos a termos: material de alta, material de baixa, material de consumo, material de estudo, material de uso, etc. <material>de<N><A>: item léxico material lematizado, seguido de um sintagma preposicionado (preposição ‘de’ + substantivo), mais adjetivo. A expressão recuperou 127 ocorrências – material de banca direita, material de cor escura, material de cor amarela, material de filme fino, etc. Todavia, essa expressão recuperou também muitas lexias que não se comportam como candidatos a termos, como no caso anterior: material de consumo encontrado, materiais de modo curioso, cujo contexto de ocorrência é cientistas andam lidando com a física de materiais de modo curioso; <material>de<N><!DIC>: item léxico material lematizado, seguido de um sintagma preposicionado (preposição ‘de’ + substantivo), mais qualquer item inexistente no dicionário do Unitex. Essa expressão 494 recuperou apenas 3 ocorrências – materiais de compostos III-V, materiais de fase perovskita e materiais de símbolos Å. Além dessa possibilidade de fazer buscas pela digitação das sintaxes acima, uma de cada vez, é possível também unir todas as possibilidades acima em uma única expressão regular, que no caso teria a forma: (<material>).(<A>+<!DIC>+de<!DIC>+de<N>+de<N><!DIC>+ de<!DIC><A>+de<N><A>) Expressões como essa tendem a se tornar extremamente complexas e difíceis de serem manipuladas, dependendo do tipo de busca que se efetua. O Unitex possibilita colocar esse tipo de expressão de busca num único grafo que pode ser facilmente desenhado pelo usuário. Observe-se, na Figura 2, o grafo elaborado para a identificação de lexias complexas cuja base é ‘material’, que corresponde à expressão regular explicitada acima: Figura 2: Grafo de busca das combinações de material Esse grafo é um autômato de estado finito e pode ser lido da esquerda para a direita, seguindo-se os caminhos que ligam as caixas entre si. A diferença na utilização do grafo em vez das expressões isoladas de busca é que todos os resultados são apresentados numa única tela do concordanciador. No caso de um corpus grande (como é o caso deste com 495 2.565.490 palavras), essa operação pode tornar-se mais lenta. As mesmas sintaxes de busca apresentadas acima para o item ‘material’ foram utilizadas para os itens processo, sistema, amostra, estrutura, propriedade e tecnologia. Observe-se, na tabela 1 a seguir, cada sintaxe seguida do número de ocorrências: Sintaxes Ocorrências (<processo>).(<A>+<!DIC>+de<!DIC>+de<N>+ de<N><!DIC>+de<!DIC><A>+de<N><A>) (<sistema>).(<A>+<!DIC>+de<!DIC>+de<N>+d e<N><!DIC>+de<!DIC><A>+de<N><A>) (<amostra>).(<A>+<!DIC>+de<!DIC>+de<N>+d e<N><!DIC>+de<!DIC><A>+de<N><A>) (<estrutura>).(<A>+<!DIC>+de<!DIC>+de<N> +de<N><!DIC>+de<!DIC><A>+de<N><A>) (<propriedade>).(<A>+<!DIC>+de<!DIC>+de< N>+de<N><!DIC>+de<!DIC><A>+de<N><A>) (<tecnologia>).(<A>+<!DIC>+de<!DIC>+de<N >+de<N><!DIC>+de<!DIC><A>+de<N><A>) 4.071 3.041 2.546 2.099 2.012 1.051 Tabela 1: Sintaxes de busca e respectivas ocorrências Apresenta-se, na tabela 2, um exemplo de cada item léxico obtido para cada expressão de busca. Na coluna 1, são apresentadas as expressões de busca, tomando-se o ‘X’ como cada um dos itens léxicos apresentados nas colunas subseqüentes. 496 Itens lexicais pesquisados processo sistema amostra estrutura Proprie dade tecnologia X><A> processo corrosivo sistema capilar amostra aglomerada estrutura amorfa Propriedade bactericida tecnologia aeroespacial X><!DIC> processo catalítico sistema agroalimentar amostra pirolisada estrutura dendrítica Propriedade fotoativa tecnologia MEMS X>de<!DI C><A> processo de citrato amorfo sistema de freagem regenerativo amostras de preformas porosas estruturas de nanotubos suspensas propriedades de intervalência metálica tecnologia de microcanais inteligentes processo de acoplamento sistema de espectroscopia amostra de acompanhamento estruturas de multicamadas propriedade de autoafinidade tecnologias de recobrimento processos de terapia celular sistemas de feixes combinados amostras de diamante nitrogenado estrutura de rede casada proprieda des de chaveame nto molecular tecnologia de plasmas frios processo de realinhamento cristalográfico sistemas de servomecanismos avançados amostras de cobalto eletrodepositado estruturas de carbono diamantífero proprieda de de anisotropia magnetocristalina tecnologia de tecido non-woven sintaxes de busca X>de<N> X>de<N> <A> X>de<N> <!DIC> Tabela 1: Exemplos de candidatos a termos obtidos a partir das sintaxes Esse tipo de busca, como se observou, pode ser uma boa ferramenta para a listagem de candidatos a termos. Entretanto, o sucesso dessa busca pode ser determinado pela qualidade dos recursos lingüísticos que servem de base para ela. Considerações finais Abordou-se neste artigo a pertinência da descrição morfológica para a extração de terminologias num cenário em que há corpus em formato eletrônico. Para isso, foram citados os métodos de extração de termos, com especial ênfase para os que utilizam conhecimento lingüístico, com 497 destaque para a Morfologia; logo após, foram realizadas demonstrações utilizando o programa Unitex no corpus do projeto NANOTERM, de forma a atestar na prática o estreito vínculo entre Terminologia, Morfologia e Lingüística de Corpus. Observa-se, a partir dessas demonstrações, que cada terminologia tem suas estruturas morfológicas características, o que exige uma descrição pormenorizada dessas estruturas para o sucesso de uma extração que faça uso de conhecimento lingüístico. Nesse sentido, cria-se um processo iterativo e dinâmico: a partir da observação dos termos no corpus, é possível descrever a sua morfologia e, a partir dessa descrição morfológica, extraem-se mais termos, de forma cada vez mais eficiente, o que revela a pertinência da Morfologia para a geração de terminologias. REFERÊNCIAS ALVES, I. M. Neologismo: Criação lexical. 2a.ed. São Paulo: Ática, 1994. ALVES, I. M. Um estudo sobre a neologia lexical: os microssistemas prefixais do português contemporâneo. Tese de Livre-Docência. São Paulo: USP, 2000. ALUÍSIO, S.M.; ALMEIDA, G.M.B. O que é e como se constrói um corpus? Lições aprendidas na compilação de vários corpora para pesquisa lingüística. Calidoscópio (UNISINOS). Vol. 4, n. 3 , p. 155-177, set/dez 2006. Disponível em: http://www.unisinos.br/publicacoes_cientificas/images/sto ries/pdfs_calidoscopio/vol4n3/art04_aluisio.pdf COLETI, J.S. et al. Compilação de corpus em língua portuguesa na área de Nanociência/Nanotecnologia: problemas e soluções. Anais do VI Encontro de Lingüística de Corpus. USP – São Paulo, 6 e 7 de setembro de 2007. Disponível em: http://www.nilc.icmc.usp.br/viencontro/anais.htm FERREIRA, A.B.H. Novo Dicionário Eletrônico Aurélio, versão 5.0. Curitiba: Positivo Informática Ltda., 2004. 498 HOUAISS, A.; VILLAR, M. S. Dicionário Houaiss da língua portuguesa. Rio de Janeiro: Objetiva, 2001. MUNIZ, M. C. M. A construção de recursos lingüísticocomputacionais para o português do Brasil: o projeto de Unitex-PB. Dissertação de Mestrado. Instituto de Ciências Matemáticas de São Carlos, USP. 72p. 2004. PAUMIER, S. Unitex user manual. disponível em: http://www-igm.univ-mlv.fr/~unitex. 2002. TELINE, M.F.; ALMEIDA, G.M.B.; ALUÍSIO, S.M. Extração manual e automática de terminologia: comparando abordagens e critérios . In: 1o. Workshop em Tecnologia da Informação e da Linguagem Humana, 2003, São Carlos. Anais do TIL'2003, 2003. 499