PDF - ENANCIB - Encontro Nacional de Pesquisa em Ciência da

Transcrição

PDF - ENANCIB - Encontro Nacional de Pesquisa em Ciência da
VIII ENANCIB – Encontro Nacional de Pesquisa em Ciência da Informação
28 a 31 de outubro de 2007 • Salvador • Bahia • Brasil
GT 2 – Organização e Representação do Conhecimento
Comunicação oral
AVALIAÇÃO DE LINGUAGEM DE INDEXAÇÃO APLICADA À
INFORMAÇÃO JORNALÍSTICA:
estudo de caso
INDEXING LANGUAGE EVALUATION APPLIED TO JOURNALISTIC
INFORMATION: a case study
Jóice Cleide Cardoso Ennes de Souza (Infoglobo Comunicações S.A., [email protected])
Maria Luiza de Almeida Campos (PPGCI/UFF/IBICT, [email protected])
Resumo: O controle do vocabulário em empresas jornalísticas assume crescente importância por possibilitar
consistência na recuperação da informação e a conseqüente realização de negócios. Utilizada na representação da
informação jornalística pelo Centro de Documentação e Informação (CDI) da Infoglobo Comunicações, a
linguagem de indexação nunca foi objeto de análise ou reflexão, prática necessária pois, além da informação
veiculada diariamente nos jornais compreender diferentes domínios, o conhecimento é dinâmico por natureza.
Adotando a editoria de Esportes como amostra por ser uma temática com grande apelo ao público, aplicamos
princípios de compatibilização como método para avaliar a linguagem de entrada com as solicitações dos
usuários (saída). O método de compatibilização foi utilizado como base para a comparação por fornecer critérios
de avaliação. Pôde-se comparar o vocabulário dos usuários e identificar as necessidades de inclusão de termos,
avaliar o vocabulário controlado, além de analisar as implicações do software usado atualmente.
Palavras-chave: Avaliação de linguagem documentária. Informação jornalística. Compatibilização de
linguagens.
Abstract: Controlled vocabulary in newspapers organizations assumes growing importance since it provides
consistency in information retrieval and, as a consequence, business achievements. Indexing language used for
newspaper information representation at Centro de Documentação e Informação (CDI) of Infoglobo
Comunicações has never been object of analysis or reflection, a necessary practice since the information
disseminated embraces different domains. Sport section was selected as sample for the study. Principles of
compatibilization were employed as a method to evaluate the controlled vocabulary with that of users in their
queries. This method was selected as a basis for comparison wit the controlled vocabulary, since it provides
criteria of evaluation. The comparison showed the need of including new terms, gave elements for evaluation of
the controlled vocabulary as well as an analysis of the implications of the current software on the controlled
vocabulary.
Keywords: Documentary language evaluation. Journalistic information. Language compatitilization.
1 INTRODUÇÃO
Nos dias atuais observamos a velocidade e o volume de informação gerada e
disseminada nos diversos meios de comunicação e, conseqüentemente, nos centros de
documentação das empresas de mídia. A pluralidade de assuntos abordados no jornalismo
diário desafia os profissionais no que diz respeito à representação e recuperação da
informação.
Esta pesquisa1 avalia o vocabulário controlado adotado pelo Centro de Documentação
e Informação (CDI) da Infoglobo Comunicações SA e utilizado na representação do conteúdo
do documento jornalístico publicado no jornal O Globo, à luz das solicitações de busca
realizadas pelos usuários externos no Arquivo Premium. Uma vez que o vocabulário
controlado não possui notas de aplicação, a opção foi selecionar a editoria de Esportes para o
estudo. Acreditamos que na literatura desse domínio a conceituação dos termos não oferece
grandes divergências, permitindo uma análise mais objetiva. Além disso, a área em questão é
de grande apelo ao público, possibilitando uma amostra diversificada.
As solicitações dos usuários foram obtidas no Arquivo Premium, site que oferece e
comercializa na web o conteúdo textual produzido pelos jornalistas dos jornais O Globo e
Extra, outro jornal publicado pela Infoglobo, respectivamente desde 1997 e 1998, acessado na
página principal do Globo Online, site do Globo na internet. A tipologia documental do
Arquivo Premium é composta por notícias, reportagens, notas, entrevistas, artigos de opinião,
editoriais, cartas, colunas e seções. São cerca de 2 milhões de matérias a serem pesquisadas
pelos usuários e atualizadas diariamente.
Adotamos princípios de compatibilização como um dos métodos para avaliar a
linguagem de entrada com as solicitações dos usuários (saída). Utilizada na representação da
informação, a linguagem adotada pelo CDI nunca foi objeto de análise ou reflexão, prática
necessária uma vez que a informação jornalística veiculada pelo jornalismo diário engloba
diferentes domínios. Neste estudo não analisamos a indexação em si nem o discurso
noticioso, ou seja, não abordamos a notícia sob a perspectiva sociológica com fins de avaliar
as dimensões sociais e/ou culturais.
A notícia, além de ser o produto-fim da empresa jornalística, retroalimenta a produção
de conteúdo uma vez que os jornalistas são os produtores e os principais usuários do material
publicado. Fora do ambiente da empresa, as reportagens publicadas são pesquisadas por
usuários em geral: pesquisadores, profissionais de outros centros de documentação,
jornalistas, etc. Atualmente, o documento jornalístico é considerado fonte de pesquisa para
fins jurídicos (valor probatório), acadêmicos e profissionais, além de ser fonte de recursos
com sua comercialização. Com isso, surge a necessidade de um estudo teórico e avaliativo
que dê subsídios para identificar as formas de melhoria do instrumento de
representação/recuperação.
2 AVALIAÇÃO DE LINGUAGENS
Ao pesquisar a bibliografia da área observamos que os estudos contemplam avaliação
de diferentes aspectos: sistemas de recuperação, linguagens de indexação, softwares,
indexação mecanizada e estudos específicos sobre avaliação de sistema de informação e seu
desempenho. Segundo Lopes (1985, p. 243), a literatura indica que os estudos de avaliação
estão associados ao desempenho do serviço de indexação e à qualidade do produto oferecido
pelo sistema. Também serve para mostrar se o serviço atende às solicitações dos usuários.
Para esta pesquisa, selecionamos os autores que abordam a avaliação de linguagens de
indexação.
Acreditamos que a visão global da prática avaliativa desenvolvida por Lancaster
(2004) no seu livro "Avaliação de Serviços de Biblioteca" é de suma importância na gestão de
um serviço de informação. Segundo o autor, "o objetivo de longo prazo da biblioteca seria
produzir certos resultados na comunidade a ser atendida." (LANCASTER, 2004, p. 1) Nessa
obra, o autor discorre sobre como fazer um estudo avaliativo detalhado dos serviços de uma
biblioteca a partir dos serviços sob demanda e de notificação (ou pró-ativos), interrelacionando as diversas atividades da instituição. No nosso ponto de vista, para que um
centro de informação atenda aos seus objetivos é necessário um plano de ação no qual a
função dos serviços de informação seja claramente definida. Além disso, os processos devem
estar alinhados com o objetivo maior, que é atender à comunidade usuária, sem esquecer
também as metas da organização na qual o centro de informação está inserido.
A avaliação de um sistema de recuperação de informação pressupõe o conhecimento
dos subssistemas que o compõem: seleção de documentos que farão parte da coleção,
indexação a ser adotada, vocabulário ou linguagem documentária, busca e interface usuário e
sistema e o subssistema que compara as representações dos documentos com as
representações das perguntas. (LANCASTER, 1979, p. 13) Aplicando a análise de Lancaster
ao nosso objeto de estudo, focamos a avaliação em dois subssistemas: do vocabulário e das
solicitações dos usuários. Entendemos que a seleção dos critérios avaliativos de uma
linguagem de indexação deve ser feita com base no sistema de informação, nos profissionais
envolvidos, no usuário, na tecnologia de informação usada no tratamento e recuperação e na
política de informação institucional.
Ao sistematizar previamente as linguagens de indexação que foram estudadas no teste
de Aberystwyth, no início da década de 70, Keen (1973, p. 2) aplicou uma tabela a partir da
qual as linguagens participantes foram examinadas segundo origem (se são adaptações de
outra linguagem, que domínio contempla, pequeno histórico para contextualização), método
de uso (se é pré ou pós-coordenada e se apresenta notação), método indicando as
associações entre os termos ou relações hierárquicas e características do instrumento de
representação (se é composta por termos/conceitos, número de termos e se adotou alguma
linha metodológica na sua elaboração).
Por sua vez, ao estudarem os pressupostos para a integração de tesauros na área de
Ciências Sociais, Sager et al. (1981) propõem como primeira etapa uma comparação entre os
instrumentos de representação a partir da análise dos seguintes níveis: estrutura do
conhecimento (cobertura, descritores, classificação, hierarquia, notação); estrutura
lingüística (termos e descritores, tipos de palavras, seleção de descritores e sua forma, as
relações entre os termos); apresentação formal (como o tesauro se apresenta, tipografia,
códigos, símbolos, ordenação e ortografia adotados); e a representação computacional.
Tipografia e layout também são apontados por Lancaster (1986) como sendo critérios
a serem analisados em um tesauro. Segundo o autor, um tesauro pode ser avaliado a partir da
análise superficial de alguns aspectos como a existência de uma introdução especificando a
área contemplada e as principais características do instrumento: relações entre os termos, se
apresenta estrutura alfabética e hierárquica, se há controle de sinonímia e notas de escopo.
Além de avaliar a consistência e especificidade do vocabulário, outro ponto a ser observado
é se o tesauro obedece a algum padrão internacional.
Aos critérios acima Lancaster acrescenta as seguintes medidas: de equivalência, a
partir da análise comparativa entre não descritores e descritores; de reciprocidade, com base
na extensão das relações entre os termos; de definição, representada pela fórmula (b-a)/b,
onde a é o número de descritores ambíguos em virtude da ausência de notas de aplicação e b é
o número total de descritores no tesauro; de flexibilidade, que é a proporção entre não
descritores e descritores; e de pré-coordenação, número de palavras por descritor e tamanho
dos grupos formados pelos termos.
Os aspectos levantados por Gil Urdiciain (1998) em seu estudo sobre avaliação de
tesauros espanhóis coincidem com as medidas de Lancaster: composição, tamanho, relações
de equivalência, taxa de enriquecimento, reciprocidade das relações de equivalência
(hierárquicas e associativas), quantidade de notas de escopo, aspectos estéticos da composição
e tipografia, morfologia das palavras e nível de pré-coordenação.
Detalhando os aspectos apontados acima por Gil Urdiciain (1998), a autora entende
como composição as formas de apresentação do tesauro (seja alfabética e sistemática ou
alfabética e gráfica); a existência de índices auxiliares como listas de autoridade; e texto
introdutório explicando as características e aplicações do tesauro. O tamanho de um tesauro
diz respeito ao número de descritores e não descritores que o compõem. As relações de
equivalência são identificadas entre os termos de um tesauro, devendo-se arrolar todas as
relações deste tipo. A taxa de enriquecimento permite medir quantitativamente a proporção
entre as relações com o número total de termos do tesauro. Sobre as notas de escopo, Gil
Urdiciain esclarece que sua existência em um tesauro diminui a possibilidade de ambigüidade
entre os termos. Em relação à morfologia das palavras, esta medida refere-se à forma,
emprego do plural ou singular, e se os termos apresentam entrada direta ou inversa. Nas
características composição e tipografia observamos o tipo de letra adotado e se apresenta
recursos para destacar o termo geral. Por último, a taxa de pré-coordenação segue o princípio
adotado por Lancaster (1986), sendo a média de palavras por descritor.
Também abordando a avaliação de tesauros em língua espanhola, Bermejo et al.
(1989) analisam 47 tesauros seguindo os parâmetros de qualidade informativa da
apresentação, consistência interna, estrutura semântica e aspectos estéticos. Na apresentação
dos tesauros, Bermejo et al. (1989) observaram o nível de estruturação conceitual e
terminológico do domínio que compõe o instrumento, analisando se apresenta classes ou
facetas, níveis hierárquicos, representação gráfica e a existência de índices complementares.
No aspecto consistência interna, Bermejo et al. avaliam a reciprocidade das relações
sintagmáticas e paradigmáticas e a forma das palavras. Na estrutura semântica, estudam os
termos sob o ponto de vista conceitual, analisando a articulação dos assuntos, a relação entre
os termos, se adotam notas de aplicação e medem a taxa de equivalência do tesauro ao
compararem os termos de entrada efetivamente usados na indexação com os que são
preteridos. Além destes aspectos, os autores destacam a taxa de enriquecimento, que é a
medição das relações semânticas entre os descritores; a flexibilidade, a qualidade do tesauro
para oferecer ao indexador uma multiplicidade de alternativas que representem determinado
assunto; e o nível de pré-coordenação entre os termos. Nos aspectos estéticos apontam as
características tipográficas do instrumento. Segundo os autores, a avaliação de um tesauro
permite analisar seus aspectos formais e estruturais, avaliar a validade semântica dos
descritores e se são adequados para o acervo a ser indexado.
Com base na norma americana ANSI/NISO – Guidelines for the construction, format
and management of monolingual thesauri, Owens e Cochrane (2004) definem como avaliação
de tesauro o processo para determinar se um dado instrumento atinge seus principais
objetivos, a saber: tradução (fornecer meios de traduzir a linguagem natural dos autores,
indexadores e usuários num vocabulário controlado usado para indexação e recuperação),
consistência (promover consistência na atribuição de termos de indexação), indicação de
relacionamentos (indicar os relacionamentos semânticos entre os termos) e recuperação
(servir como meio de busca na recuperação de documentos). As autoras propõem os seguintes
métodos de avaliação de tesauro: comparativo (com outros modelos de tesauros nacionais ou
internacionais), formativo (testar o tesauro analisando sua performance na indexação e
recuperação), de observação (acompanhamento do desempenho do tesauro) e estrutural
(observação dos termos genéricos, específicos e associados).
No cenário nacional, Lara (1993) empreendeu estudo avaliativo a partir de quatro
linguagens de indexação: Classificação Decimal de Dewey, Classificação Decimal Universal,
Thesaurus POPIN e Macrothesaurus de Informação para o Desenvolvimento SócioEconômico. Na primeira etapa de sua pesquisa, a autora analisou as linguagens segundo sua
identificação, objetivos, princípios de construção e forma de apresentação. Em seguida,
empreendeu um estudo estrutural, observando a divisão em cadeias hierárquicas e a lógica das
relações entre os termos. Avaliou também, segundo indicadores de eficiência: controle de
vocabulário, elaboração de índices, representação da informação e comunicação
documentária.
Como parte de trabalho acadêmico desenvolvido com alunos de graduação em
Biblioteconomia da UFF (Universidade Federal Fluminense), Campos (2006) recomenda os
seguintes aspectos para a avaliação de um tesauro: domínio abrangente, sua organização,
forma de apresentação (se possui parte alfabética e sistemática), unidade lingüística
adotada (conceito, palavra, assunto), se apresenta relações conceituais, se tem
documentação que explicita sua estrutura e conteúdo e como usar o instrumento, idioma
utilizado, se possui definições de termos e aspectos sobre a consistência das relações entre
os termos, uso do plural ou singular e nível de linguagem.
A partir dos estudos sobre avaliação da consistência da indexação em uma biblioteca
de artes, Strehl (1998, p. 331) consolida em sua metodologia os seguintes critérios para
analisar um instrumento de representação: número de palavras por descritor, uso do
singular e plural, sinônimos, descritores compostos (analisa o termo mais freqüente, a
perda de significado devido à fatoração, combinações ambíguas e se um dos termos é nome
próprio ou adjetivo), termos homógrafos ou inconsistentes, rotação de descritores, relação
entre assuntos redundantes, relação de um assunto com sua subcategoria, descritores
que indicam período histórico, identificadores geográficos e assuntos compostos por
identificadores geográficos e cronológicos.
Os autores aqui mencionados discorrem sobre diversos critérios a serem considerados
na avaliação de uma linguagem de indexação. Alguns aspectos são apontados em mais de um
estudo, como tipografia adotada, existência de notas de escopo e relações entre termos. Há
critérios que apresentam entendimentos e aplicações diferentes, como no caso da pré ou póscoordenação: para Keen (1973) é considerada método de uso, já para Gil Urdiciain (1998)
indica a média de palavras por descritor. Outros autores, como Owens e Cochrane (2004),
incluem aspectos particulares da prática de indexação, como capacidade de tradução e
consistência como critérios avaliativos de tesauros, ficando uma indefinição se a avaliação é
sobre o instrumento ou sobre a representação em si.
3 COMPATIBILIZAÇÃO E CONVERSÃO DE LINGUAGENS
Os estudos de compatibilização ganharam destaque nos anos 60, acredita-se que em
virtude da explosão informacional e da posterior perda de controle da informação armazenada
em meio eletrônico. Paralelamente, a possibilidade das diferentes agências norte-americanas
de acessar mutuamente seus conteúdos e uma possível agilização da prestação de serviços
incentivaram os estudos de compatibilização. (LANCASTER, 1986, p. 186) Logo, as
pesquisas na área estão contextualizadas em um momento político no qual a informação
angariou status estratégico e decisivo. Nos anos 70 observamos um declínio dos estudos de
compatibilização devido à disseminação da pesquisa realizada por máquina. Já na década de
80 ressurgem os estudos, agora aplicados ao ambiente computacional e às questões de
linguagem automatizada (problemas semânticos e sintáticos).
Nos idos de 90, os estudos de compatibilização versam sobre a integração entre
linguagens de sistemas computacionais, com destaque para a elaboração de ontologias que são
usadas como ferramentas semânticas de forma a permitir a interoperabilidade entre sistemas.
(CAMPOS; CAMPOS; CAMPOS, 2005; XUEYING, 2006) Na literatura nacional (LIMA et
al., 1995; BOCATTO, 1995), observamos estudos de caso sobre compatibilização, que
descrevem os passos metodológicos para se compatibilizar duas ou mais linguagens de
indexação dentro de um domínio e em um sistema de informação.
Os estudos de compatibilização e conversão de linguagens empreendidos por H. H.
Neville e Ingetraut Dahlberg se destacam na área e nas pesquisas em ontologias (CAMPOS,
2005). Ambos se caracterizam pelo processamento intelectual das etapas de compatibilização.
Enquanto Neville propõe o método de reconciliação de tesauros, Dahlberg estuda a
elaboração de uma matriz de compatibilização conceitual.
Em trabalho no qual aborda a compatibilização entre linguagens de indexação,
Dahlberg (1981) adota a expressão 'sistemas ordenados' e os conceitua como sendo qualquer
instrumento usado na organização, descrição e recuperação do conhecimento, composto por
expressões verbais ou notacionais para conceitos e suas relações, dispostos de forma
ordenada. A compatibilização entre sistemas ordenados é um dos métodos que permitem
avaliar o nível de compatibilidade conceitual entre os elementos, de forma a serem utilizados
em conjunto. Para isso, as linguagens necessitam passar por definições. (DAHLBERG, 1983,
p. 5)
A compatibilidade conceitual entre os elementos de sistemas ordenados proposta por
Dahlberg (1983, p.6) compreende três fases: coincidência conceitual, quando dois conceitos
combinam suas características, sendo portanto equivalentes; correspondência conceitual,
quando dois conceitos combinam a maior parte de suas características, sendo similares; e
correlação conceitual, quando dois conceitos são correlacionados através de símbolos
matemáticos, por exemplo.
Dahlberg, ao adotar a expressão compatibilização de linguagens de indexação,
restringe os estudos de compatibilidade aos sistemas que de alguma forma atendiam àquela
condição. Ao atribuir a expressão 'sistemas ordenados' amplia não só o conceito mas o
universo de aplicação da metodologia de compatibilização, uma vez que flexibiliza a
definição do instrumento a ser compatibilizado, podendo-se aí incluir as perguntas feitas pelos
usuários, analisadas dentro de um contexto e que apresentam uma organização interna
oferecida pelo sistema de recuperação. Segundo a autora (DAHLBERG, 1983, p. 5),
compatibilidade é a qualidade de um sistema ordenado que permite que seus elementos
possam ser usados juntos ou intercambiados com elementos de outro sistema ordenado.
Para Neville (1972, p. 620), reconciliação é a possibilidade de integração e
aproximação de sistemas que contemplam o mesmo tipo de literatura mas que adotam
diferentes tesauros. Seguindo a técnica proposta pelo autor, a cooperação entre os sistemas
não alterará as linguagens adotadas e nem haverá a necessidade de reindexar o conteúdo. Para
o autor (NEVILLE, 1970), a reconciliação de tesauros pressupunha a criação de uma
linguagem intermediária com um sistema de códigos que convergisse os dois ou mais
instrumentos de representação a serem compatibilizados. Os códigos seriam inscritos em cada
tesauro, com a inclusão de remissivas para as palavras-chaves. Neville (1972, p. 620) reforça
o fato de que as palavras-chaves constantes dos tesauros não serão subtraídas ou
acrescentadas, continuando com as mesmas características anteriores ao processo de
reconciliação. O autor parte do pressuposto de que na representação de um conteúdo os
conceitos é que são indexados, sendo as palavras-chaves ou descritores rótulos ou etiquetas
lingüísticas que identificam os conceitos. Neville adota um tesauro como base e segue onze
níveis de correspondência entre os termos dos dois vocabulários, analisando-os a partir da
correspondência exata entre os termos, uso de sinônimos e homônimos, entre outros aspectos.
Nos seus artigos, Neville não esclarece os critérios que levam à escolha do tesauro
base e a definição de conceito adotada por ele. Poderíamos presumir que o tesauro base seria
aquele que apresentasse uma maior abrangência no domínio. O autor esclarece que o sistema
de códigos criado com a compatibilização poderá ser considerado um "supra-thesaurus", que
reuniria a essência das linguagens reconciliadas. Contudo, ele chama atenção para o fato de
que esses códigos não constituem um tesauro em si, mas sim uma representação dos conceitos
das linguagens compatibilizadas, organizados em uma seqüência arbitrária. (NEVILLE, 1970,
p. 333)
4 PRINCÍPIOS AVALIATIVOS IDENTIFICADOS NA LITERATURA
A partir da revisão de literatura sobre avaliação de linguagens foram definidos os
princípios para análise do instrumento de representação usado pelos analistas de informação
do CDI. Combinando os critérios apontados por Campos (2006) com a metodologia aplicada
por Keen (1973) na avaliação das linguagens participantes do teste em Aberystwyth e os
estudos de Lancaster (1986), Gil Urdiciain (1998), Bermejo et al. (1989) e Strehl (1998),
estabelecemos como relevantes para a avaliação do vocabulário controlado os critérios
abaixo:
•
forma de apresentação – análise da origem da linguagem, se é adaptação de outro
instrumento, se apresenta introdução explicativa com informações como histórico para sua
contextualização; que domínio abrange; objetivos; condições de atualização e uso; número
de termos; quais os fundamentos teóricos que nortearam sua elaboração; forma de
apresentação (se possui parte alfabética e/ou parte sistemática); aspectos tipográficos e
estéticos, se apresenta notação e fonte diferenciada para destacar o termo geral.
•
campo de abrangência – análise da(s) área(s) de conhecimento compreendida(s) pela
linguagem de indexação, se os termos da linguagem indicam período histórico e se os
assuntos são compostos por identificadores geográficos e cronológicos.
•
estrutura dos termos – análise do relacionamento entre os termos, ou seja, a 'estrutura do
vocabulário'. Autores como Lancaster usam a expressão 'nível de coordenação dos
termos' para designar termos constituídos por frases ou expressões.
•
forma das palavras – abordagem da unidade lingüística adotada no vocabulário. Na
revisão de literatura há trabalhos que analisam se a linguagem emprega plural ou singular,
se apresenta entrada direta ou inversa, o idioma adotado, se as palavras são compostas ou
simples, se existem variações ortográficas e se são adotadas abreviaturas.
•
estrutura semântica – análise do vocabulário sob o ponto de vista conceitual, as relações
entre os termos, a articulação dos assuntos e se adota notas de aplicação para excluir as
ambigüidades.
•
relações de equivalência – análise do plano lingüístico do vocabulário, observando se há
o controle de sinonímia.
•
software adotado pelo sistema de informação – análise de até que medida a seleção de
determinado software tem conseqüências diretas na escolha do tipo de linguagem de
indexação a ser usada em um acervo de documentos e sua organização interna.
5 ESTUDO EMPÍRICO
O estudo empírico baseou-se em dois aspectos: a análise do vocabulário controlado e
da área de Esporte e o estudo da identificação das solicitações dos usuários através das
pesquisas realizadas no Arquivo Premium2.
5.1 ANÁLISE DO VOCABULÁRIO CONTROLADO E DA ÁREA DE ESPORTE
O instrumento de representação atualmente utilizado na indexação de documentos
textuais pela equipe de analistas de informação do CDI recebe o nome de vocabulário
controlado e foi elaborado por ocasião da implantação do projeto corporativo que tornou
digital os textos jornalísticos produzidos pelo jornal O Globo. Para analisarmos o vocabulário
controlado de forma a conhecer sua natureza e organização, adotamos os princípios de
avaliação de linguagem apontados, relacionando-os, quando possível, com características do
vocabulário.
Sobre a forma de apresentação, o vocabulário possui 2.642 termos, sendo 221
(8,3%) da área de Esporte, organizados alfabeticamente, com estrutura mista (ver exemplo
abaixo). Apresenta entradas em classes gerais, manifestando aspecto sistemático, apesar de
estarem dispostas alfabeticamente nas classes; e entradas específicas localizadas na ordem
geral do vocabulário, fora de contexto. O instrumento de representação também não apresenta
introdução ou documentação consolidada formalizando-o ou esclarecendo sua organização e
uso. A falta de um documento descrevendo as diferentes etapas de construção da linguagem
foi determinante para a inexistência de padronização e de critérios a serem cumpridos nas
eventuais atualizações. O vocabulário não obedece a nenhum padrão internacional além da
ausência de fundamentação teórica na sua elaboração. É multidisciplinar e corporativo, já que
foi desenvolvido dentro das atividades do CDI, tendo como base a representação da
informação jornalística publicada pela empresa. Sua construção foi norteada
fundamentalmente pela prática diária do setor e em relação ao principal usuário à época: o
jornalista do jornal O Globo.
Uma vez que objetiva traduzir e recuperar a informação publicada no produto-fim da
empresa - o jornal impresso diário, o campo de abrangência do vocabulário contempla
diferentes domínios do conhecimento, refletindo as diferentes editorias ou seções do jornal
impresso publicadas diariamente. Fato apontado por Novellino (2000, p. 17) ao analisar que a
estrutura de conhecimento de um dado acervo é representada pela linguagem do sistema. Há
agrupamentos de palavras para economia, política, esporte, ciências, assuntos internacionais,
entre outros. O nível de especificidade dos termos corresponde aos fatos que tiveram foco no
jornal diário, refletindo as características do veículo.
Analisando sua estrutura dos termos, o vocabulário controlado é uma linguagem
pós-coordenada, cabendo aos usuários a combinação dos termos considerados relevantes para
a recuperação de uma necessidade de informação no momento da saída do sistema.
No tocante à forma das palavras que integram o vocabulário controlado, observamos
as seguintes incidências: termos no singular, salvo uso consagrado no plural. Ex:
Artes_Marciais, Jogos_Pan-Americanos, Saltos_Ornamentais; termos apresentando entrada
direta. Ex: Dirigente_Esportivo, Federação_Esportiva; formas simples e compostas. Ex:
Ginástica, Ginástica_Aeróbica, Futebol; utiliza expressões em mais de uma língua. Ex:
Snakboard, Pit_Stop, Pole_Position, Bungee_Jump, Mountain_Bike; diferenciação entre
feminino e masculino em algumas expressões. Ex: Ator, Atriz, Francês, Francesa.
Ao fazer o levantamento das palavras compostas constantes no vocabulário controlado,
apuramos 932 termos, representando 35,2% do total, sendo 111 (11,9%) termos da área de
Esporte. Tal índice contribui para maior precisão na indexação/recuperação, caracterizando
especificação dos termos. Observamos que ao empregar a ordem direta das palavras segundo
a linguagem natural no vocabulário, os profissionais que elaboraram o instrumento
permitiram uma aproximação do termo de indexação com a proposição jornalística formulada
pelo repórter.
Ao analisar a estrutura semântica do vocabulário controlado, constatamos que a
ausência de uma linha teórica se reflete na organização dos termos, pois não apresenta uma
hierarquia classificatória, nem a adoção de uma subordinação hierárquica uniforme ao longo
do instrumento, induzindo a falsas subordinações de termos. Não possui relações genéricoespecíficas, partitivas e associativas. Apesar do uso de adjetivos qualificando algumas
palavras do vocabulário, a ausência de definição dos termos e a já mencionada falta de uma
base teórica tornam visível uma inconsistência na estruturação da linguagem, fazendo com
que alguns termos não estejam nas categorias pertinentes. Apesar do recurso de endentação
oferecido pelo sistema, o que permitiria a reunião de termos correlatos em uma categoria,
verificamos a existência de 298 termos (11,2%) localizados na ordem geral do vocabulário,
não estando subordinados a qualquer categoria.
Na área de Esporte, grande parte dos termos está agrupada dentro desta classe, além de
outros, distribuídos na ordem alfabética do vocabulário. Modalidades esportivas,
equipamentos esportivos, desportistas, eventos esportivos, competições e instalações
esportivas não se apresentam numa estruturação lógica (ver exemplo abaixo). A
'subordinação' sugerida pela endentação não caracteriza uma apresentação sistemática.
Ex: Esporte
[...]
Esgrima
Esporte_Amador
Esporte_de_Inverno
Esporte_Estudantil
Esporte_Infantil
Esporte_Juvenil
Esporte_Senior
Esporte_Universitário
Universíade
Esporte_Radical
Esqui
Esqui_Aquático
Estádio
Fase_Eliminatória
Fase_Final
Final
Usando o exemplo acima, apesar de Esqui e Esqui_Aquático apresentarem diferentes
definições (o primeiro é para deslizar sobre a neve e o segundo sobre a água), o termo
Esqui_Aquático encontra-se subordinado ao termo geral Esqui, induzindo a uma falsa
subordinação, na qual a palavra se sobrepõe ao conceito. As duas modalidades deveriam estar
no mesmo nível.
Determinadas modalidades esportivas apresentam termos subordinados, similar a uma
relação hierárquica, mas organizados alfabeticamente. Uma vez que o texto jornalístico foi
adotado como fonte de pesquisa e de levantamento dos termos, observamos que o instrumento
de indexação foi influenciado pela linguagem natural, na qual a palavra adquire sentido de
acordo com o contexto. No vocabulário, a subordinação é usada para atribuir um conceito
específico a uma palavra que pode ser usada em diferentes contextos, controlando o
significado do termo. Por exemplo, a palavra Campo, ao estar subordinada a Futebol, indica
que o termo somente poderá ser usado para ‘campo de futebol’, e não ‘campo’ com sentido
agrícola.
Ex: Esporte
[...]
Futebol
[...]
Campo
Ao analisarmos o vocabulário controlado a partir do aspecto relações de
equivalência, observamos que o mesmo não apresenta o controle de sinonímia entre termos
por limitação tecnológica do sistema Digicol, ferramenta usada na representação/recuperação
da informação jornalística.
Analisando o software adotado pelo CDI, o Digital Collections (Digicol) influenciou
diretamente na organização da versão final do vocabulário controlado. O sistema não permite
o uso de notas de aplicação ou descrição dos termos, relações associativas e hierárquicas,
assim como indicação de equivalências, sinonímias ou homonímias. Para a reestruturação do
vocabulário foram usados os seguintes recursos oferecidos pelo sistema: adoção de até três
níveis de estruturação (ou subordinação), adoção do underline para termos compostos em
todos os campos do formulário de indexação e a possibilidade de associar termos correlatos
usando os dois pontos (ex: Pessoa=Pelé: Edson_Arantes_do_Nascimento)
Os termos do vocabulário controlado são utilizados na representação de textos
jornalísticos, através do preenchimento do campo PalavraChave do formulário de indexação.
Especificamente neste campo, acredita-se que o recurso underline oferecido pelo sistema,
além de permitir a formação da palavra composta, indica que a expressão é um único registro,
como por exemplo, Tênis_de_Mesa. Ao pesquisar por determinada notícia usando uma
palavra chave formada por mais de uma palavra, é necessário o uso do underline ao fazer a
busca pelo campo PalavraChave. No campo PalavraChave somente são autorizados os termos
que compõem o vocabulário, não sendo permitida pelo sistema Digicol a digitação de termos
não constantes na linguagem de indexação.
5.2 AS SOLICITAÇÕES DOS USUÁRIOS
Para obter o vocabulário do usuário, recorremos às expressões de busca usadas no
Arquivo Premium. A escolha das buscas pelos usuários externos deveu-se ao fato de o
software Digicol, usado internamente na representação e recuperação da informação
jornalística, não oferecer recursos para acompanhamento das buscas realizadas pelos usuários
internos da Infoglobo. A partir de uma pesquisa (query) na base de dados, e levando em
consideração as informações consideradas relevantes para esta análise (nome do jornal,
palavras e/ou nomes usados na busca e Editoria), os seguintes resultados foram obtidos:
Mês/2006
Pesquisas
Pesquisas à editoria de Expressões
Esportes
repetidas
Ocorrências
Janeiro
141.603
1340 (0,94%)
419 (31,2%)
Fevereiro
107.243
735 (0,68%)
163 (22,1%)
Março
122.068
1021 (0,83%)
351 (34,3%)
Total
370.914
3096 (0,83%)
933 (30,1%)
Tabela 1: Total de pesquisas e expressões repetidas por mês no Arquivo Premium
Considerando que o jornal O Globo está organizado internamente em nove editorias,
percebe-se que há um certo equilíbrio nas buscas efetuadas na editoria de Esportes (0,83%).
Após o agrupamento das expressões repetidas, foram totalizados 886 itens únicos.
Desse total, 645 são conceitos individuais ou nomes próprios e 241 são conceitos ou termos
(Tabela 2).
Mês/2006
Termos
Nomes próprios
Total
Ocorrências
Janeiro
102
278
380
Fevereiro
73
153
226
Março
66
214
280
Total
241 (27%)
645 (73%)
886 (100%)
Tabela 2: Ocorrência de termos e conceitos individuais no Arquivo Premium
Solicitações por época (ex. Era Garrincha) e por nomes próprios não foram
consideradas neste estudo porque o vocabulário controlado do CDI não contempla estas
categorias. A forma dos termos não foi padronizada na etapa do levantamento, mantendo-se a
forma empregada pelos usuários.
Para o estudo das solicitações, além de reunirmos os termos equivalentes, agrupamos
as diferentes formas de busca para identificar as categorias predominantes: desportista,
dirigente esportivo, técnico, modalidade esportiva, evento esportivo, lugar, equipamento
esportivo, nome de clubes, estádios, instalações esportivas, nomes sem categorias (que não se
inseriam nas demais categorias), termos associados à modalidade esportiva (sem categoria
definida uma vez que precisam ser pesquisadas). Destacamos as palavras sistematizadas em
modalidade esportiva, equipamento esportivo e termos associados à modalidade esportiva
para a confecção da lista de solicitações a serem compatibilizadas como os termos do
vocabulário controlado.
Características das solicitações dos usuários na busca por informações no Arquivo
Premium:
•
Solicitações feitas através de frases. Ex: jogo do botafogo e vasco, polêmica no futebol é a
bola, Fluminense é bi em 1941 no Fla-Flu da Lagoa.
•
Pesquisa entre aspas. Ex: "futebol junior", "romario mil gols".
•
Pesquisas seguindo o default do sistema (o espaço entre palavras é interpretado como "e")
Ex: júlio césar flamengo suzana, jogador sávio afastado.
•
Disputa entre times/seleções. Ex: Palmeiras x Vasco, fla-flu, brasil X Argentina.
•
Por títulos de matérias. Ex: Técnico do América, que faz semifinal hoje, é rígido mas dá
até conselhos; TCU aceita explicações da CBV sobre Omega.
Em todos estes casos foram selecionadas as palavras relativas a Esporte, obtendo-se
uma lista com 104 termos.
6 COMPATIBILIZAÇÃO DOS VOCABULÁRIOS
A compatibilização do vocabulário controlado com as solicitações na saída do sistema
foi posta em prática ao identificarmos alguns aspectos dos estudos da área, como apresentado
no item 3. Como o vocabulário não apresenta notas de aplicação ou definições dos conceitos,
não foi possível a construção da matriz conceitual defendida por Dahlberg. No entanto,
quando possível, fez-se a compatibilização semântica. Foi aplicada em nossa análise a
metodologia de comparação verbal da autora.
Para compatibilizar os termos do vocabulário controlado com as solicitações dos
usuários, nos fundamentamos nos passos metodológicos propostos por Neville (1972) para a
integração de duas ou mais linguagens de indexação. No estudo adotamos as análises
lingüística e semântica.
A correspondência lingüística entre os termos de duas ou mais linguagens é o
princípio que manifesta menor complexidade no método de compatibilização. Compreende a
associação exata entre termos, estando as palavras no plural ou no singular. Também
analisamos os termos sinônimos e homônimos evidenciando a existência de palavras com
mesma significação que outras e/ou com a mesma denominação, garantindo a reconciliação
entre os termos constantes tanto na solicitação do usuário quanto no vocabulário.
Ao identificarmos que as solicitações dos usuários são lingüisticamente diferentes dos
termos constantes do vocabulário controlado, apesar de apresentarem o mesmo significado,
estamos analisando a correspondência semântica entre as palavras. Observamos a localização
de uma expressão solicitada pelo usuário no vocabulário controlado, a que categoria está
subordinada ou se está localizada na ordem geral do instrumento.
7 RESULTADOS E DISCUSSÃO
A partir dos relatórios extraídos das bases de dados do Arquivo Premium constatamos
a grande incidência de conceitos individuais ou nomes próprios: 73% nos meses estudados em
relação aos termos (27%). O resultado denota a importância desse tipo de conceito para o
usuário da informação jornalística publicada na área esportiva, revelando a necessidade de se
criar listas de autoridades, permitindo uma padronização e controle dos conceitos individuais
na indexação e conseqüente otimização na representação e recuperação da informação.
Após a elaboração do quadro comparativo no qual as solicitações dos usuários foram
compatibilizadas lingüística e semanticamente com os termos do vocabulário, obtivemos os
seguintes resultados:
•
Compatibilização lingüística - identificamos 52 (50%) expressões dos usuários com
correspondente no instrumento, sendo 39 (37,5%) expressões com correspondente no
vocabulário de Esporte, e 13 solicitações (12,5%) localizadas na ordem alfabética geral do
instrumento ou subordinadas a outros domínios. Apesar da ausência de uma estrutura
lógica, lingüisticamente o vocabulário controlado atendeu a 50% das solicitações dos
usuários, mesmo que alguns termos não estejam subordinados a Esporte, como Jogo, Juiz
e Xadrez. Exemplos de solicitações compatibilizadas lingüisticamente e subordinadas à
área de Esporte: Atletismo, Autódromo, Automobilismo. Exemplos de expressões
localizadas na ordem geral: Arquibancada, Bandeira, Bola.
•
Compatibilização semântica - foram identificados 21 (20,1%) termos equivalentes.
Analisando as relações conceituais entre os termos, verificamos a possibilidade de
estabelecimento de semelhanças, sendo possível o controle de sinônimos e de palavras
com grafias diferentes numa possível revisão do vocabulário. Ao identificarmos termos
equivalentes, constata-se a necessidade de o instrumento apresentar relações de sinonímia,
a fim de evitar o esforço na recuperação, uma vez que o usuário desconhece o termo usado
na indexação pelo sistema. Além disso, a presença de relações promove a consistência na
indexação. Exemplos: Clássico (solicitação) – Partida (vocabulário); Craque (solicitação)
– Jogador (vocabulário).
•
Nível de especificidade evidenciado pelo usuário -13 (12,5%) solicitações manifestam
uma especificidade que não é contemplada pelo vocabulário controlado. A ausência de
especificidade influencia na precisão do resultado da busca. Nessas solicitações os
usuários expressaram suas buscas com qualificadores, demonstrando uma especificidade
que merece análise. No caso dos 'campeonatos', verifica-se que as solicitações privilegiam
um aspecto (brasileiro, espanhol, carioca) e o vocabulário outro aspecto (nacional,
estadual), não sendo essas características incompatíveis. O vocabulário, em sua revisão,
poderá ter os termos relativos a ‘campeonato’ reunidos por aquelas diferentes
características. Uma política de indexação deverá ser estabelecida para garantir o que
poderia ser redundância, mas que facilitaria a localização da matéria jornalística pelo
usuário. Exemplos: Campeonato baiano (solicitação) Campeonato_Estadual
(vocabulário); Campeonato brasileiro (solicitação) - Campeonato_Nacional (vocabulário).
•
Nível de especificidade do vocabulário - observamos que 14 (13,4%) solicitações
manifestam generalidade enquanto que o vocabulário é específico, sendo compatibilizadas
com 31 termos do instrumento. O vocabulário é específico de modo a permitir
recuperação da informação com certo nível de precisão. Contudo, tais elementos são
insuficientes para definir o comportamento do usuário uma vez que ele emprega tanto os
termos específicos como os gerais. No caso das modalidades esportivas mais populares
como vôlei, basquete, natação, boxe, tênis e futebol, o usuário prefere o termo geral
enquanto que o vocabulário é preciso, oferecendo resultados mais relevantes se a busca
for específica. Exemplo: Boxe (solicitação) – Boxe_Masculino e Boxe_Tailandês
(vocabulário).
•
Termos não existentes no vocabulário - apesar de o vocabulário de Esporte apresentar
um número maior de termos (221) em relação às solicitações dos usuários (104), e ter o
objetivo de representar uma dada área de conhecimento, tais condições não foram
determinantes para atender todas as solicitações levantadas. Avaliando em que medida os
dois vocabulários são compatíveis entre si, 16 (15,3%) solicitações dos usuários não
foram compatibilizadas lingüisticamente ou semanticamente por não encontrarem
correspondência no vocabulário. Exemplos de solicitações que não existem no
vocabulário controlado: Amistoso, Atuação, Bobsled, Categorias de base.
8 CONSIDERAÇÕES FINAIS
O método de compatibilização adotado na pesquisa contribuiu não apenas para
verificar em que medida os dois vocabulários estudados são compatíveis, mas trouxe
subsídios para a futura revisão do vocabulário, em especial para sua estruturação, por fornecer
critérios de avaliação. Quando a linguagem de indexação não contempla uma organização
lógica e hierárquica, a recuperação da informação fica comprometida, além de dificultar as
tarefas do profissional responsável pela representação da informação. Um acompanhamento
contínuo do vocabulário controlado é necessário pela própria transformação do idioma, como
também pelo aspecto dinâmico do veículo jornal, suscetível às mudanças da sociedade.
Em um sistema de recuperação da informação, o estudo avaliativo das linguagens de
indexação permite um processo constante de atualização do instrumento de representação e
das próprias políticas de informação do sistema.
Ampliando o escopo inicial da pesquisa, a partir da “garantia do usuário”, o estudo
permitiu não somente avaliar o instrumento de representação adotado pelo CDI, mas fazer
uma reflexão sobre o sistema tecnológico adotado, suas limitações e implicações na
representação e recuperação da informação jornalística, possibilitando a avaliação do sistema
de informação em si.
9 REFERÊNCIAS
BERMEJO, C. A.; RUBIO, A. V.; ROJO, A. S. Desarrollo de lenguajes documentales
formalizados en lengua espanola: II. evaluación de los tesauros en lengua espanola. Revista
Espanola de Documentación Cientifica, v. 12, n. 3, p. 283-305, 1989.
BOCCATO, Vera Regina Casari; PRATI, Suely; TRINDADE, Valéria Cristina Spina. et al.
Estudo de compatibilização de linguagens documentárias na área odontológica para o banco
de dados bibliográficos da USP - Dedalus. Ciência da Informação, v. 25, n. 2, 1995.
CAMPOS, Maria Luiza de Almeida (coord.). Critérios para avaliação de tesauro
documentário. Disponível em: <http://www.conexaorio.com/biti/tesauro/index.htm>. Acesso
em: 02 dez.2006.
______. Integração de Ontologias: o domínio da bioinformática e a problemática da
compatibilização terminológica . 2005. (Projeto de pesquisa aprovado pelo CNPq para o
período de 2005 a 2008).
CAMPOS, Maria Luiza Machado; CAMPOS, Maria Luiza de Almeida; CAMPOS, Linair
Maria. Web Semântica e a Gestão de Conteúdos Informacionais. In: MARCONDES, Carlos
H. e (org). Bibliotecas Digitais: Saberes e Práticas. Salvador/Brasília: EDUFBA/IBICT, p.
55-78, 2005.
DAHLBERG, Ingetraut. Conceptual Compatibility of Ordering Systems. International Classification, v. 10, n. 1, p. 5-8, 1983.
______. Towards establishment of compatibility between indexing languages. International
Classification, v. 8, n. 2, p. 86-91, 1981.
GIL URDICIAIN, Blanca. Evaluación semántica y estructural de tesauros. Revista General
de Información y Documentación, v. 8, n. 2, 1998.
KEEN, E. Michael. The Aberystwyth Index Languages Test. Journal of Documentation, v.
29, n. 1, March 1973.
LANCASTER, F.W. Information Retrieval Systems: Characteristics, Testing and Evaluation. 2. ed. New York: J. Wiley, 1979.
LANCASTER, F.W. Avaliação de Serviços de Bibliotecas. Brasília: Briquet de Lemos,
2004.
______. Vocabulary Control for Information Retrieval. Virginia: Information Resources
Press, 1986.
LARA, Marilda Lopes Ginez de. A representação documentária: em jogo a significação.
São Paulo, 1993. 133 f. Dissertação (Mestrado em Ciências da Comunicação) - Departamento
de Biblioteconomia e Documentação, Escola de Comunicação e Artes, Universidade de São
Paulo, 1993.
LIMA, Vânia Mara Alves et al. Atualização da lista de assuntos USP: compatibilização de
linguagens documentárias. Ciência da Informação, v. 25, n. 2, 1995.
LOPES, Eunice de Faria. Avaliação de Serviços de Indexação e Resumo: Critérios, medidas e
Metodologia. Revista da Escola de Biblioteconomia, Belo Horizonte, v. 14, n. 2, p. 242-256,
set. 1985.
NEVILLE, H.H. Feasibility study of a scheme for reconciling thesauri covering a commom
subjetc. Journal of Documentation, v. 26, n. 4, p. 313-336, December, 1970.
______. Thesaurus reconciliation. Aslib Proceedings, v. 24. n. 11, p. 620-626, November
1972.
NOVELLINO, Maria Salet Ferreira. A transferência da informação através dos seus
contextos de produção e uso: linguagens de transferência da informação. Rio de Janeiro,
2000, 167 f. Tese (Doutorado) Ciência da Informação - Instituto Brasileiro de Informação em
Ciência e Tecnologia; Universidade Federal do Rio de Janeiro, 2000
OWENS, Leslie Ann; COCHRANE, Paulie Atherton. Thesarurus Evaluation. Cataloguing &
Classification Quartely, v. 37, n.3/4, p. 87-102, 2004.
SAGER, J.C.; SOMERS, H.L.; MCNAUGHT, J. Thesaurus Integration in the Social Sciences. Part 1. Comparison of Thesauri. International Classification, v. 8, n. 3, p. 133-138,
1981.
STREHL, L. Avaliação da consistência da indexação realizada em uma biblioteca
universitária de artes. Ciência da Informação, v. 27, n.3, p. 329-355, set./dez. 1998.
XUEYING, ZHANG. Concept integration of document databases using different indexing
languages. Information Processing & Management, v. 42, p. 121-135, 2006.
1
Este trabalho é resultado da dissertação de mestrado apresentada ao Curso de Pós-Graduação em Ciência da
Informação, convênio UFF/IBICT.
2
Arquivo Premium é o site que oferece e comercializa os documentos textuais produzidos pelos Jornais O Globo e
Extra.