PDF - ENANCIB - Encontro Nacional de Pesquisa em Ciência da
Transcrição
PDF - ENANCIB - Encontro Nacional de Pesquisa em Ciência da
VIII ENANCIB – Encontro Nacional de Pesquisa em Ciência da Informação 28 a 31 de outubro de 2007 • Salvador • Bahia • Brasil GT 2 – Organização e Representação do Conhecimento Comunicação oral AVALIAÇÃO DE LINGUAGEM DE INDEXAÇÃO APLICADA À INFORMAÇÃO JORNALÍSTICA: estudo de caso INDEXING LANGUAGE EVALUATION APPLIED TO JOURNALISTIC INFORMATION: a case study Jóice Cleide Cardoso Ennes de Souza (Infoglobo Comunicações S.A., [email protected]) Maria Luiza de Almeida Campos (PPGCI/UFF/IBICT, [email protected]) Resumo: O controle do vocabulário em empresas jornalísticas assume crescente importância por possibilitar consistência na recuperação da informação e a conseqüente realização de negócios. Utilizada na representação da informação jornalística pelo Centro de Documentação e Informação (CDI) da Infoglobo Comunicações, a linguagem de indexação nunca foi objeto de análise ou reflexão, prática necessária pois, além da informação veiculada diariamente nos jornais compreender diferentes domínios, o conhecimento é dinâmico por natureza. Adotando a editoria de Esportes como amostra por ser uma temática com grande apelo ao público, aplicamos princípios de compatibilização como método para avaliar a linguagem de entrada com as solicitações dos usuários (saída). O método de compatibilização foi utilizado como base para a comparação por fornecer critérios de avaliação. Pôde-se comparar o vocabulário dos usuários e identificar as necessidades de inclusão de termos, avaliar o vocabulário controlado, além de analisar as implicações do software usado atualmente. Palavras-chave: Avaliação de linguagem documentária. Informação jornalística. Compatibilização de linguagens. Abstract: Controlled vocabulary in newspapers organizations assumes growing importance since it provides consistency in information retrieval and, as a consequence, business achievements. Indexing language used for newspaper information representation at Centro de Documentação e Informação (CDI) of Infoglobo Comunicações has never been object of analysis or reflection, a necessary practice since the information disseminated embraces different domains. Sport section was selected as sample for the study. Principles of compatibilization were employed as a method to evaluate the controlled vocabulary with that of users in their queries. This method was selected as a basis for comparison wit the controlled vocabulary, since it provides criteria of evaluation. The comparison showed the need of including new terms, gave elements for evaluation of the controlled vocabulary as well as an analysis of the implications of the current software on the controlled vocabulary. Keywords: Documentary language evaluation. Journalistic information. Language compatitilization. 1 INTRODUÇÃO Nos dias atuais observamos a velocidade e o volume de informação gerada e disseminada nos diversos meios de comunicação e, conseqüentemente, nos centros de documentação das empresas de mídia. A pluralidade de assuntos abordados no jornalismo diário desafia os profissionais no que diz respeito à representação e recuperação da informação. Esta pesquisa1 avalia o vocabulário controlado adotado pelo Centro de Documentação e Informação (CDI) da Infoglobo Comunicações SA e utilizado na representação do conteúdo do documento jornalístico publicado no jornal O Globo, à luz das solicitações de busca realizadas pelos usuários externos no Arquivo Premium. Uma vez que o vocabulário controlado não possui notas de aplicação, a opção foi selecionar a editoria de Esportes para o estudo. Acreditamos que na literatura desse domínio a conceituação dos termos não oferece grandes divergências, permitindo uma análise mais objetiva. Além disso, a área em questão é de grande apelo ao público, possibilitando uma amostra diversificada. As solicitações dos usuários foram obtidas no Arquivo Premium, site que oferece e comercializa na web o conteúdo textual produzido pelos jornalistas dos jornais O Globo e Extra, outro jornal publicado pela Infoglobo, respectivamente desde 1997 e 1998, acessado na página principal do Globo Online, site do Globo na internet. A tipologia documental do Arquivo Premium é composta por notícias, reportagens, notas, entrevistas, artigos de opinião, editoriais, cartas, colunas e seções. São cerca de 2 milhões de matérias a serem pesquisadas pelos usuários e atualizadas diariamente. Adotamos princípios de compatibilização como um dos métodos para avaliar a linguagem de entrada com as solicitações dos usuários (saída). Utilizada na representação da informação, a linguagem adotada pelo CDI nunca foi objeto de análise ou reflexão, prática necessária uma vez que a informação jornalística veiculada pelo jornalismo diário engloba diferentes domínios. Neste estudo não analisamos a indexação em si nem o discurso noticioso, ou seja, não abordamos a notícia sob a perspectiva sociológica com fins de avaliar as dimensões sociais e/ou culturais. A notícia, além de ser o produto-fim da empresa jornalística, retroalimenta a produção de conteúdo uma vez que os jornalistas são os produtores e os principais usuários do material publicado. Fora do ambiente da empresa, as reportagens publicadas são pesquisadas por usuários em geral: pesquisadores, profissionais de outros centros de documentação, jornalistas, etc. Atualmente, o documento jornalístico é considerado fonte de pesquisa para fins jurídicos (valor probatório), acadêmicos e profissionais, além de ser fonte de recursos com sua comercialização. Com isso, surge a necessidade de um estudo teórico e avaliativo que dê subsídios para identificar as formas de melhoria do instrumento de representação/recuperação. 2 AVALIAÇÃO DE LINGUAGENS Ao pesquisar a bibliografia da área observamos que os estudos contemplam avaliação de diferentes aspectos: sistemas de recuperação, linguagens de indexação, softwares, indexação mecanizada e estudos específicos sobre avaliação de sistema de informação e seu desempenho. Segundo Lopes (1985, p. 243), a literatura indica que os estudos de avaliação estão associados ao desempenho do serviço de indexação e à qualidade do produto oferecido pelo sistema. Também serve para mostrar se o serviço atende às solicitações dos usuários. Para esta pesquisa, selecionamos os autores que abordam a avaliação de linguagens de indexação. Acreditamos que a visão global da prática avaliativa desenvolvida por Lancaster (2004) no seu livro "Avaliação de Serviços de Biblioteca" é de suma importância na gestão de um serviço de informação. Segundo o autor, "o objetivo de longo prazo da biblioteca seria produzir certos resultados na comunidade a ser atendida." (LANCASTER, 2004, p. 1) Nessa obra, o autor discorre sobre como fazer um estudo avaliativo detalhado dos serviços de uma biblioteca a partir dos serviços sob demanda e de notificação (ou pró-ativos), interrelacionando as diversas atividades da instituição. No nosso ponto de vista, para que um centro de informação atenda aos seus objetivos é necessário um plano de ação no qual a função dos serviços de informação seja claramente definida. Além disso, os processos devem estar alinhados com o objetivo maior, que é atender à comunidade usuária, sem esquecer também as metas da organização na qual o centro de informação está inserido. A avaliação de um sistema de recuperação de informação pressupõe o conhecimento dos subssistemas que o compõem: seleção de documentos que farão parte da coleção, indexação a ser adotada, vocabulário ou linguagem documentária, busca e interface usuário e sistema e o subssistema que compara as representações dos documentos com as representações das perguntas. (LANCASTER, 1979, p. 13) Aplicando a análise de Lancaster ao nosso objeto de estudo, focamos a avaliação em dois subssistemas: do vocabulário e das solicitações dos usuários. Entendemos que a seleção dos critérios avaliativos de uma linguagem de indexação deve ser feita com base no sistema de informação, nos profissionais envolvidos, no usuário, na tecnologia de informação usada no tratamento e recuperação e na política de informação institucional. Ao sistematizar previamente as linguagens de indexação que foram estudadas no teste de Aberystwyth, no início da década de 70, Keen (1973, p. 2) aplicou uma tabela a partir da qual as linguagens participantes foram examinadas segundo origem (se são adaptações de outra linguagem, que domínio contempla, pequeno histórico para contextualização), método de uso (se é pré ou pós-coordenada e se apresenta notação), método indicando as associações entre os termos ou relações hierárquicas e características do instrumento de representação (se é composta por termos/conceitos, número de termos e se adotou alguma linha metodológica na sua elaboração). Por sua vez, ao estudarem os pressupostos para a integração de tesauros na área de Ciências Sociais, Sager et al. (1981) propõem como primeira etapa uma comparação entre os instrumentos de representação a partir da análise dos seguintes níveis: estrutura do conhecimento (cobertura, descritores, classificação, hierarquia, notação); estrutura lingüística (termos e descritores, tipos de palavras, seleção de descritores e sua forma, as relações entre os termos); apresentação formal (como o tesauro se apresenta, tipografia, códigos, símbolos, ordenação e ortografia adotados); e a representação computacional. Tipografia e layout também são apontados por Lancaster (1986) como sendo critérios a serem analisados em um tesauro. Segundo o autor, um tesauro pode ser avaliado a partir da análise superficial de alguns aspectos como a existência de uma introdução especificando a área contemplada e as principais características do instrumento: relações entre os termos, se apresenta estrutura alfabética e hierárquica, se há controle de sinonímia e notas de escopo. Além de avaliar a consistência e especificidade do vocabulário, outro ponto a ser observado é se o tesauro obedece a algum padrão internacional. Aos critérios acima Lancaster acrescenta as seguintes medidas: de equivalência, a partir da análise comparativa entre não descritores e descritores; de reciprocidade, com base na extensão das relações entre os termos; de definição, representada pela fórmula (b-a)/b, onde a é o número de descritores ambíguos em virtude da ausência de notas de aplicação e b é o número total de descritores no tesauro; de flexibilidade, que é a proporção entre não descritores e descritores; e de pré-coordenação, número de palavras por descritor e tamanho dos grupos formados pelos termos. Os aspectos levantados por Gil Urdiciain (1998) em seu estudo sobre avaliação de tesauros espanhóis coincidem com as medidas de Lancaster: composição, tamanho, relações de equivalência, taxa de enriquecimento, reciprocidade das relações de equivalência (hierárquicas e associativas), quantidade de notas de escopo, aspectos estéticos da composição e tipografia, morfologia das palavras e nível de pré-coordenação. Detalhando os aspectos apontados acima por Gil Urdiciain (1998), a autora entende como composição as formas de apresentação do tesauro (seja alfabética e sistemática ou alfabética e gráfica); a existência de índices auxiliares como listas de autoridade; e texto introdutório explicando as características e aplicações do tesauro. O tamanho de um tesauro diz respeito ao número de descritores e não descritores que o compõem. As relações de equivalência são identificadas entre os termos de um tesauro, devendo-se arrolar todas as relações deste tipo. A taxa de enriquecimento permite medir quantitativamente a proporção entre as relações com o número total de termos do tesauro. Sobre as notas de escopo, Gil Urdiciain esclarece que sua existência em um tesauro diminui a possibilidade de ambigüidade entre os termos. Em relação à morfologia das palavras, esta medida refere-se à forma, emprego do plural ou singular, e se os termos apresentam entrada direta ou inversa. Nas características composição e tipografia observamos o tipo de letra adotado e se apresenta recursos para destacar o termo geral. Por último, a taxa de pré-coordenação segue o princípio adotado por Lancaster (1986), sendo a média de palavras por descritor. Também abordando a avaliação de tesauros em língua espanhola, Bermejo et al. (1989) analisam 47 tesauros seguindo os parâmetros de qualidade informativa da apresentação, consistência interna, estrutura semântica e aspectos estéticos. Na apresentação dos tesauros, Bermejo et al. (1989) observaram o nível de estruturação conceitual e terminológico do domínio que compõe o instrumento, analisando se apresenta classes ou facetas, níveis hierárquicos, representação gráfica e a existência de índices complementares. No aspecto consistência interna, Bermejo et al. avaliam a reciprocidade das relações sintagmáticas e paradigmáticas e a forma das palavras. Na estrutura semântica, estudam os termos sob o ponto de vista conceitual, analisando a articulação dos assuntos, a relação entre os termos, se adotam notas de aplicação e medem a taxa de equivalência do tesauro ao compararem os termos de entrada efetivamente usados na indexação com os que são preteridos. Além destes aspectos, os autores destacam a taxa de enriquecimento, que é a medição das relações semânticas entre os descritores; a flexibilidade, a qualidade do tesauro para oferecer ao indexador uma multiplicidade de alternativas que representem determinado assunto; e o nível de pré-coordenação entre os termos. Nos aspectos estéticos apontam as características tipográficas do instrumento. Segundo os autores, a avaliação de um tesauro permite analisar seus aspectos formais e estruturais, avaliar a validade semântica dos descritores e se são adequados para o acervo a ser indexado. Com base na norma americana ANSI/NISO – Guidelines for the construction, format and management of monolingual thesauri, Owens e Cochrane (2004) definem como avaliação de tesauro o processo para determinar se um dado instrumento atinge seus principais objetivos, a saber: tradução (fornecer meios de traduzir a linguagem natural dos autores, indexadores e usuários num vocabulário controlado usado para indexação e recuperação), consistência (promover consistência na atribuição de termos de indexação), indicação de relacionamentos (indicar os relacionamentos semânticos entre os termos) e recuperação (servir como meio de busca na recuperação de documentos). As autoras propõem os seguintes métodos de avaliação de tesauro: comparativo (com outros modelos de tesauros nacionais ou internacionais), formativo (testar o tesauro analisando sua performance na indexação e recuperação), de observação (acompanhamento do desempenho do tesauro) e estrutural (observação dos termos genéricos, específicos e associados). No cenário nacional, Lara (1993) empreendeu estudo avaliativo a partir de quatro linguagens de indexação: Classificação Decimal de Dewey, Classificação Decimal Universal, Thesaurus POPIN e Macrothesaurus de Informação para o Desenvolvimento SócioEconômico. Na primeira etapa de sua pesquisa, a autora analisou as linguagens segundo sua identificação, objetivos, princípios de construção e forma de apresentação. Em seguida, empreendeu um estudo estrutural, observando a divisão em cadeias hierárquicas e a lógica das relações entre os termos. Avaliou também, segundo indicadores de eficiência: controle de vocabulário, elaboração de índices, representação da informação e comunicação documentária. Como parte de trabalho acadêmico desenvolvido com alunos de graduação em Biblioteconomia da UFF (Universidade Federal Fluminense), Campos (2006) recomenda os seguintes aspectos para a avaliação de um tesauro: domínio abrangente, sua organização, forma de apresentação (se possui parte alfabética e sistemática), unidade lingüística adotada (conceito, palavra, assunto), se apresenta relações conceituais, se tem documentação que explicita sua estrutura e conteúdo e como usar o instrumento, idioma utilizado, se possui definições de termos e aspectos sobre a consistência das relações entre os termos, uso do plural ou singular e nível de linguagem. A partir dos estudos sobre avaliação da consistência da indexação em uma biblioteca de artes, Strehl (1998, p. 331) consolida em sua metodologia os seguintes critérios para analisar um instrumento de representação: número de palavras por descritor, uso do singular e plural, sinônimos, descritores compostos (analisa o termo mais freqüente, a perda de significado devido à fatoração, combinações ambíguas e se um dos termos é nome próprio ou adjetivo), termos homógrafos ou inconsistentes, rotação de descritores, relação entre assuntos redundantes, relação de um assunto com sua subcategoria, descritores que indicam período histórico, identificadores geográficos e assuntos compostos por identificadores geográficos e cronológicos. Os autores aqui mencionados discorrem sobre diversos critérios a serem considerados na avaliação de uma linguagem de indexação. Alguns aspectos são apontados em mais de um estudo, como tipografia adotada, existência de notas de escopo e relações entre termos. Há critérios que apresentam entendimentos e aplicações diferentes, como no caso da pré ou póscoordenação: para Keen (1973) é considerada método de uso, já para Gil Urdiciain (1998) indica a média de palavras por descritor. Outros autores, como Owens e Cochrane (2004), incluem aspectos particulares da prática de indexação, como capacidade de tradução e consistência como critérios avaliativos de tesauros, ficando uma indefinição se a avaliação é sobre o instrumento ou sobre a representação em si. 3 COMPATIBILIZAÇÃO E CONVERSÃO DE LINGUAGENS Os estudos de compatibilização ganharam destaque nos anos 60, acredita-se que em virtude da explosão informacional e da posterior perda de controle da informação armazenada em meio eletrônico. Paralelamente, a possibilidade das diferentes agências norte-americanas de acessar mutuamente seus conteúdos e uma possível agilização da prestação de serviços incentivaram os estudos de compatibilização. (LANCASTER, 1986, p. 186) Logo, as pesquisas na área estão contextualizadas em um momento político no qual a informação angariou status estratégico e decisivo. Nos anos 70 observamos um declínio dos estudos de compatibilização devido à disseminação da pesquisa realizada por máquina. Já na década de 80 ressurgem os estudos, agora aplicados ao ambiente computacional e às questões de linguagem automatizada (problemas semânticos e sintáticos). Nos idos de 90, os estudos de compatibilização versam sobre a integração entre linguagens de sistemas computacionais, com destaque para a elaboração de ontologias que são usadas como ferramentas semânticas de forma a permitir a interoperabilidade entre sistemas. (CAMPOS; CAMPOS; CAMPOS, 2005; XUEYING, 2006) Na literatura nacional (LIMA et al., 1995; BOCATTO, 1995), observamos estudos de caso sobre compatibilização, que descrevem os passos metodológicos para se compatibilizar duas ou mais linguagens de indexação dentro de um domínio e em um sistema de informação. Os estudos de compatibilização e conversão de linguagens empreendidos por H. H. Neville e Ingetraut Dahlberg se destacam na área e nas pesquisas em ontologias (CAMPOS, 2005). Ambos se caracterizam pelo processamento intelectual das etapas de compatibilização. Enquanto Neville propõe o método de reconciliação de tesauros, Dahlberg estuda a elaboração de uma matriz de compatibilização conceitual. Em trabalho no qual aborda a compatibilização entre linguagens de indexação, Dahlberg (1981) adota a expressão 'sistemas ordenados' e os conceitua como sendo qualquer instrumento usado na organização, descrição e recuperação do conhecimento, composto por expressões verbais ou notacionais para conceitos e suas relações, dispostos de forma ordenada. A compatibilização entre sistemas ordenados é um dos métodos que permitem avaliar o nível de compatibilidade conceitual entre os elementos, de forma a serem utilizados em conjunto. Para isso, as linguagens necessitam passar por definições. (DAHLBERG, 1983, p. 5) A compatibilidade conceitual entre os elementos de sistemas ordenados proposta por Dahlberg (1983, p.6) compreende três fases: coincidência conceitual, quando dois conceitos combinam suas características, sendo portanto equivalentes; correspondência conceitual, quando dois conceitos combinam a maior parte de suas características, sendo similares; e correlação conceitual, quando dois conceitos são correlacionados através de símbolos matemáticos, por exemplo. Dahlberg, ao adotar a expressão compatibilização de linguagens de indexação, restringe os estudos de compatibilidade aos sistemas que de alguma forma atendiam àquela condição. Ao atribuir a expressão 'sistemas ordenados' amplia não só o conceito mas o universo de aplicação da metodologia de compatibilização, uma vez que flexibiliza a definição do instrumento a ser compatibilizado, podendo-se aí incluir as perguntas feitas pelos usuários, analisadas dentro de um contexto e que apresentam uma organização interna oferecida pelo sistema de recuperação. Segundo a autora (DAHLBERG, 1983, p. 5), compatibilidade é a qualidade de um sistema ordenado que permite que seus elementos possam ser usados juntos ou intercambiados com elementos de outro sistema ordenado. Para Neville (1972, p. 620), reconciliação é a possibilidade de integração e aproximação de sistemas que contemplam o mesmo tipo de literatura mas que adotam diferentes tesauros. Seguindo a técnica proposta pelo autor, a cooperação entre os sistemas não alterará as linguagens adotadas e nem haverá a necessidade de reindexar o conteúdo. Para o autor (NEVILLE, 1970), a reconciliação de tesauros pressupunha a criação de uma linguagem intermediária com um sistema de códigos que convergisse os dois ou mais instrumentos de representação a serem compatibilizados. Os códigos seriam inscritos em cada tesauro, com a inclusão de remissivas para as palavras-chaves. Neville (1972, p. 620) reforça o fato de que as palavras-chaves constantes dos tesauros não serão subtraídas ou acrescentadas, continuando com as mesmas características anteriores ao processo de reconciliação. O autor parte do pressuposto de que na representação de um conteúdo os conceitos é que são indexados, sendo as palavras-chaves ou descritores rótulos ou etiquetas lingüísticas que identificam os conceitos. Neville adota um tesauro como base e segue onze níveis de correspondência entre os termos dos dois vocabulários, analisando-os a partir da correspondência exata entre os termos, uso de sinônimos e homônimos, entre outros aspectos. Nos seus artigos, Neville não esclarece os critérios que levam à escolha do tesauro base e a definição de conceito adotada por ele. Poderíamos presumir que o tesauro base seria aquele que apresentasse uma maior abrangência no domínio. O autor esclarece que o sistema de códigos criado com a compatibilização poderá ser considerado um "supra-thesaurus", que reuniria a essência das linguagens reconciliadas. Contudo, ele chama atenção para o fato de que esses códigos não constituem um tesauro em si, mas sim uma representação dos conceitos das linguagens compatibilizadas, organizados em uma seqüência arbitrária. (NEVILLE, 1970, p. 333) 4 PRINCÍPIOS AVALIATIVOS IDENTIFICADOS NA LITERATURA A partir da revisão de literatura sobre avaliação de linguagens foram definidos os princípios para análise do instrumento de representação usado pelos analistas de informação do CDI. Combinando os critérios apontados por Campos (2006) com a metodologia aplicada por Keen (1973) na avaliação das linguagens participantes do teste em Aberystwyth e os estudos de Lancaster (1986), Gil Urdiciain (1998), Bermejo et al. (1989) e Strehl (1998), estabelecemos como relevantes para a avaliação do vocabulário controlado os critérios abaixo: • forma de apresentação – análise da origem da linguagem, se é adaptação de outro instrumento, se apresenta introdução explicativa com informações como histórico para sua contextualização; que domínio abrange; objetivos; condições de atualização e uso; número de termos; quais os fundamentos teóricos que nortearam sua elaboração; forma de apresentação (se possui parte alfabética e/ou parte sistemática); aspectos tipográficos e estéticos, se apresenta notação e fonte diferenciada para destacar o termo geral. • campo de abrangência – análise da(s) área(s) de conhecimento compreendida(s) pela linguagem de indexação, se os termos da linguagem indicam período histórico e se os assuntos são compostos por identificadores geográficos e cronológicos. • estrutura dos termos – análise do relacionamento entre os termos, ou seja, a 'estrutura do vocabulário'. Autores como Lancaster usam a expressão 'nível de coordenação dos termos' para designar termos constituídos por frases ou expressões. • forma das palavras – abordagem da unidade lingüística adotada no vocabulário. Na revisão de literatura há trabalhos que analisam se a linguagem emprega plural ou singular, se apresenta entrada direta ou inversa, o idioma adotado, se as palavras são compostas ou simples, se existem variações ortográficas e se são adotadas abreviaturas. • estrutura semântica – análise do vocabulário sob o ponto de vista conceitual, as relações entre os termos, a articulação dos assuntos e se adota notas de aplicação para excluir as ambigüidades. • relações de equivalência – análise do plano lingüístico do vocabulário, observando se há o controle de sinonímia. • software adotado pelo sistema de informação – análise de até que medida a seleção de determinado software tem conseqüências diretas na escolha do tipo de linguagem de indexação a ser usada em um acervo de documentos e sua organização interna. 5 ESTUDO EMPÍRICO O estudo empírico baseou-se em dois aspectos: a análise do vocabulário controlado e da área de Esporte e o estudo da identificação das solicitações dos usuários através das pesquisas realizadas no Arquivo Premium2. 5.1 ANÁLISE DO VOCABULÁRIO CONTROLADO E DA ÁREA DE ESPORTE O instrumento de representação atualmente utilizado na indexação de documentos textuais pela equipe de analistas de informação do CDI recebe o nome de vocabulário controlado e foi elaborado por ocasião da implantação do projeto corporativo que tornou digital os textos jornalísticos produzidos pelo jornal O Globo. Para analisarmos o vocabulário controlado de forma a conhecer sua natureza e organização, adotamos os princípios de avaliação de linguagem apontados, relacionando-os, quando possível, com características do vocabulário. Sobre a forma de apresentação, o vocabulário possui 2.642 termos, sendo 221 (8,3%) da área de Esporte, organizados alfabeticamente, com estrutura mista (ver exemplo abaixo). Apresenta entradas em classes gerais, manifestando aspecto sistemático, apesar de estarem dispostas alfabeticamente nas classes; e entradas específicas localizadas na ordem geral do vocabulário, fora de contexto. O instrumento de representação também não apresenta introdução ou documentação consolidada formalizando-o ou esclarecendo sua organização e uso. A falta de um documento descrevendo as diferentes etapas de construção da linguagem foi determinante para a inexistência de padronização e de critérios a serem cumpridos nas eventuais atualizações. O vocabulário não obedece a nenhum padrão internacional além da ausência de fundamentação teórica na sua elaboração. É multidisciplinar e corporativo, já que foi desenvolvido dentro das atividades do CDI, tendo como base a representação da informação jornalística publicada pela empresa. Sua construção foi norteada fundamentalmente pela prática diária do setor e em relação ao principal usuário à época: o jornalista do jornal O Globo. Uma vez que objetiva traduzir e recuperar a informação publicada no produto-fim da empresa - o jornal impresso diário, o campo de abrangência do vocabulário contempla diferentes domínios do conhecimento, refletindo as diferentes editorias ou seções do jornal impresso publicadas diariamente. Fato apontado por Novellino (2000, p. 17) ao analisar que a estrutura de conhecimento de um dado acervo é representada pela linguagem do sistema. Há agrupamentos de palavras para economia, política, esporte, ciências, assuntos internacionais, entre outros. O nível de especificidade dos termos corresponde aos fatos que tiveram foco no jornal diário, refletindo as características do veículo. Analisando sua estrutura dos termos, o vocabulário controlado é uma linguagem pós-coordenada, cabendo aos usuários a combinação dos termos considerados relevantes para a recuperação de uma necessidade de informação no momento da saída do sistema. No tocante à forma das palavras que integram o vocabulário controlado, observamos as seguintes incidências: termos no singular, salvo uso consagrado no plural. Ex: Artes_Marciais, Jogos_Pan-Americanos, Saltos_Ornamentais; termos apresentando entrada direta. Ex: Dirigente_Esportivo, Federação_Esportiva; formas simples e compostas. Ex: Ginástica, Ginástica_Aeróbica, Futebol; utiliza expressões em mais de uma língua. Ex: Snakboard, Pit_Stop, Pole_Position, Bungee_Jump, Mountain_Bike; diferenciação entre feminino e masculino em algumas expressões. Ex: Ator, Atriz, Francês, Francesa. Ao fazer o levantamento das palavras compostas constantes no vocabulário controlado, apuramos 932 termos, representando 35,2% do total, sendo 111 (11,9%) termos da área de Esporte. Tal índice contribui para maior precisão na indexação/recuperação, caracterizando especificação dos termos. Observamos que ao empregar a ordem direta das palavras segundo a linguagem natural no vocabulário, os profissionais que elaboraram o instrumento permitiram uma aproximação do termo de indexação com a proposição jornalística formulada pelo repórter. Ao analisar a estrutura semântica do vocabulário controlado, constatamos que a ausência de uma linha teórica se reflete na organização dos termos, pois não apresenta uma hierarquia classificatória, nem a adoção de uma subordinação hierárquica uniforme ao longo do instrumento, induzindo a falsas subordinações de termos. Não possui relações genéricoespecíficas, partitivas e associativas. Apesar do uso de adjetivos qualificando algumas palavras do vocabulário, a ausência de definição dos termos e a já mencionada falta de uma base teórica tornam visível uma inconsistência na estruturação da linguagem, fazendo com que alguns termos não estejam nas categorias pertinentes. Apesar do recurso de endentação oferecido pelo sistema, o que permitiria a reunião de termos correlatos em uma categoria, verificamos a existência de 298 termos (11,2%) localizados na ordem geral do vocabulário, não estando subordinados a qualquer categoria. Na área de Esporte, grande parte dos termos está agrupada dentro desta classe, além de outros, distribuídos na ordem alfabética do vocabulário. Modalidades esportivas, equipamentos esportivos, desportistas, eventos esportivos, competições e instalações esportivas não se apresentam numa estruturação lógica (ver exemplo abaixo). A 'subordinação' sugerida pela endentação não caracteriza uma apresentação sistemática. Ex: Esporte [...] Esgrima Esporte_Amador Esporte_de_Inverno Esporte_Estudantil Esporte_Infantil Esporte_Juvenil Esporte_Senior Esporte_Universitário Universíade Esporte_Radical Esqui Esqui_Aquático Estádio Fase_Eliminatória Fase_Final Final Usando o exemplo acima, apesar de Esqui e Esqui_Aquático apresentarem diferentes definições (o primeiro é para deslizar sobre a neve e o segundo sobre a água), o termo Esqui_Aquático encontra-se subordinado ao termo geral Esqui, induzindo a uma falsa subordinação, na qual a palavra se sobrepõe ao conceito. As duas modalidades deveriam estar no mesmo nível. Determinadas modalidades esportivas apresentam termos subordinados, similar a uma relação hierárquica, mas organizados alfabeticamente. Uma vez que o texto jornalístico foi adotado como fonte de pesquisa e de levantamento dos termos, observamos que o instrumento de indexação foi influenciado pela linguagem natural, na qual a palavra adquire sentido de acordo com o contexto. No vocabulário, a subordinação é usada para atribuir um conceito específico a uma palavra que pode ser usada em diferentes contextos, controlando o significado do termo. Por exemplo, a palavra Campo, ao estar subordinada a Futebol, indica que o termo somente poderá ser usado para ‘campo de futebol’, e não ‘campo’ com sentido agrícola. Ex: Esporte [...] Futebol [...] Campo Ao analisarmos o vocabulário controlado a partir do aspecto relações de equivalência, observamos que o mesmo não apresenta o controle de sinonímia entre termos por limitação tecnológica do sistema Digicol, ferramenta usada na representação/recuperação da informação jornalística. Analisando o software adotado pelo CDI, o Digital Collections (Digicol) influenciou diretamente na organização da versão final do vocabulário controlado. O sistema não permite o uso de notas de aplicação ou descrição dos termos, relações associativas e hierárquicas, assim como indicação de equivalências, sinonímias ou homonímias. Para a reestruturação do vocabulário foram usados os seguintes recursos oferecidos pelo sistema: adoção de até três níveis de estruturação (ou subordinação), adoção do underline para termos compostos em todos os campos do formulário de indexação e a possibilidade de associar termos correlatos usando os dois pontos (ex: Pessoa=Pelé: Edson_Arantes_do_Nascimento) Os termos do vocabulário controlado são utilizados na representação de textos jornalísticos, através do preenchimento do campo PalavraChave do formulário de indexação. Especificamente neste campo, acredita-se que o recurso underline oferecido pelo sistema, além de permitir a formação da palavra composta, indica que a expressão é um único registro, como por exemplo, Tênis_de_Mesa. Ao pesquisar por determinada notícia usando uma palavra chave formada por mais de uma palavra, é necessário o uso do underline ao fazer a busca pelo campo PalavraChave. No campo PalavraChave somente são autorizados os termos que compõem o vocabulário, não sendo permitida pelo sistema Digicol a digitação de termos não constantes na linguagem de indexação. 5.2 AS SOLICITAÇÕES DOS USUÁRIOS Para obter o vocabulário do usuário, recorremos às expressões de busca usadas no Arquivo Premium. A escolha das buscas pelos usuários externos deveu-se ao fato de o software Digicol, usado internamente na representação e recuperação da informação jornalística, não oferecer recursos para acompanhamento das buscas realizadas pelos usuários internos da Infoglobo. A partir de uma pesquisa (query) na base de dados, e levando em consideração as informações consideradas relevantes para esta análise (nome do jornal, palavras e/ou nomes usados na busca e Editoria), os seguintes resultados foram obtidos: Mês/2006 Pesquisas Pesquisas à editoria de Expressões Esportes repetidas Ocorrências Janeiro 141.603 1340 (0,94%) 419 (31,2%) Fevereiro 107.243 735 (0,68%) 163 (22,1%) Março 122.068 1021 (0,83%) 351 (34,3%) Total 370.914 3096 (0,83%) 933 (30,1%) Tabela 1: Total de pesquisas e expressões repetidas por mês no Arquivo Premium Considerando que o jornal O Globo está organizado internamente em nove editorias, percebe-se que há um certo equilíbrio nas buscas efetuadas na editoria de Esportes (0,83%). Após o agrupamento das expressões repetidas, foram totalizados 886 itens únicos. Desse total, 645 são conceitos individuais ou nomes próprios e 241 são conceitos ou termos (Tabela 2). Mês/2006 Termos Nomes próprios Total Ocorrências Janeiro 102 278 380 Fevereiro 73 153 226 Março 66 214 280 Total 241 (27%) 645 (73%) 886 (100%) Tabela 2: Ocorrência de termos e conceitos individuais no Arquivo Premium Solicitações por época (ex. Era Garrincha) e por nomes próprios não foram consideradas neste estudo porque o vocabulário controlado do CDI não contempla estas categorias. A forma dos termos não foi padronizada na etapa do levantamento, mantendo-se a forma empregada pelos usuários. Para o estudo das solicitações, além de reunirmos os termos equivalentes, agrupamos as diferentes formas de busca para identificar as categorias predominantes: desportista, dirigente esportivo, técnico, modalidade esportiva, evento esportivo, lugar, equipamento esportivo, nome de clubes, estádios, instalações esportivas, nomes sem categorias (que não se inseriam nas demais categorias), termos associados à modalidade esportiva (sem categoria definida uma vez que precisam ser pesquisadas). Destacamos as palavras sistematizadas em modalidade esportiva, equipamento esportivo e termos associados à modalidade esportiva para a confecção da lista de solicitações a serem compatibilizadas como os termos do vocabulário controlado. Características das solicitações dos usuários na busca por informações no Arquivo Premium: • Solicitações feitas através de frases. Ex: jogo do botafogo e vasco, polêmica no futebol é a bola, Fluminense é bi em 1941 no Fla-Flu da Lagoa. • Pesquisa entre aspas. Ex: "futebol junior", "romario mil gols". • Pesquisas seguindo o default do sistema (o espaço entre palavras é interpretado como "e") Ex: júlio césar flamengo suzana, jogador sávio afastado. • Disputa entre times/seleções. Ex: Palmeiras x Vasco, fla-flu, brasil X Argentina. • Por títulos de matérias. Ex: Técnico do América, que faz semifinal hoje, é rígido mas dá até conselhos; TCU aceita explicações da CBV sobre Omega. Em todos estes casos foram selecionadas as palavras relativas a Esporte, obtendo-se uma lista com 104 termos. 6 COMPATIBILIZAÇÃO DOS VOCABULÁRIOS A compatibilização do vocabulário controlado com as solicitações na saída do sistema foi posta em prática ao identificarmos alguns aspectos dos estudos da área, como apresentado no item 3. Como o vocabulário não apresenta notas de aplicação ou definições dos conceitos, não foi possível a construção da matriz conceitual defendida por Dahlberg. No entanto, quando possível, fez-se a compatibilização semântica. Foi aplicada em nossa análise a metodologia de comparação verbal da autora. Para compatibilizar os termos do vocabulário controlado com as solicitações dos usuários, nos fundamentamos nos passos metodológicos propostos por Neville (1972) para a integração de duas ou mais linguagens de indexação. No estudo adotamos as análises lingüística e semântica. A correspondência lingüística entre os termos de duas ou mais linguagens é o princípio que manifesta menor complexidade no método de compatibilização. Compreende a associação exata entre termos, estando as palavras no plural ou no singular. Também analisamos os termos sinônimos e homônimos evidenciando a existência de palavras com mesma significação que outras e/ou com a mesma denominação, garantindo a reconciliação entre os termos constantes tanto na solicitação do usuário quanto no vocabulário. Ao identificarmos que as solicitações dos usuários são lingüisticamente diferentes dos termos constantes do vocabulário controlado, apesar de apresentarem o mesmo significado, estamos analisando a correspondência semântica entre as palavras. Observamos a localização de uma expressão solicitada pelo usuário no vocabulário controlado, a que categoria está subordinada ou se está localizada na ordem geral do instrumento. 7 RESULTADOS E DISCUSSÃO A partir dos relatórios extraídos das bases de dados do Arquivo Premium constatamos a grande incidência de conceitos individuais ou nomes próprios: 73% nos meses estudados em relação aos termos (27%). O resultado denota a importância desse tipo de conceito para o usuário da informação jornalística publicada na área esportiva, revelando a necessidade de se criar listas de autoridades, permitindo uma padronização e controle dos conceitos individuais na indexação e conseqüente otimização na representação e recuperação da informação. Após a elaboração do quadro comparativo no qual as solicitações dos usuários foram compatibilizadas lingüística e semanticamente com os termos do vocabulário, obtivemos os seguintes resultados: • Compatibilização lingüística - identificamos 52 (50%) expressões dos usuários com correspondente no instrumento, sendo 39 (37,5%) expressões com correspondente no vocabulário de Esporte, e 13 solicitações (12,5%) localizadas na ordem alfabética geral do instrumento ou subordinadas a outros domínios. Apesar da ausência de uma estrutura lógica, lingüisticamente o vocabulário controlado atendeu a 50% das solicitações dos usuários, mesmo que alguns termos não estejam subordinados a Esporte, como Jogo, Juiz e Xadrez. Exemplos de solicitações compatibilizadas lingüisticamente e subordinadas à área de Esporte: Atletismo, Autódromo, Automobilismo. Exemplos de expressões localizadas na ordem geral: Arquibancada, Bandeira, Bola. • Compatibilização semântica - foram identificados 21 (20,1%) termos equivalentes. Analisando as relações conceituais entre os termos, verificamos a possibilidade de estabelecimento de semelhanças, sendo possível o controle de sinônimos e de palavras com grafias diferentes numa possível revisão do vocabulário. Ao identificarmos termos equivalentes, constata-se a necessidade de o instrumento apresentar relações de sinonímia, a fim de evitar o esforço na recuperação, uma vez que o usuário desconhece o termo usado na indexação pelo sistema. Além disso, a presença de relações promove a consistência na indexação. Exemplos: Clássico (solicitação) – Partida (vocabulário); Craque (solicitação) – Jogador (vocabulário). • Nível de especificidade evidenciado pelo usuário -13 (12,5%) solicitações manifestam uma especificidade que não é contemplada pelo vocabulário controlado. A ausência de especificidade influencia na precisão do resultado da busca. Nessas solicitações os usuários expressaram suas buscas com qualificadores, demonstrando uma especificidade que merece análise. No caso dos 'campeonatos', verifica-se que as solicitações privilegiam um aspecto (brasileiro, espanhol, carioca) e o vocabulário outro aspecto (nacional, estadual), não sendo essas características incompatíveis. O vocabulário, em sua revisão, poderá ter os termos relativos a ‘campeonato’ reunidos por aquelas diferentes características. Uma política de indexação deverá ser estabelecida para garantir o que poderia ser redundância, mas que facilitaria a localização da matéria jornalística pelo usuário. Exemplos: Campeonato baiano (solicitação) Campeonato_Estadual (vocabulário); Campeonato brasileiro (solicitação) - Campeonato_Nacional (vocabulário). • Nível de especificidade do vocabulário - observamos que 14 (13,4%) solicitações manifestam generalidade enquanto que o vocabulário é específico, sendo compatibilizadas com 31 termos do instrumento. O vocabulário é específico de modo a permitir recuperação da informação com certo nível de precisão. Contudo, tais elementos são insuficientes para definir o comportamento do usuário uma vez que ele emprega tanto os termos específicos como os gerais. No caso das modalidades esportivas mais populares como vôlei, basquete, natação, boxe, tênis e futebol, o usuário prefere o termo geral enquanto que o vocabulário é preciso, oferecendo resultados mais relevantes se a busca for específica. Exemplo: Boxe (solicitação) – Boxe_Masculino e Boxe_Tailandês (vocabulário). • Termos não existentes no vocabulário - apesar de o vocabulário de Esporte apresentar um número maior de termos (221) em relação às solicitações dos usuários (104), e ter o objetivo de representar uma dada área de conhecimento, tais condições não foram determinantes para atender todas as solicitações levantadas. Avaliando em que medida os dois vocabulários são compatíveis entre si, 16 (15,3%) solicitações dos usuários não foram compatibilizadas lingüisticamente ou semanticamente por não encontrarem correspondência no vocabulário. Exemplos de solicitações que não existem no vocabulário controlado: Amistoso, Atuação, Bobsled, Categorias de base. 8 CONSIDERAÇÕES FINAIS O método de compatibilização adotado na pesquisa contribuiu não apenas para verificar em que medida os dois vocabulários estudados são compatíveis, mas trouxe subsídios para a futura revisão do vocabulário, em especial para sua estruturação, por fornecer critérios de avaliação. Quando a linguagem de indexação não contempla uma organização lógica e hierárquica, a recuperação da informação fica comprometida, além de dificultar as tarefas do profissional responsável pela representação da informação. Um acompanhamento contínuo do vocabulário controlado é necessário pela própria transformação do idioma, como também pelo aspecto dinâmico do veículo jornal, suscetível às mudanças da sociedade. Em um sistema de recuperação da informação, o estudo avaliativo das linguagens de indexação permite um processo constante de atualização do instrumento de representação e das próprias políticas de informação do sistema. Ampliando o escopo inicial da pesquisa, a partir da “garantia do usuário”, o estudo permitiu não somente avaliar o instrumento de representação adotado pelo CDI, mas fazer uma reflexão sobre o sistema tecnológico adotado, suas limitações e implicações na representação e recuperação da informação jornalística, possibilitando a avaliação do sistema de informação em si. 9 REFERÊNCIAS BERMEJO, C. A.; RUBIO, A. V.; ROJO, A. S. Desarrollo de lenguajes documentales formalizados en lengua espanola: II. evaluación de los tesauros en lengua espanola. Revista Espanola de Documentación Cientifica, v. 12, n. 3, p. 283-305, 1989. BOCCATO, Vera Regina Casari; PRATI, Suely; TRINDADE, Valéria Cristina Spina. et al. Estudo de compatibilização de linguagens documentárias na área odontológica para o banco de dados bibliográficos da USP - Dedalus. Ciência da Informação, v. 25, n. 2, 1995. CAMPOS, Maria Luiza de Almeida (coord.). Critérios para avaliação de tesauro documentário. Disponível em: <http://www.conexaorio.com/biti/tesauro/index.htm>. Acesso em: 02 dez.2006. ______. Integração de Ontologias: o domínio da bioinformática e a problemática da compatibilização terminológica . 2005. (Projeto de pesquisa aprovado pelo CNPq para o período de 2005 a 2008). CAMPOS, Maria Luiza Machado; CAMPOS, Maria Luiza de Almeida; CAMPOS, Linair Maria. Web Semântica e a Gestão de Conteúdos Informacionais. In: MARCONDES, Carlos H. e (org). Bibliotecas Digitais: Saberes e Práticas. Salvador/Brasília: EDUFBA/IBICT, p. 55-78, 2005. DAHLBERG, Ingetraut. Conceptual Compatibility of Ordering Systems. International Classification, v. 10, n. 1, p. 5-8, 1983. ______. Towards establishment of compatibility between indexing languages. International Classification, v. 8, n. 2, p. 86-91, 1981. GIL URDICIAIN, Blanca. Evaluación semántica y estructural de tesauros. Revista General de Información y Documentación, v. 8, n. 2, 1998. KEEN, E. Michael. The Aberystwyth Index Languages Test. Journal of Documentation, v. 29, n. 1, March 1973. LANCASTER, F.W. Information Retrieval Systems: Characteristics, Testing and Evaluation. 2. ed. New York: J. Wiley, 1979. LANCASTER, F.W. Avaliação de Serviços de Bibliotecas. Brasília: Briquet de Lemos, 2004. ______. Vocabulary Control for Information Retrieval. Virginia: Information Resources Press, 1986. LARA, Marilda Lopes Ginez de. A representação documentária: em jogo a significação. São Paulo, 1993. 133 f. Dissertação (Mestrado em Ciências da Comunicação) - Departamento de Biblioteconomia e Documentação, Escola de Comunicação e Artes, Universidade de São Paulo, 1993. LIMA, Vânia Mara Alves et al. Atualização da lista de assuntos USP: compatibilização de linguagens documentárias. Ciência da Informação, v. 25, n. 2, 1995. LOPES, Eunice de Faria. Avaliação de Serviços de Indexação e Resumo: Critérios, medidas e Metodologia. Revista da Escola de Biblioteconomia, Belo Horizonte, v. 14, n. 2, p. 242-256, set. 1985. NEVILLE, H.H. Feasibility study of a scheme for reconciling thesauri covering a commom subjetc. Journal of Documentation, v. 26, n. 4, p. 313-336, December, 1970. ______. Thesaurus reconciliation. Aslib Proceedings, v. 24. n. 11, p. 620-626, November 1972. NOVELLINO, Maria Salet Ferreira. A transferência da informação através dos seus contextos de produção e uso: linguagens de transferência da informação. Rio de Janeiro, 2000, 167 f. Tese (Doutorado) Ciência da Informação - Instituto Brasileiro de Informação em Ciência e Tecnologia; Universidade Federal do Rio de Janeiro, 2000 OWENS, Leslie Ann; COCHRANE, Paulie Atherton. Thesarurus Evaluation. Cataloguing & Classification Quartely, v. 37, n.3/4, p. 87-102, 2004. SAGER, J.C.; SOMERS, H.L.; MCNAUGHT, J. Thesaurus Integration in the Social Sciences. Part 1. Comparison of Thesauri. International Classification, v. 8, n. 3, p. 133-138, 1981. STREHL, L. Avaliação da consistência da indexação realizada em uma biblioteca universitária de artes. Ciência da Informação, v. 27, n.3, p. 329-355, set./dez. 1998. XUEYING, ZHANG. Concept integration of document databases using different indexing languages. Information Processing & Management, v. 42, p. 121-135, 2006. 1 Este trabalho é resultado da dissertação de mestrado apresentada ao Curso de Pós-Graduação em Ciência da Informação, convênio UFF/IBICT. 2 Arquivo Premium é o site que oferece e comercializa os documentos textuais produzidos pelos Jornais O Globo e Extra.