Atribuindo Títulos de Assuntos na Categorização
Transcrição
Atribuindo Títulos de Assuntos na Categorização
ATRIBUINDO TÍULOS DE ASSUNTOS NA CATEGORIZAÇÃO AUTOMÁTICA DE DOCUMENTOS Autores do Artigo: Thiago Bortolo Ramiro, Elias Oliveira, Lívia Lopes Azevedo, Valéria Monteiro e Sergio Teixeira Departamento de Ciências da Informação Universidade Federal do Espírito Santo Campus de Goiabeiras, Av. Fernando Ferrari, s/n, Cx Postal 5011, 29060-970 – Vitória-ES, Brasil http://www.inf. ufes.br/~elias [email protected] Resumo Apresenta experimento com a criação automática tanto de diretórios de artigos como também de títulos para cada um destes conjuntos de artigos, usando técnicas automáticas para agrupamentos de documentos, em particular salientando a de extração de semântica latente do texto do documento. Para realização desse trabalho, pegamos emprestada a análise fatorial da Estatística. Esta técnica foi utilizada em uma amostra de 46 artigos da revista eletrônica DataGramaZero. Desta forma, este processo constitui-se em um modelo automático de indexação no qual a semântica latente entre os documentos é realçada. Para agrupar tais documentos utilizamos um algoritmo clássico da literatura para este fim. Para cada grupo de documentos similares foi aplicada, novamente, a análise fatorial objetivando realçar os temos mais relevantes para cada um dos grupos para servir como provável título para o grupo. A classificação automática, apesar de ainda estar longe de substituir aquela realizada por um especialista, tem a vantagem de padronizar a atividade de classificação. Além desta vantagem, esta técnica se mostra superior em lidar com grandes volumes de documentos, o que é cada vez mais uma realidade nesse nosso tempo de Internet. Nossos resultados mostram que nossa ferramenta daria ao usuário uma forma mais amigável de recuperação da informação desejada dentro de um site de uma revista on-line por permitir a pesquisa através de diretórios de assuntos. Palavras-chave: Classificação automática de documentos; Recuperação de Informação; Extração de Semântica Latente. 1 Introdução A grande massa de informações na forma de texto, disponibilizadas nos meios eletrônicos, em especial na Internet, tem gerado um problema no que diz respeito à busca e obtenção de informações. Neste contexto, trabalhos e pesquisas tem impulsionado o desenvolvimento da área de Recuperação de Informação (RI), cuja meta é encontrar meios de garantir acesso facilitado às informações consideradas relevantes. Uma das linhas de pesquisa em RI é a indexação automática de documentos, cujo objetivo é obter de um documento seus termos mais relevantes, a fim de compor uma amostra (representação) do documento. Dos vários modelos para representação da indexação de documentos existentes, um que se mostra bastante interessante é o LSI (Latent Semantic Indexing). Vários trabalhos sobre LSI podem ser encontrados na literatura sobre RI, tais como (Baeza-Yates, 1999). Outra linha de pesquisa em RI é a categorização, classificação, ou ainda, clusterização, de documentos, que consiste em organizar informações automaticamente em grupos de documentos similares, gerando assim facilidades para sua visualização, manipulação e análise. Trabalhos sobre categorização de documentos são mencionados em (Wives, 1997), (Wives, 1999), e na literatura básica de RI e Processamento de Linguagem Natural (PLN), como por exemplo, (Scarinci, 2002), (Baeza-Yates, 1999). Este trabalho tem como objetivo analisar um experimento de categorização de documentos e, posteriormente, identificar os assuntos que cada categoria formada trata, usando para tanto o modelo LSI. O experimento será aplicado a uma amostra de artigos da revista eletrônica de Ciência da Informação DataGramaZero. Inicialmente, a técnica LSI será aplicada na amostra de documentos com o objetivo de gerar uma representação matemática para cada documento. Nesta representação, cada documento é visto como um vetor multidimensional. Em seguida, será processado um algoritmo de categorização nos documentos. A categorização é baseada na similaridade entre cada par de documentos da amostra. Depois de identificados os grupos de documentos similares, o modelo LSI será novamente aplicado a cada categoria formada, com a intenção de identificar o assunto nela tratado. Uma aplicação computacional foi desenvolvida para processar o experimento. A estruturação deste trabalho esta feita da seguinte forma: a Seção 2 apresenta a descrição sobre o modelo LSI e sua aplicação; a Seção 3 trata do processo de categorização de documentos, apresentando algoritmos de categorização conhecidos na literatura; na Seção 4 é exposta a metodologia utilizada para o desenvolvimento deste trabalho; os resultados do experimento são apresentados e comentados na Seção 5; por fim, na Seção 6, são feitas as conclusões e as últimas considerações. 2 O Modelo LSI Nos últimos 20 anos ocorreu um grande avanço na área de recuperação de informação devido ao enorme crescimento da World Wide Web e da evolução das tecnologias. Atualmente, estão em evidência as pesquisas relacionadas à busca e à recuperação de informação na Web (Baeza-yates, 1999). Os modelos clássicos de recuperação de informação são: O modelo booleano, o vetorial e o probabilístico. No modelo booleano, documentos e consultas são representados por um conjunto de termos de indexação com o objetivo de possibilitar a manipulação dos documentos e sua posterior recuperação. Esses termos, também conhecidos como keywords, podem estar presentes ou ausentes em um determinado documento. No modelo vetorial, documentos e consultas são representados por vetores no espaço euclidiano multidimensional. No modelo probabilístico, documentos e consultas são representados pelas teorias da probabilidade. Com o passar dos anos surgiram outros modelos baseados nos modelos clássicos. As pesquisas baseadas no modelo vetorial se destacam devido a sua simplicidade, velocidade e facilidade de computação do fator de similaridade entre termos e documentos. Neste modelo, os documentos e consultas são representados por vetores no espaço euclidiano com t dimensões, onde cada uma das t posições do vetor é um termo de indexação. Assim, cada termo de indexação corresponde a um eixo do espaço t-dimensional. O i-ésimo elemento do vetor é um valor que mede o peso (importância) do respectivo termo de indexação para o documento, ou seja, qualifica a relação entre o termo e o documento, além de especificar o tamanho e a direção do vetor que representa o documento. O vetor de um documento dj é representado por dj = (w1j, w2j, ...wtj), onde wij é peso do termo i no documento j e o valor de t corresponde ao total de termos de indexação. O vetor de consultas q é representado de forma semelhante a um documento neste modelo. A representação de uma consulta q é dada por q = (w1q, w2q, ..., wtq), sendo que, wiq representa o peso de um termo i para a consulta q. A Figura-1 ilustra a utilização do modelo vetorial para representar o documento DOC no espaço tridimensional indexado pelos termos t1, t2 e t3 cujos pesos são 5, 4 e 3 respectivamente. Figura-1: Representação de um documento no modelo vetorial. Dados dois documentos x e y, podemos representá-los através de vetores em um mesmo espaço t-dimensões. Desta forma é possível avaliar o grau de similaridade entre os documentos x e y, sim(x, y), através do co-seno do ângulo entre os dois vetores, conforme é apresentado pela equação na Equação-1. Equação-1: Equação de cálculo de similaridade entre dois documentos x e y. Como uma consulta no modelo vetorial é representada como um vetor, assim como os documentos, também pode se calcular a similaridade entre uma consulta q e um documento dj, bastando computar sim(q, dj). Apesar de o modelo vetorial ser bastante utilizado, o custo computacional pode ficar muito alto dependendo do número de termos e documentos a serem processados pela matriz de termos versus documentos. Além disso, documentos e consultas que contenham termos de indexação sinônimos podem não recuperar documentos relevantes. Dentre os problemas que podem ocasionar esta situação, merecem destaque as limitações ocasionadas por problemas de polissemia1, sinonímia2, frases3, contexto local4 e contexto global5 (Riloff, 1994). Com o objetivo de minimizar os problemas gerados por falsos resultados de comparações léxicas, o método de LSI tende a realçar as relações entre os documentos através da identificação de estruturas semânticas ocultas nas relações entre termos e documentos (Deerwester, 1990). A proposta do LSI é o mapeamento dos vetores de documentos e consultas em um espaço vetorial reduzido associado aos conceitos. Sendo t o número de termos indexados em uma coleção de documentos e N o número total de documentos, é definida como M = (mij)txN a matriz de termos e documentos, cujas linhas da matriz representam os termos e colunas representam os documentos. Cada elemento mij da matriz representa o peso ou freqüência de um termo em um determinado documento. O LSI propõe a decomposição da matriz M em três outras matrizes através do método chamado de Singular Value Decomposition (SVD), de tal forma que o produto dessas matrizes seja igual à matriz M, conforme a formula: M = K.S.Dt. As três matrizes K, S, e Dt obtidas são reduzidas ao eliminarmos algumas de suas linhas e colunas. Um passo importante no método LSI é a definição do valor c no processo de redução das matrizes K, S, e Dt. O valor de c define o número de linhas e colunas das matrizes K, S e Dt que serão consideradas relevantes para os cálculos posteriores e despreza as demais linhas e colunas. 1 Fato lingüístico que ocorre quando uma palavra possui muitos significados. 2 Fato lingüístico que se caracteriza pela existência de palavras sinônimas. Ocorre quando existem várias formas de se referenciar algo. 3 Palavras que são bons indexadores apenas em frases específicas. 4 Algumas palavras e frases que são bons indexadores apenas em locais específicos 5 Alguns documentos não contem nenhuma palavra ou frase que são bons indexadores, a relevância do documento depende de uma sentença, parágrafo ou todo o texto. O valor de c deve ser grande o suficiente para incluir os dados de interesse e pequeno o bastante para filtrar os detalhes não representativos. O valor de c é empírico, entretanto, é possível ajustar o valor de c de acordo com resultados obtidos nos experimentos. Após o processo de redução das matrizes, o próximo passo consiste em multiplicar as matrizes reduzidas. O produto dessa multiplicação resultará na matriz Mr que consiste em uma matriz de t linhas e N colunas, correspondendo à mesma dimensão da matriz original M. A diferença entra a nova matriz Mr e a matriz origeinal M é que a matriz Mr tende a realçar os valores semânticos ocultos na matriz M. 3 Categorização de Documentos A tarefa de agrupar objetos, também conhecida por clustering, não é recente. O conceito de aglomerado (cluster) é tão antigo quanto às bibliotecas. Muitos anos antes da criação dos primeiros computadores, as pessoas já realizavam este processo manualmente, pois agrupar elementos similares facilita a localização de informações (Wives, 1999). O objetivo do agrupamento de informações textuais é separar uma série de documentos dispostos de forma desorganizada em um conjunto de grupos que contenham documentos de assuntos similares. Este objetivo está baseado no princípio da Hipótese de Agrupamento (Cluster Hypothesis), levantado por (Rijsbergen, 1979). Este princípio diz que objetos semelhantes e relevantes a um mesmo assunto tendem a permanecer em um mesmo grupo (cluster), pois possuem atributos em comum. Segundo (Cutting, 1992), quanto à forma, há dois tipos de agrupamento: o agrupamento por partição e o agrupamento hierárquico. Eles dizem respeito à forma em que os grupos são constituídos. No primeiro tipo de agrupamento, denominado por partição, os objetos são distribuídos em classes distintas, não havendo relação direta entre as classes. Este tipo de agrupamento é denominado agrupamento de partição total (flat partition) e os documentos são separados exaustivamente e colocados em grupos totalmente diferentes. No segundo tipo, denominado partição hierárquica (hierarchic partition), o processo de identificação de grupos é geralmente realimentado recursivamente, utilizando tanto objetos quanto grupos já identificados previamente como entrada para o processamento. Deste modo, constrói-se uma hierarquia de grupos de objetos, estilo uma árvore. Diversas técnicas de agrupamento existem. Técnicas muito utilizadas em agrupamento de objetos textuais pertencem à classe chamada graphic-theoretic. Os algoritmos pertencentes à classe graphic-theoretic, segundo (Kowalski, 1997), são os seguintes: Cliques, Stars, Connected Components e Strings. A seguir é apresentada uma breve descrição de cada um destes algoritmos. 3.1 Cliques Este algoritmo exige que todos os objetos do cluster sejam similares entre si, respeitando um limite mínimo de similaridade – chamado de threshold – entre os objetos. Este é o algoritmo que produz melhores resultados, pois os elementos escolhidos para compor um cluster apresentarão alta coesão entre si. 3.2 Stars A idéia básica deste algoritmo consiste em selecionar um elemento e identificar todos os elementos similares a ele segundo um fator de mínimo de similaridade. Deste modo, tem-se uma figura muito parecida com uma estrela (daí o nome: star ou estrela), pois um item central conecta todos os outros componentes do grupo. 3.3 Connected Components Este algoritmo é também conhecido como Single Link. Ele é semelhante ao algoritmo Cliques. Porém, neste caso, qualquer objeto que seja similar a algum outro objeto de um cluster, não necessitando ser similar a todos, como no caso do algoritmo Cliques, é adicionado ao cluster. 3.4 Strings A idéia deste algoritmo é construir uma cadeia de objetos similares, como em uma cadeia de caracteres (string), onde o objeto A está conectado ao objeto B, este ao objeto C, e, assim, sucessivamente até que não existam mais conexões. O método consiste em criar uma classe com o primeiro objeto. Após, é necessário localizar o próximo objeto similar a ele e adicioná-lo na mesma classe. Selecionar o novo objeto, que foi o último a entrar no cluster, e localizar o objeto mais similar a ele. Repetir o processo repetidamente até não haver mais objetos semelhantes ao último a entrar no cluster. 4 Metodologia Utilizada Neste trabalho utilizou-se uma amostra de artigos da revista eletrônica DataGramaZero (http://www.dgz.org.br) a fim de ser submetida ao processo automático de categorização de documentos. Os artigos utilizados neste experimento estão listados na Tabela-1, e correspondem as publicações dos anos 1999, 2000 e 2001 da revista DataGramaZero, excluindo-se os artigos escritos em língua estrangeira. ID 01 02 03 04 05 Mês/Ano de publicação OUT/2000 OUT/2000 OUT/2000 ABR/2000 ABR/2000 06 07 08 09 10 11 12 13 ABR/2000 DEZ/1999 DEZ/1999 DEZ/1999 DEZ/1999 DEZ/2001 DEZ/2001 DEZ/2001 14 DEZ/2001 15 DEZ/2001 16 FEV/2001 17 FEV/2001 18 FEV/2001 Título do artigo Capacidade governativa, informação, e governo eletrônico Construindo a sociedade da informação no Brasil: uma nova agenda Os Conteúdos e a Sociedade da Informação no Brasil A Classificação como Interface da Internet O Interagir Humano-Computacional: mapeando relações heterodisciplinares Liderança e difusão da Internet: o caso do Brasil Dado, Informação, Conhecimento e Competência Relatividade de Todo Conhecimento Os Destinos da Ciência da Informação: entre o cristal e a chama Mnemotécnica e tecnovidade A Produtividade dos Autores na Antropologia Brasileira Gestão de Metadados: Sua Evolução na Tecnologia da Informação O Unicórnio (o Rinoceronte, o Ornitorrinco, ... ), a Análise Documentária e a Linguagem Documentária Considerações em torno da Informatização de Grupos de Baixa Renda no Rio de Janeiro e sua Relação com o Conceito de Informação Transformadora de Estruturas A Teoria do Conceito Revisitada em Conexão com Ontologias e Metadados no Contexto das Bibliotecas Tradicionais e Digitais Os centros de voluntários brasileiros vistos como uma rede organizacional baseada no fluxo da informação Confronto simbólico, apropriação do conhecimento e produção de informação nas redes de movimentos sociais O Cívico , O Político , O Eleitoral e A Internet 19 20 JUN/2001 JUN/2001 Informação estratégica e empresa: o discurso à prova dos fatos Convergência da Inteligência Competitiva com Construção de Visão de Futuro: proposta metodológica de Sistema de Informação Estratégica (SIE) 21 JUN/2001 Poderia a Internet (ou lógica do capitalismo avançado) subverter o projeto de globalização? 22 JUN/2001 Disseminação da informação e informação de inteligência organizacional 23 JUN/2001 Fonte de Informação Estratégica e Não-Estratégica 24 AGO/2001 A Informação em seus Momentos de Passagem 25 AGO/2001 Tecendo a rede de Wersig com os indícios de Ginzburg 26 AGO/2001 Interdisciplinaridade e Ciência da Informação: de característica a critério delineador de seu núcleo principal 27 DEZ/2000 O ensino da prática de pesquisa, vivência e consciência 28 DEZ/2000 Infra-estrutura da pesquisa em Ciência da Informação no Brasil 29 DEZ/2000 Metodologia de pesquisa no campo da Ciência da Informação 30 DEZ/2000 Pesquisa em Ciência da Informação no Brasil: síntese e perspectiva 31 OUT/2001 Contexto Digital e Tratamento da Informação 32 OUT/2001 Semântica e Cognição em Bases de Conhecimento: do vocabulário controlado à ontologia 33 OUT/2001 A Construção Social da Informação: dinâmicas e contextos 34 OUT/2001 A Representação Metafórica como Filtro de Recuperação da Informação 35 ABR/2001 Transmissão de Tecnologia: análise do conceito 36 ABR/2001 Serviços Web e a evolução dos serviços em TI 37 ABR/2001 A função da terminologia na construção do objeto da Ciência da Informação 38 ABR/2001 A informação estatística oficial na sociedade da informação: uma (des)construção 39 FEV/2000 O Debate "UCC 2B" (UCITA) e a Sociologia da Era da Informação 40 FEV/2000 Breve discussão sobre as condições político-éticas do progresso globalizado 41 FEV/2000 O projeto GNU 42 JUN/2000 Os Agregados de informação - Memórias, esquecimento e estoques de informação 43 JUN/2000 Das Cartas Iluministas às Listas de Discussão 44 JUN/2000 A Propriedade Intelectual na Era da Internet 45 JUN/2000 Informação Estatística: demanda e oferta, uma questão de ordem 46 AGO/2000 Universidade e informação: a biblioteca universitária e os programas de educação à distância - uma questão ainda não resolvida Tabela-1: Amostra de artigos da revista eletrônica DataGramaZero utilizada no experimento Os artigos foram automaticamente indexados com uma ferramenta de indexação. Neste processo, foram retiradas as stopwords, que são palavras sem valor para a indexação, tais como: artigos, preposições, pronomes, etc. Em seguida, computou-se o número de ocorrências de cada termo de indexação em cada documento. O resultado deste passo foi uma matriz de termos vs documentos, onde cada elemento da matriz define a freqüência de cada termo nos respectivos documentos. A partir desta matriz, aplicou-se o método LSI a fim de realçar as relações semânticas não evidentes entre os documentos. Neste passo, foi utilizado empiricamente valores de c para a redução das matrizes de c = 4 e c = 6% de aproveitamento. A matriz resultante deste processo passou a ser considerada como uma coleção de vetores t-dimensionais, com um vetor representando cada documento, onde cada uma da posição dos t elementos do vetor consistia em um termo de indexação e seu valor numérico associado correspondia ao peso do termo para o documento. Utilizou-se então o cálculo de similaridade entre cada par de vetores como mostrado na Equação-1. Dadas as similaridades entre cada par de documentos da amostra, bastou aplicar um dos algoritmos de clusterização tratados na Seção 3 deste trabalho. O algoritmo escolhido foi o algoritmo Cliques, já que é o que apresenta os clusters mais coesos dentre os algoritmos apresentados. De quatro testes realizados, em dois foi utilizado um limite mínimo de similaridade entre os documentos de 90%. Nos outros dois, utilizou-se 95%. Para cada cluster criado pelo algoritmo Cliques, aplicou-se novamente os passos de indexação e a técnica LSI a fim de buscar aqueles termos de indexação mais relevantes de cada cluster para serem usados como os descritores dos respectivos clusters. Os resultados deste experimento podem ser conferidos na próxima Seção deste trabalho. 5 Resultados Obtidos As tabelas Tabela-2, Tabela-3, Tabela-4 e Tabela-5 abaixo descrevem os resultados da classificação automática da amostra de artigos da revista DataGramaZero obtidos, utilizando-se a metodologia apresentada na seção anterior. Categoria A Elementos 01, 02, 03, 04, 05, 06, 07, 08, 10, 11, 12, 13, 14, 15, 20, 23, 27, 31, 32, 34, 35, 39, 40, 45, 46 B 09, 19, 22, 24, 25, 26, 28, 29, 30, 33, 37, 42, 43 C 16, 17, 18, 21, 36, 38, 44 D 41 Tabela-2: Resultado da categorização dos documentos usando c = 4% de aproveitamento das matrizes e limite de similaridade entre os documentos de 90% Categoria Elementos A 01, 02, 03, 04, 05, 06, 08, 13, 14, 15, 20, 23, 32, 34, 35, 39, 40, 45, 46 B 07, 09, 10, 11, 12, 19, 22, 24, 25, 27, 29, 30, 31, 33, 37, 42, 43 C 16, 17, 18, 21, 36, 38, 44 D 26, 28 E 41 Tabela-3: Resultado da categorização dos documentos usando c = 4% de aproveitamento das matrizes e limite de similaridade entre os documentos de 95% Categoria Elementos A 01, 02, 03, 04, 06, 07, 08, 13, 14, 15, 20, 23, 31, 32, 34, 35, 39, 40, 45 B 05, 10, 11, 27, 43, 46 C 09, 12, 19, 22, 24, 29, 33, 42 D 16, 17, 18, 21, 36, 38, 44 E 25, 26, 28, 30, 37 F 41 Tabela-4: Resultado da categorização dos documentos usando c = 6% de aproveitamento das matrizes e limite de similaridade entre os documentos de 90% Categoria Elementos A 01, 02, 03, 04, 12, 13, 20, 23, 31, 32, 34, 35, 39, 45 B 05, 08, 15 C 06, 14, 17, 18, 40, 44 D 07, 09, 19, 22, 24, 29 E 10, 11, 27, 43, 46 F 16, 21, 36 G 25, 26, 28, 30, 37 H 33, 42 I 38 J 41 Tabela-5: Resultado da categorização dos documentos usando c = 6% de aproveitamento das matrizes e limite de similaridade entre os documentos de 95% De posse destes resultados, verificou-se a qualidade dos resultados obtidos e foram notados alguns pontos importantes. Inicialmente, podemos observar que vários artigos pertencentes a uma mesma publicação (mesmo mês/ano) apresentaram uma tendência de agrupamento nos mesmos clusters. Isto se deve, basicamente, ao fato dos artigos de uma mesma publicação da revista eletrônica DataGramaZero tratarem de um mesmo tema. Por outro lado, é fácil perceber que nem todos os artigos de uma mesma publicação estão em um mesmo cluster. Isto decorre da própria característica de publicação da revista eletrônica DataGramaZero: cada edição da revista apresenta artigos que foram categorizados em tempos diferentes, tendo a cada tempo um número menor de artigos. Daí, ao utilizar-se uma única categorização feita ao mesmo tempo e tendo um conjunto maior de documentos, pode ocorrer (e ocorre) que documentos que antes foram enquadrados em um mesmo número na revista, agora fiquem em cluster distintos, apresentando um grau de similaridade maior com os documentos de um outro conjunto, do que com os documentos da mesma edição na qual ele foi publicado. Outro ponto de destaque diz respeito ao documento de número 41: “O Projeto GNU”. Este artigo em todos os experimentos mostrou-se distante dos demais documentos, ficando sempre isolado. Uma inspeção humana em tal documento pode concluir o porque de sua real distância semântica com relação demais artigos da amostra. Este artigo trata de Software livre, tais como o sistema operacional Linux, no âmbito do projeto GNU, não apresentando relação estritamente direta com outros arquivos da amostra, que tratam do contexto da Ciência da Informação. Desta forma, o artigo 41 se apresenta sempre em um cluster exclusivo para ele. Quanto à atividade de buscar automaticamente termos para identificar o assunto tratado em cada cluster formado, foi aplicado novamente o método LSI em cada categoria formada, como já exposto anteriormente. Escolheu-se o resultado da categorização apresentado na Tabela-2 para ser aplicada a técnica de identificação de assunto. Esta escolha se baseia no fato de que o resultado mostrado na Tabela-2 é o que mais se assemelha ao julgamento feito por um humano, avaliando a amostra. Os resultados da busca automática de assuntos aplicados no resultado da Tabela-2 são mostrados na Tabela-6. Categoria A Termos descritores Informação, Conhecimento, Tecnologia, Desenvolvimento, Ciência, Biblioteca B Informação, Ciência, Conhecimento, Pesquisa, Científico, Desenvolvimento C Informação, Rede, estatística, Conhecimento, Voluntário, Serviço D Software, GNU, Livre, Sistema, Liberdade, Unix Tabela-6: Resultado da busca automática de assunto a partir das categorias formadas no experimento mostrado na Tabela-2 Após uma comparação manual dos termos obtidos automaticamente na busca de assuntos-chave e dos assuntos realmente tratados pelos artigos de cada categoria do experimento da Tabela-2, pôde-se concluir que a busca automática apresentou resultados adequados. 6 Conclusões Neste trabalho, pode-se concluir que a utilização do modelo LSI, aliado a algoritmos de clusterização, pode ser uma técnica eficaz no que diz respeito à busca por soluções do problema de categorização de documentos. Outro ponto importante, no que tange a categorização de documentos, é que a eficiência do modelo LSI e algoritmos de clusterização será tão maior, quanto mais diferentes forem assuntos tratados nos grupos de documentos da amostra. Assim, o uso de técnicas automatizadas vem como um mecanismo de contribuição aos profissionais da área de Ciência da Informação, Arquivistas, Bibliotecários e afins, no trabalho corriqueiro e enfadonho de categorizar grandes massas de documentos de diferentes domínios do conhecimento, que poderiam ser feitos de forma automática. Deste modo, restaria a estes profissionais lidar com outros elementos mais complexos que a máquina ainda não pode fazer com precisão e deixar a máquina fazer o trabalho que é trivial, mas que consumiria um grande número de recursos humanos, se fosse realizado manualmente. Referências Baeza-Yates, R.; Ribeiro-neto, B. Modern Information Retrieval. USA: Addison Wesley, 1999 CUTTING, Douglass et al. Scatter/Gather: a cluster-based approach to browsing large document collections. In: SPECIAL INTEREST GROUP ON INFORMATION RETRIEVAL, SIGIR, 1992. Proceedings… New York: Association for Computing Machinery, 1992. p.318-329. Deerwester, S; Dumais, S. T.; Furnas, G. W.; Landauer, T. K.; Harshman, R. Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science 1990 pp. 391-407 KOWALSKI, Gerald. Information retrieval systems: theory and implementation. Boston : Kluwer Academic Publishers, 1997. 282p. RIJSBERGEN, C. van. Information retrieval. 2.ed. London: Butterworths, 1979. Riloff, E.; Lehnert W. Information Extraction as a Basis for High-Precision Text Classification ACM Transactions on Information Systems 12(3):296-333. SCARINCI, Rui Gureghian; WIVES, Leandro Krug; LOH, Stanley; ZAMBENEDETTI, Christian; OLIVEIRA, José Palazzo Moreira de. E-Business Knowledge Based Information Retrieval. To Appear in: Seminar on Advanced Research in Electronic Business, 1st. To be held in Rio de Janeiro, Brazil. 7-8, November, 2002. Wives, Leandro K. Um Estudo Sobre Técnicas de Recuperação de Informações com ênfase em Informações Textuais: Trabalho Individual. Porto Alegre: CPGCC da UFRGS, 1997. (TI-672). Wives, Leandro K.; OLIVEIRA, José Palazzo M. de; Um estudo sobre Agrupamento de Documentos Textuais em Processamento de Informações não Estruturadas Usando Técnicas de "Clustering". Disertação de Mestrado. Porto Alegre. PPGC/UFRGS, Abr. 1999.