Atribuindo Títulos de Assuntos na Categorização

Transcrição

Atribuindo Títulos de Assuntos na Categorização
ATRIBUINDO TÍULOS DE ASSUNTOS NA CATEGORIZAÇÃO AUTOMÁTICA
DE DOCUMENTOS
Autores do Artigo:
Thiago Bortolo Ramiro, Elias Oliveira, Lívia Lopes Azevedo,
Valéria Monteiro e Sergio Teixeira
Departamento de Ciências da Informação
Universidade Federal do Espírito Santo
Campus de Goiabeiras, Av. Fernando Ferrari, s/n,
Cx Postal 5011, 29060-970 – Vitória-ES, Brasil
http://www.inf. ufes.br/~elias
[email protected]
Resumo
Apresenta experimento com a criação automática tanto de diretórios de
artigos como também de títulos para cada um destes conjuntos de artigos,
usando técnicas automáticas para agrupamentos de documentos, em particular
salientando a de extração de semântica latente do texto do documento. Para
realização desse trabalho, pegamos emprestada a análise fatorial da Estatística.
Esta técnica foi utilizada em uma amostra de 46 artigos da revista eletrônica
DataGramaZero. Desta forma, este processo constitui-se em um modelo
automático de indexação no qual a semântica latente entre os documentos é
realçada. Para agrupar tais documentos utilizamos um algoritmo clássico da
literatura para este fim. Para cada grupo de documentos similares foi aplicada,
novamente, a análise fatorial objetivando realçar os temos mais relevantes para
cada um dos grupos para servir como provável título para o grupo. A classificação
automática, apesar de ainda estar longe de substituir aquela realizada por um
especialista, tem a vantagem de padronizar a atividade de classificação. Além
desta vantagem, esta técnica se mostra superior em lidar com grandes volumes
de documentos, o que é cada vez mais uma realidade nesse nosso tempo de
Internet. Nossos resultados mostram que nossa ferramenta daria ao usuário uma
forma mais amigável de recuperação da informação desejada dentro de um site
de uma revista on-line por permitir a pesquisa através de diretórios de assuntos.
Palavras-chave: Classificação automática de documentos; Recuperação de
Informação; Extração de Semântica Latente.
1 Introdução
A grande massa de informações na forma de texto, disponibilizadas nos meios
eletrônicos, em especial na Internet, tem gerado um problema no que diz respeito
à busca e obtenção de informações. Neste contexto, trabalhos e pesquisas tem
impulsionado o desenvolvimento da área de Recuperação de Informação (RI),
cuja meta é encontrar meios de garantir acesso facilitado às informações
consideradas relevantes.
Uma das linhas de pesquisa em RI é a indexação automática de documentos,
cujo objetivo é obter de um documento seus termos mais relevantes, a fim de
compor uma amostra (representação) do documento. Dos vários modelos para
representação da indexação de documentos existentes, um que se mostra
bastante interessante é o LSI (Latent Semantic Indexing). Vários trabalhos sobre
LSI podem ser encontrados na literatura sobre RI, tais como (Baeza-Yates, 1999).
Outra linha de pesquisa em RI é a categorização, classificação, ou ainda,
clusterização,
de
documentos,
que
consiste
em
organizar
informações
automaticamente em grupos de documentos similares, gerando assim facilidades
para sua visualização, manipulação e análise. Trabalhos sobre categorização de
documentos são mencionados em (Wives, 1997), (Wives, 1999), e na literatura
básica de RI e Processamento de Linguagem Natural (PLN), como por exemplo,
(Scarinci, 2002), (Baeza-Yates, 1999).
Este trabalho tem como objetivo analisar um experimento de categorização de
documentos e, posteriormente, identificar os assuntos que cada categoria
formada trata, usando para tanto o modelo LSI. O experimento será aplicado a
uma amostra de artigos da revista eletrônica de Ciência da Informação
DataGramaZero. Inicialmente, a técnica LSI será aplicada na amostra de
documentos com o objetivo de gerar uma representação matemática para cada
documento. Nesta representação, cada documento é visto como um vetor
multidimensional. Em seguida, será processado um algoritmo de categorização
nos documentos. A categorização é baseada na similaridade entre cada par de
documentos da amostra. Depois de identificados os grupos de documentos
similares, o modelo LSI será novamente aplicado a cada categoria formada, com
a intenção de identificar o assunto nela tratado. Uma aplicação computacional foi
desenvolvida para processar o experimento.
A estruturação deste trabalho esta feita da seguinte forma: a Seção 2 apresenta a
descrição sobre o modelo LSI e sua aplicação; a Seção 3 trata do processo de
categorização de documentos, apresentando algoritmos de categorização
conhecidos na literatura; na Seção 4 é exposta a metodologia utilizada para o
desenvolvimento deste trabalho; os resultados do experimento são apresentados
e comentados na Seção 5; por fim, na Seção 6, são feitas as conclusões e as
últimas considerações.
2 O Modelo LSI
Nos últimos 20 anos ocorreu um grande avanço na área de recuperação de
informação devido ao enorme crescimento da World Wide Web e da evolução das
tecnologias. Atualmente, estão em evidência as pesquisas relacionadas à busca e
à recuperação de informação na Web (Baeza-yates, 1999).
Os modelos clássicos de recuperação de informação são: O modelo booleano, o
vetorial e o probabilístico. No modelo booleano, documentos e consultas são
representados por um conjunto de termos de indexação com o objetivo de
possibilitar a manipulação dos documentos e sua posterior recuperação. Esses
termos, também conhecidos como keywords, podem estar presentes ou ausentes
em um determinado documento. No modelo vetorial, documentos e consultas são
representados por vetores no espaço euclidiano multidimensional. No modelo
probabilístico, documentos e consultas são representados pelas teorias da
probabilidade. Com o passar dos anos surgiram outros modelos baseados nos
modelos clássicos.
As pesquisas baseadas no modelo vetorial se destacam devido a sua
simplicidade, velocidade e facilidade de computação do fator de similaridade entre
termos e documentos. Neste modelo, os documentos e consultas são
representados por vetores no espaço euclidiano com t dimensões, onde cada
uma das t posições do vetor é um termo de indexação. Assim, cada termo de
indexação corresponde a um eixo do espaço t-dimensional. O i-ésimo elemento
do vetor é um valor que mede o peso (importância) do respectivo termo de
indexação para o documento, ou seja, qualifica a relação entre o termo e o
documento, além de especificar o tamanho e a direção do vetor que representa o
documento.
O vetor de um documento dj é representado por dj = (w1j, w2j, ...wtj), onde wij é
peso do termo i no documento j e o valor de t corresponde ao total de termos de
indexação. O vetor de consultas q é representado de forma semelhante a um
documento neste modelo. A representação de uma consulta q é dada por q =
(w1q, w2q, ..., wtq), sendo que, wiq representa o peso de um termo i para a consulta
q.
A Figura-1 ilustra a utilização do modelo vetorial para representar o documento
DOC no espaço tridimensional indexado pelos termos t1, t2 e t3 cujos pesos são 5,
4 e 3 respectivamente.
Figura-1: Representação de um documento no modelo vetorial.
Dados dois documentos x e y, podemos representá-los através de vetores em um
mesmo espaço t-dimensões. Desta forma é possível avaliar o grau de
similaridade entre os documentos x e y, sim(x, y), através do co-seno do ângulo
entre os dois vetores, conforme é apresentado pela equação na Equação-1.
Equação-1: Equação de cálculo de similaridade entre dois documentos x e y.
Como uma consulta no modelo vetorial é representada como um vetor, assim
como os documentos, também pode se calcular a similaridade entre uma consulta
q e um documento dj, bastando computar sim(q, dj).
Apesar de o modelo vetorial ser bastante utilizado, o custo computacional pode
ficar muito alto dependendo do número de termos e documentos a serem
processados pela matriz de termos versus documentos. Além disso, documentos
e consultas que contenham termos de indexação sinônimos podem não recuperar
documentos relevantes. Dentre os problemas que podem ocasionar esta situação,
merecem destaque as limitações ocasionadas por problemas de polissemia1,
sinonímia2, frases3, contexto local4 e contexto global5 (Riloff, 1994).
Com o objetivo de minimizar os problemas gerados por falsos resultados de
comparações léxicas, o método de LSI tende a realçar as relações entre os
documentos através da identificação de estruturas semânticas ocultas nas
relações entre termos e documentos (Deerwester, 1990).
A proposta do LSI é o mapeamento dos vetores de documentos e consultas em
um espaço vetorial reduzido associado aos conceitos.
Sendo t o número de termos indexados em uma coleção de documentos e N o
número total de documentos, é definida como M = (mij)txN a matriz de termos e
documentos, cujas linhas da matriz representam os termos e colunas
representam os documentos. Cada elemento mij da matriz representa o peso ou
freqüência de um termo em um determinado documento.
O LSI propõe a decomposição da matriz M em três outras matrizes através do
método chamado de Singular Value Decomposition (SVD), de tal forma que o
produto dessas matrizes seja igual à matriz M, conforme a formula: M = K.S.Dt. As
três matrizes K, S, e Dt obtidas são reduzidas ao eliminarmos algumas de suas
linhas e colunas. Um passo importante no método LSI é a definição do valor c no
processo de redução das matrizes K, S, e Dt. O valor de c define o número de
linhas e colunas das matrizes K, S e Dt que serão consideradas relevantes para
os cálculos posteriores e despreza as demais linhas e colunas.
1 Fato lingüístico que ocorre quando uma palavra possui muitos significados.
2 Fato lingüístico que se caracteriza pela existência de palavras sinônimas. Ocorre
quando existem várias formas de se referenciar algo.
3 Palavras que são bons indexadores apenas em frases específicas.
4 Algumas palavras e frases que são bons indexadores apenas em locais específicos
5 Alguns documentos não contem nenhuma palavra ou frase que são bons indexadores,
a relevância do documento depende de uma sentença, parágrafo ou todo o texto.
O valor de c deve ser grande o suficiente para incluir os dados de interesse e
pequeno o bastante para filtrar os detalhes não representativos. O valor de c é
empírico, entretanto, é possível ajustar o valor de c de acordo com resultados
obtidos nos experimentos.
Após o processo de redução das matrizes, o próximo passo consiste em
multiplicar as matrizes reduzidas. O produto dessa multiplicação resultará na
matriz Mr que consiste em uma matriz de t linhas e N colunas, correspondendo à
mesma dimensão da matriz original M. A diferença entra a nova matriz Mr e a
matriz origeinal M é que a matriz Mr tende a realçar os valores semânticos ocultos
na matriz M.
3 Categorização de Documentos
A tarefa de agrupar objetos, também conhecida por clustering, não é recente. O
conceito de aglomerado (cluster) é tão antigo quanto às bibliotecas. Muitos anos
antes da criação dos primeiros computadores, as pessoas já realizavam este
processo manualmente, pois agrupar elementos similares facilita a localização de
informações (Wives, 1999).
O objetivo do agrupamento de informações textuais é separar uma série de
documentos dispostos de forma desorganizada em um conjunto de grupos que
contenham documentos de assuntos similares. Este objetivo está baseado no
princípio da Hipótese de Agrupamento (Cluster Hypothesis), levantado por
(Rijsbergen, 1979). Este princípio diz que objetos semelhantes e relevantes a um
mesmo assunto tendem a permanecer em um mesmo grupo (cluster), pois
possuem atributos em comum.
Segundo (Cutting, 1992), quanto à forma, há dois tipos de agrupamento: o
agrupamento por partição e o agrupamento hierárquico. Eles dizem respeito à
forma em que os grupos são constituídos. No primeiro tipo de agrupamento,
denominado por partição, os objetos são distribuídos em classes distintas, não
havendo relação direta entre as classes. Este tipo de agrupamento é denominado
agrupamento de partição total (flat partition) e os documentos são separados
exaustivamente e colocados em grupos totalmente diferentes. No segundo tipo,
denominado partição hierárquica (hierarchic partition), o processo de identificação
de grupos é geralmente realimentado recursivamente, utilizando tanto objetos
quanto grupos já identificados previamente como entrada para o processamento.
Deste modo, constrói-se uma hierarquia de grupos de objetos, estilo uma árvore.
Diversas técnicas de agrupamento existem. Técnicas muito utilizadas em
agrupamento de objetos textuais pertencem à classe chamada graphic-theoretic.
Os algoritmos pertencentes à classe graphic-theoretic, segundo (Kowalski, 1997),
são os seguintes: Cliques, Stars, Connected Components e Strings. A seguir é
apresentada uma breve descrição de cada um destes algoritmos.
3.1 Cliques
Este algoritmo exige que todos os objetos do cluster sejam similares entre si,
respeitando um limite mínimo de similaridade – chamado de threshold – entre os
objetos. Este é o algoritmo que produz melhores resultados, pois os elementos
escolhidos para compor um cluster apresentarão alta coesão entre si.
3.2 Stars
A idéia básica deste algoritmo consiste em selecionar um elemento e identificar
todos os elementos similares a ele segundo um fator de mínimo de similaridade.
Deste modo, tem-se uma figura muito parecida com uma estrela (daí o nome: star
ou estrela), pois um item central conecta todos os outros componentes do grupo.
3.3 Connected Components
Este algoritmo é também conhecido como Single Link. Ele é semelhante ao
algoritmo Cliques. Porém, neste caso, qualquer objeto que seja similar a algum
outro objeto de um cluster, não necessitando ser similar a todos, como no caso do
algoritmo Cliques, é adicionado ao cluster.
3.4 Strings
A idéia deste algoritmo é construir uma cadeia de objetos similares, como em uma
cadeia de caracteres (string), onde o objeto A está conectado ao objeto B, este ao
objeto C, e, assim, sucessivamente até que não existam mais conexões. O
método consiste em criar uma classe com o primeiro objeto. Após, é necessário
localizar o próximo objeto similar a ele e adicioná-lo na mesma classe. Selecionar
o novo objeto, que foi o último a entrar no cluster, e localizar o objeto mais similar
a ele. Repetir o processo repetidamente até não haver mais objetos semelhantes
ao último a entrar no cluster.
4 Metodologia Utilizada
Neste trabalho utilizou-se uma amostra de artigos da revista eletrônica
DataGramaZero (http://www.dgz.org.br) a fim de ser submetida ao processo
automático de categorização de documentos. Os artigos utilizados neste
experimento estão listados na Tabela-1, e correspondem as publicações dos anos
1999, 2000 e 2001 da revista DataGramaZero, excluindo-se os artigos escritos
em língua estrangeira.
ID
01
02
03
04
05
Mês/Ano
de
publicação
OUT/2000
OUT/2000
OUT/2000
ABR/2000
ABR/2000
06
07
08
09
10
11
12
13
ABR/2000
DEZ/1999
DEZ/1999
DEZ/1999
DEZ/1999
DEZ/2001
DEZ/2001
DEZ/2001
14
DEZ/2001
15
DEZ/2001
16
FEV/2001
17
FEV/2001
18
FEV/2001
Título do artigo
Capacidade governativa, informação, e governo eletrônico
Construindo a sociedade da informação no Brasil: uma nova agenda
Os Conteúdos e a Sociedade da Informação no Brasil
A Classificação como Interface da Internet
O Interagir Humano-Computacional: mapeando relações
heterodisciplinares
Liderança e difusão da Internet: o caso do Brasil
Dado, Informação, Conhecimento e Competência
Relatividade de Todo Conhecimento
Os Destinos da Ciência da Informação: entre o cristal e a chama
Mnemotécnica e tecnovidade
A Produtividade dos Autores na Antropologia Brasileira
Gestão de Metadados: Sua Evolução na Tecnologia da Informação
O Unicórnio (o Rinoceronte, o Ornitorrinco, ... ), a Análise
Documentária e a Linguagem Documentária
Considerações em torno da Informatização de Grupos de Baixa
Renda no Rio de Janeiro e sua Relação com o Conceito de
Informação Transformadora de Estruturas
A Teoria do Conceito Revisitada em Conexão com Ontologias e
Metadados no Contexto das Bibliotecas Tradicionais e Digitais
Os centros de voluntários brasileiros vistos como uma rede
organizacional baseada no fluxo da informação
Confronto simbólico, apropriação do conhecimento e produção de
informação nas redes de movimentos sociais
O Cívico , O Político , O Eleitoral e A Internet
19
20
JUN/2001
JUN/2001
Informação estratégica e empresa: o discurso à prova dos fatos
Convergência da Inteligência Competitiva com Construção de Visão
de Futuro: proposta metodológica de Sistema de Informação
Estratégica (SIE)
21 JUN/2001
Poderia a Internet (ou lógica do capitalismo avançado) subverter o
projeto de globalização?
22 JUN/2001
Disseminação da informação e informação de inteligência
organizacional
23 JUN/2001
Fonte de Informação Estratégica e Não-Estratégica
24 AGO/2001 A Informação em seus Momentos de Passagem
25 AGO/2001 Tecendo a rede de Wersig com os indícios de Ginzburg
26 AGO/2001 Interdisciplinaridade e Ciência da Informação: de característica a
critério delineador de seu núcleo principal
27 DEZ/2000
O ensino da prática de pesquisa, vivência e consciência
28 DEZ/2000
Infra-estrutura da pesquisa em Ciência da Informação no Brasil
29 DEZ/2000
Metodologia de pesquisa no campo da Ciência da Informação
30 DEZ/2000
Pesquisa em Ciência da Informação no Brasil: síntese e perspectiva
31 OUT/2001
Contexto Digital e Tratamento da Informação
32 OUT/2001
Semântica e Cognição em Bases de Conhecimento: do vocabulário
controlado à ontologia
33 OUT/2001
A Construção Social da Informação: dinâmicas e contextos
34 OUT/2001
A Representação Metafórica como Filtro de Recuperação da
Informação
35 ABR/2001
Transmissão de Tecnologia: análise do conceito
36 ABR/2001
Serviços Web e a evolução dos serviços em TI
37 ABR/2001
A função da terminologia na construção do objeto da Ciência da
Informação
38 ABR/2001
A informação estatística oficial na sociedade da informação: uma
(des)construção
39 FEV/2000
O Debate "UCC 2B" (UCITA) e a Sociologia da Era da Informação
40 FEV/2000
Breve discussão sobre as condições político-éticas do progresso
globalizado
41 FEV/2000
O projeto GNU
42 JUN/2000
Os Agregados de informação - Memórias, esquecimento e estoques
de informação
43 JUN/2000
Das Cartas Iluministas às Listas de Discussão
44 JUN/2000
A Propriedade Intelectual na Era da Internet
45 JUN/2000
Informação Estatística: demanda e oferta, uma questão de ordem
46 AGO/2000 Universidade e informação: a biblioteca universitária e os programas
de educação à distância - uma questão ainda não resolvida
Tabela-1: Amostra de artigos da revista eletrônica DataGramaZero utilizada no
experimento
Os artigos foram automaticamente indexados com uma ferramenta de indexação.
Neste processo, foram retiradas as stopwords, que são palavras sem valor para a
indexação, tais como: artigos, preposições, pronomes, etc. Em seguida,
computou-se o número de ocorrências de cada termo de indexação em cada
documento. O resultado deste passo foi uma matriz de termos vs documentos,
onde cada elemento da matriz define a freqüência de cada termo nos respectivos
documentos.
A partir desta matriz, aplicou-se o método LSI a fim de realçar as relações
semânticas não evidentes entre os documentos. Neste passo, foi utilizado
empiricamente valores de c para a redução das matrizes de c = 4 e c = 6% de
aproveitamento.
A matriz resultante deste processo passou a ser considerada como uma coleção
de vetores t-dimensionais, com um vetor representando cada documento, onde
cada uma da posição dos t elementos do vetor consistia em um termo de
indexação e seu valor numérico associado correspondia ao peso do termo para o
documento. Utilizou-se então o cálculo de similaridade entre cada par de vetores
como mostrado na Equação-1.
Dadas as similaridades entre cada par de documentos da amostra, bastou aplicar
um dos algoritmos de clusterização tratados na Seção 3 deste trabalho. O
algoritmo escolhido foi o algoritmo Cliques, já que é o que apresenta os clusters
mais coesos dentre os algoritmos apresentados. De quatro testes realizados, em
dois foi utilizado um limite mínimo de similaridade entre os documentos de 90%.
Nos outros dois, utilizou-se 95%.
Para cada cluster criado pelo algoritmo Cliques, aplicou-se novamente os passos
de indexação e a técnica LSI a fim de buscar aqueles termos de indexação mais
relevantes de cada cluster para serem usados como os descritores dos
respectivos clusters.
Os resultados deste experimento podem ser conferidos na próxima Seção deste
trabalho.
5 Resultados Obtidos
As tabelas Tabela-2, Tabela-3, Tabela-4 e Tabela-5 abaixo descrevem os
resultados da classificação automática da amostra de artigos da revista
DataGramaZero obtidos, utilizando-se a metodologia apresentada na seção
anterior.
Categoria
A
Elementos
01, 02, 03, 04, 05, 06, 07, 08, 10, 11, 12, 13, 14, 15, 20, 23, 27, 31, 32, 34,
35, 39, 40, 45, 46
B
09, 19, 22, 24, 25, 26, 28, 29, 30, 33, 37, 42, 43
C
16, 17, 18, 21, 36, 38, 44
D
41
Tabela-2: Resultado da categorização dos documentos usando c = 4% de
aproveitamento das matrizes e limite de similaridade entre os documentos de 90%
Categoria Elementos
A
01, 02, 03, 04, 05, 06, 08, 13, 14, 15, 20, 23, 32, 34, 35, 39, 40, 45, 46
B
07, 09, 10, 11, 12, 19, 22, 24, 25, 27, 29, 30, 31, 33, 37, 42, 43
C
16, 17, 18, 21, 36, 38, 44
D
26, 28
E
41
Tabela-3: Resultado da categorização dos documentos usando c = 4% de
aproveitamento das matrizes e limite de similaridade entre os documentos de 95%
Categoria Elementos
A
01, 02, 03, 04, 06, 07, 08, 13, 14, 15, 20, 23, 31, 32, 34, 35, 39, 40, 45
B
05, 10, 11, 27, 43, 46
C
09, 12, 19, 22, 24, 29, 33, 42
D
16, 17, 18, 21, 36, 38, 44
E
25, 26, 28, 30, 37
F
41
Tabela-4: Resultado da categorização dos documentos usando c = 6% de
aproveitamento das matrizes e limite de similaridade entre os documentos de 90%
Categoria Elementos
A
01, 02, 03, 04, 12, 13, 20, 23, 31, 32, 34, 35, 39, 45
B
05, 08, 15
C
06, 14, 17, 18, 40, 44
D
07, 09, 19, 22, 24, 29
E
10, 11, 27, 43, 46
F
16, 21, 36
G
25, 26, 28, 30, 37
H
33, 42
I
38
J
41
Tabela-5: Resultado da categorização dos documentos usando c = 6% de
aproveitamento das matrizes e limite de similaridade entre os documentos de 95%
De posse destes resultados, verificou-se a qualidade dos resultados obtidos e
foram notados alguns pontos importantes.
Inicialmente, podemos observar que vários artigos pertencentes a uma mesma
publicação (mesmo mês/ano) apresentaram uma tendência de agrupamento nos
mesmos clusters. Isto se deve, basicamente, ao fato dos artigos de uma mesma
publicação da revista eletrônica DataGramaZero tratarem de um mesmo tema.
Por outro lado, é fácil perceber que nem todos os artigos de uma mesma
publicação estão em um mesmo cluster. Isto decorre da própria característica de
publicação da revista eletrônica DataGramaZero: cada edição da revista
apresenta artigos que foram categorizados em tempos diferentes, tendo a cada
tempo um número menor de artigos. Daí, ao utilizar-se uma única categorização
feita ao mesmo tempo e tendo um conjunto maior de documentos, pode ocorrer (e
ocorre) que documentos que antes foram enquadrados em um mesmo número na
revista, agora fiquem em cluster distintos, apresentando um grau de similaridade
maior com os documentos de um outro conjunto, do que com os documentos da
mesma edição na qual ele foi publicado.
Outro ponto de destaque diz respeito ao documento de número 41: “O Projeto
GNU”. Este artigo em todos os experimentos mostrou-se distante dos demais
documentos, ficando sempre isolado. Uma inspeção humana em tal documento
pode concluir o porque de sua real distância semântica com relação demais
artigos da amostra. Este artigo trata de Software livre, tais como o sistema
operacional Linux, no âmbito do projeto GNU, não apresentando relação
estritamente direta com outros arquivos da amostra, que tratam do contexto da
Ciência da Informação. Desta forma, o artigo 41 se apresenta sempre em um
cluster exclusivo para ele.
Quanto à atividade de buscar automaticamente termos para identificar o assunto
tratado em cada cluster formado, foi aplicado novamente o método LSI em cada
categoria formada, como já exposto anteriormente. Escolheu-se o resultado da
categorização apresentado na Tabela-2 para ser aplicada a técnica de
identificação de assunto. Esta escolha se baseia no fato de que o resultado
mostrado na Tabela-2 é o que mais se assemelha ao julgamento feito por um
humano, avaliando a amostra. Os resultados da busca automática de assuntos
aplicados no resultado da Tabela-2 são mostrados na Tabela-6.
Categoria
A
Termos descritores
Informação, Conhecimento, Tecnologia, Desenvolvimento, Ciência,
Biblioteca
B
Informação, Ciência, Conhecimento, Pesquisa, Científico, Desenvolvimento
C
Informação, Rede, estatística, Conhecimento, Voluntário, Serviço
D
Software, GNU, Livre, Sistema, Liberdade, Unix
Tabela-6: Resultado da busca automática de assunto a partir das categorias
formadas no experimento mostrado na Tabela-2
Após uma comparação manual dos termos obtidos automaticamente na busca de
assuntos-chave e dos assuntos realmente tratados pelos artigos de cada
categoria do experimento da Tabela-2, pôde-se concluir que a busca automática
apresentou resultados adequados.
6 Conclusões
Neste trabalho, pode-se concluir que a utilização do modelo LSI, aliado a
algoritmos de clusterização, pode ser uma técnica eficaz no que diz respeito à
busca por soluções do problema de categorização de documentos. Outro ponto
importante, no que tange a categorização de documentos, é que a eficiência do
modelo LSI e algoritmos de clusterização será tão maior, quanto mais diferentes
forem assuntos tratados nos grupos de documentos da amostra.
Assim, o uso de técnicas automatizadas vem como um mecanismo de
contribuição aos profissionais da área de Ciência da Informação, Arquivistas,
Bibliotecários e afins, no trabalho corriqueiro e enfadonho de categorizar grandes
massas de documentos de diferentes domínios do conhecimento, que poderiam
ser feitos de forma automática. Deste modo, restaria a estes profissionais lidar
com outros elementos mais complexos que a máquina ainda não pode fazer com
precisão e deixar a máquina fazer o trabalho que é trivial, mas que consumiria um
grande número de recursos humanos, se fosse realizado manualmente.
Referências
Baeza-Yates, R.; Ribeiro-neto, B. Modern Information Retrieval. USA: Addison
Wesley, 1999
CUTTING, Douglass et al. Scatter/Gather: a cluster-based approach to browsing
large
document
collections.
In:
SPECIAL
INTEREST
GROUP
ON
INFORMATION RETRIEVAL, SIGIR, 1992. Proceedings… New York:
Association for Computing Machinery, 1992. p.318-329.
Deerwester, S; Dumais, S. T.; Furnas, G. W.; Landauer, T. K.; Harshman, R.
Indexing by Latent Semantic Analysis. Journal of the American Society for
Information Science 1990 pp. 391-407
KOWALSKI, Gerald. Information retrieval systems: theory and implementation.
Boston : Kluwer Academic Publishers, 1997. 282p.
RIJSBERGEN, C. van. Information retrieval. 2.ed. London: Butterworths, 1979.
Riloff, E.; Lehnert W. Information Extraction as a Basis for High-Precision Text
Classification ACM Transactions on Information Systems 12(3):296-333.
SCARINCI,
Rui
Gureghian;
WIVES,
Leandro
Krug;
LOH,
Stanley;
ZAMBENEDETTI, Christian; OLIVEIRA, José Palazzo Moreira de. E-Business
Knowledge Based Information Retrieval. To Appear in: Seminar on Advanced
Research in Electronic Business, 1st. To be held in Rio de Janeiro, Brazil. 7-8,
November, 2002.
Wives, Leandro K. Um Estudo Sobre Técnicas de Recuperação de Informações
com ênfase em Informações Textuais: Trabalho Individual. Porto Alegre:
CPGCC da UFRGS, 1997. (TI-672).
Wives, Leandro K.; OLIVEIRA, José Palazzo M. de; Um estudo sobre
Agrupamento de Documentos Textuais em Processamento de Informações
não Estruturadas Usando Técnicas de "Clustering". Disertação de Mestrado.
Porto Alegre. PPGC/UFRGS, Abr. 1999.

Documentos relacionados