Um estudo comparativo dos sistemas de busca na web

Transcrição

Um estudo comparativo dos sistemas de busca na web
Um estudo comparativo dos sistemas de busca na
web
Janice Inês Deters1, Silsomar Flôres Adaime2
1
Laboratório de Sistemas de Conhecimento - Universidade Federal de Santa
Catarina (UFSC)
Caixa Postal 476 – 88040-900 – Florianópolis – SC – Brazil
[email protected], [email protected]
Resumo. O crescimento do volume e da diversidade de informações na Internet originou a
necessidade do uso de sistemas de recuperação de informação na web. Atualmente encontramos
na web uma quantidade expressiva de sistemas de busca, cada um com suas peculiaridades e
características. Este artigo, oferece uma visão geral dos sitemas de busca descrevendo suas
caraterísticas, analisando e comparando as vantagens e desvantagens de uso dos diferentes
sistemas, a fim de proporcionar ao usuário subsídios para aumentar a qualidade na recuperação
de informação na web.
Palavras-chave: Recuperação de Informação, Mecanismos de busca, Sistemas de Busca,
Diretórios, Metabuscadores, Sistemas Híbridos.
1 Introdução
Na atualidade, a Internet é uma das principais fontes de informação para muitos usuários. Os
tipos de informação e serviços disponibilizados vão transformando a Web cada vez mais em um
serviço de informação de cobertura universal. Verifica-se também um verdadeiro “frenesi” por
parte do setor público, privado e também pelas pessoas individualmente, para disponibilizar
informações e serviços através da Web, pois diariamente são inseridas milhares de novas páginas
(Macedo, 2001).
Dado o grande volume de informações existentes na Web, os sistemas de busca são os
métodos mais utilizados para a recuperação de informação. Sem a utilização de um sistema de
busca, é praticamente impossível encontrar a informação necessária. Com isso, as pesquisas
realizadas na área de Recuperação de Informação (RI) procuram melhorar e aperfeiçoar os
mecanismos existentes.
Em decorrência do crescimento exponencial da Web, à sua diversidade de informações e à
sua estruturação “caótica”, encontrar informações relevantes é freqüentemente uma tarefa
demorada, difícil e para muitos usuários uma atividade frustrante. Conforme Cornella (1998) um
dos principais motivos das consultas frustradas na web é que a maioria dos usuários que utilizam
Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp.
189-200
os mecanismos de busca são inexperientes e leigos, não sabem formular uma consulta de forma
adequada e desconhecem o funcionamento dos sistemas de busca.
Um estudo apresentado por Ivonen (1995) demonstra que aqueles que conhecem o
funcionamento interno de um mecanismo de busca e possuem experiências com a linguagem de
consulta tem mais probabilidade de encontrar a informação desejada. Logo, ter conhecimento do
funcionamento de um sistema de busca é de fundamental importância para que o usuário obtenha
informações relevantes nas suas consultas.
O objetivo deste artigo é fornecer subsídios aos usuários de sistemas de busca para que estes
obtenham mais eficiência na recuperação de informação na web. Este documento está estruturado
da seguinte forma, na seção 2 são apresentados as terminologias e os conceitos básicos
relacionados à recuperação de informação, que são utilizados no transcorrer deste documento. A
seção 3 explicita as peculiaridades dos mecanismos de busca, enfatizando as suas características,
diferenças e semelhanças, a fim de proporcionar aos usuários informações para aumentar sua
eficiência na busca por informações na web. Na seção 4 é apresentado um estudo comparativo
apontando as vantagens e as desvantagens dos sistemas busca. Já na seção 5 são apresentadas as
conclusões. A seção 6 contém as referências bibliográficas utilizadas.
2 Recuperação de Informação
A Recuperação de Informação (RI) trata da representação, armazenamento, organização e do
acesso aos itens de informação (Baeza-Yates; Ribeiro Neto, 1999). Um item de informação é
geralmente constituído de texto como documentos, páginas Web, livros, etc, podendo conter
outros tipos de dados, como fotografias, gráficos e figuras. Segundo Macedo (2001), o principal
objetivo de um sistema de RI, é a seleção, num universo de documentos disponíveis, do conjunto
de documentos relevantes para uma necessidade de informação do usuário. Caracterizar a
necessidade de informação de um usuário, não é considerado uma tarefa fácil. Para exemplificar
esta dificuldade considere a seguinte necessidade de informação hipotética de um usuário no
contexto da Web apresentada por Baeza-Yates e Ribeiro-Neto (1999):
“Find all the pages (documents) containing information on college tennis teams which:
(1) are maintained by an university in the USA and (2) participate in the NCAA tennis
tournament. To be relevant, the page must include information on the national ranking
of the team in the last three years and the email or phone number of the team coach.
P.1”
Os autores mencionam que a descrição completa citada acima não pode ser usada diretamente
para solicitar uma informação usando as interfaces dos sistemas de busca atuais na Web. Para
tanto, o usuário deverá traduzir a sua necessidade de informação em uma consulta que possa ser
processada por um sistema de busca. A consulta deverá ser formulada através de uma palavrachave ou um conjunto de palavras-chaves que traduzem a necessidade de informação do usuário.
O tipo de formalização exigida para a consulta, depende também do tipo de sistema de
recuperação de informação que estiver sendo utilizado pelo usuário. Segundo Wives (2002), as
Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp.
189-200
interfaces homem-máquinas existentes atualmente, não permitem que um sistema de recuperação
de informação obtenha as informações diretamente da mente do usuário, portanto, o usuário
precisa traduzir a sua necessidade de informação utilizando uma linguagem formal específica de
um sistema de RI, o que representa uma das grandes dificuldades para o usuário.
A dificuldade na formulação da necessidade de informação pelo usuário, ocorre também em
grande parte por se tratar de uma “necessidade visceral” (Macedo, 2001) ou seja, o usuário está
consciente que precisa da informação, mas não consegue nem sequer a sua definição em
linguagem natural. Portanto, transpô-la, para a linguagem suportada pelo sistema automático de RI
é muito mais difícil, consequentemente o usuário pode vir a formular uma consulta inadequada e a
probabilidade do sistema retornar documentos não relevantes para a necessidade do usuário
aumenta.
Através da consulta formulada pelo usuário, o sistema de recuperação de informação é capaz
de selecionar as informações (documentos) relevantes para a necessidade do usuário. A forma
utilizada pelo sistema de RI para selecionar a informação relevante é identificar a similaridade
entre as informações armazenadas (índice) no sistema com a necessidade de informação descrita
na expressão da consulta. Conforme Wives (2002) esta comparação pode ser problemática, porque
um documento pode ser relevante à consulta do usuário mas não ser relevante para o usuário (que
pode ter formulado incorretamente a sua necessidade de informação). Após determinar quais os
documentos de uma coleção são relevantes à consulta do usuário, os sistemas de RI retornam o
resultado da consulta em uma lista também conhecido como ranking, onde os documentos estão
ordenados de acordo com um grau de relevância.
Para ordenar os documentos, os sistemas de RI pontuam os documentos (aplicar um peso),
onde os mais pontuados são considerados os mais importantes para a consulta do usuário, portanto
ocuparão as primeiras posições do ranking.
3 Sistemas de Busca
Segundo Altigran (1994) os sistemas de busca têm por objetivo encontrar informação do
interesse do usuário na World Wide Web. Portanto, elas coletam continuamente os dados
disponíveis na Web e montam uma base de dados que é processada para aumentar a rapidez na
recuperação de informação. Sem os sistemas de busca seria praticamente impossível encontrar
informações na Web, isso devido à sua dimens atual.
A popularização e o acesso ao “grande público” dos sistemas de recuperação de informação
ocorreram através do desenvolvimento da Web. Atualmente existe uma diversidade de sistemas
de busca e são os métodos mais utilizados na recuperação de informação na WWW. Vale ressaltar,
que os sistemas de busca não pesquisam a informação diretamente na Internet e sim na sua base de
dados.
Silveira (2001) apresenta algumas estatísticas sobre o uso de sistemas de busca na
recuperação de informação na Web.
Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp.
189-200
As ferramentas de busca são os meios mais usados pelos consumidores para
encontrar novos Web sites on-line, usadas por 73,4% daqueles entrevistados –
Forrester
Research,
março,
2001.
Do total, 84,8% das pessoas usam ferramentas de busca para encontrar novos web sites –
GVU’s 10 WWW User Survey out-dez. 1998. APUD (SILVEIRA, 2002, p.22).
Na literatura existe uma variação de nomes para denominar os sistemas de recuperação de
informação na web, que são conhecidos como “ferramentas de busca”, “mecanismos de busca”,
“motores de busca” ou “sistemas de busca”. Muitas vezes estes termos são usados de maneira
confusa ou como sinônimos (Mauro, 2000). Neste artigo, adotamos o termo “sistemas de busca”
como um termo genérico que contempla tanto os “diretórios”, como os “mecanismos de busca”
quanto os “metabuscadores” e os “sistemas híbridos”. Estes sistemas, embora tenham modos de
funcionamento diferentes, tratam do mesmo problema, que é a recuperação, em um universo de
documentos, do conjunto de documentos relevantes para uma necessidade da informação do
usuário (Macedo, 2001). A seguir será feita uma descrição sucinta de cada um deles.
3.1
Diretórios
Os diretórios foram os primeiros sistemas propostos para organizar e localizar as informações
na Web, vindo a preceder os sistemas de busca por palavras-chave (Céndon, 2001).
As informações indexadas na base de dados estão organizadas em uma estrutura hierárquica,
de acordo com um esquema de classificação em categorias. A classificação é uma técnica utilizada
para construir os diretórios. Existem diretórios que utilizam esquemas de classificação universal
como o Dewey Decimal Classification (DDC), o Universal Decimal Classification (UDC) e o
Library of Congress Classification (LCC) e outros diretórios possuem esquemas próprios de
classificação, como exemplo podemos citar o Yahoo1. Os esquemas de classificação universal
citados anteriormente são de conhecimento dos documentalistas e dos usuários assíduos de
biblioteca, pois, são os mesmos esquemas utilizados para classificar as referências nas bibliotecas
(Domingez, 2001).
O descobrimento e a seleção das informações é realizada em sua maioria por profissionais
especializados, os editores (geralmente documentalistas, bibliotecários) que aplicam critérios de
qualidade para avaliar se um site pode ser indexado ou não no diretório. Os editores descobrem
novos sites a partir de sugestões do usuário (cadastro do site pelo usuário), através de pesquisas na
Internet como listas de anúncios de novas páginas, ou ainda, pelo uso de robôs que coletam novas
URLs na web (Céndon, 2001).
Quanto aos critérios de qualidade utilizados para incluir um site em um diretório destacam-se
os aspectos de legibilidade; a identificação (se existe correio eletrônico, se o nome do autor
aparece na página dentre outros), a estruturação e a riqueza em multimídia (Aguilho, s/d.).
1 Disponível em:http://www.yahoo.com e em português http://www.yahoo.com.br
Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp.
189-200
Os diretórios possuem uma interface mais adequada à navegação comparada aos mecanismos
de busca, sendo que os documentos estão agrupados em categorias ou hierarquias de categorias.
Na maioria dos diretórios o usuário não precisa traduzir a sua consulta em uma palavra-chave,
basta selecionar os temas que lhe interessam e navegar através da estrutura hierárquica até chegar a
informação desejada (página). Em alguns diretórios o usuário pode formular a sua consulta através
de uma palavra-chave (Dziekaniak, 2001).
Os diretórios mais comuns são aqueles que oferecem uma navegação por temas, como por
exemplo, o Yahoo!. Existem também diretórios que permitem uma navegação geográfica, como o
Achei2, onde o usuário pode escolher em quais paises o sistema deverá efetuar a consulta. Existe
ainda a consulta cronológica, onde o usuário estabelece o período em que as informações devem
estar diponíveis (Dominguez, 2001).
3.2
Mecanismos de Busca
Os mecanismos de busca utilizam-se de um robot, que percorrem a Web a fim de encontrar as
páginas (descobrimento das informações), uma base de dados onde armazenam uma referência da
informação indexada e uma interface que permite ao usuário efetuar sua consulta e apresentar os
resultados obtidos. Alguns dos mecanismos de busca existentes são: Altavista3, Excite4, Google5.
3.2.1
Robôs
Os robôs também conhecidos como spiders (aranhas) ou Web crawlers (rastejadores), são
programas que percorem a estrutura da Web, recolhendo informações por eles consideradas
relevante sobre as páginas que encontram. Essas informações são indexadas em uma base de dados
que será explorada posteriormente utilizando o mecanismo de busca.
Cada robô tem a sua estratégia para decidir o que visitar e a forma de locomoção.
Comumente, iniciam a busca através de uma lista determinada de documentos (designados de
endereços sementes) e a partir desta, executam um rastreio recursivo dos documentos através das
referências (links) embutidos nos documentos. Utilizam o protocolo HTTP para recuperar
documentos dos servidores. As listas iniciais podem ser obtidas de ‘whats new’, ou de listas de
sites mais conhecidos da Web especialmente aquelas que possuem vários links, recuperam a sua
home page, e seguem os links encontrados na página inicial As listas de URL das páginas
cadastradas pelo usuário no mecanismo de busca, também são utilizadas para alguns robôs para
efetuarem a varredura (Koster, 1997).
Os robôs ao visitarem uma página, primeiramente verificam se a mesma já foi visitada
anteriormente ou se é uma página nova para ele. Caso, a página tenha sido recolhida (indexada), o
2 Disponível em: http://www.achei.com.br
3 Disponível em: http://www.altavista.com
4 Disponível em: http://www.excite.com
5 Disponível em: http://www.google.com e no Brasil http://www.google.com.br
Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp.
189-200
robô verifica se ocorreu alguma modificação desde a ultima visita, e se ocorreu, atualiza a
informação armazenada sobre a página na base de dados.
A maioria dos robôs possui um período de tempo predeterminado para revisitar os sites por
eles indexados visando detectar as mudanças ocorridas naqueles sites.
Alguns documentos da Web não são explorados, porque muitos robôs não estão capacitados
para tratar com certas estruturas em HTML. Uma destas estruturas são os frames; as páginas que
contém image-maps e também as páginas dinâmicas. Desta forma, uma parte da Web sempre fica
de fora, não é indexada.
Conforme Macedo (2001) os robôs estão bastante mal documentados na literatura
principalmente pelo fator comercial, onde os mecanismos tendam esconder a forma de trabalho do
robô.
3.2.2
Base de Dados
Os itens coletados pelos robôs durante o processo de rastreamento são encaminhados aos
indexadores que extraem a informação das páginas e as armazenam na base de dados, às vezes
também denominada índice ou catálogo (Céndon, 2001). O tamanho da base de dados varia de
mecanismo para mecanismo e na maioria das vezes, o conteúdo das bases de dados diferem em
detrimento da estratégias de indexação de cada mecanismo. Na base de dados podem ser
encontrados endereços das páginas, títulos, cabeçalhos, resumos, tamanho, e as palavras contidas
nos documentos.
O tamanho da base de dados é responsável pela amplitude da pesquisa, quanto mais
documentos ou páginas estiverem armazenadas na base de dados do sistema, mais itens o sistema
recuperará. Consequentemente, os mecanismos de busca com a maior base de dados tendem a ser
os mais populares.
3.2.3
Software de Interface
O software de interface faz a interação do usuário com o mecanismo de busca. É através dele
que o usuário fornece sua(s) necessidades de informação para ser(em) pesquisada(s) na base de
dados pelo software de busca ou sistema de busca. Nos mecanismos de busca existem duas formas
de busca, a busca simples e a busca avançada conforme Dominguez (2001, p.5).
...”una simples caja donde teclear las palavras chave (búsqueda simple) hasta um
formulario com multitud de opciones para expressar com un mayor detalle aquello que
se desea buscar (búsqueda avanzada). Las búsquedas avanzadas suelen oferecer la
possibilidad de utilizar operadores booleanos (booleanos de adyacencia, de existencia,
de exactitud) y a veces también se puede delimitar la búsqueda (por fechas, por ciertas
etiquetas HTML, por tipo de fuente, por área geográfica o domínio, por idioma, etc.).
Algunos buscadore, como por ejemplo Altavista, incluyen la possibilidad de realizar una
búsqueda expressada en lenguaje natural. Ello permite al usuario utilizar un lenguaje
Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp.
189-200
no estruturado para describir qué está buscando, siendo el motor de búsqueda le
respomsable de traducir esa búsqueda a un formato estructurado. Sea cual sea a
forma de expressar la pergunta por parte del usuario, está será analizada por el
buscador y se traducirá a una representación interna que permita compararla com los
términos recogidos en el fichero inverso y selecionor así las URL, que sean más
relevantes..”
Os resultados da pesquisa são devolvidos ao usuário numa página de resultados criada em
tempo real. Os itens são ordenados por um algoritmo de ordenação que tenta determinar a ordem
de relevância dos documentos.
A forma de apresentação dos resultados pelos mecanismos de busca varia. Em muitos deles
existe a possibilidade do usuário selecionar o formato de apresentação. O formato de apresentação
poderá ser na forma detalhada ou resumida. No primeiro, é mostrado o título da página, o
percentual de relevância, a URL, o idioma, o tamanho do documento em bytes, data e um resumo.
Já na opção resumida somente é exibida a URL da página. Outra opção, passível de escolha pelo
usuário é o número de resultados exibidos na página de resultados, geralmente os documentos são
exibidos de dez (10) em dez (10).
A forma de apresentação da página pelo mecanismo Altavista consiste em exibir o título da
página (o título mostrado é aquele que é encontrado na tag TITILE), o resumo que é a descrição
que consta na tag META descripton, e caso ela estiver vazia, são colocadas como resumo às 25
primeiras palavras encontradas no primeiro parágrafo e a URL (Varela e Basto, 2000).
3.3
Sistemas de Metabusca
Os sistemas de metabusca também chamados de multibuscadores, são sistemas que localizam
a informação em outros sistemas de busca (mecanismos e diretórios) simultaneamente e combinam
os resultados encontrados em uma só lista de resultados (Blattman, 2000).
Estes sistemas não utilizam robôs para encontrar as páginas na Web e também nem o usuário
necessita cadastrar o seu site, pois, os sistemas de metabusca não possuem uma base de dados,
próprio, uma vez que, utilizam os dados de outros sistemas de busca.
Existem variações entre os sistemas de metabusca, em relação à interface de busca, nos
sistemas utilizados na pesquisa, o modo de processamento das consultas, e na forma de
compilação e apresentação dos resultados. Em relação à apresentação dos resultados, em alguns
sistemas de metabusca existentes os resultados obtidos através dos sistemas pesquisados são
agrupados e trazidos simultaneamente. Em outros, as respostas de cada sistema pesquisado são,
integradas ordenadas por relevância (mostrando quais sistemas retornaram resultados) e os
resultados duplicados (um mesmo documento pode aparecer em vários sistemas de busca) são
eliminados (Céndon, 20001).
Alguns dos metabuscadores existentes são: MetaLocate (além de portal, o Locate.com
também oferece este metabuscador) e o MetaMiner. O Metaminer foi desenvolvido no Brasil. Ele
teve sua origem em um projeto de mestrado e foi adquirido pela UOL. O MetaMiner busca
Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp.
189-200
simultaneamente em dois sistemas de busca brasileiro (Achei e Radar Uol) e em dois sistemas de
busca internacional (Looksmart e AOL Busca). Para que um site possa compor a sua lista de
resultados é necessário que ele esteja indexado em um dos quatro sistemas apresentados, onde o
MetaMiner faz a sua busca.
Além do MetaMiner e Locate na Web encontra-se vários outros sistemas de meta-busca
como: MetaCrawler (http://www.metacrawler.com) e WEBCrawer (http://www.webcrawler.com).
O MetaCrawler foi desenvolvido em 1994 pela University of Washington, ele efetua busca das
informação no Alta Vista, Excite, Infoseek, Lycos, Webcrawler e Yahoo.
Existem alguns, como Copernic (http://www.copernic.com), que podem ser instalados,
facilitanto a construção local de estratégias de busca. Alguns exemplos destas são o freeware Web
Ferret (http://www.ferretsoft.com/netferret/), Mata Hari (http://www.thewebtools.com/) (Wives,
2002).
3.4
Sistemas Híbridos
Atualmente a distinção entre mecanismos de busca e diretórios não é tão nítida, a maioria
destes sistemas pode ser considerado como sistema híbridos. Pelo fato que, os resultados
apresentados são originados tanto por diretórios como por mecanismos de busca. Por exemplo, o
Yahoo apresenta em primeiro os resultados por ele indexado. Caso, uma consulta não encontre
resultados em seu diretório, então serão mostrados os resultado desta obtidos no mecanismos de
busca Google. Da mesma forma, se o Google não encontrar resultados em sua base de dados, ele
apresenta os resultados obtidos através de um diretório que é o Open Directory (Silveira, 2001)
Os sistemas híbridos são a grande tendência dos sistemas de busca. Acredita-se que num
futuro próximo não haverá sistemas somente com uma modalidade de busca.
4
Comparativo
Esta seção apresenta uma análise comparativa realizada a partir da contribuição dos autores
Céndon (2001), Dominguez (2001), Stanley (1998). As principais características dos sistemas de
busca descrita nas seções anteriores são apresentados na Tabela 1.
Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp.
189-200
Sistemas
Descobrimento das páginas
Diretórios
Realizada manualmente
(por pessoas)
Mecanismos Principalmente de forma
de Busca
automática mediante robots
Metabusca
Sistemas
Híbridos
Representação do
conteúdo do documento
Classificação manual
Representação da
consulta
Implícita – mediante
navegação pelas
categorias.
Indexação automática
Explícita – mediante
palavra-clave.
Não possuem mecanismos Usam a base de dados de
de descobrimento próprio. outros sistemas de busca,
não indexam o conteúdo.
De acordo com o sistema o Conforme o sistema a
descobrimento da
indexação pode ser
informação pode ser manual automática ou manaul,
ou automática.
trabalham em parceria
com outro sistema.
Explícita – mediante
palavra-clave.
Ela pode ser implícita
como explícita.
Apresentação dos
resultados
Página de resultados
previamente construída.
Os resultados são
mostrados de forma
bastante precisa.
Página criada de forma
dinâmica para cada
consulta.
Pouca precisão
Páginas criadas de forma
dinâmica apresentam uma
maior cobertura, mas os
resultados são pouco
precisos.
Página criadas de forma
dinâmica.
Tabela 1 - Principais características dos sistemas de busca (Adaptado a partir de Dominguez, 2001)
No meio da diversidade de opções de sistemas de busca a serem adotados pelos usuário fica a
dúvida: “qual sistema utilizar?”. Para responder a esta pergunta será feita uma sistematização das
vantagens e desvantagens de uso dos diferentes sistemas de busca, tendo como referência o estudo
dos seguintes autores Céndon (2001), Dominguez (2001), Stanley (1998) pesquisadores da área de
RI.
Algumas das vantagens em utilizar os diretórios comparados aos demais sistemas de busca
são:
a) São mais fáceis de serem utilizados, principalmente para usuários leigos. Para efetuar a
consulta, o usuário escolhe a categoria principal que se adequou à sua necessidade de
informação e navega pelas subcategorias, até chegar à informação requerida.
b) Permitem ter uma visão geral do volume e conteúdo do índice, muitos diretórios indicam
em cada um dos seus nodos quantas referências e subcategorias há nela.
c) As informações disponíveis passaram por um processo de seleção de qualidade e com
isso os resultados de uma pesquisa são mais precisos.
Como desvantagens em utilizar um diretório temos:
a) Possuem uma pequena cobertura da Web, ou seja, poucas páginas indexadas na sua base
de dados, a única exceção é o Yahoo;
b) A seleção, a classificação e a descrição dos recursos na maioria dos casos são feitos por
várias pessoas, o que conduz consequentemente a uma falta de critérios homogêneos.
Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp.
189-200
c)
Muitas informações indexadas nos Diretórios estão tornando-se rapidamente
desatualizados, pois, não há nenhum mecanismo automático que faça as suas
atualizações. Atualizar manualmente as informações indexadas, torna-se uma tarefa
impossível.
d) Demora na indexação de um novo documento;
Já os mecanismos de busca apresentam as seguintes vantagens comparados com os demais:
a) Permitem pesquisas amplas.
b) Possuem informações atualizadas.
c) Existem mecanismos especializados praticamente para todas as áreas de conhecimento
Como desvantagem temos:
a) Cada mecanismo tem a sua própria sintaxe para “expressar” a consulta, o que representa
uma das grandes dificuldades para o usuário.
b) Retornam resultados pouco precisos, sendo que, as informações indexadas não passaram
por um processo de qualidade.
As vantagens dos metabuscadores são:
a) Realizam buscas em vários sistemas ao mesmo e acabam tendo uma cobertura bem maior
da Web (nem todos os sistemas têm as mesmas páginas indexadas);
b) Possibilitam ao usuário escolher em quais sistemas de busca o sistema deverá efetuar a
consulta;
c) Existe a necessidade de aprender a usar uma única interface para realizar a consulta;
A desvantagem dos metabuscadores sobre os demais é a sua limitação em relação à interface
que não permite utilizar os recursos específicos de cada sistemas de busca, ou seja, o usuário não
pode refinar a consulta. Outra desvantagem encontrada é relativa aos resultados obtidos, obtém-se
uma maior cobertura sem um aumento de qualidade.
De todos os sistemas de busca os sistemas híbridos além de serem a tendência são os mais
indicados, pois, possuem as facilidade de efetuar a consulta dos diretórios e a amplitude de
resposta dos mecanismos de busca.
1 Conclusões
O presente documento é produto de um estudo sobre funcionamento dos mecanismos de
busca existentes. Saber como os sistemas de busca funcionam além de auxiliar na recuperação
informações relevantes é conhecimento necessário também quando se projeta um site para que este
fique visível aos sistemas de busca.
Ao término deste estudo conclui-se que os sistemas de busca existentes na web, tem muito a
evoluir para poder acompanhar a explosão de informação disponibilizada diariamente na rede.
Além disso, os sistemas de recuperação de informação tem um grande desafio a vencer, que
Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp.
189-200
consiste em prover um acesso eficiciente à informação. Prover acesso eficiente à informação é
considerado um problema complexo e que não possui uma solução fácil.
De outro lado, os usuários de ferramentas de recuperação na Web precisam acostumar-se a
estudar as funcionalidades destas ferramentas, recorrendo a documentação que pode estar na forma
de uma ajuda na própria ferramenta. Conhecimentos estes, que o auxiliarão na formulação da
consulta de forma adequada e também na escolha do sistema adequado.
2 Referências
AGUILLO, I. F. Documentación del curso Tratamiento documental de la World Wide Web:
técnicas de indización y clasificación de recursos en Internet. Disponível em:
cederul.unizar.es/noticias/sicoderxiii/po06.htm - 50k
ALENCAR, M. S. Mecanismos de busca na Web: uma análise da metodologia de estudos
comparados. Rio de Janeiro, 2001. Dissertação (Mestrado em Ciência da Informação) UFRJ/ECO-MCT/IBICT, Rio de Janeiro.
BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern Information Retrieval. ACM Press, Addison
Wesley, 1999.
BLATTMAN, U. et al. Recuperar a Informação Eletrônica pela Internet. 2000. Disponível
em: http://www.ced.ufsc.br/~ursula/papaers/buscanet.html
CENDÓN, B. V. Ferramentas de Busca na Web. Brasília, v. 30, n.1, p. 39 – 49, jan./abr. 20001.
Disponível em: http://www.robotstxt.org/wc/threat-or-treat.html.
CORNELLA, A. La Importancia De La "Relevancia" En Informacion. 1998. Disponível em:
http://intranet.logiconline.org.ve/Techinfo/relevancia.html.
DOMINGUEZ, Adelaida Delgado. Herramientas de búsqueda para la WWW. CIVE2001
Congresso Internacional Virtual de Educação. Abril, 2001.
DZIEKANIAK. G. V. Análise dos Sistemas de Busca na Web. PPGEP/UFSM, Santa Maria:
2001. Disponível em: http://www.arquivologia.ufsm.br/daniel/artigos/artigos.html
IIVONEN, M. Searches and Searches: differences Between the Most and Least Consistent
Searches. SIGIR FORUM 95. P. 149-157. 1995.
KOSTER, M. Robots in the Web: threat or treat? ConneXions,
Volume 9, No. 4, April 1997.
MACEDO, J. Recuperação de Informação Textual Distribuída por Fontes Autônomas com
Sobreposição. Portugal, Julho 2001. (Tese de Doutorado) Universidade do Ninho.
MOURA, G. Sistemas de busca na web: diretórios e mecanismos de busca. 2000. Disponível
em: http://www.quatrocantos.com/tec_web/sist_busca/sb_sum.htm.
SILVEIRA, M. Web Marketing: usando ferramentas de fusca. São Paulo: Novatec, 2002
STANLEY, Tracey. Meta-Searching on the web. 1998. Disponível em:
http://www.ariadne.ac.uk/issue14/search-engines/
Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp.
189-200
SULIVAN, D. Yahoo Renews With Google, Changes Results. Disponível em:
http://www.searchenginewatch.com/searchday/02/sd1104-pptest.html
VARELA, A. e BASTO, V. Information Retrieval Techniques - SEARCH ENGINES:
AltaVista, Excite and Google. Disponível em: http://www.fe.up.pt/~mgi00001/ARI.htm
WIVES, L. k. Tecnologia de Descobertas de Conhecimentos em Textos Aplicadas à
Inteligência Competitiva. Porto Alegre, 2002. (Exame de Qualificação), Universidade Federal
do Rio Grande do Sul.
Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp.
189-200

Documentos relacionados

Estruturação e Implementação de um Sistema de Metabusca

Estruturação e Implementação de um Sistema de Metabusca em estudos realizados sobre algumas formas de se recuperar estas informações para VI Encontro de Estudantes de Informática do Estado do Tocantins – ENCOINFO 2004 – 4 e 5 de novembro de 2004 CEULP/U...

Leia mais