Estruturação e Implementação de um Sistema de Metabusca

Transcrição

Estruturação e Implementação de um Sistema de Metabusca
Estruturação e Implementação de um Sistema de
Metabusca
Anderson Luiz de Oliveira1, Fernando Luiz de Oliveira2, Fabiano Fagundes2
1
Coordenação de Informática – Secretaria da Infra-Estrutura do Estado do Tocantins
(SEINF)
2
Sistemas de Informação – Centro Universitário Luterano de Palmas (CEULP)
[email protected], {nandoluiz,fagundes}@ulbra-to.br
Abstract. This work presents the development of a Metasearch System what
interact with other existing systems of search (and that makes possible this
interaction), offering resources to the user so that the same it gets the results
next possible to the desired one. Thus, a standardized interface of consultation
will be developed, as well as a search module that is capable to consult in two
or more searches, to clean the results and to present the results rearranged
through the application of new (others) criteria of ordinance.
Resumo. Este trabalho apresenta o desenvolvimento de um Sistema de
Metabusca que interaja com outros sistemas de busca existentes (e que
possibilitam esta interação), oferecendo recursos ao usuário para que o
mesmo obtenha os resultados o mais próximo possível do desejado. Assim, foi
desenvolvida uma interface padronizada de consulta, bem como um módulo de
busca capaz de consultar em dois ou mais sistemas de busca, estruturar os
resultados e apresentar os resultados reordenados através da aplicação de
novos (outros) critérios de ordenação.
1. Introdução
Com o desenvolvimento de tecnologias voltadas para a informação e comunicação,
surgem também novas formas de disponibilizar as informações (o conhecimento). Com
isso, um novo modelo para o acesso à informação é implantado, ou seja, o acesso a
informação através da World Wide Web (Web). A “virtualização” do conhecimento, das
pesquisas, das empresas, entre outras áreas de atuação do homem, tornou possível o
acesso virtual a estas fontes de conhecimento sem necessariamente estar no mesmo local
físico da fonte.
Todos os dias são adicionados inúmeras informações na Web, sendo que estas
informações não possuem um padrão pré-definido, podendo, ainda, estar em vários
formatos de mídias, ou seja, como arquivos de texto, áudio, imagem, vídeo, entre
outros. Assim, devido a não padronização das informações na internet, surge também a
necessidade de se ter pesquisas voltadas para a recuperação dessas informações para os
usuários da Web.
Este trabalho tem como objetivo implementar um Metabuscador, baseando-se
em estudos realizados sobre algumas formas de se recuperar estas informações para
VI Encontro de Estudantes de Informática do Estado do Tocantins – ENCOINFO 2004 – 4 e 5 de novembro de 2004
CEULP/ULBRA – Curso de Sistemas de Informação – Palmas – TO
usuários na Web. O modelo de ordenação (ranking) dos dados e o armazenamento dos
dados retornados serão discutidos com mais detalhes, devido a importância que estes
temas assumem neste trabalho.
2. Recuperação de Informação
A Recuperação de Informação (RI) trata da representação, armazenamento, organização
e do acesso aos itens de informação (BAEZA-YATES & RIBEIRO-NETO, 1999),
sendo que um item de informação pode ser caracterizado como livros, documentos da
internet (páginas da Web), entre outros.
Necessidade de informação pode ser definida como a falta de conhecimento que
uma pessoa tem para realizar determinada tarefa (MIZZARO, 1996). Frente a essa
necessidade, a pessoa necessita adquirir determinado conhecimento, caso não o possua.
Assim, essa necessidade de informação deve ser sanada de alguma forma. Geralmente
isso é obtido através de um Sistema de Recuperação de Informações (WIVES, 2002),
onde se tem a possibilidade de se escolher documentos relevantes na busca por
conhecimento.
2.1. Mecanismos de Busca
Os Mecanismos de Busca, também chamados de Ferramentas de Busca ou
Search Engines, são serviços que possuem robôs (robots, spider, wanderer, crawler)
que varrem a internet, seguindo os links e indexando automaticamente a informação
coletada pelos robôs (ALENCAR, 2001). Assim, tornando possível a recuperação destes
documentos por usuários da Web. Exemplos deste tipo de serviço são o Google (2004),
o AltaVista (2004) e o brasileiro Radix (2004). A Arquitetura Geral de um Mecanismo
de Busca é apresentada na Figura 1.
Figura 1. Arquitetura Geral de um Mecanismo de Busca (BAEZA-YATES &
RIBEIRO-NETO, 1999).
VI Encontro de Estudantes de Informática do Estado do Tocantins – ENCOINFO 2004 – 4 e 5 de novembro de 2004
CEULP/ULBRA – Curso de Sistemas de Informação – Palmas – TO
Segundo RIJSBERGEN (1979), um Mecanismo de Busca possui o seu
funcionamento separado em três módulos principais. O primeiro tem a responsabilidade
de realizar a apresentação dos dados, ou seja, fazer a análise do conteúdo do documento,
de forma a tornar o conteúdo dos dados encontrados, úteis para processamento de
prováveis consultas por usuário da Web. O segundo módulo fica com a responsabilidade
de fazer a indexação dos documentos encontrados organizando melhor a base de dados
de documentos, para que se possa obter uma melhoria no retorno de uma consulta. O
terceiro módulo se refere a interação entre o sistema de busca e o usuário, ou seja, a
busca realizada pelo usuário.
A Figura 1 está dividida conforme os três módulos descritos acima, onde o
primeiro módulo é representado pela interface do usuário e operações sobre o texto. A
interface do usuário possibilita a interação com o sistema, com isso, o usuário informa a
necessidade de informação desejada, o que possibilita a realização de operações sobre o
texto informado, de forma a retirar palavras indesejadas (tais como artigos ou
preposições). Desta forma, cria-se uma visão lógica das palavras que representam a
necessidade de informação do usuário. No segundo módulo ocorrem dois processos em
paralelo, as operações sobre as consultas, onde o texto informado na visão lógica torna
possível a realização de buscas na base de índices, e a indexação de novos documentos,
ou seja, possibilita a busca de outros documentos na internet através dos robots,
fornecendo alguns links iniciais para o início das buscas. Após a indexação dos
documentos encontrados, os documentos são ordenados e apresentados ao usuário do
sistema, o que caracteriza o terceiro módulo da arquitetura do Mecanismo de Busca.
Mecanismo de Busca utiliza os robôs para vasculhar a Web à procura de
documentos a serem indexados. Com isso, os robôs são iniciados com um conjunto de
links, os quais são acessados pelos robôs. Assim, para cada link, o documento referente
ao link é armazenado em uma base de dados temporária, onde será analisada e indexada
a base de dados de consulta. Para cada documento encontrado, os robôs verificam se o
mesmo possui algum outro link no conteúdo do documento, caso encontre, o link é
adicionado a uma lista de links a serem buscados (ARASU et al, 2001).
A interatividade com o usuário do sistema é realizada com a interface do sistema, onde
o usuário informa um conjunto de necessidades para serem pesquisadas na base de
dados. Desta forma, o sistema analisa este conjunto de necessidades e retorna uma lista
de resultados.
2.2. Diretórios
Os Diretórios são serviços que possuem uma árvore de assuntos (categorias), com uma
estrutura hierárquica, onde cada site é indexado em um ou mais assuntos sob a árvore
(ALENCAR, 2001). Exemplos desse tipo de recurso são o Yahoo (2004), o Lycos
(2004) e o brasileiro Cadê (2004).
Os Diretórios foram os primeiros sistemas propostos para recuperar e organizar
documentos na Internet (DETERS, 2003). Neste tipo de Sistema de Recuperação de
Informação ocorre a intervenção humana para realizar a indexação dos documentos
representados na Web (VAZ, 2000). Desta forma, este sistema difere da arquitetura
VI Encontro de Estudantes de Informática do Estado do Tocantins – ENCOINFO 2004 – 4 e 5 de novembro de 2004
CEULP/ULBRA – Curso de Sistemas de Informação – Palmas – TO
apresentada na Figura 1, onde a indexação dos documentos da Web é realizada pelos
robôs.
Nos sistemas de Diretórios, um mesmo documento pode estar relacionado a mais
de uma categoria. Desta forma, o sistema armazena somente a referência dos sites, título
da página e um pequeno resumo, o qual pode ser elaborado pelo autor do site ou pelo
indexador (DETERS, 2003).
2.3. Metabuscador
Um Metabuscador é um sistema que possibilita a pesquisa por usuários da Web, a vários
Mecanismos de Busca (MENG et al, 2002). Este sistema possibilita uma padronização
de uma consulta, ou seja, para todos os Mecanismos de Busca, tem-se uma forma de se
descrever a necessidade de informação que o usuário deseja resgatar. Com isso, o
Metabuscador padroniza para o usuário do sistema este tipo de descrição, fazendo com
que o usuário necessite aprender a utilizar apenas um tipo de Sistema de Recuperação de
Informação.
Um Metabuscador não necessita utilizar um sistema para realizar a indexação
dos documentos, ou seja, de um sistema para realizar o armazenamento dos
documentos. Assim, não necessita de uma base de índices própria para armazenar os
documentos indexados (DETERS, 2003). Assim, a maior preocupação destes sistemas
está relacionada à eliminação de dados repetidos e a reorganização da lista de resultados
para o usuário, possibilitando uma maior aproximação dos documentos relevantes para
o usuário do sistema. Exemplos desse tipo de recurso são o Search (2004), o
MetaCrawler (2004) e o brasileiro Miner (2004).
Outro fator importante para a utilização de um Metabuscador está no fato de
obter uma maior abrangência na recuperação de informação, pois o mesmo utiliza
diversos Mecanismos de Busca que, por sua vez, possuem índices diferentes (MENG et
al., 2002). A Figura 2 apresenta a arquitetura para um Sistema de Metabusca.
VI Encontro de Estudantes de Informática do Estado do Tocantins – ENCOINFO 2004 – 4 e 5 de novembro de 2004
CEULP/ULBRA – Curso de Sistemas de Informação – Palmas – TO
Figura 2. Arquitetura de um Sistema de Metabusca (DREILINGER & HOWE,
1997).
Desta forma, observa-se que o usuário se comunica diretamente com a interface
do sistema. Assim, as informações são formatadas (padronizadas) para cada um dos
Sistemas de Recuperação de Informação, sendo que cada um destes sistemas utilizam
formas distintas de realizar suas buscas. Ou seja, para o Google, por exemplo, o
operador (+) possui significado de união entre as palavras a serem pesquisadas,
enquanto que para o Yahoo, o operador (+) possui seu significado como parte do texto a
ser pesquisado. Com isso, após a pesquisa realizada obtém-se o retorno de cada sistema
pesquisado, onde os resultados são processados e reordenados, para que depois seja
enviada a lista de resultados para a interface do sistema.
3. Desenvolvimento do Sistema de Metabusca
Esta seção apresenta as características e concretizações do Sistema de Metabusca
proposto neste trabalho. Portanto, será apresentada a interface do sistema que realiza a
integração com o usuário e conseqüentemente, as funcionalidades que o sistema agregou
para realizar a busca e gerar a apresentação dos resultados. O Metabuscador proposto
neste trabalho realiza a busca sobre o sistema de Recuperação de Informação Yahoo,
que é um Diretório, e o Google, que é um Mecanismo de Busca.
3.1. Arquitetura do Metabuscador
Para melhor especificar o funcionamento do Sistema de Metabusca desenvolvido neste
trabalho, a Figura 3 apresenta a sua arquitetura. Deste modo, quando o sistema processa
o resultado da busca, o mesmo realiza a inserção de dados em um banco de dados,
assim, possibilitando uma reordenação da lista de resultados para o usuário do sistema.
VI Encontro de Estudantes de Informática do Estado do Tocantins – ENCOINFO 2004 – 4 e 5 de novembro de 2004
CEULP/ULBRA – Curso de Sistemas de Informação – Palmas – TO
Figura 3. Arquitetura do Metabuscador.
A arquitetura representada na Figura 3 especifica todo o processo realizado pelo
Metabuscador. As subseções seguintes tratam de cada módulo apresentado na
arquitetura acima.
3.2. Interface do Sistema
A interface do sistema oferece um único campo para a inserção da(s) necessidade(s) de
informação do usuário. Através dele o usuário pode inserir uma palavra-chave ou uma
expressão para representar sua necessidade. Com isso, o sistema se preocupa com a
padronização do texto para todos os Sistemas de Recuperação de Informação utilizados.
Após a inserção das necessidades do usuário no sistema, o mesmo pode escolher
em qual Sistema de Recuperação de Informação será realizada a busca. Assim, quando o
usuário clica no botão “Buscar”, na interface, o mesmo inicia um evento no servidor que
irá submeter à busca.
3.2. Submissão de Consulta
Ao receber a expressão enviada pela interface do sistema, a expressão é padronizada
para a estrutura de busca de cada Sistema de Recuperação de Informação, ou seja, é
montada uma URL, com as características de uma consulta para o sistema em questão.
Assim, a mesma é submetida através do protocolo HypeText Transfer Protocol (HTTP),
que é o protocolo usado nas conexões a páginas na Web ao servidor de cada Sistema de
Recuperação de Informação escolhido pelo usuário. Logo, realiza a comunicação com
cada servidor para a consulta dos dados. A Figura 4 apresenta o código que faz a
comunicação com o servidor.
01 System.Net.HttpWebRequest webrequest = (HttpWebRequest)
System.Net.WebRequest.Create(weburi);
02 System.Net.HttpWebResponse webresponse =
(HttpWebResponse)webrequest.GetResponse();
VI Encontro de Estudantes de Informática do Estado do Tocantins – ENCOINFO 2004 – 4 e 5 de novembro de 2004
CEULP/ULBRA – Curso de Sistemas de Informação – Palmas – TO
03 StreamReader webstream = new StreamReader(
webresponse.GetResponseStream(), Encoding.Default);
Figura 4. Código que Realiza a Comunicação com o Servidor.
Na primeira linha da Figura 4 é utilizada uma classe que oferece acesso ao
servidor, via protocolo HTTP, em que a mesma é chamada de HttpWebRequest.
Com isso, na linha 2 a classe HttpWebResponse, que oferece suporte as
especificações das propriedades e métodos da página retornada, possibilita a
manipulação do código fonte da página Web criada em memória temporária do
Metabuscador. Ou seja, quando é realizada a busca em um Sistema de Recuperação de
Informação, este retorna uma página como retorno da consulta. Com isso, o
Metabuscador realiza uma simulação de um browser criando a página em memória
temporária e possibilitando a manipulação do código da página.
3.3. Processamento dos Resultados
Após a criação da página em memória, o sistema lê o código fonte da página, linha a
linha, o que possibilita a utilização de uma linguagem de Expressões Regulares
(Regular Expressions – Regex). Esta linguagem é na verdade uma padronização de
caracteres, em que existem boas probabilidades de que algo que esteja escrito como
20/05/2004 seja uma data, assim como algo na forma 18:30 possa ser uma relação entre
escalas ou uma indicação de uma hora.
O uso de reconhecimento de padrões no texto não se aplica só ao
reconhecimento automático destas formas. Tal como visto anteriormente, existem
determinados padrões que podem possuir leituras diferentes. Sendo assim, é necessário
utilizar linguagens de marcação (markup languages) que sejam úteis para não deixar
ambíguas situações menos intuitivas. Estas etiquetas de marcação podem conter
informação útil para caracterizar o texto delimitado, permitindo assim uma melhor
identificação da forma a ser extraída do texto original. Assim, estas informações
relevantes são retiradas do código fonte da página, o que possibilita a inserção destas
informações no banco de dados.
A extração dos dados é realizada conforme a estrutura do código-fonte da página
resultante da busca no Sistema de Recuperação de Informação. Com isso, para cada
estrutura de código-fonte, são retiradas as informações referentes ao título, link, que
oferece acesso à página de origem do documento e o resumo do conteúdo da página
(que em alguns casos não existem). Para isso, o sistema utiliza a classe
MatchCollection, que tem a finalidade de aplicar Expressões Regulares sobre um
texto, ou seja, aplicar um formato padrão para um texto, assim, a parte do texto que não
estiver no padrão desejado é eliminado.
Cada Sistema de Recuperação de Informação possui uma estrutura diferente para
apresentar o resultado de uma busca, o que torna necessário a realização de alguns
estudos prévios sobre a estrutura de cada sistema. Para cada Sistema de Recuperação de
Informação, foi criada uma Expressão Regular equivalente para representar os dados
desejados, tais como o link, o título e o resumo. Quando o sistema interpreta uma linha
do código fonte da página retornada, o mesmo verifica se a linha contém o formato
VI Encontro de Estudantes de Informática do Estado do Tocantins – ENCOINFO 2004 – 4 e 5 de novembro de 2004
CEULP/ULBRA – Curso de Sistemas de Informação – Palmas – TO
padrão de uma das expressões. Se for encontrado, o valor do texto que segue o padrão
da expressão é atribuído a sua variável equivalente, enquanto que o restante é
descartado.
O armazenamento dos dados é temporário para cada pesquisa realizada pelo
usuário do sistema. Portanto, para cada extração dos blocos, são armazenados os
campos bases para a apresentação da lista de resposta (título, link e resumo), acrescido
do campo responsável pela classificação da lista.
Antes da inserção destas informações (referentes a um documento) no banco de
dados, é realizada a verificação da existência do link do documento na base de dados.
Espera-se, com isso, eliminar referências a documentos repetidos. Outra tarefa
desenvolvida refere-se ao cálculo do peso que definirá a posição de cada documento no
ranking resultante. Este cálculo será apresentado a seguir:
Peso = Py + Pg
O valor do peso do documento para o Metabuscador é igual à soma das posições
que o documento possui no ranking dos Sistemas de Recuperação de Informação (PY
para o ranking do Yahoo e PG para o ranking do Google). Assim, quanto maior o peso
do documento, maior será sua classificação na lista de resultados, ou seja, o documento
que possuir o maior ranking (valor igual a quarenta) em um dos servidores, e no outro
seu ranking for igual a trinta, a soma armazenada será de um ranking igual a setenta. A
ordenação da lista é atribuída do maior ranking para o menor.
A apresentação dos resultados é realizada após a inserção dos dados base de
dados. São selecionados todos os dados do banco de dados relacionados à expressão
informada pelo usuário. A lista de resultados é então ordenada da maior para a menor
média ponderada das posições dos Sistemas de Recuperação de Informação.
3.4. Comparativo entre os Rankings Gerados
Esta subseção apresenta um comparativo com os Sistemas de Recuperação de
Informação utilizados, apresentando na Tabela 1 os primeiros 40 links gerados por uma
busca com a mesma palavra (Educação), tendo a mesma sido realizada no dia 03 de
agosto de 2004.
Tabela 1. Demonstrativo da lista de ranking do Metabuscador baseado no
cálculo dos rankings dos sistemas utilizados.
Site
www.mec.gov.br/
bve.cibec.inep.gov.br/
www.min-edu.pt/
www.educacao.sp.gov.br/
www.educacao.te.pt/
www.revistaeducacao.com.br/
www.projetoeducar.com.br/educacao-fisica
www.terra.com.br/educacao
www.estadao.com.br/educando
www.educacaoonline.pro.br/
www.uol.com.br/educacao
Metabuscador
80
77
77
66
58
51
49
48
39
37
37
Google
40
39
38
34
35
36
24
12
23
37
0
Yahoo
40
38
39
32
23
15
25
36
16
0
37
VI Encontro de Estudantes de Informática do Estado do Tocantins – ENCOINFO 2004 – 4 e 5 de novembro de 2004
CEULP/ULBRA – Curso de Sistemas de Informação – Palmas – TO
dmoz.org/World/Portugu%EAs/Educa...
www.educare.pt/
www.planetaeducacao.com.br/
www.microsoft.com/brasil/educacional
aol.klickeducacao.com.br/Portal/
www.a-pagina-da-educacao.pt/
www.guiaweb.com/category.php3?id=4
www.yahoo.com/r/ed
www.prossiga.br/edistancia/
www.klickeducacao.com.br
educaterra.terra.com.br/educacao/
www.apple.com/br/educacional
www1.folha.uol.com.br/folha/educacao/
www.mavicanet.com/directory/por/4788.html
www.miniweb.com.br/
www.microsoft.com/portugal/educacao
www.mec.gov.br/cne/default.shtm
www.gnu.org/education
www.portoalegre.rs.gov.br/fme
www.texas-instruments.de/
www.scielo.br/scielo.php/script_sci_serial
www.intel.com/portugues/education
www.projectotio.net/netavo
www.schoolblogs.com/
www.educfinanceira.com.br
www.mma.gov.br/port/sdi/ea/index.cfm
www.projetoeducar.com.br/ead
pt.wikipedia.org/wiki.cgi?Educa...
www.abed.org.br
www.csu.edu.au/education/library.html
www.uol.com.br/ed
www.cnedu.pt
www.filosofia.pro.br
pt.wikipedia.org/wiki/Educa...
www.forummundialdeeducacao.com.br
www.mhavila.com.br/link/mm/educ.html
open.thumbshots.org/World/Portugu…
www.educacao.mg.gov.br
www.geocities.com/luisacortesao
www.educacao.pe.gov.br
www.triangle.co.uk
www.fe.usp.br
www.edukado.net
vejaonline.abril.com.br/.../newstorm....
www.aonde.com/indicacao/educacao/....
www.efisicaba.cjb.net
indice.uol.com.br/educac.jhtm
www.universiabrasil.net
www.casio.co.jp/edu_e
www.portaldaeducacao.com.br/portal
www.projetoeducar.com.br/
35
34
33
33
32
31
31
30
29
29
28
28
27
27
26
26
25
24
22
22
21
21
20
20
19
19
18
18
17
17
16
15
14
14
13
13
12
11
11
10
10
9
9
8
8
7
7
6
6
5
5
0
0
33
0
32
31
0
0
29
0
28
0
27
0
26
0
25
0
22
0
21
0
20
0
19
0
18
0
17
0
16
15
14
0
13
0
0
11
0
10
0
9
0
8
0
7
0
6
0
5
0
35
34
0
33
0
0
31
30
0
29
0
28
0
27
0
26
0
24
0
22
0
21
0
20
0
19
0
18
0
17
0
0
0
14
0
13
12
0
11
0
10
0
9
0
8
0
7
0
6
0
5
VI Encontro de Estudantes de Informática do Estado do Tocantins – ENCOINFO 2004 – 4 e 5 de novembro de 2004
CEULP/ULBRA – Curso de Sistemas de Informação – Palmas – TO
www.educacaopublica.rj.gov.br
www.folha.com.br/folha/educacao
www.cefetpr.br
www.amazon.com/exec/obidos/external
www.sec.ba.gov.br/
www12.brinkster.com/livrosegw/index2.asp?...
www.scielo.br/scielo.php
lanic.utexas.edu/subject/education/indexpor...
4
4
3
3
2
2
1
1
4
0
3
0
2
0
1
0
0
4
0
3
0
2
0
1
Analisando a Tabela 1, pode-se notar que o ranking do Metabuscador é o
somatório do ranking dos outros dois Sistemas de Recuperação de Informação.
Portanto, pode ocorrer de alguns documentos encontrados em um Sistema de Busca, não
estar indexado em um outro sistema. Assim, torna possível que um documento relevante
para um Sistema de Busca, não esteja nem mesmo indexado em um outro Sistema de
Busca. Desta forma, o documento que não está indexado em ambos os sistema terá seu
ranking prejudicado. Por isso, a necessidade de se realizar buscas em vários Sistemas de
Recuperação de Informação.
4. Conclusão
A recuperação de informação é um tema muito discutido, e isso se deve mais ao fato da
dificuldade de se distinguir um resultado que seja mais relevante para o usuário. O
usuário ainda possui uma dificuldade muito grande em expressar a sua necessidade de
informação, ou seja, em transformar a linguagem natural em uma linguagem entendível
pelos Sistemas de Recuperação de Informação. E estes enfrentam dificuldades em
retornar documentos relevantes para o seu solicitante, pois em muitas das vezes a
necessidade informada pelo usuário é mal interpretada pelos buscadores.
O trabalho apresentado tem como foco principal realizar a busca das
necessidades de informação do usuário do Metabuscador em outros sistemas de busca, e
ainda, realizar uma nova organização da lista de resultados para o usuário do sistema.
Devido a ser uma nova ordenação baseada no cálculo dos rankings dos outros sistemas
de busca, não se pode afirmar que a ordenação proposta neste trabalho é melhor ou pior
que as ordenações utilizadas pelos Sistemas de Recuperação de Informação utilizados,
uma vez que, para valer de uma afirmação sobre o mesmo, necessitaria de avaliações
sobre o critério de ordenação abordado no trabalho proposto.
Assim, para se avaliar o resultado fornecido pela metabuscador desenvolvido,
seria necessário aplicar Metodologias de Avaliação voltadas para avaliar o ranking
gerado por um buscador. Uma Metodologia de Avaliação consiste em experimentos
usados pelos pesquisadores da área, para avaliar o quão eficiente é um sistema de busca
se comparado com outros já existentes. Portanto, uma metodologia que poderia ser
utilizada como experimento, pode ser a realização de uma mesma consulta em um
conjunto de Sistemas de Metabusca, onde a comparação dos resultados obtidos é
avaliada por especialistas do assunto. Com isso, pode-se obter uma relação dos Sistemas
de Metabusca que se aproximaram mais dos resultados desejados.
VI Encontro de Estudantes de Informática do Estado do Tocantins – ENCOINFO 2004 – 4 e 5 de novembro de 2004
CEULP/ULBRA – Curso de Sistemas de Informação – Palmas – TO
5. Referências Bibliográficas
ARASU, Arvind, et al. Searching the Web. ACM Transactions on Internet Technology
(TOIT), New York, v. 1, n. 1, p. 2-43, ago. 2001.
BAEZA-YATES, R. e RIBEIRO-NETO, B. Modern Information Retrieval. New York:
ACM Press, Addison Wesley, 1999.
DETERS, Janice Inês. Método de Ordenação de Documentos na Web Baseado no
Tempo de Permanência. Florianópolis, 2003. 88 f. Dissertação (Mestrado em
Ciências da Computação) - Universidade Federal de Santa Catarina, Florianópolis,
2003.
MENG, Weiyi, YU, Clement , LIU, King-Lup. Building efficient and effective
metasearch engines. ACM Computing Surveys (CSUR), v.34 n.1, p.48-89, March
2002.
MIZZARO, Stefano. A Cognitive Analysis of Information Retrieval. In: Information
Science: Integration in Perspective - CoLIS2, 1996, Copenhagem, Denmark.
Proceedings... The Royal School of Librarianship, 1996. p.233-250. Disponível em:
<http://ten.dimi.uniud.it/~mizzaro/papers/colis.ps.gz>. Acesso em 02 Julho. 2004.
ALENCAR, M. S. Mecanismos de Busca na Web: uma Análise da Metodologia de
Estudos Comparados. 2001. Dissertação (Mestrado em Ciência da Informação) UFRJ/ECO-MCT/IBICT, Rio de Janeiro.
RIJSBERGEN, C. J. van. Information Retrieval. Londres: Butterworths, 2ª ed, 1979.
Disponível
em:
<http://citeseer.nj.nec.com/vanrijsbergen79information.html>.
Acesso em: 07 nov. 2003.
VAZ, Rodolfo C. Ranulfo. Metodologia de avaliação de mecanismos de recuperação da
informação na rede WWW da Internet. Dissertação (Mestrado em Ciências da
Informação e Documentação) – Universidade de Brasília, Brasília, 2000.
VI Encontro de Estudantes de Informática do Estado do Tocantins – ENCOINFO 2004 – 4 e 5 de novembro de 2004
CEULP/ULBRA – Curso de Sistemas de Informação – Palmas – TO

Documentos relacionados

Um estudo comparativo dos sistemas de busca na web

Um estudo comparativo dos sistemas de busca na web Na atualidade, a Internet é uma das principais fontes de informação para muitos usuários. Os tipos de informação e serviços disponibilizados vão transformando a Web cada vez mais em um serviço de i...

Leia mais