AVALIAÇÃO E COMPARAÇÃO DOS MOTORES DE PESQUISA

Transcrição

AVALIAÇÃO E COMPARAÇÃO DOS MOTORES DE PESQUISA
AVALIAÇÃO E COMPARAÇÃO DOS MOTORES DE
PESQUISA SAPO/YAHOO
Lucas Brandão de Sousa {[email protected]}
Samuel José da Silva Pereira Serafim {[email protected]}
Tiago Luís Fernandes Araújo {[email protected]}
Resumo. A recuperação da informação é uma das partes constituintes da Ciência
da Informação que mais relevância tem no que toca aos motores de pesquisa.
Essa pertinência está evidenciada no presente trabalho, em que são comparados
os resultados obtidos no Sapo e no Yahoo. A partir de medidas como a precisão,
a recuperação e a precisão interpolada, os dados resultantes são representados em
gráficos e são confrontados, tomando em conta o significado de cada uma.
Palavras-chave: Interrogação, Julgamento de Relevância, Motor de Pesquisa,
Necessidade de Informação, Pooling, Precisão, Recuperação.
Abstract. Information Retrieval is one of the constituents of the Information Science that has more relevance on what search engines concerns. That importance
is evident on the present work, in which are compared the obtained results at Sapo
and Yahoo. From measures like precision, recall and interpolated precision, the
result data is represented in graphics and is confronted, taking account of the
meaning of each one.
Keywords: Information Need, Pooling, Precision, Query, Relevance Judgment,
Retrieval, Search Engine.
1
Introdução
A recuperação da informação é cada vez mais uma componente fundamental da emergente e mutável prática do profissional da informação. Esta faz parte do pólo técnico
da vasta gama de competências que este tem, englobando todos os mecanismos desenvolvidos e utilizados para a recuperação, armazenamento, organização e acesso à informação pretendida. Este constituinte da ciência da informação inclui procedimentos
como a pesquisa na web, a filtragem de resultados obtidos na mesma, a visualização
estatística de dados, entre outros, e revelam-se de particular utilidade no tratamento de
grandes coleções de documentos.
O presente trabalho realiza-se para a unidade curricular de Recuperação da Informação,
enquadrada no terceiro ano da Licenciatura em Ciência da Informação, lecionada tanto
na Faculdade de Engenharia da Universidade do Porto como na Faculdade de Letras da
Universidade do Porto. Os objetivos deste trabalho prendem-se com a aplicação de técnicas de recuperação de informação num caso prático, neste caso na comparação da
relevância dos resultados obtidos por dois motores de busca, o Yahoo e o Sapo. Outro
dos objetivos consiste na compreensão dos conceitos lecionados e na perceção da sua
importância na obtenção de documentos com informação relevante para as necessidades de informação que despoletaram a pesquisa.
Assim, o trabalho encontra-se estruturado de uma forma intuitiva e lógica, seguindo a
cadeia de etapas desenvolvida na prática. Inicialmente, representar-se-á as necessidades
de informação, nomeando-se as interrogações usadas em cada motor de pesquisa. De
seguida, os resultados obtidos estarão compactados na etapa de Pooling e, a partir dos
dados extraídos deste, apresentar-se-ão os gráficos respeitantes ao cálculo da precisão
e da recuperação para cada interrogação de cada necessidade pesquisa num dos dois
motores de busca usados, assim como o da precisão interpolada. Após a reflexão quanto
aos valores resultantes, realizar-se-á a devida comparação entre os motores de busca
estudados a partir da precisão e recuperação e de outras medidas e deduzir-se-ão as
conclusões adequadas.
2
Necessidades de informação e interrogações
2.1
Necessidades de informação
As necessidades de informação que foram analisadas neste processo de avaliação e
comparação dos motores de pesquisa consistem em oito e todas elas relacionadas com
uma dada patologia médica. Estas são:
1- Cancro da Mama e a enunciação detalhada de quatro formas de tratamento do
cancro da mama ductal, considerando as condicionantes de cada um;
2- Ciática e três formas de redução desta;
3- Zona e identificação de dois sintomas frequentes desta;
4- Síndrome do Cólon Irritável e o apontamento de quatro formas possíveis de
se avaliar os sintomas, tendo em conta os constrangimentos de cada uma;
5- Dermatite atópica e a consideração de quatro medidas para a sua redução numa
criança;
6- Picada inseto e a indicação de três possíveis sintomas aos quais se deve estar
atento, para além de formas de procedimento perante estes e da menção do
problema mais grave associado a isto;
7- Hipotiroidismo e a deteção de cinco sintomas normalmente relacionados com
esta;
8- Falta de ar e a explanação de cinco possíveis fundamentos para esta ocorrência.
2
2.2
Interrogações
Fig. 1.
Figura 1: As interrogações efetuadas por cada elemento do grupo
3
Pooling
Após a realização da componente individual deste trabalho, avançou-se para a de
grupo, em que se efetuou o Pooling. Este momento trata-se da delimitação da coleção
de documentos relevantes para uma determinada necessidade de informação e/ou interrogação.
Nesta etapa, foram, então, aglomerados os documentos encontrados por cada elemento do grupo para cada necessidade e foram suprimidos os não relevantes e os repetidos. Assim, no final de contas, obtiveram-se trinta e cinco documentos relevantes para
a primeira necessidade, quarenta e oito para a segunda, quarenta e três para a terceira,
cinquenta para a quarta, trinta e nove para a quinta, trinta e seis para a sexta, cinquenta
e seis para a sétima e finalmente trinta e nove para a oitava.
4
Medidas de Precisão e Recuperação
Antes de se apresentarem os resultados e destes serem analisados, importa conceptualizar cada uma das medidas com as quais se trabalha nesta parte. Assim, devem-se
considerar a precisão e a recuperação. A primeira consiste na fração dos documentos
3
recuperados de uma dada coleção que são relevantes, enquanto que a segunda diz respeito à fração de documentos relevantes recuperados numa dada coleção. A sua relação
será essencial para determinar qual o motor de busca que apresenta resultados mais
pertinentes.
Assim, cada constituinte do grupo calculou a precisão e a recuperação para os resultados de cada iteração pertencente às necessidades em análise. A precisão foi calculada a
partir da divisão entre o número de documentos relevantes encontrados até então e o
lugar em que o documento foi recuperado. Já a recuperação resultou da divisão entre o
número de documentos relevantes encontrados até à ocasião pelo número de documentos relevantes da necessidade, com este número a ser obtido através da etapa de pooling.
Já na etapa da precisão interpolada e na tradução dos valores para os gráficos, tomouse em conta a comparação da precisão dos dois motores em análise a partir de níveis
estandardizados de recuperação (0; 0,1; 0,2; etc.). A obtenção dos resultados pretendidos a partir disto foi discutida e deliberada pelo grupo e descartou tanto um cenário em
que se ignorariam casos em que a recuperação era inexistente, bem como o cenário em
que se atribuiriam valores de zero no mesmo de tipo de casos supramencionados. O
primeiro foi excluído porque a precisão interpolada crescia aquando da análise dos valores dos motores de pesquisa, devendo esta decrescer consoante o desenrolar da recuperação. Já o segundo foi posto de lado porque a recuperação não pode existir quando
os documentos não são relevantes, i.e. quando a precisão corresponde a zero. Assim, a
obtenção foi feita a partir de um padrão em que os valores do último nível de precisão
seriam replicados nos níveis de recuperação que não constavam na visão do MP e a
partir dos julgamentos de relevância efetuados acima. O fundamento desta opção recai
na perspetiva de que, em caso de prolongamento da pesquisa, a recuperação poderia
atingir mais pontos standard e em que a relevância dos documentos permaneceria variável. No que toca à representação gráfica, a precisão interpolada ou estabilizaria ou
expunha um declive, indo de encontro à noção estudada. Em anexo, apresentam-se as
duas tabelas com as precisões interpoladas calculadas para cada intervalo de recuperação standard.
5
Comparação dos Motores de Busca
Tendo por base os valores obtidos na fase transata, o grupo realizou o gráfico que
abaixo se apresenta, comparando os dois motores de busca em análise através da correlação das medidas de precisão interpolada e recuperação standard.
4
Fig. 2.
Figura 2. Comparação dos motores de pesquisa Sapo e Yahoo.
De forma a comparar os dois motores de pesquisa, perceciona-se somente alguma aproximação no que toca à precisão na primeira etapa de recuperação (98% do Sapo e 96%
do Yahoo). Daí em diante, o Yahoo apresenta uma queda mais desnivelada que a do
Sapo até ao nível 0.2 de recuperação e mantém uma diferença de sete pontos percentuais em relação a este.
Assim sendo, é evidente que o Sapo apresenta uma taxa de documentos mais precisos
e relevantes do que o Yahoo, sendo, por isso, o melhor motor de pesquisa entre os dois.
6
Outras medidas de avaliação
6.1
Mean Average Precision
O Mean Average Precision (MAP) consiste na média dos valores obtidos na precisão
depois de cada documento relevante ser observado, produzindo um sumário de ranking
com um valor único.
Após o cálculo da média de precisão dos documentos relevantes de cada necessidade,
efetuou-se a média das precisões das necessidades pesquisadas em cada motor de busca,
dando origem a dois valores e sendo eles os que se apresentam abaixo.
5
MAP Sapo = 0,92
MAP Yahoo = 0,88
Destes valores, deduz-se que o motor de pesquisa Sapo é mais preciso que o motor de
pesquisa Yahoo. Quer isto dizer que os documentos relevantes aparecem 4% mais vezes
em primeiro lugar no Sapo do que no Yahoo. Assim, num cenário em que um utilizador
procura uma informação, entre estes dois MPs, a sua necessidade será mais rapidamente
respondida no primeiro que no segundo.
7
Conclusão
Em suma, e numa visão retrospetiva, foram vários os passos efetuados para se chegar
a dados dos quais se podiam extrair conclusões concretas quanto à comparação efetuada.
As dificuldades com as quais o grupo se prendeu na realização do trabalho foram
substancialmente encontrar fórmulas para se proceder à resolução de cada etapa e a
quantidade de documentos com a qual se trabalhou.
Apesar disto, os resultados obtidos foram conclusivos e as metodologias de trabalho
entendidas pelos elementos do grupo no que toca à relevância de cada uma para a sua
realização. As medidas usadas para comparar os motores de busca delinearam que o
SAPO é o motor de busca melhor no que toca à resposta prestada às necessidades de
informação estudadas.
Em suma, o grupo considerou o trabalho frutífero não só na perceção da importância
da recuperação da informação na obtenção de informação relevante mas também na
aquisição de valências que poderão ser úteis no futuro profissional, podendo ser aplicadas, por exemplo, no desenvolvimento de um motor de pesquisa.
8
Referências
1. BARTH, FABRÍCIO JAILSON - Uma breve introdução ao tema Recuperação de
Informação. [Em linha].
2. LOPES, Carla Alexandra. Introduction to Information Retrieval. [Apresentação Power Point].
6
9
Anexos
Anexo 1.
Anexo 1. Precisões interpoladas para níveis de recuperação standard do Sapo.
7
Anexo 2.
Anexo 2. Precisões interpoladas para níveis de recuperação standard do Yahoo.
8