-iDIPLOMARBEIT Evaluierung hybrider Suchsysteme im WWW

Transcrição

-iDIPLOMARBEIT Evaluierung hybrider Suchsysteme im WWW
-iDIPLOMARBEIT
Universität Konstanz
Informationswissenschaft
Evaluierung hybrider Suchsysteme im WWW
vorgelegt von
Joachim Griesbaum
Hardtstr.15
78467 Konstanz
Matrikelnummer
01/442653
Gutachter
Prof. Dr. Rainer Kuhlen
Prof. Dr. Harald Reiterer
Konstanz, 21.12.00
Abstract
Der Ausgangspunkt dieser Arbeit ist die Suchproblematik im World Wide Web.
Suchmaschinen sind einerseits unverzichtbar für erfolgreiches Information Retrieval,
andererseits wird ihnen eine mäßige Leistungsfähigkeit vorgeworfen. Das Thema
dieser Arbeit ist die Untersuchung der Retrievaleffektivität deutschsprachiger
Suchmaschinen. Es soll festgestellt werden, welche Retrievaleffektivität Nutzer
derzeit erwarten können. Ein Ansatz, um die Retrievaleffektivität von Suchmaschinen
zu erhöhen besteht darin, redaktionell von Menschen erstellte und automatisch
generierte Suchergebnisse in einer Trefferliste zu vermengen. Ziel dieser Arbeit ist
es, die Retrievaleffektivität solcher hybrider Systeme im Vergleich zu rein
roboterbasierten Suchmaschinen zu evaluieren. Zunächst werden hierzu die
grundlegenden Problembereiche bei der Evaluation von Retrievalsystemen
analysiert. In Anlehnung an die von Tague-Sutcliff vorgeschlagene Methodik wird
unter
Beachtung
der
webspezifischen
Besonderheiten
eine
mögliche
Vorgehensweise erschlossen. Darauf aufbauend wird das konkrete Setting für die
Durchführung der Evaluation erarbeitet und ein Retrievaleffektivitätstest bei den
Suchmaschinen Lycos.de, AltaVista.de und QualiGo durchgeführt.
The starting point of this work is the problem of searching the world wide web
effectively. Search Engines on one hand are considered indispensable for successful
information retrieval, on the other hand, they are said to be of only moderate
efficiency. The topic of this work is to investigate the retrieval effectiveness of
german-language
search
engines.
It
shall be determined which retrieval
effectiveness may currently be expected by users. A basic approach to increase the
retrieval effectiveness of search engines is to mix editorial results, which are
compiled by
humans, with the results that are automatically created by the engine. The goal of
this study is to evaluate the retrieval effectiveness of such hybrid systems in
comparison with the effectiveness of purely robot-based search engines. First the
fundamental issues of the evaluation of retrieval systemes are analyzed. In
accordance with the methodology suggested by Tague-Sutcliff, a possible approach
is derived considering the specifics of the web. Subsequently, a concrete setup for
the execution of the evaluation is elaborated and a test of the retrievaleffectiveness
of the search engines Lycos.de, AltaVista.de and QualiGO.de is executed.
Inhaltsverzeichnis
1. Einleitung............................................................................................................. 7
2. Theoretischer Teil - methodische Vorgehensweise........................................ 11
2.1 Evaluationen im Kontext des Information Retrieval .............................................. 11
2.2 Retrievaltests - historischer Abriss und aktueller Stand....................................... 13
2.2.1 ASTIA und Cranfield (1953)............................................................................... 13
2.2.2 Cranfield I (1957) ............................................................................................... 14
2.2.3 Cranfield II (1966) .............................................................................................. 14
2.2.4 Medlars (1966) ................................................................................................... 15
2.2.5 Inspec (1969) ..................................................................................................... 15
2.2.6 Aberystwyth Index-Languages Test (1972)...................................................... 15
2.2.7 Padok (1984-1986) ............................................................................................. 15
2.2.8 Milos II (1995): ................................................................................................... 16
2.2.9 TREC (Text Retrieval Conference):................................................................... 17
2.2.10 GIRT (1997) ...................................................................................................... 19
2.2.11 Historischer Abriss – Erkenntnisse................................................................ 20
2.2.12 Retrievaltests – Zwischenergebnis ................................................................ 26
2.3 Evaluationsmethodik............................................................................................... 27
2.3.1 Testen oder nicht testen? ................................................................................. 27
2.3.2 Welche Art von Test soll durchgeführt werden? ............................................. 28
2.3.3 Wie sind die Variablen zu definieren und zuzuordnen? .................................. 29
2.3.4 Welches Informationssystem wird genutzt/untersucht?................................. 30
2.3.5 Wie sind die Informationsbedürfnisse und Suchanfragen zu erschließen?... 31
2.3.6 Wie sollen die Suchanfragen durchgeführt werden? ...................................... 32
2.3.7 Wie wird das Testsetting ausgestaltet, welche Testanordnung ist adäquat? 32
2.3.8 Wie sollen die Daten erfaßt werden?................................................................ 33
2.3.9. Wie sollen die Daten ausgewertet werden? .................................................... 34
2.3.10 Wie sollen die Ergebnisse präsentiert werden? ............................................ 34
2.3.11 Evaluationsmethodik - Schlußfolgerung........................................................ 35
2.4 Besonderheiten des Information Retrieval im World Wide Web ........................... 36
2.4.1 Informationsraum Internet ................................................................................ 36
2.4.1.1 Datenbestand .............................................................................................. 37
2.4.1.2 Hypertextstrukturen im Internet................................................................. 38
2.4.1.3 Nutzer .......................................................................................................... 39
2.4.1.4 Internetsuchmaschinen.............................................................................. 40
2.4.1.5 Informationsraum Internet – Schlußfolgerungen ...................................... 43
2.4.2 Retrievaltests im Internet.................................................................................. 43
2.4.2.1 Chu und Rosenthal (1996) .......................................................................... 44
2.4.2.2 Leighton und Srivastava (1997).................................................................. 46
2.4.2.3 Gordon und Pathak (1998).......................................................................... 47
2.4.2.4 Wolff (2000). ................................................................................................ 51
2.4.2.5 ZDLabs (2000). ............................................................................................ 53
2.4.2.6 Retrievaltests im Internet – Schlußfolgerung ............................................ 54
2.5 Theoretischer Teil – Zwischenergebnis.................................................................. 55
3. Praktischer Teil - Durchführung der Evaluation.............................................. 58
3.1. Entwicklung des Evaluationsettings nach Tague-Sutcliff .................................... 58
3.1.1 Testen oder nicht testen? ................................................................................. 58
3. 1.2 Welche Art von Test soll durchgeführt werden? ........................................... 60
3.1.3. Variablendefinition und Zuordnung ................................................................ 61
3.1.3.1 Unabhängige Variablen .............................................................................. 61
3.1.3.1.1 Bewertungsmaße und -größen................................................................ 61
3.1.3.1.1.1 Relevanz als Grundlage der Bewertungsmaße.................................... 61
3.1.3.1.1.2 Relevanzeinstufung .............................................................................. 62
3.1.3.1.1.3 Bewertungsmaße .................................................................................. 65
3.1.3.1.2 Suchanfragen und Informationsbedürfnisse.......................................... 68
3.1.3.1.3 Testpersonen ........................................................................................... 69
3.1.3.2 Umgebungsvariable Informationsraum Internet........................................ 70
3.1.3.3 Abhängige Variablen – Relevanzeinstufung der Treffer ........................... 71
3.1.4 Ausgewählte Suchmaschinen .......................................................................... 72
3.1.5 Erschließung der Informationsbedürfnisse und Suchanfragen...................... 76
3.1.6 Durchführung der Suchanfragen...................................................................... 79
3.1.7 Testanordnung .................................................................................................. 81
3.1.8 Datenerfassung ................................................................................................. 84
3.1.9 Datenauswertung .............................................................................................. 85
3.1.10 Ergebnispräsentation...................................................................................... 89
3.2 Pretest...................................................................................................................... 89
3.2.1 Durchführung der Suchanfragen...................................................................... 89
3.2.2 Relevanzbeurteilung der Juroren ..................................................................... 90
3.3 Testdurchführung.................................................................................................... 92
3.3.1 Durchführung der Suchanfragen...................................................................... 93
3.3.2 Relevanzbeurteilung der Juroren ..................................................................... 95
3.4 Ergebnisanalyse ...................................................................................................... 98
3.4.1 Überprüfung der Testhypothesen .................................................................... 98
3.4.1.1 Testhypothese „hybride Systeme“ ............................................................ 98
3.4.1.2 Testhypothese „redaktionelle Treffer“..................................................... 103
3.4.2 Effektivität bei verschiedenen Suchanfragetypen ......................................... 107
3.4.2.1 Einwortanfragen ....................................................................................... 108
3.4.2.2 Mehrwortanfragen..................................................................................... 110
3.4.2.3 Offene Fragestellungen ............................................................................ 111
3.4.2.4 Geschlossene Fragestellungen................................................................ 113
3.4.2.5 Expected Search Length bei geschlossenen Suchanfragen .................. 115
3.4.3 Ergebnisinterpretation und -zusammenfassung ........................................... 116
4. Schluß .............................................................................................................. 120
4.1 Einschätzung und Schlußfolgerungen hinsichtlich der Ergebnisse................... 120
4.2 Einschätzung und Schlußfolgerungen bezüglich der Evaluation ....................... 122
Literaturverzeichnis ............................................................................................ 128
Anhang A: Übersicht andere Evaluationen ....................................................... 135
Anhang B: Suchanfragen Übersicht .................................................................. 139
Anhang C: Verteilungscode der Suchmaschinen ............................................. 145
Anhang D: Beispiel eines Fragebogens ............................................................ 146
Anhang E: Beispiel eines Signifikanztests........................................................ 155
Abbildungsverzeichnis
Abbildung 1 – aktuelle Angaben zur Indexgrößen von Suchmaschinen ............................... 42
Abbildung 2 – Top20 Precision – alle Suchanfragen............................................................ 99
Abbildung 3 – Beantwortung der Suchanfragen................................................................. 101
Abbildung 4 – Lycos hybrid vs Lycos roboterbasiert Top12 Precision ................................ 104
Abbildung 5 – Beantwortung der Suchanfragen Lycos hybrid vs Lycos roboterbasiert ....... 105
Abbildung 6 – Lycos roboterbasiert vs AltaVista & QualiGo Top12 Precision ..................... 106
Abbildung 7 – Beantwortung der Suchanfragen bei Top12 Precision ................................. 107
Abbildung 8 – Top20 Precision - Einwortanfragen ............................................................. 108
Abbildung 9 – Beantwortung der Einwortsuchanfragen...................................................... 109
Abbildung 10 – Top20 Precision Mehrwortsuchanfragen ................................................... 110
Abbildung 11 – Beantwortung der Mehrwortsuchanfragen................................................. 111
Abbildung 12 – Top20 Precision bei offenen Fragestellungen............................................ 112
Abbildung 13 – Beantwortung der Suchanfragen bei offenen Fragestellungen................... 113
Abbildung 14 – Top20 Precision geschlossene Suchanfragen ........................................... 114
Abbildung 15 – Beantwortung der geschlossenen Suchanfragen....................................... 115
Abbildung 16 – ESL bei geschlossenen Fragestellungen................................................... 116
Evaluation hybrider Suchmaschinen
Seite 7
1. Einleitung
Das Thema dieser Arbeit ist die Untersuchung der Retrievaleffektivität ausgewählter
deutschsprachiger Suchmaschinen.1 Die Retrievaleffektivität bestimmt die Brauchbarkeit von
Suchmaschinen anhand der Qualität der Suchergebnisse. Die Frage lautet also, wie gut
(relevant) sind die Ergebnisse (Treffer), die von den betrachteten Suchmaschinen geliefert
werden?
Die Motivation zu dieser Fragestellung liegt in der Problematik des Information Retrievals
(IR)2 im World Wide Web begründet, aus der Vielzahl der vorhandenen Daten die
benötigte(n) Information(en) auch zu finden.
Einerseits sind Suchmaschinen für die erfolgreiche Informationssuche im Web unverzichtbar,
denn "...without search engines, searchers would be about as successful negotiating the
internet as someone trying to look up a phone number in an unsorted Manhattan phone
book."3
Andererseits wird ihnen eine mäßige Leistungsfähigkeit vorgeworfen.4 Hauptkritikpunkt ist
dabei die geringe Retrievaleffektivität, die sich vor allem darin zeigt, daß viele irrelevante
Treffer geliefert, relevante Dokumente hingegen nicht gefunden werden.5
Um dieses Problem, durch die Verbesserung der Qualität, d.h. der Retrievaleffektivität der
Suchmaschinen, zu entschärfen, existieren momentan zwei Ansätze:
Beim ersten Ansatz werden zusätzlich nicht-dokumentinhärente Metainformation bei der
Relevanzbeurteilung der Webseiten hinzugezogen. Zum einen mit Hilfe von Linkpopularity,6
1
Unter dem Begriff Suchmaschinen werden hier roboter-basierte Suchdienste, deren Index maschinell erstellt
wurde verstanden. Vgl Bernhard Bekavac, Tutorial zur Suche im WWW/Internet (1.2) Version 1998, siehe
http://www.inf-wiss.uni-konstanz.de/suche/such_tutorial.html#2.3 (01.10.00). Vgl auch Suchmaschinen-Topologie
von Carsten Ulisch, Suchmaschinen im Internet, siehe http://www.uni-koblenz.de/~krause/Suchmaschinen.html
(01.10.00).
Zur Architektur von Suchmaschinen siehe, André Wichmann, Aufbau und Techniken von Suchmaschinen für das
WWW, siehe http://www-student.informatik.uni-bonn.de/~wichmann/writings/webcrawlers/index.html (08.10.00).
"deutschsprachig" bedeutet, daß die Suchmaschinen für den deutschen Sprachraum konzipiert sein müssen, so
daß davon ausgegangen werden kann, daß der Index überwiegend deutschsprachige Webseiten enthält.
2
Zur Begriffsbestimmung des Information Retrieval siehe http://www.inf-wiss.unikonstanz.de/CURR/winter99/irm/folien/index.html (16.10.00).
3
Michael Gordon, Praveen Pathak, Finding Information on the World Wide Web: the retrieval effectiveness of
search engines, in: Information Processing and Management (35) 1999, S.141-180, S.142.
4
Ebd.
5
C. Oppenheim, A. Morris, C. McKnight, S. Lowley, The evaluation of WWW search engines, in: Journal of
Documentation, Vol. 56 No. 2, March 2000, S.190-211, S.191.
Evaluation hybrider Suchmaschinen
Seite 8
wie sie zuerst bei der Suchmaschine Google verwendet wurde. Zum anderen mittels der
Messung der sogenannten Hit- oder Clickpopularity,7 die bei DirectHit verwendet wird.8
Beim zweiten Ansatz werden die automatisch generierten Trefferlisten mit Treffern vermengt,
bei denen die inhaltliche Erschließung, Kategorisierung und Relevanzeinstufung durch
redaktionelle Verfahren geschieht.9 Beispiele für solche hybride Suchsysteme, in denen die
redaktionellen und roboterbasierten Ergebnisstrukturen in einer Trefferliste verschmolzen
werden, sind Lycos.de10 und Goto.com.11
Bei Lycos.de werden beispielsweise redaktionell verfaßte Katalogeinträge zusammen mit
den Treffern der Suchmaschine ausgeben.
Goto.com gibt die automatisch erzeugten Ergebnisse des Roboters zusammen mit
Trefferseiten von Kunden aus, die Rangplätze ersteigern. Die jeweilige Listenposition ergibt
sich jeweils durch die Höhe des Preises, den der Kunde für den Rangplatz zu zahlen bereit
ist.12
Während der erste Ansatz, mit der zusätzlichen Verwendung nicht-dokumentinhärenter
Metainformation
sich
also
darum
bemüht,
die
bestehenden
automatischen
Rankingalgorithmen und damit die Qualität der Ergebnisse graduell zu verbessern, wird im
zweiten Ansatz versucht die Retrievaleffektivität prinzipiell zu erhöhen - fraglich ist, ob dieses
Ziel auch erreicht wird.
Aus diesem Grund liegt der Fokus dieser Arbeit nicht nur darin festzustellen, wie effektiv die
zu untersuchenden Suchmaschinen Informationsbedürfnisse befriedigen, sondern auch zu
untersuchen, ob hybride Systeme eine höhere Retrievaleffektivität erreichen, d.h. bessere
Treffer liefern, als andere Suchmaschinen.
6
Google untersucht die Links die auf eine Trefferseite verweisen und von dieser Trefferseite ausgehen. Die
zugrundliegende Annahmen sind a) Webseiten werden von thematisch verwandten Webseiten verknüpft , bzw.
verweisen selbst auf thematisch verwandte Seiten. b) Eine Seite, auf die häufig verwiesen wird, hat eine größere
Bedeutung sprich Relevanz für das Thema, als eine Seite auf die weniger häufig verwiesen wird. Dies gilt
rekursiv, so daß ein Link, der von einer bedeutenden Seite (einer sogenannten Authoritätsseite) auf die
Trefferseite verweist, mehr zählt als einer, der von einer selten referenzierten Seite herrührt.
7
DirectHit zeichnet auf, welche Seiten die Surfer aus der Trefferliste auswählen und wie lange diese die
selektierten Seiten betrachten und ordnet dann denjenigen Seiten, die häufig selektiert werden und eine lange
Verweildauer aufweisen eine höhere Relevanz zu.
8
Chris Sherman, The Future Revisited: What´s New With Web Search, in: Online May 2000, siehe
http://www.onlineinc.com/onlinemag/OL2000/sherman5.html (01.10.00).
9
Redaktionelle Verfahren bedeutet, daß die inhaltliche Erschließung, Kategorisierung und Relevanzeinstufung
letztlich durch eine bewußte Entscheidung, mindestens eines Menschen, vorgenommen wird. Diese Treffer
erscheinen auf den Trefferlisten der hybriden Systeme auf den vorderen Rangplätzen, vor den mit Hilfe der
maschinellen Rankingverfahren ausgegebenen Treffern.
10
http://www.lycos.de (01.10.00).
11
http://www.goto.com (01.10.00).
Evaluation hybrider Suchmaschinen
Seite 9
Um diese Fragestellung beantworten zu können, ist zuerst zu erörtern, ob und wie sich die
Retrievaleffektivität von Suchmaschinen bestimmen lassen kann.
Zunächst ist zu untersuchen wie methodisch vorgegangen werden kann, um die
Retrievaleffektivität von Suchmaschinen valide13 und reliabel14 zu ermitteln. Das gefundene
Verfahren ist dann in einem zweiten Schritt schließlich auf die zu untersuchenden
Suchmaschinen anzuwenden.
Folglich gliedert sich die Arbeit in einen theoretischen und empirischen Teil.
Dem theoretischen Teil muß in dieser Arbeit ein breiter Raum zugestanden werden, weil in
ihm das methodische Vorgehen zu entwickeln ist. Hierzu ist zunächst auf den gegenwärtigen
Forschungsstand bei der Evaluation von Retrievalsystemen einzugehen. Damit soll zum
einen ein Überblick über gängige Evaluationsverfahren und -methoden gewonnen, zum
anderen sollen hierdurch aber vor allem potentielle Problemfelder bei der Evaluation von
Retrievalsystemen identifiziert und, wenn möglich, Lösungen gefunden werden.
Aufbauend auf diesen Erkenntnissen soll versucht werden, grundlegende Anhaltspunkte für
die Ausgestaltung und Durchführung von Retrievaltests zu finden, um eine methodische
Basis für die Entwicklung eines Testdesigns zu erschließen.
Anschließend sind die spezifischen Charakteristika des Information Retrievals im Web
darzustellen, um die webspezifischen Aspekte der Evaluation von Internetsuchmaschinen zu
beleuchten.
Im praktischen Teil wird darauf aufbauend das konkrete Evaluationssetting entworfen.
Die Gebrauchstauglichkeit des erstellten Testsettings wird anhand eines Pretests - der die
Testdurchführung und die Auswertung der Daten simuliert - überprüft. In Abhängigkeit der
Ergebnisse des Pretests, bzw. von Problemen, die durch den Pretest offensichtlich werden,
muß möglicherweise das Evaluationssetting modifiziert werden.
12
D.h. Websitebetreiber bezahlen dafür, bei Eingabe bestimmter Suchbegriffe (z.B. Mp3), auf der Trefferliste von
Goto gelistet zu werden. Der Betreiber der den höchsten Preis bezahlt erscheint an erster Stelle auf der
Trefferliste, siehe http://goto.com/d/about/company/usvision.jhtml (08.10.00).
13
Validität: Bedeutet ,daß die Ergebnisse gültig d.h. "richtig" sind. "Validity is the extend to which the experiment
actually determines what the experimenter wishes to determine", aus Jean Tague-Sutcliffe, The pragmatics of
information retrieval experimentation, revisited, in: Information Processing & Management Vol.28, No.4, 1992,
S.467-490, S.467.
Evaluation hybrider Suchmaschinen
Seite 10
Schließlich ist die Evaluation durchzuführen. Bei der Analyse der gewonnenen Daten bildet
dabei die Verifikation oder Falsifikation der Testhypothesen die Grundlage für die
Ergebnisinterpretation.
Das Ziel der Untersuchung ist es, qualifizierte Aussagen über die Retrievaleffektivität der
untersuchten Suchmaschinen treffen zu können, d.h. folgende Fragen zu beantworten:
Welche der untersuchten Suchmaschinen liefert zum Untersuchungszeitpunkt die "besten"
Ergebnisse?
Welche
Retrievaleffektivität
können
Benutzer
gegenwärtig
von
den
untersuchten
Suchmaschinen erwarten?
Sind hybride Suchsysteme anderen Suchmaschinen bei der Retrievaleffektivität tatsächlich
überlegen?
Abschließend sollen die Evaluation und ihre Ergebnisse diskutiert werden.
Einerseits sollen die Ergebnisse eingeschätzt werden, um festellen zu können, ob der
hybride Ansatz sinnvoll erscheint.
Andererseits ist bei der Untersuchung selbst kritisch zu hinterfragen, ob das verwendete
Verfahren bzw. -setting brauchbar erscheint, um die Retrievaleffektivität zu ermitteln, bzw.
welche Problembereiche bei der Evaluation aufgetreten sind und inwiefern Verbesserungen
vorgenommen werden könnten/sollten.
14
Reliabilität: Bedeutet daß die Ergebnisse reproduzierbar, übertragbar und somit verallgemeinerungsfähig sind.
"Reliability is the extend to which the experimental results can be replicated", aus ebd.
Evaluation hybrider Suchmaschinen
Seite 11
2. Theoretischer Teil - methodische Vorgehensweise
Im folgenden wird das Thema, Evaluation hybrider Suchsysteme im WWW, in den Kontext
der Informationswissenschaft eingeordnet, also der fachwissenschaftliche Bezug hergestellt.
Dazu werden zunächst die Begriffe Information Retrieval und IR-Systeme präzisiert und die
Bedeutung von Evaluationen in diesem Fachbereich herausgestellt.
Anschließend wird auf den aktuellen Stand der Forschung bei der Evaluation von
Retrievalsystemen eingegangen.
Dabei soll zunächst mit Hilfe einer exemplarischen Darstellung einiger prominenter
Retrievaltests, die Frage beantwortet werden, wie und mit welchem Erkenntnisinteresse
Evaluationen bislang durchgeführt wurden.
Ziel ist es dabei, einerseits einen allgemeinen Überblick über gängige Evaluationsmethoden,
-verfahren und -standards zu gewinnen, andererseits aber auch, die Problemfelder in diesem
Forschungsbereich aufzuzeigen.
Darauf
aufbauend
soll
versucht
werden,
ein
Guideline
zur
Konstruktion
eines
Evaluationssettings zu entwickeln.
Anschließend soll geklärt werden, welchen spezifischen Bedingungen Information Retrieval
im Web unterliegt, um zu analysieren, welche Besonderheiten bei der Evaluation von
Internetsuchmaschinen beachtet werden müssen. Hierzu soll vor allem die kritische
Betrachtung anderer Evaluationen von Suchmaschinen im WWW konkrete Hinweise darüber
liefern, wie das Testdesign ausgestaltet werden soll, bzw. welche Fehler zu vermeiden sind.
2.1 Evaluationen im Kontext des Information Retrieval
Information
befriedigen.
15
Retrieval
verfolgt
den
Zweck
artikulierte
Informationsbedürfnisse
zu
15
Stephen E. Robertson, the methodology of information retrieval experiment, in: Karen Sparck Jones,
information retrieval experiment, S.9-31, S.9.
Knorz bezeichnet Information Retrieval als technisch gestützten Prozeß des Wissenstransfers von
Wissensproduzenten und Informationsnachfragern, siehe Gerhard Knorz, Information Retrieval-Anwendungen, in:
Zilahi-Szabo (Hg), Kleines Lexikon der Informatik und Wirtschaftsinformatik, 1995, S.244-248, siehe
http://www.iud.fh-darmstadt.de/iud/wwwmeth/publ/paper/iranw95/paper1.htm#kap1 (16.10.00).Vgl. auch FN 2.
Evaluation hybrider Suchmaschinen
Seite 12
Um dies zu erreichen, besteht ein IR-System aus einer Reihe von Regeln und Prozeduren,
die einige oder alle der folgenden Operationen ausführen:16
•Indexing (Erstellen einer inhaltlichen und/oder formalen Dokumentrepräsentation)
•Suchanfrage(-formulierung) (Repräsentation des Informationsbedürfnisses)
•Suche (Abgleich zwischen Suchanfrage und Dokumentrepräsentationen)
•Feedback (iterative Wiederholung und/oder Modifikation der oben genannten Prozesse in
Abhängigkeit von der Einschätzung der vorhergegangenen Prozessergebnisse)
•Erstellung einer Indexierungssprache (bzw. Aufstellung von
Dokumentrepräsentationsregeln)
Ziel eines IR-Systems ist es, Daten so aufzubereiten und abzuspeichern, "daß sie bei einem
konkreten Informationsbedarf mit problemangepaßt Suchstrategien und -operatoren
interaktiv möglichst präzise (...) und vollständig herausgesucht werden können."17 Aus
Nutzersicht liegt die Intention eines Retrievalssystems im Nachweis relevanter Dokumente.18
Gesicherte Aussagen darüber, wie effektiv und effizient ein IR-System diese Aufgabe erfüllt,
lassen sich anhand der Durchführung von Evaluationen erschließen.
Aus diesem Grund ist die Evaluierung von Retrievalverfahren und -anwendungen ein
wichtiges Teilgebiet des Information Retrievals, da nur durch sie sichere Aussagen über die
Qualität von Retrievalverfahren und -systemen möglich sind.19
Bei der Evaluierung eines IR-Systems läßt sich dabei zwischen Retrievaleffektivität20 und
Retrievaleffizienz differenzieren. Die Effizienz beschreibt dabei Faktoren, wie die
Antwortzeiten des Systems auf eingehende Suchanfragen, die Kosten, den Lernaufwand,
usw. Die Effektivität hingegen, ist die Fähigkeit des Systems, dem Nutzer die gesuchten
Informationen zu referenzieren oder zu liefern. D.h. die Effektivität ist ein Maß dafür, wie gut
ein IR-System seine Aufgabe erfüllt, die Effizienz dagegen ein Maß für den Aufwand, den
das System hierzu erfordert. Im Kontext dieser Arbeit findet nur die Retrievaleffektivität
explizite Beachtung.
16
Ebd.
Gerhard Knorz, Information Retrieval-Anwendungen, in: Zilahi-Szabo (Hg), Kleines Lexikon der Informatik und
Wirtschaftsinformatik, 1995, S.244-248, siehe http://www.iud.fhdarmstadt.de/iud/wwwmeth/publ/paper/iranw95/paper1.htm#kap1 (16.10.00).
18
T.Käter, M. Rittberger, C. Wormser-Hacker, Evaluierung der Text-Retrievalsysteme Domestic, Intelligent Miner
for Text, Lars II und TextExtender, 1999, siehe http://www.inf-wiss.uni-konstanz.de/People/MR/pubs/kik99.html
(19.10.00).
19
Gerhard Knorz, Information Retrieval-Anwendungen, in: Zilahi-Szabo (Hg), Kleines Lexikon der Informatik und
Wirtschaftsinformatik, 1995, S.244-248, siehe http://www.iud.fhdarmstadt.de/iud/wwwmeth/publ/paper/iranw95/paper1.htm#kap1 (16.10.00).
20
siehe http://www.inf-wiss.uni-konstanz.de/CURR/irm/bewertung/index.htm (18.10.00).
17
Evaluation hybrider Suchmaschinen
Seite 13
2.2 Retrievaltests - historischer Abriss und aktueller Stand
Mit einer knappen historischen Aufzählung prominenter Retrievaltests, soll der aktuelle
Entwicklungsstand im Forschungsfeld Evaluation von IR-Systemen dargestellt werden.
Damit soll deutlich werden, welche Fragestellungen anhand von Retrievaltests bislang
untersucht wurden, wie in der Vergangenheit vorgegangen wurde, bzw. heute vorgegangen
wird und vor allem auch, welche Problembereiche auftreten können.21
2.2.1 ASTIA und Cranfield (1953)
Bereits 1953 finden die ersten Retrievaltests statt. In den ASTIA-Uniterm und CranfieldUniterm-Tests wird die Retrievaleffektivität verschiedener Indexierungssysteme evaluiert.
Beim ASTIA Test werden als Datenbasis insgesamt 15 000 Dokumente indexiert und
anschließend über diese Dokumentenmenge 93 Suchanfragen durchgeführt. Das
Effektivitätskriterium ist die Relevanz der gefunden Dokumente.
Die Relevanzeinstufung stellt sich als zentraler Problemfaktor heraus, da die zwei
verschiedenen Testgruppen unterschiedliche Relevanzurteile fällen und dadurch zu
konträren Aussagen bezüglich der Ergebnisse gelangen.
Der Cranfield-Uniterm Test, in dem ebenfalls verschiedene Indexierungssysteme evaluiert
werden, beruht auf 200 Dokumenten zum Thema Aeronautik, über die 40 Fragen, die aus 40
sogenannten "Source Documents" entnommen sind, abgefragt werden. Effektivitätsmaß ist
die Fähigkeit des Systems die 40 "Source Documents" vollständig nachzuweisen.
Kritik an dieser Evaluation wird in folgender Hinsicht geübt: Durch die Verwendung von
"Source Documents", aus denen die Fragen gebildet werden, mit denen wiederum genau
diese und nur diese "Source Documents" nachzuweisen sind - würde im Testsetting das
begriff-basierte System, gegenüber dem konzept-basierten System, a per se bessergestellt.
Der Vorwurf an diese Evaluation ist also, daß das Design der Evaluation so angelegt sei,
daß Ergebnis unzulässig beeinflußt würde.
21
Die folgenden Ausführungen stützen sich soweit soweit nicht anders vermerkt auf Elisabeth Sachse, Martina
Liebig, Winfried Gödert, Automatische Indexierung unter Einbeziehung semantischer Relationen: Ergebnisse des
Retrievaltests zum MILOS II-Projekt, in: Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft,
Band 14 1998. Eine weitere Übersicht findet sich beispielsweise bei Stephen E. Robertson, The methodology of
information retrieval experiment, in: Karen Sparck Jones (Hg), Information retrieval experiment, Butterworths
1981, S.9-31.
Evaluation hybrider Suchmaschinen
Seite 14
2.2.2 Cranfield I (1957)
Mit dieser Evaluation werden ebenfalls verschiedene Indexierungssysteme getestet. Bei
ansonsten weitgehend mit dem Cranfield-Uniterm Test übereinstimmenden Testsetting
werden 1200 Abfragen über 18 000 Dokumente zum Thema Luftfahrt-Ingenieurwesen
durchgeführt. Für die Relevanzeinstufung wird eine dreistufige Skala verwendet.
Um Kritik wie im vorhergegangenen Test vorzubeugen, werden zwei zusätzliche Tests
durchgeführt.
Hierbei
werden
im
ersten
Fall
ausgewählte
Suchfragen
an
Informationsvermittlungsstellen geschickt mit der Bitte, Literaturlisten zu den Fragen zu
erstellen. Diese Listen werden anschließend mit den 18 000 Dokumenten abgeglichen. Die
so erhaltenen Dokumente werden dabei einer von drei Relevanzeinstufungen zugeordnet.
Die folgenden Tests ermittelen dann die Anzahl der relevanten Dokumente, die von den
verschiedenen Systemen als Treffer zurückgeben werden.
Im zweiten Zusatztest werden 759 Dokumente, die durch 79 zufällig ausgewählte Fragen
ermittelt wurden, auf ihre Relevanz überprüft. Ziel ist es dadurch festzustellen, inwieweit die
Systeme fähig sind, nicht-relevante Dokumente zurückzuhalten.
Trotz dieser Zusatztests wird wiederum Kritik an der Verwendung von "Source Documents"
und
der
darauf
basierenden
Suchfragenformulierung
geübt.
Einerseits
seien
in
Praxissituationen keine "Source Documents" vorhanden und andererseits würden
Indexierungssysteme, die auf Stichwortverfahren beruhen, bevorzugt. Es wird also
bezweifelt, ob die Ergebnisse tatsächlich auf die Realität übertragbar sind.
2.2.3 Cranfield II (1966)
Mit Cranfield II werden verschiedene Indexierungssprachen auf ihre Retrievaleffektivität
geprüft. Als Meßwerte finden erstmals Recall und Precision22 Verwendung. Für den Test
werden 33 Indexierungssprachen entwickelt. Der Datenraum besteht aus 1 400 Dokumenten
aus dem Themenbereich Luftfahrt, es werden 211 Suchfragen gestellt.
Die Suchanfragen sind diejenigen Fragen, welche die Autoren der Dokumente im
Testdatenraum als Ausgangspunkt für das Verfassen der jeweiligen Texte verwendet hatten.
Die Relevanzbeurteilung findet zweistufig statt: Erstens durch Studierende, dann,
nachgeschaltet, durch den jeweiligen Autor.
22
precision (Genauigkeit); relevante gefundene Dokumente / alle gefundenen Dokumente = A / A + B
recall (Vollständigkeit); relevante gefundene Dokumente / alle relevanten Dokumente = A / A + C Meßintervall
jeweils zwischen 0 - 1, idealer Wert: 1. Siehe http://www.inf-wiss.uni-konstanz.de/CURR/winter98/iv1/iv1vorlesung/6_sitzung/bewertung.html (18.10.00).
Evaluation hybrider Suchmaschinen
Seite 15
Dies wird bei Cranfield II kritisiert, denn z.T. weichen die Relevanzbeurteilungen der
Studenten und Autoren voneinander ab, d.h. es ist möglich, daß diese Inkonsistenzen die
Testergebnisse verzerren.
2.2.4 Medlars (1966)
In diesem Retrievaltest werden 302 Nutzerfragen über die Medlars-Datenbank, die aus rund
700 000 Dokumenten besteht, abgefragt. Meßwerte sind Recall und Precision, wobei der
Recall
aufgrund
der
großen
Datenmenge
nur
geschätzt
werden
kann.
Die
Relevanzbeurteilung nehmen die Nutzer vor.
2.2.5 Inspec (1969)
Beim Inspec-Test werden fünf verschiedene Indexierungsverfahren evaluiert. Es werden 97
Suchfragen über 542 Dokumente aus den Sachgebieten Elektrotechnik und Physik
durchgeführt. Pro Suchfrage werden bis zu drei Suchformulierungen variiert.
2.2.6 Aberystwyth Index-Languages Test (1972)
Auch hier wird die Retrievaleffektivität verschiedener Indexierungssprachen untersucht. Zur
Effektivitätsbewertung werden acht verschiedene Meßwerte herangezogen. Es werden 63
Suchanfragen über eine Dokumentmenge von 800 Dokumenten gestellt. Meßwerte sind
Recall und "nicht-relevante gefundene Dokumente."
Als Problem werden auch hier die sich unterscheidenden Relevanzurteile verschiedener
Personen betrachtet.
2.2.7 Padok (1984-1986)23
Der Padok Retrievaltest hat das Ziel, die am meisten geeignete Texterschließungsvariante
für Massendaten in Patentdatenbanken zu ermitteln. Dazu werden u.a. die Leistungen von
Textaufbereitungsalgorithmen
wie
Grundformenreduktion,
oder
Kompositazerlegung
evaluiert. Konkret werden vier verschiedene Erschließungssystem (PASSAT, CTX, DETECT
und ein Freitextsystem) getestet. Das verwendete Retrievalsystem ist GRIPS-DIRS.
Die Dokumentmenge besteht aus 11706 Patentdokumenten.
23
Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, NewYork 1989, S.3.
Evaluation hybrider Suchmaschinen
Seite 16
Die 300 Testaufgaben ergeben sich aus der ersten Seite einer Offenlegungsschrift. Dabei
kann eine Aufgabe aus mehreren Anfragen bestehen. Die Absicht ist, die Interaktion
zwischen
Mensch
und
System,
in
die
Prüfungsaufgaben
miteinzubeziehen.
Die
Testpersonen sind Experten im Bereich der Patentrecherche, aber aus unterschiedlichen
Tätigkeitsbereichen. Die Begründung für dieses Vorgehen ist, "...daß die Auswahl der
Testpersonen des Padok-Retrievaltests eine recht realitätsnahe Abbildung des später zu
erwartenden Benutzerkreises darstellt."24
Der Padok Retrievaltest ist also weniger als Laborexperiment, sondern eher als
realitätsbezogener Vergleichstest verschiedener Systeme angelegt.
Die Relevanzbewertung der gefundenen Dokumente wird durch "Juroren" mit fundierten
Fachwissen vom DPA (Deutschen Patentamt), vorgenommen. Somit ist die Einheitlichkeit
der subjektiven Ergebnisbewertung sichergestellt.25
Maßzahlen für die Ergebnisbewertung sind Recall und Precision, wobei der Recall höher
gewichtet wird. Bei der Ergebnisanalyse werden aufwendige Signifikanztests durchgeführt,
um die Aussagekraft der Ergebnisse zu überprüfen.
2.2.8 Milos II (1995):26
Das Ziel von MILOS II (einem Nachfolgeprojekt von MILOS I)27 ist es, die Retrievaleffektivität
verschiedener Indexierungsverfahren zu untersuchen.
Dazu werden 100 typisierte28 Suchanfragen29 (50 aus Milos I und 50 neue), die nach
statistisch beobachteten Benutzergewohnheiten zusammengestellt worden waren, über
einen Dokumentraum von 190 000 Dokumenten aus dem Zeitraum von 1991-1995 des
Datenbestands der deutschen Bibliothek durchgeführt.
24
Ebd., S.7.
Ebd., S.7.
26
Elisabeth Sachse, Martina Liebig, Winfried Gödert, Automatische Indexierung unter Einbeziehung semantischer
Relationen: Ergebnisse des Retrievaltests zum MILOS II-Projekt, in: Kölner Arbeitspapiere zur Bibliotheks- und
Informationswissenschaft, Band 14 1998. siehe auch http://www.uni-duesseldorf.de/ulb/mil_ber.htm (19.10.00).
27
Dr. Klaus Lepsky, Jörg Siepmann, Andrea Zimmermann, Automatische Indexierung für Online-Kataloge:
Ergebnisse eines Retrievaltests, 1996, siehe http://www.uni-duesseldorf.de/ulb/mil_retr.htm (19.10.00).
28
Die Typisierung untergliederte sich in:
- Fragen nach einfachen Sachverhalten mit einem Suchbegriff (z.B. Konjunkturpolitik)
- Fragen nach einfachen Sachverhalten mit zwei Suchbegriffen (z.B. Anleitung zum Videofilm)
- Fragen, in denen Beziehungen zwischen mehrern Begriffen vorhanden sind; "Und"-Verknüpfung
- Fragen die Adjektiv-Substantiv-verbindungen für einen festen Begriff enthalten
- Fragen, die Eigennamen mit einer Mehrwort-Verbindung oder Zählung enthalten
- Eigennamen, die in verschiedenen Schreibweisen möglich sind
- Komplexe Suchfragen, die aus drei Begriffen bestehen und miteinander verknüpft werden (Kombination mit
"und" und "oder")
aus, Martina Liebig, Winfried Gödert, Automatische Indexierung unter Einbeziehung semantischer Relationen:
Ergebnisse des Retrievaltests zum MILOS II-Projekt, in: Kölner Arbeitspapiere zur Bibliotheks- und
Informationswissenschaft, Band 14 1998, S.15-16.
29
Es wurden verschiedene Suchformulierungen (Queries) variiert, siehe ebd., S.16.
25
Evaluation hybrider Suchmaschinen
Seite 17
Effektivitätsmaße waren Recall und Precision, die Relevanz wird dabei von den
Testpersonen beurteilt.
Das
Ergebnis
dieser
Evaluation
ist
die
Feststellung,
daß
automatische
Indexierungsverfahren, im Vergleich zu herkömmlichen Verfahren effektiver sind.
2.2.9 TREC (Text Retrieval Conference):30
Eine qualitativ völlig neue Dimension bei der Evaluation von IR-Systemen wird ab 1992 mit
den sich seither jährlich wiederholenden TREC-Konferenzen erreicht. "... TREC (...) setzt
gegenwärtig die Maßstäbe für die Effektivität von Retrievalsystemen, weit über den
eigentlichen Kreis der Teilnehmer aus Forschung und Industrie hinaus."31
TREC bietet eine, inzwischen institutionell fortdauernde, Plattform für Retrievaltests, die
sowohl kommerziellen als auch wissenschaftlichen Teilnehmern als Experimentierfeld für
den Vergleich und die Beurteilung von Retrievalsystemen zur Verfügung steht.
Den Teilnehmern ist es möglich ihre Retrievalsysteme unter weitestgehend einheitlichen und
kontrollierten Testbedingungen zu testen. Die letzte TREC Konferenz TREC-832 fand im
November 1999 statt.
Als Dokumentmengen existieren verschiedene Kollektionen, die z.T. sehr groß sind.
Die Hauptaufgaben (tasks) sind die sogenannten ad-hoc und die routing Aufgaben
Bei den ad-hoc tasks werden neue Suchthemen (topics)33 an eine statische Datenmenge
und bei den routing tasks dieselben Suchthemen an eine dynamische Datenmenge gestellt.
Hinzu kommen andere Evaluationsbereiche wie web, cross-language, filtering, interactive,
tracks.34
30
http://TREC.nist.gov (19.10.00).
http://www.iud.fh-darmstadt.de/iud/wwwmeth/publ/slide/owfrtr1.htm
siehe auch Ricardo Baeza-Yates,, Berthier Ribeiro-Neto, Modern Information Retrieval, Essex 1999, S.84-21.
31
Gerhard Knorz, Testverfahren für intelligente Indexierungs- und Retrievalsysteme anhand deutschsprachiger
sozialwissenschaftlicher Fachinformation (GIRT), , Bericht über einen Workshop am IZ Sozialwissenschaften,
Bonn 12. September 1997, siehe http://www.iud.fh-darmstadt.de/iud/wwwmeth/publ/paper/girt97/paper1.htm
(19.10.00).
32
Ein Überblick über TREC 8 findet sich unter http://TREC.nist.gov/presentations/TREC8/overview/index.htm
(29.10.00).
33
Beispiel für ein TREC Topic
<top>
<num> Number: 409
<title> legal, Pan Am, 103
<desc> Description:
What legal sanctions have resulted from the destruction of Pan Am Flight 103 over Lockerbie, Scotland, on
December 21, 1988?
<narr> Narrative:
Documents describing any charges, claims, or fines presented to or imposed by any court or tribunal are
relevant, but documents that discuss charges made in
diplomatic jousting are not relevant.
</top>
Evaluation hybrider Suchmaschinen
Seite 18
Beim ad-hoc task wurden 1999 50 neue Topics, mit manueller und automatischer
Abfragengenerierung an einen Dokumentraum von über 2 Gigabyte Größe gestellt, der sich
überwiegend aus Artikeln verschiedener Zeitschriften, wie der Financial und L.A. Times,
zusammensetzt. Die Topics sollen "realen" Informationsbedürfnissen entsprechen und
variieren jährlich z.T. auch in Form und Länge.35
Maßzahlen sind auch bei TREC Recall und Precision sowie die daraus abgeleitete
durchschnittliche Precision (mean average precision).36
Die Relevanzbeurteilung wird mittels eines Pooling Verfahrens vorgenommen.37 D. h. die
jeweils Top 100, der von den an den TREC Retrievaltests beteiligten Systemen,
zurückgegebenen Treffer werden zusammengeführt und dann bewertet. Wobei die Treffer
für ein Suchthema nur von einer Person bewertet werden, um die Konsistenz der
Beurteilungen sicherzustellen.
Web Track38
Der erstmals 1998 durchgeführte Web Track gliedert sich in einen Large und einen Small
Web Track. Der Large Web Track wird über die sogenannte VLC2 Kollektion (bestehend aus
über 100 Gigabyte Daten, das sind 18,5 Mio Webseiten) und der Small Web Track über die
sogenannte WT2g Kollektion (bestehend aus 2 Gigabyte Daten, das sind 250 000 Webseiten
aus der VLC2 Kollektion) durchgeführt.
Die Suchthemen werden aus den TREC 8 ad hoc Topics übernommen. Die
Relevanzbewertung wird für jedes Thema von nur einem Gutachter vorgenommen. Bei den
Tests werden die Webseiten in ein Text Format konvertiert, es werden also nicht die
Originaldokumente bewertet.
Die TREC Konferenzen sind State-of-the-Art im Bereich Evaluation von IR Systemen. Sie
stellen einheitliche, öffentlich zugängliche und transparente Verfahren und Methoden zur
Evaluation von Retrievalverfahren und -systemen bereit. Aus diesem Grund ist TREC
inzwischen zum anerkannten Standard im Bereich der Evaluation von IR-Systemen
avanciert.
siehe http://TREC.nist.gov/presentations/TREC8/overview/tsld013.htm (29.10.00).
DonnaHarman, The Text Retrieval Conferences (TRECs): Providing a Test-Bed for Information Retrieval
Systems, siehe http://www.asis.org/Bulletin/Apr-98/harman.html (01.11.00).
35
Siehe http://TREC.nist.gov/presentations/TREC8/overview/sld014.htm (29.10.00).
36
Der Durchschnitt der pro Rangplaz erreichten Precisionwerte, siehe http://wwwnlpir.nist.gov/works/presentations/spie99/tsld016.htm (16.11.00).
37
Siehe http://TREC.nist.gov/data/reljudge_eng.html (29.10.00).
38
David Hawking, Ellen Voorhees, Nick Craswell, Peter Bailey, Overview of the TREC-8 Web Track, 2000, siehe
http://TREC.nist.gov/pubs/TREC8/papers/web_overview.pdf 29.10.00).
34
Evaluation hybrider Suchmaschinen
Seite 19
Dennoch läßt sich auch bei TREC Kritik anbringen, insbesondere im Bereich der
Relevanzbewertung. Denn einerseits ist zu bezweifeln, daß durch das Pooling Verfahren alle
relevanten Dokumente gefunden werden können, und zum anderen, daß die Relevanzurteile
unter anderen Testverhältnissen identisch ausfallen würden.
"However , from what we know about the great many factors affecting relevance
judgements (...), we can be sure that under many other conceivable conditions the
set of relevant documents in the TREC experimentel collection would be very
different from those that served as the foundation for the actual TREC
experiments. What this means is in terms of the validity of the conclusions reached
by TREC experimenters or of retrieval evaluation more generally is not so clear."39
Obwohl die TREC Konferenzen also auch im Rahmen des Themas dieser Arbeit in Bezug
auf Evaluationsverfahren als Quasi-Standard gelten müssen, verbietet sich eine einfache
Übernahme der TREC Methodik. Denn es ist fraglich, ob die Evaluationsmethodik (inklusive
Relevanzbeurteilungsverfahren), die bei TREC Anwendung findet, für den Kontext dieser
Arbeit adäquat ist und somit einfach übertragen werden kann. Beispielsweise beruhen die
TREC Tests - auch bei Web Track - auf statischen und identischen Dokumentmengen, was
bei den hier zu untersuchenden Internetsuchmaschinen nicht der Fall ist. Eine 1:1
Übertragung der TREC Evaluationsmethodik - falls technisch realisierbar - würde dem
Untersuchungsgegenstand dieser Arbeit alleine schon deshalb nicht gerecht werden können,
weil dadurch Teile der Indexing Komponenten40 der zu untersuchenden Suchmaschinen, die
z.B. die Aktualisierungshäufigkeit oder die Indexgröße bestimmen, nicht berücksichtigt
werden würden und somit ein abschließendes Qualitätsurteil verfälscht werden könnte.41
2.2.10 GIRT (1997)
Als deutsche Entsprechung von TREC läßt sich GIRT (German Indexing and Retrieval
Textdatabase) bezeichnen. Das IZ Sozialwissenschaften stellt hierbei eine Testumgebung
bezüglich Dokumenten, Retrievalfragen, Aufbereitungs- und Auswertungskapazität zur
39
Donna Harman, The Text Retrieval Conferences (TRECs): providing a test-bed for information retrieval
systems, in:
40
Siehe Kapitel 2.1 Aufbau eines IR-Systems.
41
Auf diese Thematik wird im Laufe dieser Arbeit noch dezidierter eingegangen. Mit der Frage der
"Angemessenheit" der TREC Methodik für die Evaluation von Internetsuchmaschinen beschäftigen sich auch
Nick Craswell, Peter Bailey, David Hawking, Is it fair to evaluate web systems using TREC ad hoc methods?,
siehe http://pastime.anu.edu.au/nick/pubs/sigir99ws.ps.gz (02.11.00).
Evaluation hybrider Suchmaschinen
Seite 20
Verfügung.42 Die Vorteile sind somit dieselben wie bei TREC. Es steht eine Testumgebung
zur Verfügung, die vergleichbare Testergebnisse bei Evaluationen ermöglicht.
Auf der Basis von GIRT wurden schon mehrere Evaluationen durchgeführt, z.B. der Pretest
von Frisch und Kluck,43 sowie ein Retrievaltest an der Universität Konstanz.44
Der
GIRT-Pretest
von
Frisch
und
Kluck
testet
die
Retrievaleffektivität
zweier
Retrievalsysteme mittels 9 Anfrageproblemen - aus den Themengebieten Frauenforschung,
Industrie- und Betriebssoziologie, Migration und ethnische Minderheiten - über 15 000
Dokumente. Die Relevanzbewertung wird dabei durch einen IZ-Juror im voraus auf einer
vierstufigen Skala vorgenommen, die Konsistenz der Relevanzbeurteilung unterschiedlicher
Juroren
wird
überprüft
und
liegt
bei
70-80%.
Testpersonen
sind
acht
informationswissenschaftlich gebildete Probanden, die aus den Anfrageproblemen die
konkreten Suchanfragen generieren.
Maßzahlen sind Recall und Precision. Die Treffermenge wird auf eine Anzahl von 30
beschränkt.
Das Ergebnis dieses Pretests ist, daß keine Aussage darüber getroffen werden kann, ob
eines der Systeme eine höhere Effektivität erzielt, die Probanden allerdings das boolsche
System dem ranking-basierten System vorziehen.
Inzwischen ist GIRT als "Special Task" Teil des "Cross-Language Evaluation Forums".45 Die
Testumgebung besteht mittlerweile aus 80 000 Dokumenten und 25 Suchfragen.
2.2.11 Historischer Abriss – Erkenntnisse
Aus dem vorhergegangenen, unvollständigen46 Abriss, von Evaluationen im Bereich
Information Retrieval wird ersichtlich, das es sich um ein komplexes Themengebiet handelt,
dem kein abgesichertes theoretisches Fundament zugrundeliegt47 und das deshalb mit
vielfältigen Problembereichen und Vorgehensweisen behaftet ist. Das zentrale Problem bei
42
Gerhard Knorz, Testverfahren für intelligente Indexierungs- und Retrievalsysteme anhand deutschsprachiger
sozialwissenschaftlicher Fachinformation (GIRT), siehe http://www.iud.fhdarmstadt.de/iud/wwwmeth/publ/paper/girt97/paper1.htm (02.11.00).
43
E. Frisch, M. Kluck, Pretest zum Projekt German Indexing and Retrieval Testdatabase (GIRT) unter
Anwendung der Retrievalsysteme Messenger und
freeWAISsf, Bonn 1997.
44
T. Käter, M. Rittberger, C. Womser-Hacker, Evaluierung der Text-Retrievalsysteme Domestic, Intelligent Miner
for Text, Lars II und TextExtender siehe http://www.inf-wiss.uni-konstanz.de/People/MR/pubs/kik99.html
(02.11.00).
45
Siehe www.iei.pi.cnr.it/DELOS/CLEF (02.11.00).
46
Beispielsweise fehlen die Retrievaltests von SMART, LIVE und AIR siehe Christa Womser-Hacker, Der PadokRetrievaltest, Zürich, NewYork 1989, S.24-25.
47
Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Harlow 1999, S.84.
Evaluation hybrider Suchmaschinen
Retrievaltests
ist,
eine
dem
jeweiligen
Untersuchungsziel
Seite 21
angemessene
Evaluationsmethodik zu entwickeln - hierbei stehen vor allem die historischen älteren
Evaluationen in der Kritik, beispielsweise die Cranfield-Tests.
Das methodische Problem umfaßt, vereinfacht gesprochen, zwei Aspekte, zu einem eine
eher quantitative und zum anderen eine eher qualitative Dimension der Ausbildung der
Testparameter.
Die quantitative Dimension kommt beispielsweise in der Größe der verwendeten
Dokumenträume oder der Anzahl der Suchanfragen zum Ausdruck.
en Doks.
gefunden rel. Dok.
Relevanz-einstufung Rel.
40
200
1200
18 000
CRAN. I
211
1 400
CRAN. II
Skala
Recall
aller Dreistufige Precision/
CRANFIELD
d. Nachweis
93
Suchanfragen/
Queries
15 000
Dokumentanzahl
ASTIA
97
542
63
800
INSPEC ABER.
Seite 22
(geschätzt)
Recall
Recall
Recall
gef.Doks/
GIRT
100
neue
pro anno 50
Recall
Recall
Recall
Precision/
9
190 000 Bis zu 18,5 Mio 15 000
TREC
Precision/ Precision/ Precision/
300
11706
PADOK MILOS II
relevante Recall
Precision/ Precision/ Nicht-
302
700 000
MEDL.
Für die hier aufgeführten Evaluationen setzen diese sich wie folgt zusammen:
Evaluation hybrider Suchmaschinen
Evaluierung hybrider Suchsysteme im WWW
Seite 23
Vergleicht man die Spannweite einzelner Werte, so lassen sich bei der Größe der
verwendeten Dokumentkollektionen Unterschiede bis zum Faktor 92 500 ausmachen,
während die Quantitätsunterschiede bei den Anfragen bis zum Faktor 77 reichen. Bei
derartig großen Unterschieden bezüglich extern variabler Testparameter der verschiedenen
Evaluationen
ist
die
Frage,
welche
Anzahl
jeweils
notwendig
ist,
um
verallgemeinerungsfähige Aussagen treffen zu können nicht trivial. Denn bei (zu) kleinen
Testkollektionen und Anfragemengen kann beispielsweise keine "Skalierbarkeit" auf große
Mengen unterstellt werden.48 Zwar ist im Zeitablauf bei der Größe des verwendeten
Dokumentraums eine steigende Tendenz festzustellen,49 betrachtet man aber das GIRTSetting, so wird diese Aussage wieder relativiert.
In dieser Untersuchung ist also auch die Frage zu beantworten, welche quantitativen Werte
für
diese
extern
vorzugebenden
Testparameter,
bezogen
auf
das
jeweilige
Untersuchungsziel, notwendig sind, um qualifizierte Aussagen überhaupt erst treffen zu
können.50
Damit ist über die inhärente Beschaffenheit51 dieser Testparameter aber noch nichts
ausgesagt. Hierin kommt der qualitative Problembereich jeder Evaluationsmethodik zum
Ausdruck.
Dabei muß sichergestellt werden, daß durch die qualitative Ausgestaltung der Testvariablen
das Ergebnis der Evaluation nicht unzulässig beeinflußt wird, d.h. das beispielsweise
bestimmte Systeme oder Verfahren nicht schon ex ante unzulässig bevorteilt werden, wie es
z.B. in der Kritik an der Verwendung von "Source Documents" bei Cranfield I angeführt wird.
Grundsätzlich ist also darauf zu achten, daß die qualitative Ausgestaltung der
Evaluationsparameter dem Untersuchungsgegenstand auch entspricht, z.B. in Bezug auf
"repräsentative" Dokumentmengen oder Anfragen, so daß durch den Retrievaltest auch
verwertbare Ergebnisse ermittelt werden können.52
48
Christian Wolff, Vorlesungsnotizen Information Retrieval, 2.4. Evaluierung im IR, WS99/00, siehe
http://www.informatik.uni-leipzig.de/ifi/abteilungen/asv/Wolff/IRWS99_5_Evaluierungs.pdf (05.09.00).
49
Was sicherlich auch durch die fortschreitende Entwicklung der IK-Technologie ermöglicht, oder zumindest
begünstigt wird.
50
Im weitesten Sinne sind also die quantitativen Aspekte einer Evaluation mit der Forderung nach Reliabilität
verbunden, siehe Jean Tague-Sutclife, The Pragmatics of Information Retrieval Experimentation, Revisited, in:
Karen Sparck Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216,
S.205.
51
Damit sind inhärente Eigenschaften, z.B. bei der Dokumentmenge, wie Format oder Themenbereich(e) oder
typische Dokumentlänge, usw. oder z.B. bei den Anfragen, Themenbereich(e), Frageart (offen/geschlossen) usw.
gemeint.
52
Dies entspricht im weitesten Sinne der "Validitätsforderung", siehe Jean Tague-Sutclife, The Pragamatics of
Information Retrieval Experimentation, Revisited, in: Karen Sparck Jones, Peter Willet (Hg), Readings in
Information Retrieval, San Francisco 1997, S.205-216, S.205.
Evaluierung hybrider Suchsysteme im WWW
Seite 24
Besonders deutlich wird dieses Problem bei der qualitativen Ausgestaltung der
Bewertungsmaße, "die als unabhängige Indikatoren fungieren, welche über die zu
beurteilenden Systeme ein objektives Urteil zulassen." (sollen) 53
Hier stellt sich das sogenannte Relevanzproblem, denn nahezu jedes Bewertungsmaß der
Retrievaleffektivität beruht auf der Unterscheidung von relevanten und nicht-relevanten
Dokumenten.54
Die Relevanz ist somit ein zentraler Begriff, bei der Evaluation von IR-Systemen.55
Definitionen für diesen Term existieren im Bereich des Information Retrieval zuhauf,
exemplarisch werden hier vier angeführt.56
•
Taublee sieht Relevanz als "a relationship between an expressed information need and a
document."57
•
Saracevic schreibt: "Relevance is considered as a measure of the effectiveness of the
contact between a source and a destination in a communication process."58
•
Van Rihsbergen formuliert: "A document is relevant to an information need if and only if it
contains at least one sentence which is relevant to that need."59
•
Bei TREC wird Relevanz wie folgt definiert: "If you were writing a report on the subject of
the topic and would use the information contained in the document in the report, then the
document is relevant. Only binary judgments ("relevant" or "not relevant") are made, and
a document is judged relevant if any piece of it is relevant (regardless of how small the
piece is in relation to the rest of the document)."60
Das zentrale Problem des Relevanzbegriffs ist, daß er zwar als objektiv operationalisierbares
Bewertungsmaß verwendet wird, aber im Grundsatz nicht objektivierbar ist. Zu vielfältig,
unterschiedlich und komplex sind die Einflußfaktoren die der Relevanzbeurteilung zugrunde
liegen.
53
Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, NewYork 1989, S.27.
Ebd.
55
Sondern beispielsweise auch in den Sozialwissenschaften oder der Philosophie, siehe Tefko Saracevic,
Relevance: A Review of and a Framework for the Thinking on the Notion in Information Science, in: Karen Sparck
Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.143-165, S.144.
56
Rezitiert aus Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, NewYork 1989, S.28.
57
O. E. Taublee, Content Analysis, Specification and Control, in: Annual Review of Information Science and
Technology 3 1967, S.105-136, S.107.
58
Tefko Saracevic, Relevance: A Review of and a framework for the Thinking on the Notion in Information
Science, in: in: Karen Sparck Jones, Peter Willet (Hg), Readings in Information Retrieval, San Francisco 1997,
S.143-165, S.143.
59
C.J van Risjbergen, Information Retrieval, London 19792, S.147.
60
Siehe http://TREC.nist.gov/data/reljudge_eng.html (03.11.00).
54
Evaluierung hybrider Suchsysteme im WWW
Seite 25
Aufgrund des pragmatischen Primats der Information,61 kann die Relevanz zurückgegebener
Dokumente nur im Kontext der Handlungsrelevanz derjenigen Person verstanden werden,
die versucht, ein konkretes Informationsbedürfnis mittels eines Retrievalsystems zu
befriedigen. Prinzipiell ist die Beurteilung der Relevanz also nur subjektiv durch den
jeweiligen Nutzer lösbar.
Um die Relevanz trotzdem als annähernd objektive, d.h. verallgemeinerungsfähige
Meßgröße zu operationalisieren, muß von dieser personellen Situationsgebundenheit
abstrahiert werden.
Zu beachten ist, daß intellektuell zu fällende Relevanzurteile - auch wenn der
personenbezogene Handlungskontext ignoriert wird - in jedem Fall abhängig von
interpersonellen und intertemporalen Unterschieden sind.62 Die interpersonelle Konsistenz
der Relevanzbeurteilung liegt dann bei 70-80%.63
Also gilt auch auf dieser abstrahierten Ebene das grundlegende Problem; ..., the same
document may mean different things to different people"64, das sich nur auf eine andere
Ebene verlagert. Das bedeutet wiederum, daß es in Bezug auf die Validität der
Evaluationsergebnisse riskant ist, sich bei der Relevanzbewertung auf das Urteil nur einer
Person zu stützen.65
Interpersonelle Unterschiede ergeben sich dabei u.a. aus unterschiedlichen kognitiven
Fähigkeiten oder Wissensständen verschiedener Personen. Beispielsweise ist es möglich,
daß für einen Juror eine ihm schon bekannte Information nicht als relevant betrachtet, ein
anderer Juror, dem diese Information unbekannt ist, aber sehr wohl.
Bei den intertemporalen Faktoren kann beispielsweise die technische Entwicklung im
Zeitablauf eine entscheidende Rolle spielen, in diesem Bereich sind wahrscheinlich immer
nur neue Informationen relevant, Informationen, die eine gewisse "Altersgrenze"
überschreiten, wahrscheinlich nicht.66
Ein weiteres Problem der Relevanzbeurteilung liegt darin, daß sie durch die Beurteilung
einzelner Dokumente - die als voneinander unabhängig betrachtet werden - vorgenommen
wird. Dadurch wird z.B. vernachlässigt, daß für sich allein betrachtet irrelevante Dokumente,
61
Rainer Kuhlen, Pragmatischer Mehrwert von Information, Sprachspiele mit informationswissenschaftlichen
Grundbegriffen, Konstanz 1989, S.17.
62
2
Gerald Kowalski, Information Retrieval Systems, Theory and Implementation, Norwell 1998 , S.224.
63
Siehe 2.2.10 Girt, auch ebd., S.225.
64
Michael Gordon, Praveen Pathak, Finding Information on the World Wide Web: the retrieval effectiveness of
search engines, in: Information Processing and Management (35) 1999, S.141-180, S.147.
65
F . Wilfried Lancaster, Amy J. Warner, Information Retrieval Today, Arlington 1993, S.52.
66
Beispiele aus ebd.
Evaluierung hybrider Suchsysteme im WWW
Seite 26
zusammen betrachtet u.U. als relevant gewertet werden könnten oder sich eventuell
relevante Dokumente durch andere Dokumente, als nicht relevant herausstellen könnten.67
Hinzu kommt, daß es faktisch unmöglich ist, einen Grad der Relevanz zu bestimmen.
Denn ein Relevanzurteil ist nicht binär oder graduell, sondern vielmehr als "...Funktion
zwischen exakter und keinerlei Übereinstimmung mit dem Informationsbedürfnis" zu sehen.68
Es wird also deutlich, das alleine schon das Bewertungsmaß, das als unabhängiger Indikator
für die objektive Beurteilung dienen soll, vielfältigen Einflüssen unterliegt, die berücksichtigt
werden müssen, um zu gewährleisten, daß die erzielten Ergebnisse auch Aussagekraft
besitzen.
Die Schilderung der Relevanzproblematik diente dazu, zu verdeutlichen, daß auch die
inhärente
Beschaffenheit
der
Testparameter,
ihre
qualitativen
Eigenschaften,
entscheidenden Einfluß auf die Validität der Ergebnisse von Evaluationen ausüben.
2.2.12 Retrievaltests – Zwischenergebnis
Als Ergebnis für dieses Kapitel läßt sich festhalten, daß die prinzipielle Vorgehensweise bei
allen Retrievaltests zwar klar ist und einfach erscheint - eine Menge von (An)Fragen an
einen Dokumentraum zu richten und dann die Qualität des Output zu beurteilen - aber daß
ein
ungeheurer
Aufwand
erforderlich
wäre,
um
den
Anspruch
einzulösen,
die
Retrievaleffektivität und die sie beeinflussenden Faktoren objektiv und exakt zu bestimmen.69
Die Frage, die sich stellt, lautet nun, wie sind die quantitativen und qualitativen
Testparameter zu entwickeln und zu bestimmen, um eine dem jeweiligen Untersuchungsziel
angemessene Evaluationsmethodik zu entwickeln und so die Reliabilität und Validität der
Evaluation sicherzustellen?
Da, wie oben angeführt, kein abgesichertes theoretisches Grundgerüst zu Evaluationen im
Information Retrieval existiert,70 steht ebenso wenig eine, "watertight method for evaluating
an information retrieval system"71 zur Verfügung. Im folgenden ist also zu versuchen,
Hinweise darüber zu finden, welche Punkte beachtet werden müssen, um trotz dieser
67
Siehe http://www.inf-wiss.uni-konstanz.de/CURR/winter97/iv1/iv1-vorlesung/6_sitzung/qualitaet.html (04.11.00).
2
Gerald Kowalski, Information Retrieval Systems, Theory and Implementation, Norwell 1998
69
Reginald Ferber siehe http://www.darmstadt.gmd.de/~ferber/vorlesung-9697/framevor/book_1.part_3.chapter_6.html (31.10.00).
70
Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Essex 1999, S.84-97.
68
Evaluierung hybrider Suchsysteme im WWW
Hindernisse
eine
Evaluation
zumindest
annähernd
objektiv
Seite 27
und
aussagekräftig
durchzuführen.
2.3 Evaluationsmethodik
Das Ziel dieses Kapitels ist es, Hinweise über eine adäquate Vorgehensweise bei der
Durchführung von Evaluationen dahingegehend zu gewinnen wie die quantitativen und
qualitativen Probleme - mit vertretbaren Aufwand - umgangen oder minimiert werden
können.
In der Literatur finden sich einige Quellen, die die Problematik von Evaluationen im
Information Retrieval diskutieren und Hinweise zur Evaluationsmethodik liefern.
An erster Stelle ist der Aufsatz "The Pragmatics of Information Retrieval Experimentation,
Revisited"72 von Jean Tague-Sutcliffe zu nennen, auf das sich dieses Kapitel grundlegend
stützt.
Ziel des Artikels ist es, Informationswissenschaftlern bei der Durchführung eines
Experiments so zu leiten, daß das Ziel, welches sich der Untersuchende gesetzt hat, auch
wirklich erreicht wird.73
Um dies sicherzustellen werden die einzelnen Schritte eines Retrievaltests (insgesamt 10)
durchlaufen und Hinweise gegeben, welche Entscheidungen wie getroffen werden sollten,
um die Validität, Reliabilität und Effizienz74 des Testsettings sicherzustellen.
2.3.1 Testen oder nicht testen?75
An erster Stelle steht die Entscheidung, ob ein Retrievaltest durchgeführt werden soll oder
nicht.
Grundlage dabei soll ein klar gesetztes Ziel sein, sowohl in Bezug auf den
Untersuchungsgegenstand, vor allem aber in Hinblick auf das Erkenntnisinteresse. Durch
Sichtung der aktuellen Literatur soll dabei zum einen sichergestellt werden, ob durch die
71
Stephen E. Robertson, the methodology of information retrieval experiment, in: Karen Sparck Jones,
information retrieval experiment, Butterworths 1981, S.9-31, S.30.
72
Jean Tague-Sutcliffe, The Pragmatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck
Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216.
73
Jean Tague-Sutcliffe, The Pragmatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck
Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216, S.205.
74
Unter der Effizienz wird hier der Aufwand im Testsetting zur Sicherung der Validität und Reliabilität verstanden,
siehe ebd.
Evaluierung hybrider Suchsysteme im WWW
Seite 28
Evaluation auch neue Erkenntnisse gewonnen werden76 können und zum anderen ist zu
versuchen, bereits vorhandene Erkenntnisse und Ideen für die durchzuführende Evaluation
zu gewinnen.
2.3.2 Welche Art von Test soll durchgeführt werden?77
An nächster Stelle ist dann zu entscheiden, welche grundlegende Art von Retrievaltest
durchgeführt werden soll, eher ein Laborexperiment oder eher ein Test unter realen
Bedingungen.
Je mehr sich der Test an der Realität orientiert, um so schwieriger und unwahrscheinlicher
ist es, die einflußnehmenden externen Faktoren, wie z.B. die Benutzer oder den
Dokumentraum, kontrollieren zu können.
Der Vorteil von Laborexperimenten ist es, im Idealfall alle Testparameter genau zu
kontrollieren. Die gezielte Variation einzelner Parameter ermöglicht dann im besten Fall auch
die isolierte und exakte Beobachtung der Auswirkung(en). Dadurch kann es gelingen,
allgemeingültige Erkenntnisse über die Einflüsse einzelner Faktorenvariationen zu
erschließen.
Bei
einem
Test
unter
eher
realen
Bedingungen,
beispielsweise
bei
einem
Retrievalsystemvergleich, ist es kaum möglich, verallgemeinerungsfähige Aussagen
bezüglich einzelner systemimmanenter Einflußfaktoren zu treffen, da die Systeme, bzw. die
Systemleistung insgesamt verglichen werden. Tests die unter eher realen Bedingungen
durchgeführt werden, sind aber einfacher durchzuführen, da ein geringerer Aufwand zur
Kontrolle der Variablen notwendig ist, bzw. viele Parameter durch die Systeme vorgegeben
sind und deshalb nicht beeinflußt und isoliert werden können.
In einem Satz formuliert, je kontrollierter eine Evaluation, desto spezifischer sind die
Erkenntnisse, aber um so höher ist der Aufwand, der für die Durchführung der Evaluation
erforderlich ist.
Die Frage, welche Testvariablen inwieweit kontrolliert werden sollen/können ist also zentral
für den Aufbau des Testsettings.
75
Ebd.
Also der Untersuchungsgegenstand nicht schon erforscht wurde.
77
Ebd.
76
Evaluierung hybrider Suchsysteme im WWW
Seite 29
2.3.3 Wie sind die Variablen zu definieren und zuzuordnen?78
Unabhängig vom Grad der Kontrolle mit dem der Retrievaltest durchgeführt wird sind die
Parameter die die Evaluation beeinflussen oder durch sie untersucht werden, vor allem die
Variablen, eindeutig zu benennen und zuzuordnen.
Es ist also festzulegen, welche Parameter durch den Test untersucht (abhängige Variablen)
und welche extern vorgegeben und variiert (unabhängige Variablen) werden können, bzw.
welche Variablen vorhanden aber nicht zu beeinflussen sind (Umgebungsvariablen).
Die wichtigsten Variablen sind:
•
Dokumentkollektion:
Die Dokumentkollektion variiert z.B. in Größe, Form, Themenbereich, etc.
•
Dokumentrepäsentation:
Die Art der Dokumentrepräsentation läßt sich auf doppelte Weise betrachten. Zum einen
in der physischen Beschaffenheit, in der die Dokumentrepräsentation aufgebaut ist., z.B.
als zentrales invertiertes Files oder als verteilte Datenbank. Zum anderen in der der
Dokumentrepräsentation zugrundeliegenden logischen Struktur, beispielsweise ob eine
Volltextindizierung stattfindet, oder ob eine Stoppwortliste benutzt wird usw.
•
Benutzer:
Benutzer lassen sich auf vielfältige Weise differenzieren, z.B. nach Geschlecht, Alter,
Bildungsgrad, Nutzungskontext von Retrievalsystemen, Sprachkenntnissen.
•
Informationsbedürfnisse und Suchanfragen (Queries):
Informationsbedürfnisse können artifiziell entworfen oder aus dem realen Leben
entnommen sein. Die Suchanfragen können sich in ihrer Formulierung unterscheiden,
beispielsweise
ob
und
wie
Operatoren
verwendet
werden,
oder
wie
die
Länge/Komplexität der Anfragen gestaltet wird, z.B. bezüglich der Anzahl der Keywords.
•
Suchprozeß:
Auch die Interaktion mit dem Retrievalsystem kann verschiedenartigen Einflüssen
unterliegen. Beispielsweise kann die Benutzerschnittstelle eines Retrievalsystems auf
Auswahlmenüs oder auf einer Kommandosprache (z.B. Messenger) beruhen. Ein
weiterer Punkt betrifft die Art der Durchführung der Suchanfragen, wird sie durch Mittler
78
Ebd., S.206.
Evaluierung hybrider Suchsysteme im WWW
Seite 30
oder die Nutzer selbst vorgenommen? Findet ein interaktiver Suchprozeß statt oder
werden die Abfragen in einer Art Stapelverarbeitung durchlaufen?
•
Bewertungsmaße:
Die traditionellen Größen zur Beschreibung der Retrievaleffektivität sind Recall und
Precision. Es existiert aber noch eine Vielzahl anderer Meßgrößen wie z.B. estimated
search length usw.79 Es ist einleuchtend, daß die Verwendung verschiedener Meßgrößen
unterschiedliche Ergebnisse und somit andere Bewertungen der Retrievaleffektivität zur
Folge haben können. Der eigentliche kritische Punkt sind aber die, zunächst unabhängig
von
der
Meßgröße
zu
treffenden
Relevanzurteile.
Die
Kriterien
für
die
Relevanzzuordnung müssen eindeutig sein und sollten zumindest annähernd objektiv,
d.h. unabhängig von der personellen Handlungssituation,80 im Idealfall also repräsentativ
sein.
2.3.4 Welches Informationssystem wird genutzt/untersucht?81
Schließlich ist zu fragen, mit welchen Informationssystemen die Tests vorgenommen werden
sollen, mit experimentellen, extra zu entwickelnden, oder mit ausgereiften, verfügbaren
Systemen?
Welche Art von Dokumentraum und Dokumentrepräsentation ist erforderlich? Beispielsweise
spielt die Größe des Dokumentraums eine ebenso wichtige Rolle, wie seine thematische
Ausrichtung und zeitliche Abdeckung. Ebenso wichtig ist auch, wie die Dokumente durch das
Retrievalsystem aufbereitet werden, z.B. welche Indexierungsfelder zur Verfügung stehen
oder wie die Dokumente referenziert werden, als Volltext, Abstracts oder Zitationen.
Hinzu kommt die Frage, ob normierte Dokumenträume als Testkollektionen verwendet
werden können/sollen oder nicht.
Zielt die Untersuchung eher auf die Erschließung praxisnah verwertbarer Ergebnisse ab, so
ist die Verwendung existierender Systeme effizienter, für fortgesetzte Grundlagenforschung
hingegen sind experimentelle Systeme geeigneter.
79
Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Essex 1999, S.74-84.
Siehe 2.2.11.
81
Jean Tague-Sutcliffe, The Pragmatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck
Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216, S.209.
80
Evaluierung hybrider Suchsysteme im WWW
2.3.5
Wie
sind
die
Informationsbedürfnisse
und
Seite 31
Suchanfragen
zu
erschließen?82
Eine Suchanfrage läßt sich als verbalisiertes Informationsbedürfnis betrachten. Die
Suchanfragen sind die Inputfaktoren an das jeweilige Retrievalsystem. Sie bestimmen den
Suchprozeß und determinieren den Retrievaloutput. Sie sind also ein entscheidender Faktor
jeder Untersuchung. Adäquate, d.h. Mit dem Untersuchungsziel korrespondierende
Suchanfragen zu verwenden, ist ein zentrales Problemfeld bei der Evaluation von
Retrievalsystemen.
Es
sind
geeignete
Suchanfragen
zu
erschließen. Bei der Erschließung stehen
unterschiedliche Quellen zur Verfügung.
Eine mögliche Quelle von Suchanfragen stellen Nutzer mit realen Informationsbedürfnissen
dar. Eine andere Möglichkeit liegt darin, Suchanfragen auf künstliche Weise, z.B. aus
Überschriften von Zeitungsartikeln oder Titeln von Zeitschriftenartikeln zu generieren. Auch
die Verwendung von Suchanfragen, die von Informationsdiensten bereits erfaßt und
aufgezeichnet wurden, stellt eine Möglichkeit dar, Suchanfragen für die Evaluation zu
gewinnen.
Problematisch ist bei artifiziellen Suchanfragen allerdings, daß sie das zugrundeliegende
Informationsbedürfnis nur unzureichend repräsentieren. Die Schwierigkeit liegt darin, daß
von
einer
solchen
Suchanfrage
nicht
eindeutig
auf
das
zugrundeliegende
Informationsbedürfnis geschlossen werden kann, da zusätzliche personelle Informationen
fehlen.
So
ist
es
z.B.
möglich,
daß
derselben
Suchanfrage
unterschiedliche
Informationsbedürfnisse zugrunde liegen könnten, wenn sie von verschiedenen „echten“
Nutzern stammen würden. Dies läßt sich beispielsweise anhand der Verwendung von
Polysemen83 in Suchanfragen verdeutlichen.84
Ist also das Informationsbedürfnis unklar, so sind es auch die Kriterien für die
Relevanzbeurteilung. Hier kann nur versucht werden, die Relevanzkriterien durch
Rücksprache und Überprüfung mit neutralen Personen auf ihre Plausibilität hin
82
Ebd.
Polyseme sind Wörter mit verschiedener Bedeutung aber identischer Schreibweise. Beispiele: Schloß
(Türschloß und Gebäude), Bank (Ruheplatz und Kreditinstitut). Siehe Hadumod Bußmann, Lexikon der
Sprachwissenschaft, Stuttgart 19902, S. 452.
84
Zwei Beispiele finden sich bei Ricardo Baeza-Yates,, Berthier Ribeiro-Neto, Modern Information Retrieval,
Essex 1999, S.390. Das erste lautet "Go" (englisches Wort für "Gehen" und zugleich ein japanisches Spiel), das
zweite "Jaguar Speed" ("Jaguar" ist zum einen ein Raubtier zum anderen der Name eines Videospiels, eines
Sportwagens, eines US Football Teams, eines Netwerk Servers usw.)
Sprache und damit auch Suchanfragen sind also doppeldeutig, redundand und kontextabhängig.
83
Evaluierung hybrider Suchsysteme im WWW
Seite 32
abzusichern.85 Die Relevanzbeurteilung für die referenzierten Dokumente soll dann pro
Suchanfrage durch einen Nutzer vorgenommen werden, um Inkonsistenzen zu vermeiden.
Um die Objektivität von Vergleichstests sicherzustellen, ist es zudem wichtig, daß der
Untersuchende nicht zu tief in die Such- und Beurteilungsphase involviert ist, damit eine
(unbewußte) Befangenheit bezüglich eines favorisierten Ergebnisses vermieden wird. Der
Untersuchende soll also primär als "Testarchitekt" nicht aber als Testperson oder Juror
wirken.
Tests mit realen Benutzern sollen immer dann durchgeführt werden, wenn die notwendige
Kontrolle möglich und sichergestellt ist. Aufgrund der individuellen Unterschiede zwischen
Nutzern ist es notwendig mit einer hinreichenden Anzahl von Suchanfragen und
Testpersonen
zu
arbeiten,
um
die
Verallgemeinerungsfähigkeit
der
Untersuchungsergebnisse sicherzustellen.
2.3.6 Wie sollen die Suchanfragen durchgeführt werden?86
Wichtig ist es, die Vorgehensweise im Testablauf zu standardisieren, denn unbeabsichtigte
Veränderungen im Testablauf können das Ergebnis verzerren. Bei einem Laborexperiment
ist es weniger aufwendig, unbeabsichtigte Variationen des Testablaufs zu vermeiden. Aber
auch bei Evaluationen, die mit Hilfe von Testpersonen vorgenommen werden, ist es möglich,
unbeabsichtigte Einflüsse weitgehend zu reduzieren, beispielsweise durch Schulung der
Benutzer etwa durch Trainingseinheiten oder Tutorials. Notfalls muß der Testablauf
abgebrochen werden, bevor unbeabsichtigte Einwirkungen, wie etwa Systemabstürze, das
Ergebnis verfälschen können.
2.3.7 Wie wird das Testsetting ausgestaltet, welche Testanordnung ist
adäquat?87
Die Ausgestaltung des Testsettings determiniert den konkreten Aufbau und Ablauf der
Untersuchung.
Um die Reliabilität und Validität in möglichst hohem Maße sicherzustellen, ist es
entscheidend, ungewollte Einflüsse, die das Testergebnis verfälschen können, zu
minimieren. Konkret bedeutet dies, die "richtige" Testanordnung zwischen Testsubjekten
85
Stephen E. Robertson, the methodology of information retrieval experiment, in: Karen Sparck Jones,
information retrieval experiment, S.9-31, S.17.
86
Jean Tague-Sutcliffe, The Pragmatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck
Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216, S.210.
Evaluierung hybrider Suchsysteme im WWW
Seite 33
(z.B. Probanden), Einflußfaktoren (variierte Parameter) und Untersuchungsobjekten
(Systemen/Verfahren), beispielsweise bei der Ausgestaltung der Testaufgaben, zu finden.
Das Testdesign soll also möglichst so ausgestaltet sein, daß ungewollte Einflüsse wie
Lerneffekte oder Ermüdung, die das Ergebnis verfälschen könnten vermieden werden.
"Standardtestverfahren" wie "Crossed Designs", "Repeated Measures Designs" oder "Latin
Square Designs" beruhen darauf, ungewollte Einflüsse durch Zufallsanordnungen und
Wiederholungen zu minimieren.
Beim "Crossed Design" werden beispielsweise alle Testsubjekte (z.B. Benutzer A, B, C)
mindestens einmal den verschiedenen Faktoreinflüssen (z.B. Suchstrategie Y, X) pro
Untersuchungsgegenstand (z.B. Suchmaschinen L, M, N) zugeordnet. Dies kann je nach
Anzahl der Untersuchungsobjekte und untersuchter Faktoreinflüsse und Testpersonen sehr
umfangreich und aufwendig werden.
Beim "Repeated Measures Designs" werden hingegen dieselben Einflußfaktoren pro
Testsubjekt den verschiedenen Untersuchungsgegenständen zugeordnet. Dies erfordert
einen geringeren Aufwand, kann allerdings Lern- oder Ermüdungseffekte nach sich ziehen.88
Es ist also sorgfältig abzuwägen, welche Untersuchungsanordnung den besten Kompromiß
zwischen Aufwand und Objektivität im Testdesign darstellt, und deshalb vorzuziehen ist.
2.3.8 Wie sollen die Daten erfaßt werden?89
Würde versucht werden alle anfallenden Daten eines Retrievaltest zu sammeln, so wäre eine
nicht mehr auswertbare Datenmenge die Folge. Deshalb stellt sich die Frage, welche Daten
zu erfassen sind und wie diese erfaßt werden sollen.
Will man beispielsweise Daten über Testpersonen durch Beobachtung gewinnen, so ist zu
bedenken, daß die Nutzer sich unter Umständen, weil sie beobachtet werden, anders
verhalten. Das heißt auch die Art der Datenerfassung kann eine verzerrende Wirkung auf
das Ergebnis ausüben. Ein weiterer Punkt ist, daß bereits bei der Datensammlung die
nachfolgende Datenanalyse bedacht werden sollte. Einerseits bezüglich des verwertbaren
Datenformats. Hier sind digital gespeicherte Daten stets leichter (weiter) zu verarbeiten als
Daten, die nicht in digitaler Form erfaßt werden. Andererseits spielen auch die verwendeten
Meßgrößen und Skalen eine Rolle. So sind Daten, die z.B. in natürlichsprachlicher Form, in
87
Ebd.
Weitere Beispiele für "design Patterns" finden sich ebd., S.211-212.
89
Ebd., S.212.
88
Evaluierung hybrider Suchsysteme im WWW
Seite 34
ganzen Sätzen vorliegen erheblich schwerer kardinal und ordinal zu analysieren und
auszuwerten als Daten, die in codierter Form, z.B. in Skalen- oder Reihenform wie
gut/mittel/schlecht, in Zeitreihen usw., vorliegen.
2.3.9. Wie sollen die Daten ausgewertet werden?90
Wie oben angedeutet, ist die Form der Datenauswertung auch abhängig von der Art der
Datenerhebung.
Die statistische Analyse der Daten kann beschreibend und schlußfolgernd geschehen.
Werden nur deskriptive Methoden verwendet, so lassen sich keine weitergehenden
Aussagen treffen, die Daten stehen dann für sich selbst.
Mit
Hilfe
inferentieller
Methoden
hingegen
ist
es
möglich,
Schlüsse
über
die
Allgemeingültigkeit der gewonnen Daten zu ziehen.
Die deskriptive Beschreibung der gewonnen Daten hat auf jeden Fall zu erfolgen. Hierbei ist
zu überlegen, in welcher Form dies erfolgen soll, ob z.B. Recall-Precison Graphen
verständlicher sind als reine Ergebnistabellen und deshalb verwendet werden sollen.
Weiterhin zu überlegen inwieweit die Daten zu aggregieren sind. Genügt es, z.B. das
"Gesamtergebnis" auszuwerten, oder sollen verfeinerte Sichten ebenfalls analysiert werden?
Diese Entscheidung wird weitgehend vom Untersuchungsziel bestimmt werden.
Inferentielle
Methoden
erlauben
weitergehende
Schlußfolgerungen
aus
den
Testergebnissen. Insbesondere Signifikanztests zur Überprüfung der Aussagefähigkeit der
Ergebnisse sind hier zu erwähnen. Auch hier gilt es, die dem jeweiligen Testdesign
"angemessenen" Methoden und Analyseprogramme zu wählen. Beispielsweise sind je nach
Stichprobengröße parametrische oder nichtparametrische Techniken anzuwenden .
Der wichtigste Punkt bei der Analyse der Ergebnisse ist es unbedingt, nicht angemessene
oder dem Untersuchenden unverständliche Analyseverfahren oder -methoden zu vermeiden.
2.3.10 Wie sollen die Ergebnisse präsentiert werden?91
Die Ergebnispräsentation sollte die Evaluation nicht nur erzählend beschreiben, sondern die
Untersuchung so umfassend darstellen, daß
•
90
91
das Ziel des Retrievaltests geschildert wird,
Ebd.
Ebd., S.214.
Evaluierung hybrider Suchsysteme im WWW
Seite 35
•
der Hintergrund der Evaluationen beschrieben wird,
•
die Methodik, d.h. Die Testumgebung, das Testdesign, der Testablauf nachbildbar,
also wiederholbar gestaltet werden können und auch Probleme die bei der Evaluation
auftraten erwähnt werden,
•
die Ergebnisse so präsentiert werden, daß sie eindeutig nachvollzogen werden
können,
•
die Schlußfolgerungen, d.h. die gewonnenen Erkenntnisse, mitgeteilt werden.
Die Ergebnisse sollen also transparent präsentiert werden, so daß die Evaluation für
Außenstehende weitestgehend nachvollziehbar und nachbildbar wird.
2.3.11 Evaluationsmethodik - Schlußfolgerung
Jean Tague-Sutcliffs Aufsatz bietet einen Leitfaden zur Durchführung von Retrievaltests, der
zwar die Probleme bezüglich der quantitativen und qualitativen Ausgestaltung der
Testparameter nicht konkret löst (lösen kann), aber einen umfassenden Leitfaden vorschlägt,
wie Evaluationen ausgestaltet und durchgeführt werden sollten, um das Untersuchungsziel
trotz der vorhandenen Problemfelder auch tatsächlich zu erreichen. Diese grundlegende
Methodik
gliedert
sich dabei in zehn Punkte, welche jeweils die notwendigen
Entscheidungen beinhalten, die sequentiell zu treffen sind:92
1. Testen oder nicht testen (Need for testing)
2. Testart (Type of test)
3. Variablendefinition und Zuordnung (Definition of variables)
4. verwendetes Informationssystem (Database development)
5. Erschließung der Informationsbedürfnisse und Suchanfragen (Finding queries)
6. Durchführung der Suchanfragen (Retrieval software)
7. Testanordnung (Experimental design)
8. Datenerfassung (Data collection)
9. Datenauswertung (Data analysis)
10. Ergebnispräsentation (Presenting Results)
Wichtig ist es, das Projekt vor der Durchführung komplett zu durchdenken, um bei
auftauchenden Schwierigkeiten nicht auf ad hoc zu treffende Entscheidungen zur
Problembewältigung angewiesen zu sein.93
92
93
Die Punkte werden hier in der englischen Originalbezeichnung aufgeführt., siehe ebd.
Ebd., S.215.
Evaluierung hybrider Suchsysteme im WWW
Seite 36
Obwohl der Aufsatz schon 1992 erschien,94 ist er immer noch State of the Art.95 Deshalb wird
diese Arbeit im folgenden bei der Evaluierung hybrider Suchsysteme im WWW grundlegend
diesem Leitfaden folgen und sich auf ihn als methodische Guideline zur Entwicklung und
Durchführung der durchzuführenden Evaluation stützen.
2.4 Besonderheiten des Information Retrieval im World Wide Web
Nachdem nun die zentralen Problembereiche bei der Evaluation von Retrievalsystemen
erläutert und eine grundlegende methodische Vorgehensweise zur Durchführung von
Retrievaltests aufgezeigt wurde, ist es notwendig, die Besonderheiten des Information
Retrieval im Web darzustellen, bevor das Testdesign zur Evaluierung hybrider Suchsysteme
erstellt werden kann. Der Grund hierfür liegt darin, daß sich Information Retrieval im Web
grundlegend vom klassischen Retrieval96 unterscheidet und in dieser Arbeit bislang
Information Retrieval nur allgemein aber nicht internetspezifisch betrachtet wurde.
Die dem Information Retrieval im Internet eigenen Ausprägungen, die im Rahmen dieser
Arbeit von Bedeutung sind, sollen im folgenden in zwei Schritten erschlossen werden.
In einem ersten Schritt sollen dazu die Besonderheiten des Informationsraums Internet
dargestellt werden, um die bei der durchzuführenden Untersuchung zu beachtenden
Eigenheiten herauszuarbeiten.
In einem zweiten Schritt soll dann untersucht werden, wie die Retrievaleffektivität von
Suchmaschinen im Internet bislang evaluiert wurde. Die kritische Betrachtung dieser
bisherigen Suchmaschinenevaluationen soll Hinweise und Ideen - beispielsweise bezüglich
der Möglichkeit zu Übernahme gängiger Testverfahren - für die Gestaltung des Testdesigns
liefern, zugleich aber auch aufzeigen, welche (webspezifischen) Fehler möglichst zu
vermeiden sind.
2.4.1 Informationsraum Internet
Die Unterschiede zwischen dem Internet und "traditionellen Retrievalsystemen" als
Informationssysteme sind erheblich und umfassen mehrere Dimensionen.
94
Siehe http://citeseer.nj.nec.com/brajnik96evaluating.html(10.11.00).
zumindest war in der Literatur eine ähnlich thematisch umfassende und theoretisch fundierte Arbeit nicht zu
finden.
96
Hierunter werden hier primär Online-Datenbanken wie z.B. Infodata, siehe z.B. http://www.fizkarlsruhe.de/onlin_db.html (15.10.00)., aber auch OPACS (Online Public Access Catalogs), siehe
http://nightflight.com/cgi-bin/foldoc.cgi?OPAC (15.10.00). verstanden.
95
Evaluierung hybrider Suchsysteme im WWW
Seite 37
Anführen lassen sich in diesem Zusammenhang vor allem die Faktoren Datenbestand
(Dokumentraum), Hypertextstruktur, Nutzer und die Suchmaschinen selbst.
2.4.1.1 Datenbestand
Das World Wide Web (WWW) hat mittlerweile einen gigantischen Umfang erreicht. Die
relativ aktuelle Schätzung von Cyveillance geht für Juni 2000 von einer Anzahl von über zwei
Milliarden Webseiten aus, im Februar des nächsten Jahres soll die vier Milliarden Grenze
überschritten werden.97
Rechnet man das sogenannte "Invisible Web"98 hinzu, welches vorwiegend aus
Datenbanken besteht, auf die Suchmaschinen nicht zugreifen (können), so läßt sich diese
Anzahl noch vervielfachen.
Dabei sind die Webseiten auf eine sehr hohe Anzahl von Servern verteilt99 und der
Dokumentraum ist sehr dynamisch. Webseiten sind unbeständig, d.h. es werden mit sehr
hoher Frequenz neue Seiten publiziert, aus dem Netz entfernt, bestehende Seiten modifiziert
oder gar erst auf konkrete Anforderung hin generiert.100
Die Daten sind dabei überwiegend semi- bzw. unstrukturiert, dokumentinhärente
Metainformationen stehen, wenn überhaupt, dann meist nur in nichtstandardisierter Form zur
Verfügung. Es existieren verschiedene Medientypen und Formate bei Bild, Text und
Tondaten
wobei
das
Seitenbeschreibungsformat
HTML
in
seinen
verschiedenen
Ausprägungen vorherrschend ist.101 Dazu kommt noch, daß die Präsentation der Information,
abhängig vom benutzten "Ausgabegerät" ist. Hiermit sind zunächst die verwendeten
Browser102 gemeint. Faktoren wie Browsertyp, Browserversion, Bildschirmauflösung,
Farbanzahl, Betriebssystem, aktivierte/nichtaktivierte Features (Java, Javascript, CSS) oder
97
Siehe Alvin Moore, Brian H. Murray, Sizing the Internet, A Cyveillance Study, 2000.
http://www.cyveillance.com/resources/7921S_Sizing_the_Internet.pdf (02.10.00). Eine andere Schätzung vom
Januar 2000 geht von über einer Milliarde Webseiten aus, siehe
http://www1.inktomi.com/webmap/ (20.09.00).
98
Chris Sherman, The Invisible Web, siehe
http://websearch.about.com/internet/websearch/library/weekly/aa061199.htm (11.11.00). Zugang zu diesen
Informationen versucht die Website http://www.invisibleweb.com/ zu verschaffen (11.11.00).
99
Eine Schätzung vom Oktober 2000 geht von etwa 22 Millionen Web-Servern aus, sieh
http://195.92.95.5/Survey/ (11.11.00).
100
Bei Datenbankabfragen z.B., siehe etwa http://www.nethics.net/nethicsforum/Library/findLink.asp?TUSR=
(11.11.00).
101
Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Suchund Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in
der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft,
Konstanz 2000, S.31-48, S.31.
Evaluierung hybrider Suchsysteme im WWW
Seite 38
vorhandene Plug-Ins entscheiden darüber, wie und ob die vorhandenen Informationen
dargestellt werden.103
Ein weiterer wichtiger Punkt ist, daß im Internet weder eine thematische Beschränkung noch
eine Qualitätskontrolle formaler und/oder inhaltlicher Art der Dokumente vorhanden ist.104
Jeder kann alles publizieren.
Momentan dominiert (noch) im Web die englische Sprache.105
Zusammenfassend läßt sich festhalten, daß das Internet und klassische Informationsysteme
in besonderer Weise durch die Heterogenität und Variabilität der Datenbestände im WWW
divergieren.106
2.4.1.2 Hypertextstrukturen im Internet
Das World Wide Web wird durch die Verknüpfungsmöglichkeiten innerhalb und zwischen
Webseiten als weltweite öffentliche Plattform für Hypertext-Projekte strukturiert,107 und stellt
insofern
selbst
ein
Hypertextsystem
dar.108
Dies
wiederum
bedeutet,
daß
der
Informationsgehalt eines Dokumentes sich nicht ausschließlich auf dessen text-, bild- oder
toninhärente Daten bezieht, sondern möglicherweise auch durch die Verweise festgelegt
wird, die vom Dokument ausgehen und sofortigen Zugriff auf weitere Daten erlauben.109
Dies hat wiederum direkte Bedeutung für das Verhalten von informationssuchenden Nutzern.
Im Internet ist eine zielgerichtete Suche auch durch das Verfolgen der vorhandenen
angebotenen Verknüpfungen möglich. Kuhlen schreibt:
"Die früher einmal sich eher strikt auszuschließen scheinenden Domänen des
Information Retrieval (mit dem Such-/Matching-Paradigma) und von Hypertext
102
"Programm, das einen Zugriff auf das World Wide Web im Internet ermöglicht.", siehe
http://www.wissen.de/servlets/de.wissen.tm.DictionaryServlet/NSID-www.wissen.de39a8%3A3a0dc62f%3A68b90b5bd76765?todo=showGermanDict&tid=3610033 (11.11.00).
103
Eine Übersicht über momnetan verwendete Browser und Systeme bietet beispielsweise Webhits, siehe
http://www.webhits.de/webhits/inetstat_d.htm (11.11.00). Hier noch Brwoserarchive einfügen
104
Die Zensurproblematik wird hier vernachlässigt. Informationen dazu finden sich beispielsweise bei Nethics,
siehe http://www.nethics.net/nethics/de/brisant/zensur.html (18.11.00).
105
Ebd.
106
Ebd.
107
Stefan Münz, Hypertext, 1997 siehe http://user.fachdid.fu-berlin.de/Docs/HTXT/htxt613.htm (01.10.00).
108
Addison Wesley Longman, A history of HTML, 1998, siehe http://www.w3.org/People/Raggett/book4/ch02.html
109
"Given the hypertext nature of the Web, maybe partially relevant documents (Spink, Greisdorf, and Bateman
1998) in the top ten were used as a jumping off point to find a relevant one. For example, a user looking for a
faculty member's homepage at a university does not retrieve the faculty's homepage in the top ten but gets the
university homepage. Rather than continue search engine via the searching, the user starts browsing beginning
with the university page." Aus Bernard J. Jansen, Amanda Spink, Tefko Saracevic, Real Life, Real Users, and
Real Needs: A Study and Analysis of User Queries on the Web, siehe
http://jimjansen.tripod.com/academic/pubs/ipm98/ipm98.html (16.10.00).
Evaluierung hybrider Suchsysteme im WWW
Seite 39
(mit dem Browsing-/Navigations-Paradigma) sind längst eine produktive
Symbiose eingegangen."110
Relevante Informationen können also auch durch das Verfolgen der angebotenen
Verknüpfungen (Links) - auch bei an sich irrelevanten Seiten - erschlossen werden.
Insofern sind Internetsuchmaschinen nicht nur danach zu beurteilen, ob und inwieweit die
von ihnen gelieferten Treffer an sich für das Informationsbedürfnis relevant sind, sondern
auch danach, ob die von ihnen gelieferten Trefferseiten dem Nutzer den Zugriff auf die
gewünschte Information durch angebotene Verknüpfungen ermöglichen.
2.4.1.3 Nutzer
Im Internet besitzt die überwiegende Anzahl der Suchmaschinennutzer keine Information
Retrieval Kenntnisse. Insofern unterscheidet sich der typische Nutzerkreis von Internet
Retrieval Systemen in wesentlichen Punkten von professionellen Nutzern klassischer Online
Retrieval Systeme.
Die wichtigsten sind:
Operatoren und "Advanced search Features" werden im Web kaum verwendet, in über 90%
aller Suchanfragen werden Keywords ohne Operatoren eingegeben. Nur ein Drittel der
Nutzer variieren ihre Suchanfrage bei der Recherche. Durchschnittlich werden 1,6
Suchanfragen pro Sitzung und User abgefragt.111
Selten werden mehr als zwei Ergebnisseiten der Suchmaschinen betrachtet.112 Über die
Hälfte der Nutzer sichten nur Ergebnisse der ersten Trefferlistenseite, nur wenig mehr als
20% der Nutzer schauen sich die dritte Trefferlistenseite an.113
Hierin könnte sich auch die Hypertextstruktur des Web bemerkbar machen, indem Nutzer
teilweise relevante Seiten als "Jumping-off Points" zu relevanten Seiten nutzen.114 Das
Browsing Paradigma hat insofern auch direkten Einfluß auf das Suchverhalten der Nutzer.
Körber kommt in seinem Experiment zum Ergebnis, daß auch bei der direkten Nutzung der
110
Rainer Kuhlen, Hypertextifizierung - Zu den methodischen Grundlagen nicht-linear organisierter
Informationssysteme: Text - Kontext - Hypertext, siehe http://www.inf-wiss.unikonstanz.de/CURR/summer98/imk/hypertextgrundlagen.html (30.11.00).
111
Major Bernard J. Jansen, Amanda Spink, Tefko Saracevic, Real Life, Real Users and Real Needs: A study and
Analysis of User Queries on the Web , siehe http://jimjansen.tripod.com/academic/pubs/ipm98/ipm98.html
(23.10.00).
112
Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Suchund Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in
der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft,
Konstanz 2000, S.31-48, S.37. Siehe auch Keywordananlyzer von Suchtreffer unter http://www.suchtreffer.de
(10.11.00).
113
Major Bernard J. Jansen, Amanda Spink, Tefko Saracevic, Real Life, Real Users and Real Needs: A study and
Analysis of User Queries on the Web , siehe http://jimjansen.tripod.com/academic/pubs/ipm98/ipm98.html
(23.10.00).s
114
Ebd.
Evaluierung hybrider Suchsysteme im WWW
Seite 40
Suchmaschinen das Browsingverhalten im Suchprozeß überwiegt.115 Das ist ein deutlicher
Hinweis darauf, daß Retrievaltests im Web, nicht allein auf Relevanzkriterien beschränkt
werden können, die auf der inhaltlichen Analyse von Suchmaschinentrefferseiten basieren.
Um dem tatsächlichen Suchverhalten gerecht zu werden, müssen vielmehr die vorhandenen
Verknüpfungen auf den Ergebnisseiten ebenfalls berücksichtigt werden.
Es läßt sich also festhalten, die typische Art wie Retrievalsysteme im Web genutzt werden,
unterscheidet sich enorm von der Art der Nutzung "traditioneller" Retrievalsysteme. Es gibt
kaum differenzierte Suchanfragen und Strategien, elaborierte Features von Suchmaschinen
werden nur wenig genutzt. Ob dies grundsätzlich aus "Unfähigkeit" geschieht, oder ob
diesem Verhalten andere Gründe wie ein Motivationsmangel der Nutzer116 zugrundeliegt,
kann hier nicht geklärt werden. Sicher ist aber, daß die Retrievaleffektivitätsuntersuchung die
konkrete Art und Weise der Suchmaschinennutzung berücksichtigen muß, damit die
Ergebnisse der Untersuchung auch köharent auf den realen Nutzungskontext bezogen
werden können.
2.4.1.4 Internetsuchmaschinen117
Suchmaschinen lassen sich grob in vier Bestandteile gliedern:118
•
Einem Spider oder Crawler, der das Web traversiert und Seiten zur Indexierung
auffindet.
•
Einer Indexierungskomponente, die die Seiten auswertet, aufbereitet und in einem
Index verwaltet.
•
Einem Benutzerinterface, über das der Benutzer mit dem System kommuniziert und
seine Anfragen formuliert.
•
Einer Retrievalfunktion, die die Suchanfragenformulierung mit dem Index abgleicht
und das Ergebnis an das Benutzerinterface weiterleitet.
Auf einen ersten Blick scheinen Suchmaschinen im Vergleich zu Online-Retrievalsystemen
einfach und weitgehend identisch aufgebaut zu sein.
115
Sven Körber, Suchmuster erfahrener und unerfahrener Suchmachinennutzer im deutschsprachigen World
Wide Web. Ein Experiment, Münster 2000, siehe http://kommunix.unimuenster.de/IfK/examen/koerber/suchmuster.pdf(30.08.00).
116
Barbara Hale, Survey shows web search engines not meeting user needs, 1999, siehe
http://www.eurekalert.org/releases/psu-ssw100499.html (10.10.00).
117
Andere Internetretrievalsysteme wie Kataloge oder Metasuchmaschinen werden in dieser Arbeit nicht
behandelt. Zur typeinteilung siehe beispielsweise C. Oppenheim, A. Morris, C. McKnight, S. Lowley, The
evaluation of WWW search engines, in: Journal of Documentation, Vol. 56 No. 2, March 2000, S.190-211, S.191.
118
Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Suchund Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in
Evaluierung hybrider Suchsysteme im WWW
Seite 41
Im Bereich der Benutzerschnittstelle treten ein einfaches Inputfeld zur Eingabe der Begriffe
und
ein
Pushbutton
zum Starten der Suchanfrage an die Stelle komplizierter
Retrievalsprachen die mittels eines befehlsorientierten Textinterfaces eingegeben werden.119
Insofern erscheinen Suchmaschinen zunächst, gerade in Bezug auf ihren typischen
Nutzerkreis im Internet, benutzerfreundlich konstruiert zu sein. Genau dies täuscht. Wie
Stenmark formuliert "..., the user is left with a search interface consisting of one input field (in
which they have no idea of what to type) and one push button. Hardly hi-tech. Most users
type in a single keyword, click on the button, and hope for the best. It seldom occurs."120
Die Gründe hierfür sind vielfältig.
Zunächst einmal besteht kein Konsens unter Suchmaschinenbetreibern bezüglich der
Interpretation von Anfragen ohne Operatoren. Wolff folgert, daß sich aufgrunddessen kein
allgemein akzeptiertes Interpretationsmodell für Suchanfragen herausbilden kann, was
wiederum zur Folge hat, daß Ergebnisse falsch interpretiert oder nicht verstanden werden.121
Die Intransparenz in bezug auf die Zusammensetzung des Retrievaloutput ist generell das
Hauptproblem bei der Untersuchung der Retrievaleffektivität von Suchmaschinen, denn es
ist fast ausgeschlossen nachzuvollziehen, warum welche Treffer in der jeweils vorgegebenen
Reihenfolge als Ergebnis auf eine Suchanfrage zurückgegeben werden.
Denn es ist unklar, welche Seiten von der jeweiligen Maschine überhaupt gefunden werden
können. Die Suchmaschinebetreiber machen zwar Angaben über die Größe ihrer
Datenbasis, vage bleibt aber aus welchen Webseiten sie konkret aufgebaut ist. Da selbst die
Maschine mit dem größten Index122 nur einen Teil des Web indexiert, kann in keinem Fall mit
Sicherheit davon ausgegangen werden, alle relevanten Dokumente (Webseiten) gefunden
zu haben.123
der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft,
Konstanz 2000, S.31-48, S.35-36.
119
Ein Beispiel für eine Retrievalsprache findet sich unter http://www.FIZ-Karlsruhe.DE/stn/messenger/mctoc.html (15.10.00).
120
Dick Stenmark, To Search is Great, to Find is Greater: a Study of Visualisation Tools for the Web.
http://w3.informatik.gu.se/%7edixi/publ/mdi.htm (13.04.99)
121
Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Suchund Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in
der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft,
Konstanz 2000, S.31-48, S.37.
122
Momentan wird Google als solche bezeichnet siehe http://www.searchenginewatch.com/reports/sizes.html
(15.11.00).
123
Auch nicht durch Metasuchmaschinen, wenngleich diese, zumindest theoretisch, eine höhere Abdeckungsrate
erreichen. Vgl. Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung
von Such- und Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz –
Basiskompetenz in der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für
Informationswissenschaft, Konstanz 2000, S.31-48, S.37.
Evaluierung hybrider Suchsysteme im WWW
Seite 42
Abbildung 1 – aktuelle Angaben zur Indexgrößen von Suchmaschinen124
Insofern ist die Verwendung der Meßgröße Recall im Web hochproblematisch, absolut zu
ermitteln ist sie nicht,125 und die Verwendung von Pooling-Verfahren ist durch die geringe
Überlappung der einzelnen Suchmaschinenindexe126 wenig aussagekräftig.
Die Ausgabe der Treffer erfolgt in der Regel als sortierte Liste, die nach der vermuteten, d.h.
von der Maschine durch Rankingalgorithmen errechneten Relevanz, absteigend sortiert ist.
Da die Benutzer nur die vorderen Rangplätze sichten, sind die Rankingkriterien wohl der
kritische Erfolgsfaktor der Suchmaschinen.127 Sie werden von den Suchmaschinenbetreibern
niemals offengelegt und häufig modifiziert, da sie ansonsten Gefahr laufen von sogenannten
"Spamseiten" überflutet zu werden.128
Faßt man diese beiden Punkte zusammen, so läßt sich nur der Schluß ziehen, daß die
Retrievaleffektivität von Suchmaschinen sich zwar ermitteln läßt, nicht aber auf ihre Faktoren
zurückgeführt werden kann. Eine schlechte Precision z.B. kann sowohl durch das Rankingals auch durch das Indexierungsmethode oder die Spidermethode, bzw. Kombinationen aus
diesen,
124
verursacht
werden.129 In diesem Sinne stellen Suchmaschinen für den
Siehe http://www.searchenginewatch.com/reports/sizes.html (03.04.00).
"...it is impossible to calculate how many potentially relevant items there are for any particular query in the
huge and ever changing web system.", aus: C. Oppenheim, A. Morris, C. McKnight, S. Lowley, The evaluation of
WWW search engines, in: Journal of Documentation, Vol. 56 No. 2, March 2000, S.190-211, S.194.
126
Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Suchund Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in
der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft,
Konstanz 2000, S.31-48, S.35.
127
Martin P. Courtois, Michael W. Berry, Results Ranking in Web Search Engine, in: Online, May 1999, siehe
http://www.onlineinc.com/onlinemag/OL1999/courtois5.html (19.11.00).
128
Altavista, Änderung der Rankingkriterien, siehe http://www.at-web.de/Suchmaschinen-int/Altavista-newRanking.htm (14.11.00).
129
David Hawking, Nick Craswell, Paul Thistlewaite,Donna Harman, Results and Challenges in Web Search
Evaluation, siehe http://www8.org/w8-papers/2c-search-discover/results/results.html (14.10.00).
125
Evaluierung hybrider Suchsysteme im WWW
Seite 43
Untersuchenden eine Blackbox dar, die ausschließlich nach ihrem Output bewertet werden
können.
Suchmaschinen ändern sich andauernd, z.B. in Bezug auf das Benutzerinterface, den Index
und das Ranking. Dies bedeutet wiederum Evaluationen bzw. ihre Ergebnisse haben nur für
kurze Zeit Gültigkeit.130
Für die folgende Untersuchung heißt dies, daß durch Retrievaltests bei Suchmaschinen nur
ein allgemeines Qualitätsurteil gefällt werden kann, welches zudem nur für kurze Zeit
Gültigkeit besitzt.
2.4.1.5 Informationsraum Internet – Schlußfolgerungen
Es wird deutlich, daß die zu beachtenden Eigenheiten des Internet für die durchzuführende
Evaluation von großer Bedeutung sind und sich in der Ausgestaltung der Evaluation bei allen
Parametern, d.h. bei allen Untersuchungsvariablen zu beachten ist.
Zunächst wird offensichtlich, daß die Dokumentbasis nicht zu kontrollieren ist.
Das Browsing Paradigma impliziert eine Anpassung der Ausgestaltung der Maße zur
Effektivitätsmessung, während die anderen nutzerspezifischen Besonderheiten eher bei der
Ausgestaltung der zu kontrollierenden Testparameter zu beachten sind. Die Aussagekraft
der Untersuchung wird sich auf das Gesamtsystem beschränken und zudem nur für kurze
Zeit gültig sein.
2.4.2 Retrievaltests im Internet131
Retrievaltests bei Internetsuchmaschinen durchzuführen, ist inzwischen populär geworden,
dies zeigen nicht zuletzt die relativ aktuellen Beispiele von Tomorrow132 und der Stiftung
Warentest.133
130
C. Oppenheim, A. Morris, C.McKnight, The Evaluation of WWW Search engines, in: Journal of Documentation,
Vol. 56 No. 2 2000, S.190-211, S.193.
131
Einen Überblick über Retrievaltests im Internet ist in ebd. Zu finden.
Im Anhang findet sich unter „Übersicht andere Evaluationen“ eine tabellarische Zusammenstellung beispielhaft
aufgeführter Evaluationen von Intersuchmaschinen und anderen Suchdiensten.
132
O. A., Suchmaschinen, Die besten Suchmaschinen im Test , in Tomorrow, siehe
http://www.tomorrow.de/popup/test.html?v_id=633252 (18.11.00).
133
O. A., Internet Suchmaschinen -Such!, in: Test 08/2000, sieh
http://www.warentest.de/wtest/plsql/sw_test.anzeige_beitrag?kontaktnr=0&tmp_inh_id=18364&tmp_zeitschrift=t&t
mp_ausgabe=8&tmp_jahr=2000.
Evaluierung hybrider Suchsysteme im WWW
Seite 44
In diesem Kapitel sollen anhand der exemplarischen Darstellung von fünf Retrievaltests im
Internet und deren kritischer Betrachtung, konkrete Anhaltspunkte für die Durchführung der
Evaluation gefunden werden. Positive Anhaltspunkte im Sinne einer möglichen Übernahme
von Testverfahren, negative Hinweise im Sinne von Fehlern, die möglichst zu vermeiden
sind.
2.4.2.1 Chu und Rosenthal (1996)134
Chu und Rosenthal unternehmen 1996 den Versuch, ausgehend von einer vergleichenden
Evaluation der Suchmaschinen AltaVista,135 Excite136 und Lycos137 eine Methodologie für die
Evaluation von Suchmaschinen zu entwickeln.
Um die Retrievaleffektivität zu prüfen, verwenden sie 10 Fragen, von denen 9 auf
Informationsbedürfnissen realer Nutzer beruhen und eine eigens für die Untersuchung
konstruierte.
Die
Suchanfragenformulierung
werden
für
jede
Suchmaschine
in
Bezug
auf
Operatorenverwendung angepaßt. Als "Ausgabegeräte" dienen die Browser Netscape und
Lynx. Die Suchen werden mit Hilfe des Standardsuchfelds unter Verzicht der Nutzung von
weitergehenden Suchoptionen durchgeführt. Jeweils die ersten 10 Ergebnisse werden
bewertet.
Meßgrößen sind Precision und Antwortzeit. Bewertet werden die Trefferlisten, nicht die
Ergebnisseiten selbst. Die Untersuchenden nehmen die Relevanzbewertungen selbst vor.
Errechnet wird die durchschnittliche Precision über alle Fragen hinweg.
Aus ihrem Experiment schlußfolgern Chu und Rosenthal, daß folgende Aspekte bei einer
Evaluation von Suchmaschinen beachtet werden müssen:
•
•
134
Index der Suchmaschine:
•
Größe
•
Aktualität
•
Dokumentaufbereitung
Suchmöglichkeiten:
Heting Chu, Marilyn Rosenthal, Search Engines for the World Wide Web: A Comparative Study and Evaluation
Methodology, in: ASIS 1996 Annual Coonference Proceedings, October 19-24 1996, siehe
http://www.asis.org/annual-96/ElectronicProceedings/chu.html (17.10.00).
135
Http://www.altavista.com
136
Http://www.excite.com
137
Http://www.lycos.com
Evaluierung hybrider Suchsysteme im WWW
•
Boolsche Ausdrücke
•
Phrasensuche
•
Trunkierung
•
Einschränkungsmöglichkeiten (z.B. Feldsuche)
•
Seite 45
Retrievaleffektivität:
•
Precision
•
Recall
•
Antwortzeit
•
Ausgabeformat:
•
•
bereitgestellte Optionen
Benutzerfreundlichkeit:
•
Dokumentation
•
Interface
Die Methodologie von Chu und Rosenthal verfolgt einen eher ganzheitlichen Ansatz zur
Bewertung
eines
Retrievalsystems.
Die
Retrievaleffektivität
ist
hierbei
zwar
ein
entscheidender Punkt, es treten aber auch Aspekte hinzu, die eher einer Effizienzbeurteilung
gleichkommen,
beispielsweise
die
Antwortzeit
und
Benutzerfreundlichkeit.
Da
Effizienzaspekte in dieser Arbeit nicht betrachtet werden ist diese Methodologie hier nicht
von Belang.
Das Testdesign selbst scheint nicht sehr elaboriert entworfen zu sein.
Denn die Untersuchenden sind gleichzeitig diejenigen, von denen die Suchanfragen
stammen und die die Beurteilung der Relevanz der Dokumente vornehmen. Auch die
Bewertung der Trefferlisten an sich und nicht der einzelnen Trefferdokumente kann
Verzerrungen nach sich ziehen, da nicht sichergestellt ist, daß die Trefferlisten die
Dokumente korrekt repräsentieren, oder daß die Dokumente überhaupt existieren.
Dies zeigt, daß der hohe Anspruch an eine Methodik zur Evaluation von Suchmaschinen von
Chu und Rosenthal selbst durch die durchgeführte Untersuchung konterkarriert wird.
Insofern ist diese Untersuchung eher ein Beispiel dafür, welche Fehler vermieden werden
sollen, als ein Beispiel dafür, welche Vorgehensweisen übernommen werden können.
Evaluierung hybrider Suchsysteme im WWW
Seite 46
2.4.2.2 Leighton und Srivastava (1997)138
Der Retrievaltest von Leighton und Srivastava vergleicht mittels 15 Suchanfragen fünf
Suchmaschinen in Bezug auf die Top20 Precision.
Bezugnehmend auf ihre Analyse anderer Evaluationen kritisieren sie vor allem die zu kleinen
Testsets - besonders die Anzahl der verwendeten Suchanfragen - aber ebenso die
intransparente oder fehlende Darstellung der Untersuchungsmethodik bei den meisten
bisherigen Retrievaltests im Internet. Dies seien die Hauptgründe dafür, daß verschiedene
Tests
zu unterschiedlichen Aussagen bezüglich der Retrievaleffektivität einzelner
Suchmaschinen gelangten.
Um dies zu vermeiden, sei es notwendig das Testdesign so zu entwickeln, daß keiner der
untersuchten Suchdienste "unfair" bevorteilt wird.
Beispielsweise sollen die Suchanfragen möglichst zum gleichen Zeitpunkt durchgeführt
werden, so daß keine Maschine einen "Indexierungsvorteil" aufzuweisen vermag. Ebenso
sind die Ergebnisse so schnell wie möglich lokal zu speichern, damit Veränderungen im Web
sich nicht in den Testergebnissen niederschlagen können.
Das Evaluationsverfahren wird so aufgebaut, daß die Relevanzkriterien vor der
Relevanzbeurteilung schriftlich definiert werden. Die Relevanzbeurteilung aber auch in dieser
Unterschung von den Untersuchenden selbst vorgenommen. Die Ergebnisseiten werden so
aufbereitet, daß deren Herkunft nicht mehr zu ermitteln sein soll. D.h. sie werden mittels
eines Perl Programms lokal abgelegt und in einem Texteditor auf Relevanz geprüft.
Die Kategorien für die Relevanzbeurteilung werden differenziert gefaßt und exakt definiert:
•
duplicate links
•
inactive links
•
irrelevant links
•
technical relevant links
•
potentially useful links
•
most probably useful links
Beispielsweise werden Seiten dann als Duplikate bewertet, wenn sie identische Urls
aufwiesen. Seiten, die identisch sind, aber auf anderen Servern liegen, werden aber nicht als
138
H. Vernon Leighton, Jaideep Srivastava, Precision among World Wide Web Search Services (Search
Engines):Alta Vista, Excite, HotBot, Infoseek, Lycos, 1997, siehe
http://www.winona.msus.edu/library/webind2/webind2.htm
Evaluierung hybrider Suchsysteme im WWW
Seite 47
Duplikate gewertet. Ob und Inwieweit dies, bzw. ob überhaupt, der Relevanzbeurteilung
eines typischen Nutzers entspricht, ist unklar.
Grundsätzlich bleibt zu fragen, inwieweit eine solche Ausdifferenzierung sinnvoll sein kann,
bzw. überhaupt den möglichen Formen von Dubletten gerecht wird,139 oder ob diese
Problematik nicht vielmehr vom subjektiven Nutzungskontext abhängig ist.
2.4.2.3 Gordon und Pathak (1998)140
Gordon und Pathak liefern ebenfalls einen Überblick über Retrievaltests im Internet. Zugleich
listen sie sieben Punkte auf, die bei einer akkuraten Evaluation zu beachten seien. Diese
sind:
1.Die Suchanfragen sollen auf zugrundeliegenden Informationsbedürfnissen beruhen.
2.Der Kontext der Informationsbedürfnisse soll so soweit wie möglich erfaßt und
formuliert werden.
3.Die Anzahl der Suchanfragen muß "ausreichend" groß sein.
4.Die Untersuchung soll die wichtigsten Suchmaschinen einbeziehen.
5.Die
Ermittlung
der
Retrievaleffektivität
Retrievalfähigkeiten/-features
141
soll
unter
Ausnutzung
aller
der jeweiligen Suchmaschine geschehen.
6.Die Relevanzentscheidung soll von denjenigen getroffen werden, die das
Informationsbedürfnis haben. Der Untersuchende darf keinesfalls selbst das
Relevanzurteil fällen.
7.Das Testdesign selbst soll sorgfältig ausgearbeitet sein.
Dieser Forderungskatalog zeigt zugleich die Hauptkritikpunkte, die Gordon und Pathak an
anderen Evaluationen bemängeln.
Zunächst kritisieren sie, daß bei anderen Tests Suchanfragen benutzt werden, denen kein
reales Informationsbedürfnis zugrundeliegt. Häufig werden die Suchanfragen eher willkürlich
von den/dem Untersuchenden festgesetzt.142
Die Verwendung identischer Suchanfragen bei verschiedenen Suchmaschinen, wird kritisiert,
weil sie den unterschiedlichen Fähigkeiten der Suchmaschinen nicht gerecht wird und somit
139
Man denke beispielsweise an Seiten, die ein unterschiedliches Format bei identischen Inhalt haben:
Ein Benutzer der keinen "framefähigen" Browser besitzt, ist vielleicht auf die "normale" Version angewiesen, weil
die andere Version für ihn nicht zugänglich ist.
140
Michael Gordon, Praveen Pathak, Finding Information on the World Wide Web: the retrieval effectiveness of
search engines, in: Information Processing and Management (35) 1999, S.141-180, S.145-149.
141
Z.B in Bezug auf Advanced Search Features wie Feldsuche usw. siehe beispielsweise
http://www.altavista.com/cgi-bin/query?pg=ps (18.11.00).
142
Beispielsweise G. Westera, Robot-driven search engine evaluation overview, 1996 siehe
http://lisweb.curtin.edu.au/staff/gwpersonal/senginestudy/ (18.11.00).
Evaluierung hybrider Suchsysteme im WWW
Seite 48
kein Urteil über die erreichbare Retrievaleffektivität erlaubt, obwohl zugestanden wird, daß
dies eine Möglichkeit ist, das tatsächliche Verhalten der Suchmaschinennutzer nachzubilden.
In der Mehrzahl der angeführten Evaluationen143 wird das Relevanzurteil durch die
Untersuchenden gefällt. Hier wird das Relevanzproblem angesprochen. Auch unabhängige
Juroren können nur semantische oder gar nur syntaktische Relevanzurteile fällen. Werden
also Juroren verwendet, so bleibt der personenbezogene Handlungskontext - der
pragmatische Primat - unberücksichtigt
Die Analyse von Gordon und Pathak zeigt also, zumindest aus der Sicht ihres normativen
Kriterienkatalogs eklatante methodische Schwachpunkte in der Mehrzahl der betrachteten
Retrievaltests auf.
Um ihrem Anspruch gerecht zu werden, wird ein Retrievaltest durchgeführt, der unter
Beachtung der erstellten Kriterien ein "objektives" Urteil über die Retrievaleffektivität
gewährleisten soll.
Dieses Experiment ist wie folgt aufgebaut:144
Informationsbedürfnisse:
Die Informationsbedürfnisse werden durch die Befragung von 36 Studenten gewonnen. Sie
werden dazu auf einem Formular schriftlich ausformuliert.
Ausgewählte Suchdienste:
Es werden Altavista, Excite, Infoseek, Open Text, HotBot, Lycos, Magellan und Yahoo
ausgewählt. Diese Auswahl soll die wichtigsten Suchdienste - sowohl in Bezug auf
Nutzungsgrad als auch auf verwendete Retrievaltechniken - repräsentieren.
Sucher:
Zur Durchführung der Suchanfragen werden Experten herangezogen, das Kriterium für die
Auswahl ist die fachliche Ausbildung.
Durchführung der Suchanfragen:
Die Sucher versuchen unter Vorlage der schriftlich ausformulierten Informationsbedürfnisse
die in Bezug auf die verwendete Suchmaschine jeweils beste Suchanfrage zu formulieren,
so daß sich unter den ersten 200 Ergebnissen möglichst viele relevante Dokumente
befinden. Die Suchanfragen werden so oft verändert und variiert, bis das "beste" Ergebnis
143
Michael Gordon, Praveen Pathak, Finding Information on the World Wide Web: the retrieval effectiveness of
search engines, in: Information Processing and Management (35) 1999, S.141-180, Tabelle 1 S.148.
144
Ebd., S.149-152.
Evaluierung hybrider Suchsysteme im WWW
Seite 49
vorliegt. Die Ergebnisse werden in der richtigen Reihenfolge lokal gespeichert. Die Dauer für
die Durchführung der Suchanfragen variiert dabei jeweils von einem bis zu zwei
Arbeitstagen.
Beurteilungen:
Jeweils die Top20 Ergebnisseiten werden ausgedruckt und in zufälliger Reihenfolge den
Personen zur Beurteilung vorgelegt, die das Informationsbedürfnis formuliert haben. Die
Relevanzeinstufung erfolgt mittels einer Skala mit vier Abstufungen: sehr relevant, etwas
relevant, etwas irrelevant, sehr irrelevant.
Auswertung:
Bewertungsmaße sind Recall und Precision. Und obwohl nur jeweils die ersten 20
Dokumente explizit ausgewertet werden, wird unter Zuhilfenahme von Treffern die bei
verschiedenen Maschinen mehrfach auftreten, die Precision und Recall Werte auf alle 200
Dokumente extrapoliert. Insgesamt wird die Precision bei verschiedenen Cut-Off-Werten
berechnet und die Relevanzurteile binär in relevant oder nicht-relevant zusammengefaßt.
Schließlich werden die Ergebnisse statistisch mittels einer Varianzanalyse abgesichert.
Wie ist der Retrievaltest von Gordon und Pathak nun zu bewerten?
Erstens ist festzuhalten, daß sie mit ihrem siebenstufigen Punktekatalog normative Kriterien
aufstellen, und aufgrund dieser Kriterien andere Evaluationen als eher inadäquat beurteilen.
Zugleich versuchen sie in einer eigenen Evaluation dem selbsterstellten Anspruch gerecht zu
werden.
Zuerst ist zu klären, inwieweit der Punktekatalog für die Durchführung von Retrievaltests
hilfreich
scheint.
Die
ersten
beiden
Punkte,
die
Bezugnahme
auf
existierende
Informationsbedürfnisse, stellen sicher, daß die Retrievaleffektivität auch anhand realer und
nicht bloß hypothetischer Fragestellungen überprüft wird.
Die Anzahl der Suchanfragen ist mit mindestens 25 bzw. 50 angemessen hoch zu stellen um
eine verallgemeinerungsfähige Aussagekraft zu erreichen.145 Die ingesamt 36 Suchanfragen
scheinen dieses Kriterium zu erfüllen.
Das gezielte Ausreizen aller Fähigkeiten der jeweiligen Suchmaschine ist in der Tat
geeignet, die erreichbare Retrievaleffektivität zu ermitteln. Fraglich bleibt aber, ob diese bei
der realen "normalen" Nutzung im alltäglichen Gebrauch auch erreicht wird. Die Beurteilung
145
Schäuble spricht von mindestens 50. Peter Schäuble, Eurospider Suchsystem für die ETH Zürich, siehe
http://www.awu.id.ethz.ch/~input/input09/eurospider.html (16.10.00). Mindestens 25 besser 50 laut TREC, vgl.
Chris Buckley, Ellen M. Voorhees, Evaluating Evaluation Measure Stability, in: SIGIR 2000, The 23rd Annual
Evaluierung hybrider Suchsysteme im WWW
Seite 50
der Dokumente durch die Personen, die das Informationsbedürfnis verspüren, ist sinnvoll.146
Unsicher bleibt aber, ob die individuell formulierten Informationsbedürfnisse, als auch die
individuellen Ergebnisbewertungen repräsentativ sein können, bzw. wie dies sichergestellt
werden kann.
Kann in diesem Retrievaltest der selbsterstellte Anspruch auch eingelöst werden?
Ein erster möglicher Kritikpunkt betrifft die formulierten Informationsbedürfnisse. Sind diese
wirklich repräsentativ? Oder ist es möglich, daß Informationsbedürfnisse, die von 36
Mitgliedern der faculty "Computer and Information Systems" der "University of Michigan" in
Bezug auf Themenbereich, -spektrum und -komplexität die Realität unzureichend
repräsentieren und deshalb nicht zu verallgemeinern sind? Diese Problematik findet keine
explizite Erwähnung, insofern bleibt unbestimmt, ob sich die Ergebnisse des Tests
generalisieren lassen.
Ein weiterer Kritikpunkt betrifft die Art der Testanordnung. Gordon und Pathak betonen den
objektiven Charakter ihrer Evaluation damit, daß die Informationsbedürfnisse und
Bewertungen von denselben Personen stammen, vergessen aber in Betracht zu ziehen, daß
gerade durch die Hinzunahme professioneller Rechercheure, das den Zielpersonen
präsentierte Ergebnis verzerrt bzw. vorzensiert sein kann.
Es scheint unrealistisch, in Bezug auf den realen Nutzungskontext, ein oder zwei Arbeitstage
auf die Formulierung der "optimalen" Suchanfrage zu verwenden. Viel gravierender ist aber,
daß bei der interaktiven Modifikation/Variation der Suchanfragen, das von der Maschine
gelieferte Zwischenergebnis, jeweils vom Rechercheur auf Relevanz hin beurteilt werden
muß, ohne daß die Zielperson bei abweichender Meinung das Retrievalergebnis vorzeitig für
hinreichend/optimal erklären kann. Die finalen Ergebnisse der Suchmaschinen sind also
quasi vorzensiert. Theoretisch besteht die Möglichkeit, das ein "Zwischenergebnis" für die
Zielperson besser geeignet gewesen wäre. Folglich können Gordon und Pathak ihren
eigenen "Objektivitätsanspruch" nicht einlösen.
Ebenso bleibt zu fragen, inwieweit die Ergebnisse der Top20-Precison auf die Top200
Ergebnisse hochgerechnet werden können, bzw. warum überhaupt gerade 200 Dokumente
die Grenze für die Anzahl der auszuwertenden Dokumente darstellen sollen.
Ein weiterer Problembereich ist die Annahme, die Zielpersonen könnten die Relevanz von
Internetseiten anhand eines Ausdruckes derselben beurteilen. Dies gilt, wenn überhaupt,
International ACM SIGIR Conference on Research and Development on Information Retrieval, July 24-28 2000,
S.33-40, S.33.
146
Vgl. 2.2.11
Evaluierung hybrider Suchsysteme im WWW
Seite 51
dann nur für nicht interaktive Webseiten. Bei dynamischen Seiten ist es leicht möglich, daß
die Darstellung schon je nach verwendeten Browser147 variiert. Bei Ausdrucken von
Webseiten gehen zwangsläufig alle dynamischen Elemente verloren. Auch dieser
Problembereich wird bei Gordon und Pathak ignoriert.
Als Fazit läßt sich festhalten: Die Evaluation von Gordon und Pathak ist einerseits
durchdacht und das methodische Vorgehen begründet. Aber der selbsterhobene Anspruch
von Objektivität kann nicht eingelöst werden. Einerseits bleiben viele Fragen offen, d.h.
Problembereiche
werden
nicht
gesehen
oder
vernachlässigt,148
andererseits
ist
anzuzweifeln, ob die Testanordnung wirklich geeignet ist, die Neutralität der Ergebnisse
sicherzustellen.149
Es ist also wichtig, bei der durchzuführenden Evaluation, insbesondere bei der
Testanordnung, jeden Schritt und Faktor bezüglich verzerrender Einflüsse zu überdenken
und auf etwaige Einflüsse, die sich abträglich auf die Validität und Reliabilität auswirken
könnten, hinzuweisen.
2.4.2.4 Wolff (2000).150
Wolff führt im Wintersemester 1999/2000 in einer Lehrveranstaltung zum Thema Information
Retrieval eine Evaluierung von Suchmaschinen (AltaVista151, Northernlight152) und
Metasuchmaschinen (Metacrawler153, C4154) durch. Der Retrievaltest ist in Form eines
zweistufigen "Paper and Pencil" Experiments aufgebaut.
Testpersonen sind die 25 Studenten des Kurses. Sie werden gebeten, für je ein persönliches
fachspezifisches und ein persönliches nichtfachspezifisches Informationsbedürfnis, drei
Suchanfragen zu formulieren. Eine Suchanfrage unter Verwendung von Operatoren, eine als
natürlichsprachigen Text und eine als boolschen Ausdruck.
147
Bzw. benutzten Optionen, wie Javascript, Java oder Plug-ins wie Flash. Ein Beispiel ist die Homepage der
Deutschen Bank, siehe http://www.deutsche-bank.de (18.11.00).
148
Vgl. das Relevanzurteil anhand von Ausdrucken, oder die (hinreichende?) thematische Bandbreite der
Informationsbedürfnisse.
149
Es ist leicht denkbar, daß die den Testpersonen vorgelegten "bestmöglichen" Ergebnisse der Suchmaschinen,
eher von den Fähigkeiten (einerseits fachlich, aber vor allem auch bezüglich der "richtigen" Relevanzeintsufung
durch den Rechercheur) der Rechercheure als von den Retrievalmechanismen der Suchdienste abhängig waren.
150
Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Suchund Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in
der R Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft,
Konstanz 2000, S.31-48, S.38-42.
151
Siehe http://www.altavista.com (18.11.00).
152
Siehe http://www.northernlight.com (18.11.00).
153
Siehe http://www.metacrawler.com (18.11.00).
154
Siehe http://www.c4.com (18.11.00).
Evaluierung hybrider Suchsysteme im WWW
Seite 52
Diese Anfragen werden nach einer Fehlerbereinigung vom Untersuchungsleiter in die
Suchdienste eingegeben.
Die Auswahl der Suchdienste erfolgt unter den Gesichtspunkten, jeweils einen schon länger
und einen erst seit kurzem verfügbaren Suchdienst jeder Art zu testen. Auswahlkriterien sind
der
Umfang
des
Index
(Suchmaschinen),
Operatorenkompatibilität
und
Anzahl
angesprochener Suchmaschinen (Metasuchmaschinen).
Es werden jeweils die ersten 30 Ergebnisrepräsentationen, die Trefferseiten der
Suchdienste, gesichtet.
Zur
Bewertung
wird
diese
Dokumentmenge
zusammengeführt.
Da
nur
die
Dokumentrepräsentationen der Suchdienste, nicht aber die Dokumente selbst bewertet
werden können, wird zur Beurteilung die Relevanzstufe "vielleicht relevant", neben den
Bewertungstufen "relevant" und "nicht relevant" hinzugefügt.
Berechnet werden Top10 und Top30 Precision und Recall als Anteil der nachgewiesenen
relevanten Dokumenten zur Anzahl aller relevanten Dokumente in den zusammengeführten
Ergebnissen.
Die von Wolff verwendete Methodik umgeht also das Problem der Einschaltung von
Intermediären im Suchprozeß dadurch, daß die Suchanfragenformulierung von den
Testpersonen selbst vorgenommen werden.
Die Verwendung der Trefferlisten der Suchmaschinen als Grundlage zur Beurteilung der
Relevanz der einzelnen Dokumente scheint allerdings problematisch. Erstens wird dadurch
impliziert, daß die angegebenen Metainformationen die Seiteninhalte korrekt und hinreichend
wiedergeben und zweitens wird das Problem der Aktualität der Suchmaschinentrefferlisten
ignoriert, beispielsweise bezüglich Webseiten, die zwar relevant sein könnten, aber nicht
mehr
existieren.
Dieses
Problem
wird
auch
durch
die
Vergabe
eines
Relevanzbeurteilungsgrades "vielleicht relevant" nicht gelöst.
Das bedeutet, es ist wahrscheinlich, daß die Ergebnisse dieser Untersuchung "positiv"
verzerrt sind, weil solche Fehler der Suchmaschinen nicht erkannt werden. Bezogen auf die
durchzuführende Evaluation folgt daraus, daß wenn möglich die gelieferten Webseiten selbst
und nicht ihre "Repräsentationen" auf den Trefferlisten der Suchmaschinen, auf Relevanz
geprüft werden sollen.
Evaluierung hybrider Suchsysteme im WWW
Seite 53
2.4.2.5 ZDLabs (2000).155
In der von der Suchmaschine AltaVista in Auftrag gegeben Evaluation, untersuchen die
ZDLabs die Suchdienste Google,156 DirectHit,157 Fast,158 AltaVista,159 Northern Light160 und
Yahoo161 auf ihre Retrievaleffektivität.
Das Testdesign ist so aufgebaut, daß an jeden Suchdienst jeweils fünf Suchanfragen
verschiedener
Art
aus
fünf
Themenbereichen
(Sport,
Geschäftsbereich,
Reisen,
Finanzierung und Shopping) gestellt werden.
Die Suchanfragesyntax wird dabei variiert.
Es wurden Suchanfragen als:
•
Natürlichsprachige Anfragen
•
Einwortanfragen
•
Mehrwortanfragen
•
Mehrwortanfragen unter Verwendung von Operatorenkompatibilität
•
sogenannte "Home Page Target" Anfragen
durchgeführt.
Die jeweils ersten 10 Ergebnisse der Suchmaschinenergebnislisten werden auf Relevanz hin
bewertet und zur Ergebnisanalyse ein differenziertes Punktesystem genutzt. Relevante
Treffer bekommen 1 Punkt, wenn sie tatsächlich existieren werden 0,5 Bonuspunkte
vergeben, ebenso 2 Bonuspunkte, wenn der erste Treffer relevant ist und 1 Bonuspunkt,
wenn der zweite Treffer als relevant beurteilt wird.
Zusätzlich wird die Mächtigkeit der Suchdienste in Bezug auf vorhandene Retrievaloptionen
wie Feldsuche verglichen.
Bei der Beurteilung dieser Evaluation ist zunächst zu kritisieren, daß die Methodik des
Testverfahrens bezüglich der Auswahl der Fragen und der Relevanzbeurteilung nicht
dargestellt wird. Durch diese Intransparenz kann nicht nachvollzogen werden, inwieweit die
Evaluation den Erfordernissen von Validität und Reliabilität entspricht. Interessant ist
155
ZDLabs, AlatVista Web Search Site Evaluation, 2000, siehe
http://www.zdnet.com/etestinglabs/reports/altavista.pdf (06.10.00).
156
Http://www.google.com
157
Http://www.directhit.com
158
Http://www.alltheweb.com/
159
Http://www.altavista.com
160
Http://www.northernlight.com
161
Http://www.yahoo.com
Evaluierung hybrider Suchsysteme im WWW
allerdings
der
durchgeführte
Vergleich
verschiedener
Seite 54
Suchanfragenformulierungen.
Allerdings läßt sich kein Schluß auf eine "optimale" Suchanfrageformulierung ziehen, da die
zugrunde gelegten Informationsbedürfnisse bei jeder Formulierungsart unterschiedlich162
waren.
Ein wichtiger Punkt stellt die Verwendung sogenannter "Home Page Target" Suchanfragen
dar. Beispielsweise steht die Suchanfrage "IBM" für das Informationsbedürfnis "Finde die
Homepage der Firma IBM". Dies ist ein Informationsbedürfnis, das durch das Auffinden der
einen relevanten Antwort befriedigt werden kann. In diesem Retrievaltest wurden also auch
geschlossene Fragestellungen miteinbezogen. Die Frage stellt sich also, ob es sinnvoll ist,
geschlossene Fragestellungen in die Evaluation miteinzubeziehen, oder ob es legitim ist, wie
bei den Ad Hoc und Small Web Topics bei TREC darauf zu verzichten.163
2.4.2.6 Retrievaltests im Internet – Schlußfolgerung
Die exemplarische Analyse der Literatur von Retrievaltests im Internet zeigt enorme
methodische Unterschiede hinsichtlich der betrachteten Evaluationen auf. Die Probleme sind
vielfältig, und lassen sich prinzipiell auf drei Bereiche zurückführen:
•
Mangelnde Transparenz bezüglich des Testdesigns
•
Ungenügende Neutralität des Testdesigns
•
Zu geringe Anzahl von Suchanfragen
Die mangelnde Transparenz zeigt sich daran, daß bei Retrievaltests die Methodik der
Untersuchung, vor allem in Bezug auf die qualitative Ausgestaltung einzelner Testparameter,
nicht oder nur unvollständig offengelegt wird. Somit kann nicht nachvollzogen werden,
inwieweit die Ergebnisse der jeweiligen Untersuchung der Forderung nach Validität und
Reliabiltät gerecht werden.164
Daraus ist zu folgern, daß bei der durchzuführenden Evaluation versucht werden muß, alle
Einflußfaktoren und jeden vorzunehmenden Schritt offenzulegen, damit die erzielten
Ergebnisse nachvollzogen und auch überprüft werden können.
Die oftmals ungenügende Neutralität von Testdesigns zeigt sich darin, daß verzerrende
Einflüsse nicht erwähnt oder beachtet werden, oder gar, wie bei Gordon und Pathak, das
162
ZDLabs, AlatVista Web Search Site Evaluation, 2000, siehe
http://www.zdnet.com/etestinglabs/reports/altavista.pdf (06.10.00), S.5.
163
Die verwendeten Topics bei TREC können unter http://TREC.nist.gov/data/topics_eng/index.html (18.11.00).
heruntergeladen und eingesehen werden.
164
Vgl. Kapitel 2.4.2.5.
Evaluierung hybrider Suchsysteme im WWW
Seite 55
verwendete Verfahren fälschlicherweise für objektiv gehalten wird. Deshalb muß im
folgenden versucht werden favorisierende Einflüsse auszuschließen.165
Beispielsweise sind nicht die Ergebnislisten der Suchmaschinen, sondern die Treffer selbst
zu bewerten, dies darf keinesfalls durch den Untersuchenden selbst geschehen, vielmehr
sind geeignete Testpersonen zu rekrutieren. Um auch bei den Probanden Vorlieben oder
Abneigungen in Bezug auf einzelne Suchmaschinen zu neutralisieren, ist die Herkunft der
Treffer unkenntlich zu machen.
Die Suchanfragen sind innerhalb eines möglichst kleinen Zeitraums durchzuführen, um
"Indexierungsvorteile" weitgehend auszuschließen.
Die Anzahl der Suchanfragen ist häufig sehr gering.166 In der nachfolgenden Evaluation soll
sichergestellt werden, daß eine hinreichend große Menge, d.h. 50
167
Suchanfragen,
verwendet wird.
Die drei genannten Problemfelder machen deutlich, daß das Kernproblem von Retrievaltests
im Web darin besteht, daß bislang keine Standardverfahren ähnlich TREC zur Verfügung
stehen.
Deshalb ist im weiteren Vorgehen vor allem darauf zu achten, die Implikationen der
einzelnen Faktoren und Parameter des durchzuführenden Retrievaltests so weit als möglich
aufzuführen und offenzulegen und auch auf durch sie verursachte Beschränkungen
hinzuweisen. Keinesfalls ist ein Objektivitätsanspruch zu reklamieren, der nicht einzulösen
ist.
2.5 Theoretischer Teil – Zwischenergebnis
Ziel des theoretischen Teils dieser Arbeit ist es, das methodische Vorgehen bei der
Untersuchung der Retrievaleffektivität ausgewählter deutschsprachiger Suchmaschinen zu
165
C. Oppenheim, A. Morris, C.McKnight, The Evaluation of WWW Search engines, in: Journal of Documentation,
Vol. 56 No. 2 2000, S.190-211, S.193.
166
Dania Bilal vewendet in ihrer Untersuchung der Retrievaleffktivität der Suchmaschinen Yahooligans!, Ask
Jeeves for Kids und Super Snooper beispielsweise nur ein Informationsbedürfnis,
"how long does an alligator live in the wild and how long in captivity"
und kreiert daraus drei Suchanfragen, vgl. Dania Bilal, Web Search Engines for Children, A Comparative Study
and Performance Evaluation of Yahooligans!, Ask Jeeves for Kids, and Super Snooper, Proceedings of the 62nd
ASIS Annual Meeting, 36, October 31-Nov. 4, 1999, Washington, D.C. (pp. 70-82).
Richard Einer Peterson benutzt in seiner Evaluation nur zwei Suchanfragen,
"Embargo" und
"Woodrow Wilson´ s Forteen Points
vgl. Richard Einer Peterson, Eight Internet Search Engines Compared, 1996, siehe
http://www.firstmonday.dk/issues/issue2_2/peterson/index.html (19.10.00).
167
Peter Schäuble, Eurospider Suchsystem für die ETH Zürich, siehe
http://www.awu.id.ethz.ch/~input/input09/eurospider.html (16.10.00). Chris Buckley, Ellen M. Voorhees,
rd
Evaluating Evaluation Measure Stability, in: SIGIR 2000, The 23 Annual International ACM SIGIR Conference
on Research and Development on Information Retrieval, July 24-28 2000, S.33-40, S.33.
Evaluierung hybrider Suchsysteme im WWW
Seite 56
entwickeln. Es folgt eine Zusammenfassung der in den vergangenen Kapiteln erarbeiteten
Erkenntnisse.
Es wird ersichtlich, daß die Untersuchung der Retrievaleffektivität von Retrievalsystemen ein
komplexes Themengebiet ist, dem kein theoretisch abgesichertes Fundament zugrundeliegt.
Die zugrundeliegende Vorgehensweise ist zwar klar, Anfragen an das zu testende
Retrievalsystem zu stellen und dann den Output des Systems zu beurteilen. Aber aufgrund
der Problematik der adäquaten quantitativen und qualitativen Ausgestaltung der Parameter
von Evaluationen, existiert kein normativ allgemeingültiges Verfahren, welches ein
"objektives" Ergebnis sicherstellt.
Zwar ist mit den TREC Konferenzen inzwischen eine Standardplattform zur Evaluation von
Retrievalsystemen vorhanden, die dort verwendeten Verfahren können aber aufgrund der
Unterschiede des Information Retrieval im Internet, nicht einfach übertragen werden, weil
dadurch
die
webspezifischen
Eigenheiten,
bezüglich
Dokumentraum,
Nutzer,
Nutzungskontext, Browsingparadigma usw., nicht hinreichend berücksichtigt werden
würden.168
Um die folgende Evaluation bezüglich der quantitativen und qualitativen Ausgestaltung der
Testparameter im Kontext des Untersuchungsrahmens trotzdem möglichst objektiv
durchzuführen zu können, ist die Evaluation methodisch der von Tague-Sutcliff entwickelten
prinzipiellen Vorgehensweise nachzubilden. Das bedeutet, das konkrete Evaluationssetting
ist in den zehn vorgeschlagenen Schritten zu entwickeln.
Dabei sind bei der quantitativen und qualitativen Ausgestaltung der Testparameter die
spezifischen Eigenheiten des Web bezüglich Datenbestand, Hypertextstrukturen, Nutzer,
Nutzungskontext und der Internetsuchmaschinen selbst so zu berücksichtigen, daß den
tatsächlichen Gegebenheiten des Information Retrieval im Internet, z.B. bezüglich
Informationsbedürfnissen, Suchanfragen, Relevanzbeurteilungen usw. möglichst exakt
entsprochen wird.
Deshalb ist zu versuchen, die Evaluation
•
transparent zu gestalten, damit die Ergebnisse nachvollzogen und überprüft
werden können, d.h. die Evaluation ist in allen Punkten zu dokumentieren, alle
168
Siehe Kap. 2.4.1.
Craswell Bailey und Hawking bezweifeln ebenfalls die "Angessenheit" von TREC Verfahren für die Evaluation von
Internetsuchmaschinen, vgl. Nick Craswell, Peter Bailey, David Hawking, Is it fair to evaluate web systems using
TREC ad hoc methods?, siehe http://pastime.anu.edu.au/nick/pubs/sigir99ws.ps.gz (02.11.00).
Evaluierung hybrider Suchsysteme im WWW
Seite 57
Entscheidungen müssen festgehalten und Faktoren, die die Aussagekraft der
Untersuchung beschränken, genannt werden.
•
gegen verzerrende Einflüsse abzusichern, d.h. insbesondere:
•
die Relevanzbeurteilungen dürfen nicht vom Untersuchenden vorgenommen
werden.
•
es müssen die Ergebnisseiten und nicht die Trefferlisten bewertet werden
•
die Herkunft der Trefferseiten ist unkenntlich zu machen
•
die Informationsbedürfnisse und Suchanfragen dürfen nicht willkürlich erstellt
werden
•
die Suchanfragen selbst müssen bezüglich Syntax, Themenbereich und komplexität die Realität der Nutzung von Suchmaschinen widerspiegeln
•
mit einer hinreichenden Anzahl von Suchanfragen durchzuführen, d.h. es sind
mindestens 50 Suchanfragen zu verwenden.169
Das Ziel das erreicht werden soll, ist, qualifizierte Aussagen über die Retrievaleffektivität der
untersuchten Suchmaschinen treffen zu können.
Dabei ist klar, daß Aussagen nur bezüglich der Leistungsfähigkeit der Gesamtsysteme
getroffen werden können. Die Auswirkungen einzelner systemimmanter Komponenten auf
die Retrievaleffektivität können nicht geklärt werden. Der Zeitraum für die Gültigkeit der
Ergebnisse ist sehr begrenzt. Durch die andauernden Veränderungen im Web und bei den
Suchmaschinen selbst ist das Ergebnis im Prinzip nur für den Zeitraum der Untersuchung
selbst gültig.
Wichtig ist ebenfalls festzuhalten, daß die hier verwendete Vorgehensweise keinerlei
Anspruch darauf erhebt, die einzig mögliche Form eines "objektiven" Evaluationsverfahrens
im
Untersuchungskontext
darzustellen.
Vielmehr
ist
sie
nur
als
ein
mögliches
Untersuchungsverfahren zur Ermittlung der Retrievaleffektivität von Suchmaschinen im
Internet zu sehen.
169
Peter Schäuble, Eurospider Suchsystem für die ETH Zürich, siehe
http://www.awu.id.ethz.ch/~input/input09/eurospider.html (16.10.00). Chris Buckley, Ellen M. Voorhees,
Evaluating Evaluation Measure Stability, in: SIGIR 2000, The 23rd Annual
Evaluierung hybrider Suchsysteme im WWW
Seite 58
3. Praktischer Teil - Durchführung der Evaluation
Zur Durchführung der Evaluation sind vier Schritte zu durchlaufen.
An erster Stelle ist das Evaluationssetting auszugestalten. Dies soll durch sequentielles und
adaptives170 Abarbeiten des von Tague-Sutcliff vorgeschlagenen Leitfadens geschehen. Die
Anwendung dieses umfassenden methodischen Guidelines soll sicherstellen, daß die
Untersuchung vor Testbeginn komplett durchdacht und sinnvoll strukturiert wird, so daß
auftauchende Schwierigkeiten schon vor der Durchführung des Retrievaltests erkannt und
Problemlösungsstrategien möglichst vor der Testdurchführung, entwickelt werden können.
Vor der Durchführung der eigentlichen Tests ist anhand eines Pretests zu verifizieren, ob das
Evaluationssetting in Bezug auf das Untersuchungsziel adäquat ausgestaltet ist. Dabei ist
insbesondere die konkrete Testanordnung dahingehend zu überprüfen, ob sie zur validen
und reliablen Ermittlung der unabhängigen Variablen tauglich und praktikabel erscheint. In
Abhängigkeit der Ergebnisse des Pretests ist das Evaluationsetting gegebenenfalls zu
modifizieren.
Schließlich sind die Test durchzuführen und anschließend die Daten auszuwerten.
Abschließend
sind
die
gewonnen
Daten
zu
analysieren.
Grundlage
der
Ergebnisinterpretation bildet dabei die Verifikation oder Falsifikation der Testhypothese(n).
3.1. Entwicklung des Evaluationsettings nach Tague-Sutcliff
3.1.1 Testen oder nicht testen?
Die Entscheidung diesen Retrievaltest durchzuführen, liegt wie schon in der Einleitung
angeführt, in der Problematik des Information Retrievals im Internet begründet.
Suchmaschinen gelten einerseits als essentiell für erfolgreiches Information Retrieval,
andererseits wird ihnen unterstellt nur in geringem Maße leistungsfähig zu sein.171
Grundlegendes Ziel ist es, zu klären, wie effektiv deutschsprachige Suchmaschinen im
Vergleich beim Information Retrieval augenblicklich sind.
170
Bezogen auf die Besonderheiten des Information Retrievals im Web.
Evaluierung hybrider Suchsysteme im WWW
Seite 59
Zwar wurden, wie in Kapitel 2.4.2 geschildert, schon eine große Anzahl von Retrievaltests
durchgeführt,
fraglich
ist
aber,
inwieweit
die Ergebnisse dieser Untersuchungen
aussagekräftig sind. Hinzu kommt, daß sich sowohl das Web als auch die Suchmaschinen
ständig ändern. Ergebnisse vergangener Untersuchungen sind deshalb schon nach kurzer
Zeit veraltet, somit besteht die Notwendigkeit Retrievaltests stets erneut durchzuführen.172
Zudem stellen hybride Systeme in der hier genannten Form,173 gerade im deutschsprachigen
Raum einen relativ neuen Ansatz174 dar, um die Retrievaleffektivität zu erhöhen. Bislang
wurde noch nicht untersucht, inwieweit und ob sie überhaupt eine höhere Retrievaleffektivität
erreichen. Insofern ist die hier durchgeführte Evaluation in einem doppelten Sinne legitimiert.
Allgemein betrachtet damit, daß Retrievaltests von Internetsuchmaschinen immer wieder
erneut durchzuführen sind und zweitens besonders dadurch, daß hybride Systeme bislang
noch nicht in Bezug auf ihre Retrievaleffektivität evaluiert wurden.
Das Erkenntnisinteresse der Untersuchung ist es generell zu ermitteln, wie leistungsfähig die
untersuchten Systeme derzeit sind und speziell festzustellen, ob die getesteten hybriden
Systeme eine höhere Retrievaleffektivität erreichen. Die erzielten Ergebnisse sollen
Hinweise liefern, ob dieser Ansatz für Retrievalsysteme sinnvoll erscheint.
Konkret überprüft wird dies anhand der folgenden Testhypothesen.
•
hybride Systeme erreichen eine höhere Retrievaleffektivität als rein roboterbasierte
Systeme.
•
redaktionell
erzeugte
Treffer
bewirken
eine
höhere
Effektivität
des hybriden
Retrievalsystems.175
Die erste These prüft, ob hybride Systeme eine höhere Effektivität erreichen, die zweite
These prüft nach, ob eine etwaige höhere Retrievaleffektivität auch tatsächlich auf die
Verwendung redaktioneller Treffer zurückzuführen ist.
171
Michael Gordon, Praveen Pathak, Finding Information on the World Wide Web: the retrieval effectiveness of
search engines, in: Information Processing and Management (35) 1999, S.141-180, S.142.
172
C. Oppenheim, A. Morris, C.McKnight, The Evaluation of WWW Search engines, in: Journal of Documentation,
Vol. 56 No. 2 2000, S.190-211, S.193.
173
Siehe die Definition von hybriden Systemen in der Einleitung.
174
Lycos.de verwendet seit April 2000 Katalogeinträge in seinen Trefferlisten, siehe
http://www.suchtreffer.de/news_03042000-25042000.html#12
Goto.com existiert seit Ende 1997, siehe http://www.goto.com/d/about/company/usvision.jhtml (18.11.00).
175
Dieser Hypothese liegt die Annahme zugrunde, daß die von Menschen vorgenommene inhaltliche
Relevanzeinstufung maschinellen Verfahren überlegen ist.
Evaluierung hybrider Suchsysteme im WWW
Seite 60
Die Ergebnisse der theoretischen Analyse und Literatursichtung zu diesem Thema finden
sich in Kapitel 2.5 und werden deshalb hier mehr nicht aufgeführt. Für die Durchführung der
Evaluation werden daraus zwei Schlußfolgerungen gezogen.
1. Methodisch ist die Untersuchung nach der von Tague-Sutcliff vorgeschlagenen
Vorgehensweise aufzubauen.
2. Bei der Ausgestaltung der Testanordnung ist soweit wie möglich zu versuchen, die
Testparameter so auszugestalten, daß sie ein Höchstmaß der Realität des Information
Retrieval im Internet widerspiegeln und zugleich kontrollierbar bleiben.
3.1.2 Welche Art von Test soll durchgeführt werden?
Der besondere Fokus der Evaluation liegt insbesondere darin herauszufinden, ob hybride
Systeme eine höhere Retrievaleffektivität als rein roboterbasierte Systeme erreichen oder
nicht.
Es findet also eine vergleichende Untersuchung existierender Systeme statt.
Zu fragen ist, welches Testverfahren dafür am besten geeignet ist. Sutcliffs Differenzierung
zwischen eher laborhaften und eher realen Bedingungen unterliegenden Experimenten läßt
sich laut Wolff in fünf grundlegende Testverfahren untergliedern:176
1.paper-and-pencil-Experiment
2.Laborstudie mit experimentellen Prototyp
3.interaktiver Test an einem operationalen System
4.Test mit Nutzern vs. Test mit Informationsvermittlern
5.Test anhand einer Testkollektion
Die Intention die Evaluation möglichst realitätsnah zu gestalten, legt es zunächst nahe einen
interaktiven Test mit Nutzern an den Suchmaschinen durchzuführen. Das Problem bei einem
solchem Testverfahren ist es aber die notwendige Kontrolle, die zur Absicherung der
Vergleichbarkeit
und
Reliabilität
der
Ergebnisse
erforderlich
ist,
sicherzustellen.
Beispielsweise wäre es möglich, daß Vorlieben oder Abneigungen bezüglich einzelner
Suchmaschinen verschiedener Probanden das Testergebnis verzerren. Hinzu kommt, daß
bei einem solchen Verfahren Effizienzfaktoren wie z.B. Benutzerfreundlichkeit das Ergebnis
beinflussen würden. Ein interaktiver Test würde also gerade die Vergleichbarkeit der
Ergebnisse in Frage stellen.
Evaluierung hybrider Suchsysteme im WWW
Seite 61
Um dieses Problem zu vermeiden, lehnt sich das Testverfahren weitgehend an die TREC
Methodik an, bei der durch identische Testkollektionen und einheitliche Testanordnungen die
Vergleichbarkeit der Ergebnisse sichergestellt wird.
Die Evaluation ist also als Test anhand einer Testkollektion aufzubauen und durchzuführen.
Damit die erzielten Ergebnisse Aussagekraft in Bezug auf den realen Nutzungskontext von
Suchmaschinen im Internet haben, müssen die variablen Parameter dieser Kollektion, d.h.
vor allem die Informationsbedürfnisse und die Suchanfragen so ausgestaltet werden, daß sie
möglichst die typischen Gegebenheiten des Information Retrieval im Internet widerspiegeln.
3.1.3. Variablendefinition und Zuordnung
Wie sind die Variablen zu bestimmen, damit dieses Ziel auch erreicht wird?
Nachfolgend werden die einzelnen Variablen des Retrievaltest aufgeführt und zugeordnet.
3.1.3.1 Unabhängige Variablen
Die unabhängigen Variablen in dieser Evaluation sind die Bewertungsmaße und -kriterien,
die
Suchanfragen
und
die
zugrundeliegende
Informationsbedürfnisse
sowie
die
Testpersonen.
3.1.3.1.1 Bewertungsmaße und -größen
3.1.3.1.1.1 Relevanz als Grundlage der Bewertungsmaße
Sieht man die Aufgabe von Suchmaschinen darin Informationsbedürfnisse zu befrieden,177
dann können Bewertungsmaße nur daran ausgerichtet sein, inwieweit sie diese Aufgabe
erfolgreich erfüllen. Das zentrale Konzept zur Beurteilung von Retrievalsystemen ist aus
Nutzersicht, die Relevanz der zurückgegebenen Dokumente.
Robertson schreibt:
176
Christian Wolff, Vorlesungsnotizen Information Retrieval, 2.4. Evaluierung im IR, WS99/00, siehe
http://www.informatik.uni-leipzig.de/ifi/abteilungen/asv/Wolff/IRWS99_5_Evaluierungs.pdf (05.09.00).
177
Michael Gordon, Praveen Pathak, Finding Information on the World Wide Web: the retrieval effectiveness of
search engines, in: Information Processing and Management (35) 1999, S.141-180, S.146.
Evaluierung hybrider Suchsysteme im WWW
Seite 62
"The word "relevance" has been used in many different ways but broadly it corresponds to
"how well does the document match the user´s needs?"178 Diese Auffassung von Relevanz,
ob ein Dokument den Informationsbedürfnissen entspricht oder nicht, soll auch in dieser
Untersuchung die Grundlage für die zu fällenden Relevanzurteile bilden.
Das
zentrale
Problem des
Relevanzbegriffs, die personelle Gebundenheit jeder
Relevanzbewertung wurde in Kapitel 2.2.11 diskutiert. Die Frage ist, wie der Widerspruch
zwischen
der
Funktion
des
Bewertungsmaßes
als
unabhängigem
Indikator
der
Leistungsfähigkeit einerseits und dem subjektiven Aussagengehalt einer Relevanzbewertung
andererseits operationalisiert werden kann.
Warners kritisiert, daß genau dies nicht gelingen kann, weil die notwendige Abstraktion des
Relevanzbegriffs dazu führt, daß keine Korrelation zwischen artifiziell operationalisierten und
der sich ausschließlich individuell äußernden, persönlichen Relevanz nachzuweisen ist.179
Alternative Bewertungsmaße die anerkannt sind, existieren jedoch nicht.180
Das bedeutet, daß die Relevanz von Dokumenten, trotz der damit verbundenen Probleme
und mangels einer „besseren“ Alternative auch in dieser Untersuchung als Grundlage der
Bewertungsmaße verwendet wird.
3.1.3.1.1.2 Relevanzeinstufung
Um die Relevanzbewertung möglichst objektiv zu gestalten, ist die Relevanzeinstufung nicht
vom Untersuchenden selbst, sondern von "unabhängigen Juroren" vorzunehmen. Dies mag
nur eine mangelhafte Annäherung an die Realität sein, gewährleistet aber zumindest, daß
die Bewertungen von Vorlieben und Abneigungen des Untersuchenden unbeeinflußt
bleiben.181 Um dies auch bei den Juroren182 selbst sicherzustellen, wird die Herkunft der
Dokumente unkenntlich gemacht. Zugleich wird jedes Dokument nur von einem Juror
bewertet, um die Eindeutigkeit der Bewertungen zu garantieren.
178
Stephen E. Robertson, the methodology of information retrieval experiment, in: Karen Sparck Jones,
information retrieval experiment, S.9-31, S.14.
179
Julian Warner, In the catalogue ye go for men: evaluation criteria for information retrieval systems, in: Aslib
Proceedings Vol.52, No.2 2000, S.76-82, S.77.
180
Auch der von Warner angeführte "enhanced capacity for information choice" Ansatz vermag diesen
Widerspruch nicht auf operationalisierbare Weise aufzulösen, ist aber sehr hilfreich um diesen Problembereich zu
verdeutlichen. Vgl. ebd.
181
Dieses "gängige" Verfahren wird zwar mit steigenden Mißtrauen betrachtet, eine Alternative ist aber kaum zu
sehen. Vgl. Stephen E. Robertson, the methodology of information retrieval experiment, in: Karen Sparck Jones,
information retrieval experiment, S.9-31, S.17.
182
z.B. in Bezug auf die zu untersuchenden Suchmaschinen
Evaluierung hybrider Suchsysteme im WWW
Seite 63
Die Hypertextstruktur des Web muß auch bei der quantitativen Ausgestaltung der
Relevanzbewertung der Dokumente berücksichtigt werden. Eine dichotome Einstufung in
inhaltlich relevante und nicht-relevante Dokumente würde dem tatsächlichen Suchverhalten
im Web, bei dem auch während der Nutzung von Suchmaschinen die Browsing Perioden
überwiegen,183 widersprechen. Denn es besteht die Möglichkeit, daß ein an sich irrelevantes
Dokument einen direkten Zugriff auf relevante Seiten ermöglicht.184
Aus diesem Grund wird neben den Relevanzeinstufungsmaßen "relevant" und "nichtrelevant" auch ein drittes Einstufungsmaß "verweist auf relevante Seite(n)" verwendet, mit
dem die Juroren zum Ausdruck bringen können, daß die entsprechende Seite zwar inhaltlich
nicht relevant ist, aber den Zugriff auf relevante Dokumente ermöglicht.
Bei der Ergebnisbewertung sind solche Treffer letztlich zu den relevanten Seiten zu addieren
und als relevant zu werten, weil auch sie zur Befriedigung der Informationsbedürfnisse
beitragen. Das bedeutet wiederum, daß bei der Auswertung der Retrievaleffektivität diese
dreifache Ausdifferenzierung der Dokumentbewertung auf eine binäre Unterscheidung zu
aggregieren ist.
Auf eine tiefergehende quantitative Ausdifferenzierung der Relevanzeinstufung wird bewußt
verzichtet.
Es
mag
zwar
zutreffen,
daß
mehrstufige
Relevanzgrade185
die
Relevanzeinstufung für Juroren erleichtern, aber bei der Aggregierung der einzelnen Urteile
zu einer Gesamtwertung sind feinstufige Relevanzgrade aufgrund der mangelnden
interpersonellen Konsistenz der Bewertungen nicht hilfreich.186
Eine Einschränkung, die zwar zur Kontrolle der Untersuchung notwendig ist, aber die
Realitätsnähe der Bewertung begrenzt ist, daß von einer Einzelbetrachtung der Dokumente
ausgegangen wird. Somit wird quasi über die ganze Auswertungsphase ein gleichbleibender
Wissensstand des Suchers impliziert. Die sogenannten "Grenzfälle der Relevanz" werden
ignoriert.187 Dies bewirkt, daß folgende, in der Realität vorhandenen, Einflüsse fast
vollständig vernachlässigt werden:188
183
Sven Körber, Suchmuster erfahrener und unerfahrener Suchmachinennutzer im deutschsprachigen World
Wide Web. Ein Experiment, Münster 2000, S.41, siehe http://kommunix.unimuenster.de/IfK/examen/koerber/suchmuster.pdf(30.08.00).
184
Dies beschränkt sich nicht nur auf Links, sondern kann ebenso über Sucheingabemasken, wie bei den
Suchmaschinen selbst der Fall sein. Ein Beispiel dafür ist eine Online-Telefonauskunft, falls der
Suchmaschinennutzer gerade eine Telefonnummer recherchier. Siehe
http://www.teleauskunft.de/NSAPI/Anfrage?AKTION=zeSuchseiteTelefonbuch&SPRACHE=DE&SESSIONID=02
80b18ff13a1d7cb20004675a&BUAB=BUNDESWEIT (21.11.00).
185
Denkbar z.B. in Form einer Schulnotenskala.
186
Stephen E. Robertson, the methodology of information retrieval experiment, in: Karen Sparck Jones,
information retrieval experiment, S.9-31, S.18.
187
Siehe http://www.inf-wiss.uni-konstanz.de/CURR/winter97/iv1/iv1-vorlesung/6_sitzung/qualitaet.html
(20.11.00).
188
Ebd.
Evaluierung hybrider Suchsysteme im WWW
•
Seite 64
zwei für sich allein genommene Dokumente, die als nicht relevant eingeschätzt
werden, gemeinsam als relevant bewertet werden können.
•
ein relevantes Dokument sich durch ein anderes als doch nicht relevant erweist.
•
die situationelle (zeitlich/persönliche/Wissenstand) Situation der Juroren sich auf die
Relevanzbeurteilung auswirkt.
•
Dokumente nachgewiesen werden, die dem Juroren schon aus anderen Quellen
bekannt sind.
Der einzige Faktor, der in diesem Zusammenhang berücksichtigt wird sind Dubletten.
Dubletten sind Dokumente, die laut Ansicht des Juroren identisch sind. Sie können nur
höchstens einmal, beim ersten Erscheinen, als relevant bewertet werden, weil sich bei
wiederholtem Auftreten identischer Seiten kein Informationszuwachs mehr erzielen läßt.
Ein weiterer wesentlicher Faktor, der bei der Relevanzeinstufung durchaus von Bedeutung
sein kann und in dieser Evaluation nicht vernachlässigt werden darf, ist die Frage, welche
Dokumentrepräsentation
in
welcher
Darstellungsform
die
Grundlage
für
die
Relevanzbeurteilung darstellen soll.
Da die tatsächliche Retrievalleistung untersucht werden soll genügt es nicht, nur die
Trefferlisten der Suchmaschinen zu bewerten, vielmehr müssen die Ergebnisseiten selbst
Gegenstand der Relevanzbeurteilung sein. Würden nur die Trefferlisten bewertet, so würde
eine Reihe von Faktoren vernachlässigt, die das Ergebnis verfälschen könnten.
Beispielsweise würde nicht überprüft, inwieweit der Index der Suchmaschine mit den
aktuellen Inhalt des Web übereinstimmt, weil unter Umständen Seiten in der Trefferliste
angezeigt werden, die nicht mehr oder in veränderter Form existieren. Auch die
Auswirkungen von sogenannten Ranking-189 aber auch Spamseiten,190 die beispielsweise
dazu dienen, den Suchenden automatisch auf eine andere Seite umzuleiten, würden dabei
komplett vernachlässigt.191 Es würde unterstellt, daß die Metainformation der Trefferlisten die
Ergebnisseiten korrekt und hinreichend beschreiben.
189
Im Idealfall dienen Rankingseiten dazu die Relevanz und Auffindbarkeit von dynamischen Seiten
inhaltsbezogen zu verbessern. Siehe http://www.suchtreffer.de/netiquette.html (24.11.00).
190
Im Unterschied zu Rankingseiten die auf der Grundlage einer Netiquette erstellt wurden dienen Spamseiten
dazu die Relevanz und Auffindbarkeit von Seiten zu verbessern, bei denen kein oder nur ein unzureichender
kontextualer bezug zum Informationsbedürfnis besteht, siehe http://www.suchtreffer.de/glossar_s.html#spam
(25.11.00).
191
Auf die verwendeten Techniken wird hier nicht näher eingegangen. Für einen ersten Überblick siehe
http://www.ideenreich.com/cloaking.shtml (25.11.00). Ein Beispiel für eine Rankingseite findet sich unter
http://www.nethics.net/nethics/de/ethik_im_internet.html (24.11.00). Bitte beachten sie ist nur bei deaktiviertem
Javascript (Netscape Communicator), bzw. abgeschalteten Active Scripting (Internet Explorer) zu betrachten,
ansonsten wird auf http://www.nethics.net/nethics/de/index.html (24.11.00). umgeleitet.
Evaluierung hybrider Suchsysteme im WWW
Seite 65
Es müssen also die Ergebnisseiten selbst beurteilt werden, da die Trefferlisten der
Suchmaschinen zur Relevanzbeurteilung ungenügend sind.
Webseiten im Internet sind oftmals dahingehend konzipiert, dynamisch mit dem Nutzer zu
interagieren. Je nach Nutzerverhalten werden verschiedene Aktionen ausgelöst, die unter
Umständen die optische Darstellung,192 beziehungsweise den Informationsgehalt193 der
Dokumente variieren lassen.194 Deshalb werden bei der Beurteilung der Dokumente die
Originaldokumente zugrunde gelegt, welche dabei unter Zuhilfenahme eines aktuellen
Browsers zu betrachten sind.
Im Gegensatz zu TREC195 oder der Evaluation von Wolff196 wird auf eine Konvertierung der
Ergebnisseiten oder die Verwendung von Ausdrucken der Treffer verzichtet, weil dabei die
Gefahr besteht, daß bei der Relevanzbewertung interaktive Elemente nicht berücksichtigt
werden und somit unter Umständen die Relevanzbeurteilung verfälscht werden könnte.
3.1.3.1.1.3 Bewertungsmaße
Die etablierten und meistgebrauchten Standardwerte zur Effektivitätsmessung sind Recall
und Precision.197 Verglichen mit komplexeren Maßen, wie Risbergens e-Maß oder
Meetham´s I-Maß198 sind sie am besten auf Benutzerbedürfnisse übertragbar.199 In dieser
Untersuchung wird auf die Messung des Recall verzichtet, weil er zum einen im Web nicht
bestimmt werden kann200 und zum anderen, weil der vollständige Nachweis aller relevanten
Dokumente für den Nutzer, je nach Art des zugrundeliegendem Informationsbedürfnisses,
nur in geringem Maße von Interesse ist.201
192
Z.B. durch Mouseovereffekte.
Z.B. durch Bannereinblendung oder Verwendung von Layern die unterschiedliche Inhalt beherbergen, siehe
http://public.deutsche-bank.de/deuba/group.nsf/doc/MKVK-4BRM2L?OpenDocument (25.11.00).
194
Zu den Möglichkeiten Webseiten in Hinblick auf Interaktivität mit dem Benutzer zu konzipieren vgl.
beispielsweise W3C, HTML 4.0 Specification, http://www.w3.org/TR/ (20.11.00).
195
David Hawking, Ellen Voorhees, Nick Craswell, Peter Bailey, Overview of the TREC-8 Web Track, 2000, siehe
http://TREC.nist.gov/pubs/TREC8/papers/web_overview.pdf 29.10.00).
196
Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Suchund Metasuchmaschinen.
197
Michael Lesk, The seven ages of information retrieval, siehe http://www.ifla.org/VI/5/op/udtop5/udtop5.htm
(30.10.00).
198
Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, New York 1989, S.48-52.
199
Ebd., S.171.
200
C. Oppenheim, A. Morris, C.McKnight, The Evaluation of WWW Search engines, in: Journal of Documentation,
Vol. 56 No. 2 2000, S.190-211, S.190.
201
Beispielsweise bei Informationsbedürfnissen die auf eher geschlossenen Fragestellungen beruhen, wie z.B.
Fragen nach bestimmten Fakten, die durch die Rückgabe der einen richtigen Antwort zu befriedigen sind. Vgl.
Christian Wolff, Vorlesungsnotizen Information Retrieval, 2.4. Evaluierung im IR, WS99/00, siehe
http://www.informatik.uni-leipzig.de/ifi/abteilungen/asv/Wolff/IRWS99_5_Evaluierungs.pdf (05.09.00).
193
Evaluierung hybrider Suchsysteme im WWW
Seite 66
Da die Mehrzahl der Benutzer, nur die ersten zwei Ergebnisseiten der Suchmaschinen
sichtet,202 zeigt sich die Retrievaleffektivität einer Suchmaschine für den typischen Nutzer
auch nur in der Qualität dieser tatsächlich gesichteten Treffer. Deshalb wird die Top20
Precision als Bewertungsmaß verwendet. Sie sagt aus, welcher Anteil der ersten 20
zurückgegebenen Treffer als relevant zu bezeichnen ist, d.h. welche Retrievaleffektivität die
Suchmaschinen bei typischer Betrachtung der ersten 20 Treffer aufweisen. Der
Aussagengehalt dieses Bewertungsmaßes ist allerdings auch explizit auf die ersten 20
Treffer beschränkt. Weitere Schlußfolgerungen lassen sich in bei dieser Betrachtungsweise
der Retrievaleffektivität nicht ziehen.
Wichtig ist es auch festzuhalten, daß diese mathematische Maßzahl, die als Wert zunächst
von ihrer qualitativen Ausgestaltung abstrahiert, nur im Kontext ihrer qualitativen
Ausgestaltung,
also
bezüglich
der
zugrundeliegenden
Suchanfragen usw., interpretiert werden kann.
Informationsbedürfnisse,
203
Die Entscheidung Precision bzw. Top20 Precision zu verwenden, ist auch dadurch
begründet, daß es ein intuitiv verständliches und leicht interpretierbares Bewertungsmaß
darstellt.204
Allerdings ist das Maß der Top20 Precision insofern problematisch, weil bei der aggregierten
Betrachtung
diese
Wertes
über mehrere Suchanfragen ungeklärt bleibt, welche
Suchmaschine die einzelnen Fragen am besten beantwortet.
Beispielsweise ist folgender Fall denkbar:
Es werden drei Suchanfragen A, B und C an zwei Suchmaschinen X und Y gestellt und
jeweils die ersten 20 Treffer bewertet. Suchmaschine X liefert zur Suchanfrage A 20
relevante Treffer, zu Suchanfrage B und C keinen relevanten Treffer. Die Top20 Precision
beträgt in diesem Fall ein Drittel.
Suchmaschine Y liefert zur Suchanfrage A keinen relevanten Treffer, zur Suchanfrage B und
C jeweils einen. Die Top20Precision beträgt also 2/60stel. Suchmaschine X weist also eine
202
Laut AltaVista.com benutzen sogar weniger als 10% die zweite Ergebnisseite, siehe Sven Körber, Suchmuster
erfahrener und unerfahrener Suchmachinennutzer im deutschsprachigen World Wide Web. Ein Experiment,
Münster 2000, S.33. siehe http://kommunix.uni-muenster.de/IfK/examen/koerber/suchmuster.pdf(30.08.00).
203
Beispielsweise in Bezug auf die Höhe des Precisionwertes, der sich z.B. grundlegend durch die Art der
Fragestellung beinflussen läßt. So ist beispielsweise zu erwarten, daß bei Informationsbedürfnissen, die auf sehr
speziellen und spezifischen Fragestellungen beruhen eine niedrigere Precision erreicht wird als bei
Informationsbedürfnissen die eher auf allgemeinen und unspezifischen Fragestellungen beruhen.
204
Andere Werte, die dazu entwickelt worden sind, in einer Meßgröße die Retrievaleffektivität zu bewerten, wie
beispielsweise das e-Maß, siehe Christian Wolff, Vorlesungsnotizen Information Retrieval, 2.4. Evaluierung im IR,
WS99/00, siehe http://www.informatik.uni-leipzig.de/ifi/abteilungen/asv/Wolff/IRWS99_5_Evaluierungs.pdf
(05.09.00)., sind aber nicht intuitiv einleuchtend. Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, New
York 1989, S.34.
Evaluierung hybrider Suchsysteme im WWW
Seite 67
um den Faktor 10 höhere Precision auf, liefert aber nur bei einer Suchanfrage ein besseres
Ergebnis als Suchmaschine Y, die immerhin zu zwei Suchanfragen mindestens ein
relevantes Dokument nachzuweisen vermag.
Suchanfrage A Suchanfrage B Suchanfrage C
Top20
Effektiver
Precision
bei
Suchmaschine X
20 rel. Treffer
0 rel. Treffer
0 rel. Treffer
ein Drittel
A
Suchmaschine Y
0 rel. Treffer
1 rel. Treffer
1 rel. Treffer
2/60stel
B und C
Die Frage, welche Suchmaschine in einer solchen Situation eine höhere Retrievaleffektivität
erreicht, kann letztlich nur nach dem individuellem Standpunkt des Nutzers entschieden
werden.205 Ein solcher Extremfall zeigt aber die Notwendigkeit auf festzustellen, welche
Suchmaschine bezüglich der einzelnen Suchanfragen am effektivsten ist.
Deshalb ist eine Rangliste zu erstellen die anzeigt, wie effektiv die Suchmaschinen bei den
einzelnen Suchanfragen sind.
Die Retrievaleffektivitätsbewertung der Suchmaschinen ist also nur aus der additiven
Betrachtung der aggregierten Top20 Precision und der Effektivität bei den einzelnen
Suchanfragen möglich.
Supplementär wird schließlich zusätzlich bei geschlossenen Fragestellungen, bei denen das
Informationsbedürfnis, durch die eine "richtige" Antwort befriedigt werden kann, das zuerst
von Cooper vorgeschlagene Bewertungsmaß ESL (Estimated/Expected Search Length)
verwendet.206 "ESL (...) calculates the cost paid by a user in the sense of the number of sites
the user must look through before he or she gets sufficient relevant items to satisfy the
query."207 ESL mißt also die Anzahl der Dokumente, die gesichtet werden müssen, bis das
Informationsbedürfnis befriedet werden kann.
Da eine Einschränkung dieser Untersuchung darin liegt, daß die Juroren die Dokumente
voneinander unabhängig auf Relevanz beurteilen sollen, kann ESL nur bei geschlossenen
Fragestellungen sinnvoll angewendet werden, da bei solchen Fragestellungen mit der ersten
relevanten Antwort das Informationsbedürfnis als befriedigt gelten kann.
205
Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, New York 1989, S.57.
W. S.Cooper, Expected search length, in: American Dokumentation, 19 1968 S.30-41.
207
C. Oppenheim, A. Morris, C. McKnight, S. Lowley, The evaluation of WWW search engines, in: Journal of
Documentation, Vol. 56 No. 2, March 2000, S.190-211, S.199.
206
Evaluierung hybrider Suchsysteme im WWW
Seite 68
3.1.3.1.2 Suchanfragen und Informationsbedürfnisse
Bei der quantitative Ausgestaltung dieser Variable wird die Standardvorgabe von TREC
übernommen, d.h. insgesamt sind 50 Suchanfragen durchzuführen.208 Buckley und
Voorhees schlagen zwar vor, für Bewertungsmaße die auf Top10- oder Top30-Precision im
Web beruhen, eine höhere Anzahl von Suchanfragen durchzuführen, aber aufgrund der
beschränkten Ressourcen dieser Untersuchung muß eine Anzahl von 50 Suchanfragen
ausreichen, zumal das TREC Programm Committee eine Mindestanzahl von 25
Suchanfragen für ausreichend erachtet, um abgesicherte Aussagen treffen zu können.
Prinzipiell ist aber zu sagen, je höher die Anzahl der Anfragen um so geringer die
Fehlerwahrscheinlichkeit bei den Ergebnissen der Evaluation. Weshalb immer versucht
werden sollte, eine größtmögliche Anzahl von Suchanfragen durchzuführen.209
Die Suchanfragen determinieren als direkter Inputfaktor an die Retrievalsysteme unmittelbar
die Quantität und Qualität des Output.
Das heißt, der erreichbare Precisionsgrad der Ergebnisse wird schon weitgehend vorab
bestimmt. Faktoren wie Themenbereich, Spezifität oder Komplexität spezifizieren den
Rahmen, also den "Schwierigkeitsgrad" der Suchanfrage für das Retrievalsystem. Wird
beispielsweise eine Anfrage gestellt, zu der alle Suchmaschinen keine oder nur wenige
Treffer nachweisen können, so ist zu erwarten, daß über alle Maschinen hinweg die Top20
Precision geringer ausfällt, als bei einer Anfrage, zu der die Suchmaschinen eine Vielzahl
von Treffern referenzieren können.210
Für die Ergebnisbewertung bedeutet dies, daß weniger die absolute Höhe der erreichten
Precisionwerte, sondern eher die Unterscheide der erreichten Precisionwerte zwischen den
Suchmaschinen im Vergleich zueinander etwas über die Retrievaleffektivität aussagt.
Die qualitative Ausgestaltung der Suchanfragen wird an die Nutzergewohnheiten angelehnt.
Dies bedeutet, daß überwiegend kurze Suchanfragen ohne die Nutzung von Operatoren zu
verwenden sind.
208
rd
Chris Buckley, Ellen M. Voorhees, Evaluating Evaluation Measure Stability, in: SIGIR 2000, The 23 Annual
International ACM SIGIR Conference on Research and Development on Information Retrieval, July 24-28 2000,
S.33-40, S.33.
209
Ebd.
210
Zur Veranschaulichung dieser Problematik soll ein einfaches Beispiel dienen: Die Suchanfrage
"hypothesengenerierende Untersuchsverfahren" in Phrasenform liefert bei den Suchmaschinen Fireball
(http://www.fireball.de), Crawler.de (http://www.crawler.de) und Infoseek.de (http://www.infoseek.de) keinen
Treffer, da sie zu spezifisch ist, die Suchanfrage "webcam" jedoch bei Fireball 224917, bei crawler.de 30622 und
bei Infoseek.de 50358 Treffer, weil sie thematisch sehr weit gefaßt ist.
Evaluierung hybrider Suchsysteme im WWW
Seite 69
Eine Einschränkung auf bestimmte Themenbereiche findet nicht statt, mit der Ausnahme,
daß pornographische Themen ausgeklammert werden.211 Auch die Spezifität soll die
typischer Suchanfragen widerspiegeln. Analysiert man verschiedene Suchmaschinen
bezüglich der Suchanfragen, so zeigt sich, daß gerade die häufigsten Suchanfragen aus
Einwortanfragen bestehen und thematisch nicht sehr eng spezifiziert sind.212 Die
aufzubauende Testkollektion muß diese Eigenschaften widergeben. Konkret bedeutet dies,
daß knapp ein Drittel der Suchanfragen aus Einwortanfragen und der Rest aus
Mehrwortanfragen bestehen muß.213
Um auch bei den Mehrwortanfragen dem tatsächlichen Nutzerverhalten möglichst
nahezukommen müssen ca. zwei Drittel aus Zweiwortanfragen bestehen. Die restlichen
Anfragen sollen sich aus Drei-, Vier- und Fünfwortanfragen, zusammensetzen.214
Die Anfragen werden inhaltlich so ausgestaltet, daß sie als repräsentativ für typische
Suchanfragen und Informationsbedürfnisse gelten können. Die konkrete Ausgestaltung der
Variablen Suchanfragen und Informationsbedürfnisse wird in Punkt 3.1.5 vorgenommen.
Wichtig ist es folgendes festzuhalten:
Weil die Relevanzeinstufung durch Dritte vorzunehmen ist, müssen die jeder Suchanfrage
zugrundeliegenden Informationsbedürfnisse eindeutig benannt und schriftlich ausformuliert
werden. Die darauf aufbauenden Relevanzkriterien sind auf dieser Grundlage möglichst
exakt und realitätsnah zu bestimmen, damit das Urteil des Jurors sich möglichst dem fiktiven
Kontext eines Nutzers mit individuellen Informationsbedürfnis annähern kann.
Die Durchführung der Suchanfragen wird vom Untersuchenden selbst vorgenommen.
Das heißt, die identischen Suchanfragen werden an die verschiedenen Suchmaschinen
gestellt, die Ergebnisseiten sind lokal abzuspeichern und für die Beurteilung durch die
Probanden zur Verfügung zu stellen.
3.1.3.1.3 Testpersonen
Um die Verallgemeinerungsfähigkeit der Bewertungen abzusichern, sind mehrere Juroren
als Testprobanden anzuwerben.
211
Dies ist eine normative Entscheidung des Autors.
Vgl. z.B. "Live Suche von Fireball.de", siehe http://www.fireball.de/qstat.html (25.11.00).
213
Diese Verteilung ergibt sich aufgrund einer Analyse der Keyworddatenbank bei Suchtreffer, die Abfragen bei
Suchmaschinen protokolliert. Da insgesamt über zwei Millionen Abfragen aufzeichnet wurden , wird hier
angenommen, das diese Verteilung repräsentativ ist.
Eine ähnliche Verteilung gilt auch für den englischen Sprachraum, siehe
http://searchenginewatch.internet.com/reports/npd.html.
214
Ebd.
212
Evaluierung hybrider Suchsysteme im WWW
Seite 70
Sieht man die Anzahl von 50 Suchanfragen als gegebene (notwendige) Rahmenbedingung,
so erscheinen 25 Juroren als eine realistische Anzahl. Denn einerseits ist der Zeitraum für
die Testdurchführung möglichst kurz zu halten und andererseits ist der zeitliche Aufwand für
die Juroren zu begrenzen damit die Bereitschaft zur Testteilnahme überhaupt vorhanden
ist.215 Ziel ist es nicht, durch die Anzahl und Art der Probanden den typischen Nutzer
repräsentativ wiederzugeben, sondern abzusichern, daß die gefällten Relevanzurteile als
repräsentativ gelten können. Die Anzahl von 25 Testpersonen scheint hinreichend, um bei
einer Interpersonenkonsistenz der Relevanzbeurteilung von 70%-80%, verzerrende
Abweichungen durch Ausreißer zu kompensieren.216 Vorausgesetzt, die Juroren besitzen die
notwendige technische und inhaltliche Kompetenz zur Relevanzbeurteilung.
Um die technische Kompetenz sicherzustellen werden nur Testpersonen ausgewählt, die ein
Minimum an Computer-, Internet- und Suchmaschinennutzungskompetenz aufweisen. Diese
Kompetenz wird durch Befragung mittels eines Fragebogenformulars erfaßt, in dem sich die
Juroren vor Testbeginn selbst einzustufen haben. Probanden, die sich in jeder der drei
genannten Kategorien in der geringsten Kompetenzstufe einordnen, werden als Juroren
abgelehnt, bzw. bei der Auswertung der Daten nicht berücksichtigt.
Die inhaltliche Kompetenz wird nicht überprüft, vielmehr ist bei der Erschließung der
Suchanfragen zu berücksichtigen, daß wissenschaftliches oder technisches oder sonstiges
erforderliches Spezialwissen217 bei der Relevanzbeurteilung keine Rolle spielen darf. Sollte
dies doch der Fall sein, so sind solche Informationsbedürfnisse aus der Testanordnung zu
eliminieren.
3.1.3.2 Umgebungsvariable Informationsraum Internet
Die Umgebungsvariable in dieser Untersuchung, die nicht beeinflußt werden kann ist der
Informationsraum Internet. Im Rahmen dieses Retrievaltests läßt er sich als nicht zu
beeinflussender Dokumentraum einordnen. Das Internet bildet die Grundlage für die
Retrievalfunktionalität
der
zu
untersuchenden
Suchmaschinen.
Dabei
greift
jede
Suchmaschine auf die zugänglichen Informationen im Web verschieden zu und bewertet
215
Diese Größe bewegt sich auch in dem Rahmen, der Größenordnung, den Gordon Pathak (siehe 2.4.2.3) und
Wolff (2.4.2.4), für die Anzahl der Testpersonen wählen. Vgl. Stephen E. Robertson, the methodology of
information retrieval experiment, in: Karen Sparck Jones, information retrieval experiment, S.9-31, S.17.
216
Dies ist eine nicht abgesicherte Hypothese, die Legitimität ergibt sich aus pragmatischen Gründen. D.h. es
muß gelingen im gegebenen Zeitraum die notwendige Anzahl von Juroren zu rekrutieren.
217
Beispielsweise bezüglich eines Fachvokabulars.
Evaluierung hybrider Suchsysteme im WWW
Seite 71
diese auch unterschiedlich. Das bedeutet wiederum, daß sich die Indexe der
Suchmaschinen stark unterscheiden können.218
Da die Suchmaschinenbetreiber weder in Bezug auf ihre Indexierungs- noch die
Rankingkomponente genaue Angaben machen kommt hinzu, daß der "innere" Aufbau der
Suchmaschinen im Detail unbekannt ist. Aufgrund dieses "blackbox"-artigen Charakters der
Suchmaschinen ist es unmöglich, gezielt die Effektivität einzelner Komponenten zu
evaluieren. Da aber das Internet, für einen fixen Zeitraum, den untersuchten Systemen
identische Rahmenbedingungen bietet, ist ein Vergleich der Suchmaschinen bezogen auf die
Gesamtsystemleistung möglich.
3.1.3.3 Abhängige Variablen – Relevanzeinstufung der Treffer
Die abhängige Variable ist die Beurteilung der Relevanz der Trefferseiten.
Suchmaschinen liefern als Ergebnis eine in der Regel nach "vermuteter" Relevanz219
sortierte Liste von Verknüpfungen über deren Aktivierung der Benutzer zu den jeweiligen
Trefferseiten navigieren kann.
Die
Trefferliste
enthält
Vorabinformationen
über
die
jeweiligen
Treffer
die
als
Metainformationen Angaben wie Titel, Url, Beschreibung, Indexierungsdatum usw. enthalten.
Auch wird meist eine Trefferanzahl sowohl bezüglich der einzelnen Suchwörter als auch in
Bezug auf die Suchanfrage angegeben.220
Oftmals sind auch Relevanz Feedback Techniken implementiert, die ausgehend von der
Selektion eines vermutlich relevanten Dokuments die interaktive und iterative Verfeinerung
der Suchanfragen ermöglichen. Häufig wird auch ein Link zu einer ebenfalls relevant
erscheinenden Rubrik eines zusätzlichen Katalogs angeboten.
All diese Mehrwerte der Trefferlisten bleiben hier unberücksichtigt was durchaus ein Problem
darstellt. Beispielsweise ist es möglich, durch einen raschen Überblick über die Trefferliste,
irrelevante Dokumente schnell auszufiltern und nur vermeintlich Relevante zu selektieren.
218
Die Indexe der verschiedenen Suchmaschinen sind weitgehend disjunkt aufgebaut, d. h. sie weisen nur einen
geringen Überlappungsgrad auf (dies gilt zumindest für die großen internationalen Suchmaschinen) .Vgl.
Christian Wolff, Effektivität von Recherchen im World Wide Web, Eine vergleichende Evaluierung von Such- und
Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen (Hg), Informationskompetenz – Basiskompetenz in der R
Informationsgesellschaft, Proceedings des 7. Internationalen Symposiums für Informationswissenschaft,
Konstanz 2000, S.31-48, S.35.
219
Gerhard Knorz, Information Retrieval-Anwendungen, in: M.G. Zilahi-Szabo (Hg.): "Kleines Lexikon der
Informatik und Wirtschaftsinformatik", München, Wien: Oldenbourg-Verlag 1995, S. 244 - 248. Siehe
http://www.iud.fh-darmstadt.de/iud/wwwmeth/publ/paper/iranw95/paper1.htm (25.11.00).
220
Beispiele für Trefferlisten sind http://ragingsearch.altavista.com/cgi-bin/query?q=mp3 (25.11.00). oder
http://www.google.com/search?q=mp3 (25.11.00).
Evaluierung hybrider Suchsysteme im WWW
Seite 72
Oder durch Browsing im zusätzlichen Katalog ebenfalls relevante Dokumente zu
erschließen.
Trotzdem werden hier ausschließlich die Trefferseiten und nicht die Trefferlisten als Basis für
die Relevanzbeurteilung verwendet. Rechtfertigen läßt sich das Vorgehen durch die
Zielsetzung der Arbeit, es soll untersucht werden wie effektiv die Suchmaschinen für den
typischen Nutzer sind. Dieser variiert nur in einem Drittel der Fälle die Suchanfrage und
sichtet in der Regel nur die ersten zwei Trefferseiten.221 Hinzu kommt, daß der Index und
somit die Trefferliste für jedes Dokument in einem anderen Maße veraltet ist. Durch die
Trefferliste allein läßt sich die Retrievaleffektivität also nicht ermitteln, weil sie unter
Umständen den aktuellen Inhalt des Internets nicht korrekt wiedergibt.
Entscheidend ist aber, daß Vorlieben und Abneigungen der Juroren in Bezug auf die
einzelnen Suchmaschinen, das Ergebnis nicht beeinflussen sollen und somit die Herkunft
der Trefferseiten unkenntlich gemacht werden muß.
Auch ist eine Vorkategorisierung bei der Relevanzbeurteilung unbedingt zu vermeiden,
beispielsweise bei Dokumneten die nicht mehr existieren.222 Allein der Juror kann
entscheiden, ob eine Trefferseite relevant ist oder nicht. Beispielsweise ist es möglich, daß
eine Fehlerseite einen Link auf eine relevante Seite enthält und deshalb dieser "Fehler" der
Suchmaschine dem Nutzer Zugang zur benötigten Information verschafft.223
3.1.4 Ausgewählte Suchmaschinen
Durch die Eigenheiten des Web, beschränkt sich dieser Punkt auf die Selektion der zu
evaluierenden Suchdienste. Die Eigenschaften der Informationsysteme, wie Größe des
Dokumentraums oder Struktur und Aufbau der Dokumentrepräsentation, können vom
Untersuchenden nicht extern bestimmt werden.
Mit der Zielsetzung der Untersuchung sind zugleich die grundlegenden Kriterien für die
Auswahl der hier zu untersuchenden Suchmaschinen vorgegeben. Zum einen müssen die
Maschinen für den deutschen Sprachraum konzipiert sein und zum anderen sind sowohl
hybride als auch rein roboterbasierte Suchmaschinen in den Test miteinzubeziehen.
221
Vgl.2.4.1.3
Gemeint sind hiermit sogenannte "Error 404 Url not found" Seiten.
223
Beispielsweise ist ein Fall denkbar, daß ein Nutzer, daß Informationsbedürfnis besitzt sich über den
Studiengang Informationswissenschaft an der Universität Konstanz die Information. Liefert die Suchmaschine
eine Seite die nicht (mehr) existiert wie z.B. http://www.inf-wiss.uni-konstanz.de/nichtmehrda.html so hat er doch
die Möglichkeit durch eine Verknüpfung auf dieser Fehlerseite zu seinem Ziel zu gelangen.
222
Evaluierung hybrider Suchsysteme im WWW
Seite 73
Für diesen Retrievaltest werden die drei folgenden Suchmaschinen ausgewählt:
Lycos.de, Altavista.de und QualiGo
Lycos.de ist unter den deutschsprachigen Suchmaschinen ein Dienst, der die Ergebnislisten
der roboterbasierten Suchmaschine224 mit einem 40 000 Einträgen umfassenden manuell
erstellten Katalog kombiniert.225 Diese ergänzen bei entsprechenden Matches der
Suchanfragen als Empfehlungen die roboterbasierten Treffer und werden diesen in der
Ergebnisliste voranstellt.226 Lycos ist also der Definition nach ein hybrides System. Zugleich
ist diese Suchmaschine eine der meistgenutzten deutschsprachigen Suchmaschinen, und
von diesen das einzige System, welches einen hybriden Ansatz verfolgt.227
Lycos dient in dieser Untersuchung somit als Fallbeispiel hybrider Suchmaschinen.
Als "Gegenkandidat" soll die Suchmaschine AltaVista.de die Retrievaleffektivität rein
roboterbasierter
Suchmaschinen
referenzieren.
Der
Grund
für
die
Auswahl
der
Suchmaschine AltaVista.de ist zum einen der hohe Nutzungsgrad,228 zum anderen, daß sie
- ebenso wie die internationale Version AltaVista.com - in der Vergangenheit bei
Suchmaschinentests gute Ergebnisse erzielte.229
QualiGo ist ein neue Suchmaschine, die am 06.11.00 ihren Dienst aufnahm. Diese
Suchmaschine spielt eine besondere Rolle im Rahmen dieser Evaluation. Denn QualiGo ist
als hybrides System konzipiert, weißt aber zum Testzeitpunkt noch keine redaktionell
basierten Einträge auf. Deshalb läßt sich in diesem Test nur die roboterbasierte Komponente
von QualiGo untersuchen. Die Aufnahme von QualiGo in die Evaluation ist vor allem dadurch
zu rechtfertigen, daß durch einen später durchzuführenden Test dezidiert festgestellt werden
soll, ob und inwieweit die dann vorhandenen redaktionellen Einträge, die Retrievaleffektivität
erhöhen. Allerdings muß hierzu angemerkt werden, daß die hier getestete Version noch
weitgehend als Prototyp zu verstehen ist, weil der Index zum Testzeitpunkt nur rund eine
Million Einträge aufweist.
224
Der roboterbasierte Teil von Lycos, verwendet die von DirectHit lizensierte Hitpopularity (siehe FN7) als ein
Rankingkriterium, siehe http://www.suchfibel.de/3allgem/lycosde.htm (19.11.00).
225
Siehe http://pressroom.lycos.de/deutsch/common/newsitem.asp?id=6 (19.11.00).
226
Ebd. Siehe auch http://www.suchfibel.de/3allgem/lycosde.htm (19.11.00).
227
http://www.webhits.de/webhits/inetstat_d.htm (20.11.00).
228
http://www.webhits.de/webhits/inetstat_d.htm (19.11.00). auch
http://www.vibrio.de/service/altavist/texte/080800.htm (18.10.00).
229
Siehe beispielweise
http://www.warentest.de/wtest/plsql/sw_test.anzeige_beitrag?kontaktnr=0&tmp_inh_id=18364&tmp_zeitschrift=t&t
mp_ausgabe=8&tmp_jahr=2000 (19.11.00).
http://www.tomorrow.de/popup/test.html (19.11.00).
http://www.chip.de/PC2D/PC2DB/PC2DBA/PC2DBAA/pc2dbaa.htm?id=2271 (19.11.00).
Evaluierung hybrider Suchsysteme im WWW
Seite 74
Das hybride Konzept von QualiGo unterscheidet sich von dem hybriden Ansatz den Lycos
verfolgt. Hier werden keine Katalogeinträge mit roboterbasierten Treffern verschmolzen,
sondern sogenannte "positionierte" Webseiten. Dieses Konzept ähnelt dem von Goto.com
und bietet Seitenbetreibern die Möglichkeit sich, in Abhängigkeit von der Suchanfrage, die
Ranglistenposition unter den Suchergebnissen zu ersteigern. Dabei setzt der jeweilige
Kunde unter der gewünschten Suchanfrage das gewünschte Gebot ab. Je höher das Gebot,
desto höher die Position in der Trefferliste. Aktiviert der Suchmaschinennutzer bei einer
Suchanfrage solch einem ersteigerten Treffer, so erstattet der Seitenbetreiber, der die
Position ersteigert hat, den Betreibern der Suchmaschine den für die Position gebotenen
Betrag.
Evaluierung hybrider Suchsysteme im WWW
Seite 75
Die folgende Tabelle bietet einen Überblick über die zu untersuchenden Systeme:
Lycos.de230
AltaVista.de231
Qualigo232
Indexgröße
100 Millionen Urls
25 Mio Urls
Ca 1 Million Urls
Suchoptionen
Operatoren,
Operatoren
Länderspezifische
boolsche Ausdrücke
boolsche Ausdrücke
Einschränkung
Phrasen
Phrasen
Familienfilter aktivieren
Feldsuche
Feldsuche
bezahlte Links anzeigen
Eigene
Spracheinstellungen
Gewichtungskriterien
zusätzlicher Katalog
Quasi-Katalog der die
einstellbar
Themensuche
Eingabe von
integrierter Katalog
(Bilder, Musik, Video)
Suchbegriffen an die
Anzeige 10 Treffer
Anzeige 10 Treffer max. Maschine durch eine
200
verknüpfte hierarchische
Struktur ermöglicht
Anzeige 20 Treffer
Besonderheiten
DirectHit Technologie
Ein "nur Text" Interface Bezahlte Links
Zusatzdienste
ist zusätzlich verfügbar
(Email/Community/Provi Zusatzdienste (Email,
der/Übersetzung)
Provider/Übersetzung)
Integrierter Katalog
Im Vergleich wird ersichtlich, daß die Indexgröße in erheblichen Maße variiert und auch, daß
Lycos.de und AltaVista.de über "fortgeschrittene" Suchoptionen verfügen, die es dem Nutzer
ermöglichen komplexe und sehr spezifisch ausgerichtete Suchanfragen zu stellen. Diese
Fähigkeiten
werden
in
diesem
Vergleichstest
nicht
berücksichtigt,
da
einfache
Keywordanfragen durchgeführt werden, insofern wird die Suchmaschine Qualigo in dieser
Evaluation bevorteilt. Dies wird aber hingenommen, weil in dieser Untersuchung die
Retrievaleffektivität der Suchmaschinen bei typischen Gebrauch und nicht unter Ausnutzung
sämtlicher optionaler Retrievalfeatures evaluiert wird. Festzuhalten ist aber auch, daß durch
diesen Test keine Aussage über die tatsächlich erreichbare Retrievaleffektivität der
Suchmaschinen Lycos.de und AltaVista.de getroffen werden kann.
230
Angaben von Lycos.de und der Suchfibel, siehe http://www.suchfibel.de/3allgem/lycosde.htm (25.11.00).
Angaben von AltaVista.de und der Suchfibel, siehe http://www.suchfibel.de/3allgem/altavista.htm (25.11.00).
232
Angaben von Qualigo (26.11.00).
231
Evaluierung hybrider Suchsysteme im WWW
Seite 76
3.1.5 Erschließung der Informationsbedürfnisse und Suchanfragen
Zunächst wird die Entscheidung getroffen, auf überwiegend artifizielle Weise die
Suchanfragen zu erschließen. Der Grund hierfür liegt darin, daß bei einer direkten
Benutzerbefragung, nicht automatisch gefolgert werden kann, daß die so erschlossen
Suchanfragen typischen Suchanfragen auch wirklich entsprechen.233 Deshalb werden die
Suchanfragen auf folgende Weise erschlossen.
In der Mehrzahl der Fälle wird die "Keyworddatenbank" der Firma Suchtreffer verwendet, in
der die Suchanfragen einer großen Anzahl Suchmaschinen aufgezeichnet werden.234 Diese
Datenbank enthält gegenwärtig ungefähr zweieinhalb Millionen Einträge.235 Aufgrund dieser
enormen Anzahl wird hier davon ausgegangen, daß die Einträge dieser Keyworddatenbank
ein repräsentatives Abbild der Suchanfragen im Web wiedergeben.
Aus diesem Grund werden 30 der 50 zu erschließenden Anfragen plus 2 Suchanfragen für
den Pretest aus der Keyworddatenbank selektiert. Selektionskriterium ist dabei primär die
Abfragehäufigkeit. Aus den 200 häufigsten Abfragen werden jeweils 15 Einwort- und 15
Zweitwortanfragen für diese Untersuchung verwendet. Ausgeschlossen werden Anfragen,
die auf ein pornographische Informationsbedürfnis schließen lassen.
Einwortanfragen
Häufigkeit236
Zweiwortanfragen
Häufigkeit
mp3
2527
big brother
830
routenplaner
2296
deutsche bahn
792
sms
3551
last minute
728
chat
2095
britney spears
414
telefonauskunft
1029
möbelspeditionen münchen
73
yahoo
927
beate uhse
357
moorhuhn
1227
sms sprüche
183
spiele
1034
free sms
256
reisen
1057
verona feldbusch
220
auto
1106
börse bücher
139
wetter
1779
stiftung warentest
225
immobilien
891
gelbe seiten
192
stadtplan
834
flughafen frankfurt
83
233
Vgl. 2.4.2.3
Unter anderem Fireball, Infoseek.de und Lycos.de.
235
Eine öffentlich zugängliche Version mit geringerem Funktionsumfang fand sich bis Ende November unter
http://www.suchtreffer.de (28.11.00). Mittlerweile wird diese Datenbank nur noch intern für Mitarbeiter angeboten.
236
bezogen auf eine Million Abfragen
234
Evaluierung hybrider Suchsysteme im WWW
Einwortanfragen
Häufigkeit236
Zweiwortanfragen
Seite 77
Häufigkeit
job
768
deutsche bank
130
bildschirmschoner
703
star trek
95
Pretest:
Pretest:
auktionen
504
deutsche telekom
101
Die Vorteile der Einträge dieser Datenbank bei der Erschließung der Suchanfragen sind:
•
sie spiegeln typische verbalisierte Informationsbedürfnisse von Nutzer wieder.
•
sie reflektieren tatsächliches Suchverhalten in Bezug auf
•
Keywordanzahl
•
Syntax
•
Themen
Problematisch ist es allerdings die Informationsbedürfnisse die diesen Anfragen zugrunde
liegen zu rekonstruieren.237
Zur Rekonstruktion wird folgendes Verfahren verwendet:
Der Untersuchende unternimmt selbst einen ersten Rekonstruktionsversuch und fixiert die
„vermutlichen“ Informationsbedürfnisse schriftlich. Um subjektive Einflüsse weitgehend zu
eliminieren wird diese Vorlage dann anschließend von insgesamt 4 Personen238 in Bezug auf
"Objektivität" überprüft und schließlich in zwei Fällen "korrigiert" bzw. modifiziert.239
Betrachtet man die aus der Keyworddatenbank erschlossenen Suchanfragen näher, so zeigt
sich, daß sie von der Spezifität eher allgemein (reisen, auto) und von der Thematik her eher
freizeitbezogen
(spiele,
bildschirmschoner)
sind.
Aber
auch,
daß
geschlossene
Fragestellungen auftreten, die spezifisch auf eine "richtige" Antwort ausgerichtet sind
(telefonauskunft, yahoo). Daraus folgt, daß Informationsbedürfnisse die auf einer
geschlossenen Fragestellung240 beruhen, in einem Retrievaltest, der sich am realen
Nutzungskontext orientiert, nicht ignoriert werden dürfen.241
237
Einen eher satirischen Versuch aus Suchanfragen Informationsbedürfnisse zu erschließen unternimmt Klaus
Schallhorn, Tief Not Flieger, siehe http://suchfibel.de/aktuell/gastbeitrag/tiefnotflieger.htm (28.11.00).
"Rekonstruktionsversuche" in der Art, daß aus den Suchanfragen die Informationsbedürfnisse und
Relevanzkriterien rekonstruiert werden, finden in ähnlicher Form auch bei TREC statt, siehe
http://TREC.nist.gov/presentations/TREC9/overview/sld017.htm (28.11.00).
238
Zwei Mitarbeitern der Firma Suchtreffer, einem Mitarbeiter eines anderen "Internetunternehmens" und einem
Dozenten.
239
Der erste Fall war "mp3", hier wurde beschlossen, daß der Sucher bei der Eingabe dieser Suchnafrage eher
nicht nach MP3 Hardware sucht.
Im zweiten Fall handelte sich um die Suchanfrage "spiele", hier wurde entschieden , daß das
Informationsbedürfnis nicht auf Online-Spiele wie Netzwerkspiele zu beschränken ist.
240
Hierunter werden in dieser Arbeit Fragestellungen verstanden, deren zugrundeliegendes
Informationsbedürfnis mit der ersten richtigen Antwort befriedigt werden kann.
241
Die TREC Ad-hoc Tasks bestehen ausschließlich aus offenen Fragestellungen.
Evaluierung hybrider Suchsysteme im WWW
Seite 78
Damit sich die Repräsentativität der Suchanfragen und Informationsbedürfnisse nicht nur auf
die
Abfragehäufigkeit
Informationsbedürfnisse,
reduziert,
werden
die
ebenfalls
insgesamt
17
typischen
Suchanfragen
Suchanfragen
und
und
Informationsbedürfnissen von Nutzern entsprechen sollen, aus anderen Evaluationen
übernommen. Insbesondere soll so sichergestellt werden, daß auch, in der Realität
vorhandene, komplexere Informationsbedürfnisse berücksichtigt werden.
Die aus TREC ausgewählten Informationsbedürfnisse werden aus den "TREC-8 cross
language topics in German" und Web Track entnommen.242 Aus den gegebenen
Informationsbedürfnissen
und
Relevanzkriterien
werden
vom
Untersuchenden
die
Suchanfragen generiert. Diese wurden wieder von denselben 4 Personen nachgeprüft.
TREC Topics
No 55
abtreibungen anzahl statistik schwangerschaft schwangerschaftsabbrüche
No 61
bundeswehr un auslandseinsatz
No 66
waffenexport türkei
No 67
weltraumschrott gefahren
No 68
homosexualität recht gesetzgebung adoption eheschließung heirat
No 71
delphine schleppnetzfischen gefahr
No 81
tierschutz organisationen rettung geschützter Arten
Web Track
britisch argentinische beziehungen
Zwei weitere Suchanfragen werden von Courtois und Berry übernommen und übersetzt und
die Relevanzkriterien sowie die Informationsbedürfnisse rekonstruiert (s.o.).243
Courtois und Berry
kreditkartenbetrug online handel
ira nordirland konflikt friedensprozeß
Weitere 7 Suchanfrage wurden von den Milos I & II Retrievaltests ausgewählt.244
242
Zu finden unter http://TREC.nist.gov/data/topics_noneng/index.html (28.11.00).
Martin P. Courtois, Michael W. Berry, Results Ranking in Web Search Engines, in: Online May 1999, siehe
http://www.onlineinc.com/onlinemag/OL1999/courtois5.html (28.11.00).
243
Evaluierung hybrider Suchsysteme im WWW
Milos I
Milos II
widerstand nationalsozialismus
alarmanlagen auto
folgen scheidung kinder
behandlung schlaganfall
ergonomie arbeitsplatz
reiseführer toskana
Seite 79
medizin drittes reich
Schließlich werden drei Suchanfragen und Informationsbedürfnisse durch Befragung von
Mitarbeitern der Firma Suchtreffer erschlossen.
Suchtreffer
umts lizenzen auktion teilnehmer preise gewinner
vorlagen microsoft word
goldmedaillen gewinner marathonlauf olympische spiele 2000 sydney
Das insgesamt nach fünf Quellen diversifizierte Auswahlverfahren soll einer zu engen und
einseitigen
Ausrichtung
an
den
Selektionsmechanismen
und
-kriterien
einer
Erschliesungsressource vorbeugen. Das quantitative Übergewicht der Suchanfragen der
Keywortdatenbank ist aber beabsichtigt, da allein bei dieser Quelle eine direkte empirische
Absicherung über Anfragehäufigkeiten gegeben ist.
Die
Aufnahme
natürlichsprachiger
Anfragen,245
sowie
die
Durchführung
von
Dokumentrecherchen246 wurde angedacht, aber aus thematischen Gründen - solche
Anfragen sind laut den Einträgen der Keyworddatenbank extrem selten - wieder verworfen.
3.1.6 Durchführung der Suchanfragen
Da die Suchanfragen auf artifizielle Weise erschlossen werden und das typische Verhalten
der Suchmaschinennutzer bei Suchanfragen bekannt ist,247 kann bei der Durchführung der
244
Elisabeth Sachse, Martina Liebig, Winfried Gödert, Automatische Indexierung unter Einbeziehung
semantischer Relationen: Ergebnisse des Retrievaltests zum MILOS II-Projekt, in: Kölner Arbeitspapiere zur
Bibliotheks- und Informationswissenschaft, Band 14 1998, S.15-16.
245
Z.B die Suchanfrage "was sind die gegenwärtigen preise für g3 powerbooks"
246
Sogenannte „Known Item Searches“ z.B. eine Suche nach der Magisterarbeit von Sven Körber "Suchmuster
erfahrener und unerfahrener Suchmachinennutzer im deutschsprachigen World Wide Web. Ein Experiment,
Münster 2000, zu finden auf der Website http://kommunix.unimuenster.de/IfK/examen/koerber/suchmuster.pdf(30.08.00). Vgl. Mechtild Stock, Wolfgang G. Stock, InternetSuchwerkzeuge im Vergleich, Teil 1: Retrievaltest mit Know Item Searches, in: Password 11/2000, S.23-31.
247
kaum Gebrauch von Operatoren, kaum Gebrauch von "Advanced Search Features", vgl. 2.4.1.3
Evaluierung hybrider Suchsysteme im WWW
Seite 80
Suchanfragen auf eine Mitwirkung realer Nutzer verzichtet werden. Die Suchanfragen sind
somit vom Untersuchenden selbst durchzuführen.
Die Durchführung wird dahingehend standardisiert, daß jede Suchanfrage in das
Standardtexteingabefeld der jeweiligen Suchmaschine eingetragen und die Ergebnisseiten
der Suchmaschinen unmittelbar darauf gespeichert werden. Danach sind die einzelnen
Trefferseiten zu sichten und lokal zur Verfügung zu stellen, um sicherzustellen, daß die
Ergebnisseiten bezüglich des originalen Inhalts248 bewertet werden können. Der Zeitraum für
die Durchführung einer Suchanfrage bei allen untersuchten Systemen soll dabei einen
Rahmen von zwei Stunden nicht überschreiten.249
Sollten sich Probleme betreffend der Verfügbarkeit einzelner Suchmaschinen, wie z.B. eine
Serverüberlastung ergeben, so ist die jeweilige Suchanfrage für alle Maschinen zu einem
Zeitpunkt, zu dem alle Maschinen verfügbar sind, zu wiederholen.
Ergebnisseiten, auf die aufgrund von Serverfehlern nicht zugegriffen werden kann,250 sind
innerhalb
von
zwei
Stunden
wiederholt
anzusteuern
(mindestens
dreimal)
um
sicherzustellen, daß kurzzeitige Ausfälle, die umgehend behoben werden, das Testergebnis
nicht beeinflussen. Ergebnisseiten, auf die auch nach Ablauf dieser Frist nicht zugegriffen
werden kann, sind aber als Fehlerseiten zu speichern. Da längerfristig nicht erreichbare
Seiten, aus Nutzersicht, keinen Informationswert besitzen, sind solche Ergebnisseiten der
Suchmaschinen diesen auch "zur Last" zu legen.
Die Darstellung der Ergebnisseiten, die Präsentation der Information muß sich möglichst eng
an der Originaldarstellung im Web anlehnen, damit durch etwaige "Konvertierungsverluste",
die z.B. bei Ausdrucken oder reinen Textversionen entstehen,251 die Relevanzbeurteilung der
Juroren nicht verzerrt wird.252
Um dies zu erreichen sind die Ergebnisseiten bei der Bewertung von den Juroren mit einem
Browser der vierten Generation zu betrachten, die von über 95% der Internetnutzer
verwendet werden.253
248
Das ist zum Zeitpunkt der Suchanfragendurchführung, Verzerrungen durch Aktualisierungen im Web soll so
vorbeugt werden.
249
Idealerweise sollten die Suchanfragen zum gleichen Zeitpunkt bei allen Maschinen durchgeführt werden. Der
zugestandene Zeitkorridor von zwei Stunden pro Suchanfrage wird hier als hinreichende Näherung an dieses
Ideal verstanden, da davon ausgegangen wird, das sich in diesem Zeitraum weder der Index der Suchmaschinen,
noch der Inhalt oder die Verfügbarkeit der Ergebnisseiten merklich ändert.
250
"Connection refused error"
251
Gemeint sind vor allem dynamische Elemente wie Mouseovereffekte, Pulldownmenüs, Layer usw, die im
weitesten Sinne auf der Verwendung von z.T. browserspezifischen Fähigkeiten in Bezug auf der Interpretation
von Javascript-, Dhtml-, CSS- oder Javaelementen in Webseiten beruhen.
252
Vgl. 3.1.3.1.1.2
253
Siehe http://www.webhits.de/webhits/inetstat.htm (28.11.00).
Evaluierung hybrider Suchsysteme im WWW
Seite 81
Um abzusichern, daß die Ergebnisseiten originalgetreu gesichert werden, wurden mehrere
"Mirrortools" getestet, die Ergebnisse waren aber ungenügend.254 Deshalb wird entschieden
zur Sicherung der Webseiten die "Offline verfügbar machen" Funktion des Browsers Internet
Explorer 5.0 von Microsoft zu nutzen, die es ermöglicht Webseiten, inklusive Bildern und
dynamischen Elementen, lokal verfügbar zu machen.255 Allerdings läßt sich diese Funktion
nicht im notwendigen Maße konfigurieren, um die Sicherung der Ergebnisseiten zu
automatisieren,256 so daß für die Durchführung der Suchanfragen inklusive Sicherung der
Ergebnis- und Trefferseiten ein Zeitraum von zwei Wochen veranschlagt wird.257
3.1.7 Testanordnung
Der Aufbau der Testanordnung ist durch die genannten Punkte schon weitgehend
determiniert. Jede Suchanfrage ist nur von einer Person zu bewerten um das Problem der
interpersonellen
Unterschiede
bei
der
Relevanzbestimmung
zu
vermeiden.
Die
Bewertungsgrundlage bilden dabei ausschließlich die möglichst originalgetreu replizierten
Trefferseiten, auf eine Bewertung der Ergebnisseiten der Suchmaschinen wird verzichtet um
eine Beeinflussung durch eventuell vorhandene Vorlieben auszuschließen.
Insgesamt hat jeder Juror jeweils 120 Webseiten zu beurteilen. Der zeitliche Aufwand pro
Person wird dabei auf ca. eine Stunde geschätzt.
Um die Dublettenproblematik möglichst wirklichkeitsnah zum Ausdruck zu bringen, werden
die jeweiligen Treffer den Juroren in der richtigen Reihenfolge präsentiert. Im einzelnen bleibt
es ihnen selbst überlassen zu beurteilen, ob eine Dublette vorliegt oder nicht.
Für den Testablauf bedeutet dies, der jeweilige Juror bewertet nacheinander die Treffer 1-20
der Suchmaschine A, dann die der Maschine B, schließlich die der Maschine C.
254
Beispielsweise wurden Javascripte häufig unkorrekt wiedergegeben.
Die Verwendung dieses Browsers ist auch durch den hohen Nutzungsgrad gerechtfertigt.Laut Webhits wird er
von rund zwei Drittel aller Internetnutzer verwendet, siehe http://www.webhits.de/webhits/browser.htm (02.12.00).
Damit die Benutzer auch die passenden Seiten und nicht etwa Seitenversionen für Browser ohne oder
mitdeaktiviertem Java, die erheblich voneinander unterscheiden können, bewerten sind dabei die Funktionen
Aktive Scripting, CSS und Java zu aktivieren, siehe ebd.
256
Z.B. durch Filtermechanismen die ausgehend von den Ergebnislisten der Suchmaschinen eine exakte
Spezifizierung der zu speichernden Seiten ermöglichen.
257
Insgesamt sind 3250 Seiten lokal abzuspeichern. Je 100 Ergebnisseiten von Lycos.de und Altavista.de (zu je
10 Trefferseiten), 50 Ergebnisseiten von Qualigo.de (zu je 20 Trefferseiten) und die 3000 Trefferseiten selbst (50
Suchanfragen x 20 ersten Treffer x drei Suchmaschinen)
255
Evaluierung hybrider Suchsysteme im WWW
Suchanfrage A
Maschine A
Seite 82
Suchanfrage B
Maschine B
Maschine C
Maschine A
Maschine B
Maschine C
jeweils Bewertung Treffer 1-20 der
jeweils Bewertung Treffer 1-20 der
Suchmaschinen
Suchmaschinen
Zeitablauf
Juror X
Diese Verfahren entspricht am ehesten einen "Repeated Measures Design", denn es werden
dieselben Einflußfaktoren (Suchanfragen/-ergebnisse) aller Untersuchungsgegenstände
(Suchmaschinen) den Juroren (Testsubjekte) zugeordnet.258
Problematisch an diesem Design ist, daß Lern- oder Ermüdungseffekte auftreten können.
Diese sollen dadurch kompensiert werden, daß bei jeder Frage die Reihenfolge der
Zuordnung der Suchmaschinen variiert wird.
Suchanfrage
Suchmaschine A
Suchmaschine B
Suchmaschine C
1 mp3
AltaVista
Lycos
QualiGo
2 routenplaner QualiGo
AltaVista
Lycos
3 sms
Lycos
QualiGo
AltaVista
4 chat
AltaVista
Lycos
QualiGo
usw.
usw.
usw.
usw.
* Bei der Suchanfrage „mp3“ stammen die Treffer der Liste A von AltaVista, die der Liste B von Lycos
und die der Liste C von QualiGo. Bei der nächsten Suchanfrage „routenplaner“ stammen die Treffer
der Liste A von QualiGo, die der Liste B von AltaVista und die der Liste C von Lycos usw.
Der zeitliche Ablauf jedes Tests ist wie folgt festgelegt:
Die Testpersonen erhalten eine kurze mündliche Erläuterung des Themas der Evaluation
und ihrer Aufgabe als Juroren.
Danach bekommen sie den, auf die jeweilige Testperson abgestimmten, Fragebogen259
ausgeteilt, auf dem die Aufgabenstellung schriftlich aufgeführt ist.
Auf
dem Fragebogen sind einige persönliche Angaben über Alter, Geschlecht,
Computer/Softwarekompetenz,
sowie
der
Häufigkeit
der
Internet-
und
Suchmaschinennutzung schriftlich anzugeben. Diese Angaben dienen dazu, die technische
Kompetenz der Probanden zu erfassen.
258
Jean Tague-Sutclife, The Pragmatics of Information Retrieval Experimentation, Revisited, in: Karen Sparck
Jones, Peter Willett (Hg), Readings in Information Retrieval, San Francisco 1997, S.205-216, S.210-212.
Evaluierung hybrider Suchsysteme im WWW
Seite 83
Auf einem weiteren Blatt werden die Juroren darauf hingewiesen, daß sie die Seiten so
bewerten sollen, als ob die sie selbst das zugrundeliegende Informationsbedürfnis
verspürten und die Suchanfrage eingegeben hätten. Ebenfalls wird erwähnt, daß das
Relevanzurteil möglichst spontan, ohne langes Nachdenken gefällt werden soll.
Abschließend wird die Dublettenproblematik angeführt und bestimmt, daß Dubletten
höchsten einmal, beim ersten Mal relevant sein können. Abschließend wird darauf
hingewiesen, daß die einzelnen Listen (Trefferseiten der Suchmaschinen) und Dokumente
unabhängig voneinander zu bewerten sind. Durch diese Anweisungen sollen die Juroren
dazu angehalten werden, die Relevanzbeurteilung möglichst dem von typischen
Internetnutzern nachzubilden.
Unterdessen wird der benötigte Webbrowser - Internet Explorer 5.0 - gestartet und auf die
richtigen Einstellungen überprüft, "Active Scripting" und "Java" müssen aktiviert sein. Dies
soll sicherstellen, daß alle zu bewertenden Webseiten richtig wiedergegeben werden.
Die Untersuchung wird gestartet, in dem der Proband aus der erstellten Favoritenliste, den
für ihn passenden Ordner selektiert und die Links in der gegebenen Reihenfolge traversiert.
Das zu fällende Relevanzurteil wird auf der für jede Suchanfrage pro Maschine A, B und C
vorhandene Bewertungsblatt eingetragen. Auf diesen Bewertungsblättern sind am Kopf der
Seiten jeweils das Thema, die Query (Suchanfrage), das Informationsbedürfnis und die
Relevanzkriterien schriftlich formuliert. Der Juror trägt durch ankreuzen ein, ob eine
Trefferseite relevant ist, auf relevante Seite(n) verweist oder nicht relevant ist.
Während der Tests sollen die Probanden bei der Relevanzbeurteilung nicht beeinflußt
werden, weshalb der Untersuchende zwar für Rückfragen zur Verfügung steht, aber nur
solche technischer Art beantwortet. Bei Fragen zur Relevanzbeurteilung einzelner
Dokumente, werden nur die schriftlich vorliegenden Kriterien wiederholt und ansonsten ist
auf das subjektive Urteilsvermögen der jeweiligen Testperson hinzuweisen.
Insgesamt ist die Testanordnung daraufhin angelegt, daß mehrere Tests gleichzeitig
durchgeführt werden können, um den Zeitraum für die Durchführung der einzelnen Tests
möglichst auf zwei Wochen begrenzen zu können.
259
Vgl Fragebogenbeispiel im Anhang.
Evaluierung hybrider Suchsysteme im WWW
Seite 84
3.1.8 Datenerfassung
Es sind zwei Arten von Daten zu erfassen. Erstens die Bewertungen der Testpersonen und
zweitens die Angaben, welche die Juroren Bezugnehmend auf ihre technische Qualifikation
sowie ihr Alter, Geschlecht und momentanen Gemütszustand gemacht haben.
Beide Kategorien von Daten werden in kodierter Form auf dem Fragebogen erfaßt, dabei
werden jeweils verschiedene Kategorien vorgegeben.
Bei den personenbezogenen Daten sind dies:
•Alter
0-20, 21-30,31-40, 41-50, 51-60
•Geschlecht
männlich, weiblich
•Computer-/Softwarekompetenz
Anfänger, Fortgeschrittener, Experte
•Nutzungshäufigkeit Internet
selten bis nie, mehrmals pro Woche, täglich
•Nutzungshäufigkeit von Suchmaschinen und anderen Retrievalsystemen
selten bis nie, mehrmals pro Woche, täglich
•Gemütszustand (Wie fühlen sie sich gerade?)
-2, -1, 0, 1, 2
Der Grund für die Erfassung der personenbezogenen Daten ist, daß durch diese Angaben
bei der Auswertung sichergestellt werden kann, daß nur die Relevanzurteile "kompetenter"
Juroren analysiert werden.
Die Erfassung des Gemütszustandes ermöglicht es bei der die Analyse festzustellen, ob die
Teilnahme an den Tests für die Juroren eine psychische Belastung dastellt. Die Erfassung
des Gemütszustandes dient also dazu, Hinweise zu gewinnen, inwieweit das Testsetting die
Probanden belastet, ohne eine solche Belastung, mit der direkten Abfrage der
"Angemessenheit" der Dauer und Anstrengung schon indirekt zu implizieren.
Die Relevanzurteile bilden die Grundlage für die Analyse der Retrievaleffektivität.
Die Juroren stufen dabei jede Seite entweder als "relevant", "verweist auf relevante Seite(n)"
oder als "nicht relevant" ein.
Der Verzicht auf eine ausdifferenziertere Relevanzeinstufung erleichtert die spätere
Agreggierung der Relevanzurteile und somit die Ergebnisanalyse. Die Verwendung von
Evaluierung hybrider Suchsysteme im WWW
Seite 85
Papierfragebögen bietet den Vorteil, daß den Juroren eine Korrektur "falscher" Urteile auf
einfache Weise möglich bleibt.
Angedacht wurde auch die Generierung einer Datenbank, die die Testdaten bereits bei der
Testdurchführung aufnimmt und automatisch verschiedene Sichten auf die Daten ermöglicht.
Der hierfür erforderliche Aufwand erscheint unter den gegeben Rahmenbedingungen
allerdings zu hoch.260
Über das Verhalten der Juroren während der Tests werden keine Daten gesammelt, weil
diese sich so "natürlich" wie möglich verhalten sollen261 und bei dieser Untersuchung die
Interaktion mit den Trefferseiten nicht evaluiert wird.
Die gesammelten Daten werden schließlich in das Tabellenkalkulationsprogramm Microsoft
Excel eingetragen und aufbereitet. Auf die Verwendung eines Statistikprogramms wird
verzichtet, da zum einen keine zusätzlichen Kosten entstehen sollen und zum anderen, die
notwendige Zeit für die Einarbeitung in ein Statistikprogramm nicht vorhanden ist.
3.1.9 Datenauswertung
Bei der Datenauswertung werden zunächst die Relevanzurteile binär aggregiert, in dem die
als "verweist auf relevante Seite(n)" eingestuften Webseiten, als "relevant" bewertet werden.
Problematisch daran ist, daß die bei der Testdurchführung getroffene qualitative
Unterscheidung dieser Seiten, im Vergleich zu den inhaltlich relevanten Seiten
vernachlässigt wird.262 Die Alternative wäre eine mathematisch graduelle Abstufung,
beispielsweise eine Punktezahl, zu benutzen und diese Seiten erst dann den relevanten
Seiten zuzuschlagen.263
Ein solche Relevanzabstufung wird hier bei der Datenauswertung abgelehnt. Denn es ist
denkbar, daß eine "verweist auf relevante Seite(n)" Webseite, zur Lösung des
Informationsbedürfnisses hilfreicher sein kann, als eine inhaltlich relevante Seite.
260
Zur Entwicklung der Datenbank zur Auswertung der Ergebnisse des Projektkurses Insyder im WS 99/00
benötigten zwei Personen rund vier Wochen, siehe http://kniebach.fmi.unikonstanz.de/bscw/bscw.cgi/0/346940/projektkurs.mdb (30.11.00). Zugangsberechtigung erforderlich!
261
Hiermit ist der sogenannte Hawthorne Effekt gemeint, vgl. Jean Tague-Sutcliffe, The Pragmatics of Information
Retrieval Experimentation, Revisited, in: Karen Sparck Jones, Peter Willett (Hg), Readings in Information
Retrieval, San Francisco 1997, S.205-216, S.212.
262
Der Benutzer muß eine Webseite zusätzlich traversieren, um zu relevanten Informationen zu gelangen.
263
Ein solches Vorgehen befürworten Oppenheim, Morris und McKnight. Sie vergeben Punktezahlen:
1 für inhaltlich relevant
0,5 für teilsweise relevant (verweisen auf relevante Seiten)
0 nicht relevant
Vgl. C. Oppenheim, A. Morris, C. McKnight, S. Lowley, The evaluation of WWW search engines, in: Journal of
Documentation, Vol. 56 No. 2, March 2000, S.190-211, S.198.
Evaluierung hybrider Suchsysteme im WWW
Seite 86
relevante Seite
verweist auf relevante Seite(n)
relevante Seite
verweist auf relevante Seite(n)
relevante Seite
Wie die Grafik zeigt beispielsweise dann, wenn eine inhaltlich nicht relevante Seite zu einer Vielzahl
relevanter Seiten verweist, diese selbst aber keine Verknüpfungen zu anderen relevanten Seiten
aufweisen.
Insofern läßt sich bei der Ergebnisauswertung eine qualitativ begründete quantitative
Ausdifferenzierung zwischen beiden Seitentypen nicht aufrechterhalten.
Um die erste Testhypothese
•
hybride
Systeme
erreichen
eine
höhere
Retrievaleffektivität
als
rein
roboterbasierte Systeme
zu überprüfen, sind jeweils die Mean Average Precision der Top20 Treffer der drei
Suchmaschinen auszurechnen und paarweise zu vergleichen.
Lycos : AltaVista
Lycos : QualiGo
AltaVista : QualiGo
Bei der Berechnung der Mean Average Precision ist es unerheblich, ob die Mikro- oder die
Makromethode verwendet wird - da die Anzahl der betrachteten Dokumente für jede
Suchanfrage konstant bleibt, sind die Werte identisch. Die Makromethode gilt allerdings als
ein dem Benutzerstandpunkt entsprechender Ansatz, da sie im Gegensatz zur
Mikromethode nicht die einzelnen Dokumente, sondern die einzelnen Suchanfragen als
Grundgesamtheit betrachtet, deshalb wird sie verwendet.264
264
Die Makromethode betrachtet zunächst die einzelnen Suchanfragen als Grundeinheit, d.h. zuerst werden die
Precisionwerte pro Suchanfrage berechnet und dann die Werte der Suchanfragen gemittelt, somit fließt jede
Suchanfrage gleichgewichtig in die Bewertung ein. Die Mikromethode betrachtet die Dokumente an sich als
Evaluierung hybrider Suchsysteme im WWW
Seite 87
Zusätzlich ist auszuwerten, welche Suchmaschinen bei welchen Suchanfragen welche
Retrievaleffektivität aufweisen, auch hier findet ein paarweiser Vergleich statt.
Lycos : AltaVista
Lycos : QualiGo
AltaVista : QualiGo
Zur Überprüfung der zweiten Testhypothese
•redaktionell erzeugte Treffer bewirken eine höhere Effektivität des hybriden
Retrievalsystems.
muß die Precision aller redaktioneller Treffer von Lycos mit der Precision aller maschinell
erzeugter Treffer verglichen werden. Da die These gesamtsystembezogen auf eine,
dokumentorientierte Betrachtung abzielt, ist hierbei die Mikromethode anzuwenden.
Um festzustellen, inwieweit die redaktionellen Treffer sich auf die Effektivität von Lycos
auswirken ist die Top20 Precision und die Effektivität bei den Suchanfragen im Vergleich
Lycos mit redaktionellen Treffern : Lycos ohne redaktionelle Treffereinträgen
zu ermitteln.
Um die Effektivität der Roboterkomponente von Lycos im Vergleich zu den anderen
Suchmaschinen festzustellen, ist die Top20 Precision und die Effektivität bei den einzelnen
Suchanfragen in der Gegenüberstellung
Lycos ohne redaktionelle Treffer : AltaVista
Lycos ohne redaktionelle Treffer : QualiGo
darzustellen
Um die statistische Validität dieser Ergebnisse abzusichern, ist es notwendig, diese auf
Signifikanz hin zu überprüfen. Erst dadurch wird es möglich zu entscheiden, ob die
ermittelten Unterschiede ausreichen265 die Aufrechterhaltung der Testhypothesen zu
rechtfertigen.
Zunächst sind dazu die entsprechenden Nullhypothesen zu formulieren die besagen, daß
keine Unterschiede zwischen den verglichenen Objekten bestehen.
Bei der ersten Testhypothese lautet diese:
Grundeinheit und berechnet unabhängig von der Trefferanzahl der einzelnen Suchanfragen das Verhältnis der
relevanten Treffer zu allen Treffern, dadurch fließt jedes Dokument gleichgewichtig in die Bewertung mitein. Vgl.
Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, NewYork 1989, S.67-68.
265
Sidney Siegel, Nichtparametrische statistische Methoden, Eschborn 1987, S.7.
Evaluierung hybrider Suchsysteme im WWW
•
Seite 88
hinsichtlich der Retrievaleffektivität gibt es keine Unterschiede zwischen den
untersuchten Systemen.
Bei der zweiten Testhypothese lautet diese:
•
redaktionell erzeugte Treffer bewirken keine höhere Effektivität des hybriden
Systems.
Danach ist die Wahrscheinlichkeit für das Zutreffen der Nullhypothesen anhand des
festzulegenden Signifikanzniveaus, daß hier auf den Standardwert 0,05 angesetzt wird266
mittels eines geeigneten Verfahrens zu überprüfen. Da nicht davon ausgegangen werden
kann, daß die ermittelten Daten normalverteilt sind ist ein nichtparametrisches Verfahren zu
wählen.
Als Methode wird der Vorzeichentest verwendet, da er lediglich voraussetzt, daß die
unabhängigen Variablen der Untersuchung gleich sind267 - was bezüglich Suchanfragen,
Juroren und Relevanzkriterien gewährleistet ist.268
Diese oft als "Trendtest" bezeichnete Methode erlaubt nur Aussagen darüber, ob ein
Unterschied besteht oder nicht, eine Aussage über die Höhe der Differenz ist nicht
möglich.269 Zur statistischen Validierung der Testhypothesen ist dieses Verfahren
hinreichend.270
Um Differenzen bei der Effektivität, in Abhängigkeit der verschiedenen Suchanfragetypen,
Suchwortanzahl und Art der Fragestellung zu erfassen ist desweiteren die Top20 Precision
bei den Einwort- und Mehrwortanfragen, sowie den offenen und geschlossenen
Suchanfragen zu bestimmen.
Ergänzend ist die "Expected Search Length" bei den geschlossenen Fragen zu ermitteln, um
festzustellen durch welche Anzahl von Treffereinträgen ein Nutzer durchschnittlich
navigieren muß, bis er ein relevantes Dokument findet.
Alle ausgewerteten Ergebnisse werden tabellarisch und/oder grafisch aufbereitet.
266
Der Standardwert scheint ausreichend, da die formulierten Testhypothesen keiner anerkannten Theorie oder
These widersprechen. Vgl. Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, NewYork 1989, S.88-89.
267
Sidney Siegel, Nichtparametrische statistische Methoden, Eschborn 1987, S.65.
268
Siehe 3.1.3.
269
Christa Womser-Hacker, Der Padok-Retrievaltest, Zürich, NewYork 1989, S.157-158.
270
Kann aber nur dann Aufschluß darüber geben, ob die Testhypothesen zutreffen, falls sich die Precisionwerte
der untersuchten Systeme unterscheiden und die Relevanz der redaktionell erzeugten Treffer höher ist, als die
der automatisch erzeugten Treffer. Zur genauen Vorgehensweise bei diesem Verfahren vgl. Sidney Siegel,
Nichtparametrische statistische Methoden, Eschborn 1987, S.65-72.
Evaluierung hybrider Suchsysteme im WWW
Seite 89
3.1.10 Ergebnispräsentation
Die Ergebnispräsentation sind die vorliegende schriftliche Ausarbeitung, und die in
elektronischer Form vorliegenden Daten.
Diese umfassen:
•
die schriftliche Ausarbeitung (Word 97)
•
die gewonnen Daten in Form von Auswertungstabellen (Excell 97 Format)
•
die statistischen Auswertungstabellen (Excell 97)
•
die Ergebnisseiten der Suchmaschinen und die Trefferseiten (HTML)
•
die schriftlich fixierten Suchanfragen und Informationsbedürfnisse (Word 97)
•
die Vorlagen für die einzelnen Fragebögen (Word 97 und HTML)
•
den Verteilungscode für die Anordnungsvariation der Suchmaschinen bei den
verschiedenen Anfragen
Die Dateien werden auf einer CD archiviert und der Arbeit beigelegt.
3.2 Pretest
Vor der Durchführung der Tests ist die Tauglichkeit des bis hierhin entwickelten Testdesigns
zu überprüfen und gegebenenfalls zu modifizieren.
Da zwischen Suchanfragendurchführung und Bewertung der Trefferseiten ein möglichst
geringer Zeitraum liegen soll. Werden die Suchanfragen erst unmittelbar vor den Tests
durchgeführt und beim Pretest sowie den Tests in die Testanordnung mit integriert.
Der Pretest gliedert sich folglich in zwei Teile: die Durchführung der Suchanfragen und die
Beurteilung der Trefferseiten durch die Juroren.
3.2.1 Durchführung der Suchanfragen
Um herauszufinden, ob das Testdesign für geschlossene und offene Suchanfragen
gleichermaßen geeignet ist, wird jeweils eine Frage jeder Art für den Pretest verwendet.
Die offenen Fragestellungen werden dabei durch die Suchanfrage „auktionen“, die
geschlossenen Fragestellungen durch die Suchanfrage „deutsche telekom“ repräsentiert.
Suchanfrage
Informationsbedürfnis
Relevanzkriterien
Evaluierung hybrider Suchsysteme im WWW
Seite 90
Suchanfrage
Informationsbedürfnis
Relevanzkriterien
auktionen
Benutzer will auf einer Auktionsseite im Internet ein Relevant
sind
alle
Produkt ersteigern oder sich erstmal auf einer Auktionsseiten
im
Auktionsseite umsehen bzw. sich über Auktionen Internet,
aber
auch
informieren
die
über
Seiten,
Online-Auktionen
informieren
deutsche telekom Benutzer sucht die Homepage der Deutschen Relevant
Telekom
ist
Homepage
die
der
Deutschen Telekom
Die Suchanfragen des Pretests können nur bei den Suchmaschinen AltaVista und Lycos
durchgeführt werden, da QualiGo zu diesem Zeitpunkt noch nicht zur Verfügung steht.
Die Ergebnislisten werden inklusive Bilder und Javascript, lokal mit Hilfe des Browsers
Internet Explorer 5.0 gespeichert und die Trefferseiten mit der Funktion „offline verfügbar
machen“ als Favoriten in entsprechende Favoritenordner „pq1 auktionen“ und „pq2 deutsche
telekom“ in der richtigen Reihenfolge pro Suchmaschine aufgelistet. Der gesetzte
Zeitrahmens von zwei Stunden für die Suchanfragendurchführung konnte problemlos
eingehalten werden.
Danach wird die Internetverbindung des Rechners getrennt, um zu überprüfen, ob diese
Methode die Seiten lokal verfügbar zu machen funktioniert. Bei der Suchanfrage „auktionen“
werden jedoch bei der Suchmaschine AltaVista drei und bei der Suchmaschine Lycos zwei
Ergebnisseiten ohne Netzverbindung nicht angezeigt.
Deshalb müssen diese nachträglich manuell auf Festplatte gespeichert und danach bei den
Favoriten eingeordnet werden, wodurch der vorgegebene Zeitrahmen überschritten wurde.
Durch diese „Korrektur“ zeigt sich, daß es notwendig ist direkt nach Durchführung der
Suchanfrage zu überprüfen, ob alle Seiten korrekt wiedergegeben werden. Bei Bedarf
müssen diese Seiten dann direkt anschließend manuell lokal gespeichert werden, um den
Zeitrahmen von zwei Stunden einzuhalten.
3.2.2 Relevanzbeurteilung der Juroren
Als Juroren werden zwei Personen ausgewählt, ein Mitarbeiter der Firma Suchtreffer und ein
Dozent der Informationswissenschaft an der Universität Konstanz.
Evaluierung hybrider Suchsysteme im WWW
Seite 91
Da die eigentlichen Tests sowohl bei der Firma Suchtreffer als auch im CIP-Pool des
Fachbereichs Informatik und Informationswissenschaft durchgeführt werden sollen, ist es
notwendig je einen Test an jeder Örtlichkeit durchzuführen.
Die Pretests der Relevanzbeurteilung der Juroren sollen insbesondere aufzeigen, ob das
Testdesign Mängel in Bezug auf Faktoren wie benötigte Zeitdauer, persönliche Belastung,271
Aufgabenstellung oder Schulung aufweist.
Der Test bei Suchtreffer verläuft sehr positiv. Er dauert ungefähr eine halbe Stunde. Im
anschließenden Gespräch mit dem Probanden werden etwaige Problembereiche diskutiert.
Laut Aussagen der Testperson, sei eine weitergehende „Schulung“ der Testperson, etwa
durch eine Trainingsphase unnötig, da die Aufgabenstellung der Juroren auf dem
Fragebogen hinreichend ausgeführt und erklärt und zudem intuitiv verständlich sei. Die
Testdauer wird somit als angemessen betrachtet, eine Steigerung um ein Drittel durch die
Hinzunahme von QualiGo als unkritisch gesehen.
Ebenso wird von der Testperson ausgesagt, daß die Herkunft der Trefferseiten durch die
Anordnung des Testdesigns nicht zu erschließen sei. Die Testanordnung mit der zweifachen
Wiederholung unterschiedlicher Trefferlisten zu identischen Suchanfragen272 wird von der
Testperson als unkritischer Faktor betrachtet, da die Treffer ja eindeutig zuzuordnen und bei
etwaiger Unsicherheit bezüglich Dubletten wiederholt gesichtet werden könnten.
Der zweite Pretest an der Universität verläuft hingegen eher negativ. Einerseits wird die
Testanordnung an sich vom Probanden positiv beurteilt – insbesondere wird die zweifach
wiederholte Anordnung der Trefferseiten aufgrund der Dublettenproblematik einer
Zufallsanordnung vorgezogen – andererseit zeigte sich, daß das Verfahren der
Suchanfragendurchführung modifiziert bzw. grundlegend neu konzipiert werden muß.
Der Grund hierfür liegt in der Tatsache begründet, daß im CIP-Pool die „offline verfügbar
machen“
Funktionalität
des
verwendeten
Browsers
gezielt
deaktiviert
war.
Das
obengenannte Verfahren, Webseiten lokal zu speichern, kann also nicht angewendet
werden.273
271
Im weitesten Sinne, d.h. Monotonie, Überanstrengung usw.
Vgl. 3.1.7.
273
Der Untersuchende machte auch nicht die Annahme, daß diese Funktionalität im benötigten Zeitraum zur
Verfügung gestellt werden würde.
272
Evaluierung hybrider Suchsysteme im WWW
Seite 92
Als Alternative wird der Aufbau einer „Testwebsite“274 beschlossen. Sie soll so aufgebaut
sein, daß die Testpersonen auf einer Teststartseite eine jeweils für sie eingerichtete
Webseite aktivieren, die wiederum Links zu den einzelnen Trefferlisten beinhaltet, über
welche wiederum die einzelnen Trefferseiten gesichtet werden, werden können.
Für den Aufbau dieser Website, mit deren Hilfe die 3000 Ergebnisseiten den Testpersonen
zugänglich gemacht werden sollen, werden zusätzlich drei Tage veranschlagt. Um den
Aufwand für und die Fehlerquote innerhalb dieser Website in Grenzen zu halten, wird
beschlossen die Ergebnisseiten über „normierte“ Links zugänglich zu machen. Das bedeutet,
daß die einzelnen Trefferlisten immer über gleich benannte Verknüpfungen, von a1 für die
jeweils erste Trefferseite, bis t20 für die jeweils letzte Trefferseite jeder Suchanfrage,
navigiert werden können. 275
Dies hat den Nachteil, daß die Juroren die Metainformation, die der Url beinhaltet, bei der
Relevanzbeurteilung nicht berücksichtigen können. Dies ist eine Abweichung von der
Realität, deren Auswirkung auf die Relevanzbeurteilung, vernachlässigt wird. Da allerdings
die Trefferseiten an sich so realitätsnah wie möglich nachgebildet werden sollen, wird hier
unterstellt, daß diese Abstraktion von der Realität das Testergebnis nicht verzerrt.276
Als Ergebnis des Pretests läßt sich also festhalten, daß die Testanordnung als solche von
den Pretestprobanden positiv bewertet wird, Fehler und Probleme die auftraten waren
technischer Natur und betreffen den Prozeß der Durchführung der Suchanfragen, welcher
modifiziert werden muß.
3.3 Testdurchführung
Die Durchführung der Tests konnte am 06.11.00, mit dem Start von QualiGo, beginnen.
Im Folgenden soll aus strukturellen Gründen auch die Darstellung der Tests in die
Durchführung der Suchanfragen und die Relevanzeinstufung der Juroren unterteilt, obwohl
sie zum Großteil parallel durchgeführt werden.
274
Diese Testwebseite war vom 15.11.00 bis 01.12.00 unter der Adresse http://www.inf-wiss.unikonstanz.de/~griesbau/evaluation_html_files/ verfügbar. Auf der beiliegenden CD ist sie im Ordner
Evaluation_html_files zugänglich.
275
Vgl. Anhang D: Beispiel für Fragebogen.
276
Konkret überprüft werden kann das aber nicht. Als Argumnet anführen läßt sich allerdings, daß
Metainformationen im Internet nur begrenzte Aussagekraft besitzt bei der Relvanzbeurteilung den(vgl.3.1.3.1.1.2),
insbesondere bei Frames besitzt die Url nur einen geringen Aussagewert, daß sie für alle Seiten einer solchen
Framesite identisch ist.
Evaluierung hybrider Suchsysteme im WWW
Seite 93
3.3.1 Durchführung der Suchanfragen
Die Durchführung der Suchanfragen ist nach den erforderlichen Remodifikationen
aufwendiger als zuvor.
Alle Dokumente müssen einzeln gespeichert und kontrolliert werden.
Dabei zeigt sich, daß jedes 10-15 Dokument eine manuelle Nachbearbeitung erfordert.
Dies ist insbesondere immer dann vonnöten, wenn eine Zielseite mittels Javascript ein
Frameset “nachlädt“. Bei solchen Seiten wird so verfahren, daß solche Javascripts „manuell“
mittels Texteditor (Notepad) aus dem Quelltext entfernt werden.
Eine weiteres Problem stellen Seiten dar, bei denen keine Verbindung zum Zielserver
aufgebaut werden kann, diese werden so abgespeichert, daß der Juror eine weiße Seite
ohne Inhalt zu sehen bekommt. Teilweise tritt auch die Schwierigkeit auf, daß innerhalb der
Seiten „Container“, d.h. festgelegte Bereiche, dynamisch erzeugt und diese Bereiche absolut
referenziert werden (z.B. Werbebanner). Können diese nicht statisch abgelegt werden, so
werden sie vernachlässigt – falls der Untersuchende entschied, daß sie den für das
Relevanzurteil belanglos seien.277
Ebenso wird entschieden Pop-up Fenster, die fast ausschließlich Werbung beinhalten, nicht
nachzubilden.
Eine identische lokale Abbildung der Webseiten kann also nicht in jedem Fall erreicht
werden. Trotzdem wird hier die Annahme vertreten, eine weitestgehend mögliche
Annäherung erzielt zu haben, die ausreicht Verzerrungen bei der Relevanzbeurteilung
auszuschließen. Um dies abzusichern werden bei solchen, nicht identisch abbildbaren
„Problemseiten“ Mitarbeiter bei Suchtreffer befragt, ob ihre Relevanzentscheidung beim
Vergleich von lokaler Näherungskopie und Weboriginal identisch sei. Dies wird schließlich
bei jeder nachbearbeiteten Seite erreicht.
Bei Tests der lokal gesicherten Seiten mit dem Browser Netscape Communicator 4.7 werden
ca. 5% der Seiten völlig falsch dargestellt. Dies läßt sich darauf zurückführen, daß gerade
bei kommerziellen Seiten, häufig browserspezifische Versionen erstellt werden bzw. auf
solche verzweigt wird. Da auch solche Seiten mit dem Internet Explorer gesichert werden,
vermag Netscape solche lokale Kopien nicht korrekt darstellen – häufig verursachen solche
Seiten einen Programm- oder sogar einen Systemabsturz. Das bedeutet, daß obwohl die
277
Dieser Vorgehensweise kann durchaus vorgeworfen werden eine unzulässige Vorzensur darzustellen, vgl.
2.4.2.3, andererseits scheint es ineffizient für die originalgetreue Nachbildung einzelner Webseiten mehr als eine
Evaluierung hybrider Suchsysteme im WWW
Seite 94
lokal gesicherten Ergebnisseiten, auf der Testwebsite für alle Browser zugänglich gemacht
werden und der Netscape Browser von rund einem Drittel aller Internetnutzer eingesetzt
wird,278 kann dieser bei der Relevanzbeurteilung nicht verwendet werden.
Die Suchmaschine Lycos verwendet automatisch eine boolsche „Und-Verknüpfung“
eingebener Suchwörter, deshalb werden bei der voreingestellten Standardsuche bei einigen
Anfragen weniger als 20 Treffer zurückgegeben, bei einer Anfrage sogar gar kein Treffer.
Hier wird so vorgegangen, daß die zurückgebenen Treffer gespeichert werden und
anschließend der voreingestellte Suchmodus von „alle Wörter in beliebiger Reihenfolge“ auf
den Suchmodus „mindestens eines der Wörter“ umgestellt wird. Danach werden die
Treffermengen vermengt. Die Treffer des modifizierten Suchmodus werden denen des
Standardmodus angehängt, bis die notwendige Anzahl von 20 Treffern erreicht ist. Treten im
modifizierten Suchmodus Treffer auf, die schon im Standardmodus referenziert wurden,279 so
werden diese eliminiert.
Die Tabelle veranschaulicht eine solche Situation.
Suchanfrage Z:
Treffer Standardmodus: A B C D E F (6 Treffer)
Treffer modifizierter Modus: G H A I J K L M C N O P F Q R S T U V W X
Elimination der doppelten Treffer A, C und F aus der zweiten Trefferliste
Vereinigung der Treffermengen zur Treffermenge: A B C D E F G H I J K L M N O P Q R S T
Stunde zu verwenden – gerade unter der Annhme, daß die weniger originalgetreue Abbildung dieselbe
Relevanzbeurteilung durch den Juror aufweisen wird.
278
Siehe http://www.webhits.de/webhits/browser.htm (02.11.00).
279
Kriterium hierbei war der Url.
Evaluierung hybrider Suchsysteme im WWW
Seite 95
3.3.2 Relevanzbeurteilung der Juroren
Ein Großteil der Tests mit den Juroren wird im Rahmen einer Lehrveranstaltung im CIP-Pool
des Fachbereichs Informatik und Informationswissenschaft durchgeführt. Insgesamt werden
hierzu 15 Tests vorbereitet. Da auf 9 Rechnern der Internet Explorer fehlerhaft konfiguriert
und
deshalb
funktionsuntüchtig
ist,
müssen
diese
Testpersonen
den
Netscape
Communicator verwenden. Diese Tests können, aufgrund der oben genannten Problematik
browserspezifischer Webseiten, nicht verwertet werden und werden mit anderen
Testpersonen erneut durchgeführt. Dies verlängert den Zeitraum für die Testdurchführung
um eine Woche.
Von den 25 Tests werden 4 bei der Firma Suchtreffer und 21 im Fachbereich an der
Universität durchgeführt. Die Testpersonen sind entweder Mitarbeiter der Firma Suchtreffer
oder Studenten oder Dozenten der Universität, überwiegend aus dem Fachbereich
Informatik und Informationswissenschaft.
Das Profil der Testpersonen ist in den folgenden Tabellen zusammengefaßt.
Alter
0-20 21-30 31-40
Anzahl 2
16
9
Computer-/Softwarekenntnisse
Anfänger
Fortgeschrittene(r)
Experte
Anzahl
0
16
11
Web Nutzungsgrad
selten bis nie
mehrmals pro Woche
täglich
Anzahl
0
9
18
Suchmaschinennutzung
selten bis nie
mehrmals pro Woche
täglich
Anzahl
0
13
14
Der überwiegende Teil der Juroren ist der mittleren Altersstufe zuzuordnen. Bis auf drei
Teilnehmer sind alle Probanden Studenten oder besitzen einen universitären Abschluß. Die
Juroren
besitzen
eine
sehr
hohe
Kompetenz
im
Bereich
der
Web-
und
Suchmaschinennutzung, kein Proband stuft sich im Bereich Computer und Softwarenutzung
als Anfänger ein. Bezogen auf die in Kapitel 3.1.3.1.3 definierten Anforderungskriterien
erreichen die Testpersonen ein hohes Kompetenzniveau.
Evaluierung hybrider Suchsysteme im WWW
Seite 96
Die Dauer für die Durchführung der Tests variiert von einer halben bis zu zweieinhalb
Stunden. Eine solche Bandbreite ist unerwartet, und läßt sich nur teilweise durch die
unterschiedliche
Komplexität
der
Suchanfragen
erklären.
Vielmehr werden
durch
anschließende Gespräche mit den Probanden unterschiedliche Verhaltensweisen deutlich.
Während der überwiegende Teil die zu bewertenden Seiten nur kurz und überblicksartig
„scannt“,280 betrachtet eine Minderheit die Ergebnisseiten ausführlicher. Keine Testperson
äußert sich dahingehend, daß die Tests zu lange dauern würden.
Die Testanordnung wird von den Testpersonen, mit einer Ausnahme, positiv beurteilt. Diese
Person bemängelt, daß die Suchanfragen mangelhaft vorbereitet seien, da die
Suchmaschinen in keinem Fall, so viele Fehlerseiten zurückgeben würden. Eine
nachträgliche Überprüfung ergibt jedoch, daß die Ergebnisseiten auch bei dieser Person
korrekt wiedergegeben wurden.
Bei der Suchanfrage „weltraumschrott gefahren“ äußert der entsprechende Juror Zweifel, ob
die Ergebnisseiten einer Suchmaschine „korrekt sein könnten.“ Die bemängelte Trefferliste
ist die der Suchmaschine QualiGo, die auf diese Suchanfrage überwiegend Seiten von
Schrott- und Autohändlern referenziert. Dies könnte ein Hinweis dahingehend sein, daß das
bei QualiGo bei der Indexierung verwendete Stemmingverfahren281 bei Suchanfragen die
aus präkoordinierten Wörtern bestehen, problematisch sein kann, weil es im Extremfall zu
„völlig irrelevanten Ergebnissen“282 führt.
Ein Juror merkt an, daß er die Suchanfrage für das ihm vorliegende Informationsbedürfnis
anders formulieren würde.
Einige Juroren geben an, die Kontextinformation, die der Url vermittelt, vermißt zu haben,
während andere meinen, allein der Inhalt der zu beurteilenden Seite sei wichtig, da die
Angabe der Url nur dazu diene, auf den Trefferlisten der Suchmaschinen die Vorauswahl zu
erleichtern.
Insgesamt verlaufen die Tests also, abgesehen von der fehlerhaft konfigurierten Software im
CIP-Pool, ohne größere Probleme. Das Testdesign wird überwiegend positiv beurteilt und
erscheint insofern geeignet um Retrievaltests durchzuführen. Ein Punkt, der bei einer
280
Jakob Nielsen, How users read on the web, siehe http://www.useit.com/alertbox/9710a.html (03.12.00).
Stammformreduktion: Wörter werden durch Abtrennung der Flexions- und Derivationsendungen auf ihren
Stamm reduziert. Bsp.: computer, compute, computation, computerization zu comput. Siehe http://wwwis.informatik.uni-oldenburg.de/glossaries/ir.html (03.12.00).
282
Zitat Juror.
281
Evaluierung hybrider Suchsysteme im WWW
Seite 97
Wiederholung, verbessert werden sollte, ist es, den Probanden bei der Beurteilung der
Ergebnisseiten die Originalurl zur Verfügung zu stellen.
Evaluierung hybrider Suchsysteme im WWW
Seite 98
3.4 Ergebnisanalyse
Die Analyse der Ergebnisse wird in drei Teilen vorgenommen.
Die Retrievaleffektivitätsbewertung wird anhand der additiven Betrachtung der Top20
Precision und der Effektivität bei den einzelnen Suchanfragen ermittelt.283
Zunächst sind die zwei Testhypothesen zu überprüfen. Dazu sollen die zu berechnenden
Ergebnisse deskriptiv bestimmt und anschließend auf statistische Signifikanz hin überprüft
werden. Um die Differenzen in Abhängigkeit der verschiedenen Suchanfragetypen bezüglich
Suchwortanzahl und Art der Fragestellung zu erfassen, ist desweiteren die Effektivität bei
den Einwort- und Mehrwortanfragen, sowie den offenen und geschlossenen Suchanfragen
zu bestimmen.
Abschließend soll die „Expected Search Length“ ermittelt werden, um festzustellen, welche
Suchmaschine
bei
geschlossenen
Fragestellungen
das
Informationsbedürfnis
am
„schnellsten“ befriedigt.
3.4.1 Überprüfung der Testhypothesen
3.4.1.1 Testhypothese „hybride Systeme“
Die erste Testhypothese sagt aus, daß hybride Systeme eine höhere Retrievaleffektivität
erreichen, als rein roboterbasierte Systeme. Ist diese Aussage zu verifizieren?
283
Vgl.3.1.3.1.1.3
Evaluierung hybrider Suchsysteme im WWW
Seite 99
Top20 Precision - alle Suchanfragen
0,7
0,6
Precision
0,5
0,4
0,3
0,2
0,1
0
1
2
3
4
5
6
7
8
9
10
11
12
0,4
13
14
15
16
17
18
19
20
0,62
0,52 0,493 0,475 0,452 0,437 0,42 0,425 0,413 0,408 0,409
Lycos
0,6
0,56 0,513 0,525 0,512 0,49 0,491 0,473 0,467 0,44 0,444 0,442 0,435 0,421 0,416 0,41 0,406 0,398 0,389 0,379
AltaVista
0,64
0,53 0,533 0,525 0,508 0,477 0,457 0,44 0,442 0,436 0,427 0,42 0,415 0,409 0,411 0,405 0,396 0,387 0,385 0,382
QualiGo
0,389 0,38 0,383 0,378 0,371 0,369 0,366 0,365
Anzahl Treffer
Abbildung 2 – Top20 Precision – alle Suchanfragen
Die Betrachtung der Top20 Precision zeigt, daß der Recall-Precision-Graph von AltaVista bei
jedem Rangplatz höhere Werte als der Recall-Precision-Graph von QualiGo erreicht. Für
Lycos gilt im Vergleich mit QualiGo, mit Ausnahme des ersten Rangplatzes, dasselbe.
Die Graphen von AltaVista und Lycos überschneiden sich hingegen mehrfach, so daß nicht
unmittelbar ersichtlich wird, welches der beiden Systeme in dieser Sichtweise eine höhere
Effektivität erreicht.
Das aggregierte Gesamtergebnis über die ersten 20 Treffer, die Mean Average Precision,
beträgt bei:
Lycos = 0,4605
AltaVista = 0,4512
QualiGo = 0,4236
Lycos referenziert also knapp ein Prozent mehr relevante Dokumente als AltaVista und
knapp vier Prozent mehr als QualiGo. Das hybride System Lycos liefert in absoluten Zahlen
über alle Suchanfragen hinweg die besten Ergebnisse.
Sind diese Unterschiede statistisch valide?284
284
Der Vorzeichentest wird einseitig unternommen, da Aufgrund der höheren absoluten Mean Average Precision
stets unterstellt wird, daß Lycos, bzw. im Vergleich zwischen AltaVista und QualiGo, AltaVista überlegen ist. Der
Vorzeichentest kann auf der beiliegenden CD im Ordner Auswertung in der Datei auswertung_qualigo.xls unter
Evaluierung hybrider Suchsysteme im WWW
Seite 100
Vergleicht man Lycos und AltaVista, so sind bei den 20 Vergleichspaaren 19 Paare mit
unterschiedlichen Werten belegt. Dabei erreicht Lycos 16mal und AltaVista dreimal den
höheren Wert. Beim Vergleich von Lycos und AltaVista ergibt sich eine Wahrscheinlichkeit
für das Zutreffen der Gegenhypothese von 0,002.285 Beim Vergleich zwischen Lycos und
QualiGo ist die Wahrscheinlichkeit für das Zutreffen der Gegenhypothese nahezu Null.286 Die
Nullhypothese,287 die aussagt, daß es hinsichtlich der Retrievaleffektivität keine Unterschiede
zwischen den untersuchten Systemen gibt, läßt sich also zurückweisen. Aus der Sichtweise
der Top20 Precision ist die Testhypothese damit statistisch verifiziert, da Lycos signifikant
höherer Werte als die beiden anderen Systeme erreicht.
Beim Vergleich von AltaVista und QualiGo zeigt sich, daß AltaVista eine signifikant höhere
Top20 Precision erreicht als QualiGo. Das heißt, daß zwischen den beiden Systemen, die
ausschließlich roboterbasierte Treffer zurückgaben,288 ebenfalls signifikante Unterschiede
bestehen.
In Bezug auf die Top20 Precision gibt es also eine eindeutige Reihenfolge in Hinblick auf die
erreichte Effektivität. Lycos ist das effektivste Retrievalsystem, gefolgt von AltaVista und an
letzter Stelle steht QualiGo.
Da aber ein Vergleich der Top20 Precision nur aussagt, welches System in der Lage ist, die
größte Anzahl relevanter Treffer zurückzugegeben, aber nicht, welches System die
einzelnen Suchanfragen am besten beantwortet, ist zu prüfen, welche Retrievaleffektivität
die Suchmaschinen bei den einzelnen Suchanfragen erzielen.
der Zelle B85 „Vorzeichensignifikanztest“ nachvollzogen werden. Zur Verdeutlichung der Vorgehensweise ist ein
Vorzeichentest exemplarisch in Anhang E aufgeführt.
Vgl. Sidney Siegel, Nichtparametrische statistische Methoden, Eschborn 1987, S.66.
285
Für N=19 und x=3 ist P(Gegenhypothese)=0,002. Vgl. Ebd. Tabelle D im Anhang, S.236.
286
Ebd.
287
Vgl.3.1.9.
288
Bei QualiGo werden vermutlich in den nächsten Wochen die ersten redaktionellen Einträge vorgenommen.
Evaluierung hybrider Suchsysteme im WWW
Seite 101
Beantwortung der Suchanfragen *
Anzahl Suchanfragen
30
25
20
15
10
5
0
1
2
3
QualiGo
16
20
14
Lycos
24
16
10
AltaVista
20
18
12
Rangplatz
Abbildung 3 – Beantwortung der Suchanfragen
*Bei gleichhoher Precision wurden Rangplätze auch mehrfach vergeben. Die Tabelle besagt, daß z.B.
QualiGo im Vergleich mit den anderen Maschinen bei den 50 Suchanfragen 16 mal die höchste, 20
mal die zweithöchste und 14 mal die niedrigste Zahl relevanter Treffer zurückgibt.
Lycos weist auch bei dieser Betrachtungsweise die höchste Retrievaleffektivität auf. Diese
Suchmaschine ist am häufigsten (24 mal) bei den einzelnen Suchanfragen die effektivste
und am wenigstens häufig (10 mal) die uneffektivste Suchmaschine. Hinzu kommt, daß
Lycos zu jeder Suchanfrage mindestens einen relevanten Treffer referenzieren kann.
Altavista liegt im Mittelfeld und kann zu einer Suchanfrage kein relevantes Dokument
nachweisen.
Qualigo fällt auch in dieser Sichtweise zurück, da diese Suchmaschine am wenigsten häufig
(16 mal) die leistungsfähigste, aber am häufigsten (14 mal) die ineffektivste Suchmaschine
ist. Hinzu kommt, daß QualiGo bei drei Suchanfragen keine relevanten Treffer zurückgeben
kann. Das ist eine „Ausfallquote“ von rund 6 Prozent.
Sind die Unterschiede zwischen den Suchmaschinen auch bei der Betrachtung der
Effektivität bei den einzelnen Suchanfragen signifikant?
Führt man den Vorzeichentest289 durch, so zeigt sich, daß die Ergebnisse statistisch nicht
signifikant sind.
Evaluierung hybrider Suchsysteme im WWW
Seite 102
Die Wahrscheinlichkeit für das Eintreten der Nullhypothese die aussagt, daß es hinsichtlich
der Retrievaleffektivität keine Unterschiede zwischen den untersuchten Systemen gibt, liegt
im Vergleich Lycos und AltaVista bei 50%, beim Vergleich Lycos und QualiGo bei 33%. Auch
beim Vergleich Altavista und QualiGo ergibt sich eine Wahrscheinlichkeit für das Zutreffen
der Nullhypothese von 44%. D.h. es kann nicht davon ausgegangen werden, daß es
statistisch valide Unterschiede zwischen den untersuchten Suchmaschinen gibt. Bei dieser
Betrachtungsweise scheinen sie vielmehr in gleichem Maße effektiv zu sein.
Allerdings bleibt bei dieser rein quantitativen Betrachtung, der qualitative Unterschied
zwischen liefert „die wenigsten Treffer“ und „kann die Suchanfrage überhaupt nicht
beantworten“ unbeachtet. Dabei ist es ein erheblicher Unterschied, ob eine Suchmaschine
eine Suchanfrage, wenn auch eher schlecht, beantworten kann oder nicht. Allerdings kann
dieser Unterschied nicht adäquat quantifiziert werden, weshalb darauf verzichtet wird,
diesen, z.B. durch die Vergabe von “Strafpunkten“, in die Berechnung miteinzubeziehen.
Festzuhalten ist allerdings, daß Lycos zu jeder Suchanfrage zumindest ein relevantes
Dokument unter den ersten 20 nachweist. Die Wahrscheinlichkeit bei einer Suchanfrage eine
Lösung zu referenzieren ist also bei Lycos am größten.
Faßt man diese Aussagen zusammen, so läßt sich die Testhypothese
•hybride Systeme erreichen eine höhere Retrievaleffektivität als rein roboterbasierte
Systeme
am exemplarischen Beispiel der Suchmaschine Lycos nicht eindeutig verifizieren. Lycos gibt
zwar die höchste Anzahl relevanter Dokumente zurück, dennoch läßt sich nicht aussagen,
daß diese Suchmaschine Suchanfragen generell am besten beantwortet. Andererseits ist
Lycos wiederum diejenige Suchmaschine im Testfeld, die als einzige zu jeder Suchanfrage
eine relevante Antwort referenziert.
Je nach Interpretation läßt sich also die These verifizieren oder falsifizieren. Da in dieser
Untersuchung die Ansicht vertreten wird, daß nur dann, wenn beide Bedingungen erfüllt sind,
eine höhere Retrievaleffektivität eindeutig zugeordnet werden kann,290 ist die These nicht
verifiziert. Lycos erreicht als exemplarischer Vertreter hybrider Suchmaschinen in dieser
Evaluation keine signifikant höhere Retrievaleffektivität als die anderen Systeme.
289
290
Zur Verdeutlichung ist dieser Vorzeichentest exemplarisch in Anhang E aufgeführt.
Vgl. 3.1.3.1.1.3
Evaluierung hybrider Suchsysteme im WWW
Seite 103
3.4.1.2 Testhypothese „redaktionelle Treffer“
Die zweite Testhypothese sagt aus redaktionell erzeugte Treffer bewirken eine höhere
Effektivität des hybriden Retrievalsystems. Ist diese These korrekt?
Insgesamt basieren von den 1000 von Lycos zurückgegebenen Treffer 260 auf einer
redaktionellen Bearbeitung, von diesen sind wiederum 114 als relevant bewertet. Die
Precision aller redaktioneller Treffer beträgt nach der Mikromethode also 0,438. Die
Precision der roboterbasierten Treffer beträgt für alle 740 roboterbasierten Treffer
zusammengenommen 0,3598, ist somit erheblich niedriger, insofern scheint die Hypothese
zuzutreffen.
Aufgrund der geringen Anzahl redaktioneller Treffer soll beim direkten Vergleich bezüglich
der Mean Average Precision so verfahren werden, daß verglichen wird, ob Lycos mit den
hybriden Treffern eine höhere Precision aufweist als ohne. Bei der Darstellung ohne
redaktionelle Treffer werden diese aus den Treffermengen eliminiert und die nächsten
roboterbasierten Treffer nachgerückt.
Suchanfrage Y:
Trefferliste mit redaktionellen Treffern:
H1 H2 R1 R2 R3 R4 R5 R6 R7 H3 R8 R9 R10 R11 R12 R13 R14 R15 R16 R17
Eliminierung redaktioneller Treffer:
R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 R11 R12 R13 R14 R15 R16 R17
*Die Tabelle erläutert das Verfahren: Die Suchanfrage Y liefert die erste Trefferliste, aus dieser
werden die redaktionellen Treffer H(x) eliminiert und die roboterbasierten Treffer R(x) nachgerückt.
Weil maximal acht redaktionelle Treffer pro Suchanfrage refernziert werden, kann der
Vergleich nur bis zur Top12 Precision durchgeführt werden, da ab Treffer 13 die Anzahl der
Treffer unterschiedlich hoch ist und deshalb ein direkter Vergleich unzulässig wäre.
Evaluierung hybrider Suchsysteme im WWW
Seite 104
Lycos hybrid vs Lycos roboterbasiert
0,7
0,6
0,5
Precision
0,4
0,3
0,2
0,1
0
1
2
3
4
5
6
7
8
9
10
Lycos
0,6
0,56
0,5133333
0,525
0,512
0,49
0,4914286
0,4725
0,4666667
0,44
0,4436364 0,4416667
11
12
Lycos roboterbasiert
0,56
0,5
0,48
0,495
0,476
0,47
0,4342857
0,42
0,4111111
0,398
0,3909091 0,3816667
Anzahl Treffer
Abbildung 4 – Lycos hybrid vs. Lycos roboterbasiert Top12 Precision
Der Vorzeichentest ergibt eine Wahrscheinlichkeit für das Zutreffen der Nullhypothese,
redaktionell
erzeugte
Treffer
bewirken
keine
höhere
Effektivität
des
hybriden
Retrievalsystems, von nahezu Null. Daraus folgt, die Top12 Precision von Lycos ist mit der
Verwendung redaktioneller Treffer signifikant höher als bei ausschließlichen Verwendung
roboterbasierter Treffer.
Die Top12 Mean Average Precision beträgt bei der Verwendung redaktioneller Treffer
0,4966, bei der ausschließlichen Verwendung roboterbasierter Treffer 0,4514.
Wie wirken sich die redaktionellen Treffer bei den einzelnen Suchanfragen auf die
Retrievaleffektivität aus?
Evaluierung hybrider Suchsysteme im WWW
Seite 105
beruhend auf Top 12 Precision
30
Anzahl Suchanfragen
25
20
15
10
5
0
Reihe1
hybrid höher
kein Unterschied
roboterbasiert höher
25
17
8
Retrievaleffektivität
Abbildung 5 – Beantwortung der Suchanfragen Lycos hybrid vs. Lycos roboterbasiert
Bei 17 von 50 Suchanfragen gibt es keine Unterschiede bei 8 Suchanfragen wird eine
höhere Retrievaleffektivität bei ausschließlicher Verwendung roboterbasierter Treffer erzielt.
Bei der Hälfte der Suchanfragen ist der hybride Ansatz überlegen.
Der Signifikanztest bestimmt eine Wahrscheinlichkeit für das Zutreffen der Nullhypothese
von nahezu Null. Das bedeutet, die redaktionellen Treffer bewirken auch bei der
Beantwortung der Suchanfragen eine statistisch valide höhere Retrievaleffektivität.
Da sowohl bei der Top12 Precision, als auch bei den einzelnen Suchanfragen selbst, die
redaktionellen Treffer eine höhere Effektivität des hybriden Systems bewirken, ist die zweite
These verifiziert.
Daraus folgt, daß der hybride Ansatz mit der Einbindung von Katalogeinträgen zumindest für
Lycos selbst sinnvoll ist, da er eine höhere Retrievaleffektivität bewirkt. Da aber Lycos den
anderen Suchmaschinen bei beiden untersuchten Maßzahlen, der Top20 Precision und der
Effektivität bei den einzelnen Suchanfragen, nicht signifikant überlegen ist, stellt sich die
Frage, ob die Roboterkomponente von Lycos, im Vergleich zu den anderen Systemen,
ineffektiver ist, so daß die redaktionellen Treffer dieses Defizit lediglich zu kompensieren
vermögen.
Evaluierung hybrider Suchsysteme im WWW
Seite 106
Lycos roboterbasiert vs AltaVista & QualiGo Top12 Precision
0,7
0,6
0,5
Precision
0,4
0,3
0,2
0,1
0
QualiGo
1
2
3
4
5
6
7
8
9
10
11
12
0,62
0,52
0,493333
0,475
0,452
0,436667
0,42
0,425
0,413333
0,408
0,409091
0,4
0,47
0,434286
0,42
0,411111
0,398
0,390909 0,381667
0,476667 0,457143
0,44
0,442222
0,436
0,427273
Lycos roboterbasiert
0,56
0,5
0,48
0,495
0,476
AltaVista
0,64
0,53
0,533333
0,525
0,508
0,42
Trefferanzahl
Abbildung 6 – Lycos roboterbasiert vs. AltaVista & QualiGo Top12 Precision
Die Mean Average Precision beträgt in diesem Fall bei:
Lycos roboterbasiert = 0,4514
AltaVista = 0,4863
QualiGo = 0,4560
AltaVista erzielt in diesem Vergleich die höchsten Precisionwerte, QualiGo erreicht ebenso
leicht höhere Werte als Lycos ohne redaktionelle Treffer. Der Unterschied zwischen AltaVista
und Lycos (roboterbasiert) ist dabei signifikant. Der zwischen QualiGo und Lycos
(roboterbasiert) nicht.291
Bei der Beantwortung der Suchanfragen zeigt sich, daß Lycos unter Verwendung
ausschließlich roboterbasierter Treffer hinter AltaVista zurückfällt, auch Qualigo ist weniger
häufig diejenige Suchmaschine, die die geringste Effektivität bei einzelnen Suchanfragen
aufweist.
291
Die Irrtumswahrscheinlichkeit beträgt rund 19%.
Evaluierung hybrider Suchsysteme im WWW
Seite 107
Beantwortung der Suchanfragen bei Top12 Precision
30
25
Anzahl Suchanfragen
20
15
10
5
0
eins
zwei
drei
Lycos roboterbasiert
16
17
17
AltaVista
24
18
8
QualiGo
15
24
11
Rangplatz
Abbildung 7 – Beantwortung der Suchanfragen bei Top12 Precision
Der Vorzeichentest ergibt, daß die Unterschiede zwischen AltaVista und Lycos
(roboterbasiert) auch in diesem Fall signifikant sind. Die Unterschiede zwischen Lycos
(roboterbasiert) und QualiGo sind dagegen nicht signifikant.
Lycos weist also gegenüber AltaVista ohne die redaktionellen Einträge, sowohl bei der
Top12 Precision, als auch bei den einzelnen Suchanfragen selbst, eine signifikant geringere
Retrievaleffektivität
auf.
Daraus
läßt
sich
die
Schlußfolgerung
ziehen,
daß die
roboterbasierten Komponenten von Lycos eine merkbar geringere Retrievaleffektivität
aufweisen, als die Suchmaschine AltaVista. Die redaktionellen Treffer vermögen dieses
Defizit von Lycos zwar zu kompensieren, bewirken aber keine Überlegenheit des hybriden
Systems Lycos gegenüber den anderen Suchmaschinen.
Deshalb soll die These aufgestellt werden, daß die Roboterkomponente von Lycos derart
schlecht ist, daß sich die Vorteile des hybriden Ansatzes beim Vergleich mit den anderen
Suchmaschinen, nicht in einer, im Vergleich, höheren Gesamtsystemleistung auswirken.
3.4.2 Effektivität bei verschiedenen Suchanfragetypen
Im folgenden sollen die Ergebnisse für verschieden Anfragetypen dargestellt werden. Damit
soll aufgezeigt werden, ob und wie die Retrievaleffektivität der Suchmaschinen von der Art
Evaluierung hybrider Suchsysteme im WWW
Seite 108
der Fragestellung, ob offen oder geschlossen, oder der Anzahl der verwendeten
Suchbegriffe, das heißt der Spezifität der Fragestellung,292 abhängt.
Ergänzend ist die „Expected Search Length“ bei geschlossenen Fragestellungen
festzuhalten werden, um zu ermitteln welche Suchmaschine am „schnellsten“ eine korrekte
Antwort liefern kann.
3.4.2.1 Einwortanfragen
Die Einwortanfragen verkörpern in dieser Untersuchung die Suchanfragen mit der geringsten
Spezifität. Bei den Anfragen „sms“, „mp3“ und „chat“ sind beispielsweise viele
verschiedartige Antworten möglich, da die Relevanzkriterien eher weit gefaßt sind.293
Top20 Precision - Einwortanfragen
1
0,9
0,8
0,7
Precision
0,6
0,5
0,4
0,3
0,2
0,1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
QualiGo
0,867 0,733 0,711 0,683 0,64 0,633 0,619 0,675 0,659 0,653 0,655 0,639 0,631 0,629 0,622 0,608 0,588 0,574 0,579 0,563
Lycos
0,667 0,667 0,533
0,6
0,587
AltaVista 0,867 0,767 0,733
0,7
0,707 0,689 0,648 0,625 0,637 0,62 0,606 0,583 0,574 0,562 0,56 0,558 0,553 0,533 0,516 0,507
0,6
0,6
0,592 0,585 0,553 0,564 0,55 0,533 0,519 0,516 0,508 0,498 0,493 0,481 0,467
Anzahl Treffer
Abbildung 8 – Top20 Precision - Einwortanfragen
Die Mean Average Precision bei den 15 Einwortanfragen beträgt bei:
Lycos = 0,7407
AltaVista = 0,8641
QualiGo =0,8363
292
Es wird davon ausgegangen, daß ein solcher Zusammenhang besteht. Die Steigerung der Spezifität des
Informationsbedürfnisses mit zunehmender Suchwortanzahl wird auch durch die hier verwendeten Suchanfragen
untermauert. Vgl. Anhang – Suchanfragenübersicht. Das Problem der hohen Spezifität präkoordinierter
Einwortbegriffe wie „Informationsressourcenmanagement“ wird vernachlässigt.
293
Vgl. Suchanfragenübersichtstabelle im Anhang.
Evaluierung hybrider Suchsysteme im WWW
Seite 109
Die Precision ist also rund 30-40% höher als bei allen Suchanfragen. Erstaunlich ist, daß
Lycos, die Suchmaschine, die im Gesamtergebnis den ersten Rang einnimmt bei den
Einwortanfragen an letzter Stelle steht. Die besten Ergebnisse erzielt AltaVista. Der
Vorzeichentest ergibt, daß die Unterschiede zwischen QualiGo und AltaVista nicht signifikant
sind,294 die Unterschiede zwischen AltaVista und Lycos und QualiGo und Lycos aber sehr
wohl.295
Für die einzelnen Suchanfragen ergibt sich folgendes Bild.
Beantwortung der Einwortsuchanfragen
9
8
7
Anzahl Suchanfragen
6
5
4
3
2
1
0
1
2
3
QualiGo
8
6
1
Lycos
6
4
5
AltaVista
4
7
4
Rangplatz
Abbildung 9 – Beantwortung der Einwortsuchanfragen
QualiGo erreicht hier die höchsten Effektivitätswerte. Die Werte bei Lycos und QualiGo
lassen aber keinen eindeutigen Schluß zu, welches Systeme tatsächlich „effektiver“ ist, da
der Vorzeichentest keinerlei signifikante Unterschiede ergibt. Es läßt sich also nicht
aussagen, welches System einzelne Einwortsuchanfragen am besten beantwortet.
294
295
Die zweiseitige Wahrscheinlichkeitswert für die Nullhypothese beträgt 0,058.
Hier liegt die Irrtumswahrscheinlichkeit bei nahezu 0.
Evaluierung hybrider Suchsysteme im WWW
Seite 110
3.4.2.2 Mehrwortanfragen
Die Mehrwortanfragen umfassen überwiegend Zweiwortanfragen (22 Suchanfragen), aber
auch Anfragen mit mehr als zwei Suchwörtern (13 Suchanfragen). Die Mehrwortanfragen
beinhalten spezifischere Suchanfragen als die Einwortanfragen.296
Top20 Precision Mehrwortsuchanfragen
0,6
0,5
Precision
0,4
0,3
0,2
0,1
0
1
2
3
0,4
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
QualiGo
0,514 0,429
0,386 0,371 0,352 0,335 0,318 0,308 0,303 0,304 0,298 0,286 0,273 0,28 0,279 0,277 0,281 0,275 0,28
Lycos
0,571 0,514 0,505 0,493 0,48 0,443 0,445 0,421 0,416 0,397 0,392 0,395 0,393 0,38 0,373 0,368 0,366 0,357 0,35 0,341
AltaVista 0,514 0,414 0,438 0,443 0,417 0,381 0,371 0,361 0,359 0,357 0,351 0,35 0,347 0,343 0,347 0,339 0,329 0,324 0,329 0,329
Trefferanzahl
Abbildung 10 – Top20 Precision Mehrwortsuchanfragen
Bei den Mehrwortanfragen ergibt sich bezüglich der Top20 Precision eine eindeutige
Rangfolge. Das hybride System Lycos erzielt auf jedem Rangplatz den höchsten
Precisionswert, gefolgt von AltaVista. AltaVista erzielt wiederum, mit Ausnahme des zweiten
Rangplatzes, immer höhere Werte als QualiGo. Der Vorzeichentest ergibt, daß die
Unterschiede in beiden Fällen signifikant sind.
Die Mean Average Precision beträgt bei:
Lycos = 0,4201
AltaVista = 0,3721
QualiGo = 0,3274
Bei der Betrachtung der einzelnen Suchanfragen ergibt sich folgendes Bild.
296
Vgl. z.B. Einwortsuchanfrage „sms“ mit Mehrwortsuchanfrage „sms sprüche“, siehe
Suchanfragenübersichtstabelle im Anhang.
Evaluierung hybrider Suchsysteme im WWW
Seite 111
Beantwortung der Mehrwortsuchanfragen
20
18
16
Anzahl Suchanfragen
14
12
10
8
6
4
2
0
1
2
3
QualiGo
8
14
13
Lycos
19
11
5
AltaVista
15
11
9
Rangplatz
Abbildung 11 – Beantwortung der Mehrwortsuchanfragen
Lycos erreicht auch hier die höchste Effektivität, gefolgt von AltaVista. QualiGo ist am
wenigsten effektiv. Der Vorzeichentest ergibt, daß Lycos signifikant effektiver ist als QualiGo.
Der Vergleich von Lycos und AltaVista und der Vergleich von Altavista und Qualigo ergeben
allerdings keine signifikanten Unterschiede.
So läßt sich festhalten, daß Lycos bei den Mehrwortanfragen die höchste Retrievaleffektivität
erzielt und dabei signifikant höhere Werte erreicht als QualiGo.
Bei Mehrwortanfragen ist Lycos somit effektiver als QualiGo.
3.4.2.3 Offene Fragestellungen
Bei offenen Fragestellungen werden die Informationsbedürfnisse der Nutzer nicht durch den
Nachweis der „einen richtige Antwort“ befriedigt. Vielmehr soll häufig zunächst ein erster
Überblick gewonnen werden, da man oft nicht exakt weiß, wonach man mit welchen
Begriffen suchen soll („anomalous state of knowledge“).297
Wie effektiv sind die Suchmaschinen darin, solche Arten von Informationsbedürfnissen zu
befriedigen?
Evaluierung hybrider Suchsysteme im WWW
Seite 112
Top20 Precision bei offenen Fragestellungen
0,7
0,6
Precision
0,5
0,4
0,3
0,2
0,1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
QualiGo
0,595 0,486 0,495 0,48 0,459 0,446 0,421 0,432 0,417 0,408 0,405 0,394 0,383 0,373 0,375 0,372 0,367 0,368 0,366 0,366
Lycos
0,541 0,541 0,514 0,527 0,524 0,491 0,483 0,466 0,462 0,438 0,44 0,441 0,437 0,429 0,423 0,416 0,409 0,399 0,39 0,377
AltaVista 0,649 0,514 0,541 0,527 0,503 0,464 0,444 0,432 0,435 0,43 0,428 0,423 0,422 0,419 0,422 0,414 0,404 0,395 0,397 0,396
Trefferanzahl
Abbildung 12 – Top20 Precision bei offenen Fragestellungen
Die Mean Average Precision beträgt bei:
Lycos = 0,4573
AltaVista = 0,4528
QualiGo = 0,4204
Lycos erzielt auch hier die höchsten Werte, AltaVista liegt an zweiter Stelle, gefolgt von
QualiGo, allerdings sind die Unterschiede relativ gering. Der Vorzeichentest ermittelt keine
statistisch signifikanten Unterschiede zwischen Lycos und AltaVista, sagt aber zugleich aus,
daß beide Maschinen eine signifikant höhere Retrievaleffektivität aufweisen als QualiGo.
QualiGo ist also hinsichtlich der Top20 Precision bei offenen Suchanfragen weniger effektiv
als AltaVista und Lycos.
Bezogen auf die einzelnen Suchanfragen zeigt sich folgendes Bild
297
Bernhard Bekavac, Tutorial zur Suche im WWW/Internet (1.2), http://www.inf-wiss.unikonstanz.de/suche/such_tutorial.html (06.12.00).
Evaluierung hybrider Suchsysteme im WWW
Seite 113
Beantwortung der Suchanfragen bei offenen Fragestellungen
18
16
Anzahl Suchanfragen
14
12
10
8
6
4
2
0
1
2
3
8
14
12
Lycos
15
11
8
AltaVista
17
10
7
QualiGo
Rangplatz
Abbildung 13 – Beantwortung der Suchanfragen bei offenen Fragestellungen
QualiGo ist auch bei dieser Sichtweise die ineffektivste Suchmaschine, während AltaVista
effektiver als Lycos erscheint. Die Signifikanzüberprüfung ergibt jedoch zwischen AltaVista
und Lycos, und AltaVista und Qualigo keine statistisch validen Unterschiede, aber zwischen
Lycos und Qualigo.298
Das
heißt,
bei
offenen
Fragestellungen
erreicht
Lycos
eine
signifikant
höhere
Retrievalleistung als QualiGo, über die anderen Vergleichseinheiten lassen sich keine
statistische abgesicherten Aussagen fällen.
3.4.2.4 Geschlossene Fragestellungen
Bei den geschlossenen Fragestellungen lassen sich die Informationsbedürfnisse durch die
erste relevante Antwort befriedigen.
Wie
wirkungsvoll vermögen
die
untersuchten
beantworten?
298
Mit einer Irrtumswahrscheinlichkeit von 1,5%.
Systeme
solche Suchanfragen zu
Evaluierung hybrider Suchsysteme im WWW
Seite 114
Top20 Precision geschlossene Fragestellungen
0,6
0,5
Precision
0,4
0,3
0,2
0,1
0
1
2
3
4
5
6
7
8
9
10
11
12
QualiGo 0,4017094 0,4076923 0,4195804 0,4166667 0,408284 0,4010989 0,4051282 0,3942308 0,3800905 0,3717949 0,3684211 0,3615385
Lycos
0,4786325 0,4615385 0,4545455 0,4423077 0,4319527 0,4010989 0,3948718 0,3942308 0,3981901 0,3931624 0,388664 0,3846154
AltaVista 0,4615385 0,4538462 0,4265734 0,4102564 0,3964497 0,3791209 0,3794872 0,3798077 0,3755656 0,3632479 0,3522267 0,3423077
Trefferanzahl
Abbildung 14 – Top20 Precision geschlossene Suchanfragen
Die Mean Average Precision beträgt bei
Lycos = 0,4705
AltaVista = 0,4368
QualiGo = 0,4327
Lycos erreicht also auch bei den geschlossenen Suchanfragen die höchste Mean Average
Precision. Die Unterschiede zwischen AltaVista und QualiGo sind minimal und nicht
signifikant.
Lycos
erzielt
aber
signifikant
höhere
Effektivitätswerte
als
die
beiden
anderen
Suchmaschinen. Die Effektivitätswerte erreichen daselbe Niveau wie bei den offenen
Fragestellungen. Die Art der Fragestellung hat also, wenn überhaupt, nur geringfügigen
Einfluß auf die Retrievaleffektivität.
Betrachtet man die einzelnen Suchanfragen, so zeigt sich folgendes Bild.
Evaluierung hybrider Suchsysteme im WWW
Seite 115
Beantwortung der geschlossenen Suchanfragen
8
7
Anzahl Suchanfragen
6
5
4
3
2
1
0
Rang1
Rang2
Rang3
QualiGo
7
4
2
Lycos
7
5
1
AltaVista
3
6
4
Rangplatz
Abbildung 15 – Beantwortung der geschlossenen Suchanfragen
Lycos und QualiGo erscheinen aus dieser Sichtweise besser als AltaVista, der
Vorzeichentest läßt allerdings keine signifikanten Unterschiede vermuten.
Es läßt sich also nicht aussagen, daß geschlossene Suchanfragen bei einer Maschine
„besser“ oder „schlechter“ beantwortet werden als bei den anderen.
3.4.2.5 Expected Search Length bei geschlossenen Suchanfragen
Wenn es keine signifikanten Unterschiede bei der Beantwortung geschlossener Fragen in
Bezug auf die Retrievaleffektivität bei den Top20 Treffern gibt, bleibt zu fragen, ob die
Suchmaschinen bezüglich der Rangordnung differenzieren, bzw. an welcher Stelle der
Trefferliste sie das „richtige Dokument“ nachweisen.
Welche Suchmaschine liefert nun also am schnellsten die Lösung bei geschlossenen
Suchanfragen?
Evaluierung hybrider Suchsysteme im WWW
Seite 116
ESL bei geschlossenen Fragestellungen
18
Rangplatz des ersten relevanten Treffers
16
14
12
10
8
6
4
2
0
routenpla telefonaus
ner
kunft
yahoo
moorhuhn
wetterberi
stadtplan
cht
big
brother
beate
Uhse
stiftung flughafen deutsche
bank
warentest frankfurt
umts
marathonl
auf
Qualigo
1
2
1
4
1
2
7
1
2
1
2
1
3
Lycos
1
2
1
1
2
5
4
1
1
1
2
4
2
AV
2
2
1
1
1
17
3
1
7
1
3
2
5
Suchanfragen
Abbildung 16 – ESL bei geschlossenen Fragestellungen
Die durchschnittlich Anzahl der Dokumente die zu sichten sind, bis der erste relevante
Treffer, gefunden wird beträgt bei
Lycos = 2,076923077
AltaVista = 3,538461538
QualiGo = 2,153846154
Bei Lycos und QualiGo ist im Durchschnitt also schon das zweite Dokument relevant, bei
AltaVista hingegen erst das dritte oder vierte. Der Vorzeichentest zeigt, daß diese
Unterschiede aber nicht signifikant sind. Es kann also keine statistisch valide Aussage
darüber getroffen werden, ob es bei der ESL bei geschlossenen Suchanfragen Unterschiede
zwischen den Suchmaschinen gibt.
3.4.3 Ergebnisinterpretation und -zusammenfassung
Wie lassen sich nun die geschilderten Ergebnisse interpretieren?
Bei den hier verwendeten Suchanfragen erreichen die Maschinen eine Effektivität von 30-40
Prozent. Zu fast allen Suchanfragen wird innerhalb der ersten 20 Treffer zumindest ein
relevantes Dokument nachgewiesen. Die Retrievaleffektivität der hier untersuchten
Suchmaschinen ist also in dem Sinne positiv zu bewerten, daß die Nutzer bei typischen
Evaluierung hybrider Suchsysteme im WWW
Seite 117
Suchanfragen davon ausgehen können, relevante Treffer zu finden. Die Top20 Precision
beträgt rund 36-38%, im Durchschnitt trägt also jedes zweite oder dritte referenzierte
Dokument dazu bei, das Informationsbedürfnis zu befriedigen. Es ist anzunehmen, daß
dieser Wert auf sehr spezifische oder thematisch sehr enggefaßte Suchanfragen nicht
übertragen werden kann, sondern bei solchen Anfragen erheblich niedriger liegt.299
Beim Vergleich der Systeme zeigt sich am Fallbeispiel Lycos, daß nicht a per se davon
ausgegangen werden kann, daß hybride Systeme anderen Suchmaschinen bei der
Retrievaleffektivität überlegen sind. Denn obwohl Lycos in absoluten Zahlen die höchsten
Werte erzielt, kann die erste Testhypothese, die aussagt, daß hybride Systeme eine höhere
Retrievaleffektivität als rein roboterbasierte Systeme erreichen, nicht verifiziert werden.
Lycos ist zwar bei der Betrachtung der Top20 Precision die „beste“ Suchmaschine, da sie
eine signifikant höhere Anzahl relevanter Treffer als AltaVista und QualiGo referenziert, bei
der Effektivität hinsichtlich der Beantwortung der einzelnen Suchanfragen lassen sich
hingegen keine signifikanten Unterschiede zwischen den Suchmaschinen erkennen.
Anzumerken ist allerdings, daß nur Lycos alle Suchanfragen zu beantworten vermag.
Abstrahiert man also von den rein quantitativen Aspekten, so läßt sich aussagen, daß der
Nutzer bei Lycos am ehesten erwarten kann, relevante Treffer zu bekommen, aber nicht
erwarten kann bei einzelnen Suchanfragen die höchste Precision zu erreichen.
Die Verifikation der zweiten These zeigt, daß der hybride Ansatz, zumindest für die
Suchmaschine Lycos selbst, sinnvoll ist. Denn die Retrievaleffektivität des Gesamtsystems
Lycos wird durch die redaktionellen Treffer signifikant verbessert.300 Der Vergleich der
roboterbasierten Komponente von Lycos mit den anderen Suchmaschinen zeigt, daß
AltaVista eine signifikant höhere Retrievaleffektivität erreicht, während der Vergleich zu
QualiGo keine statistisch validen Unterschiede aufzeigt. Als reine Suchmaschine ist also
AltaVista der „Gewinner“, wenngleich die Unterschiede zu QualiGo auch nur hinsichtlich der
Top20 Precision signifikant sind.
Damit stellt sich die Frage, ob die redaktionellen Treffer von Lycos die Mängel der
roboterbasierten Komponente nicht bloß kompensieren. Denn es bleibt ungeklärt, ob die
redaktionellen Treffer auch die Retrievaleffektivität einer Suchmaschine, die eine signifikant
„bessere“ Roboterkomponente als Lycos aufweist, erhöhen würde. Diese Fragestellung
könnte Gegenstand einer weiteren Untersuchung sein.
299
Vgl. 3.1.3.1.2
Dies gilt zumindest bei der Betrachtung der Effektivität innerhalb der ersten 12 Treffer und bewirkt eine
Steigerung der Mean average precision um rund 4%.
300
Evaluierung hybrider Suchsysteme im WWW
Die
differenzierte
Betrachtung
der
Retrievaleffektivität
Seite 118
hinsichtlich
verschiedener
Suchanfragetypen zeigt bei den Einwortanfragen eine deutliche Abweichung vom
Gesamtergebnis. Lycos fällt hinter die beiden anderen Systeme zurück. Bei der Messung der
Top20 Precision weist Lycos eine signifikant geringere Effektivität auf als die beiden anderen
Systeme. Bei der Betrachtung der Beantwortung der einzelnen Suchanfragen sind die
Unterschiede wiederum nicht signifikant.
Das
„schlechte“
Abschneiden
von
Lycos
hinsichtlich
der
Top20
Precision
bei
Einwortsuchanfragen ist insofern erstaunlich, weil zu erwarten war, daß die redaktionellen
Katalogeinträge gerade für die Beantwortung relativ unspezifischer Suchanfragen am besten
geeignet seien.301 Und aus diesem Grund Lycos als Gesamtsystem eigentlich bei diesen
Suchanfragen höhere Effektivitätswerte als die anderen Systeme erreichen sollte. Warum
dies nicht der Fall ist bleibt ungeklärt.
Bei den Mehrwortanfragen hingegen ist Lycos signifikant „besser“ als QualiGo. Dies könnte
ein Hinweis darauf sein, daß die Größe des Index die Retrievaleffektivität bei spezielleren
Fragestellungen stärker beeinflußt, als bei eher unspezifischen. Diese Annahme bleibt aber
spekulativ.302
Die Differenzierung nach offenen und geschlossenen Suchanfragen zeigt mit der Ausnahme,
daß Lycos bei den offenen Fragestellungen eine signifikant höhere Retrievaleffektivität als
QualiGo erreicht, keine wesentlichen Unterschiede im Vergleich zum Gesamtergebnis auf.
Hinsichtlich der „Expected Search Length“ bei den geschlossenen Fragestellungen sind bei
den Suchmaschinen keine signifikanten Unterschiede aufgetreten.
Faßt man das Ergebnis zusammen, so zeigt sich, daß das hybride Exemplar Lycos
insgesamt nicht signifikant besser abschneidet als die anderen Suchmaschinen. Der hybride
Ansatz scheint aber trotzdem sinnvoll zu sein, da er die Retrievaleffektivität von Lycos
signifikant erhöht – was aber auch daran liegen mag, daß die Roboterkomponente von Lycos
im Vergleich mit den anderen Maschinen nur in geringem Maße effektiv ist.
301
Siehe http://www.inf-wiss.uni-konstanz.de/suche/such_tutorial.html#2.2 (07.12.00).
Konkret untermauern läßt sie sich nur die an der Tatsache, daß ein Proband bei der Suchanfrage
„weltraumschrott gefahren“ bei den Treffern von QualiGo bezweifelte, ob diese wirklich die Ergebnisse waren und
dachte es läge ein Fehler in der Testanordnung vor (Siehe 3.3.2). Ob diese „völlig irrelevanten Treffer“ auf das
von QualiGo verwendete Stemming beim Indexierungsprozeß oder auf das Nichtvorhandensein relevanter
Dokumente im Index oder beides zurückzuführen ist bleibt ungewiss.
302
Evaluierung hybrider Suchsysteme im WWW
Seite 119
Insgesamt erstaunt, daß QualiGo, die Suchmaschine, deren Index zum Testzeitpunkt nur ein
Bruchteil des Umfangs der Indexe der anderen Suchmaschinen aufweist, im Vergleich nicht
erheblich „schlechter“ abschneidet. Dies könnte ein Hinweis, darauf sein, daß der Umfang
des Index für den normalen Suchmaschinennutzer bei typischen Suchanfragen von eher
geringer Bedeutung hinsichtlich der Qualität der Treffer ist, sofern der Index relevante
Dokumente zur Suchanfrage nachzuweisen vermag.303 Anzufügen ist allerdings, daß
QualiGo zu drei Suchanfragen kein relevantes Dokument referenzieren kann. Insofern ist bei
QualiGo zu erwarten, daß diese Maschine am ehesten Suchanfragen nicht beantworten
vermag.
Problematisieren läßt sich, daß Suchanfragen, die nicht beantwortet werden konnten, mit
einer „Nullwertung“ in die Berechnungsgrößen einfließen. Somit wird z.B. bei der
Feststellung, welche Suchmaschine welche Suchanfrage wie gut beantwortet hat, in solchen
Fällen zwar der „schlechteste“ Wert vergeben. Dies spiegelt aber den qualitativen
Unterschied zwischen „lieferte weniger Treffer als die anderen Maschinen“ und „konnte die
Suchanfrage nicht beantworten“ nicht wider. Weil aber jede „qualitative“ Gewichtung
willkürlich wäre und keine Steigerung der „Objektivität“ der Ergebnisse bewirken würde, wird
eine solche „Gewichtung“ nicht vorgenommen.
303
Zu drei Suchanfragen konnte QualiGo innerhalb der ersten 20 Treffer kein relevantes Dokument nachweisen.
Dies könnte ein Hinweis darauf sein, daß der Index keine relevanten Dokumente referenziert, gerade weil bei den
anderen Suchanfragen QualiGo nicht signifikant hinter die anderen Suchmaschinen zurückfällt.
Evaluierung hybrider Suchsysteme im WWW
Seite 120
4. Schluß
4.1 Einschätzung und Schlußfolgerungen hinsichtlich der
Ergebnisse
Die teilweise, je nach Bewertungssicht und Bewertungsmaß, variierenden Effektivitätswerte
der einzelnen Maschinen verdeutlichen, daß die Effektivitätsbeurteilung von Suchmaschinen
immer von den Faktoren präjustiert wird, die der jeweiligen Evaluation immanent sind.304
Insbesondere die differenzierte Bewertung der Ergebnisse bei den verwendeten
Effektivitätsmaßen „Top20 Precision“ und „Beantwortung der Suchanfragen“ zeigt auf, daß
das Ausmaß der Effektivitäts(unterschiede) sehr stark vom verwendeten Bewertungsmaß
abhängt. Aus dem Blickwinkel der Top20 Precision lassen sich wesentlich größere
Unterschiede hinsichtlich der Retrievaleffektivität bei den untersuchten Maschinen ableiten
als bei der Betrachtung der Beantwortung der einzelnen Suchanfragen. Beispielsweise wird
die erste Hypothese aus der Sichtweise der Top20 Precision verifiziert, während die
Ergebnisse bei der Betrachtung der Beantwortung der einzelnen Suchanfragen keine
signifikanten Unterschiede erkennen lassen.
Durch
solche
unterschiedliche
Aspekte
bezüglich
der
Untersuchungsmethodik,
Bewertungssichten und Bewertungsmaßen ist es unmöglich, zu einer generell gültigen
Beurteilung der Retrievaleffektivität zu gelangen. Dies ist aber weniger ein methodologisches
Problem,305 sondern eher eine Frage der Zielsetzung der jeweiligen Evaluationen. Diese
Untersuchung beschränkt sich auf die Evaluierung der Retrievaleffektivität anhand der
Relevanz der ersten 20 zurückgegebenen Treffer bei typischen Anfragen. Die Ergebnisse
der Retrievaleffektivität sind folglich auch nur für diese Betrachtungsweise gültig. Eine
Aussage über z.B. die tatsächlich erreichbare Retrievaleffektivität unter Ausnutzung aller
Retrievalfähigkeiten der Suchmaschinen306 wird nicht getroffen.
Bezogen auf die Relevanz der ersten 20 zurückgegebenen Treffer bei typischen Anfragen
läßt sich als Resultat festhalten, daß dem dem Nutzer keine „beste“ Suchmaschine
empfohlen werden kann. Das Ergebnis dieser Arbeit besagt, daß zwar Unterschiede
304
Untersuchungsziel, Meßgrößen, Kriterien der Relevanzbeurteilung, Art und Ausgestaltung der Suchanfragen,
der Variablen usw.
305
Vgl. Wolfgang und Mechtild Stock, die darin ein grundlegendes Problem bei Retrievaltests sehen. Mechtild
Stock, Wolfgang G. Stock, Internet-Suchwerkzeuge im Vergleich, Teil 1: Retrievaltest mit Know Item Searches,
in: Password 11/2000, S.23-31, S.27.
Evaluierung hybrider Suchsysteme im WWW
Seite 121
bezüglich der Effektivität vorhanden sind, diese aber insgesamt so gering ausfallen, daß es
für den Rechercheerfolg letztlich gleichgültig ist, welche Suchmaschine verwendet wird.
Die Frage, ob der hybride Ansatz, die automatisch generierten Treffer mit redaktionell
erzeugten Treffern in einer Trefferliste zu vermengen, sinnvoll ist, um die Retrievaleffektivität
zu erhöhen, läßt sich nicht allgemeingültig beantworten. Das Beispiel Lycos erreicht in dieser
Untersuchung höhere Werte, signifikante Unterschiede ergeben sich aber nur bei der
Betrachtung
der Top20
Retrievaleffektivität
von
Precision.
Lycos,
Die
aufgrund
redaktionellen
der
im
Treffer erhöhen zwar die
Vergleich
relativ
ineffektiven
Roboterkomponente von Lycos bleibt aber unsicher, ob die redaktionellen Einträge bei den
Maschinen mit signifikant effektiveren Roboterkomponenten, wie z.B. AltaVista, ebenso eine
signifikante Erhöhung der Retrievaleffektivität bewirken würden.
Bei der Suchmaschine QualiGo, die in etwa dieselbe Retrievaleffektivität wie Lycos, ohne die
redaktionellen Einträge aufweist, kann zum gegenwärtigen Zeitpunkt hinsichtlich der Qualität
der Ergebnisse nur empfohlen werden, redaktionelle Einträge den Trefferlisten hinzuzufügen.
Wenn die dann beigefügten redaktionellen Beiträge dasselbe Effektivitätsniveau, wie die
katalogbasierten Treffer von Lycos erreichen, ist bei dieser Suchmaschine eine signifikant
höhere Retrievaleffektivität zu erwarten.
Aus dem Blickwinkel der Resultate dieser Evaluation läßt sich also nicht eindeutig bejahen,
daß der hybride Ansatz sinnvoll ist, um die Retrievaleffektivität von Suchmaschinen im
Internet zu erhöhen.
Dieses Ergebnis berücksichtigt allerdings nur die Qualität der referenzierten Treffer an sich.
Andere positive Mehrwerte, wie etwa das durch die redaktionellen Treffern ermöglichte
Browsing in thematisch passenden Katalogrubriken bleiben unberücksichtigt.
Somit bleibt weiterhin unklar, welches positive Potential der hybride Ansatz für den typischen
Benutzer hinsichtlich des komplexen Suchprozesses307 tatsächlich umzusetzen vermag.
Addiert man zu diesen „Mehrwerten“ das Ergebnis dieser Evaluation hinzu, welches
zumindest aussagt, das hybride Systeme keine signifikant geringere Retrievaleffektivität als
rein roboterbasierte Suchmaschinen aufweisen, läßt sich festhalten, daß der hybride Ansatz
sinnvoll erscheint, um die spezifischen Vorteile von roboterbasierten Suchmaschinen und
menschlich erzeugten Dokumenträumen308 positiv zu konvergieren.
306
Z.B. mittels Feldsuche, Phrasensuche oder boolschen Ausdrücken, wie sie bei Lycos und AltaVista möglich
sind.
307
Vgl. Sven Körber, Suchmuster erfahrener und unerfahrener Suchmachinennutzer im deutschsprachigen World
Wide Web. Ein Experiment, Münster 2000, siehe http://kommunix.unimuenster.de/IfK/examen/koerber/suchmuster.pdf(30.08.00).
308
Hiermit sind zunächst Verzeichnisse in der Art „klassischer“ Webkataloge wie Yahoo gemeint. Der Terminus
Dokumentraum wird gewählt, um andere Formen redaktioneller erzeugter Treffer, wie „paid listings“ nicht
Evaluierung hybrider Suchsysteme im WWW
Seite 122
4.2 Einschätzung und Schlußfolgerungen bezüglich der Evaluation
Ziel dieser Arbeit ist es, qualifizierte Aussagen über die Retrievaleffektivität der untersuchten
Suchmaschinen zu gewinnen. Konnte diese Absicht umgesetzt werden?
Im theoretischen Teil dieser Arbeit wird offensichtlich, daß die Evaluation der
Retrievaleffektivität von Retrievalsystemen ein komplexes Themengebiet ohne abgesichertes
theoretisches Fundament darstellt. Das zentrale Problem der „angemessenen“ quantitativen
und qualitativen Ausgestaltung der Testparameter wird offengelegt.
Die
adaptive Umsetzung der von Tague-Sutcliff
vorgeschlagenen grundlegenden
Vorgehensweise soll sicherstellen, daß das Untersuchungsziel auch tatsächlich erreicht wird.
Inwieweit dies gelungen ist, ist zum einen davon abhängig, ob diese Vorgehensweise
tatsächlich ein adäquates methodisches Verfahren zur Ermittlung der Retrievaleffektivität
darstellt, und zum anderen davon, wie sorgfältig diese Vorgehensweise umgesetzt wird.
Der erste Punkt kann hier nicht beurteilt werden, vielmehr ist darauf hinzuweisen das TagueSutcliffs Ansatz auch heute, acht Jahre nach Erscheinen des Artikels, State-of-the-Art im
Bereich der Evaluationen im Information Retrieval ist.309 Die akkurate Umsetzung der
Vorgehensweise soll durch adaptives Abarbeiten der vorgeschlagenen Vorgehensweise und
der möglichst realitätsnahen und gleichzeitig repräsentativen Ausgestaltung der einzelnen
Testparameter erreicht werden.
Deshalb wird versucht, bei der qualitativen und quantitativen Ausgestaltung der Kenngrößen
der Untersuchung, zum einen die webspezifischen Eigenschaften des Information Retrievals,
hinsichtlich Datenbestand, Hypertextstrukturen, Nutzer und den Intersuchmaschinen selbst
möglichst realitätsgetreu abzubilden und zum anderen, gängige Standards bei der
Evaluation, sogenannte „Faustregeln“, z.B. bezüglich Testart (Test anhand einer
Testkollektion) und Anzahl der Suchanfragen (50), einzuhalten.
Inwieweit wird dies erreicht?
auszuschließen.Vgl. Wiebke Loosen, Suchmaschinen -Informations- und Wissensverwalter im World Wide Web,
siehe http://kommunix.uni-muenster.de/IfK/lehre/mj_suchmaschinen.htm (11.12.00).
309
rd
Chris Buckley, Ellen M. Voorhees, Evaluating Evaluation Measure Stability, in: SIGIR 2000, The 23 Annual
International ACM SIGIR Conference on Research and Development on Information Retrieval, July 24-28 2000,
S.33-40, S.33-34.
Evaluierung hybrider Suchsysteme im WWW
Seite 123
Die adaptive Abarbeitung der von Tague-Sutcliff vorgeschlagenen Vorgehensweise ist
unproblematisch, da nur minimale Modifikationen hinsichtlich der Ausgestaltung der
Vorgehensweise vorgenommen werden müssen.310
Die realitätsnahe Abbildung der Testparameter wird hingegen nur näherungsweise erreicht.
Probleme ergeben sich insbesondere bei den Suchanfragen, den zu bewertenden
Dokumenten und der Relevanzbewertung selbst.
Die „Rückerschließung“ der Informationsbedürfnisse bzw. in umgekehrten Fällen die
Generierung der Suchanfragen, wird durch den Untersuchenden selbst vorgenommen. Die
so konstruierten Suchanfragen und Informationsbedürfnisse werden zwar von mehreren
Personen auf „Objektivität“ hin nachgeprüft, trotzdem läßt sich nicht prinzipiell ausschließen,
daß Vorlieben und Abneigungen des Untersuchenden verzerrenden Einfluß auf das Ergebnis
ausüben.
Bei der Dokumentdarstellung ist eine möglichst originalgetreue Abbildung der zu bewerteten
Webseiten das Ziel. Damit soll sichergestellt werden, daß die dynamischen und interaktiven
Komponenten der einzelnen Webseiten, bei der Beurteilung berücksichtigt werden können.
Eine identische Abbildung wird angestrebt jedoch nicht immer erreicht. Teilweise ist ein
erheblicher zeitlicher Aufwand erforderlich, um eine weitgehend übereinstimmende lokale
Kopie zu generieren. Obwohl solche problematischen Webseiten dahingehend überprüft
werden, daß die Unterschiede in der Darstellung die Relevanzbeurteilung nicht
beeinflussen,311 läßt sich nicht ausschließen, daß dies während der Tests trotzdem der Fall
war.
Bei
der
Berücksichtigung
der
Hypertextstruktur
des
Internet,
durch
die
Relevanzeinstufungsmöglichkeit „verweist auf relevante Seiten“ wird dieses Problem der
Relevanzbewertung offensichtlich. Die Relevanzeinstufung wird nicht anhand der Sichtung
der Seiten, auf die verwiesen wird gefällt, sondern mittels der Bewertung der Verknüpfung
auf den lokal gespeicherten Ergebnisseiten vorgenommen.
Gegen diese Verfahrensweise läßt sich dasselbe Argument anführen, daß auch gegen die
Verwendung der Trefferseiten der Suchmaschinen spricht. Es wird implizit unterstellt, daß
die Metainformation der Verknüpfung auf der lokal gesicherten Ergebnisseite den Inhalt der
Seite, auf die verlinkt wird hinreichend und korrekt beschreibt. Dies kann nur annähernd der
Fall sein. Idealerweise müßten alle Seiten, auf die die Ergebnisseiten verweisen, ebenfalls
310
Nur das Kapitel 2.3.4 „Welches Informationssystem wird genutzt/untersucht?“ wurde vereinfachend modifiziert,
da sich dieser Punkt im Web auf die Auswahl der zu untersuchenden Suchmaschinen beschränkt. Vgl. 3.1.4.
311
Durch Rücksprache mit Mitarbeitern der Firma Suchtreffer, vgl. 3.3.1.
Evaluierung hybrider Suchsysteme im WWW
Seite 124
originalgetreu gesichert werden, um Verzerrungen der Ergebnisse bezüglich unzureichender
oder gar falscher Metainformationen auf den Ergebnisseiten zu kompensieren.
Obwohl in dieser Arbeit also gezielte Maßnahmen ergriffen werden, um die Neutralität des
Testdesigns sicherzustellen, zeigen diese Probleme, daß auch in dieser Untersuchung
letztlich nicht ausgeschlossen werden kann, daß Vorlieben und Abneigungen des
Untersuchenden, verzerrenden Einfluß auf die Ergebnisse ausüben.
Aufgrund der beschränkten personellen, zeitlichen und auch hardwaretechnischen
Ressourcen312 müssen diese, möglicherweise das Ergebnis verzerrenden, Einschränkung
allerdings in Kauf genommen werden.
Die Anlehnung an Standards im Information Retrieval findet in dieser Untersuchung vor
allem in der Anzahl der Suchanfragen und der verwendeten Testart ihren Ausdruck.
Zur Anzahl der Suchanfragen läßt sich aussagen, daß durch einen Retrievaltest umso
qualifiziertere Aussagen getroffen werden können, je größer die Anzahl der durchgeführten
Suchanfragen ist. In dieser Arbeit wird die Anzahl von 50 Suchanfragen gewählt, weil diese
Anzahl als ausreichend gilt, um bei Retrievaltests verallgemeinerungsfähige Aussagen
treffen zu können.313 Diese Menge kann, im Rahmen der zur Verfügung stehenden
Ressourcen, bewältigt werden.
Die Wahl der Testart „Test anhand einer Testkollektion“ bietet einerseits den Vorteil einer
höheren Kontrolle über die Tests, andererseits wird dadurch aber verhindert, daß z.B. mittels
„interaktiver Tests mit Nutzern“ die Auswirkungen anderer potentiellen Mehrwerte des
hybriden Ansatzes (Katalogrubriken)314 evaluiert werden können.
Im angeführten Punkt wird z.B. die Repräsentativität der Relevanzbeurteilungen der
größeren Realitätsnähe interaktiver Tests mit realen Nutzern vorgezogen.
Im Rahmen des Untersuchungsziels werden folglich mehrere Abwägungen, „trade-offs“,
zwischen verschiedenen zu evaluierenden Aspekten getroffen. Das bedeutet im
Umkehrschluß, daß bei dieser Evaluation nur ein Teil der Gesichtspunkte, die Einfluß auf die
Retrievaleffektivität von Internetsuchmaschinen ausüben, berücksichtigt wird.
312
Vor allem aus Speicherplatzgründen, die 3000 Ergebnisseiten belegen alleine schon rund 330 MB
Speicherplatz, würden die von diesen Seiten aus verlinkten Seiten ebenfalls lokal gesichert, so würde ein
Vielfaches dieses Menge benötigt.
313
rd
Chris Buckley, Ellen M. Voorhees, Evaluating Evaluation Measure Stability, in: SIGIR 2000, The 23 Annual
International ACM SIGIR Conference on Research and Development on Information Retrieval, July 24-28 2000,
S.33-40, S.33.
314
Vgl. 4.1.
Evaluierung hybrider Suchsysteme im WWW
Seite 125
Faßt man die Problematik bei der Ausgestaltung der Kenngrößen zusammen, so läßt sich
grundlegend festhalten, daß jede Entscheidung, die beim Aufbau des Evaluationsettings
getroffen wird, die Aussagekraft der Untersuchung einerseits einschränkt, andererseits aber
die Validität und Reliabilität innerhalb dieses dann eingeschränkten Bereichs verstärkt, bzw.
absichert.
Den externen Rahmen für die Beschränkungen bilden die vorhandenen Ressourcen, d.h. der
zur Verfügung stehende Zeitraum, die Fachkompetenz des Untersuchenden, die Art und
Anzahl der zur Verfügung stehenden Probanden sowie die vorhandene Hard- und
Softwareaustattung .
Zur Einschätzung dieser Evaluation läßt sich festhalten, daß versucht wird im Rahmen der
zur Verfügung stehenden Ressourcen, unter Rückgriff und Einbeziehung vorhandener
Erkenntnisse, eine bestmögliche Annäherung an die Realität des Information Retrieval im
Web zu erreichen. Das in dieser Arbeit gewählte Vorgehen zielt dahin auf heuristischpragmatisch Weise, Fehler oder Unzulänglichkeiten anderer Untersuchungen zu vermeiden
und
dadurch
innerhalb
der
von
den
vorhandenen
Ressourcen
gesetzten
Rahmenbedingungen das „bestmögliche“ Testanordnung zu bestimmen.
Dieses Ziel wird zwar nur näherungsweise erreicht, trotzdem wird davon ausgegangen, daß
die Evaluation insgesamt hinreichend valide und reliabel durchgeführt werden konnte.
Denn einerseits werden bei der Durchführung der Tests, die webspezifischen Eigenheiten
des Information Retrieval wie Datenbestand, Hypertextstrukturen und Nutzer im Rahmen der
Möglichkeiten der vorhandenen Ressourcen berücksichtigt, andererseits werden die
gängigen Standards bei der Evaluation von Retrieval Systemen, bezüglich der Anzahl der
Suchanfragen, des Testverfahren und der Relevanzbewertungsmaße eingehalten.
Ein allgemeingültiger Objektivitätsanspruch kann schon alleine deshalb nicht erhoben
werden, weil die ersichtlichen Defizite breiten Raum für mögliche Verbesserungen erkennen
lassen.
Auf die Testanordnung bezogen sollte versucht werden:
•
Die Durchführung der Suchanfragen und die Sicherung der Ergebnisseiten zu
automatisieren, beispielsweise durch die Entwicklung eines Skripts, welches diesen
Vorgang weitgehend selbstständig ausführt.
Evaluierung hybrider Suchsysteme im WWW
•
Seite 126
Der Url sollte den Juroren bei der Relevanzbeurteilung zur Verfügung gestellt werden,
beispielsweise dadurch, daß obengenanntes Skript die Adresse der Ergebnisseite
automatisch in diese einfügt, oder beim Aufbau der Testwebsite berücksichtigt.
•
Ebenso sollte versucht werden die lokalen Kopien originalgetreuer zu generieren,
beispielsweise durch die Verwendung eines Webeditors.
•
Denkbar wäre auch die Entwicklung einer Datenbank unter optionaler Einbindung eines
Statistiktools, welche die Auswertung der Daten und die Berechnung der Ergebnisse auf
„Knopfdruck“ ermöglicht.
Bei diesen „Verbesserungsmaßnahmen“ muß allerdings vorab gesichert werden, daß sie die
Validität und Reliabilität der Untersuchung auch tatsächlich steigern oder im Rahmen der
vorhandenen Ressourcen zumindest eine Effizienzsteigerung bewirken.315
Generell sind die zur Verfügung stehenden Ressourcen der zentrale Punkt jeder Evaluation.
Je mehr Ressourcen zur Verfügung stehen, umso elaborierter können die quantitativen und
qualitativen Testparameter ausgestaltet werden.
Beispielsweise kann die Anzahl der untersuchten Suchmaschinen, oder die Anzahl der
untersuchten Aspekte welche die Retrievaleffektivität beinflussen316 erhöht und/oder die
Validität und Reliabilität der einzelnen Untersuchungsparameter gesteigert werden.
Wobei die zentrale Frage, welcher Aufwand und welche Vorgehensweise für welchen
Untersuchungszweck hinreichend ist, bei der Evaluation von Internetsuchmaschinen
weiterhin ungeklärt bleibt.317
Dies weist auf den Bedarf für Standards bei der Evaluation von Retrievalsystemen im
Internet hin. Ziel sollte es sein, dem jeweiligen Untersuchungsziel angemessene
Standarttestverfahren und -anordnungen, ähnlich TREC, unter Berücksichtigung der
webspezifischen Eigenschaften im Bereich des Information Retrieval zu entwickeln. Werden
diese allgemein akzeptiert, so wäre es möglich, Retrievaltests im Web auf eine gemeinsame
methodische Basis zu stellen womit die Ergebnisse verschiedener Untersuchung erstmals
miteinander verglichen werden könnten.
315
Tague-Sutcliff definiert Effizienz als Verhältnis des Grades der erreichten Validität und Reliabilität im zum
hierfür betriebenen Aufwand. Vgl. Jean, Tague-Sutclife, The Pragamatics of Information Retrieval
Experimentation, Revisited, in: Karen Sparck Jones, Peter Willet (Hg), Readings in Information Retrieval, San
Francisco 1997, S.205-216, S.216-217.
316
Z.B. Thematik der Suchanfragen, Suchanfragenformulierung, Spezifität der Fragestellungen, usw.
317
Vgl. 2.4.2, siehe auch Anhang A.
Evaluierung hybrider Suchsysteme im WWW
Seite 127
Diese Untersuchung zeigt dabei eine Möglichkeit auf, wie ein Evaluationssettings entwickelt
werden kann, das hinreichend scheint die Retrievaleffektivität von Internetsuchmaschinen
valide und reliabel zu ermitteln.
Evaluierung hybrider Suchsysteme im WWW
Seite 128
Literaturverzeichnis
Baeza-Yates, Ricardo/ Ribeiro-Neto, Berthier, Modern Information Retrieval, Essex 1999.
Bekavac, Bernhard, Tutorial zur Suche im WWW/Internet (1.2) Version 1998, siehe
http://www.inf-wiss.uni-konstanz.de/suche/such_tutorial.html#2.3 (01.10.00).
Bilal, Dania, Web Search Engines for Children, A Comparative Study and Performance
Evaluation of Yahooligans!, Ask Jeeves for Kids, and Super Snooper, Proceedings
of the 62nd ASIS Annual Meeting, 36, October 31-Nov. 4, 1999, Washington, D.C.
(pp. 70-82).
Buckley, Chris/ Voorhees, Ellen M., Evaluating Evaluation Measure Stability, in: SIGIR 2000,
The 23rd Annual International ACM SIGIR Conference on Research and
Development on Information Retrieval, July 24-28 2000, S.33-40.
Bußmann, Hadumod,Lexikon der Sprachwissenschaft, Stuttgart 1990.2
Chu, Heting/ Rosenthal, Marilyn, Search Engines for the World Wide Web: A Comparative
Study and Evaluation Methodology, in: ASIS 1996 Annual Coonference
Proceedings, October 19-24 1996, siehe http://www.asis.org/annual96/ElectronicProceedings/chu.html (17.10.00).
Cooper, W. S., Expected search length, in: American Dokumentation, 19 1968 S.30-41.
Courtois, Martin P./ Berry, Michael W., Results Ranking in Web Search Engine, in: Online,
May 1999, siehe http://www.onlineinc.com/onlinemag/OL1999/courtois5.html
(19.11.00)
Craswell, Nick/ Bailey, Peter/ Hawking, David, Is it fair to evaluate web systems using TREC
ad hoc methods?, siehe http://pastime.anu.edu.au/nick/pubs/sigir99ws.ps.gz
(02.11.00).
Frisch, E./ Kluck, M., Pretest zum Projekt German Indexing and Retrieval Testdatabase
(GIRT) unter Anwendung der Retrievalsysteme Messenger und
Evaluierung hybrider Suchsysteme im WWW
Seite 129
Gerald Kowalski, Information Retrieval Systems, Theory and Implementation, Norwell 1998.2
Gordon, Michael/ Pathak, Praveen, Finding Information on the World Wide Web: the retrieval
effectiveness of search engines, in: Information Processing and Management (35)
1999, S.141-180.
Gordon, Michael/ Pathak, Praveen, Finding Information on the World Wide Web: the retrieval
effectiveness of search engines, in: Information Processing and Management (35)
1999, S.141-180.
Harman, Donna,The Text Retrieval Conferences (TRECs): Providing a Test-Bed for
Information Retrieval Systems, siehe http://www.asis.org/Bulletin/Apr98/harman.html (01.11.00).
Hawking, David/ Craswell Nick/ Thistlewaite, Paul/ Harman, Donna, Results and Challenges
in Web Search Evaluation, siehe http://www8.org/w8-papers/2c-searchdiscover/results/results.html (14.10.00).
Hawking, David/ Voorhees, Ellen/ Craswell, Nick/ Bailey, Peter, Overview of the TREC-8
Web Track, 2000, siehe http://trec.nist.gov/pubs/trec8/papers/web_overview.pdf
29.10.00).
Jansen, Bernard J./ Spink, Amanda/ Saracevic, Tefko, Real Life, Real Users, and Real
Needs: A Study and Analysis of User Queries on the Web, siehe
http://jimjansen.tripod.com/academic/pubs/ipm98/ipm98.html (16.10.00).
Käter, T./ Rittberger, Marc/ Wormser-Hacker, C./ Evaluierung der Text-Retrievalsysteme
Domestic, Intelligent Miner for Text, Lars II und TextExtender, 1999, siehe
http://www.inf-wiss.uni-konstanz.de/People/MR/pubs/kik99.html (19.10.00).
Knorz, Gerhard, Information Retrieval-Anwendungen, in: M.G. Zilahi-Szabo (Hg.): "Kleines
Lexikon der Informatik und Wirtschaftsinformatik", München, Wien: OldenbourgVerlag 1995, S. 244 - 248. Siehe http://www.iud.fhdarmstadt.de/iud/wwwmeth/publ/paper/iranw95/paper1.htm (25.11.00).
Evaluierung hybrider Suchsysteme im WWW
Seite 130
Knorz, Gerhard, Information Retrieval-Anwendungen, in: Zilahi-Szabo (Hg), Kleines Lexikon
der Informatik und Wirtschaftsinformatik, 1995, S.244-248, siehe http://www.iud.fhdarmstadt.de/iud/wwwmeth/publ/paper/iranw95/paper1.htm#kap1 (16.10.00).
Knorz, Gerhard, Testverfahren für intelligente Indexierungs- und Retrievalsysteme anhand
deutschsprachiger sozialwissenschaftlicher Fachinformation (GIRT), , Bericht über
einen Workshop am IZ Sozialwissenschaften, Bonn 12. September 1997, siehe
http://www.iud.fh-darmstadt.de/iud/wwwmeth/publ/paper/girt97/paper1.htm
(19.10.00).
Körber, Sven, Suchmuster erfahrener und unerfahrener Suchmachinennutzer im
deutschsprachigen World Wide Web. Ein Experiment, Münster 2000, siehe
http://kommunix.uni-muenster.de/IfK/examen/koerber/suchmuster.pdf (30.08.00).
Kuhlen, Rainer, Pragmatischer Mehrwert von Information, Sprachspiele mit
informationswissenschaftlichen Grundbegriffen, Konstanz 1989.
Kuhlen, Rainer, Hypertextifizierung - Zu den methodischen Grundlagen nicht-linear
organisierter Informationssysteme: Text - Kontext - Hypertext, siehe http://www.infwiss.uni-konstanz.de/CURR/summer98/imk/hypertextgrundlagen.html (30.11.00).
Lancaster, F . Wilfried/ Warner, Amy J., Information Retrieval Today, Arlington 1993.
Lepsky, Klaus/ Siepmann, Jörg/ Zimmermann, Andrea, Automatische Indexierung für OnlineKataloge: Ergebnisse eines Retrievaltests, 1996, siehe http://www.uniduesseldorf.de/ulb/mil_retr.htm (19.10.00).
Lesk, Michael, The seven ages of information retrieval, siehe
http://www.ifla.org/VI/5/op/udtop5/udtop5.htm (30.10.00).
Loosen, Wiebke, Suchmaschinen -Informations- und Wissensverwalter' im World Wide Web,
siehe http://kommunix.uni-muenster.de/IfK/lehre/mj_suchmaschinen.htm (11.12.00).
Moore, Alvin/ Murray, Brian H./ Sizing the Internet, A Cyveillance Study, 2000.
http://www.cyveillance.com/resources/7921S_Sizing_the_Internet.pdf (02.10.00).
Evaluierung hybrider Suchsysteme im WWW
Seite 131
Münz, Stefan, Hypertext, 1997 siehe http://user.fachdid.fu-berlin.de/Docs/HTXT/htxt613.htm
(01.10.00).
Nielsen, JakobHow users read on the web, siehe http://www.useit.com/alertbox/9710a.html
(03.12.00).
Oppenheim, C./ Morris, A./ McKnight, C./ Lowley, S., The evaluation of WWW search
engines, in: Journal of Documentation, Vol. 56 No. 2, March 2000, S.190-211.
Peterson, Richard Einer, Eight Internet Search Engines Compared, 1996, siehe
http://www.firstmonday.dk/issues/issue2_2/peterson/index.html (19.10.00).
Robertson, Stephen E., the methodology of information retrieval experiment, in: Karen
Sparck Jones, information retrieval experiment, S.9-31.
Sachse, Elisabeth/ Liebig, Martina/ Gödert, Winfried, Automatische Indexierung unter
Einbeziehung semantischer Relationen: Ergebnisse des Retrievaltests zum MILOS
II-Projekt, in: Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft,
Band 14 1998.
Saracevic, Tefko, Relevance: A Review of and a Framework for the Thinking on the Notion in
Information Science, in: Karen Sparck Jones, Peter Willett (Hg), Readings in
Information Retrieval, San Francisco 1997, S.143-165.
Schallhorn, Klaus, Tief Not Flieger, siehe
http://suchfibel.de/aktuell/gastbeitrag/tiefnotflieger.htm (28.11.00)
Schäuble, Peter, Eurospider Suchsystem für die ETH Zürich, siehe
http://www.awu.id.ethz.ch/~input/input09/eurospider.html (16.10.00).
Sherman, Chris, The Future Revisited: What´s New With Web Search, in: Online May 2000,
siehe http://www.onlineinc.com/onlinemag/OL2000/sherman5.html (01.10.00)
Evaluierung hybrider Suchsysteme im WWW
Seite 132
Sherman, Chris, The Invisible Web, siehe
http://websearch.about.com/internet/websearch/library/weekly/aa061199.htm
(11.11.00). Zugang zu diesen Informationen versucht die Website
http://www.invisibleweb.com/ zu verschaffen (11.11.00).
Siegel, Sidney, Nichtparametrische statistische Methoden, Eschborn 1987.
Stenmark, DickTo Search is Great, to Find is Greater: a Study of Visualisation Tools for the
Web. http://w3.informatik.gu.se/%7edixi/publ/mdi.htm (13.04.00).
Stock, Mechtild/ Stock, Wolfgang G. Internet-Suchwerkzeuge im Vergleich, Teil 1:
Retrievaltest mit Know Item Searches, in: Password 11/2000, S.23-31.
Tague-Sutclife, Jean The Pragamatics of Information Retrieval Experimentation, Revisited,
in: Karen Sparck Jones, Peter Willet (Hg), Readings in Information Retrieval, San
Francisco 1997, S.205-216.
Tague-Sutcliffe, Jean, The pragmatics of information retrieval experimentation, revisited, in:
Information Processing & Management Vol.28, No.4, 1992, S.467-490.
Taublee, O. E., Content Analysis, Specification and Control, in: Annual Review of Information
Science and Technology 3 1967, S.105-136.
Ulisch, Carsten, Suchmaschinen im Internet, siehe http://www.unikoblenz.de/~krause/Suchmaschinen.html (01.10.00).
Van Risjbergen, C.J, Information Retrieval, London 1979.2
Warner, Julian In the catalogue ye go for men: evaluation criteria for information retrieval
systems, in: Aslib Proceedings Vol.52, No.2 2000, S.76-82.
Wichmann, André, Aufbau und Techniken von Suchmaschinen für das WWW, siehe
http://www-student.informatik.unibonn.de/~wichmann/writings/webcrawlers/index.html (08.10.00).
Evaluierung hybrider Suchsysteme im WWW
Seite 133
Wolff, Christian, Effektivität von Recherchen im World Wide Web, Eine vergleichende
Evaluierung von Such- und Metasuchmaschinen, in: Gerhard Knorz, Rainer Kuhlen
(Hg), Informationskompetenz – Basiskompetenz in der Informationsgesellschaft,
Proceedings des 7. Internationalen Symposiums für Informationswissenschaft,
Konstanz 2000, S.31-48.
Wolff, Christian, Vorlesungsnotizen Information Retrieval, 2.4. Evaluierung im IR, WS99/00,
siehe http://www.informatik.unileipzig.de/ifi/abteilungen/asv/Wolff/IRWS99_5_Evaluierungs.pdf (05.09.00).
Womser-Hacker, Christa, Der Padok-Retrievaltest, Zürich, NewYork 1989.
ZDLabs, AltVista Web Search Site Evaluation, 2000, siehe
http://www.zdnet.com/etestinglabs/reports/altavista.pdf (06.10.00).
Hilfe eines
Queries mit
den Versuchspersonen selbst Vielleicht Relevant =bei
(Anteil der
Metasuchmaschinen
nicht beim Recall
Relevant
durch Trefferliste
Fehlerbereinigung bei den von Nicht relevant
boolsche Ausdrücke
natural language sowie als
Recall
Retrievaleffektivität von
Off Werten (10/30)
Relevanzbeurteilung
Such- und
Metamaschinen sind
Vergleich der
Informatikstudenten
nicht effektiver, auch
2 Metamaschinen
(Metacrawler/C4)
von Such- und
Metasuchmaschinen
(AltaVista/Northernligh g brachte keine
Operatorenverwendun Testpersonen
unkenntlich gemacht)
Treffer wurde
bewertet (Herkunft der
Beurteilungsbogens
verschiedenen Cut- Standardoperatoren und
20Dokumenten usw.)
2 Suchmaschinen
(10 Dokumenten/
Dokumente wurden
ausgedruckt und mit
Recall/Precision Values
verschiedener
Messung anhand
Highly irrelevant
Somewhat irrelevant
Somewhat relevant
Highly relevant
Die ersten 20
Precision bei
"best possible queries"
language phrase
durch Studenten
höhere Effektivität
and-pencil" experiment
Vergleichstudien "paper-
als Single Keyword
multiple keyword and natural
oder mit einem Link zur
richtigen Antwort
Yahoo
"Searcher"
in the wild and how long in
captivity"
Relevanzbeurteilung
nicht unter den paar.
ersten 20 zu verteilen Formulierung durch
33 Suchen
Überlappungsgrad
Precision Recall
Relevant ist ein Dokument
Relevanzbeurteilung
"how long does an alligator live mit der richtigen Antwort
Eine Query: fact-finding
Queries
Magellan
Lycos
Studenten
Formulierung durch
Information need
Dokumenten unter den optimale Query
relevantesten
tendieren dazu die
t)
im World Wide Web, Eine
1999
vergleichende Evaluierung
Effektivität von Recherchen
vergangener Evaluationen Open Text
engines
Christian Wolff
infoseek
Literaturauswertung
effectiveness of search
Hotbot
Excite
world wide web: The retrieval Evaluation
Praveen Pathak
Guide für eine "akukurate" AltaVista
Finding information on the
Michael Gordon,
Super Snooper
Ask Jeeves for Kidsm and
Super Snooper
Suchmaschinen
Redundancy
Retrievalperformane
Study and Performance
Evaluation of Yahooligans!,
Overlap
Retrieval Output
Kindersuchmaschinen und Aks Jeeves for Kids
Yahooligans
Featurevergleich von
Web Search Engines for
Variablen
Children: A comparative
Suchmaschinen
Dania Bilal
Hypothesen/Ergebni Durchführung
s
Test von
Titel
Autor
Thema
Seite 135
Anhang A: Übersicht andere Evaluationen
Evaluierung hybrider Suchsysteme im WWW
23 Suchmaschinen
Netz?
Information Retrieval on the
World-Wide Web
1998
Venkat N.
Gudivada
William I. Grosky
Vijay V. Raghavan
Wer ist die beste Spinne im
Suchmaschinen
Einschätzung von
Vergleichende
und User Interface
Suchmaschinen im Vergleich, Vergleich von Relevanz
Panagiotis
Koukoudis
Conjunktive und
Ergebnisse als
lieferten bessere
Phrasenqueries
gepflegte Datenbank
Umfang des Index
Spezielle Features
Aktualität
Suchverfeinerung
Trefferqualität
Datenbankpflege
über
Links erlaubt Urteil
Anzahl der Toten
Links, d.h. eine schlecht g wurde variiert
multiagent system architecture
latex software
Wer ist Boris Becker
Köln bewegt sich
Anfragenformulierun Apollo 11
- "Woodrow Wilson´ s Forteen
Points"
2 Anfragen
language
Treffern
Trefferanzahl
Verfügbarkeit
10mal angefragt
wurde mindestens
Features
Lycos hat viele tote
6 Fragen mit und ohne
Jede Suchmaschine Operatoren, keine natural
Antwortzeit
Compared 1996
10 Suchmaschinen
oge/Metasucher)
(Suchmaschinen/Katal
(pooling Methode))
maximale Anzahl von - Embargo
Richard Einer Peterson
Retrievaltest
Dokumenten
Vergleichender
Collections
Der Grosse Tomorrow Test
relevanten
Search Engines
Eight Internet
Karzauninkat
Stefan
Tomorrow Test
Informationen über die
Relevanz von
Justin Picard
Hyperlinks beinhalten
21 fachliche
Bezug auf alle
Dokumenten
20 allgemeine
Dokumenten in
fachspezifischen und
41 Anfragen
formulierten Queries
Queries
allgemeinen Anfragen
nachgewiesenen
relevanten
Unterscheidung der
Variablen
Fragen nach
Hypothesen/Ergebni Durchführung
s
Suchmaschinen
Seite 136
Test von
Web and in Distributed
Report on the TREC-8
Jacques Savoy,
Thema
Experiment: Searching on the
Titel
Autor
Evaluierung hybrider Suchsysteme im WWW
Websites (Platzierung)
Zufriedenstellende
Unsicherheit
Relevanzbeurteilung
Lycos "gewinnt"
Queries
Lycos
WWW search engines
Schlichting, Erik
Nielsen 1996
Signal detection Analysis of
Infoseek, Lycos)
besonders schlecht
•Relevanzentscheidung
Detection Analysis
Beurteilung durch Signal
7)
• Usefulness eurteilung (1-
j/n
2 stufige Relevanz
wurden bewertet
Die ersten 10 Dokumente
Trefferlisten
Forschungsthema
5
8 Keywords
Beurteilung der
durch Autoren
Relevanzbeurteilung
Top 10 Precision
der Kriterien
aber mit "Nachjustierung"
schriftlich niedergelegt
Relevanzkriterien vorher
First 20 Precision
Relevanzbeurteilung
Keyworte zu einem
Infoseek und AV sind generierten 4-6
5 Universitätsmitarbeiter 4 Suchmaschinen
gelieferten Treffer
Anzahl der
Alexander 1997
Carsten
11 Suchmaschinen
aus Universitätsbibliotheken
(features)
Lebedev,
"sample queries"
Suchmöglichkeiten
10
15
Queries
precision, response time 3 Suchmaschinen
5 Suchmaschinen
Variablen
Chu, Rosenthal
Bibliothek
Quereis aus der
generell Subject
Excite, Hotbot, Infoseek,
Vergleichende Evaluation (AltaVista, Excite,
Block Design
Ergebnisseiten
geblendet
vermeiden
(Search Engines): Alta Vista,
Web Search Services
Suchmaschinen
Disjunktive
Hypothesen/Ergebni Durchführung
s
Test von
Seite 137
1996
Srivastava 1997
Precision among World Wide Versucht Bias zu
Leighton,
Thema
Titel
Autor
Evaluierung hybrider Suchsysteme im WWW
zu unterhalten oder Software, die für IRC notwendig ist. Softwareangebote die IRC ermöglichen, ebenso chat-spezifische
Chatmöglichkeiten und Dienste chat
im Internet
chat
sms
Software Spiel Moorhuhn
Computerspiele online
moorhuhn
spiele
Autokauf/-verkauf/-verleih im
auto
Internet
Reiseangebote im Internet
reisen
Gewinnspiele
Kartenspiele Glücksspiele
(Netzwerk) spiele Brettspiele
Suchdienst yahoo
Web
auto
reisen
spiele
moorhuhn
yahoo
Telefonnummernrecherche im telefonauskunft
yahoo
telefonauskunft
Benutzer sucht Chat-Einstiegspunkte im Netz um sich Relevant sind alle Seiten, die Chatrooms anbieten, aber auch
SMS Angebote im Netz
sms
routenplaner
Routenplanung im Internet
Suchdienste
geschlossen
geschlossen
von Verkäufern/Verkaufshäusern/Herstellern Werkstätten
Benutzer will ein Auto kaufen/verkaufen/leihen/ leasen Relevant sind Informationsangebote Autos betreffend (z.B. Zeitwert), Seiten
Netz
Relevant sind Reiseinfos, Reiseangebote durch z.B. Firmen aber auch
Metainformation über Reiseinfos oder direkte Buchungsmöglichkeiten im
Spiele jeder Art käuflich zu erwerben (Shops) oder downzuloaden.
offen
offen
Relevant sind alle Seiten auf denen es möglich ist zu spielen (online Games), offen
Relevant sind Seiten die den Download von Moorhuhn anbieten
Relevant ist die Seite www.yahoo.de.
ganze Bundesgebiet) anbieten.
Benutzer will Reiseangebote recherchieren und
oder reparieren
offen
offen
Relevant sind Seiten die eine Telefonnummernauskunft (mindestens für das geschlossen
eventuell buchen
Benutzer will Spiele finden oder spielen
herunterladen
Benutzer will moorhuhn spielen, d.h. das Spiel
Benutzer will den Suchdienst yahoo finden
Benutzer will eine Telefonnummer recherchieren
Sprüche/Klingeltöne)
auch Seiten relevant die SMS spezifischen Content anbieten (z.B.
Web anbieten oder auf solche Dienste verweisen (Übersichten), ebenso sind
Relevant sind Seiten, die kostenlose oder kostenpflichtige SMS Dienste im
wählbar sein.
eine Routenplanung vorzunehmen. Start und Zielort müssen dabei frei
Benutzer sucht SMS Dienste im Netz
Relevant sind Seiten, die es erlauben, zumindest innerhalb Deutschlands
Benutzer will eine Fahrtroutenplanung online
vornehmen
geschlossen
Hardware oder einzelne Songs bzw. Bands sind nicht relevant
Files (Software/Songs) aufzuspüren bzw.
herunterzuladen
Relevant sind Seiten die MP3 Suchangebote für Songs oder Software (Player offen
oder Suchtools) beinhalten.
Fragetyp
Benutzer sucht Mp3 Dateien/Software d.h..
Relevanzkriterien
Übersichten, Verzeichnisse Suchmaschinen um Mp3
(unterstelltes) Informationsbedürfnis
Routenplaner
mp3
Query
mp3 Dateien/Software
Thema
MP3
Einwortqueries
Seite 139
Anhang B: Suchanfragen Übersicht
Evaluierung hybrider Suchsysteme im WWW
Wetterbericht übers Internet
Immobilieninformation -kauf, -
wetter
immobilien
Bildschirmschoner für PC
Bildschirmschoner
Online Auktionen informieren
Benutzer will übers Internet Immobilien kaufen oder
diese herunterladen
Fahrplanauskunft oder Kartenbestellung anbieten.
Kartenbestellung bzw. Fahrplanauskunft
Verona Feldbusch
Star Verona Feldbusch
verona feldbusch
free sms
Kostenlose Sms Angebote im
Free Sms
Internet
Sms Sprücheseiten im Internet sms sprüche
Sms Sprüche
Benutzer sucht Informationen oder informationelle
zu verschicken
Relevanz sind Seiten die Infos, Bilder oder Produkte überwiegend von/über
Benutzer sucht Dienste, die es erlauben kostenlos Sms Relevant sind Seiten, die kostenloses verschicken von Sms ermöglichen
Relevant sind Seiten die SMS-Sprüche anbieten bzw. Übersichten über
solche Seiten bereitstellen
Benutzer sucht Texte (z.B. Witze u. Liebesgedichte)
Relevant ist die Homepage des Online-Versandhandels von Beate Uhse
über Möbelspeditionen in München
die sich für den Versand per Handy eignen.
Benutzer sucht den Onlineshop von Beate Uhse
beate uhse
Beate Uhse
Einzelhandel Beate Uhse
München
Erotik-Versand und-
oder Fanartikel von Britney Spears
möbelspeditionen münchen Benutzer sucht für einen Umzug Möbelspeditionen in Relevant sind Seiten von Möbelspeditionen in München oder Übersichten
München
Möbelspeditionen in München
Möbelspeditionen
offen
offen
geschlossen
geschlossen
geschlossen
geschlosem
offen
offen
offen
geschlossen
offen
Relevant sind Seiten die Infos, Bilder oder Produkte überwiegend von Britney offen
Produkte (Bildschirmschoner usw.) oder CD´s, Videos Spears enthalten
Benutzer sucht Informationen oder informationelle
Informationsdienste über Last-Minute
Relevant sind konkrete Angebote von Reiseunternehmen, sowie
Dienstleistungen bezüglich der Bahn, wie Kartenreservierung
Internet
britney spears
Relevant ist die Big Brother Homepage
ermöglichen.
Benutzer sucht Online Dienstleistungen der Deutschen Relevant ist die Homepage der Bundesbahn sowie Seiten die
Internet
Popstar Britney Spears
relevant.
z.B. Stellenmärkte. Stellenausschreibungen einzelner Firmen sind nicht
Relevant sind Seiten, die eine hohe Anzahl von Stellenangeboten offerieren,
für ganz Deutschland anbieten.
Bahn z.B. Möglichkeiten zur Reservierung und
Benutzer sucht Last Minute Reisemöglichkeiten im
deutsche bahn
und Verkauf ermöglichen
Benutzer sucht Bildschirmschoner im Internet und will Relevant sind Seiten, die den Download von Bildschirmschonern
Benutzer sucht Stellenangebote
geschlossen
offen
Fragetyp
Relevant sind alle Seiten die über Immobilien informieren und/oder den Kauf offen
Benutzer will online einen Stadtplan benutzen/einsehen Relevant sind alle Seiten, die online Stadtpläne, zumindest flächendeckend
verkaufen oder sich darüber informieren
anbieten
Benutzer will übers Internet den Wetterbericht abfragen Relevant sind Seiten, die Wetterberichte, zumindest in ganz Deutschland,
informieren
Auktionsseite umkucken bzw. sich über Auktionen
Relevant sind alle Auktionsseiten im Internet aber auch Seiten, die über
Produkt ersteigern oder sich erstmal auf einer
Informationsdiensten (z.B. ADAC)
Relevanzkriterien
Benutzer will auf einer Auktionsseite im Internet ein
(unterstelltes) Informationsbedürfnis
big brother bzw „Big Brother“ Benutzer sucht die Homepage zur Serie
bildschirmschoner
job
stadtplan
immobilien
wetter
auktionen
Query
Seite 140
Last Minute Reiseangebote im last minute
Britney Spears
Last Minute
Verfügbare Dienstleistungen
Deutsche Bahn
der Deutschen Bahn im Internet
Reality Soap Big Brother
Big Brother
Queries
Keyword
Jobangebote im Internet
job
Multiple
Stadtpläne im Internet
Stadtplan
verkauf im Internet
Auktionen im Internet
auktionen (pretest)
Thema
Evaluierung hybrider Suchsysteme im WWW
Frankfurter Flughafen im
flughafen frankfurt
Statistiken über Abtreibungen
Bundeswehr im UN-Auftrag
Waffenexport in die Türkei
Weltraumschrott
No 61
No 66
No 67
selbst
No 55
geniert)
(Queries
TREC
TOPICS
Verona Feldbusch enthalten
Produkte oder Videos oder Fanartikel von Verona
Börsengeschehen und zwar in Buchform
Rechtfertigung durch die Verfassung und der Legitimation im Lichte der
Erfahrungen des Zweiten Weltkrieges und des Dritten Reiches. Wichtig ist
Bundeswehr im Rahmen von UN-Aufträgen
diskutieren.
weltraumschrott gefahren
waffenexport türkei
Bundeswehr für UNO-Missionen und befassen sich auch mit Fragen der
Entscheidungen zum Einsatz der deutschen
auslandseinsatz
die die Waffenlieferungen an die Türkei noch nicht eingestellt haben, sowie
die jeweiligen internen Diskussionen bezüglich dieser Frage.
von Menschen produziert wurde?
Weltraumschrott und den davon ausgehenden Gefahren. Irrelevant sind
Welche Gefahren gehen von Weltraumschrott aus, der Relevante Dokumente befassen sich mit menschlich produziertem
offen
verurteilt. Relevante Dokumente betrachten diejenigen europäischen Länder,
Waffenlieferungen an die Türkei immer noch nicht
eingestellt?
die deswegen erhobenen Proteste gegen die Regierungen dieser Länder und
Europa hat die brutale Unterdrückung der Kurden durch die türkische Armee offen
offen
offen
geschlossen
offen
geschlossen
Welche europäischen Nationen haben ihre
Kampfeinsätze umfassen.
auch die Frage, ob friedenserhaltende Missionen auch militärische
Finde Dokumente, die den Einsatz und die politischen Relevante Dokumente diskutieren den Auslandseinsatz der deutschen
bundeswehr un
einzelner Personen oder in einzelnen Kliniken enthalten, sind irrelevant.
die Abtreibung (auch in Form von Statistiken) oder die Abtreibungen
Gesamtzahl der Schwangerschaften. Dokumente, die nur Meinungen über
Abtreibungen in aller Welt oder in verschiedenen Ländern, z.B. mit Bezug zur
Schwangerschaftsabbrüche in aller Welt
schwangerschaft
Benutzer sucht die Homepage der Deutsche Telekom Relevant ist die Homepage der Deutschen Telekom
Relevanz sind Seiten die Infos, Bilder oder Produkte von/über Star Trek
enthalten
Produkte oder Videos oder Fanartikel zu Star Trek
Relevant ist die Homepage der Deutschen Bank
verlinken
Die Statistiken informieren über die Anzahl der legalen oder illegalen
schwangerschaftsabbrüche
offen
geschlossen
offen
Fragetyp
Relevant ist die Homepage des Frankfurter Flughafens bzw Seiten die darauf geschlossen
Relevant sind überregionale Firmenverzeichnisse im Internet.
Benutzer sucht Informationen oder informationelle
Benutzer sucht die Homepage der Deutschen Bank
Flughafens
Benutzer sucht die Homepage des Frankfurter
Benutzer sucht Firmenverzeichnisse im Internet
Benutzer sucht die Homepage der Stiftung Warentest Relevant ist die Homepage der Stiftung Warentest
Relevant sind Seiten, die Bücher anbieten, welche vom Börsengeschehen
handeln
Benutzer sucht Informationen über das
Feldbusch
Relevanzkriterien
(unterstelltes) Informationsbedürfnis
Seite 141
abtreibungen anzahl statistik Suche Statistiken über legale und/oder illegale
TelekomDeutsche Telekom im Internet deutsche telekom
Deutsche
Pretest
Science Fiction Serie Star Trek star trek
Star Trek
deutsche bank
Deutsche Bank im Internet
Deutsche Bank
Internet
Firmenverzeichnisse im Internetgelbe Seiten
Gelbe Seiten
flughafen frankfurt
Stiftung Warentest im Internet stiftung warentest
Siftung Warentest
börse bücher
Bücher über die Börse
Query
25 Börse Bücher
Thema
Evaluierung hybrider Suchsysteme im WWW
Milos I
Martin P.Courtois
Relevante Dokumente enthalten Informationen über die Gefahren des
Fischens mit Schleppnetzen und Grundschleppnetzen für Delfine und/oder
bestehen, nicht Relevant sind Dokumente, die sich ausschließlich mit dem
Wie ist Ergonomie am Arbeitsplatz umzusetzen?
ergonomie arbeitsplatz
welche Folgen zieht eine Scheidung für Kinder nach
Ergonomie am Arbeitsplatz
folgen scheidung kinder
Folgen einer Scheidung für
Relevant sind Dokumente, die die Thematik Ergonomie am Arbeitsplatz aus
Auswirkungen einer Ehescheidung für Kinder beschreiben.
Relevant sind Dokumente die die psychologischen oder rechtlichen
schildern.
Widerstandsformen wurden angewandt, mit welchem
Erfolg?
Widerstandes gegen den Nationalsozialimus aufzählen, darstellen oder
Relevant sind Dokumente, die Gruppen, Personen oder Ereignisse des
Darstellungen der anderen Konfliktparteien schildern
Irrelevant sind Dokumente die ausschließlich Positionen/ Argumente/
Reich, wer waren die Gruppen, Personen, welche
welche Formen von Widerstand existierten im Dritten
sich
nationalsozialismus
oder blockiert sie und wenn ja, mit welchen Mitteln
Kinder
widerstand
Widerstand im
Nationalsozialismus
Nordirlandkonflikts
Relevant sind alle Dokumente, die die Rolle der IRA im Friedensprozeß zur
Welche Rolle spielt die IRA im Friedensprozeß zur
Sicherheitsprobleme, wie können diese
umgangen/gelöst werden
Lösung des Nordirlandkonflikts, läßt sie sich einbetten Lösung des Nordirlandkonfliktes behandeln/beleuchten.
Betrugsproblematik bei Kreditkartentransaktionen im Internet eingehen, d.h.
die Probleme bzw. Gefahren schildern oder Lösungshinweise geben.
Kreditkartenbetrug begangen, worin bestehen die
Welche Rolle spielt die IRA im ira nordirland konflikt
beim Business to Consumer E-Commerce liefern oder generell auf die
In welchem Umfang wird beim Handel im Internet
handel
Relevant sind Dokumente, die quantitative Angaben über Kreditkartenbetrug
Falkland Krieg beschäftigen
oder wirtschaftlichen Kontakte oder Verträge zwischen GB und Argentinien
und Großbritannien.
kreditkartenbetrug online
friedensprozeß
offen
offen
offen
Fragetyp
offen
offen
offen
offen
offen
Relevanz haben Dokumente, die schildern welche diplomatischen politischen offen
wirtschaftlichen Beziehungen zwischen Argentinien
Wie sind die diplomatischen/politischund
Rechte verschrieben haben.
Friedensprozeß des
Sicherheit im E-Commerce
britisch argentinische
beziehungen
Informationen über Tiere, die zu den geschützten Arten gehören, und über
die Rettung geschützter Tierarten engagieren.
Gruppen oder Einzelpersonen, die sich dem Schutz der Tiere und ihrer
von Menschen gefährdet oder verletzt. Relevante Dokumente enthalten
Tiere, die zu den geschützten Arten gehören, werden oft durch Handlungen
Personen berichten, die sich überall auf der Welt für
rettung geschützter Arten
und verendet sind.
Finde Dokumente, die über Organisationen und
tierschutz organisationen
Welt verursacht?
es den Tod Tausender dieser Tiere in den Meeren der berichten von Fällen, in denen Delfine in solchen Netzen gefangen wurden
das Überleben der Delfine, da
delphine schleppnetzfischen Birgt das Schleppnetzfischen eine ernste Gefahr für
der Rechte zur Eheschließung und zur Adoption von Kindern beschreiben.
Die relevanten Dokumente sollen die Rechte Homosexueller einschließlich
Dokumente, die natürliche Objekte wie z.B. Kometen betreffen.
Relevanzkriterien
gefahr
Britisch-Argentinische
Tierschutz
No 81
Paare?
eheschließung heirat
Welche Rechte haben homosexuelle Personen oder
homosexualität recht
(unterstelltes) Informationsbedürfnis
Seite 142
gesetzgebung adoption
Query
Beziehungen
Rettung für Delphine
No 71
Web Trec
Homosexualität und Recht
No 68
Thema
Evaluierung hybrider Suchsysteme im WWW
Literatursuche
erschlossene
Nutzerbefragung
Durch
Susan Feldmann
NLP Queries
Milos II
alarmanlagen auto
Query
Verkaufsangebote z.B. von Hardware durch Online Shops
welche Vorschriften sind zu beachten?
Welche Firmen waren bei der UMTS Auktion dabei
Suchmuster erfahrener und Benutzer sucht die Magisterarbeit von Sven Körber
unerfahrener
der Magisterarbeit von Sven
spiele 2000 sydney
Olympischen Sielen 2000
geschlossen
Relevant sind Seiten die Magisterarbeit beinhalten oder auf diese Verweisen geschlossen
Benutzer will den Name des Goldmedaillengewinners Relevanz sind Seiten, die den Namen des Olympiasiegers beinhalten.
herausfinden
Literatursuche
goldmedaillen gewinner
marathonlauf olympische
Goldmedaillengewinner beim
Marathonlauf bei den
Benutzer benötigt Vorlagen für Microsoft Word und will Relevant sind Seiten die Vorlagen für Microsoft Word zum download anbieten offen
diese aus dem Internet herunterladen
vorlagen microsoft word
beinhalten, sowie die Höhe der Lizenzpreise angeben.
Relevant sind Seiten, die die Teilnehmer der Auktion und die Lizenzgewinner offen
Vorlagen für Microsoft Word
und ersteigerten zu welchem Preisen wieviele
offen
geschlossen
Lizenzen
teilnehmer preise gewinner
Restaurants/Hotels/Gaststätten enthalten sind
Welche Restaurants in Florenz sind empfehlenswert? Relevant sind Seiten auf denen Kritiken oder Übersichten von
sind
geschlossen
offen
Offen
Frequenzen
umts lizenzen auktion
wer bekam wieviele
florenz in italien
finde restaurantführer für
kindersitzherstellern
UMTS Technologie
Restaurantführer für Florenz
Welche Kindersitzhersteller gibt es?
Relevant sind Seiten in denen mindestens 2 Kindersitzhersteller aufgeführt
finde listen oder
Kindersitze im Auto
verzeichnisse von
oder Seiten in denen Preise für G3 Powerbooks genannt werden
Powerbooks
Relevant sind Seiten, die Preisübersichten über G3 Powerbooks anbieten,
des Nationalsozialimus informieren.
demographische Entwicklungen im medizinischen Bereich während der Zeit
preise für g3 powerbooks
während der Zeit des Nationalsozialismus
Welche Entwicklungen im Bereich der Medizin gab es Relevant sind Seiten die über politische, wissenschaftliche sowie
Toskana anbieten oder online händische Toskana Reiseführer verkaufen
Toskana finden oder online Reiseführer erwerben
oder medizinische Therapien Aufschluß geben
Relevant sind Seiten, die entweder online Reiseinformationen über die
Benutzer will online Reiseinformationen über die
medizinischen Therapien gibt es?
offen
Relevant sind Dokumente, die entweder über notwendige Sofortmaßnahmen Offen
beinhalten, ebenso konkrete Verkaufsangebote
Informationen über Autoalarmanlagen z.B. (den Einbau in das Auto)
Fragetyp
Was ist bei einem Schlaganfall zu tun? Welche
diese, wie schwierig ist der Einbau?
Apple
medizin drittes reich
Medizin im Dritten Reich
theoretischer oder rechtlicher Sicht behandeln, irrelevant sind konkrete
Welche Voraussetzungen müssen erfüllt sein und
Welche Alarmanlagen gibt’s es für Autos, was kosten Relevant sind Dokumente, die Marktübersichten, oder technische
Relevanzkriterien
(unterstelltes) Informationsbedürfnis
Seite 143
Preise für G3 Powerbooks von was sind die gegenwärtigen Benutzer will sich über die aktuellen Preise für G3
reiseführer toskana
Reiseführer für die Toskana
Behandlung bei Schlaganfällen behandlung schlaganfall
Alarmanlagen für das Auto
Thema
Evaluierung hybrider Suchsysteme im WWW
Suchmaschinennutzer im
Körber 2000
Recherchemöglichkeiten im Koch
Grau hinterlegte Suchanfragen wurden während der Tests nicht verwendet
internationaler Überblick
Internet -
Verbesserung der
von Koch, T.
Relevant ist der Volltext des Artikels oder Seiten die auf diesen verlinken
Relevanzkriterien
Seite 144
Benutzer sucht Online-Artikel (Volltext) von Traugott
(unterstelltes) Informationsbedürfnis
Literatursuched Finde Artikel
Wide Web. Ein Experiment.
deutschsprachigen World
Query
Thema
Evaluierung hybrider Suchsysteme im WWW
geschlossen
Fragetyp
Evaluierung hybrider Suchsysteme im WWW
Seite 145
Anhang C: Verteilungscode der Suchmaschinen
query #
AltaVista
Treffer AltaVista
Lycos
Treffer Lycos
QualiGo
Treffer QualiGo
1 mp3
sa
904700
sb
127048
sc
22715
2 routenplaner
sb
105224
sc
16104
sa
17801
5147
3 sms
sc
361815
sa
122399
sb
4 chat
sa
2550645
sb
442830
sc
8001
5 telefonauskunft
sb
29460
sc
7146
sa
80978
6 yahoo
sc
151390
sa
144076
sb
8530
7 moorhuhn
sa
25841
sb
7265
sc
1131
8 spiele
sb
1380640
sc
258544
sa
238273
165318
9 reisen
sc
2506837
sa
345321
sb
10 auto
sa
2989418
sb
543160
sc
80150
11 wetter
sb
1888892
sc
443846
sa
53768
12 immobilien
sc
2035560
sa
212084
sb
40969
13 stadtplan
sa
517585
sb
58842
sc
146571
14 job
sb
956886
sc
277129
sa
151779
15 bildschirmschoner
sc
52606
sa
23124
sb
1413
16 big brother
sa
156340
sb
22177
sc
9971
17 deutsche bahn
sb
1469495
sc
39857
sa
5378
18 last minute
sc
465905
sa
86405
sb
9375
19 britney spears
sa
15472
sb
5801
sc
1932
20 möbelspeditionen münchen
sb
2189434
sc
749392
sa
66989
21 beate uhse
sc
67414
sa
2380
sb
676
22 sms sprüche
sa
317643
sb
1439
sc
125224
23 free sms
sb
378760
sc
13949
sa
3282
24 verona feldbusch
sc
32470
sa
3522
sb
478
25 börse bücher
sa
4830989
sb
11627
sc
10419
26 stiftung warentest
sb
246825
sc
47100
sa
25223
27 gelbe seiten
sc
544894
sa
11822
sb
2398
28 flughafen frankfurt
sa
2042930
sb
19608
sc
1372
29 deutsche bank
sb
3321300
sc
70905
sa
5965
17396
30 star trek
sc
160555
sa
41897
sb
31 abtreibungen anzahl statistik
sa
689510
sb
703634
sc
50830
32 bundeswehr un auslandseinsatz
sb
80283
sc
40
sa
195365
33 waffenexport türkei
sc
150445
sa
115
sb
26787
34 weltraumschrott gefahrensa
sa
245306
sb
97486
sc
110559
35 homosexualität recht gesetzgebung
sb
804366
sc
701258
sa
268383
36 rettung für delphine
sc
614911
sa
171027
sb
16284
37 tierschutz
sa
1335422
sb
332886
sc
373455
38 britsch argentinische beziehungen
sb
395944
sc
6/126420
sa
48506
39 sicherheit ecommerce
sc
12376401
sa
23
sb
317724
40 ira
sa
131463
sb
54
sc
62221
41 widerstand nationalsozialismus
sb
264929
sc
3624
sa
189939
42 folgen scheidung kinder
sc
3177560
sa
1346
sb
199789
43 ergonomie arbeitsplatz
sa
267858
44 alarmanlagen auto
sb
644618
sc
810
sa
118023
45 behandlung schlaganfall
sc
438310
sa
2224
sb
100425
46 reiseführer toskana
sa
130846
sb
565
47 medizin drittes reich
sb
970066
sc
48 umts
sc
3133482
sa
49 vorlagen microsoft word
sa
739645
sb
50 marathonlauf
sb
2641710
sc
1853
204557
sc
58157
sa
113558
758828
sb
299368
1319
sc
88777
4658703
sa
409404
Evaluierung hybrider Suchsysteme im WWW
Seite 146
Anhang D: Beispiel eines Fragebogens
Personenschlüssel
Fragebogen
- Evaluation hybrider Suchdienste Herzlich willkommen zu dieser Untersuchung.
Ihre Aufgabe in dieser Untersuchung besteht darin, im Folgenden Webseiten auf ihre Relevanz hin zu
bewerten. Sie bekommen hierzu eine Liste von URL´s, die die hier untersuchten Suchmaschinen als
Ergebnisse bestimmter Anfragen geliefert haben. Ihre Einschätzung dient als Grundlage zur
qualitativen Bewertung der untersuchten Suchmaschinen.
Zunächst bitte ich Sie noch um einige grundlegende Informationen zu ihrer Person, die für die
Auswertung benötigt werden. Diese Daten werden streng vertraulich behandelt; keinerlei
Informationen, die Ihre Person erkennen lassen, werden auf irgendeinem Medium gespeichert oder an
Dritte weitergeleitet.
Wichtig: Bei dieser Untersuchung geht es nicht um eine Beurteilung Ihrer Person, sondern lediglich
um ihre persönliche Relevanzeinstufung der Ergebnisseiten der untersuchten Suchmaschinen. Sollten
Sie während der Untersuchung Fragen haben, werde ich sie gerne beantworten.
Bitte beantworten Sie zunächst folgende Fragen.
Welchem Geschlecht und welcher Altersgruppe gehören Sie an?
weiblich
männlich
0-20
21-30
31-40
41-50
Welche berufliche Tätigkeit üben Sie aus?
51-60
__________________________________
Im Umgang mit Computern bzw. Software bezeichnen Sie sich als?
Anfänger
Fortgeschrittener
Experte
Wie häufig „surfen“ Sie im World Wide Web?
täglich
mehrmals pro Woche
selten bis nie
Sie benutzen Suchmaschinen oder andere Information Retrieval Systeme?
selten bis nie
mehrmals pro Woche
täglich.
Wie fühlen Sie sich gerade?
sehr schlecht
– 2
–1
0
+1
+2
sehr gut
Evaluierung hybrider Suchsysteme im WWW
Seite 147
Untersuchung
Sie sehen im weiteren Teil des Fragebogens zwei Bewertungsbögen, zu je drei Blättern, auf denen
jeweils aufgeführt sind:
•
das zu behandelnde Thema
•
die Suchabfrage, die bei den Suchmaschinen durchgeführt wurde
•
das der Suchanfrage zugrundgeliegende Informationsbedürfnis
•
und die Kriterien zur Relevanzeinstufung
Lesen Sie diesen Text gründlich und in Ruhe durch.
Weiter unten auf den Blättern sind die zu beurteilenden Webseiten in einer Reihenfolge von a1-t20
aufgeführt.
Auf diese Webseiten können Sie zugreifen, indem Sie im Browser die Url http://www.inf.unikonstanz.de/~griesbau/evaluation_html_files/ öffnen und den Links folgen.
Selektieren Sie bitte, von oben beginnend, eine Seite, so daß diese im Browser erscheint und kreuzen
sie das ihrer Meinung nach passende Relevanzkriterium auf dem jeweiligen Bewertungsblatt an.
Wenn Sie fertig sind, selektieren Sie bitte die nächste Webseite und bewerten diese u.s.w..
Insgesamt sind 120 Webseiten zu bewerten. Fällen sie ihr Urteil „spontan“ ohne langes Nachdenken,
so als würden sie selbst das zugrundegelegte Informationsbedürfnis verspüren und die Suchabfrage
eingegeben haben.
Betrachten sie nur die jeweilige Seite, folgen Sie keinen Links. Wenn sie denken die Seite würde auf
relevante Seiten verweisen, so kreuzen sie das entsprechende Feld auf den Bewertungsblättern an,
ohne die Links zu überprüfen.
Seiten, die innerhalb eines Bewertungsblattes mehrfach erscheinen (Dupletten z.B. wenn die
Webseite x, auf einem Bewertungsblatt mehrfach auftaucht) sind als nicht relevant anzukreuzen.
Ansonsten bewerten Sie die jeweiligen Listen und Dokumente unabhängig voneinander, jede(s) für
sich.
Und nun viel Spaß!
Evaluierung hybrider Suchsysteme im WWW
Seite 148
Personenschlüssel
q18_last_minute_sa
Thema
Query
Informationsbedürfnis
Last
last
Benutzer
Minute
minute
Reisemöglichkeiten im Internet.
sucht
Relevanzkriterien
Last
Minute
Relevant sind konkrete Angebote
von
Reiseunternehmen,
Reiseang
Informationsdienste
ebote im
Minute.
über
sowie
Last-
Internet
Seite
relevant
verweist auf relevante Seite(n) nicht relevant
a1
O
O
O
b2
O
O
O
c3
O
O
O
d4
O
O
O
e5
O
O
O
f6
O
O
O
g7
O
O
O
h8
O
O
O
i9
O
O
O
j10
O
O
O
k11
O
O
O
l12
O
O
O
m13
O
O
O
n14
O
O
O
o15
O
O
O
p16
O
O
O
q17
O
O
O
r18
O
O
O
s19
O
O
O
t20
O
O
O
Evaluierung hybrider Suchsysteme im WWW
Seite 149
Personenschlüssel
q18_last_minute_sb
Thema
Query
Informationsbedürfnis
Last
last
Benutzer
Minute
minute
Reisemöglichkeiten im Internet.
sucht
Relevanzkriterien
Last
Minute
Relevant sind konkrete Angebote
von
Reiseunternehmen,
Reiseang
Informationsdienste
ebote im
Minute.
über
sowie
Last-
Internet
Seite
relevant
verweist auf relevante Seite(n) nicht relevant
a1
O
O
O
b2
O
O
O
c3
O
O
O
d4
O
O
O
e5
O
O
O
f6
O
O
O
g7
O
O
O
h8
O
O
O
i9
O
O
O
j10
O
O
O
k11
O
O
O
l12
O
O
O
m13
O
O
O
n14
O
O
O
o15
O
O
O
p16
O
O
O
q17
O
O
O
r18
O
O
O
s19
O
O
O
t20
O
O
O
Evaluierung hybrider Suchsysteme im WWW
Seite 150
Personenschlüssel
q18_last_minute_sc
Thema
Query
Informationsbedürfnis
Last
last
Benutzer
Minute
minute
Reisemöglichkeiten im Internet.
sucht
Relevanzkriterien
Last
Minute
Relevant sind konkrete Angebote
von
Reiseunternehmen,
Reiseang
Informationsdienste
ebote im
Minute.
über
sowie
Last-
Internet
Seite
relevant
verweist auf relevante Seite(n) nicht relevant
a1
O
O
O
b2
O
O
O
c3
O
O
O
d4
O
O
O
e5
O
O
O
f6
O
O
O
g7
O
O
O
h8
O
O
O
i9
O
O
O
j10
O
O
O
k11
O
O
O
l12
O
O
O
m13
O
O
O
n14
O
O
O
o15
O
O
O
p16
O
O
O
q17
O
O
O
r18
O
O
O
s19
O
O
O
t20
O
O
O
Evaluierung hybrider Suchsysteme im WWW
Seite 151
Personenschlüssel
q19_britney_spears_sa
Thema
Query
Informationsbedürfnis
Relevanzkriterien
Popstar
britney
Benutzer sucht Informationen oder
Relevant sind Seiten die Infos,
Britney
spears
informationelle
Bilder oder Produkte überwiegend
Spears
Produkte
(Bildschirmschoner usw.) oder CD´s,
von Britney Spears enthalten.
Videos oder Fanartikel von Britney
Spears
Seite
relevant
verweist auf relevante Seite(n) nicht relevant
a1
O
O
O
b2
O
O
O
c3
O
O
O
d4
O
O
O
e5
O
O
O
f6
O
O
O
g7
O
O
O
h8
O
O
O
i9
O
O
O
j10
O
O
O
k11
O
O
O
l12
O
O
O
m13
O
O
O
n14
O
O
O
o15
O
O
O
p16
O
O
O
q17
O
O
O
r18
O
O
O
s19
O
O
O
t20
O
O
O
Evaluierung hybrider Suchsysteme im WWW
Seite 152
Personenschlüssel
q19_britney_spears_sb
Thema
Query
Informationsbedürfnis
Relevanzkriterien
Popstar
britney
Benutzer sucht Informationen oder
Relevant sind Seiten die Infos,
Britney
spears
informationelle
Bilder oder Produkte überwiegend
Spears
Produkte
(Bildschirmschoner usw.) oder CD´s,
von Britney Spears enthalten.
Videos oder Fanartikel von Britney
Spears
Seite
relevant
verweist auf relevante Seite(n) nicht relevant
a1
O
O
O
b2
O
O
O
c3
O
O
O
d4
O
O
O
e5
O
O
O
f6
O
O
O
g7
O
O
O
h8
O
O
O
i9
O
O
O
j10
O
O
O
k11
O
O
O
l12
O
O
O
m13
O
O
O
n14
O
O
O
o15
O
O
O
p16
O
O
O
q17
O
O
O
r18
O
O
O
s19
O
O
O
t20
O
O
O
Evaluierung hybrider Suchsysteme im WWW
Seite 153
Personenschlüssel
q19_britney_spears_sc
Thema
Query
Informationsbedürfnis
Relevanzkriterien
Popstar
britney
Benutzer sucht Informationen oder
Relevant sind Seiten die Infos,
Britney
spears
informationelle
Bilder oder Produkte überwiegend
Spears
Produkte
(Bildschirmschoner usw.) oder CD´s,
von Britney Spears enthalten.
Videos oder Fanartikel von Britney
Spears
Seite
relevant
verweist auf relevante Seite(n) nicht relevant
a1
O
O
O
b2
O
O
O
c3
O
O
O
d4
O
O
O
e5
O
O
O
f6
O
O
O
g7
O
O
O
h8
O
O
O
i9
O
O
O
j10
O
O
O
k11
O
O
O
l12
O
O
O
m13
O
O
O
n14
O
O
O
o15
O
O
O
p16
O
O
O
q17
O
O
O
r18
O
O
O
s19
O
O
O
t20
O
O
O
Evaluierung hybrider Suchsysteme im WWW
Wie würden Sie jetzt nach dem Test Ihre Stimmung bezeichnen?
– 2
–1
0
+1
+2
__________________________________
Vielen Dank für Ihre Mitarbeit!
__________________________________
Seite 154
Evaluierung hybrider Suchsysteme im WWW
Seite 155
Anhang E: Beispiel eines Signifikanztests
Vorzeichentest nach Sidney, Siegel, Nichtparametrische statistische Methoden, Eschborn 1987.
Signifikanz der Effektivitätsunterschiede hinsichtlich der Beantwortung der einzelnen Suchanfragen
verwendetes nichtparametrisches Verfahren: Vorzeichentest; prüft ob signifikante Unterschiede
bestehen.
Test wird einseitig unternommen, da vorab davon ausgegangen wird, daß Lycos besser ist.
Ausnahme Vergleich von AltaVista und QualiGO
Nullhypothese h0: p(XA>XB) = p(XA<XB) =0,5
Anzahl der Paare (XA>XB) gleich Anzahl der Paare (XA<XB)
ungefähr die Hälfte der Differenzen besitzt ein negatives bzw. positives Vorzeichen
wird diese mit hinreichender Wahrscheinlichkeit widerlegt, gilt die Testhypothese.
Ablauf: Ermittlung der Werte der Vergleichspaare N (Precision pro Suchanfrage) (N=50)
Elimination der Vergleichspaare mit identischen Werten aus der Menge N
Ermittlung der Häufigkeit von X (X = kleinere Anzahl von Vorzeichen)
Für N<=25 Ermittlung der Wahrscheinlichkeit für das Zutreffen der Gegenhypothese aus Tafel D im
Anhang S.236.
Für N >= 25 Berechnung von z und anschließend Ermittlung der Wahrscheinlichkeit für das Zutreffen
der Gegenhypothese aus Tafel A im Anhang S.233.
Wert z ermittelt sich aus ((x +/- 0,5) – (0,5 N))/0,5 N0,5
Suchanfrage
Suchanfragen
Precision
pro
Signifikanztest Lycos
Signifikanztest Lycos
Signifikanztest
AltaVista
AltaVista
AltaVista QualiGo
Suchanfrage
Lycos
AltaVista
QualiGo
1
mp3
0,45
0,6
0,85
-
-
2
routenplaner
0,5
0,7
0,85
-
-
-
3
sms
0,55
0,5
0,5
+
+
0
-
-
4
chat
0,6
0,4
0,45
+
+
5
telefonauskunft
0,5
0,5
0,55
0
-
-
6
yahoo
0,5
0,45
0,5
+
0
-
7
moorhuhn
0,45
0,6
0,6
-
-
0
8
spiele
0,75
0,5
0,65
+
+
-
9
reisen
0,65
0,8
0,6
-
+
+
10
auto
0,25
0,6
0,55
-
-
+
11
wetterbericht
0,35
0,25
0,45
+
-
-
12
immobilien
0,4
0,7
0,8
-
-
-
13
stadtplan
0,3
0,1
0,15
+
+
-
14
job
0,5
0,5
0,35
0
+
+
15
bildschirmschon
0,25
0,4
0,6
-
-
-
+
er
16
big brother
0,25
0,25
0,1
0
+
17
deutsche bahn
0,15
0,15
0,05
0
+
+
18
last minute
0,55
0,65
0,5
-
+
+
19
britney spears
0,3
0,25
0,25
+
+
0
20
möbelsp.
0,05
0,05
0
0
+
+
Evaluierung hybrider Suchsysteme im WWW
Seite 156
münchen
21
beate Uhse
0,25
0,15
0,05
+
+
22
sms sprüche
0,35
0,6
0,4
-
-
+
+
23
free sms
0,6
0,45
0,35
+
+
+
24
verona
0,35
0,45
0,3
-
+
+
feldbusch
25
börse bücher
0,25
0,5
0,05
-
+
+
26
stiftung
0,3
0,05
0,1
+
+
-
warentest
27
gelbe seiten
0,5
0,6
0,65
-
-
-
28
flughafen
0,4
0,2
0,25
+
+
-
frankfurt
29
deutsche bank
0,55
0,7
0,35
-
+
+
30
star trek
0,7
0,6
0,55
+
+
+
31
abtreibungen
0,15
0,5
0,4
-
-
+
32
bundeswehr
0,35
0,45
0,1
-
+
+
Waffenexport
0,35
0,25
0,3
+
+
-
+
33
türkei
34
weltraumschrott
0,2
0,2
0
0
+
35
homosexualität
0,25
0,2
0,4
+
-
-
36
rettung delphine
0,1
0,15
0
-
+
+
37
tierschutz
0,4
0,6
0,1
-
+
+
38
britisch
0,2
0
0,05
+
+
-
+
argentinisch
39
ecommerce
0,6
0,3
0,2
+
+
40
ira
0,1
0,2
0,35
-
-
-
41
widerstand
0,35
0,45
0,45
-
-
0
42
scheidung
0,35
0,5
0,55
-
-
-
43
ergonomie
0,2
0,3
0,2
-
0
+
44
alarmanlagen
0,45
0,3
0,35
+
+
-
45
schlaganfall
0,55
0,35
0,4
+
+
-
46
toskana
0,6
0,35
0,05
+
+
+
medizin drittes
0,2
0,05
0,4
+
-
-
47
reich
48
umts
0,45
0,45
0,55
0
-
-
49
vorlagen
0,35
0,2
0,05
+
+
+
0,2
0,05
0,2
+
0
-
microsoft word
50
marathonlauf
N=50-7=43
N=50-3=47
22
30
N=50-4=46
23
-21
-17
-23
N=43 x=21 folgt z=0,0
N=47 x=17 folgt
N=46 x=23 folgt
daraus folgt laut Tafel
z=0,43 daraus folgt
z=0,14 daraus folgt
laut Tafel A siehe
A siehe Siegel
laut Tafel A siehe
P(Gegenhypothese)=
Siegel
Siegel
0,5, d.h. nicht
P(Gegenhypothese)=
P(Gegenhypothese)=
signifikanz
0,3336, d.h. nicht
0,88 d.h. nicht
signifikanz
signifikanz