Information Retrieval

Transcrição

Information Retrieval
Information Retrieval:
Evaluation
Die Evaluierung von IR-Systemen ist eine schwierige
Aufgabe, weil:
• es eine große Bandbreite an unterschiedlichen
Informationsbedürfnissen und Abfragen gibt;
• der jeweilige Die Evaluierung von IR-Systemen ist eine
schwierige Anteil der einzelnen Komponenten an der
Güte des Ergebnisses schwer zu bewerten ist:
–
–
–
–
Güte der Abdeckung durch Datensammlung
Indizierung der Dokumente
Formulierung der Abfrage
Algorithmus zur Auswahl der Dokumente
VO: IR & IE © 2006 Harald Trost
Evaluierung:
Das Laboratoriumsmodell
• Teste nur „Systemparameter“
– Index language devices für Beschreibung und Suche
– Methoden der Auswahl von Termen aus Dokumenten
– Algorithmus zur Bestimmung der
Dokumentenähnlichkeit
– Art der Benutzerschnittstelle
• Ignoriere den Einfluss der Systemumgebung
– Eigenschaften spezifischer Dokumente
→ verwende viele Dokumente
– Eigenschaften spezifischer Benutzer
→ verwende viele Abfragen
VO: IR & IE © 2006 Harald Trost
1
Evaluierung:
Was sind geeignete Testdaten?
• In den 60ern und 70ern, sehr kleine Testkollektionen, in zufälliger
Weise unterschiedlich, eine pro Project.
– in den 60ern: 35 Abfragen auf 82 Dokumenten
– um 1990: weiterhin nur 35 Abfragen auf 2000 Dokumenten
• Test- und Trainingsdaten wurden nicht immer getrennt gehalten, da
so viele Faktoren der Umgebung getestet wurden.
• TREC-3 (1994): 742,000 Dokumente
• Es sind große Textkollektionen nötig um
– Benutzervariation zu untersuchen
– Statistisch signifikante Resultate zu erhalten;
– Zu demonstrieren, dass die erreichte Performanz auch anhält, wenn die
Größe der Dokumentensammlung wächst → kommerzielle
Glaubwürdigkeit
• Es gibt praktische Schwierigkeiten, genügend Daten zu erhalten →
Probleme mit nicht balancierten Daten
VO: IR & IE © 2006 Harald Trost
Heutige Kollektionen von Testdaten
• Textkollektion
– Groß, um eine Vielfalt von Inhalten, Stilen, sowie Rauschen
(Schreibfehler etc.) zu enthalten.
• Abfragen/Themen
– kurze Beschreibung des Informationsbedarfs
– TREC:
• Themen: eine umfassendere Beschreibung, die Relevanzkriterien
umfasst.
• „frozen“ → wiederverwendbar
• Beurteilung der Relevanz
– binär
– durch dieselbe Person, die die Abfrage erstellt hat.
VO: IR & IE © 2006 Harald Trost
2
Beurteilung der Relevanz
• Relevanz ist inhärent subjektiv, muss also von
menschlichen Benutzer beurteilt werden.
• Problem: Relevanz ist situationsabhängig
– Informationsbedürfnis ist spezifisch für eine bestimmte Person
zu einem bestimmten Zeitpunkt.
– Beurteilungen werden sich also sowohl zwischen
unterschiedlichen Personen als auch bei einer Person zu
unterschiedlichen Zeitpunkten unterscheiden
• Es wird eine extensive Sammlung von Beispielen
benötigt, um die inhärente Variantion auszubalancieren:
– große Populationen von Benutzern
– große Populationen von Informationsbedürfnissen.
VO: IR & IE © 2006 Harald Trost
Beurteilung der Relevanz (2)
• Den beurteilenden Personen werden Richtlinien
gegeben, um Relevanz möglichst objektiv als Beziehung
zwischen Abfrage und Dokument zu definieren:
– Es wird weder die Erfüllung des Informations-bedürfnisses, noch
der Neuigkeitswert der Information gewertet.
– Relevanz wird unabhängig von der in anderen Dokumenten
enthaltenen Information (Redundanz) definiert.
• Solche Richtlinien gewährleisten, dass die Entscheidung
für jedes Dokument unabhängig von allen anderen
getroffen werden kann.
VO: IR & IE © 2006 Harald Trost
3
Evaluierung: TREC
• Text REtrieval Conference
• Veranstaltet vom National Institute of Standards and
Technology (NIST) der USA
• Beginnt eine neue Phase der Evaluierung von Text
Retrieval
– viele Teilnehmer
– gemeinsame Aufgaben und Datensammlungen
– Kontinuität (seit 1992)
• Große Sammlung an Testdaten:
– Texte, Abfragen, Bewertungen der Relevanz
• 2005 wurde TREC-14 veranstaltet
• 117 teilnehmende Gruppen aus 23 Ländern
VO: IR & IE © 2006 Harald Trost
TREC – Beispiel einer Abfrage
<num> Number: 508
<title> hair loss is a symptom of what diseases
<desc> Description:
Find diseases for which hair loss is a symptom.
<narr> Narrative:
A document is relevant if it positively connects the loss
of head hair in humans with a specic disease. In this
context, „thinning hair“ and „hair loss“ are synonymous.
Loss of body and/or facial hair is irrelevant, as is hair
loss caused by drug therapy.
VO: IR & IE © 2006 Harald Trost
4
Evaluierungsmetrik
selektiert
nicht selektiert
gesamt
relevant
irrelevant
gesamt
A
C
A+C
B
D
B+D
A+B
C+D
A+C+B+D
• Recall: Anteil der selektierten an den relevanten Dokumenten
⇒ A/(A+C)
• Precision: Anteil der relevanten an den selektierten Dokumenten
⇒ A/(A+B)
• Accuracy: Anteil der korrekt als relevant/irrelevant klassifizierten
Dokumente ⇒ (A+D)/(A+B+C+D)
– kein gutes Maß für IR, weil es die Performanz bei den relevanten
und bei den irrelevanten Dokumenten (die hier nicht interessieren)
vermengt.
VO: IR & IE © 2006 Harald Trost
Recall und Precision
• Alle Dokumente:
A+B+C+D = 100
• Für eine bestimmte
Abfrage relevante
Dokumente:
A+C = 28
VO: IR & IE © 2006 Harald Trost
5
Recall und Precision: System 1
Gesamt: A+B+C+D = 100
Relevant: A+C = 28
System 1:
selektiert: A1+B1 = 26
relevant: A1 = 10
R1 = A1/(A1+C1) = 10/20 = 0.5
P1 = A1/(A1+B1) = 10/27 = 0.37
A1 = (A1+D1)/(A1+B1+C1+D1) =
= 65/100 = 0.65
VO: IR & IE © 2006 Harald Trost
Recall und Precision: System 2
Gesamt: A+B+C+D = 100
Relevant: A+C = 28
System 2:
selektiert: A2+B2 = 49
relevant: A2 = 16
R2 = A2/(A2+C2) = 16/20 = 0.8
P2 = A2/(A2+B2) = 16/49 = 0.33
A2 = (A2+D2)/(A2+B2+C2+D2) =
= 63/100 = 0.63
VO: IR & IE © 2006 Harald Trost
6
Vergleich System 1 vs. System 2
Gesamt: A+B+C+D = 100
Relevant: A+C = 28
System 1:
selektiert: A1+B1 = 26
relevant: A1 = 10
R1 = A1/(A1+C1) = 10/20 = 0.5
P1 = A1/(A1+B1) = 10/27 = 0.37
A1 = (A1+D1)/(A1+B1+C1+D1) =
= 65/100 = 0.65
System 2:
selektiert: A2+B2 = 49
relevant: A2 = 16
R2 = A2/(A2+C2) = 16/20 = 0.8
P2 = A2/(A2+B2) = 16/49 = 0.33
A2 = (A2+D2)/(A2+B2+C2+D2) =
= 63/100 = 0.63
VO: IR & IE © 2006 Harald Trost
Recall und Precision:
Zusammenhang
0.9
0.8
0.7
0.6
Recall
0.5
0.4
0.3
Precision
0.2
0.1
0
20
40
60
80
Dokumente
• Die Kurven von Precision und Recall (vs. die Anzahl der selektierten
Dokumente) zeigt eine inverse Beziehung zwischen den beiden
Werten
• Die beiden Extremfälle sind P=1, R=0 (bei 0%) und R=1 bei 100%
• Der Schnittpunkt von Precision und Recall kann als
zusammenfassendes Evaluierungsmaß verwendet werden.
VO: IR & IE © 2006 Harald Trost
7
F-measure
• Rijsbergen (1979)
– Fα= P*R/((1- α)*P + α *R)
– Großes α: Recall ist wichtiger
– Kleines α: Precision ist wichtiger
• Meistens verwendet mit α=0.5 → gewichtetes
harmonisches Mittel von P und R
– F0.5= 2*P*R/(P + R)
• Der Maximalwert des F0.5-measure (oder kurz nur
F-measure) ist ein guter Indikator für den besten
Kompromiss für P und R.
• Das F-measure ist eine Approximation des
Schnittpunkts von Precision und Recall.
VO: IR & IE © 2006 Harald Trost
Problem: Ermitteln des Recall
• Für Dokumentensammlungen nicht-trivialer
Größe wird es schnell unmöglich, jedes
Dokument auf Relevanz zu überprüfen.
• Bei 1.000.000 Dokumenten und einem Aufwand
von 15sek/Dokument würde die Überprüfung ca.
4200 Stunden benötigen.
• Will man mehrere Systeme miteinander
vergleichen, so bietet sogenanntes Pooling eine
Möglichkeit, das Problem zu umgehen.
VO: IR & IE © 2006 Harald Trost
8
Pooling
• Entwickelt von Spärck-Jones & van Rijsbergen (1975)
• Der Pool wird aus den von n Systemen jeweils N ersten
selektierten Dokumenten (TREC: N = 100)
• Die von den einzelnen Systemen selektierten
Dokumentmengen überlappen: Der Pool ist daher
deutlich kleiner als das theoretische Maximum von N*n
Systeme → üblicherweise etwa 1/3 der Maximalgröße
• Manuelle Beurteilung jedes Dokuments in diesem Pool.
• Dokumente außerhalb des Pools werden automatisch
als irrelevant betrachtet.
• Pooling funktioniert am besten beim Vergleich deutlich
unterschiedlicher Ansätze
VO: IR & IE © 2006 Harald Trost
9