Das Confirmation/Disconfirmation-Paradigma der

Transcrição

Fachbereich III - Informations- und Kommunikationswissenschaften
Institut für Angewandte Sprachwissenschaft
Magisterarbeit
Internationales Informationsmanagement
Das Conrmation/Disconrmation-Paradigma
der Kundenzufriedenheit
im Kontext des Information Retrieval
Vorgelegt von:
Gutachter:
Katrin Lamm
Prof. Dr. Christa Womser-Hacker
E-Mail: [email protected]
Prof. Dr. Werner Greve
Hildesheim, im Juli 2008
ii
Inhaltsverzeichnis
1. Einleitung und Zielsetzung
1
2. Grundlagen und Methoden der Information-Retrieval-Evaluierung
5
2.1.
2.2.
2.3.
2.4.
2.5.
Bewertung und Vergleich der Retrievaleektivität
. . . . . . . . . . . . .
6
2.1.1.
Systemorientierte Evaluierung . . . . . . . . . . . . . . . . . . . .
6
2.1.2.
Benutzerorientierte Evaluierung . . . . . . . . . . . . . . . . . . .
9
Die Bedeutung internationaler Evaluierungsinitiativen . . . . . . . . . . .
11
2.2.1.
Text REtrieval Conference (TREC) . . . . . . . . . . . . . . . . .
12
2.2.2.
Cross-Language Evaluation Forum (CLEF) . . . . . . . . . . . . .
13
Leistungsvergleich auf der Basis von Eektivitätsmaÿen . . . . . . . . . .
14
2.3.1.
Die Standardmaÿe Recall und Precision . . . . . . . . . . . . . . .
15
2.3.2.
Weitere relevanzbasierte Eektivitätsmaÿe
. . . . . . . . . . . . .
18
Erhebungsmethoden zur Evaluierung von Mensch-Maschine-Interaktion .
20
2.4.1.
Objektive Erhebungsmethoden
. . . . . . . . . . . . . . . . . . .
21
2.4.2.
Subjektive Erhebungsmethoden . . . . . . . . . . . . . . . . . . .
22
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3. Grundlagen der Zufriedenheitsforschung
3.1.
3.2.
3.3.
Theoretische Ansätze in der Kundenzufriedenheitsforschung
25
. . . . . . .
25
3.1.1.
Der Soll-Ist-Vergleich der Kundenzufriedenheit . . . . . . . . . . .
26
3.1.2.
Die Faktorstruktur der Kundenzufriedenheit . . . . . . . . . . . .
31
Methodische Ansätze in der Kundenzufriedenheitsforschung . . . . . . . .
34
3.2.1.
Identizierung und Kategorisierung von Kundenanforderungen . .
34
3.2.2.
Messung von Kundenzufriedenheit . . . . . . . . . . . . . . . . . .
36
40
4. Stand der Forschung
41
4.1.
Performanzorientierte Forschung . . . . . . . . . . . . . . . . . . . . . . .
41
4.2.
Zufriedenheitsorientierte Forschung
44
. . . . . . . . . . . . . . . . . . . . .
iii
Inhaltsverzeichnis
4.3.
Forschungsansätze zum Einuss der Ergebnispräsentation . . . . . . . . .
46
4.4.
50
5. Aufbau und Ablauf der empirischen Untersuchung
5.1.
5.2.
5.3.
Auswahl des Untersuchungsdesigns
53
. . . . . . . . . . . . . . . . . . . . .
5.1.1.
Formulierung der Untersuchungshypothesen
5.1.2.
Kontrolle von Störvariablen
54
. . . . . . . . . . . .
55
. . . . . . . . . . . . . . . . . . . . .
58
. . . . . . . . . . . . . . . . . . . . . . .
59
5.2.1.
Beschreibung der Suchaufgaben . . . . . . . . . . . . . . . . . . .
62
5.2.2.
Beschreibung des Anwendungsprogramms
. . . . . . . . . . . . .
63
5.2.3.
Erstellung der Ergebnislisten . . . . . . . . . . . . . . . . . . . . .
66
5.2.4.
Erhebungsverfahren der Hauptuntersuchung
. . . . . . . . . . . .
68
Ergebnisse der qualitativen Voruntersuchung . . . . . . . . . . . . . . . .
74
Ablauf der Hauptuntersuchung
6. Darstellung und Auswertung der Untersuchungsergebnisse
77
6.1.
Zusammensetzung und Beschreibung der Stichprobe . . . . . . . . . . . .
77
6.2.
Analyse - und Auswertungsverfahren
. . . . . . . . . . . . . . . . . . . .
78
6.3.
Untersuchungsergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
6.3.1.
Überprüfung der Daten . . . . . . . . . . . . . . . . . . . . . . . .
82
6.3.2.
Auswertung der Benutzerzufriedenheit
. . . . . . . . . . . . . . .
89
6.3.3.
Auswertung der Benutzerleistung
. . . . . . . . . . . . . . . . . .
97
6.3.4.
Einbeziehung von Kovariaten
. . . . . . . . . . . . . . . . . . . . 103
7. Fazit und Ausblick
107
Literaturverzeichnis
111
Abbildungsverzeichnis
121
Tabellenverzeichnis
123
Anhang
125
A. Materialien zum Benutzertest
127
A.1. Vorabinformation niedrige Erwartungshaltung
. . . . . . . . . . . . . . . 127
A.2. Vorabinformation hohe Erwartungshaltung . . . . . . . . . . . . . . . . . 128
A.3. Beschreibung des Anwendungsszenarios . . . . . . . . . . . . . . . . . . . 129
A.4. Beschreibungen der einzelnen Suchaufgaben
iv
. . . . . . . . . . . . . . . . 130
Inhaltsverzeichnis
A.5. Fragebogen zur Benutzerzufriedenheit . . . . . . . . . . . . . . . . . . . . 131
B. Ranking der Ergebnislisten
B.1. Energieaufgabe
137
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
B.2. Asienaufgabe
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
B.3. Atomaufgabe
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
C. Statistische Auswertungen
141
C.1. Überprüfung der Voraussetzungen . . . . . . . . . . . . . . . . . . . . . . 141
C.2. Einuss selbstbestimmter Abbruch
. . . . . . . . . . . . . . . . . . . . . 146
C.3. Einuss nur erste Ergebnisseite betrachtet
. . . . . . . . . . . . . . . . . 146
C.4. Einuss der Muttersprache . . . . . . . . . . . . . . . . . . . . . . . . . . 147
C.5. Einuss des Alters
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
C.6. Einuss der Rechercheerfahrung . . . . . . . . . . . . . . . . . . . . . . . 148
C.7. Reliabilitätsanalyse für die kombinierte Zufriedenheitsskala . . . . . . . . 151
C.8. Auswertung Item
C.9. Auswertung Item
15
29
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
C.10.Leistungsmaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
D. Darstellung und Auswertung der oenen Fragen
D.1. Auswertung Item
D.2. Auswertung Item
26
27
153
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
v
Inhaltsverzeichnis
vi
Danksagung
Die vorliegende Magisterarbeit entstand am Institut für Angewandte Sprachwissenschaft
des Fachbereichs Informations- und Kommunikationswissenschaften der Universität Hildesheim. An dieser Stelle möchte ich allen Personen meinen herzlichen Dank aussprechen, die zum Gelingen dieser Arbeit beigetragen haben.
Mein besonderer Dank gilt zunächst meinen beiden Betreuern Frau Prof. Dr. Christa
Womser-Hacker und Herrn Prof. Dr. Werner Greve für das interessante Thema und die
Oenheit gegenüber der für diese Arbeit gewählten interdisziplinären Herangehensweise.
Nicht zuletzt durch ihre freundliche und engagierte Betreuung hat mir die Bearbeitung
sehr viel Freude bereitet.
Auch möchte ich mich bei Herrn PD Dr. Thomas Mandl für die besondere Unterstützung während der Konzeption des Benutzertests sowie die konstruktiven Gespräche, die
das Entstehen und den Fortgang dieser Arbeit begleitet haben, ganz herzlich bedanken.
Nicht unerwähnt lassen möchte ich auch all diejenigen, die sich bereit erklärt haben,
an dem im Rahmen dieser Arbeit durchgeführten Benutzertest teilzunehmen. Ohne sie
wäre diese Magisterarbeit nicht möglich gewesen.
Bedanken möchte ich mich weiterhin bei Melanie Glaubitz, Sonja Ziegler und Björn
Scharoba für das Korrekturlesen und viele hilfreiche Anregungen.
Auch meinem Freund Albert möchte ich für die zahlreichen Diskussionen und Denkanstösse, aber vor allem für die Motivation und das entgegengebrachte Verständnis in
der Endphase dieser Arbeit danken.
Ein besonderer Dank gebührt auch meinen Eltern, die mich durch ihre Bereitschaft
zuzuhören und aufmunternde Gespräche zu jeder Zeit unterstützt und ermutigt haben.
Danke!
vii
viii
Zusammenfassung
Die vorliegende Magisterarbeit befasst sich mit der benutzerorientierten Evaluierung
von Information-Retrieval-Systemen. Untersucht wird die Wahrnehmung von Suchergebnissen sowie deren Einuss auf den Sucherfolg von Informationssuchenden. Zu Beginn
werden die im Bereich der Information-Retrieval-Forschung üblichen Vorgehensweisen in
Bezug auf die Evaluierung von Information-Retrieval-Systemen vorgestellt und einander
gegenübergestellt. Darüber hinaus wird ein aus dem Bereich der Kundenzufriedenheitsforschung stammendes Modell zur Erklärung der Entstehung von Kundenzufriedenheit
eingeführt und auf die Anwendungssituation des Information Retrieval übertragen. Anschlieÿend wird ein experimentelles Untersuchungsdesign entwickelt und erprobt, im
Rahmen dessen der Frage nachgegangen wird, welchen Einuss die Erwartungshaltung
von Benutzern und die Leistung von Suchsystemen auf die Zufriedenheit und die Suchleistung von Informationssuchenden haben.
Schlüsselwörter: Information Retrieval, benutzerorientierte Evaluierung, Benutzertest,
Eektivitätsmaÿe, Systemleistung, Benutzerleistung, Zufriedenheitsforschung, Conrmation/Disconrmation-Paradigma, Kundenzufriedenheit, Erwartungshaltung
ix
x
Abstract
This thesis deals with the user-based evaluation of information retrieval systems. The
perception of search results as well as their inuence on the search success of users
seeking information will be examined. First common approaches to the evaluation of
information retrieval systems in the eld of information retrieval research are presented
and compared with each other. Furthermore, a model from the eld of customer satisfaction research which explains the development of customer satisfaction is introduced
and will be transferred to the application of information retrieval. Afterwards an experimental study design will be developed and tested. Within the scope of this study design
the eects of the expectancy of users and the performance of search systems on the
satisfaction as well as the search performance of information seekers are investigated.
Keywords: information retrieval, user-based evaluation, user study, eectiveness measures, system performance, user performance, satisfaction research, conrmation/disconrmation-paradigm, customer satisfaction, expectancy
xi
Information ist Wissen in Aktion
(Kuhlen 2004: 162)
Diese prägnante Formel beschreibt den Kern der Angewandten Informationswissenschaft, nämlich Wissen für konkrete Problemstellungen nutzbar zu machen. In der heutigen auf Informations- und Kommunikationstechnologien basierenden Informationsgesellschaft liegt dieses Wissen immer häuger in elektronischer Form vor. Die damit
einhergehende Entwicklung von Verfahren zum Austausch und zur Speicherung von
Information führt zur Entstehung immer umfangreicherer Datenbestände. Aus diesem
Grund kommt der inhaltlichen Erschlieÿung und dem Wiederaunden von Informationsobjekten innerhalb solcher Datensammlungen eine immer gröÿere Bedeutung zu.
Mit dieser computergestützten Suche nach Information beschäftigt sich das Forschungsgebiet des Information Retrieval (IR) (vgl. IfAS 2008: o. S.). Dementsprechend werden Systeme, die das Aunden von Informationsobjekten ermöglichen, als InformationRetrieval-Systeme bezeichnet. Die betrachteten Datenbestände sind dabei so vielfältig
wie Bibliothekskataloge, Zeitungsarchive oder das Internet und die Informationsbedürfnisse reichen von der Fachrecherche eines Experten bis zur Internetsuche eines Laien.
Diese besondere Berücksichtigung des Benutzers grenzt die Angewandte Informationswissenschaft von der Informatik ab (vgl. ebd.). Weiterhin zeigt diese Perspektive Parallelen zur Psychologie auf: Im Zentrum der Informationswissenschaft stehen immer die
kognitiven Fähigkeiten des Menschen. (ebd.)
Einen Teilaspekt der Information-Retrieval-Forschung stellt die Evaluierung des Sucherfolgs dar. Dabei werden Information-Retrieval-Systeme aus einer bewertenden Perspektive betrachtet (vgl. Womser-Hacker 2004: 227). Der Erfolg einer Suche ist von
einer Vielzahl von Faktoren abhängig. Neben technischen Faktoren wie beispielsweise
den angewendeten Verfahren zur inhaltlichen Erschlieÿung der Datenbestände tragen
auch individuelle Faktoren wie das Suchverhalten der Anwender sowie deren Erwartungen und Erfahrungen im Umgang mit solchen Systemen zum Erfolg einer computergestützten Informationssuche bei (vgl. Ferber 2003: 84).
1
Im Rahmen dieser Magisterarbeit soll die Anwendungssituation von InformationRetrieval-Systemen im Mittelpunkt stehen, da diese in letzter Konsequenz über den
Erfolg einer Suche und somit die Qualität eines Systems entscheidet. Besonderes Interesse gilt in diesem Zusammenhang der subjektiv wahrgenommenen Qualität von Suchergebnissen, da die Kenntnis über die Entstehung von Benutzerzufriedenheit eine wichtige
Voraussetzung für die Verbesserung und Weiterentwicklung von Information-RetrievalSystemen ist (vgl. Al-Maskari et al. 2006: 1).
Im Bereich der Kundenzufriedenheitsforschung dominiert das anschauliche Conrmation/Disconrmation-Modell zur Erklärung der Entstehung von Kundenzufriedenheit
(vgl. Sauerwein 2000: 8). Dieses theoretische Basismodell wird auch C/D-Paradigma
genannt (vgl. ebd.). Kundenzu- oder unzufriedenheit entsteht gemäÿ dieser Modellvorstellung durch die Bestätigung beziehungsweise Nicht-Bestätigung von Erwartungen
(vgl. Nerdinger/Neumann 2007: 128).
Die vorliegende Arbeit überprüft, ob das C/D-Paradigma auch im Kontext der Informationssuche als theoretischer Bezugsrahmen für die Untersuchung von Benutzerzufriedenheit genutzt werden kann. Weiterhin soll untersucht werden, inwiefern sich die Güte
eines Systems auf die Suchleistung der Benutzer auswirkt. Dabei wird unter der Güte eines Systems seine Fähigkeit verstanden, viele relevante Dokumente zu einer Suchanfrage
aufzunden.
Gerade der Bereich einer anwendungs- oder benutzerorientierten Forschung ist durch
Interdisziplinarität gekennzeichnet (vgl. Ferber 2003: 30). Ferber verweist in diesem
Zusammenhang vor allem auf die Bedeutung der Informatik und der Kognitionswissenschaften (vgl. ebd.). Auch für das Forschungsvorhaben der vorliegenden Arbeit wurde
bewusst ein interdisziplinärer Ansatz gewählt, der Kompetenzen der Angewandten Informationswissenschaft und der Psychologie zusammenführt.
Daraus ergeben sich die folgenden forschungsleitenden Fragen:
1. Welche Ansätze existieren im Bereich der experimentellen Evaluierung von Information-Retrieval-Systemen und was zeichnet diese Ansätze aus?
2. Kann das C/D-Paradigma der Kundenzufriedenheit ebenfalls als theoretischer Bezugsrahmen für die Untersuchung von Benutzerzufriedenheit im Information Retrieval genutzt werden?
3. Welches Untersuchungsdesign eignet sich für die Durchführung einer benutzerorientierten Evaluierung von Information-Retrieval-Systemen?
2
4. Welchen Einuss hat im Information Retrieval die Erwartungshaltung der Benutzer auf Benutzerzufriedenheit und Benutzerleistung?
5. Welchen Einuss hat die Systemgüte eines Information-Retrieval-Systems auf Benutzerzufriedenheit und Benutzerleistung?
6. Welchen Einuss hat im Information Retrieval die Rechercheerfahrung der Benutzer auf Benutzerzufriedenheit und Benutzerleistung?
Die Beantwortung dieser Forschungsfragen erfolgt auf theoretischem und empirischem
Weg. Dementsprechend lässt sich die vorliegende Arbeit in zwei Teile untergliedern.
Im theoretischen Teil der Arbeit werden die interdisziplinären Voraussetzungen und
Grundlagen für die Durchführung einer benutzerorientierten Evaluierung herausgearbeitet. Dabei befasst sich Kapitel 2 mit den informationswissenschaftlichen Ansätzen
für die experimentelle Evaluierung von Information-Retrieval-Systemen. In Kapitel 3
werden ausgehend von den Grundgedanken des C/D-Paradigmas zur Entstehung von
Kundenzufriedenheit die psychologischen Hintergründe und Zusammenhänge zur Erfassung der Benutzerzufriedenheit behandelt.
Der Forschungsüberblick in Kapitel 4 führt die erarbeiteten Grundlagen zusammen,
indem die methodischen Ansätze aktueller Studien und deren empirische Befunde vorgestellt und miteinander verglichen werden.
Aufbauend auf diesen Überlegungen wird im empirischen Teil der Arbeit ein experimentelles Untersuchungsdesign entwickelt und erprobt. Nachdem zunächst in Kapitel
5 das dieser Untersuchung zugrundeliegende Design dargestellt wird, folgt in Kapitel 6
die statistische Auswertung der Ergebnisse.
Abschlieÿend werden in Kapitel 7 die Ergebnisse und Erkenntnisse der im Rahmen dieser
Arbeit durchgeführten Untersuchung zusammengefasst und diskutiert. Dieses Kapitel
enthält auÿerdem eine Einschätzung der Generalisierbarkeit der empirischen Befunde
sowie ein Gesamtfazit mit einem Ausblick auf weiteren Forschungsbedarf.
3
4
2. Grundlagen und Methoden der
Information-RetrievalEvaluierung
Man kann an einem Auto verschiedene Messungen vornehmen und erhält so eine
Menge von Meÿwerten. Ein Meÿwert ist der Benzinverbrauch. Er beschreibt das
Automobil, denn mit ihm kann man abschätzen, wann man wieder tanken muÿ.
Man kann den Benzinverbrauch aber auch zum Vergleichen benutzen, wenn man
ihn als Kriterium beim Kauf eines Automobils benutzt.
Bollmann/Cherniavsky
(
1980: 99)
Ein Ziel der Information-Retrieval-Evaluierung ist es, verschiedene Information-Retrieval-Systeme vergleichbar zu machen. Dabei hat es sich bewährt, das System selbst als
eine Art
Black Box
zu betrachten (vgl. Womser-Hacker 2004: 227), deren innerer
Aufbau und Funktionsweise für die Bewertung ausgeblendet werden. So wie in dem
einleitenden Beispiel nur der Benzinverbrauch und nicht die Arbeitsweise des Motors
berücksichtigt wird, ist bei der Bewertung eines Information-Retrieval-Systems allein
sein Input-Output-Verhalten von Interesse.
Abhängig von den jeweiligen Bewertungskriterien unterscheidet man bei der Information-Retrieval-Evaluierung zwischen
Ezienz- und Eektivitätsbewertungen (vgl. Wom-
ser-Hacker 2004: 227). Während man bei Ezienzbewertungen eine Kosten-NutzenAnalyse durchführt, untersucht man bei Eektivitätsbewertungen die Qualität der erreichten Lösungen (vgl. ebd.). Unter Ezienz versteht man demnach das Verhältnis
zwischen den eingesetzten Ressourcen zu der erreichten Lösung. Als Eektivität bezeichnet man die Fähigkeit eines Systems, relevante Dokumente auszugeben und zugleich irrelevante Dokumente zurückzuhalten. Eektivitätsbewertungen sind in der Praxis der Information-Retrieval-Forschung am weitesten verbreitet (vgl. ebd.). Dies hängt
vermutlich mit der Schwierigkeit zusammen, die genauen Kosten und den konkreten
Nutzen eines Information-Retrieval-Systems zu ermitteln. Salton und McGill bemerken
5
dazu: Leider unterscheiden sich Kosten und Nutzen eines Systems stark nach der jeweiligen Systemumgebung und oft ist es auch gar nicht möglich, die Kosten für eine
bestimmte Funktion oder einen bestimmten Arbeitsvorgang von den übrigen Kosten zu
trennen. (Salton/McGill 1987: 204 f )
Im vorliegenden Kapitel werden zunächst in Abschnitt 2.1 zwei Paradigmen zur Eektivitätsbewertung von Information-Retrieval-Systemen diskutiert. Dabei entspricht der
systemorientierte Ansatz dem Beispiel zum Benzinverbrauch, da auch in diesem Fall
objektive Messgröÿen betrachtet werden. Beim benutzerorientierten Ansatz werden zusätzlich subjektive Messgröÿen untersucht. Dies käme einer Unterscheidung von Autos
durch das von ihnen vermittelte Fahrvergnügen gleich. Bei diesem Ansatz kommt also
noch ein weiteres Bewertungskriterium hinzu, die Zufriedenheit der Benutzer. Im Anschluss werden in Abschnitt 2.2 die wichtigsten internationalen Evaluierungsinitiativen
auf dem Gebiet der Information-Retrieval-Forschung vorgestellt. Abschnitt 2.3 diskutiert die Vor- und Nachteile ausgewählter Eektivitätsmaÿe. In Abschnitt 2.4 werden
zunächst objektive und subjektive Datenerhebungsmethoden voneinander abgegrenzt,
um dann auf einzelne Methoden genauer einzugehen.
2.1. Bewertung und Vergleich der
Retrievaleektivität
In Bezug auf die Eektivitätsbewertung existieren in der Information-Retrieval-Forschung zwei unterschiedliche Bewertungsansätze, der
te Ansatz
system- und der benutzerorientier-
(vgl. Turpin/Scholer 2006: 12 f ). Während bei ersterem die Systemper-
spektive im Vordergrund steht, hebt der zweite Ansatz die Informationsbedürfnisse der
Benutzer stärker hervor.
2.1.1. Systemorientierte Evaluierung
Die systemorientierte Bewertung hat eine längere Tradition auf dem Gebiet des Information Retrieval als die benutzerorientierte und stellt den Hauptbestandteil aller wichtigen
Evaluierungsinitiativen (vgl. Abschn. 2.2) dar. Bei diesem Ansatz werden automatisiert
Testanfragen an das System gestellt. Anschlieÿend wird durch die Auswertung verschiedener Eektivitätsmaÿe (vgl. Abschn. 2.3) überprüft, wie gut das System in der Lage
ist, relevante Dokumente zu nden und irrelevante Dokumente zurückzuhalten. Die Relevanzbewertung der Dokumente erfolgt durch unabhängige Experten mit dem Ziel, eine
6
2.1. Bewertung und Vergleich der Retrievaleektivität
möglichst einheitliche und objektive Bewertung zu erreichen. Nach den ersten groÿen
Craneld-Kollektion 1 durchgeführt wurden, wird
dieses Vorgehen in der Literatur als das Craneld-Paradigma der Evaluierung bezeichnet
Retrievaltests, die mit der sogenannten
(vgl. Mandl 2006a: 54).
Ferber bezeichnet die Tatsache, dass die Relevanz der Dokumente bekannt sein muss,
um die Eektivität des Systems bewerten zu können, als das zentrale Problem bei der
Evaluierung von Information-Retrieval-Systemen (vgl. Ferber 2003: 85). Indem er darauf hinweist, dass Retrievaltests eigentlich messen, inwieweit der Retrievaloutput mit
den Expertenbewertungen übereinstimmt, kritisiert Ferber die Abhängigkeit der Bewertungsmaÿe von menschlichen Einüssen (vgl. a.a.O.: 85 f ). Möhr spricht in diesem
Zusammenhang von dem Problem der Stellvertreterentscheidung, da hier ein Juror, dem
das Informationsbedürfnis des Benutzers nicht bekannt ist, die Qualität des Retrievaloutputs bewertet (vgl. Möhr 1980: 135). Diese Einwände fallen bei der vergleichenden
Evaluierung mehrerer Systeme weniger stark ins Gewicht. Deshalb begegnet man [. . . ]
dieser Problematik durch den Einsatz komparativer Evaluierungsverfahren, welche die
beteiligten Information-Retrieval-Systeme gleich behandeln, so dass die Ergebnisse im
Vergleich ihre Gültigkeit bewahren, jedoch nicht als Einzelbewertung pro System valide
sind. (Womser-Hacker 2004: 228) Auch folgern Salton und McGill aus experimentellen Ergebnissen, dass die subjektive Komponente der Relevanzbewertung nur einen
geringen Einuss auf die Bewertungsmaÿe besitzt (vgl. Salton/McGill 1987: 184).
Ebenfalls im Zusammenhang mit der Relevanzbewertung weisen Turpin und Scholer darauf hin, dass es durch immer umfangreichere Testkollektionen immer schwieriger
wird, Relevanzangaben für alle in den Kollektionen enthaltenen Dokumente bereitzustellen (vgl. Turpin/Scholer 2006: 12). Aus diesem Grund wird bei der vergleichenden Evaluierung durch Evaluierungsinitiativen häug eine sogenannte
Pooling-Methode
angewendet. Dabei wird nur eine feste Anzahl der von den teilnehmenden Systemen zurückgelieferten Dokumente durch Juroren bewertet (vgl. Womser-Hacker 2004: 229).
Alle nicht zurückgelieferten Dokumente werden bei diesem Verfahren als irrelevant eingestuft (vgl. Turpin/Scholer 2006: 12). Laut Turpin und Scholer besteht bei dieser
Methode jedoch das Risiko, dass die Eektivitätsbewertung der Systeme verfälscht wird,
weil die Anzahl der nicht bewerteten Dokumente bei groÿen Testkollektionen unter Umständen sehr umfangreich sein kann (vgl. ebd.). Dies birgt in der Folge die Gefahr, zu
1 Eine solche Testkollektion beinhaltet als wesentliche Elemente eine Sammlung von Dokumenten, eine
Zusammenstellung von Testanfragen, sogenannten
Topics
(vgl. Fuhr 2005: 31), sowie die zugehö-
rigen Relevanzbewertungen, die angeben, welche Dokumente aus der Kollektion für die jeweilige
Anfrage als relevant eingestuft wurden (vgl. Ferber 2003: 92).
7
viele relevante Dokumente als irrelevant einzustufen (vgl. ebd.). Auch an dieser Stelle
kann das Argument geltend gemacht werden, dass bei der vergleichenden Evaluierung
2 Grundlagen und Methoden der Information-Retrieval-Evaluierung
für alle Systeme die gleichen Voraussetzungen herrschen, so dass die Ergebnisse im Vergleich ihre Aussagekraft behalten.
Wie durch die Pooling-Methode versucht wird, eine möglichst präzise Annäherung
Wie durch die Pooling-Methode versucht wird, eine möglichst präzise Annäherung
an die Gesamtzahl aller in der Kollektion enthaltenen relevanten Dokumente zu einer
an die Gesamtzahl aller in der Kollektion enthaltenen relevanten Dokumente zu einer
Suchanfrage
2.1 graphisch
graphischdargestellt.
dargestellt.
Dabei
steht
Suchanfragezu
zuerreichen,
erreichen, ist
ist in
in Abbildung
Abbildung 2.1
Dabei
steht
R
fürfür
die
Gesamtzahl
zueiner
einerSuchanfrage
Suchanfrage
vorhandenen
die
Gesamtzahlder
der im
im Dokumentenbestand
Dokumentenbestand D zu
vorhandenen
relevanten
Dokumente.
der von
vonden
deneinzelnen
einzelnen
Systemen
relevanten
Dokumente.Aus
Aus der
der Gesamtzahl
Gesamtzahl der
Systemen
A,
C
zurückgeliefertenrelevanten
relevanten Dokumente
Dokumente ergibt
fürfür
R.
zurückgelieferten
ergibtsich
sichder
derSchätzwert
Schätzwert
SystemA
B, undund
.
SystemB
Sfrag replacements
R
SystemC
Dokumentenbestand
Abbildung 2.1.:
D
Die
Pooling-Methodeals
alsVerfahren
Verfahren zur Bestimmung
aller
relevanAbbildung 2.1: Die
Pooling-Methode
Bestimmungder
derGesamtzahl
Gesamtzahl
aller
relevan-
Kowalski
Dokumenteinineiner
einerKollektion
Kollektion (Quelle:
(Quelle: In
231)
tenten
Dokumente
In Anlehnung
Anlehnungan
anKowalski 1997:
1997:
231)
Neben
derintendierten
intendierten höheren
höheren Objektivität
Objektivität der
durch
unabNeben
der
derRelevanzbewertungen
Relevanzbewertungen
durch
unabhängige Experten besteht ein weiterer Vorteil des systemorientierten Bewertungsansathängige
Experten besteht ein weiterer Vorteil des systemorientierten Bewertungsansatzes darin, dass Retrievaltests ohne die Einbeziehung realer Benutzer mit vergleichsweise
zes darin, dass Retrievaltests ohne die Einbeziehung realer Benutzer mit vergleichsweise
geringem Aufwand durchzuführen sind (vgl. Möhr 1980: 127). Allerdings bleibt die Frageringem Aufwand durchzuführen sind (vgl. Möhr 1980: 127). Allerdings bleibt die Frage zu beantworten, inwieweit sich diese systemorientierten Ergebnisse auf reale Benutzer
ge zu beantworten, inwieweit sich diese systemorientierten Ergebnisse auf reale Benutzer
und deren individuelle Informationsbedürfnisse übertragen lassen. Al-Maskari und San-
und deren individuelle Informationsbedürfnisse übertragen lassen. Al-Maskari und Sanderson schreiben deshalb: Therefore, the issue in Information Retrieval (IR) shifts from
derson schreiben deshalb in diesem Zusammenhang: Therefore, the issue in Information
maximizing the retrieval performance by rening IR techniques and methods to maximi-
Retrieval (IR) shifts from maximizing the retrieval performance by rening IR technizing the understanding of users' behaviors and information need representation during
ques and methods to maximizing the understanding of users' behaviors and information
retrieval. (Al-Maskari/Sanderson 2006: 132)
need representation during retrieval. (Al-Maskari/Sanderson 2006: 132)
Mit der Untersuchung dieser Aspekte beschäftigt sich die im folgenden Abschnitt
Mit
der Untersuchung
dieser Aspekte
beschäftigt sich die im folgenden Abschnitt
beschriebene
benutzerorientierte
Evaluierung.
beschriebene benutzerorientierte Evaluierung.
2.1.2
Benutzerorientierte Evaluierung
8
Im Unterschied zum systemorientierten verfolgt der benutzerorientierte Bewertungsansatz das Ziel, die realistische Anwendungssituation von Information-Retrieval-Systemen
2.1. Bewertung und Vergleich der Retrievaleektivität
2.1.2. Benutzerorientierte Evaluierung
Im Unterschied zum systemorientierten verfolgt der benutzerorientierte Bewertungsansatz das Ziel, die Anwendungssituation von Information-Retrieval-Systemen möglichst
realistisch zu simulieren. Dazu werden neben einer Testkollektion reale Benutzer als
Versuchspersonen benötigt, die innerhalb eines vorgegebenen Anwendungsszenarios mit
dem System interagieren. In der Regel werden die Testbenutzer hierzu mit Testaufgaben konfrontiert, die sie mit Hilfe des zu beurteilenden Systems lösen sollen. Im Fokus
können je nach zu untersuchender Fragestellung zum Beispiel der Suchprozess selbst,
die Qualität der erreichten Lösungen, das persönliche Erleben der Testpersonen oder
die Beobachtungen des Versuchsleiters stehen. Daran wird bereits deutlich, dass diese Art der Evaluierung sehr viel aufwendiger ist als im systemorientierten Fall. Auch
im Hinblick auf die Erhebung der Daten können in Abhängigkeit von der jeweiligen
Fragestellung unterschiedliche Verfahren herangezogen werden. Einige im Rahmen der
benutzerorientierten Evaluierung eingesetzten Erhebungsverfahren werden in Abschnitt
2.4 genauer betrachtet.
In Bezug auf die Frage, inwieweit sich die Ergebnisse aus systemorientierten Evaluierungen mit denen aus benutzerorientierten vergleichen lassen, haben Turpin und Hersh
herausgefunden, dass die in systemorientierten Evaluierungen festgestellten Leistungsunterschiede bei benutzerorientierten Evaluierungen verschwinden (vgl. Turpin/Hersh
2001: 229). Turpin und Hersh interpretieren dieses Ergebnis als Hinweis darauf, dass
die Testpersonen ihrer Untersuchung in der Lage waren, diese Unterschiede leicht zu
kompensieren (vgl. a.a.O.: 230). Die Ergebnisse aus systemorientierten Evaluierungen
lassen sich also nicht ohne Weiteres auf die reale Anwendungssituation von InformationRetrieval-Systemen übertragen. Fuhr kommt aus diesem Grund zu dem Schluss, [. . . ]
dass Ergebnisse aus Batch-Evaluierungen nur sehr beschränkte Aussagekraft auf die viel
realistischere Situation des interaktiven Retrieval haben.
2
(Fuhr 2005: 33)
Deshalb ist es wichtig, dass die heute veranstalteten Evaluierungsinitiativen der benutzerorientierten Evaluierung einen gröÿeren Stellenwert einräumen. Umgesetzt wird
dies zum Beispiel schon mit dem unter anderem von der Evaluierungsinitiative CrossLanguage Evaluation Forum (CLEF) (vgl. Abschn. 2.2.2) angebotenen
Interactive Track 3 .
Wie der Name vermuten lässt, ist es Ziel dieses Track, die Interaktion realer Benutzer
2 Die systemorientierte Bewertung wird in der Literatur auch als
Fuhr 2005: 33). Wenn Fuhr von
interaktivem Retrieval
Batch-Evaluierung
bezeichnet (vgl.
spricht, meint er den benutzerorientierten
Ansatz (vgl. ebd.).
3 Als
Tracks
werden Aufgabenstellungen bezeichnet, die das Verhalten von Information-Retrieval-
Systemen in Bezug auf spezielle Forschungsbereiche bewerten sollen (vgl. Womser-Hacker
2004: 233). Ferber spricht deshalb auch von
Spezialaufgaben
(vgl. Ferber 2003: 221).
9
mit Information-Retrieval-Systemen zu untersuchen. Karlgren et al. denieren das Ziel
des Interactive Track in Bezug auf die oben genannte Evaluierungsinitiative wie folgt:
The aim has always been to investigate real-life cross-language searching problems
in a realistic scenario, and to obtain indications on how best to aid users in solving
them. (Karlgren et al. 2007: 186)
4
So bestand der Interactive Track von CLEF (iCLEF ) im Jahr
der Durchführung eines Benutzertests zum Bildretrieval
6
das Fotoportal Flickr
5
(engl.:
2006
beispielsweise in
image retrieval ),
dem
als Dokumentenkollektion zugrunde lag (vgl. a.a.O.: 187). In die-
sem Zusammenhang ist erwähnenswert, dass bei diesem Track zwar die Kollektion sowie
die Aufgaben für die Benutzer von Seiten der Evaluierungsinitiative vorgegeben wurden, nicht aber die Evaluierungsmethode (vgl. a.a.O.: 186). Auf diese Weise sollte den
teilnehmenden Forschungsgruppen die Möglichkeit gegeben werden, alternative Evaluierungsmethoden beizutragen und zu testen (vgl. ebd.). Daran wird deutlich, dass sich
im Bereich der benutzerorientierten Evaluierung im Gegensatz zur systemorientierten
noch keine Standard-Evaluierungsmethoden etabliert haben.
Eine Schwierigkeit dieses Bewertungsansatzes besteht darin, dass Benutzertests keine
einheitlichen und objektiven, sondern individuelle, durch die Testpersonen subjektiv gefärbte Ergebnisse liefern. In der Regel werden hier der Erfolg und die Zufriedenheit der
Benutzer bewertet (vgl. Mandl 2006a: 54). Deshalb sollten bei diesem Bewertungsansatz andere Maÿstäbe gelten als bei der systemorientierten Evaluierung. Während sich
der Erfolg wie bei der systemorientierten Evaluierung anhand der gefundenen Dokumente bestimmen lässt, ist es notwendig die Zufriedenheit direkt bei den Benutzern zu
erfragen. Vor allem in Bezug auf die Erhebung der Benutzerzufriedenheit müssen also
geeignete Methoden gefunden werden (vgl. Kap. 4).
Diese Schwierigkeit hat in der Information-Retrieval-Forschung dazu beigetragen, dass
die systemorientierte Evaluierung von den Entwicklern immer noch bevorzugt wird (vgl.
Mandl 2006a: 54). Damit erklärt sich auch die geringe Teilnahme von nur drei Forschungsgruppen an dem zuvor beschriebenen Interactive Track von CLEF 2006 (vgl.
Karlgren et al. 2007: 192). Karlgren et al. sprechen in diesem Zusammenhang von
der schlechtesten Erfolgsquote, seit es iCLEF gibt und vermuten, dass die sehr oene
Aufgabenstellung dazu beigetragen haben könnte (vgl. ebd.).
Da jedoch die Suchergebnisse, die reale Benutzer mit Information-Retrieval-Systemen
4 Link zur Homepage: http://nlp.uned.es/iCLEF/
5 Bei dieser Form des Information Retrieval geht es um die Suche von Bildern. Dabei kann sowohl nach
einem bestimmten Bildinhalt als auch nach Gestaltungsmerkmalen wie Farbe, Textur oder Kontur
gesucht werden (vgl. Fuhr 2005: 7).
6 Link zur Homepage: http://www.ickr.com/
10
2.2. Die Bedeutung internationaler Evaluierungsinitiativen
erreichen, am Ende über deren Anwendbarkeit entscheiden, sollte die benutzerorientierte
Evaluierung nicht vernachlässigt werden. Diese Tatsache wird von Järvelin und Ingwersen wie folgt zusammengefasst: The real issue in information retrieval systems design
is not whether its recall-precision performance goes up by a statistically signicant percentage. Rather, it is whether it helps the actor solve the search task more eectively
or eciently.
7
(Järvelin/Ingwersen 2004: o. S.)
Kapitel 4 der vorliegenden Arbeit vermittelt einen umfassenderen Einblick in den
derzeitigen Stand der benutzerorientierten Evaluierungsforschung.
2.2. Die Bedeutung internationaler
Evaluierungsinitiativen
Die vorangegangenen Abschnitte haben gezeigt, dass eine erfolgreiche Evaluierung von
Information-Retrieval-Systemen einer sorgfältigen Vorbereitung bedarf. Besonders aufwändig ist diesbezüglich der Aufbau einer Testkollektion (vgl. Mandl 2006a: 55). Dazu
muss zunächst ein Textkorpus zusammen mit einer Sammlung ktiver Informationsbedürfnisse, den Testanfragen oder Topics, zusammengestellt werden. Anschlieÿend müssen die im Textkorpus enthaltenen Dokumente in Bezug auf die einzelnen Informationsbedürfnisse als relevant beziehungsweise irrelevant klassiziert werden.
Im Hinblick auf die Auswertung der Retrievalergebnisse ist zu beachten, dass die
Verwendung unterschiedlicher Testkollektionen zu abweichenden Retrievalergebnissen
führen kann (vgl. Ferber 2003: 94). Neben der daraus resultierenden Unvergleichbarkeit der Ergebnisse könnte dies darüber hinaus dazu führen, dass die Verwendung einer
Testkollektion von der Güte der damit erzielten Ergebnisse abhängig gemacht wird (vgl.
ebd.). Auch ist zu bedenken, dass die wiederholte Verwendung derselben Testkollektionen in einer Optimierung der Systeme auf diese Testkollektionen hin resultiert (vgl.
ebd.). Da unterschiedliche Kollektionen zu unterschiedlichen Ergebnissen führen können,
bleibt jedoch zu prüfen, ob diese Optimierung auch zu einer allgemeinen Verbesserung
der Retrievalqualität führt.
Diese Überlegungen haben zu der Einrichtung verschiedener Evaluierungsinitiativen
geführt. Alle Initiativen stellen Testkollektionen für die Evaluierung von InformationRetrieval-Systemen bereit. Gemeinsame Ziele sind die Vergleichbarkeit der Systeme, die
7 Bei
Recall
und
Precision
handelt es sich um die am häugsten verwendeten Eektivitätsmaÿe,
weshalb man sie in der Literatur auch als
Standardmaÿe
bezeichnet (vgl. Womser-Hacker
2004: 228) (vgl. Abschn. 2.3).
11
Standardisierung der Evaluierungsmethoden sowie der gegenseitige Austausch von Ideen
innerhalb der Forschungsgemeinschaft.
8
Zu den groÿen Evaluierungsinitiativen zählen die Text REtrieval Conference (TREC ),
9
das Cross-Language Evaluation Forum (CLEF ), die NII Test Collection for IR Systems
10
(NTCIR
11
) und die INitiative for the Evaluation of XML retrieval (INEX
) (vgl. Fuhr
2005: 31). Stellvertretend werden im Folgenden die beiden erstgenannten Initiativen
vorgestellt.
2.2.1. Text REtrieval Conference (TREC)
TREC ist die älteste der oben genannten Evaluierungsinitiativen und stellt laut Fuhr den
Defacto-Standard für die Information-Retrieval-Evaluierung dar (vgl. Fuhr 2005: 31).
Die TREC-Initiative entstand im Jahr
1992
und wird seitdem jährlich vom National
Institute of Standards and Technology (NIST
12
) mit Sitz in Gaithersburg (Maryland,
USA) organisiert (vgl. Trec 2008: o. S.).
Der Schwerpunkt lag zunächst auf den sogenannten
Ad-hoc-
und
Routing-Aufgaben
(vgl. Womser-Hacker 2004: 232 f ). Bei der ersten Aufgabenstellung wird untersucht,
wie gut die teilnehmenden Systeme in der Lage sind, in einer bekannten Dokumentenkollektion relevante Dokumente zu unbekannten Testanfragen zu nden (vgl. Ferber
2003: 94). Im Gegensatz dazu wird bei der zweiten Aufgabenstellung gemessen, wie
gut die Systeme zu bekannten Testanfragen relevante Dokumente in einer unbekannten
Dokumentenkollektion nden (vgl. ebd.).
Neue Anregungen aus der Forschungsgemeinschaft werden in den bereits in Abschnitt
2.1.2 erwähnten Spezialaufgaben, den sogenannten
Tracks, aufgegrien. Die Einführung
eines neuen Track zeigt daher an, dass in einem speziellen Forschungsbereich neue Entwicklungen stattgefunden haben, die nun im Rahmen dieses Track erforscht und weiterentwickelt werden sollen. Inzwischen sind viele weitere Tracks
13
hinzugekommen und das
Ad-hoc-Retrieval wird seit 1999 im Rahmen anderer Tracks fortgeführt (vgl. Mandl
2006b: 81).
8 Link zur Homepage: http://trec.nist.gov/
9 Link zur Homepage: http://www.clef-campaign.org/
10 Link zur Homepage: http://research.nii.ac.jp/ntcir/
11 Link zur Homepage: http://inex.is.informatik.uni-duisburg.de/2006/index.html
12 Link zur Homepage: http://www.nist.gov/
13 Beschreibungen der aktuellen und früheren Tracks von TREC können auf der Homepage der Evaluierungsinitiative nachgelesen werden: http://trec.nist.gov/tracks.html
12
2.2. Die Bedeutung internationaler Evaluierungsinitiativen
2.2.2. Cross-Language Evaluation Forum (CLEF)
Die europäische Initiative CLEF ist aus dem Cross-Language Track (CLIR) von TREC
hervorgegangen (vgl. Fuhr 2005: 32). Inhalt dieses Track war das multilinguale Information Retrieval. Dabei müssen ausgehend von einer Sprache relevante Dokumente zu
einer Testanfrage in anderen Sprachen gefunden werden (vgl. Trec 2008: o. S.). Seit
dem Jahr
2000
ist CLEF eigenständig organsiert (vgl. Clef 2008: o. S.). Koordiniert
wird sie von dem Istituto di Scienza e Tecnologie dell'Informazione - Consiglio Nazionale
delle Ricerche (ISTI-CNR
14
) in Pisa (Italien) (vgl. Clef 2008: o. S.). Die Organisati-
15
on der einzelnen Tracks teilen sich verschiedene Institutionen
aus unterschiedlichen
Sprachräumen (vgl. ebd.).
Auch hier werden Neuerungen im Bereich der Information-Retrieval-Forschung in zu-
16
sätzlichen Tracks
aufgegrien. Ein Beispiel hierfür, der Interactive Track, wurde bereits
in Abschnitt 2.1.2 besprochen. Erwähnenswert hinsichtlich einer benutzerorientierten
Konzeption der Evaluierung von Information-Retrieval-Systemen ist darüber hinaus der
sogenannte
Robust Track.
Ausgangspunkt ist dabei die Feststellung, dass die Qualität
der zurückgelieferten Ergebnisse im Information Retrieval vom Schwierigkeitsgrad der
einzelnen Topics abhängig ist (vgl. Mandl 2006b: 79). Für die Bewertung der Systeme
wird bei dieser Evaluierungsmethode versucht, schwierige Anfragen stärker zu gewichten als leichte (vgl. a.a.O.: 82). Ziel ist es, Systeme, die eine konstant gute Leistung
erbringen, zu belohnen (vgl. ebd.). Das Augenmerk liegt hier also auf der Stabilität der
Systeme und nicht auf ihrer durchschnittlichen Leistung. Der Bezug zur Benutzerorientierung besteht in der Beobachtung, dass sich schlechte Retrievalergebnisse in der Regel
besonders negativ auf die Zufriedenheit der Benutzer und deren Gesamteindruck von
einem System auswirken (vgl. a.a.O.: 79).
Der Schwerpunkt bei den CLEF-Konferenzen liegt auf der Evaluierung von multilingualem Retrieval (vgl. Womser-Hacker 2004: 233). Als europäische Initiative konzentrierte sich CLEF zunächst auf die europäischen Kernsprachen Englisch, Französisch,
Italienisch, Spanisch und Deutsch (vgl. ebd.). Im Laufe der Zeit wurde das Sprachenangebot stetig ausgebaut, so dass in der Ankündigung für CLEF 2008 neben den oben
genannten Sprachen auch Aufgaben in Arabisch, Bulgarisch, Niederländisch, Portugiesisch, Rumänisch und Russisch angeboten werden (vgl. Clef 2008: o. S.).
14 Link zur Homepage: http://www.isti.cnr.it/
15 Eine Auistung der Organisatoren von CLEF 2007 bendet sich auf der Homepage der Evaluierungsinitiative: http://www.clef-campaign.org/consortium.html
16 Weitere Beschreibungen der aktuellen und früheren Tracks von CLEF können auf der Homepage der
Evaluierungsinitiative nachgelesen werden: http://www.clef-campaign.org/
13
2.3. Leistungsvergleich auf der Basis von
Eektivitätsmaÿen
Wie bereits beschrieben muss die Relevanz der Dokumente für die gegebene Suchanfrage bekannt sein, um die Qualität der Treermenge und somit die Leistung eines
Information-Retrieval-Systems bewerten zu können (vgl. Abschn. 2.1.1). In der Literatur wird für die Beziehung, die zwischen einer Anfrage und einem Dokument besteht,
das Konzept der
Relevanz
deniert (vgl. Ferber 2003: 85). Da für den Benutzer in
der Regel nicht alle Dokumente einer Treermenge relevant sind, unterscheidet man
zwischen einer
System-
und einer
Benutzerrelevanz
(vgl. Womser-Hacker 1989: 31
f ). Von Systemrelevanz spricht man, wenn die Dokumente aus Sicht des Systems zu der
Eingabe des Benutzers passen. Die Relevanzbewertung der Dokumente aus Sicht des Benutzers wird als Benutzerrelevanz bezeichnet. Wie bereits in Abschnitt 2.1.1 erwähnt,
erfolgt diese Relevanzbewertung jedoch in den meisten Fällen durch unabhängige Ex-
2.3 Leistungsvergleich auf der Basis von Eektivitätsmaÿen
perten anstelle der realen Benutzer. Der Benutzer wird gewissermaÿen als Konstante
begrien (vgl. Mandl 2006a: 54).
S̄
B
ag replacements
S
B̄
Dokumentenbestand D
Abbildung 2.2.:
Mengendiagramm
zur
Darstellung von
von SystemBenutzerrelevanz
Abbildung 2.2: Mengendiagramm
zur
Darstellung
System-und
und
Benutzerrelevanz
(Quelle:
In Anlehnung
anWomser-Hacker
Womser-Hacker 1989:
32)
(Quelle:
In Anlehnung
an
1989:
32)
Sowohl die System- als auch die Benutzerrelevanz bewirken eine Zerlegung des Doku-
| als
Anzahl der vom System ausgegebenen und vom Benutzer als
D in zwei Mengen. Die Systemrelevanz unterteilt D in die Menge S
irrelevant klassizierten Dokumente,
und ihre Komplementärmenge S̄ , die Benutzerrelevanz in die Menge B und ihre Kom-
mentenbestandes
plementärmenge
B̄
(vgl. Womser-Hacker 1989: 32).
| als Anzahl der vom System einbehaltenen und vom Benutzer als
relevant klassizierten Dokumente und
| als Anzahl der vom System einbehaltenen und vom Benutzer als
irrelevant klassizierten Dokumente.
14
Ausgehend von diesen vier Einussgröÿen werden in den folgenden Abschnitten zunächst die beiden Standardmaÿe Recall und Precision vorgestellt. Danach wird kurz auf
2.3. Leistungsvergleich auf der Basis von Eektivitätsmaÿen
Dabei bezeichnet
• S
die Menge der vom System ausgegebenen Dokumente,
• S̄
die Menge der vom System einbehaltenen Dokumente,
• B
die Menge der vom Benutzer als relevant klassizierten Dokumente und
• B̄
die Menge der vom Benutzer als irrelevant klassizierten Dokumente.
Abbildung 2.2 verdeutlicht die Beziehungen dieser Mengen zueinander. Es erweist
sich als sinnvoll, für die dort dargestellten Schnittmengen folgende Einussgröÿen für
die Bewertung der Retrievaleektivität zu denieren (vgl. ebd.):
• a = |S ∩ B |
als Anzahl der vom System ausgegebenen und vom Benutzer als
relevant klassizierten Dokumente,
• b = |S ∩ B̄ |
als Anzahl der vom System ausgegebenen und vom Benutzer als
irrelevant klassizierten Dokumente,
• c = |S̄ ∩ B |
als Anzahl der vom System einbehaltenen und vom Benutzer als
relevant klassizierten Dokumente und
• d = |S̄ ∩ B̄ |
als Anzahl der vom System einbehaltenen und vom Benutzer als
irrelevant klassizierten Dokumente.
Ausgehend von diesen vier Einussgröÿen werden im folgenden Abschnitt die beiden
Standardmaÿe Recall und Precision vorgestellt.
2.3.1. Die Standardmaÿe Recall und Precision
Bei den Eektivitätsmaÿen Recall und Precision handelt es sich um die am häugsten
verwendeten Evaluierungsmaÿe. Sie werden deshalb auch als Standardmaÿe bezeichnet.
Der Recall beschreibt dabei die Fähigkeit eines Systems, relevante Dokumente für eine
Suchanfrage auszugeben (vgl. Salton/McGill 1987: 172). Die Fähigkeit eines Systems, irrelevante Dokumente zurückzuhalten, wird hingegen als Precision bezeichnet
(vgl. ebd.). Recall ist demnach ein Maÿ für die Vollständigkeit und Precision für die
Genauigkeit der Retrievalergebnisse (vgl. Ferber 2003: 86).
15
Durch die im vorherigen Abschnitt eingeführten Einussgröÿen lassen sich Recall und
Precision folgendermaÿen darstellen (Womser-Hacker 2004: 229):
Recall:
Precision:
a
a+c
a
p=
a+b
r=
(2.1)
(2.2)
0 und 1 annehmen (vgl. ebd.). Für den RecallWert bedeutet der Maximalwert von 1, dass alle relevanten Dokumente der Kollektion gefunden wurden. Entsprechend beschreibt der Minimalwert 0 die Situation, dass
Beide Maÿe können Werte zwischen
kein relevantes Dokument zurückgegeben wurde. Nimmt hingegen die Precision den
Maximalwert
1
an, so sind alle gefundenen Dokumente relevant. Im Gegensatz da-
zu wurde beim Minimalwert
0
kein relevantes Dokument zurückgegeben. Ein gutes
Information-Retrieval-System sollte demnach sowohl einen hohen Recall- als auch einen
hohen Precision-Wert besitzen.
Ferber merkt in diesem Zusammenhang an, dass in der vergleichenden Evaluierung
nur dann verlässliche Aussagen darüber gemacht werden können, ob ein InformationRetrieval-System besser ist als das andere, wenn es sowohl einen höheren Recall- als
auch einen höheren Precision-Wert besitzt: Ist bei einem System z.B. die Precision
besser, dafür aber der Recall schlechter, so eignen sich die Systeme zwar eventuell für
unterschiedliche Aufgaben, es kann aber nicht allgemein gesagt werden, welches besser
ist. (Ferber 2003: 87)
Ebenfalls in diesem Zusammenhang heben Salton und McGill hervor, dass die sich in
der Praxis unterscheidenden Informationsbedürfnisse der Benutzer zu unterschiedlichen
Anforderungen an das System führen (vgl. Salton/McGill 1987: 174 f ). Beispielsweise
verlangen Patentrecherchen
17
(engl.:
patent retrieval ) nach einem möglichst vollständi-
gen Überblick über den Weltstand der Technik, erfordern also einen hohen Recall-Wert.
Bei einer Websuche hingegen, bei der ein Internetnutzer vor allem Wert auf die Relevanz
der Treer legt, ist ein hoher Precision-Wert gefordert. Während manchen Nutzern also
ein hoher Recall besonders wichtig ist, bevorzugen andere eine hohe Precision.
Allerdings können die beiden Maÿe auch nicht vollkommen unabhängig voneinander
betrachtet werden. In einem solchen Fall bestünde nämlich die Möglichkeit, dass ein
System auf Kosten des Precision-Werts ungeltert sämtliche Dokumente einer Kollekti-
17 Dabei handelt es sich um [. . . ] bewertete Recherchen, die den Weltstand der Technik, die Neuheit
technischer Lösungen oder die mögliche Verletzung fremder Patente nachweisen sollen. (Strauch
2004: 95)
16
on zurückgeben könnte und damit immer einen maximalen Recall-Wert erzielen würde
(vgl. Womser-Hacker 2004: 229). Um dies zu umgehen, wird zur Charakterisierung
von Information-Retrieval-Systemen meist eine sogenannte
Recall-Precision-Kurve
an-
gegeben. Dazu berechnet man die Precision-Werte einer Ergebnisliste zu festen RecallWerten und trägt die sich ergebenden Wertepaare in einem Recall-Precision-Graph auf
(vgl. a.a.O.: 230).
Abbildung 2.3.: Typischer Verlauf einer Recall-Precision-Kurve auf der Basis von Mittelwerten
(Quelle: Salton/McGill 1987: 180)
In Abbildung 2.3 ist das typische Verhalten einer solchen Recall-Precision-Kurve dargestellt. Die Kurve aus dem vorliegenden Beispiel basiert auf Mittelwerten, die über
mehrere Suchanfragen gebildet wurden. Dabei stellen Salton und McGill heraus, in
welcher Weise sich auch die Suchstrategie der Benutzer auf das Verhältnis von Recall
und Precision auswirkt: Während spezisch formulierte Suchanfragen gemeinhin zu einem hohen Precision-Wert führen (linkes Ende der Kurve), haben allgemein gehaltene
Suchanfragen in der Regel einen hohen Recall-Wert zur Folge (rechtes Ende der Kurve)
(vgl. Salton/McGill 1987: 180).
Neben den sich unterscheidenden Informationsbedürfnissen kann es in der Praxis auch
Probleme bereiten, die Gleichungen (2.1) und (2.2) auszuwerten. Dies ist zum Beispiel
bei groÿen Dokumentenkollektionen der Fall. Wie bereits in Abschnitt 2.1.1 erläutert, ist
es hier nicht ohne Weiteres möglich, die Gesamtzahl der relevanten Dokumente zu einer
Suchanfrage zu ermitteln, weshalb in solchen Fällen häug die Pooling-Methode zum
17
Einsatz kommt. Die Bewertung der Ergebnismengen mehrerer Information-RetrievalSysteme ermöglicht es dann, einen Schätzwert für die Gesamtzahl der relevanten Dokumente zu einer Suchanfrage zu ermitteln.
2.3.2. Weitere relevanzbasierte Eektivitätsmaÿe
Am Ende des letzten Abschnitts wurde dargelegt, auf welche Weise Probleme bei der
Berechnung von Recall und Precision auftreten können. Diese Schwierigkeiten legen eine
Anpassung der Standardmaÿe an verschiedene Informationsbedürfnisse einerseits und
unterschiedliche Kontextbedingungen andererseits nahe. Anstatt in den oben genannten
Fällen ausschlieÿlich mit den in den Gleichungen (2.1) und (2.2) denierten Gröÿen zu
arbeiten, verwendet man deshalb auch Varianten dieser Maÿe (vgl. Fuhr 2005: 17).
Precision der ersten n Treer
Anstatt die Precision der gesamten Ergebnisliste zu berücksichtigen, berechnet man für
das im Folgenden vorgestellte Eektivitätsmaÿ den Precision-Wert der ersten
n
Treer
einer Ergebnismenge. Es soll im Weiteren als P@n bezeichnet werden. So wird zum
Beispiel zur Untersuchung der webbasierten Informationssuche, beim Web-InformationRetrieval, die Precision für die ersten zehn Dokumente, also die P@10 berechnet (vgl.
ebd.). Fuhr zufolge liegt diesem Maÿ die durch empirische Untersuchungen gestützte
Erkenntnis zugrunde, dass die meisten Benutzer von Suchmaschinen nur die erste Seite
einer Ergebnisliste beachten (vgl. ebd.).
Buckley und Vorhees haben eine Studie zur Stabilität verschiedener Leistungsmaÿe
durchgeführt (vgl. Buckley/Vorhees 2000: 33 ). Dazu untersuchten sie, wie die
Ergebnisse verschiedener Evaluierungsmaÿe in Bezug auf unterschiedliche Suchanfragen variierten (vgl. ebd.). Für das Eektivitätsmaÿ P@n hat diese Studie ergeben: In
environments such as the Web where it is very dicult to know how many relevant
documents exist for a query, precision at a cut-o level of 10 or 20 is an appropriate
evaluation measure. (a.a.O.: 39)
Die Berechnung dieser Precision-Variante kann über folgende Formel erfolgen (vgl.
Kishida 2005: 2):
n
1X
ri
P @n =
n i=1
Dabei ist
18
ri = 1,
falls das
i-te
Dokument der Ergebnisliste relevant und
(2.3)
ri = 0,
falls
das i-te Dokument irrelevant für die Suchanfrage ist (vgl. ebd.). Neben der P@10 sollen
hier noch die Precision nach dem ersten Dokument (n
= 1)
Gesamtzahl der für die Suchanfrage relevanten Dokumente
(vgl. Thom/Scholer 2007: 101). Dabei entspricht
denierten Einussgröÿen
a
und
c.
R
und die Precision nach der
R (n = R )
erwähnt werden
der Summe der in Abschnitt 2.3
Letztere Variante wird auch als
R-Precision
(RP)
bezeichnet (vgl. ebd.). Allerdings muss für dieses Maÿ die Gesamtzahl aller relevanten
Dokumente zu einer Suchanfrage bekannt sein, deren Ermittlung wie zuvor erwähnt
nicht immer praktikabel ist.
Average Precision
Ein weiteres Eektivitätsmaÿ, das sich aus dem Standardmaÿ Precision ableiten lässt,
ist die sogenannte
Average Precision (AP) (vgl. Buckley/Vorhees 2000: 34). Buckley
und Vorhees denieren es wie folgt: The mean of the precision scores obtained after
each relevant document is retrieved, using zero as the precision for relevant documents
that are not retrieved. (ebd.) Auch für die Berechnung dieses Maÿes muss demnach die
Anzahl der relevanten Dokumente zu einer Suchanfrage bekannt sein.
Mathematisch lässt sich die Average Precision mit Hilfe der im vorangegangenen Abschnitt denierten P@n sowie den in Abschnitt 2.3 denierten Einussgröÿen folgendermaÿen darstellen (vgl. Kishida 2005: 2):
k
1 X
rn P @n
AP =
a + c n=1
(2.4)
k die Zahl der vom System zurückgegebenen Dokumente und es gilt wie zuvor,
rn = 1, falls das n-te Dokument relevant und n = 0, falls das n-te Dokument
Dabei ist
dass
irrelevant für die Suchanfrage ist.
Geometrisch kann die Average Precision Robertson zufolge als die Fläche unter der
Recall-Precision-Kurve interpretiert werden (vgl. Robertson 2006: 79). Im Gegensatz
zu Maÿen, wie der zuvor beschriebenen P@n, die nur lokale Aussagen für einzelne Punkte
der Recall-Precision-Kurve treen, charakterisiert die Average Precision damit den globalen Verlauf der Kurve (vgl. ebd.). Dennoch wird in Bezug auf diese Precision-Variante
teilweise eine fehlende Transparenz kritisiert, deren anschauliche Bedeutung sich nicht
so leicht wie bei anderen Evaluierungsmaÿen, beispielsweise der P@n, erschlieÿt (vgl.
ebd.).
Ungeachtet dessen besitzt die Average Precision jedoch positive Eigenschaften in Bezug auf ihre Stabilität (vgl. Buckley/Vorhees 2000: 39) sowie die Trennschärfe zwi-
19
schen verschiedenen Rankings
18
(vgl. Robertson 2006: 79). Eine weitere positive Ei-
genschaft dieses Maÿes ist laut Kishida, dass Unterschiede in den oberen Listenplätzen
des Rankings den stärksten Einuss auf den Average-Precision-Wert besitzen (vgl. Kis-
hida 2005: 4). Aus diesem Grund schlieÿt Robertson seine Erörterung des Eektivitätsmaÿes Average Precision mit dem Satz: These reasons make it attractive to researchers,
despite its lack of transparency. (Robertson 2006: 79)
Um Systeme möglichst unabhängig von einer speziellen Testanfrage bewerten zu können, werden in der Praxis meist mehrere Suchanfragen zur Evaluierung herangezogen.
Dabei unterscheidet man zwei Methoden der Mittelwertbildung, die
Mikromittelung
Makro -
und die
(vgl. Womser-Hacker 2004: 231). Während das Eekivitätsmaÿ bei
der Makromethode für jede Testanfrage getrennt berechnet und anschlieÿend über alle
Anfragen gemittelt wird, berechnet man das Eektivitätsmaÿ bei der Mikromethode
aus der Gesamtzahl der für alle Anfragen gefundenen Dokumente (vgl. ebd.).
Wendet man die Makromethode auf das Eektivitätsmaÿ Average Precision an, so
erhält man die sogenannte
Mean Average Precision
(MAP) (vgl. Thom/Scholer
2007: 101). Auch dieses Maÿ ndet in der Information-Retrieval-Forschung eine breite Anwendung zur Charakterisierung von Systemleistungen (vgl. Mandl 2006b: 79).
2.4. Erhebungsmethoden zur Evaluierung von
Mensch-Maschine-Interaktion
Bei der Evaluierung von interaktiven Systemen und ihren Benutzungsschnittstellen unterscheidet man grundsätzlich zwei Arten von Erhebungsverfahren:
jektive
objektive
und
sub-
Methoden (vgl. Oppermann/Reiterer 1994: 342 ). Als objektiv bezeichnet
man ein Erhebungsverfahren, wenn es in Zahlen messbare Ergebnisse liefert. Bei diesen
Verfahren sollen subjektive Einüsse möglichst vermieden werden, um eine Verallgemeinerung der Ergebnisse zu ermöglichen (vgl. a.a.O.: 344). Subjektive Verfahren hingegen
liefern verbal geäuÿerte Ergebnisse. Oppermann und Reiterer sprechen deshalb im ersten
Fall von harten und im zweiten von weichen Daten (vgl. a.a.O.: 342). In der Literatur
wird weiterhin von
quantitativen
beziehungsweise
qualitativen
Methoden gesprochen
(vgl. Dahm 2006: 319).
In der Regel empehlt es sich, eine Kombination unterschiedlicher Erhebungsmetho-
18 Mit dem Begri des Rankings bezeichnet man [. . . ] das Verfahren einer Suchmaschine, die bezüglich einer Suchanfrage ermittelte Ergebnisliste in eine aus Benutzersicht nach Relevanz sortierten
Reihenfolge zu bringen. (Strauch 2004: 103)
20
2.4. Erhebungsmethoden zur Evaluierung von Mensch-Maschine-Interaktion
den einzusetzen, um so eine möglichst ganzheitliche Betrachtung zu gewährleisten (vgl.
Oppermann/Reiterer 1994: 347). Unter einer ganzheitlichen Evaluierung verstehen
Oppermann und Reiterer die Einbeziehung der Einüsse der Benutzer, der Aufgaben
sowie des Systems auf die Interaktion mit dem zu beurteilenden System (vgl. a.a.O.: 337
f ). Da die einzelnen Verfahren in der Regel unterschiedliche Evaluierungsschwerpunkte
besitzen, nden die oben genannten Einüsse je nach Schwerpunkt eine unterschiedlich
stark ausgeprägte Berücksichtigung.
2.4.1. Objektive Erhebungsmethoden
Oppermann und Reiterer zufolge ist die Beobachtung die gängigste Methode der objektiven Evaluierung (vgl. a.a.O.: 343). Darüber hinaus existieren weitere objektive Erhebungsmethoden, die als Ergänzung zur bloÿen Beobachtung der Testbenutzer durch
den Versuchsleiter eingesetzt werden können. Dazu zählen die Logdatei-Analyse, die
Videoaufzeichnung sowie der Performanztest.
In Logdateien (engl.:
logles )
oder Eingabeprotokollen wird jede Benutzereingabe
automatisch erfasst (vgl. Sarodnick/Brau 2006: 162). Anhand dieser Beobachtungsdaten kann später die Abfolge der einzelnen Benutzereingaben genau rekonstruiert werden. Im Hinblick auf die Auswertung von benutzerorientierten Retrievaltests merkt Fuhr
an, dass diese Daten zwar vergleichsweise einfach zu erheben sind, jedoch nur eine beschränkte Aussagekraft besitzen (vgl. Fuhr 2005: 33). Mandl schreibt in Bezug auf die
Aussagekraft von Logdateien, dass sie als objektives Evaluierungsverfahren die Schwäche
besitzen, bei ihren Ergebnissen keine Erklärungen mitzuliefern (vgl. Mandl 2006a: 36).
Die Hintergründe, die zu einer bestimmten Benutzereingabe geführt haben, bleiben dem
Versuchsleiter bei diesem Erhebungsverfahren also im Nachhinein verborgen.
Um dem oben beschriebenen Nachteil entgegenzuwirken, werden in der Regel zusätzlich Videoaufzeichnungen eingesetzt (vgl. Oppermann/Reiterer 1994: 344). Diese
dienen der Erfassung des Verhaltens der Versuchspersonen während des Benutzertests.
Dazu gehören vor allem die Mimik sowie sprachliche Äuÿerungen der Testpersonen.
Weiterhin besteht die Möglichkeit mit Hilfe einer entsprechenden Testsoftware die Bildschirminhalte während des Tests aufzuzeichnen. Im Fall eines Retrievaltests könnte auf
diese Weise zum Beispiel noch einmal beobachtet werden, wie die Testbenutzer mit
dem Information-Retrieval-System interagieren, welche Suchbegrie sie eingeben, ob sie
diese im Laufe der Suche verfeinern und in welcher Reihenfolge sie die Suchergebnisse
auswählen (vgl. Abschn. 5.2.4).
Der Begri der Performanz wird in verschiedenen Zusammenhängen verwendet. In der
21
Performanz die Leistung in Handlungstests (vgl. Meyers
2007: o. S.). Der englische Begri der performance hingegen steht im Kontext der elekPsychologie bezeichnet die
tronischen Datenverarbeitung (EDV) für das Leistungsniveau eines Computers (vgl.
Duden 2007: 780). In Bezug auf die Information-Retrieval-Forschung bemerkt WomserHacker, dass der Begri der Performanz die beiden Bewertungskriterien Ezienz und
Eektivität verbindet (vgl. Womser-Hacker 2004: 227).
Im Bereich der Information-Retrieval-Evaluierung gibt es verschiedene Möglichkeiten
Performanzmessung vorzunehmen. Zu nennen sind in diesem Zusammenhang die unterschiedlichen im Information Retrieval entwickelten Eektivitätsmaÿe, die sowohl im Bereich der systemorientierten als auch der benutzerorientierten Evaluierung Verwendung
nden. Im benutzerorientierten Fall vergleicht man mit Hilfe dieser Maÿe beispielsweise,
ob sich die Leistung der Testbenutzer proportional zur Leistung des zu beurteilenden
Systems verändert (vgl. Abschn. 4.1).
Des Weiteren besteht die Möglichkeit Zeit- und Fehlermessungen vorzunehmen, um
die Qualität eines Systems zu ermitteln. So kann zum Beispiel die Zeit, die die Probanden zur Bearbeitung der Testaufgaben benötigen oder die Anzahl der Aufgaben, die sie
in einer vorgegebenen Zeitspanne lösen, protokolliert werden (vgl. Sarodnick/Brau
2006: 165 f ). In Bezug auf Bedienungsfehler kann deren Anzahl, das Verhältnis zwischen
erfolgreichen und fehlerhaften Benutzereingaben oder auch die Zeit, die die Testbenutzer für die eigenständige Fehlerbehebung benötigen, gemessen werden (vgl. a.a.O.: 166).
Allerdings ist bei diesen beiden Messgröÿen zu beachten, dass die auf diese Weise gewonnenen Ergebnisse nur für die entsprechenden Testaufgaben valide sind und bei anderen
Aufgaben abweichende Zeiten gemessen werden können und mit dem Auftreten anderer
Fehler zur rechnen ist (vgl. a.a.O.: 165).
2.4.2. Subjektive Erhebungsmethoden
Bei der Methode des lauten Denkens und der Befragung handelt es sich um subjektive
Verfahren. Bei diesen Verfahren ist der Benutzer die
Quelle der Evaluation
(vgl. Op-
permann/Reiterer 1994: 342). Damit wollen Oppermann und Reiterer hervorheben,
dass bei den subjektiven Erhebungsmethoden das persönliche Erleben der Testpersonen
die Grundlage für die Evaluierung darstellt.
Das laute Denken während eines Benutzertests ist ein Verfahren, durch das die Denkweise der Testpersonen erfasst werden soll (vgl. Fuhr 2005: 33). Dazu werden die Benutzer gebeten, ihre Gedanken während der Interaktion mit dem System laut zu äuÿern.
Ein Nachteil dieser Erhebungsmethode besteht Sarodnick und Brau zufolge in der
22
2.5. Zusammenfassung
Doppelbelastung, die durch die gleichzeitige Bearbeitung der Aufgaben und das laute
Denken entsteht (vgl. Sarodnick/Brau 2006: 163). In der Folge könnte dies die Bearbeitungsgeschwindigkeit senken (vgl. ebd.). Auÿerdem [. . . ] werden den Testpersonen
Inkonsistenzen im eigenen Denken eher bewusst, sodass weniger oder andere Probleme
auftauchen können als unter realen Bedingungen. (ebd.) Deshalb verträgt sich diese
Methode nicht mit Verfahren, bei welchen gleichzeitig die Performanz der Testbenutzer erhoben werden soll (vgl. ebd.). Ein weiterer Nachteil dieser Methode besteht in
der durch das laute Denken erzeugten Künstlichkeit der Testsituation (vgl. Opper-
mann/Reiterer 1994: 343). Deshalb wird manchmal alternativ ein Partnergespräch
durchgeführt, im Rahmen dessen zwei Testpersonen gemeinsam eine Testaufgabe bearbeiten und sich dabei unterhalten sollen (vgl. ebd.).
In der empirischen Nutzerforschung sind Befragungen das am meisten verbreitete
Erhebungsverfahren (vgl. Bertram 2004: 2). Mit Hilfe von Interviews oder Fragebögen
kann im Anschluss an einen Retrievaltest der persönliche Eindruck, den die Testbenutzer
von dem zu beurteilenden System haben, erfragt werden. Man möchte auf diese Weise
[. . . ] Hinweise auf die subjektiv empfundenen Stärken und Schwächen des Systems
sammeln. (Fuhr 2005: 33)
Laut Fuhr besitzen schriftliche gegenüber mündlichen Befragungen folgende Vorteile:
Sie erfordern weniger Aufwand für die Versuchsleitung, sind leichter auszuwerten und
ermöglichen eine quantitative Beurteilung nach verschiedenen Kriterien. (ebd.) Problematisch kann jedoch in beiden Fällen die Validität
19
der Ergebnisse sein (vgl. Zimbar-
do/Gerrig 1999: 29). Sie ist zum Beispiel gefährdet, wenn die Versuchspersonen die
Fragen nicht richtig verstehen oder sie das Gefühl vermittelt bekommen, selbst getestet
zu werden und daher dazu tendieren, sozial erwünschte Antworten zu geben (vgl. ebd.).
Daher ist eine angemessene Gestaltung der Fragen dringend erforderlich, um verlässliche
Ergebnisse zu erhalten. Abschnitt 3.2.2 befasst sich ausführlicher mit der Thematik der
Fragebogenerstellung.
Ziel dieses Kapitels war es, einen Überblick über die experimentelle Evaluierung im
Information Retrieval zu geben. Neben theoretischen Grundlagen wurden insbesondere
die typische Vorgehensweise sowie damit verbundene Vor- und Nachteile behandelt. Der
Vergleich von system- und benutzerorientiertem Vorgehen hat gezeigt, dass vor allem im
19 Der Begri der
Validität
bezeichnet die Gültigkeit eines Erhebungsverfahrens (vgl. Zimbardo/Ger-
rig 1999: 22).
23
benutzerorientierten Bereich der experimentellen Evaluierung weiterer Forschungsbedarf
besteht, da sich hier bislang noch keine allgemeine Evaluierungsmethodik herausgebildet
hat. Dies mag mit darin begründet liegen, dass bei diesem Bewertungsansatz neben dem
Erfolg der Benutzer auch die Zufriedenheit der Benutzer von Interesse ist. Die besondere
Schwierigkeit dabei besteht darin, dass es sich bei der Benutzerzufriedenheit nicht um ein
direkt beobachtbares und aus diesem Grund nur schwer erfassbares Phänomen handelt.
24
3. Grundlagen der
Zufriedenheitsforschung
Wie im vorherigen Kapitel bereits angedeutet, stellt die Zufriedenheit der Benutzer ein
wesentliches Bewertungskriterium bei der Evaluierung von Mensch-Maschine-Interaktion
dar. Zusammen mit den beiden Bewertungskriterien Eektivität und Ezienz zählt sie
zu den zentralen Kriterien bei der Beurteilung interaktiver Systeme (vgl. Strauch
2004: 43) und wird deshalb in diesem Kapitel genauer betrachtet.
Das psychologische Konstrukt der Zufriedenheit nimmt als Forschungsgegenstand eine bedeutende Stellung in der Wirtschaftspsychologie ein. Die Erkenntnisse der Zufriedenheitsforschung nden dort vorzugsweise in den beiden Teilgebieten Arbeits- und
Marktpsychologie Anwendung, in denen sie zur Messung der Arbeits- beziehungsweise
der Kundenzufriedenheit eingesetzt werden. Im Folgenden wird überwiegend auf theoretische und methodische Ansätze aus dem Bereich der Kundenzufriedenheitsforschung
eingegangen. Entsprechend befasst sich Abschnitt 3.1 zunächst mit den theoretischen
Grundlagen zur Bedeutung und Entstehung von Kundenzufriedenheit. Daran anschlieÿend folgt in Abschnitt 3.2 eine kurze Darstellung methodischer Ansätze zur Messung
von Kundenzufriedenheit und zur Ermittlung von Kundenerwartungen.
3.1. Theoretische Ansätze in der
Kundenzufriedenheitsforschung
In der Diskussion theoretischer Ansätze zur Denition des Konstrukts der Kundenzufriedenheit hat sich das sogenannte
C/D-Paradigma
Conrmation/Disconrmation-Modell,
auch als
bezeichnet, durchgesetzt (vgl. Sauerwein 2000: 8). Dieses Modell gilt
als Basismodell zur Erklärung der Entstehung von Kundenzufriedenheit.
25
3.1.1. Der Soll-Ist-Vergleich der Kundenzufriedenheit
Das Conrmation/Disconrmation-Modell erklärt den Entstehungsprozess von Zu- oder
Unzufriedenheit als individuellen Vergleichsprozess zwischen den Erwartungen an ein
Produkt einerseits (Soll-Komponente) und der wahrgenommenen Produktqualität andererseits (Ist-Komponente) (vgl. Scharnbacher/Kiefer 1996: 6 f ). Die Grundlage
für die Entstehung von Zu- oder Unzufriedenheit ist folglich die Bestätigung (engl.:
rmation )
oder Nicht-Bestätigung (engl.:
disconrmation )
con-
dieser Kundenerwartungen
(vgl. a.a.O.: 6). Das Prinzip des C/D-Paradigmas wird in Abbildung 3.1 veranschaulicht.
Wahrgenommene
Vergleichsstandard
Leistung
(Soll-Leistung)
(Ist-Leistung)
Vergleichsprozess
Negative
Diskonrmation
(Ist<Soll)
Konrmation
(Ist=Soll)
Unzufriedenheit
Positive
Diskonrmation
(Ist>Soll)
Zufriedenheit
Abbildung 3.1.: Das Prinzip des Conrmation/Disconrmation-Modells
(Quelle: Homburg et al. 1999: 85)
Werden im Rahmen des Soll-Ist-Vergleichs die Erwartungen des Kunden erfüllt, entspricht also die Ist- der Soll-Leistung, ist der Kunde zufrieden. Man bezeichnet diesen
Zustand als
Bestätigung
(vgl. ebd.) beziehungsweise
Konrmation
(vgl. Sauerwein
2000: 11). Im Fall einer Nicht-Bestätigung der Kundenerwartungen unterscheidet man
zwei Zustände: Werden die Erwartungen des Konsumenten übertroen, übersteigt also
positiver Nicht-Bestätigung (vgl.
positiver Diskonrmation (vgl. Sauerwein
die Ist- die Soll-Leistung, wird in der Literatur von
Scharnbacher/Kiefer 1996: 7) oder
2000: 11) gesprochen. Werden die Erwartungen hingegen enttäuscht, liegt also die Istunter der Soll-Leistung, ist der Kunde unzufrieden. Man bezeichnet diesen Zustand als
negative Nicht-Bestätigung (vgl. Scharnbacher/Kiefer 1996: 7) oder negative Diskonrmation (vgl. Sauerwein 2000: 11).
Gemäÿ dieses Modells wird das psychologische Konstrukt der Kundenzufriedenheit
26
3.1. Theoretische Ansätze in der Kundenzufriedenheitsforschung
in der Literatur als Reaktion auf einen Vergleichsprozess aufgefasst: Most denitions
have favored the notion of consumer satisfaction as a response to an evaluation process. (Giese/Cote 2000: 1) Uneinigkeit besteht nach Giese und Cote jedoch in der
Frage, ob es sich dabei um eine kognitive oder um eine emotionale Reaktion handelt
(vgl. ebd.). Müller schreibt in diesem Zusammenhang: Beide Denitionszweige sind
jedoch nicht als unvereinbare Gegensätze, sondern als sich einander ergänzende Interpretationswege zu werten. (Müller 2004: 4) Zur Begründung führt er an, dass die
individuelle Zufriedenheitsbeurteilung als menschlicher Informationsverarbeitungsprozess sowohl kognitive als auch emotionale Komponenten beinhaltet (vgl. ebd.). Auch
Scharnbacher und Kiefer gehen von einer beide Komponenten verknüpfenden Denition
aus. Sie verstehen Kundenzufriedenheit als emotionale Reaktion auf einen kognitiven
Vergleich (vgl. Scharnbacher/Kiefer 1996: 10 f ).
Die Soll-Komponente der Kundenzufriedenheit
Die Erwartung der Kunden in Bezug auf die Produktqualität stellt im ErwartungsWahrnehmungs-Vergleich des C/D-Paradigmas den Vergleichsstandard dar. In Bezug
auf die Analyse von Kundenerwartungen muss berücksichtigt werden, dass diese von
verschiedenen Einussgröÿen abhängig sind, die zusammen in die Erwartungshaltung
der Konsumenten einieÿen. Die bisherigen Erfahrungen der Kunden sind laut Sauerwein die wichtigste Einussgröÿe (vgl. Sauerwein 2000: 9). Scharnbacher und Kiefer
nennen vier Hauptfaktoren, die die Kundenerwartung und somit die Zufriedenheitsbeurteilung beeinussen können (vgl. Scharnbacher/Kiefer 1996: 8). Diese Hauptfaktoren werden im Folgenden am Beispiel von Suchmaschinennutzern erläutert:
•
Persönliche Bedürfnisse:
Die Anforderungen, die Nutzer von Suchmaschinen an die Qualität der Suchergebnisse stellen, können je nach zugrundeliegendem Informationsbedürfnis unterschiedlich ausfallen. So wird ein Internetnutzer, der eine Suchmaschine verwendet,
um damit Informationen wie das aktuelle Kinoprogramm abzurufen, andere Ansprüche an das Suchergebnis haben, als ein Nutzer, der sich im Internet über
die neuesten Erkenntnisse in der naturheilkundlichen Tumortherapie informieren
möchte.
•
Frühere Erfahrungen:
Es wurde bereits darauf hingewiesen, dass frühere Erfahrungen ein wesentlicher
Faktor für die Entstehung von Kundenerwartungen sind. In Bezug auf die Nutzung
27
von Suchmaschinen wird ein erfahrener Nutzer vermutlich andere Erwartungen an
die Suchfunktionalität haben, als ein unerfahrener Suchmaschinennutzer. So ist
anzunehmen, dass ein erfahrener Nutzer gröÿeren Wert auf erweiterte Suchmöglichkeiten, wie zum Beispiel die Suche nach einer genauen Wortfolge, legt als ein
unerfahrener.
•
Direkte Kommunikation über die Unternehmensleistung:
Mit der direkten Kommunikation ist die Gesamtheit aller vom Unternehmen direkt steuerbaren Kommunikationskanäle gemeint (vgl. ebd.). Wie bei allen Unternehmen beeinusst auch die Unternehmenskommunikation von Suchmaschinenbetreibern die Erwartungshaltung ihrer Nutzer. Wirbt beispielsweise eine spezielle
Suchmaschine für Kinder mit angemessenen Inhalten, so werden Eltern, die ihren
Kindern erlauben, diese Suchmaschine zu verwenden, auch erwarten, dass sie sich
auf dieses Werbeversprechen verlassen können.
•
Indirekte Kommunikation über die Unternehmensleistung:
Ebenso beeinusst auch die indirekte Kommunikation über die Qualität einer
Suchmaschine die Wünsche und Anforderungen der Suchmaschinennutzer. Dazu
zählt nach Scharnbacher und Kiefer besonders die Mundpropaganda, aber auch
[. . . ] die Kommunikation über ein Leistungsspektrum durch unabhängige Medien (z.B. Stiftung Warentest). (ebd.) Es ist leicht vorzustellen, dass persönliche
1
Empfehlungen viel zum Erfolg der Suchmaschine Google
ist das Verb
googeln
beigetragen haben. So
sogar schon in den Duden aufgenommen worden: ['gu:gln]
engl.>: mit Google im Internet suchen, recherchieren
<
(Duden 2007: 372).
Zusammenfassend bedeutet dies für die Praxis der Zufriedenheitsforschung, dass die
Soll-Komponente des Kundenzufriedenheitsurteils von einer Vielzahl veränderlicher Faktoren abhängig ist. Indem Powers schreibt: Unfortunately, we are not the customer and
cannot see their needs as they do. (Powers 1988: 274), weist er auf die Schwierigkeit
hin, die jeweiligen Kundenerwartungen im Einzelfall zu bestimmen. Auch Scharnbacher
und Kiefer geben zu bedenken, dass eine Generalisierung der Kundenerwartungen letztlich nicht möglich ist und belegen ihre Argumentation mit folgendem Beispiel: Dies
begründet sich unter anderem durch die Feststellung, daÿ ein und dieselbe Leistung
eines Unternehmens bei dem einen Kunden die Erwartungen erfüllt, bei einem anderen
Kunden die Erwartungen enttäuscht. (Scharnbacher/Kiefer 1996: 9) Daran wird
deutlich, dass Erwartungen individuell sehr unterschiedlich ausfallen können. Eine Me-
1 Link zur Homepage: http://www.google.de/
28
thoden, die in der Praxis Anwendung ndet, um die Anforderungen und Erwartungen
der Konsumenten an die Qualität eines Produkts zu identizieren, wird in Abschnitt
3.2.1 näher beschrieben.
Die Ist-Komponente der Kundenzufriedenheit
Die zweite Komponente des Erwartungs-Wahrnehmungs-Vergleichs umfasst die vom
Kunden wahrgenommene Produktqualität. Ebenso wie die Erwartungen der Kunden
mitunter subjektiv gefärbt sind, können auch bezüglich der Wahrnehmung der Produktleistung Verzerrungen entstehen (vgl. ebd.). Sauerwein zufolge sind die AssimilationsKontrast-Theorie und die Theorie der kognitiven Dissonanz die beiden wichtigsten Theorien, die zur Interpretation solcher Wahrnehmungsverzerrungen entwickelt wurden (vgl.
Sauerwein 2000: 11). Beide Erklärungsmodelle gehen davon aus, dass Wahrnehmungsverzerrungen eine Folge nicht-bestätigter Erwartungen sind (vgl. Scharnbacher/Kie-
fer 1996: 9).
Im Sinne der von den Psychologen Muzafer Sherif und Carl I. Hovland entwickelten
Assimilations-Kontrast-Theorie (auch:
social judgement theory ) erfolgt im Fall einer Er-
wartungsdiskonrmation eine nachträgliche Anpassung der eigenen Wahrnehmung an
die ursprüngliche Erwartungshaltung (vgl. Sherif/Hovland 1961: 38 ). Bezogen auf
den Soll-Ist-Vergleich der Kundenzufriedenheit neigen Kunden bei geringer Abweichung
zwischen Soll- und Ist-Leistung dazu, diese als identisch wahrzunehmen (vgl. Sauer-
wein 2000: 11). Man spricht bei dieser Art der Wahrnehmungsverzerrung von einem
Assimilationseekt
(engl.:
assimilation eect )
(vgl. Sherif/Hovland 1961: 52). Be-
steht dagegen eine groÿe Abweichung zwischen Soll- und Ist-Leistung, wird dieser Unterschied noch gröÿer wahrgenommen als er tatsächlich ist (vgl. Sauerwein 2000: 11).
Dabei ist es unerheblich, ob es sich um eine positive oder um eine negative Abweichung
handelt (vgl. ebd.). In der Literatur wird diese Art der Wahrnehmungsverzerrung als
Kontrasteekt
(engl.:
contrast eect ) bezeichnet (vgl. Sherif/Hovland 1961: 52).
Der Toleranzbereich, in dem die Soll- annähernd der Ist-Leistung entspricht, wird
als
Indierenzzone
(engl.:
zone of indierence )
bezeichnet (vgl. Woodruff et al.
1983: 299). Liegt die wahrgenommene Produktqualität innerhalb dieses Bereichs, vollzieht sich ein Verschmelzungsprozess zwischen Produktwahrnehmung und -erwartung,
in dessen Konsequenz sich Zufriedenheit einstellt (vgl. a.a.O.: 300). Liegt sie auÿerhalb,
wird eine Kontrastreaktion hervorgerufen, die das Empnden von Zu- oder Unzufriedenheit zusätzlich verstärkt (vgl. ebd.). Woodru et al. weisen auÿerdem darauf hin, dass
das Ausmaÿ der vorhandenen Toleranz situationsabhängig variieren kann (vgl. ebd.).
29
Ein Beispiel hierfür ist die wahrgenommene Wichtigkeit der Produkteigenschaften: Bei
wichtigen Produkteigenschaften ist die Indierenzzone kleiner, bei unwichtigen ist sie
gröÿer. (Sauerwein 2000: 11)
Der Begri der kognitiven Dissonanz wurde von dem Sozialpsychologen Leon Festinger eingeführt (vgl. Festinger 1978: 15 ). Gemäÿ dieser Theorie ist das Individuum
bestrebt [. . . ] eine Harmonie, Konsistenz oder Kongruenz zwischen seinen Meinungen,
Attitüden, Kenntnissen und Wertvorstellungen herzustellen. (Festinger 1978: 253)
Im Fall einer Erwartungsdiskonrmation entstehen beim Konsumenten kognitive Spannungen, sogenannte
Dissonanzen (vgl. Sauerwein 2000: 11). Um diesem konikthaften
Zustand des Ungleichgewichts entgegenzuwirken, tendieren Konsumenten in der Folge dazu, wahrgenommene und erwartete Produktleistung aneinander anzupassen: Das
kann durch Senkung der Erwartungen oder durch Erhöhung der wahrgenommenen Produktleistung geschehen. (ebd.)
Cardozo hat das Zusammenspiel wahrnehmungsverzerrender Mechanismen in Bezug
auf den Aufwand, der für den Kunden mit dem Erhalt einer bestimmten Produkt- oder
Dienstleistung verbunden ist, untersucht (vgl. Cardozo 1965: 244 ). Er geht davon
aus, dass Konsumenten die Qualität eines Produkts oder einer Dienstleistung wichtiger ist, wenn sie einen gewissen Aufwand betreiben, um diese zu erhalten (vgl. a.a.O.:
245). Übertragen auf eine Information-Retrieval-Anwendungssituation wäre zum Beispiel denkbar, dass sich die wahrgenommene Wichtigkeit einer Informationsbeschaung
für den Nutzer erhöht, wenn er Geld dafür bezahlen muss.
Ausgehend von dieser Annahme stellte Cardozo vier Hypothesen auf (ebd.):
1. When customers expend little eort to obtain a product, those who receive a
product less valuable than they expected will rate that product lower than will
those who expected to receive, and do receive, the same product.
2. As eort expended increases, this eect decreases.
3. When customers obtain a product less valuable than they expected, those who
expended high eort to obtain the product will rate it higher than will those who
expended little eort.
4. When customers obtain a product about as valuable as they expected, those who
expended high eort to obtain the product will rate it higher than will those who
expended little eort.
Die erste Hypothese lässt sich aus der Assimilations-Kontrast-Theorie ableiten (vgl.
a.a.O.: 244). Während die wahrgenommene Produktqualität bei der einen Gruppe au-
30
ÿerhalb des Indierenzbereichs liegt und deshalb ein Kontrasteekt einsetzt, entspricht
bei der anderen Gruppe die Soll- gerade der Ist-Leistung. Die zweite Hypothese begründet Cardozo mit der Theorie der kognitiven Dissonanz (vgl. a.a.O.: 245). Er legt dar,
dass bei Kunden, die mehr Mühe aufwenden, um eine bestimmte Leistung zu erhalten
ein kognitives Ungleichgewicht entsteht, wenn ihre Erwartungen nicht erfüllt werden
(vgl. ebd.). Weiter argumentiert er, dass in einem solchen Fall eine Kontrastierung des
Ungleichgewichts zwischen Aufwand und wahrgenommener Leistung nicht ratsam ist,
weil damit die Dissonanz noch vergröÿert wird (vgl. ebd.). Deshalb werden solche Konsumenten entweder nachträglich ihre Wahrnehmung der Produktleistung erhöhen oder
den eigenen Aufwand leugnen (vgl. ebd.). Der soeben beschriebene Mechanismus liefert
gleichzeitig den Erklärungsansatz für die letzten beiden Hypothesen. Auch hier lässt sich
die Reaktion der Kunden, die mehr Mühe aufwenden, mit ihrem Bestreben erklären, kognitive Dissonanzen reduzieren zu wollen (vgl. ebd.). Die empirische Überprüfung dieser
Hypothesen durch Cardozo erbrachte eine Bestätigung der ersten drei Hypothesen (vgl.
2
a.a.O.: 246 f ). In Bezug auf die vierte Hypothese waren die Ergebnisse nicht signikant
(vgl. a.a.O.: 247 f ).
Zusammenfassend kann also festgehalten werden, dass das Zufriedenheitsurteil von
Konsumenten im Rahmen eines Erwartungs-Wahrnehmungs-Vergleichs gebildet wird,
in den eine Vielzahl veränderlicher Faktoren einieÿen. Dazu zählen vor allem die individuelle Erwartungshaltung der Kunden, das persönliche Erleben der entsprechenden
Leistung, aber auch situative Faktoren, wie die aufgewendete Mühe zur Erlangung einer
bestimmten Leistung.
3.1.2. Die Faktorstruktur der Kundenzufriedenheit
Ein weiteres Thema der Zufriedenheitsforschung ist die sogenannte
Faktorstruktur
der
Zufriedenheit. Dabei geht es um die Frage, ob es sich bei der Zufriedenheit um ein einoder mehrdimensionales Konstrukt handelt (vgl. Müller 2004: 5). Die eindimensionale
Sichtweise begreift Zu- und Unzufriedenheit als zwei gegensätzliche Pole (vgl. ebd.). Je
höher also die situativ wahrgenommene Qualität des Beurteilungsobjekts, desto höher
die Zufriedenheit und umgekehrt (vgl. Sauerwein 2000: 12). Im Unterschied zu dieser
bipolaren Auassung geht man bei dem mehrdimensionalen Ansatz davon aus, dass Zuund Unzufriedenheit zwei eigenständige Bewertungskontinua darstellen (vgl. Müller
2 In der Statistik wird ein Ergebnis als nicht signikant bezeichnet, wenn die Möglichkeit, dass es
zufällig zustande gekommen ist, nicht mit ausreichender Sicherheit verworfen werden kann (vgl.
Bortz 2005: 796).
31
2004: 5). Inzwischen scheint sich Matzler et al. zufolge eine mehrdimensionale Sichtweise
etabliert zu haben, nach der das Konstrukt der Kundenzufriedenheit im Wesentlichen
von drei Zufriedenheitskategorien, als
Basis-, Leistungs-
und
Begeisterungfaktoren
be-
zeichnet, bestimmt wird (vgl. Matzler et al. 2000: 254).
Bevor jedoch diese drei Faktoren genauer betrachtet werden, soll zunächst die ZweiFaktoren-Theorie von Frederick Herzberg dargestellt werden, da sie die Grundlage der
meisten mehrfaktoriellen Theorien bildet (vgl. Sauerwein 2000: 94 f ). Die Zwei-Faktoren-Theorie wurde im Bereich der Arbeitszufriedenheitsforschung von dem Arbeitswissenschaftler und Psychologen Frederick Herzberg entwickelt (vgl. Herzberg et al.
1997: 3 ). Danach werden Arbeitszu- und -unzufriedenheit jeweils durch unterschiedliche Faktoren ausgelöst.
Dabei unterscheidet man zwischen inhalts- und kontextbezogenen Faktoren (vgl. a.a.O.:
113 ). Inhaltsbezogene Faktoren, wie zum Beispiel gute Aufstiegsmöglichkeiten, sind
für Zufriedenheit verantwortlich (vgl. a.a.O.: 113). Ihr Vorhandensein wirkt motivierend,
weshalb sie als
Motivatoren
(engl.:
motivators )
bezeichnet werden (vgl. a.a.O.: 114).
Da Zu- und Unzufriedenheit gemäÿ dieser Theorie jedoch nicht als zwei gegensätzliche
Pole betrachtet werden, führt ihr Fehlen nicht zwangsläug auch zu Arbeitsunzufriedenheit: Werden die Erwartungen an Motivatoren nicht erfüllt, erleben die Mitarbeiter
einen neutralen Zustand der Nichtzufriedenheit. (Nerdinger/Neumann 2007: 133)
Arbeitsunzufriedenheit entsteht durch das Fehlen sogenannter
Hygienefaktoren
(engl.:
factors of hygiene ) (vgl. Herzberg et al. 1997: 113). Dabei handelt es sich um Faktoren, die den Kontext der Arbeit betreen, wie eine angemessene Bezahlung oder humane
Arbeitsbedingungen (vgl. ebd.). Auch hier gilt, dass eine Erfüllung dieser Faktoren nicht
notwendigerweise zu mehr Arbeitszufriedenheit führt (vgl. a.a.O.: 113 f ).
In der Kundenzufriedenheitsforschung wird Matzler et al. zufolge meist zwischen den
folgenden zufriedenheitsbeeinussenden Faktoren unterschieden (vgl. Matzler et al.
2000: 254):
•
Basisfaktoren:
Die Basisfaktoren entsprechen den soeben beschriebenen Hygienefaktoren. Es handelt sich dabei um Mindestanforderungen, die vom Kunden vorausgesetzt werden
(vgl. ebd.). Auch hier entsteht bei Nicht-Erfüllung der Kundenerwartungen Unzufriedenheit und bei Erfüllung ein neutraler Zustand, in dem der Kunde weder
zufrieden noch unzufrieden ist.
•
Leistungsfaktoren:
Leistungsfaktoren können sowohl Zufriedenheit als auch Unzufriedenheit bei Kun-
32
den hervorrufen, wenn deren Erwartungen entweder übertroen oder nicht erfüllt
werden (vgl. ebd.). Auf diese Faktoren trit demnach die eindimensionale Zufriedenheitsauassung zu.
•
Begeisterungsfaktoren:
Begeisterungsfaktoren haben die gleiche Funktion wie die Motivatoren der ZweiFaktoren-Theorie. Im Gegensatz zu den Basis- und Leistungsfaktoren werden diese
jedoch nicht vom Kunden erwartet (vgl. ebd.). Deshalb entsteht bei Erfüllung der
Kundenerwartungen Zufriedenheit, die Nicht-Erfüllung der Kundenerwartungen
hat jedoch keinen negativen Einuss auf die Zufriedenheit.
Schon das nach seinem Ernder, dem japanischen Wissenschaftler Noriaki Kano, benannte
Kano-Modell
der Kundenzufriedenheit basiert auf diesen drei Zufriedenheits-
kategorien (vgl. Sauerwein 2000: 1). Die übliche Darstellung dieses Modells ist in
Abbildung 3.2 angegeben.
Kunde
sehr zufrieden
Begeisterungsfaktoren
Leistungsfaktoren
Erwartungen
Erwartungen
nicht erfüllt
übertroen
Basisfaktoren
Kunde
unzufrieden
Abbildung 3.2.: Das Kano-Modell der Kundenzufriedenheit
(Quelle: In Anlehnung an Matzler/Bailom 2000: 220)
Für jede der drei Zufriedenheitskategorien stellt die angegebene Kurve dar, wie sich
die Erfüllung beziehungsweise Nicht-Erfüllung der Kundenerwartung gemäÿ des Modells
auf die Kundenzufriedenheit auswirkt. Auch ist die Rangfolge der einzelnen Bedürfnisebenen hier zu erkennen: Die Erfüllung von Basisfaktoren ist eine notwendige aber
keine hinreichende Bedingung zur Entstehung von Kundenzufriedenheit. [. . . ] Erst das
Anbieten von Leistungs- und Begeisterungsfaktoren führt zu Zufriedenheit. (ebd.). Um
also eine langfristige Sicherung der Kundenzufriedenheit zu erreichen, sollten als erstes
die Basisfaktoren erfüllt werden. Als nächstes sollten die Leistungsfaktoren angegangen werden, da auch sie Unzufriedenheit beim Kunden auslösen können, wenn seine
33
Erwartungen an diese nicht erfüllt sind. Die Erfüllung der Begeisterungsfaktoren stellt
sozusagen die Kür der zufriedenheitsverbessernden Maÿnahmen dar.
Für die Praxis ergibt sich damit die Frage, welche Produkteigenschaften von Kunden
als Basis-, Leistungs- oder Begeisterungsfaktoren erlebt werden. In diesem Zusammenhang erwähnen Matzler und Bailom: Nach unseren Erfahrungen werden Begeisterungseigenschaften vom Kunden im Vergleich zu Basis- und Leistungseigenschaften meist
als unwichtig eingestuft. Allerdings können Begeisterungseigenschaften häug als ein
kaufentscheidender Vorzug betrachtet werden, wenn Basis- und Leistungseigenschaften
gleich gut erfüllt sind wie bei Konkurrenzprodukten. (Matzler/Bailom 2000: 219)
Die Erfahrungen von Matzler und Bailom zeigen, dass die Wichtigkeit von Produkteigenschaften innerhalb der einzelnen Kategorien unterschiedlich wahrgenommen wird
und dass verschiedene Produkteigenschaften deshalb einen unterschiedlichen Einuss
auf die Entstehung von Zufriedenheit haben können.
Zum besseren Verständnis von Kundenanforderungen wurden im Rahmen der Kundenzufriedenheitsforschung verschiedene Methoden entwickelt. Stellvertretend wird in
Abschnitt 3.2.1 die nach Kano benannte Kano-Methode zur Kategorisierung verschiedener Kundenanforderungen genauer besprochen.
3.2. Methodische Ansätze in der
Kundenzufriedenheitsforschung
In der Diskussion methodischer Ansätze zur Untersuchung des psychologischen Konstrukts der Kundenzufriedenheit nden sich auf der einen Seite Ansätze zur Identizierung und Kategorisierung von Kundenanforderungen. Auf der anderen Seite gibt es
Ansätze, deren Fokus auf der Messung der Kundenzufriedenheit liegt.
3.2.1. Identizierung und Kategorisierung von
Kundenanforderungen
3
Exemplarisch für die Gruppe methodischer Ansätze zur Identizierung und Kategorisierung von Kundenanforderungen soll an dieser Stelle die Kano-Methode des japanischen
Wissenschaftlers Noriaki Kano vorgestellt werden. Sie ermöglicht es, diese Anforderungen entsprechend des in Abbildung 3.2 dargestellten Kano-Modells in Basis-, Leistungs-
3 Eine gute Übersicht über weitere Methoden zur Identizierung und Kategorisierung von Kundenanforderungen ndet sich bei Matzler et al. (vgl. Matzler et al. 2000: 251).
34
3.2. Methodische Ansätze in der Kundenzufriedenheitsforschung
und Begeisterungsanforderungen einzuteilen.
Dazu wurde von Kano eine Fragebogentechnik entwickelt, bei der jede Frage zu einer
Produkteigenschaft in zwei Ausprägungen vorliegt. Die positive Form der Frage bezieht
sich dabei auf die Reaktion der Kunden für den Fall, dass eine Produkteigenschaft vorhanden ist (vgl. Sauerwein 2000: 2). Man spricht diesbezüglich auch von der
nalen
funktio-
Form der Frage (vgl. Matzler et al. 2000: 263). Die zweite, negative Form der
Frage untersucht hingegen die Reaktion der Kunden auf ein Fehlen der entsprechenden
Produkteigenschaft (vgl. Sauerwein 2000: 2). Dies wird auch als die
le
dysfunktiona-
Form der Frage bezeichnet (vgl. Matzler et al. 2000: 263). Die Zuordnung der
Produkteigenschaften zu einer der drei Anforderungskategorien erfolgt über die für die
funktionale und dysfunktionale Form der Frage gewählten Antwortmöglichkeiten (vgl.
ebd.). Dazu werden in einer Auswertungstabelle allen möglichen Antwortkombinationen
die entsprechenden Kategorien zugeordnet (vgl. a.a.O.: 263 f ).
Abbildung 3.3.: Fragebogenauswertung mit der Kano-Methode
(Quelle: Matzler/Bailom 2000: 221)
In Abbildung 3.3 ist für eine Beispielfrage die Anwendung der Kano-Methode dargestellt. Daraus ist zu erkennen, auf welche Weise den fünfundzwanzig verschiedenen
Antwortpaarungen die drei Anforderungskategorien zugeordnet sind.
Neben Basis- (M ), Leistungs- (O ), und Begeisterungsfaktoren (A) sind darüber hinaus
35
drei zusätzliche Kategorien möglich (vgl. ebd.). In die Kategorie
R fallen Produkteigen-
schaften, die vom Kunden nicht gewünscht oder sogar als negativ empfunden werden
(vgl. a.a.O.: 264). Produkteigenschaften hingegen, die aus Sicht der Kunden unerheblich
sind, werden der Kategorie
I
zugeteilt (vgl. a.a.O.: 263). Paarungen, deren Antworten
sich in Bezug auf die funktionale und dysfunktionale Form der Frage widersprechen,
werden der Kategorie
Q
zugeordnet (vgl. a.a.O.: 264).
Zur Auswertung der Daten betrachtet man im einfachsten Fall, wie oft eine Produkteigenschaft durch die Kunden welcher Kategorie zugeordnet wurde (vgl. ebd.).
Abschlieÿend kann gesagt werden, dass die Kano-Methode am Beginn eines Produktentwicklungsprozesses stehen sollte. Auf diese Weise kann herausgefunden werden, welche Produkteigenschaften von den Kunden erwartet beziehungsweise vorausgesetzt werden und somit in jedem Fall zu realisieren sind. Dabei ist jedoch zu beachten, dass
diese Erwartungen von Kunde zu Kunde variieren können: Was von Kunden als Basis-,
Leistungs- oder Begeisterungsanforderung betrachtet wird, hängt wesentlich von seinen
persönlichen Prädispositionen ab und kann stark zwischen verschiedenen Segmenten
dierieren. (Matzler/Bailom 2000: 220). Dies bedeutet, dass die Kano-Methode äuÿerst zielgruppenabhängig ist. Weiterhin ist eine im Laufe der Zeit mögliche Änderung
der Kundenerwartungen zu berücksichtigen, so dass aus Begeisterungs- zuerst Leistungsund schlieÿlich Basisfaktoren werden können (vgl. ebd.).
3.2.2. Messung von Kundenzufriedenheit
Ausgehend von einer kurzen Darstellung der von Scharnbacher und Kiefer beschriebenen Klassikation
4
der verschiedenen Verfahren zur Erhebung der Kundenzufriedenheit
(vgl. Scharnbacher/Kiefer 1996: 19), wird in diesem Abschnitt insbesondere auf
die schriftliche Befragung als Instrument zur Messung der Kundenzufriedenheit eingegangen.
Wie bei den Verfahren zur Evaluierung von Mensch-Maschine-Interaktion (vgl. Abschn. 2.4) lassen sich auch die verschiedenen methodischen Ansätze zur Messung der
Kundenzufriedenheit in
objektive und subjektive Messansätze unterteilen (vgl. Scharn-
bacher/Kiefer 1996: 19).
Zu den objektiven Messansätzen gehören zum Beispiel die Bewertung von Marktanteilen oder die Beobachtung der Wiederkäuferrate (vgl. ebd.). Ziel dieser Verfahren ist
es also, die Zufriedenheit der Kunden unabhängig von der subjektiven Wahrnehmung
4 Sie beziehen sich diesbezüglich auf Arbeiten von Andreasen (1982), Standop und Hesse (1985) sowie
Lingenfelder und Schneider (1990).
36
einzelner Kunden zu erfassen. Matzler und Bailom weisen jedoch darauf hin, dass diese
Verfahren [. . . ] erstens nur zeitlich verzögert als Konsequenz von Kundenzufriedenheit meÿbar sind, zweitens auch andere Einuÿfaktoren eine erhebliche Rolle spielen
können. (Matzler/Bailom 2000: 199)
Die in Abschnitt 2.4 vorgestellten Eigenschaften subjektiver Erhebungsmethoden können direkt auf die im Rahmen der Kundenzufriedenheitsforschung entwickelten Methoden übertragen werden. Auch hier steht die persönliche Wahrnehmung der Kunden im
Mittelpunkt. Weiterhin lassen sich in diesem Zusammenhang
implizite
und
explizite
Messungen unterscheiden (vgl. Scharnbacher/Kiefer 1996: 19). Während implizite Messungen bestimmte Indikatoren wie zum Beispiel das Beschwerdeverhalten der
Kunden analysieren, erheben explizite Messungen die Kundenzufriedenheit durch Befragungen. Der Hauptnachteil von impliziten Messungen liegt nach Matzler und Bailom in ihrer Unvollständigkeit, da sich beispielsweise nur wenige Kunden tatsächlich
beschweren (vgl. Matzler/Bailom 2000: 199). Bei expliziten Messungen schlieÿlich
kann zusätzlich zwischen
indirekten und direkten Messungen unterschieden werden (vgl.
Scharnbacher/Kiefer 1996: 19). Während die Kundenzufriedenheit bei indirekten
Messungen über den Erfüllungsgrad der Kundenerwartungen bestimmt wird (vgl. a.a.O.:
23), ermittelt man sie bei direkten Messungen durch Zufriedenheitsskalen (vgl. a.a.O.:
25).
Da die subjektive Messung der Kundenzufriedenheit beziehungsweise die Durchführung schriftlicher Befragungen im empirischen Teil dieser Arbeit von zentraler Bedeutung ist, soll auf dieses Verfahren im Folgenden ausführlicher eingegangen werden. Dabei
wird ein besonderes Augenmerk auf die Erstellung der Fragen sowie die Aussagekraft
unterschiedlicher Antwortskalen gelegt.
Grundsätzlich unterscheidet man bei der Erstellung der Fragen, auch Items genannt
(vgl. Sarodnick/Brau 2006: 169), zwei Arten:
oene
und
geschlossene
Fragen (vgl.
Bertram 2004: 15). Diese Fragearten dierieren in ihrem Standardisierungsgrad (vgl.
ebd.). Oene Fragen sind weniger standardisiert und überlassen den befragten Personen
die Formulierung der Antwort. Geschlossene Fragen hingegen geben den Befragten verschiedene Antwortmöglichkeiten vor. Bei der Erstellung eines Fragebogens sollte man
sich bewusst sein, dass je nach Standardisierungsgrad der Frage unterschiedliche kognitive Anforderungen an die Befragten gestellt werden (vgl. ebd.). Dies soll an der Frage:
Welche Suchmaschinen kennen Sie?
verdeutlicht werden. Im Kontext einer oenen Fra-
gestellung müssten die Testpersonen sich bei dieser Frage wirklich erinnern, welche Suchmaschinen sie kennen. Im Kontext einer geschlossenen Fragestellung dagegen müssten
sie lediglich die ihnen bekannten Suchmaschinen wiedererkennen. Allerdings besteht im
37
zweiten Fall eine gröÿere Gefahr, dass die Befragten versucht sein könnten, eine Antwort
zu erraten und somit die Testergebnisse verfälschen (vgl. Bortz/Döring 1995: 196 f ).
Dies gilt insbesondere für Wissensfragen (vgl. a.a.O.: 196). Weiterhin ist zu beachten,
dass sich der Standardisierungsgrad der Fragen auch auf den Beantwortungsspielraum
der Befragten auswirkt: Je standardisierter der Fragebogen, desto gröÿer die Gefahr, die
Bewertungsfreiheit einzuschränken (vgl. Sarodnick/Brau 2006: 171).
Die Nachteile oener Fragestellungen werden jedoch höher bewertet als ihre Vorteile:
Der Auswertungsaufwand ist bei oenen Fragen um ein Vielfaches höher, die Vergleichbarkeit der Antworten wesentlich geringer. (Bertram 2004: 16) Auch Bortz und
Döring bemerken aus diesem Grund: Fragen mit Antwortvorgaben sind bei schriftlichen
Befragungen der oenen Frageform vorzuziehen. (Bortz/Döring 1995: 232)
5
Für die Formulierung der Fragen sind nach Schnell et. al. einige Regeln
einzuhalten,
die im Folgenden kurz erläutert werden (vgl. Schnell et al. 1993: 343 f ):
Zunächst ist auf eine einfache, eindeutige und neutrale Formulierung der Fragen zu
achten, die weder Fachausrücke noch Fremdwörter enthält (vgl. ebd.). Auch sollte die
Länge der Fragen auf weniger als 20 Wörter beschränkt bleiben (vgl. a.a.O.: 343). Weiterhin sollten die Formulierungen nicht suggestiv gewählt werden, die Frage:
Finden Sie,
dass die Startseite der Suchmaschine XY zu schlicht gestaltet ist? wäre deshalb der Formulierung: Sind Sie nicht auch der Ansicht, dass die Startseite der Suchmaschine XY
zu schlicht gestaltet ist? vorzuziehen (vgl. a.a.O.: 344). Auch hypothetische Fragen, die
Formulierungen der Art: Angenommen, Sie würden die Suchmaschine XY verwenden ...
enthalten, sind zu vermeiden (vgl. ebd.). In jeder Frage sollte auÿerdem nur ein Sachverhalt angesprochen werden (vgl. ebd.). Ein Negativbeispiel wäre die Frage:
Kennen
und nutzen Sie den OPAC der Universität Hildesheim häug?. Darüber hinaus sollten
die Fragen keine doppelten Verneinungen beinhalten und die Befragten nicht überfor-
Wieviel Prozent
ihrer Zeit im Internet verbringen Sie mit der Verwendung von Suchmaschinen?. Besser
dert werden (vgl. ebd.). Ein Negativbeispiel für letzteres ist die Frage:
wäre in diesem Fall eine Frage nach der üblichen Nutzungszeit des Internets und eine
weitere Frage zur durchschnittlichen Verwendungsdauer von Suchmaschinen. Schlieÿlich ist auch auf die Ausgewogenheit der Formulierungen zu achten (vgl. ebd.). Diese
Forderung bezieht sich auf Fragen mit zwei Antwortalternativen. Bei der Formulierung
solcher Fragen sollte man sicherstellen, dass beide Alternativen in der Frage vorkommen.
Ein Positivbeispiel wäre die folgende Frage:
Werbung anzeigen oder nicht?
Sollte eine Suchmaschine auf der Startseite
5 Schnell et. al. beziehen sich hier auf Arbeiten von Payne (1951), Dillmann (1978) sowie Converse
und Presser (1986).
38
Neben der Fragenformulierung muss aber auch die Konstruktion der Antwortmöglichkeiten berücksichtigt werden. Zentral ist in diesem Zusammenhang das zugrundeliegende
Skalenniveau. In der Diskussion methodischer Ansätze zur Messung von Kundenzufriedenheit wurden sehr viele unterschiedliche Skalen entwickelt (vgl. Matzler/Bailom
2000: 214). Es gibt numerische, verbale und graphische Skalen sowie Mischformen dieser
Skalen (vgl. ebd.). Sie unterscheiden sich in der Art und Weise, wie die einzelnen Abstufungen auf der Skala dargestellt werden. Während die Skalenwerte bei numerischen
Skalen durch Zahlen repräsentiert werden, geschieht dies bei verbalen Skalen durch Text
und bei graphischen Skalen durch Zeichnungen.
Im Hinblick auf die Auswertung der Daten gibt Bertram zu bedenken, dass verbale
Skalen zwar besser für die textuelle Aufbereitung der Ergebnisse geeignet sind, numerische Daten dagegen mehr statistische Verfahren zulassen (vgl. Bertram 2004: 18).
Dies hängt mit den unterschiedlichen Skalenniveaus zusammen (vgl. ebd.). Bei psychologischen Fragestellungen hat man meistens mit den folgenden drei Skalenniveaus, auch
Messniveaus genannt, zu tun:
Nominalskala, Ordinalskala, Intervallskala
(vgl. Zimbar-
do/Gerrig 1999: 26f ). Je höher das jeweilige Skalenniveau, desto mehr statistische
Auswertungsverfahren können angewendet werden (vgl. Bertram 2004: 18).
Bei der Nominalskala handelt es sich um das niedrigste Messniveau (vgl. a.a.O.: 17).
Ein klassisches Beispiel ist der Familienstand mit den Kategorien:
schieden
ledig, verheiratet, ge-
(vgl. Zimbardo/Gerrig 1999: 27). Durch dieses Messniveau wird lediglich
die Verschiedenheit der einzelnen Kategorien ausgedrückt. Verbale Skalen benden sich
auf ordinalem Messniveau (vgl. Bertram 2004: 18). Bei diesem Skalenniveau stellen die
einzelnen Skalenwerte eine Rangordnung dar (vgl. Zimbardo/Gerrig 1999: 27). Ein
Beispiel sind Schulnoten (vgl. Bertram 2004: 17). Das intervallskalierte Messniveau
zeichnet sich zusätzlich dadurch aus, dass die Abstände zwischen den einzelnen Skalenwerten identisch sein müssen (vgl. a.a.O.: 18). Deshalb ist es bei einer Intervallskala
möglich, die Dierenz zwischen unterschiedlichen Antwortkategorien zu quantizieren
(vgl. Zimbardo/Gerrig 1999: 27). Auch numerische Skalen sind auf Intervallskalenniveau angesiedelt (vgl. Bertram 2004: 18).
Matzler und Bailom zufolge ist bei der Erstellung eines Fragebogens weiterhin darauf zu achten, [. . . ] daÿ die Anzahl der Antwortkategorien pro Item so gewählt ist,
daÿ die Befragten in Bezug auf eine Unterscheidungsfähigkeit einerseits nicht überfordert sind und andererseits doch kein Informationsverlust durch zu grobe Skalen auftritt. (Matzler/Bailom 2000: 214) Sie empfehlen daher eine Skala mit circa sieben
Abstufungen (vgl. ebd.).
Eine weitere Frage in diesem Zusammenhang betrit die Entscheidung zwischen ei-
39
ner geraden und einer ungeraden Skala (vgl. ebd.). Von dieser Entscheidung hängt es
ab, ob es eine mittlere Antwortkategorie gibt. Diesbezüglich ist zu bedenken, dass eine
eindeutige Interpretation einer solchen Mittelkategorie nicht möglich ist (vgl. ebd.). Sie
lässt sowohl eine Interpretation im Sinne von
indierent
als auch eine durchschnittli-
che Bewertung des Beurteilungsgegenstands zu. Bertram spricht sich für eine mittlere
Antwortkategorie aus und begründet ihre Wahl wie folgt: Bei der Skalenbildung sollte
man sich stets den Zwang vergegenwärtigen, den standardisierte Instrumente für die
Befragten ohnehin schon mit sich bringen. Auf zusätzlichen Zwang durch eine Skala
sollte man, wo entbehrlich, verzichten. (Bertram 2004: 19)
In diesem Kapitel wurden theoretische und methodische Grundlagen zum psychologischen Konstrukt der Zufriedenheit behandelt. Es wurde gezeigt, dass Zufriedenheit
beziehungsweise Kundenzufriedenheit im Sinne des C/D-Paradigmas als Resultat eines
individuellen Erwartungs-Wahrnehmungs-Vergleichs angesehen werden kann. Im Kontext der Information-Retrieval-Evaluierung ist hier insbesondere der Zusammenhang
zwischen der Kundenzufriedenheit und der Erwartungshaltung der Benutzer hervorzuheben. Weiterhin wurde dargelegt, dass nicht alle Produkteigenschaften den gleichen
Einuss auf die Entstehung von Kundenzufriedenheit haben. Wie dieser Einuss in der
Praxis bestimmt werden kann, wurde exemplarisch anhand der Kano-Methode vorgestellt. Im methodischen Teil wurde überdies die subjektive Messung von Kundenzufriedenheit besprochen, da die schriftliche Befragung als Erhebungstechnik im empirischen
Teil dieser Magisterarbeit zum Einsatz kommt.
40
Dieses Kapitel befasst sich mit den gegenwärtigen Schwerpunkten in der benutzerorientierten Evaluierungsforschung. Neben den konkreten Fragestellungen ausgewählter Studien werden auch deren Untersuchungsdesigns und Erhebungsmethoden einander gegenübergestellt. Ein Anspruch auf Vollständigkeit wird mit diesem Forschungsüberblick
nicht erhoben. Vielmehr soll die Darstellung vorhandener Studien das Ziehen von Parallelen zu dem im empirischen Teil dieser Magisterarbeit entwickelten Untersuchungsdesign ermöglichen.
In den Abschnitten 4.1 bis 4.3 werden zunächst verschiedene Forschungsansätze kurz
vorgestellt und anschlieÿend anhand einer ausgewählten Untersuchung vertieft. Dabei
sollen Gemeinsamkeiten und Unterschiede der einzelnen empirischen Herangehensweisen
herausgearbeitet werden, um die vorliegende Arbeit besser in den Kontext der aktuellen
Forschung einordnen zu können.
4.1. Performanzorientierte Forschung
Insgesamt wurde die wissenschaftliche Diskussion im Bereich der Information-RetrievalEvaluierung in den vergangenen Jahren weniger von zufriedenheits- als von performanzorientierten Ansätzen bestimmt. In diesem Zusammenhang sind insbesondere die Studien von Hersh et al. (vgl. Hersh et al. 2000: 17 ), Turpin und Hersh (vgl. Tur-
pin/Hersh 2001: 225 )1 sowie Allan et al. (vgl. Allan et al. 2005: 433 ) und
Turpin und Scholer (vgl. Turpin/Scholer 2006: 11 ) zu nennen. Alle diese Studien
befassten sich primär mit der Frage, inwieweit sich Ergebnisse aus systemorientierten
Evaluierungen auf reale Benutzer und deren individuelle Informationsbedürfnisse über-
2
tragen lassen, das heiÿt, ob eine Korrelation
zwischen System- und Benutzerleistung
nachgewiesen werden kann.
1 Im Folgenden wird ausschlieÿlich auf diese Quelle verwiesen, da Turpin und Hersh darin die Befunde
beider Untersuchungen (2000 u. 2001) beschreiben.
2 In der Statistik bezeichnet die Korrelation [. . . ] die Art und das Ausmaÿ des Zusammenhanges
zwischen zwei oder mehr Variablen. (vgl. Zimbardo/Gerrig 1999: 791)
41
Wie in Abschnitt 2.1.2 bereits beschrieben, geht es in benutzerorientierten Studien
darum, dass Testpersonen Suchaufgaben mit Hilfe des zu beurteilenden Systems lösen
sollen. Ein Kriterium zur Unterscheidung der oben genannten Studien ist die Frage, ob
die Testpersonen ein reales System bedienten oder ob sie stattdessen künstlich erzeugte Ergebnislisten vorgelegt bekamen. Letzteres Vorgehen wird auch als
Wizard-of-Oz-
Experiment bezeichnet (vgl. Allan et al. 2005: 436). So basieren die Studien von Allan
et al. sowie Turpin und Scholer auf einem Experiment mit künstlich erzeugten Ergebnislisten auf je fünf unterschiedlichen Systemlevels (vgl. Allan et al. 2005: 436; Tur-
pin/Scholer 2006: 14). Die beiden Studien von Turpin und Hersh hingegen verwendeten je zwei reale Systeme unterschiedlicher Leistung (vgl. Turpin/Hersh 2001: 226
f ).
Weiterhin unterscheiden sich die Studien in der Art der gestellten Testaufgaben. So
lieÿen Turpin und Hersh in der Studie aus dem Jahr 2000 die Testpersonen innerhalb
von 20 Minuten möglichst viele Antwortdokumente zu einer Suchaufgabe wie
Länder importieren kubanischen Zucker?
Welche
nden (vgl. a.a.O.: 226). Ihre Studie aus dem
Jahr 2001 enthielt zwei Aufgabentypen. Der erste ist eine Abwandlung der soeben beschriebenen Aufgabe, nur dass diesmal die Anzahl der zu suchenden Antworten in der
Frage festgelegt wurde (vgl. a.a.O.: 227). Beim zweiten Aufgabentyp sollten die Teilnehmer die richtige Antwort aus zwei vorgegebenen Antworten herausnden, wie zum
Beispiel
Welches war die letzte chinesische Dynastie: Qing oder Ming?
(vgl. ebd.). Da
bei der ersten Aufgabe so viele Länder wie möglich gefunden werden sollen, ist sie stärker
recall-orientiert als die zweite.
Des Weiteren gibt es Unterschiede in der Wahl der Eektivitätsmaÿe, mit denen
System- und Benutzerleistung charakterisiert wurden. Zur Bestimmung der Systemleistung verwendeten drei der vier oben genannten Studien das Eektivitätsmaÿ Mean
Average Precision (vgl. Abschn. 2.3.2) (vgl. Turpin/Hersh 2001: 227; Turpin/Scho-
ler 2006: 14). Ausschlieÿlich Allan et al. setzten das Maÿ Binary Preference (bpref )
ein (vgl. Allan et al. 2005: 335), das auswertet, wie oft im Mittel irrelevante vor
relevanten Dokumenten ausgegeben werden (vgl. Buckley/Voorhees 2004: 27).
Allan et al. geben an, dass die meisten performanzorientierten Benutzerstudien die
Bearbeitungszeit der Suchaufgaben als Maÿ für die Leistung der Benutzer heranziehen (vgl. a.a.O.: 437). Darüber hinaus besteht die Möglichkeit, ebenfalls Eektivitätsmaÿe wie Recall und Precision für die Suchergebnisse der Benutzer zu berechnen
(vgl. ebd.). Allerdings scheint es schwierig, einen signikanten Zusammenhang zwischen
System- und Benutzerleistung nachzuweisen: However, recent studies have demonstrated that improvements in these metrics do not translate into a direct benet for
42
4.1. Performanzorientierte Forschung
users. (Turpin/Scholer 2006: 11) Einzig in der Studie von Allan et al. konnte solch
ein Zusammenhang für eine Zunahme der Binary Preference beobachtet werden (vgl.
Allan et al. 2005: 18). In der vorliegenden Magisterarbeit wird dieser Ansatz jedoch
nicht weiterverfolgt. Stattdessen soll untersucht werden, ob sich bei Berücksichtigung
der Erwartungshaltung von Anwendern ein Einuss der Mean Average Precision auf die
Benutzerleistung beobachten lässt (vgl. Abschn. 5.1.1).
Die im Rahmen dieser Arbeit entwickelte Untersuchung bezieht sich in einigen Punkten auf die von Turpin und Scholer durchgeführte Studie, auf die deshalb im Folgenden
umfassender eingegangen wird. Das Untersuchungsdesign entsprach einem einfaktoriellen Design mit Messwiederholung. Ein solches Design lässt sich mittels einer einfaktoriellen Varianzanalyse auswerten. Dieses statistische Testverfahren dient der Überprüfung
der Wirkung einer unabhängigen Variablen (UV), auch Faktor genannt, auf eine abhängige Variable (AV) (vgl. Rudolf/Müller 2004: 77). Dabei bedeutet Messwiederholung, dass die abhängige Variable für jeden Untersuchungsteilnehmer mehrmals mit
unterschiedlichen Faktorausprägungen erhoben wird (vgl. a.a.O.: 97). In der Untersuchung von Turpin und Scholer war die Systemleistung die unabhängige Variable, welche
in den fünf Mean-Average-Precision-Abstufungen 0,55, 0,65, 0,75, 0,85 und 0,95 variiert
wurde (vgl. Turpin/Scholer 2006: 14). Die Ergebnislisten für diese fünf Systemlevels wurden künstlich erzeugt (vgl. ebd.). Als Testkollektion dienten Web-Track-Daten
der Evaluierungsinitiative TREC (vgl. ebd.). Der entsprechende Algorithmus zur Erzeugung der Listen kam auch in der im empirischen Teil dieser Arbeit durchgeführten
Untersuchung zum Einsatz und wird daher in Abschnitt 5.2.3 beschrieben.
Jeder der 30 Teilnehmer sollte 50 Suchaufgaben bearbeiten, wobei die Aufgaben in
einer zufälligen Reihenfolge einem der fünf Systemlevels zugeordnet wurden (vgl. ebd.).
Das bedeutet, dass jeder Untersuchungsteilnehmer zehn Aufgaben pro Systemlevel bearbeiten musste. Turpin und Scholer vermuteten, dass die Schwierigkeit der Suchaufgaben
in den vorherigen Studien eine mögliche Erklärung für die fehlende Korrelation zwischen
System- und Benutzerleistung gewesen sein könnte, weshalb sie für ihre eigene Studie
besonderen Wert auf die Einfachheit der Suchaufgaben legten (vgl. a.a.O.: 11 f ). Die
Teilnehmer sollten deshalb innerhalb von fünf Minuten so viele relevante Antwortdokumente wie möglich zu einem vorgegebenen Thema nden (vgl. a.a.O.: 14). Weiterhin
bemerken Turpin und Scholer: However, previous experiments have focused on user
search tasks that may promote aspects of searcher behaviour that are dierent from
what the system eectiveness metrics are aiming to capture. (a.a.O.: 13)
Die gemessene Benutzerleistung stellte in dieser Studie die abhängige Variable dar.
Für die Auswertung wurden zwei verschiedene Aspekte der Benutzerleistung betrach-
43
tet. Einerseits wurde die Zeit gemessen, die die Teilnehmer benötigen, um das erste
relevante Dokument zu nden (vgl. a.a.O.: 15). Andererseits fand ein Vergleich der Anzahl der relevanten Antwortdokumente, die die Untersuchungsteilnehmer innerhalb von
fünf Minuten aufzunden vermochten, statt (vgl. a.a.O.: 16). Im Ergebnis konnte in der
Studie kein signikanter Zusammenhang zwischen der Aundzeit des ersten relevanten
Dokuments und dem Systemlevel nachgewiesen werden (vgl. a.a.O.: 15). Auch die Korrelation zwischen Systemlevel und Gesamtzahl der gefundenen relevanten Dokumente
war nur schwach signikant (vgl. a.a.O.: 16). Insgesamt konnte also nur ein geringer
Einuss der unterschiedlichen Mean-Average-Precision-Abstufungen auf die Benutzerleistung festgestellt werden. Weiterhelfen würde hier möglicherweise der Einsatz alternativer Performanzmaÿe, wie dies in der vorliegenden Untersuchung unternommen wurde
(vgl. Abschn. 5.2.4).
4.2. Zufriedenheitsorientierte Forschung
Drei Studien, die als weiteren Aspekt neben der Leistung auch die Zufriedenheit der
Benutzer zum Inhalt hatten, wurden von Al-Maskari et al. (vgl. Al-Maskari et al.
2006: 1 ; Al-Maskari et al. 2007: 773 f) und Humann und Hochster (vgl. Huff-
man/Hochster 2007: 567 f ) durchgeführt. Diese Studien zielten darauf ab, zu untersuchen, inwieweit sich die Systemleistung auf die empfundene Zufriedenheit der Benutzer
auswirkt.
Die drei Studien unterscheiden sich zunächst in ihrem Untersuchungsgegenstand.
Während Al-Maskari et al. ihre Testpersonen in der Studie von 2006 nach Bildern suchen
lieÿen (vgl. Al-Maskari et al. 2006: 2), hatte die Studie von 2007 Webseiten zum
Inhalt (vgl. Al-Maskari et al. 2007: 773). Auch in der Studie von Human und Hochster waren von den Teilnehmern Webseiten aufzunden und zu bewerten (vgl. Huff-
man/Hochster 2007: 567 f ). Dabei verwendeten die beiden letztgenannten Studien
die Internetsuchmaschine Google als Information-Retrieval-System (vgl. Al-Maskari
et al. 2007: 773; Huffman/Hochster 2007: 567 f).
Gemein ist allen drei Studien, dass jeweils nur ein und nicht mehrere Systeme oder
Systemlevels zugrunde gelegt wurden (vgl. Al-Maskari et al. 2006: 2; Al-Maskari
et al. 2007: 773; Huffman/Hochster 2007: 567 f). Weitere Unterschiede bestehen hingegen in Bezug auf die gewählten Aufgabenstellungen sowie die eingesetzten
Relevanzmaÿe zur Bewertung der Systemleistung (vgl. Al-Maskari et al. 2006: 2;
Al-Maskari et al. 2007: 773;Huffman/Hochster 2007: 568). Im Folgenden soll
44
4.2. Zufriedenheitsorientierte Forschung
jedoch der Schwerpunkt auf die verschiedenen Herangehensweisen zur Bestimmung der
Benutzerzufriedenheit gelegt werden.
In den beiden Studien von Al-Maskari et al. wurde sie auf eine ähnliche Art und
Weise erfasst. In beiden Fällen konnten die Teilnehmer ihre Zufriedenheit mit der Genauigkeit und der Vollständigkeit der Retrievalergebnisse auf einer dreistugen Skala
von
zufrieden
über
halbwegs zufrieden
bis
nicht zufrieden
angeben (vgl. Al-Maskari
et al. 2006: 3; Al-Maskari et al. 2007: 773). Während in der Studie von 2006 zusätzlich die Nützlichkeit der einzelnen Suchergebnisse eingeschätzt werden sollte (vgl.
Al-Maskari et al. 2006: 3), wurde in der Studie im darauolgenden Jahr stattdessen die Zufriedenheit der Untersuchungsteilnehmer mit dem Ranking der Suchergebnisse
erfasst (vgl. Al-Maskari et al. 2007: 773).
Die Bildretrieval-Studie von Al-Maskari et al. hat ergeben, dass die Testpersonen
trotz eines niedrigen Systemlevels mit ihren Suchergebnissen zufrieden waren (vgl. Al-
Maskari et al. 2006: 4). Dabei wurde die Systemleistung unter anderem über das
Eektivitätsmaÿ P@100 bestimmt (vgl. ebd.). Andererseits fand sich ein signikanter
Zusammenhang zwischen dem Benutzer-Recall und dem Q-measure des Systems (vgl.
ebd.). Letzteres erweitert die Average Precision um die Möglichkeit, auch abgestufte
Relevanzbewertungen für die Dokumente zu vergeben und diese in die Berechnung der
Retrievaleektivität einzubeziehen (vgl. Sakai 2004: o.S.). In der Studie aus dem Jahr
2007 konnten Al-Maskari et al. auch einen Zusammenhang zwischen Benutzerzufriedenheit und Systemleistung feststellen (vgl. Al-Maskari et al. 2007: 773).
Human und Hochster verfolgten in ihrer Studie eine etwas andere Herangehensweise. Als Aufgaben für die Testpersonen kamen hier real an die Suchmaschine Google
gestellte Suchanfragen zum Einsatz (vgl. Huffman/Hochster 2007: 567). Da nur
die reinen Suchbegrie ohne Kontext vorlagen, wurde versucht, die zugrundeliegenden
Informationsbedürfnisse mit Hilfe einer ersten Gruppe von Testpersonen zu rekonstruieren (vgl. a.a.O.: 567 f ). Die so ermittelten Kontexte wurden dann zusammen mit den
ursprünglichen Suchbegrien einer zweiten Gruppe von Probanden als Aufgaben gestellt und anschlieÿend ihre Zufriedenheit erhoben (vgl. a.a.O.: 568). Indem sie sowohl
Relevanzinformationen über die ersten drei Listenplätze als auch die Art des Informationsbedürfnisses berücksichtigten, gelang es Human und Hochster, ein Relevanzmaÿ
zu denieren, das mit der Nutzerzufriedenheit korreliert (vgl. a.a.O.: 568 ).
Im Folgenden soll die Untersuchung von Al-Maskari et al. aus dem Jahr 2006 noch
etwas eingehender betrachtet werden. Sie wurde im Rahmen des in Abschnitt 2.1.2 vorgestellten Interactive Track von CLEF durchgeführt (vgl. Al-Maskari et al. 2006: 2).
Bei den erhobenen Variablen handelte es sich in diesem Design um die Benutzerleistung
45
und die Zufriedenheit der Testteilnehmer (vgl. a.a.O.: 2 f ).
Im Gegensatz zu der im vorherigen Abschnitt beschriebenen Studie von Turpin und
Scholer sollten die 11 Teilnehmer dieser Studie nur zwei Aufgaben bearbeiten, die für alle
Teilnehmer identisch waren (vgl. a.a.O.: 2). Bei der ersten Aufgabenstellung wurden die
Untersuchungsteilnehmer aufgefordert, so viele Bilder europäischer Parlamentsgebäude
wie möglich zu suchen (vgl. ebd.). Bei der zweiten Aufgabenstellung ging es darum,
die Überschrift
The story of saron
anhand fünf unterschiedlicher Bilder zu illustrieren
(vgl. ebd.). Für beide Aufgaben hatten die Testpersonen je 20 Minuten Zeit (vgl. ebd.).
Das Vorgehen zur Erhebung der Zufriedenheit der Teilnehmer wurde bereits beschrieben. Zur Messung der Benutzerleistung dienten die Eektivitätsmaÿe Recall und Precision (vgl. Al-Maskari et al. 2006: 3). Die entsprechende Modizierung dieser Maÿe
fand auch in der im empirischen Teil dieser Arbeit durchgeführten Untersuchung Anwendung und ist daher in Abschnitt 5.2.4 beschrieben.
Der Vergleich der Benutzerleistung mit der Systemleistung erfolgte systemseitig anhand der fünf Eektivitätsmaÿe P@50, P@100, Q-measure, bpref-10 und 10-Precision.
Das Q-measure wurde bereits im Verlauf dieses Abschnitts, die P@50, die P@100 sowie
die 10-Precision in Abschnitt 2.3.2 unter den allgemeineren Denitionen der P@n und
der R-Precision besprochen. Bei bpref-10 handelt es sich um eine an Ergebnislisten mit
wenigen relevanten Dokumenten angepasste Variante des in Abschnitt 4.1 erläuterten
Maÿes Binary Preference (vgl. Buckley/Voorhees 2004: 27). Wie schon berichtet,
ergab sich in der Studie ein signikanter Zusammenhang zwischen dem Q-measure und
dem Benutzer-Recall.
Leider geht aus der Veröentlichung nicht hervor, wie das angegebene statistische
Testverfahren der Varianzanalyse auf die Daten angewendet wird. Unklar bleibt die
Einteilung der Daten in ab- und unabhängige Variablen.
4.3. Forschungsansätze zum Einuss der
Ergebnispräsentation
Neben diesen performanz- und zufriedenheitsorientierten Untersuchungen wurden im
Bereich der benutzerorientierten Evaluierungsforschung auch Studien durchgeführt, die
einzelne Aspekte der Anwendungssituation von Information-Retrieval-Systemen genauer
untersuchten. Dahinter steht der Gedanke, dass man ein System nur dann verbessern
kann, wenn man alle Aspekte, die die Anwendungssituation betreen, in die Evaluierung
einbezieht. Al-Maskari et al. nennen diesbezüglich folgende Einussfaktoren: Factors
46
4.3. Forschungsansätze zum Einuss der Ergebnispräsentation
such as prior search experience, search strategies and knowledge about the topic are also
expected to inuence the eectiveness of retrieval. (a.a.O.: 1) In diesem Abschnitt soll
insbesondere auf Studien hingewiesen werden, die den Einuss verschiedener Merkmale
der Ergebnisbeschreibung, wie zum Beispiel des Datums, auf die Auswahlentscheidung
innerhalb des Suchprozesses erforschen. Mit diesem Aspekt der Anwendungssituation
beschäftigten sich die Studien von Resnick und Lergier (vgl. Resnick/Lergier 2003: 1
), Kaczmirek (vgl. Kaczmirek 2003: 1 ) und Al-Maskari und Sanderson (vgl. Al-
Maskari/Sanderson 2006: 132 ).
Resnick und Lergier beschreiben zwei Studien, die sie unter dem Gesichtspunkt der
Aussagefähigkeit verschiedener Ergebnisbeschreibungen in Treerlisten durchgeführt haben. Dabei ist die erste Studie als Voruntersuchung zu werten, die in erster Linie der
Feststellung dienen sollte, welche Merkmale der Ergebnisbeschreibung den gröÿten Einuss auf die Auswahlentscheidung von Suchmaschinennutzern haben (vgl. Resnick/L-
ergier 2003: 4). Das Ziel der Hauptuntersuchung bestand darin herauszunden, inwiefern unterschiedliche Aufgabenanforderungen die Suchstrategien der Nutzer in Bezug
auf drei verschiedene Merkmale der Ergebnisbeschreibung verändern (vgl. Resnick/L-
ergier 2003: 9). Ein ähnliches Forschungsziel verfolgte auch Kaczmirek, der die Gebrauchstauglichkeit der Ergebnisseiten von Suchmaschinen anhand von vier Beschreibungsmerkmalen analysierte (vgl. Kaczmirek 2003: 46). In der letzten Studie wurde
der Zusammenhang zwischen dem Vorwissen der Informationssuchenden und zwei unter-
3
schiedlichen Ergebnisbeschreibungen bei einem Question-Answering-System untersucht
(vgl. Al-Maskari/Sanderson 2006: 132).
Ein wesentlicher Unterschied besteht auch hier in der Art der Experimente. Während es sich bei den beiden Studien von Resnick und Lergier sowie bei der Studie von
Al-Maskari und Sanderson um Laborexperimente handelte (vgl. Resnick/Lergier
2003: 4 ; Al-Maskari/Sanderson 2006: 134), führte Kaczmirek ein Webexperiment
durch (vgl. Kaczmirek 2003: 52). Darüber hinaus verwendeten die Studien von Resnick und Lergier sowie die von Kaczmirek rein künstlich erzeugte Ergebnisseiten (vgl.
Resnick/Lergier 2003: 4 ; Kaczmirek 2003: 50), die Studie von Al-Maskari und
Sanderson hingegen variierte lediglich die Beschreibungsmerkmale der Suchergebnisse
eines realen Question-Answering-Systems (vgl. Al-Maskari/Sanderson 2006: 133).
Auch hier sollten die Teilnehmer in allen vier Studien relevante Antworten zu ver-
3 Wie beim Web Information Retrieval handelt es sich auch beim Question Answering (QA) um einen
speziellen Forschungsbereich innerhalb des Information Retrieval. Dabei geht es nicht mehr nur um
das klassische Retrieval von Dokumenten, sondern um eine Antwort auf eine konkrete Frage (vgl.
Fuhr 2005: 32).
47
schiedenen Fragestellungen auswählen (vgl. Resnick/Lergier 2003: 4 ; Kaczmirek
2003: 50; Al-Maskari/Sanderson 2006: 134). Dazu erhoben alle Untersuchungen die
Entscheidungssicherheit der Teilnehmer in Bezug auf die eigene Auswahlentscheidung
(vgl. Resnick/Lergier 2003: 4 ; Kaczmirek 2003: 51; Al-Maskari/Sanderson
2006: 136). Resnick und Lergier führen in diesem Zusammenhang den Begri
condence
pre-click
ein: Pre-click condence (PCC) was the participant's expectation of how
well his/her selection would match his/her expectations. (Resnick/Lergier 2003: 8)
Al-Maskari und Sanderson konnten in ihrer Studie zwei Trends beobachten. Erstens
protierte die Benutzerleistung von umfangreicheren Ergebnisbeschreibungen (vgl. Al-
Maskari/Sanderson 2006: 136). Zweitens existierte ein Zusammenhang zwischen
dem Vorwissen und der Benutzerleistung der Probanden: Accuracy was found to increase with topic familiarity; the more familiar participants were with a topic, the more accurate their answers. (ebd.) Die Bevorzugung von umfangreicheren Ergebnisbeschreibungen konnten auch Lergier und Resnick in ihrer ersten Studie bestätigen (vgl.
Resnick/Lergier 2003: 8). Die zweite Studie ergab in Bezug auf die Aufgabenanforderungen, dass Unterschiede in der Spezität der Aufgaben einen signikanten Einuss
auf die Wahl der Suchstrategie haben (vgl. a.a.O.: 19). Weiterhin legen die Ergebnisse
dieser Studie nahe, dass die Entscheidungssicherheit keinen zuverlässigen Hinweis auf
den Sucherfolg der Nutzer darstellt: Though the dierence was statistically signicant,
participants' condence in their correct answers was only slightly greater than their
condence in their incorrect answers. (a.a.O.: 20)
Im Folgenden sollen das Untersuchungsdesign sowie die empirischen Befunde von
Kaczmirek umfassender vorgestellt werden. An diesem, von Kaczmirek im Rahmen seiner Diplomarbeit durchgeführten, Webexperiment nahmen 191 Internetnutzer teil (vgl.
Kaczmirek 2003: 69). Die Studie hatte ein zweifaktorielles Design mit den unabhängigen Variablen Ergebnisbeschreibung und Aufgabenspezität (vgl. a.a.O.: 46). Mit einem
zweifaktoriellen varianzanalytischen Design können die Haupt- und Wechselwirkungseffekte von zwei Faktoren auf die abhängige Variable festgestellt werden (vgl. Rudolf/-
Müller 2004: 87). Von einem Haupteekt spricht man, wenn die Wirkung einer unabhängigen Variablen auf die abhängige Variable nachgewiesen werden kann. Beeinussen
sich die unabhängigen Variablen gegenseitig, spricht man von einem Wechselwirkungs(vgl. a.a.O.: 88) beziehungsweise Interaktionseekt (vgl. Bortz/Döring 1995: 496).
In dem Experiment von Kaczmirek wurden die Teilnehmer zufällig einer von vier
Stufen des Faktors Ergebnisbeschreibung zugewiesen und mussten beide Stufen des
Faktors Spezität der Suchaufgabe durchlaufen (vgl. Kaczmirek 2003: 46). Der Faktor Ergebnisbeschreibung wurde in den Ausprägungen
48
Wörter im Kontext, Textanfang,
4.3. Forschungsansätze zum Einuss der Ergebnispräsentation
Schlüsselwörter
und
MaxInfo
realisiert (vgl. ebd.). Die ersten drei Bedingungen sind
selbsterklärend, bei der Bedingung MaxInfo handelt es sich um eine Mischform der drei
erstgenannten Bedingungen (vgl. a.a.O.: 45). Alle Teilnehmer sollten zwei Suchaufgaben
Welche Gröÿe
haben Euroscheine?, bei der unspezischen Aufgabe sollte die Frage Welche Folgen hat
die Währungsunion? beantwortet werden (vgl. ebd.). Kaczmirek ging davon aus, dass
unterschiedlicher Spezität bearbeiten. Die spezische Aufgabe lautete
sich die Teilnehmer ihrer Entscheidung bei der spezischen Aufgabe sicherer seien würden, als bei der unspezischen Bedingung (vgl. a.a.O.: 45 f ).
Eine Besonderheit der Untersuchung von Kaczmirek bestand in dem Verzicht auf
eine Darstellung der durch die Links repräsentierten Webseiten (vgl. a.a.O.: 43). Die
Testpersonen sollten also lediglich angeben, welche Links sie in einer realen Anwendungssituation ausgewählt hätten und anschlieÿend einschätzen, wie sicher sie sich bei
dieser Entscheidung waren. Auch in diesem Fall kann also von einer pre-click condence
gesprochen werden. Kaczmirek begründet dieses Vorgehen mit der Tatsache, dass die
Ergebnisbeschreibungen und nicht das Ranking der Ergebnisse evaluiert werden sollten
(vgl. ebd.).
Kaczmirek testete die Haupt- und Wechselwirkungseekte der beiden unabhängigen
Variablen auf mehrere abhängige Variablen, indem er für jede Variable eine zweifaktorielle Varianzanalyse berechnete (vgl. a.a.O.: 72 ). Die verwendeten abhängigen Variablen
lassen sich in die drei Gruppen Eektivität, Ezienz und Zufriedenheit untergliedern
(vgl. a.a.O.: 59). Die Eektivität wurde bei Kaczmirek durch die Eektivitätsmaÿe Recall und Precision bestimmt, die Ezienz durch Variablen wie Erfolgsrate und Entscheidungszeit der Testpersonen (vgl. ebd.). Dabei entsprach die Erfolgsrate dem Verhältnis
von Benutzer-Recall und -Precision zu der Entscheidungszeit der Testpersonen (vgl.
a.a.O.: 58). Die Zufriedenheit schlieÿlich wurde durch die eingeschätzte Entscheidungssicherheit, einen Fragebogen, sowie einen direkten Vergleich der vier Ergebnispräsentationsvarianten gemessen.
Das Hauptergebnis der Studie besteht in der Präferenz der Testteilnehmer für die
Beschreibungsvariante Textanfang, die den Ergebnissen zufolge gleichzeitig die Auswahlentscheidung von Suchmaschinennutzern am besten unterstützt (vgl. a.a.O.: 83).
In Bezug auf den zweiten manipulierten Faktor in diesem Design hat sich die Vermutung
von Kaczmirek bestätigt, [. . . ] dass spezische Suchaufgaben sicherere Entscheidungen
erlauben als unspezische Aufgaben. (a.a.O.: 77) Weiterhin konnten keine signikanten Unterschiede in der Benutzerleistung, charakterisiert durch Recall und Precision,
zwischen den verschiedenen Beschreibungsvarianten ermittelt werden (vgl. a.a.O.: 81).
Da die Untersuchung ergab, dass die Präsentation des Textanfangs in der Treerliste
49
am besten abschnitt, wurde diese Form der Ergebnisbeschreibung auch für das in der
vorliegenden Arbeit eingesetzte Anwendungsprogramm gewählt (vgl. Abschn. 5.2.2).
Das Ziel dieses Forschungsüberblicks bestand vor allem darin, die verschiedenen Untersuchungsdesigns einiger bestehender Studien kurz vorzustellen und miteinander zu
vergleichen. Dazu wurden die einzelnen Studien zunächst entsprechend ihrer primären
Forschungsziele in performanzorientierte, zufriedenheitsorientierte sowie weitere Aspekte der Anwendungssituation betreende Studien eingeteilt. Der Vergleich der unterschiedlichen empirischen Herangehensweisen stützt die in Kapitel 2 aufgestellte These,
dass sich im Bereich der benutzerorientierten Evaluierungsforschung bislang noch keine
Standard-Evaluierungsmethoden etabliert haben. So vielfältig wie die Fragestellungen,
an welchen sich die Ziele dieses Forschungsbereichs orientieren, sind auch die Untersuchungsdesigns und Erhebungsmethoden. Dieser Vergleich hat aber auch gezeigt, dass
der benutzerorientierte Bewertungsansatz eine umfassendere Beurteilung der Anwendungssituation ermöglicht, als dies bei systemorientierten Untersuchungen der Fall ist.
Die wesentlichen Aspekte der drei ausführlich betrachteten Studien sind in Tabelle
4.1 zusammengefasst.
50
Autoren
Methode
Design
Tabelle 4.1.: Vergleich benutzerorientierter Untersuchungsdesigns
Turpin und Scholer (2006)
Wizard-of-Oz-Experiment mit künstlich erzeugten Ergebnislisten
Einfaktorielles Design:
UV: Systemleistung (5-stug mit Messwiederholung)
Systemleistung
Benutzerleistung
Benutzerzufriedenheit
Aufgaben
Bearbeitungszeit
Teilnehmerzahl
Ergebnis
Autoren
Methode
Design
Systemleistung
AV: Benutzerleistung
5 Systemlevels (MAP): 0,55 ; 0,65 ; 0,75 ; 0,85 ; 0,95
Zeit bis zum ersten gefundenen relevanten Dokument und
Anzahl gefundener relevanter Dokumente in fünf Minuten
Nicht erfasst
50 Web-Suchaufgaben aus TREC Web Track Daten (10 pro Systemlevel): So viele relevante Dokumente wie möglich nden
5 Minuten pro Suchaufgabe
30
Keine Korrelation zwischen System- und Benutzerleistung
Al-Maskari et al. (2006)
iCLEF Experiment mit einem realen System
Varianzanalytisches Design (Unklare Aufteilung in UV und AV):
Erhobene Variablen: System- und Benutzerleistung, Zufriedenheit
5 Eektivitätsmaÿe (Werte über Suchaufgaben gemittelt): P@50:
0,465 ; P@100: 0,47 ; Q-measure: 0,345 ; bpref-10: 0,435 ; 10-
Benutzerleistung
Aufgaben
Precision: 0,56
Recall und Precision
Fragebogen
2 Bild-Suchaufgaben:
Aufgabe 1: So viele Bilder wie möglich zu einem Thema nden
Bearbeitungszeit
Teilnehmerzahl
Ergebnis
Aufgabe 2: Fünf unterschiedliche Bilder zu einem Thema nden
20 Minuten pro Suchaufgabe
11
Korrelation zwischen Q-measure und Benutzer-Recall
Keine Korrelation zwischen Systemleistung und Benutzerzufriedenheit
Autoren
Methode
Design
Kaczmirek (2003)
Web-Experiment mit künstlich erzeugten Ergebnislisten
Zweifaktorielles Design:
UV 1: Ergebnisbeschreibung (4-stug ohne Messwiederholung)
UV 2: Aufgabenspezität (2-stug mit Messwiederholung)
AV 1: Eektivität
AV 2: Ezienz
Systemleistung
Benutzerleistung
Aufgaben
Bearbeitungszeit
Teilnehmerzahl
Ergebnis
AV 3: Zufriedenheit
Keine Angabe
Recall, Precision, Erfolgsrate, Entscheidungszeit
Entscheidungssicherheit, Fragebogen, direkter Vergleich
2 Web-Suchaufgaben unterschiedlicher Spezität:
Relevante Links auswählen und Entscheidungssicherheit angeben
Kein Zeitlimit
191
Positiver Einuss der Ausprägung Textanfang des Faktors Ergebnisbeschreibung auf Benutzerzufriedenheit und Entscheidungssicherheit
51
52
5. Aufbau und Ablauf der
empirischen Untersuchung
Ausgangspunkt dieser Magisterarbeit war die Feststellung, dass in der InformationRetrieval-Evaluierung gegenwärtig noch der systemorientierte gegenüber dem benutzerorientierten Bewertungsansatz bevorzugt wird (vgl. Abschn. 2.1.2). Dies zeigt sich auch
in der Tatsche, dass sich in diesem Bereich noch keine allgemeine Evaluierungsmethodik
etabliert hat. Vor dem Hintergrund, dass Information-Retrieval-Systeme von Menschen
genutzt werden, sollten diese jedoch auch in den Evaluierungsprozess einbezogen werden, da nur sie letztlich beurteilen können, ob ihr Informationsbedürfnis erfüllt wurde
oder nicht. Im theoretischen Teil der vorliegenden Arbeit wurde gezeigt, dass eine solche
Beteiligung andere Anforderungen an die Evaluierungsmethodik stellt als eine rein systemorientierte Bewertung (vgl. Abschn. 2.4). Auf psychologischer Ebene wurde dargelegt,
dass die individuelle Wahrnehmung eines Beurteilungsgegenstands von einer Vielzahl
veränderlicher Faktoren abhängig ist. Hinsichtlich der Zufriedenheit der Benutzer wurde ein theoretisches Rahmenmodell aus dem Bereich der Kundenzufriedenheitsforschung
eingeführt. Im Rahmen dieses sogenannten C/D-Paradigmas wird die Entstehung von
Zu- oder Unzufriedenheit auf die Bestätigung oder Nicht-Bestätigung von Erwartungen
zurückführt (vgl. Abschn. 3.1.1). Darauf aufbauend wurde als empirischer Teil der vorliegenden Arbeit ein experimentelles Untersuchungsdesign zur Beantwortung der in der
Einleitung dargestellten forschungsleitenden Fragen entwickelt und erprobt.
Das folgende Kapitel beschreibt Aufbau und Ablauf dieser empirischen Untersuchung.
Zunächst wird in Abschnitt 5.1 das gewählte Forschungsdesign beschrieben und begründet. Davon ausgehend hat Abschnitt 5.2 den organisatorischen Ablauf sowie die technischen Voraussetzungen zum Inhalt. Er enthält jeweils eine kurze Beschreibung der
Testkollektion, des Anwendungsprogramms, der Ergebnislisten sowie der verwendeten
Erhebungsverfahren. Der letzte Abschnitt dieses Kapitels, Abschnitt 5.3, befasst sich
mit den Ergebnissen der qualitativen Voruntersuchung.
53
5.1. Auswahl des Untersuchungsdesigns
Im Zuge der Planung und Vorbereitung der Untersuchung stellte sich zunächst die Frage,
welche Variablen aktiv manipuliert werden sollten. Die unabhängigen Variablen der vorhandenen Untersuchung wurden ausgehend von den folgenden inhaltlichen Forschungsfragen festgelegt (vgl. Kap. 1):
1. Welchen Einuss hat im Information Retrieval die Erwartungshaltung der Benutzer auf Benutzerzufriedenheit und Benutzerleistung?
2. Welchen Einuss hat die Systemgüte eines Information-Retrieval-Systems auf Benutzerzufriedenheit und Benutzerleistung?
3. Welchen Einuss hat im Information Retrieval die Rechercheerfahrung der Benutzer auf Benutzerzufriedenheit und Benutzerleistung?
In Bezug auf diese Forschungsfragen erschien es sinnvoll, davon auszugehen, dass in
einer realistischen Anwendungssituation von Information-Retrieval-Systemen mehrere
Faktoren gleichzeitig wirken. In einem solchen Fall wird die Wahl eines mehrfaktoriellen Untersuchungsdesigns empfohlen (vgl. Bortz/Döring 1995: 495). Wie bei der von
Kaczmirek durchgeführten Untersuchung wurde auch hier ein zweifaktorielles Design,
allerdings ohne Messwiederholung, zugrunde gelegt (vgl. Abschn. 4.3). Der erste Faktor
(Faktor
(A1
=
A)
entspricht dabei der Erwartungshaltung der Benutzer, die in zwei Stufen
niedrig u.
A2 =
hoch) manipuliert wird. Den zweiten Faktor (Faktor
die Güte des Systems, auch hier wird zwischen zwei Systemlevels (B1
B)
bildet
= niedrig u. B2 =
hoch) variiert. Daraus ergibt sich das in Abbildung 5.1 dargestellte Untersuchungsschema mit insgesamt
2×2 = 4
Faktorstufenkombinationen. Es wurde davon ausgegangen,
Tabelle 5.1.: Untersuchungsschema
A1
A2
dass für jede Einzelstichprobe
1
B1 B2
S1,1 S1,2
S2,1 S2,2
der vier Faktorstufenkombinationen
S1,1
bis
S2,2
mindes-
tens 20 Testpersonen benötigt werden, um eine signikante Aussage treen zu können.
1 Der Begri der Stichprobe bezeichnet die untersuchte Teilmenge einer Grundgesamtheit (vgl. Zimbardo/Gerrig 1999: 798). Die statistische Gesamtheit oder Grundgesamtheit bezieht sich auf
die Menge aller Menschen, [. . . ] auf die sich der Geltungsbereich einer Untersuchung oder einer
wissenschaftlichen Aussage bezieht. (a.a.O.: 787) Wie im weiteren Verlauf dieses Kapitels noch
erläutert werden wird, entspricht die Grundgesamtheit im Kontext der vorliegenden Untersuchung
der Menge der Frauen im Alter zwischen
54
18
und
30
Jahren (vgl. Abschn. 5.1.2).
Daraus folgte, dass eine Gesamtstichprobe von mindestens 80 Untersuchungsteilnehmern
erforderlich war.
5.1.1. Formulierung der Untersuchungshypothesen
In Übereinstimmung mit den eingangs genannten Forschungsfragen und den in den Kapiteln 2 bis 4 dargelegten Theorien werden die Forschungshypothesen dieser empirischen
2
Untersuchung als folgende unspezische Unterschiedshypothesen
•
formuliert:
Die Zufriedenheit der Benutzer wird durch ihre Erwartungshaltung und die Systemgüte gemäÿ den Aussagen des C/D-Paradigmas beeinusst.
•
Die Leistung der Benutzer wird durch die Erwartungshaltung beeinusst.
•
Die Leistung der Benutzer wird durch die Systemgüte positiv beeinusst.
In der empirischen Forschung folgt dieser allgemein formulierten Forschungshypothese
meist eine sogenannte
operationale Hypothese :
Mit der operationalen Hypothese pro-
gnostiziert der Forscher den Ausgang einer konkreten Untersuchung nach den Vorgaben
der allgemeinen Forschungshypothese. (Bortz/Döring 1995: 461) Die operationale
Hypothese stellt also den direkten Bezug zu dem gewählten Forschungsdesign und den
darin realisierten unabhängigen und abhängigen Variablen her (vgl. ebd.).
Den drei möglichen Ausgängen des dem C/D-Paradigma zugrundeliegenden Erwartungs-Wahrnehmungs-Vergleichs lassen sich in Bezug auf die Benutzerzufriedenheit die
vier Faktorstufenkombinationen folgendermaÿen zuordnen:
Die erste Stichprobe
S1,1
ist durch eine niedrige Erwartungshaltung und eine nied-
rige Systemleistung gekennzeichnet. Da in diesem Fall Soll- und Ist-Leistung übereinstimmen, ist zu erwarten, dass bei diesen Testpersonen als Konsequenz des Soll-IstVergleichs Zufriedenheit ausgelöst wird. Gleiches gilt für die Stichprobe
S2,2 .
Auch bei
hoher Erwartungshaltung und hoher Systemleistung ist anzunehmen, dass die Untersuchungsteilnehmer in dieser Gruppe ihre Erwartungen an die Leistung des InformationRetrieval-Systems erfüllt sehen, so dass bei ihnen Zufriedenheit entsteht. Diese beiden
Untersuchungsbedingungen sollten sich also auf eine ähnliche Weise auf die Zufriedenheitsurteile der Teilnehmer auswirken. Bei der dritten Gruppe
S1,2
hingegen wird im
Sinne des C/D-Paradigmas keine bloÿe Bestätigung der Erwartungshaltung, sondern
2 In einer Unterschiedshyphothese wird ein Unterschied zwischen zwei oder mehreren Stichproben in
Bezug auf eine oder mehrere abhängige Variablen postuliert (vgl. Bortz/Döring 1995: 461). In
einer unspezischen Hypothese wird keine Aussage über die Gröÿe des Unterschiedes getroen (vgl.
a.a.O.: 51).
55
ein Übertreen der Erwartungen vermutet. Die daraus resultierende positive Diskonrmation sollte zu einem noch ausgeprägteren Zufriedenheitseekt führen. Im Gegensatz
dazu ist bei der Stichprobe
S2,1
eine negative Diskonrmation, also eine Enttäuschung
der Erwartungen, und somit ein negatives Zufriedenheitsurteil anzunehmen.
Bezüglich der zweiten abhängigen Variablen, der Benutzerleistung, könnte man erwarten, dass diejenigen Testpersonen mit der höheren Systemleistung (S1,2 u.
S2,2 )
ei-
ne bessere Leistung erbringen, weil unter diesen Versuchsbedingungen mehr relevante
Dokumente angezeigt werden. Zusätzlich wird ein möglicher Einuss der Erwartungshaltung auf die Benutzerleistung sowie ein Interaktionseekt mit der Systemgüte im
Sinne einer explorativen Fragestellung durch das gewählte Testdesign überprüft. Damit ist gemeint, dass die entsprechende Hypothese ungerichtet, also ohne Festlegung
auf einen positiven oder negativen Zusammenhang, formuliert ist (vgl. Bortz/Döring
1995: 462).
Aus den vorherigen Betrachtungen lassen sich die folgenden operationalen Hypothesen
formulieren:
•
Es besteht ein Einuss der Erwartungshaltung auf die Benutzerzufriedenheit.
•
Es besteht ein positiver Zusammenhang zwischen der Systemgüte und der Benutzerzufriedenheit.
•
Es besteht ein Interaktionseekt zwischen der Erwartungshaltung und der Systemgüte in Bezug auf die Benutzerzufriedenheit, der im Einklang mit dem C/DParadigma steht.
•
Es besteht ein Einuss der Erwartungshaltung auf die Benutzerleistung.
•
Es besteht ein positiver Zusammenhang zwischen der Systemgüte und der Benutzerleistung.
•
Es besteht ein Interaktionseekt zwischen der Erwartungshaltung und der Systemgüte in Bezug auf die Benutzerleistung.
Nachdem ein Forschungsvorhaben auf operationaler Ebene deniert ist, müssen die statistischen Hypothesen formuliert werden (vgl. Bortz/Döring 1995: 461). Diese Testhypothesen werden als
Null- und Alternativhypothese
bezeichnet und sind so zu wäh-
len, dass sie einander gegenseitig ausschlieÿen (vgl. ebd.). Die zu überprüfende statistische Vorhersage entspricht dabei der Alternativhypothese (H1 ) und besagt, dass ein
56
gemessener Unterschied zwischen zwei oder mehreren Stichproben nicht zufällig zustande gekommen ist (vgl. Zöfel 2003: 90). Die Nullhypothese (H0 ) behauptet das genaue
Gegenteil, dass also der gemessene Unterschied zufällig ist (vgl. ebd.). Die Überprüfung dieser Hypothesen erfolgt dann durch einen sogenannten
Signikanztest, mit dem
sich die Wahrscheinlichkeit einer Übereinstimmung der erhobenen Daten mit der Nullhypothese bestimmen lässt (vgl. Bortz/Döring 1995: 463). Diese Wahrscheinlichkeit
wird auch als
Irrtumswahrscheinlichkeit (p) oder α-Fehler bezeichnet, da sie angibt, wie
wahrscheinlich es ist, die Nullhypothese fälschlicherweise zu verwerfen (vgl. a.a.O.: 467).
Ist der Wert des
α-Fehlers p < 0, 05,
spricht man von einem signikanten Ergebnis und
verwirft die Nullhypothese zugunsten der Alternativhypothese (vgl. ebd.). Ist der Wert
der Irrtumswahrscheinlichkeit
einem Wert
p < 0, 001
p < 0, 01,
spricht man von einem sehr signikanten, bei
von einem höchst signikanten Ergebnis (vgl. Zöfel 2003: 92).
In der vorliegenden empirischen Untersuchung geschieht die Hypothesenprüfung mit
Hilfe einer zweifaktoriellen Varianzanalyse. In einem zweifaktoriellen Untersuchungsdesign können die folgenden drei Fragestellungen geprüft werden (vgl. Bortz/Döring
1995: 496):
1. Gibt es einen Haupteekt von Faktor
A?
2. Gibt es einen Haupteekt von Faktor
B?
3. Gibt es einen Interaktionseekt zwischen diesen beiden Faktoren?
Bei der ersten Frage geht es um die Überprüfung, ob sich die durchschnittliche Zufriedenheit oder Leistung von Benutzern mit niedriger Erwartungshaltung von denen
mit hoher Erwartungshaltung unterscheidet. Demzufolge möchte man bei der zweiten
Frage herausnden, ob die Durchschnittswerte der abhängigen Variablen bei niedrigem
Systemlevel von denen bei hohem Systemlevel abweichen. Die letzte Frage befasst sich
mit möglichen Wechselwirkungseekten zwischen den beiden unabhängigen Variablen.
Folglich soll mit dieser Fragestellung untersucht werden, ob die Wirkung der Erwartungshaltung durch die präsentierte Systemleistung bedingt wird oder umgekehrt. Den
vorangegangenen Ausführungen entsprechend lauten die statistischen Hypothesen für
die möglichen Haupteekte (vgl. Rudolf/Müller 2004: 88):
• H0 :
Es existiert kein Haupteekt von Faktor
• H1 :
Es existiert ein Haupteekt von Faktor
A
A
beziehungsweise
beziehungsweise
B.
B.
Für einen möglichen Interaktionseekt ergeben sich die Hypothesen (vgl. ebd.):
57
• H0 :
Es existiert kein Interaktionseekt zwischen den Faktoren
• H1 :
Es existiert ein Interaktionseekt zwischen den Faktoren
A
A
und
und
B.
B.
Die in einer empirischen Untersuchung gewonnen Daten unterliegen neben den direkt
manipulierten unabhängigen Variablen auch möglichen weiteren Einussgröÿen. Der
Versuch, solche Eekte im Rahmen des vorliegenden Untersuchungsdesigns zu kontrollieren, wird im nächsten Abschnitt behandelt.
5.1.2. Kontrolle von Störvariablen
Das Überprüfen von Forschungshypothesen mit Hilfe einer empirischen Untersuchung
setzt ihre
interne Validität
voraus (vgl. Bortz/Döring 1995: 471 f ). Dies bedeutet,
dass sich die beobachteten Ergebnisse eindeutig auf den Einuss der manipulierten unabhängigen Variablen zurückführen lassen müssen (vgl. ebd.). Aus diesem Grund dürfen
bei der Planung des Testdesigns zusätzlich wirksame Einüsse auf den Untersuchungsgegenstand nicht vernachlässigt werden (vgl. ebd.). Dazu gehören insbesondere individuelle
Unterschiede zwischen den Versuchsteilnehmern wie die in der dritten Forschungsfrage
angesprochene Rechercheerfahrung. Allgemein werden derartige Unterschiede als
variablen
Stör-
bezeichnet (vgl. ebd.). Neben der Rechercheerfahrung wurden für die vorlie-
gende Untersuchung das Geschlecht und das Alter der Probanden sowie unterschiedliche
Testumgebungen und die dargebotene Aufgabenreihenfolge als mögliche Störvariablen
identiziert. Im Folgenden wird dargelegt, welcher Techniken sich zur Kontrolle dieser
Einüsse bedient wurde.
Als erstes soll auf die Rechercheerfahrung der Versuchspersonen eingegangen werden,
worunter die Vorerfahrung der Teilnehmer im Umgang mit Suchsystemen zu verstehen
ist. Sie könnte die Erwartungshaltung der Teilnehmer und somit ihr Zufriedenheitsurteil
zusätzlich beeinussen (vgl. Abschn. 3.1.1) und soll daher durch die Einbeziehung einer
Kovariate in das zweifakttorielle Design kontrolliert werden. Damit wird versucht, den
Einuss der personengebundenen Störvariablen Rechercheerfahrung aus den abhängigen
Variablen zu eliminieren (vgl. Bortz/Döring 1995: 509). Dieses statistische Verfahren
Kovarianzanalyse (vgl. Abschn. 6.3.4) bezeichnet, wobei die Störvariable auch
Kontrollvariable genannt wird (vgl. Bortz/Döring 1995: 509). Im Ergebnis ermöglicht
wird als
also die kovarianzanalytische Auswertung der Untersuchung, dass die Eekte der Erwartungshaltung sowie der Systemgüte unabhängig von der bisherigen Rechercheerfahrung
der Testpersonen analysiert werden können.
58
5.2. Ablauf der Hauptuntersuchung
Da weiterhin nicht auszuschlieÿen ist, dass das Geschlecht der Probanden einen Einuss auf die Untersuchungsergebnisse hat, soll auch diese potentielle Störvariable berücksichtigt werden. In diesem Fall kommt eine Kontrolltechnik, die bei Bortz und Döring
als
Konstanthalten bezeichnet wird, zur Anwendung: Personengebundene Störvariablen
beeinussen die Unterschiedlichkeit von Vergleichsgruppen nicht, wenn sie konstant gehalten werden. (a.a.O.: 491) In Bezug auf die vorliegende Untersuchung wurde deshalb
entschieden, die Stichprobe auf weibliche Testpersonen zu beschränken. Darüber hinaus
wurde versucht, die Altersverteilung der Teilnehmerinnen konstant zu halten. Das Alter
der Testpersonen sollte zwischen
18
und
30
Jahren liegen.
Eine dritte Technik zur Kontrolle von Störvariablen ist die sogenannte
rung
Parallelisie-
der Stichproben: Der Einuÿ von Störvariablen wird irrelevant, wenn die Störva-
riablen in allen Vergleichsgruppen gleichermaÿen wirksam sind. (ebd.) Aufgrund der
hohen Teilnehmerzahl war es nicht möglich, alle Tests am gleichen Ort durchzuführen.
Für den Fall, dass die Art des Untersuchungsraums die Ergebnisse der Untersuchung
beeinusst, wurden die unterschiedlichen Standorte gleichmäÿig auf die vier Untersuchungsbedingungen verteilt. Diese Technik wurde auch angewandt, um etwaige Lernoder Reihenfolgeeekte bei der Bearbeitung der Testaufgaben zu kontrollieren. Deshalb
wurde die Reihenfolge der insgesamt drei Aufgaben innerhalb der vier Untersuchungsgruppen variiert.
Nachdem im vorherigen Abschnitt das designtheoretische Gerüst der empirischen Untersuchung genauer erläutert wurde, soll in diesem Abschnitt auf das konkrete Vorgehen
in der vorliegenden Untersuchung sowie einzelne Aspekte der praktischen Umsetzung
ausführlicher eingegangen werden. Dabei ist anzumerken, dass sich dieser Abschnitt
auf die Vorgehensweise der Hauptuntersuchung bezieht, wie sie nach der qualitativen
Voruntersuchung (vgl. Abschn. 5.3) festgelegt wurde.
Zu Beginn wurden die Untersuchungsteilnehmerinnen nach dem Zufallsprinzip auf
eine der vier Untersuchungsbedingungen
3
te Verzerrungen
S1,1
bis
S2,2
verteilt. Um versuchsleiterbeding-
der Untersuchungsergebnisse durch unterschiedliche Informationen zu
vermeiden, erfolgte die Einführung und Instruktion der Testpersonen in schriftlicher
Form. Nach der Begrüÿung erhielten die Probandinnen je nach Bedingung entweder den
3 Solche Verzerrungen werden auch als
Versuchsleitereekt
bezeichnet (vgl. Zimbardo/Gerrig
1999: 21). Sie entstehen aufgrund der persönlichen Erwartungen eines Versuchsleiters in Bezug
auf den Ausgang eines Experiments.
59
Informationstext für die hohe oder die niedrige Erwartungshaltung. Diese kurze Einführung diente dazu, alle Teilnehmerinnen mit dem Thema der Untersuchung vertraut zu
machen. Weiterhin erhielten sie die Information, dass die Universität Hildesheim plane,
eine neue Suchmaschine für Artikel aus Fachzeitschriften in der Bibliothek einzusetzen
und dass diese im Rahmen eines Benutzertests erprobt werden solle.
Die Manipulation der Erwartungshaltung wurde folgendermaÿen realisiert: Die Teilnehmerinnen, bei denen die niedrige Erwartungshaltung (A1 ) erzeugt werden sollte,
bekamen mitgeteilt, dass es sich bei der Suchmaschine mit dem Namen
Periodikum 4
um ein Studentenprojekt einer anderen Hochschule handele, das nun im Rahmen eines
Projektseminars an der Universität Hildesheim weiterentwickelt würde (vgl. Anh. A.1).
Dieser Hinweis erschien notwendig, um bei den Versuchspersonen nicht den Eindruck
zu erwecken, die Verfasserin dieser Arbeit sei an der Entwicklung der Suchmaschine
beteiligt gewesen. Damit sollte vermieden werden, dass sich die Probandinnen eventuell
zu einer möglichst positiven Bewertung gedrängt fühlten. Ziel der soeben beschriebenen
Untersuchungsbedingung war es also, die Erwartungshaltung aufzubauen, es handele
sich bei dem zu beurteilenden System um einen noch in der Entwicklung bendlichen
Prototypen.
Zur Erzeugung der hohen Erwartungshaltung (A2 ) wurde den Teilnehmerinnen die
Suchmaschine hingegen als professionelles Produkt einer IT-Firma vorgestellt, dessen
Kaufpreis 20.000 e betrage (vgl. Anh. A.2). Dadurch sollte sich bei den Probandinnen
die Erwartungshaltung einstellen, dass sie mit einer ausgereiften und hochwertigen Suchmaschine arbeiten würden. Im Gegensatz zu dem Szenario mit niedriger Erwartungshaltung lagen in diesem Fall die Informations- und Instruktionstexte auf Hochglanzpapier
vor. Auch diese Maÿnahme diente dazu, das Entstehen einer hohen Erwartungshaltung
zu fördern.
Nachdem die Untersuchungsteilnehmerinnen den jeweiligen Informationstext durchgelesen hatten, erhielten sie einen allgemeinen Instruktionstext. Darin wurden die Probandinnen aufgefordert, sich vorzustellen, sie seien Journalistinnen und recherchierten
mit der Suchmaschine Periodikum nach bereits veröentlichten Presseartikeln, die das
Thema ihres nächsten Beitrags beträfen. Dieses Szenario sollte von der Künstlichkeit
der Testsituation ablenken und gleichzeitig den praktischen Zugang zum Thema erleichtern. Weiterhin enthielt dieser Instruktionstext allgemeine Hinweise zur Bedienung der
Eingabemaske. Der genaue Wortlaut kann Anhang A.3 entnommen werden.
Alle Teilnehmerinnen sollten nacheinander drei Rechercheaufgaben bearbeiten, de-
4 Dieser Name wurde gewählt, weil Periodikum die fachsprachliche Bezeichung für regelmäÿig erscheinende Publikationen wie zum Beispiel Fachzeitschriften ist (vgl. Duden 2007: 782).
60
ren Reihenfolge variiert wurde, um zwangsläug auftretende Lerneekte zwischen den
einzelnen Aufgaben zu kontrollieren (vgl. Abschn. 5.1.2).
Wie in der von Kaczmirek durchgeführten Studie wurden den Testpersonen auch in
dieser Untersuchung die Suchbegrie vorgegeben (vgl. Kaczmirek 2003: 43 f ). Diese
Einschränkung war erforderlich, da die Testpersonen wie in einigen der in Abschnitt
4.1 beschriebenen Studien nicht mit einem realen System, sondern lediglich mit einem für den Benutzertest entwickelten Anwendungssystem interagierten (vgl. Abschn.
5.2.2). Aufgrund der Tatsache, dass das Suchverhalten der Teilnehmerinnen nicht primärer Untersuchungsgegenstand der vorliegenden Arbeit ist, sondern die wahrgenommene Qualität der Ergebnislisten, sollte eine freie Wahl der Suchbegrie jedoch auch
nicht notwendig sein. Für das Anwendungssystem wurden im Vorfeld der Untersuchung
sechs unterschiedliche Ergebnislisten künstlich erzeugt, je eine Liste für den hohen und
eine für den niedrigen Systemlevel jeder Aufgabe (vgl. Abschn. 5.2.3). Um Irritationen bezüglich dieser Einschränkung zu vermeiden, wurde im Einführungstext darauf
hingewiesen, dass diese Maÿnahme dazu diene, allen Testteilnehmerinnen die gleichen
Anfangsvoraussetzungen zu ermöglichen.
Hatten die Versuchspersonen die Suchbegrie in das Suchfeld der Eingabemaske eingegeben, erhielten sie je nach Untersuchungsbedingung eine der beiden zu diesem Informationsbedürfnis vorgefertigten Treerlisten. Erschien ihnen eines der Ergebnisse
aufgrund der Kurzbeschreibung relevant zu sein, sollten die Testpersonen diesen Presseartikel im Volltext-Fenster önen und anschlieÿend als relevant beziehungsweise nichtrelevant kennzeichnen. Pro Suchaufgabe standen den Probandinnen zehn Minuten Zeit
zur Verfügung. Falls sie schon früher der Meinung waren, sich einen ausreichenden Überblick über das betreende Thema verschat zu haben, stand es ihnen frei, schon vorher
mit der nächsten Aufgabe zu beginnen. Auch dieser Aspekt sollte der Künstlichkeit
der Testsituation durch die Schaung realistischerer Rahmenbedingungen entgegenwirken. Auÿerdem sollte auf diese Art und Weise die Entstehung von Zeitdruck vermieden
werden.
Am Ende der Untersuchung wurden die Testpersonen gebeten, einen Fragebogen zur
Bewertung der Suchmaschine auszufüllen. Einige wesentliche Überlegungen zur Konstruktion dieses Fragebogens werden in Abschnitt 5.2.4 besprochen.
Als kleinen Anreiz und Belohnung für die geopferte Zeit hatten alle Teilnehmerinnen
die Möglichkeit, am Ende der Untersuchung an einer Verlosung teilzunehmen. Dazu
stellte die Universität Hildesheim drei Geldpreise im Wert von 50 e, 30 e und 20 e zur
Verfügung.
61
5.2.1. Beschreibung der Suchaufgaben
Die in der Untersuchung verwendeten Suchaufgaben entstammen der CLEF-2001- und
der CLEF-2003-Testkollektion. Die beiden Kollektionen umfassen
ne Topics sowie circa
750.000
und
1.500.000
50 und 60 verschiede-
Millionen nach Relevanz bewertete Presse-
artikel (Braschler 2002: 13; Braschler 2004: 49).
Wie bereits im vorangegangenen Abschnitt erläutert, umfasste der Benutzertest drei
Testanfragen, die die Informationsbedürfnisse der Testpersonen repräsentierten sollten.
Um für alle Versuchspersonen vergleichbare Anfangsvoraussetzungen zu schaen, wurde
versucht, allgemein bekannte Themen für die Suchaufgaben auszuwählen. Die Testanfragen umfassen die Themenbereiche
Atomtransporte in Deutschland
Erneuerbare Energien, Kinderarbeit in Asien
und
und werden im Folgenden verkürzt als Energie-, Asien-
sowie Atomaufgabe bezeichnet. Dabei gehört die Energieaufgabe der Topicsammlung
von CLEF
2001,
die beiden anderen Aufgaben der von
2003
an.
Die deutschsprachigen Dokumente, zu denen für die drei Topics Relevanzbewertun-
SchweizeFrankfurter Rundschau
gen vorlagen, entstammen der nationalen Nachrichtenagentur der Schweiz
rische Depeschenagentur
(SDA), der deutschen Tageszeitung
(FR) und der deutschen Wochenzeitschrift
Der Spiegel
aus den Jahren
1994
und
1995.
Die Kurzbeschreibungen der einzelnen Informationsbedürfnisse sind in Tabelle 5.2 dargestellt. Sie erläutern das Thema der Suche näher und grenzen es gleichzeitig ein. Diese
Zusammenfassungen wurden auch für die Instruktionstexte zu den einzelnen Rechercheaufgaben verwendet. Die genauen Aufgabenbeschreibungen benden sich in Anhang
A.4.
Tabelle 5.2.: Topicauswahl für den Benutzertest
Topic-Nr. Topic
Kurzbeschreibung
C086
Erneuerbare Energien
Suche Dokumente, die die Nutzung von umweltfreundlicher Energie oder eine darauf ausgerichtete Politik betreen, d.h. von Energie,
die aus erneuerbaren Energiequellen erzeugt
wurde.
C187
Atomtransporte in Deutschland
Finde
Berichte
über
Proteste
gegen
den
Transport von radioaktivem Müll in CastorBehältern in Deutschland.
C190
Kinderarbeit in Asien
Finde Dokumente, die Kinderarbeit in Asien
diskutieren und Vorschläge zu deren Beseitigung oder zur Verbesserung der Arbeitsbedingungen für Kinder liefern.
Abbildung 5.1 zeigt am Beispiel der ersten Suchaufgabe Aufbau und Struktur eines
62
<top >
<num > C187 </ num >
<DE - title > Atomtransporte in Deutschland </ DE - title >
<DE - desc >
Finde Berichte über Proteste gegen den Transport von radioaktivem
Müll in Castor - Behältern in Deutschland .
</DE - desc >
<DE - narr >
Relevante Dokumente berichten über Lieferungen radioaktiven Mülls
mit Castor - Containern nach Gorleben in Niedersachsen und Protestaktionen
dagegen . Jedes Dokument , das über Proteste gegen solche Transporte berichtet ,
ist relevant , auch wenn es den Ort oder den verwendeten Containertyp
nicht speziell erwähnt .
</DE - narr >
</ top >
Abbildung 5.1: Beispiel-Topic
CLEF-Topics. Ein solches Topic (top) setzt sich aus vier Komponenten zusammen: Der
Identikationsnummer (num), dem Titel (title), einer Kurzbeschreibung (desc) sowie
einer ausführlichen Beschreibung (narr). Letztere enthält häug zusätzliche Angaben
darüber, welche Dokumente für das entsprechende Topic als relevant beziehungsweise
irrelevant zu werten sind und ist daher in erster Linie als Orientierungshilfe für die
Juroren gedacht. Um die Instruktionstexte möglichst kurz zu halten und die Relevanzbewertungen der Testteilnehmerinnen nicht zu beeinussen, wurde bei ihrer Erstellung
auf diese Angaben verzichtet.
Tags genannt.
markup language ) wie
Die in die spitzen Klammern eingeschlossenen Bezeichnungen werden
Tags sind Befehle innerhalb einer Auszeichnungssprache (engl.:
zum Beispiel der Extensible Markup Language (XML) (vgl. Duden 2003: 286). Sie legen
die Bedeutung einer Texteinheit fest und dienen gleichzeitig der logischen Strukturierung
von Dokumenten (vgl. ebd.).
5.2.2. Beschreibung des Anwendungsprogramms
Für den Benutzertest wurde ein in der Programmiersprache Java geschriebenes Anwendungsprogramm verwendet, durch das der Suchprozess eines realen InformationRetrieval-Systems simuliert wird. Dadurch sollte den Untersuchungsteilnehmerinnen eine möglichst realitätsnahe Anwendungssituation geboten werden, die es ihnen erleichtert, sich in das vorgegebene Szenario hineinzuversetzen. Im Folgenden wird vor allem
auf Gestaltungsaspekte der Benutzeroberäche sowie deren Bedienung eingegangen.
Gestaltung und Funktionalität der graphischen Benutzeroberäche orientieren sich
an den derzeit bekannten Internet-Suchmaschinen. Der hierdurch intendierte Wiedererkennungseekt sowie eine einfache Benutzerführung sollten eine weitestgehend intuitive
63
Abbildung 5.1.: Die Benutzeroberäche des Anwendungsprogramms
Bedienung des Anwendungssystems bewirken. Dies musste gewährleistet sein, damit
eventuelle Schwierigkeiten bei der Bedienung des Systems nicht zu einer ungewollten
Störvariable werden, die in der Folge die Ergebnisse der Untersuchung verfälscht hätte.
Die Abbildungen 5.1 und 5.2 zeigen Screenshots der graphischen Benutzeroberäche
des Anwendungsprogramms. Das Menü (1) des Anwendungsprogramms ist ausschlieÿlich für den Versuchsleiter bestimmt und deshalb bewusst unscheinbar gehalten. Über
den Menüpunkt
Login
(2) vergibt man für die jeweilige Testperson eine
Test-ID
(3),
die am Ende des Benutzertests gemeinsam mit den weiteren Benutzereingaben in einer Logdatei erfasst wird (vgl. Abschn. 5.2.4). Um ein versehentliches Schlieÿen des
Anwendungsprogramms durch die Testpersonen zu verhindern, wurde eine Sperre des
Schlieÿ-Buttons (4) eingebaut. Diese kann nur aufgehoben werden, indem der Menüpunkt Schlieÿen (5) aktiviert wird. Die Sicherung der Testdaten erfolgt über den Menüpunkt Speichern (6).
Wie bereits in Abschnitt 5.2 angedeutet, handelt es sich nicht um ein autonomes
Suchsystem, denn in Wirklichkeit stehen alle Ergebnislisten des Systems im Vorhinein
fest. Das Anwendungsprogramm liegt in vierfacher Ausführung vor, je eine Version pro
Faktorstufenkombination. Äuÿerlich unterscheiden sich diese nur durch das
Copyright
(7), durch das angezeigt wird, welche Erwartungshaltung im aktuellen Fall manipuliert
64
Abbildung 5.2.: Die Benutzeroberäche des Anwendungsprogramms
wurde. Darüber hinaus unterscheiden sie sich jedoch auch in der Qualität der angezeigten Ergebnislisten. Die beiden Programme für die Untersuchungsbedingungen mit der
besseren Systemleistung (S1,2 u.
den (S1,1 u.
S2,2 ) enthalten Treerlisten mit hoher, die anderen bei-
S2,1 ) mit niedriger Average Precision (vgl. Abschn. 5.2.3). Die vier Versionen
des Programms sowie der Quellcode liegen dieser Arbeit auf CD bei.
Nachdem die Teilnehmerinnen die vorgegebenen Suchbegrie in das
Suchfeld
(7) ein-
Suche (8) geklickt haben, wird die dem Informationsbedürfnis entErgebnisliste (9) angezeigt. Dabei verhält sich das Anwendungsprogramm
gegeben und auf
sprechende
tolerant gegenüber der Reihenfolge der vorgegebenen Suchbegrie. Um Rechtschreibfehler abzufangen, werden auch Eingaben akzeptiert, die bis zu einer Levenshtein-Distanz
von sieben mit den vorgegebenen Suchbegrien übereinstimmen. Dabei beschreibt die
Levenshtein-Distanz
zweier Wörter die minimale Anzahl der Löschungen, Einfügungen
und Ersetzungen einzelner Buchstaben, die vorgenommen werden müssen, um die eine Buchstabenfolge in die andere zu überführen (vgl. Navarro 2001: 37). Stimmt in
diesem Toleranzbereich keine der Suchanfragen mit der Eingabe überein, wird die Fehlermeldung, dass eine ungültige Suchanfrage verwendet wurde, ausgegeben. Die Fehlermeldung, dass kein Suchbegri eingegeben wurde, erscheint, falls der Suchbutton mit
leerem Eingabefeld betätigt wird. Diese Maÿnahmen dienen dazu, die Illusion eines
65
realen Suchsystems auch bei Fehlbedienungen aufrecht zu erhalten.
In der Ergebnisliste wird für jeden
Treer
(10) neben dem Titel auch der erste Satz
des entsprechenden Presseartikels sowie die Quelle präsentiert. Die Entscheidung den
Textanfang als Kurzbeschreibung (engl.:
snippet ) für die Dokumente zu wählen beruht
auf den guten Ergebnissen der Testbenutzer bei dieser Form der Ergebnispräsentation,
die in der in Abschnitt 4.3 vorgestellten Studie von Kaczmirek beobachtet wurden.
Anklicken der Treer (11) lassen sich die vollständigen Presseartikel in einem
neuen Fenster (12) önen. Bevor die Teilnehmerinnen dieses Volltext-Fenster schlossen
(13), sollten sie den entsprechenden Artikel bewerten (14). Wie bei den derzeit bekannten
Durch
Suchmaschinen, sind die Treerlisten auch hier über mehrere Seiten verteilt. Pro Seite
werden zehn Treer angezeigt. Damit die Testpersonen nicht gleich erkennen konnten,
wieviele Treer pro Suchanfrage angezeigt werden, wurde bei der
Seitenauswahl
(15)
nicht von Anfang an angegeben, wieviele Seiten die Treerliste beinhaltete.
5.2.3. Erstellung der Ergebnislisten
In diesem Abschnitt wird das Vorgehen zur Erstellung der Ergebnislisten beziehungsweise zur Manipulation der Systemleistung erläutert. Wie in Abschnitt 5.2.1 beschrieben,
handelt es sich bei den verwendeten Dokumenten um Presseartikel aus verschiedenen
Nachrichtenquellen. Dabei ähneln sich die Dokumente und Topics von CLEF in Struktur
und Aufbau sehr, so dass an dieser Stelle auf die Darstellung eines Beispieldokuments
verzichtet wird.
Tabelle 5.3.: Aufteilung der verfügbaren Dokumente auf die beiden Systemlevels
Atomtransporte Erneuerbare Kinderarbeit
Aufteilung in Deutschland
Energien
in Asien
Verfügbare relevant
57
60
50
Dokumente irrelevant
48
50
42
Gesamt
105
110
92
Systemlevel relevant
50%
48
50
42
niedrig (B1 ) irrelevant
50%
48
50
42
AP= 0, 55
Gesamt
96
100
84
Systemlevel relevant
60%
57
60
50
hoch (B2 )
irrelevant
40%
39
40
34
AP= 0, 75
Gesamt
96
100
84
Als Grundlage dienten die Dokumente der CLEF-2001- und der CLEF-2003-Testkollektion (vgl. Abschn. 5.2.1). Zur Realisierung der beiden Systemlevels wurden zum einen
die Precision-Werte und zum anderen die Average Precision der Ergebnislisten variiert.
66
Eingabe :
L Länge der Ergebnisliste
R Zahl der enthaltenen relevanten Dokumente
I Zahl der enthaltenen irrelevanten Dokumente
W Gewünschte Average Precision
E= (e1 , ..., eL ) Liste mit L Einträgen die I Nullen und R Einsen enthält , dabei
markieren Nullen Positionen irrelevanter , Einsen relevanter Dokumente
Z Liste der Länge L in der das Ergebnis gespeichert wird
Definition :
AP (E) berechnet die Average Precision der Liste E
Schritt
Schritt
Schritt
Schritt
Setze Z =L
Setze k =0
While | AP (E) - W | > 0.005 and k < 1000 do
If ( AP (E) < W) then
Wähle zufällig ein ei =0 und ein ej =1 ,
so , dass 1 ≤ i ≤ j ≤ L
Else
Wähle zufällig ein ei =1 und ein ej =0 ,
so , dass 1 ≤ i ≤ j ≤ L
Vertausche ei und ej in der Liste E
If |W - AP ( E)| < |W - AP (Z) | then
Setze Z=E
Setze k=k +1
Gehe zu Schritt 3
1:
2:
3:
3.1:
Schritt 3.2:
Schritt 3.3:
Schritt 3.4:
Schritt 3.5:
Ausgabe :
Beste gefundene Liste : Z
Abbildung 5.2: Algorithmus zur Erstellung der Ergebnislisten
(Quelle: In Anlehnung an
Turpin/Scholer 2006: 14)
Ergebnislisten für den niedrigen Systemlevel (B1 ) sind durch einen Precision-Wert von
0, 5 und eine Average Precision von 0, 55 gekennzeichnet, für den hohen Systemlevel
(B2 ) wurde ein Precision-Wert von 0, 6 und eine Average Precision von 0, 75 gewählt.
Eine Übersicht über die Anzahl der verfügbaren Dokumente für die einzelnen Aufgaben
und ihre Aufteilung auf die beiden Systemlevels ist in Tabelle 5.3 angegeben.
Zur Erstellung der Ergebnislisten mit einer vorgegebenen Average Precision wurde ein
von Turpin und Scholer veröentlichter Algorithmus verwendet (vgl. Turpin/Scholer
2006: 14). Seine genaue Arbeitsweise ist in Abbildung 5.2 mit Hilfe von Pseudocode
5
dargestellt. Als Eingabe erhält der Algorithmus eine Liste (E) mit einer Anzahl an
Einträgen (L), die der Länge der gewünschten Ergebnisliste entspricht. Ihre Einträge
bestehen aus Nullen und Einsen, die an ihrer jeweiligen Position irrelevante (0) und
relevante Dokumente (1) repräsentieren. Es wird nun die vorgegebene Average Precision (W) mit der tatsächlichen Average Precision der Liste (AP(E)) verglichen. Ist die
Average Precision der Liste zu groÿ, wird ein relevantes Dokument mit einem dahinter
liegenden irrelevanten Dokument vertauscht, um den Wert zu vermindern (Schritte 3.1
u. 3.2). Ist umgekehrt die Average Precision der Liste zu klein, vertauscht man ein ir-
5 Dabei handelt es sich um eine Beschreibungsform für Algorithmen ohne den direkten Rückgri auf
eine spezielle Programmiersprache (vgl. Saake/Sattler 2004: 21). Die Pseudocode-Notation erleichtert das intuitive Verständnis für die Arbeitsweise eines Algorithmus (vgl. ebd.).
67
relevantes mit einem in der Liste dahinter liegenden relevanten Dokument, um so den
Wert zu erhöhen. Anschlieÿend wird die Average Precision dieser neuen Liste mit dem
Average-Precision-Wert der besten bis dahin erzeugten Liste (Z) verglichen, beim ersten Durchlauf wäre dies die Liste vor dem Vertauschen der zwei Dokumente. Ist der
Unterschied der Average Precision der neuen Liste zur vorgegebenen Average Precision
kleiner als der der alten Liste, wird die neue gespeichert, ansonsten nicht (Schritt 3.3).
Danach wird die gesamte Prozedur wiederholt, bis entweder die erzeugte Liste nah genug
an der gewünschten Average Precision liegt oder nach
1000
Versuchen das Programm
abgebrochen wird.
Die Ausgabe des Algorithmus besteht aus einer Liste von Nullen und Einsen, die
angeben, an welchen Positionen einer Ergebnisliste irrelevante und relevante Dokumente
platziert werden müssen, um die gewünschte Average Precision zu erreichen. Zu beachten
ist, dass die Verteilung irrelevanter und relevanter Dokumente auch bei gleicher Average
Precision sehr unterschiedlich ausfallen kann. So ist es möglich, dass bei einem niedrigen
vorgegebenen Average-Precision-Wert mehr relevante Dokumente auf den ersten zehn
Listenplätzen stehen als bei einem hohen Wert. Um dadurch nicht die Manipulation
der Systemleistung zu gefährden, wurden die Ergebnislisten so gewählt, dass bei dem
niedrigen Systemlevel in den ersten fünf Listenplätzen drei, bei dem hohen hingegen nur
ein irrelevantes Dokument enthalten war. Die in der Untersuchung verwendeten Listen
können in Anhang B eingesehen werden.
Im nächsten Schritt wurden die relevanten und irrelevanten Dokumente aus der Testkollektion diesen Vorgaben entsprechend zufällig auf die einzelnen Listenplätze verteilt.
Auf diese Weise wurde für alle drei Aufgaben jeweils eine Liste für den niedrigen und eine für den hohen Systemlevel, insgesamt also sechs verschiedene Ergebnislisten, erzeugt.
Die verwendeten Java-Programme liegen der Arbeit auf CD bei.
5.2.4. Erhebungsverfahren der Hauptuntersuchung
Dieser Abschnitt beschreibt, welche Verfahren zur Erfassung der abhängigen Variablen
Benutzerzufriedenheit und Benutzerleistung herangezogen wurden. Es kamen in dieser
empirischen Untersuchung sowohl subjektive als auch objektive Erhebungsmethoden
zum Einsatz (vgl. Abschn. 2.4). Während die Erhebung der Zufriedenheit über die subjektive Erhebungsmethode des Fragebogens erfolgte, wurde die Leistung der Benutzer
ausschlieÿlich über objektive Methoden erfasst.
68
Erhebung der Benutzerzufriedenheit
Wie bereits in den Abschnitten 2.1.2 und 3.2.2 besprochen, werden subjektive Erfahrungen und Meinungen von Benutzern in Bezug auf eine zu evaluierende Anwendung
üblicherweise durch Fragebögen erfasst. Auch in der vorliegenden Untersuchung wurde
die Einstellung der Testpersonen gegenüber den Ergebnislisten mit einem Fragebogen
erhoben.
Bortz und Döring empfehlen, im Vorfeld der Fragebogenkonstruktion zu überprüfen, ob es möglich ist, für die eigene Untersuchung auf bereits entwickelte Fragebögen
zurückzugreifen (vgl. Bortz/Döring 1995: 231 f ). Kirchho et al. nennen diesbezüglich folgende Vorteile: Die Übernahme von häuger angwandten Fragen macht übrigens
nicht nur aus Gründen der Fehlervermeidung, Arbeits- und Zeitersparnis Sinn. Sie erönet überhaupt erst Vergleichsmöglichkeiten mit anderen Studien. (Kirchhoff et al.
2003: 19) Als Vorlagen für die Auswahl der Fragen dienten die von Kaczmirek verwendeten Fragebogenitems (vgl. Kaczmirek 2003: 126 ) sowie der Fragenkatalog einer Nutzerbefragung zur Evaluierung des Wissenschaftsportals
Vascoda 6
(vgl. Gediga et al.
2005: 86 ). Der vollständige in der Untersuchung eingesetzte Fragebogen ist in Anhang
A.5 zu nden.
Zunächst soll kurz der inhaltliche Aufbau des Fragebogens beschrieben werden. Am
Anfang steht ein kurzer Einleitungstext sowie eine Anleitung zum Ausfüllen des Fragenkatalogs. Um eine logische Reihenfolge der Fragen zu gewährleisten, untergliedert sich
der Fragebogen in die folgenden vier Themenschwerpunkte: Erfahrungen im Umgang
mit dem Anwendungsprogramm (Teil A), Beurteilung der Qualität der Ergebnislisten
(Teil B), Gesamtbeurteilung in Bezug auf den Einsatz in der Hildesheimer Universitätsbibliothek (Teil C), demographische Daten (Teil D) und oene Fragen für Anmerkungen
und Kommentare (Teil E). Insgesamt besteht dieser Fragebogen aus
28
Frageitems. Im
Weiteren werden einige zentrale Aspekte, die bei der Konstruktion der Fragen berücksichtigt wurden, herausgegrien und erläutert.
Im Hinblick auf die Ausgestaltung der einzelnen Fragebogenitems merken Bortz und
Döring an, dass Meinungs- oder Einstellungsfragen am besten als Behauptungen auszudrücken sind (vgl. Bortz/Döring 1995: 233). Sie begründen dies mit dem Argument,
dass diese im Gegensatz zu Fragen direkter formuliert werden können und dementsprechend die Befragten zu eindeutigeren Stellungnahmen veranlassen (vgl. ebd.). Dieser
Empfehlung folgend sind die meisten Frageitems als Behauptungen realisiert. Dabei
6 Bei Vascoda handelt es sich um ein Internetportal, das den Zugri auf wissenschaftliche Literatur
aus verschiedenen Fachgebieten ermöglicht. (Link zur Homepage: http://www.vascoda.de/)
69
wurde zwischen persönlichen Formulierungen in der ersten Person wie zum Beispiel
Ich
bin mit der Qualität der Suchergebnisse zufrieden. (Item 8) und unpersönlichen Formulierungen wie Die meisten Artikel waren für die dazugehörigen Suchanfragen relevant.
(Item
10) variiert. Dies diente dazu, die Gleichförmigkeit der Fragen etwas aufzulockern,
um so dem Aufkommen von Langeweile bei den Testteilnehmerinnen entgegenzuwirken.
Aus dem gleichen Grund enthält der Fragebogen sowohl positiv als auch negativ formulierte Frageitems. So handelt es sich bei der Behauptung
zu umfangreich.
(Item
12)
Die Ergebnislisten waren
im Gegensatz zu den bisherigen Beispielen um ein negativ
formuliertes Item.
Auf der Grundlage der in Abschnitt 3.2.2 vorgestellten Richtlinien el bei der Konstruktion der geschlossenen Fragen die Entscheidung auf eine siebenstuge Antwortskala, von
1=
trit vollkommen zu bis
7=
trit überhaupt nicht zu. Es handelt sich
also um eine Mischform aus verbaler und numerischer Skala. Auf diese Weise standen
den Befragten je drei Abstufungen hinsichtlich Zustimmung und Ablehnung sowie eine
neutrale mittlere Antwortkategorie zur Verfügung.
Neben der direkten Erfassung der Zufriedenheit der Probandinnen mit dem präsentierten Information-Retrieval-System, wie in Item
8,
kamen auch indirekte Frageitems
Würdest Du den Einsatz von Periodikum als Suchmaschine für Fachzeitschriften in der Hildesheimer Universitätsbibliothek
empfehlen? (Item 16). Sie dient dazu, die Zufriedenheit der Teilnehmerinnen auf indizum Einsatz. Dazu zählt zum Beispiel die Frage
rektem Weg zu messen. Dahinter stand der Gedanke, dass eine derartige Formulierung
möglicherweise Bewertungen aktiviert, die durch eine Frage wie Item
werden können. Item
8
nicht ausgelöst
7, Ich würde Periodikum jederzeit wieder als Suchmaschine ver-
wenden., ist ein weiteres Beispiel für solch eine indirekte Zufriedenheitserhebung. Auch
wurden die Teilnehmerinnen auf der letzten Seite des Fragebogens auf einen zweiten
Benutzertest hingewiesen, bei dem angeblich eine andere Suchmaschine getestet werden
sollte. Diese Wahlmöglichkeit wird im weiteren Verlauf dieser Arbeit als Item
29 bezeich-
net. Bei Interesse konnten die Versuchspersonen sich im Anschluss an den Benutzertest
mit ihrer E-Mail-Adresse in eine Teilnehmerliste eintragen. Auch hierbei handelte es sich
in Wirklichkeit um ein zusätzliches indirektes Frageitem zur Feststellung der Zufriedenheit. Damit die Anzahl der bereits auf der Liste bendlichen Personen keinen störenden
Einuss auf die Entscheidung der Testpersonen haben konnte, bekam jede Probandin
eine neue, leere Seite präsentiert. Auch wurde darauf hingewiesen, dass dieser zweite
Benutzertest im Rahmen einer anderen Magisterarbeit durchgeführt werde. Damit sollte wie im Fall der Manipulation der niedrigen Erwartungshaltung verhindert werden,
dass die Probandinnen sich zu einer Zusage gedrängt fühlten (vgl. Abschn. 5.2).
70
Die Entscheidung, demographische sowie weitere persönliche Merkmale der Untersuchungsteilnehmerinnen im vorletzten Teil des Fragebogens anstatt am Anfang zu erheben, wurde von Kirchho et al. übernommen. Dort wird diese Reihenfolge vorgezogen,
da solche Fragen [. . . ] zwar leicht zu beantworten sind, aber teilweise ungern beantwortet werden. (Kirchhoff et al. 2003: 23)
Die oenen Fragen für Anmerkungen und weitere Kommentare am Schluss des Fragebogens (Item
26 u. 27) gehören laut Kirchho et al. zum guten Ton (vgl. ebd.). Hier wird
den Befragten die Möglichkeit geboten, Aspekte anzusprechen, die ihrer Meinung nach
nicht durch das vorgegebene Antwortspektrum berücksichtigt werden. Gegebenenfalls
bekommt man auf diese Weise zusätzliche Hinweise darauf, ob und welche Erwartungen
seitens der Testbenutzer enttäuscht wurden.
Der Vollständigkeit halber sei an dieser Stelle darauf hingewiesen, dass etwa ein Drittel
Hast Du
im Internet nach der Suchmaschine Periodikum gesucht, nachdem Du die Einladung
zu diesem Benutzertest bekommen hast? (Item 28) Erforderlich war diese Maÿnahme,
der Untersuchungsteilnehmerinnen zusätzlich folgende Frage gestellt bekamen:
weil im Anschreiben an diese Personengruppe der Name der angeblichen Suchmaschine
erwähnt wurde. Auf diesem Weg sollte eine Beeinussung der Untersuchungsergebnisse
durch eine im Vorfeld fehlgeschlagen Suche nach der nicht existierenden Suchmaschine
ausgeschlossen werden. Für die weiteren Anschreiben wurde diese Passage geändert.
Erhebung der Benutzerleistung
In diesem Abschnitt wird beschrieben, welche Performanzmessungen zur Erhebung der
Benutzerleistung zum Einsatz kamen. Anschlieÿend wird kurz darauf eingegangen, welche Erhebungstechniken diesbezüglich Verwendung fanden.
Die Leistung der Benutzer wurde in der vorliegenden Untersuchung mit fünf Leistungsmaÿen erfasst. Diese lassen sich in recall- und precision-orientierte Maÿe unterteilen. In Anlehnung an die in Abschnitt 4.1 wiedergegebene Studie von Turpin und
Scholer entspricht das erste Leistungskriterium, im Folgenden Dok@10 genannt, der
Anzahl der korrekt relevanten Dokumente, die die Untersuchungsteilnehmerinnen innerhalb der vorgegebenen Bearbeitungszeit gefunden haben (vgl. Turpin/Scholer
2006: 16). Als korrekt relevant werden im Folgenden Dokumente bezeichnet, die die
Versuchsperson in Übereinstimmung mit den CLEF-Juroren als relevant bewertet hat.
Das zweite recall-orientierte Leistungskriterium, im Weiteren als Benutzer-Recall (BR)
bezeichnet, wurde von der Bildretrieval-Studie von Al-Maskari et al. übernommen (vgl.
Abschn. 4.2). Danach ergibt sich der Benutzer-Recall aus der Anzahl der von den Teil-
71
nehmerinnen gefundenen korrekt relevanten Dokumente geteilt durch die Gesamtzahl
aller relevanten Treer in der Ergebnisliste (vgl. Al-Maskari et al. 2006: 2 f ).
Die übrigen Kriterien messen die Benutzerleistung an der Genauigkeit der Suchergebnisse. Wie bei Turpin und Scholer wurde auch in der vorliegenden Untersuchung die
Zeit gemessen, die die Teilnehmerinnen benötigten, um das erste korrekt relevante Dokument zu nden, im Weiteren als
t1.Dok
bezeichnet (vgl. Turpin/Scholer 2006: 15).
Das zweite precision-orientierte Maÿ wurde wiederum von Al-Maskari et al. übernommen und wird im Folgenden als Benutzer-Precision (BP) bezeichnet. Es ergibt sich aus
der Anzahl der korrekt relevanten Dokumente geteilt durch die Gesamtzahl aller von
den Teilnehmerinnen als relevant bewerteten Dokumente (vgl. Al-Maskari et al.
2006: 2 f ).
Als weiteres Genauigkeitsmaÿ wurde in Anlehnung an die von Resnick und Lergier
eingeführte pre-click condence (vgl. Abschn. 4.3) eine Pre-Click-Precision (PCP) erhoben. Zur Berechnung dieser Precision-Variante wird die Anzahl der korrekt relevanten
Dokumente durch die Gesamtzahl der von den Teilnehmerinnen als möglicherweise relevant ausgewählten Treer geteilt. Bei diesem Eektivitätsmaÿ wird also der erste Eindruck der Testpersonen erfasst, indem alle Dokumente, die im Volltext-Fenster geönet
wurden, in die Berechnung der Benutzerleistung einbezogen werden.
Tabelle 5.4.: Verwendete Performanzmaÿe zur Bestimmung der Benutzerleistung
Recall-orientiert
Precision-orientiert
Maÿ
Formel
a
Dok@10
BR
t1.Dok
BP
PCP
M4
M4
M1
ta
M4
M3
M4
M2
Zeit bis zum ersten korrekt relevanten Dokument
Zur einfacheren Darstellung der Berechnungsweise der fünf Leistungsmaÿe ist es zweckmäÿig, wie in Abschnitt 2.3 vorzugehen und verschiedene Dokumentenmengen zu denieren. Dazu sei
M1
die Menge der von CLEF als relevant bewerteten Dokumente,
die in der Ergebnisliste enthalten sind und
M2
die Menge der von einer Versuchsperson
aufgerufenen Dokumente. In letzterer lassen sich noch die Menge der als relevant bewerteten Dokumente
M3
und die Menge der in Übereinstimmung mit CLEF als relevant
bewerteten Dokumente
M4
identizieren.
Die mit Hilfe der soeben denierten Dokumentenmengen ausgedrückten Berechnungsvorschriften sind für alle fünf Leistungsmaÿe in Tabelle 5.4 zusammengefasst. Dabei wird
die Bezeichnung
M
im Weiteren synonym für die Menge selbst und für die Anzahl der
in ihr enthaltenen Dokumente verwendet.
72
< AUFGABE ID ="1" >
< TESTPERSON ID ="1" />
< UNTERSUCHUNGSBEDINGUNGEN >
< ERWARTUNGSHALTUNG > niedrig </ ERWARTUNGSHALTUNG >
< SYSTEMLEVEL >0 ,549648 </ SYSTEMLEVEL >
< SUCHBEGRIFFE > Erneuerbare Energien </ SUCHBEGRIFFE >
</ UNTERSUCHUNGSBEDINGUNGEN >
< SUCHANFRAGE DURCHGEFÜHRT =" true " >" erneuerbare Energien " </ SUCHANFRAGE >
<DOK >
< DOKNR > FR940717 -002224 </ DOKNR >
< TITEL > Käthe - Kollwitz - Schule </ TITEL >
< AUFGERUFEN > true </ AUFGERUFEN >
< RELEVANZBEWERTUNG > irrelevant </ RELEVANZBEWERTUNG >
< GEÖFFNET >
< AUFRUFZEIT Nr .=" 1 " >20.03.2008 09.38.29 </ AUFRUFZEIT >
</ GEÖFFNET >
< GESCHLOSSEN >
< SCHLIEÿZEIT Nr .=" 1 " >20.03.2008 09.39.01 </ SCHLIEÿZEIT >
</ GESCHLOSSEN >
< CLEFBEWERTUNG > relevant </ CLEFBEWERTUNG >
</ DOK >
...
</ AUFGABE >
Abbildung 5.3: Beispiel-Logdatei
Die zur Umsetzung der soeben vorgestellten Performanzmessungen erforderlichen Daten, wie die Relevanzbewertungen der Benutzer und die Bearbeitungszeiten der Dokumente, wurden mittels der durch das Anwendungsprogramm erstellten Logdatei sowie
der Usability-Test-Software Morae ermittelt.
Wie in Abschnitt 2.4.1 erläutert, dienen Logdateien dazu, bestimmte Benutzereingaben automatisch erfassen zu können. Im Rahmen der vorliegenden Untersuchung wurden
für jede Testperson drei Logdateien erstellt, eine Datei pro Suchaufgabe. Abbildung 5.3
zeigt einen Ausschnitt einer dieser Logdateien. Sie enthält neben der ID der Suchaufgabe (1
=
Energieaufgabe,
2=
Atomaufgabe,
3=
Asienaufgabe) und der vergebenen
Test-ID, im Beispiel 1, zunächst die zugrundeliegenden Untersuchungsbedingungen. Im
dargestellten Beispiel handelt es sich um eine niedrige Erwartungshaltung bei niedrigem Systemlevel (Average Precision=
0, 549648),
also Stichprobe
S1,1 .
Zusammen mit
den Untersuchungsbedingungen werden auÿerdem die zu verwendenden Suchbegrie
angezeigt. Als nächstes wird die tatsächlich getätigte Eingabe protokolliert. In dem angegebenen Beispiel hat die Testperson die Suchbegrie unter Verwendung von Anführungszeichen eingegeben, was jedoch im Toleranzbereich des Anwendungsprogramms
liegt (vgl. Abschn. 5.2.2). Darauf folgen alle in der Ergebnisliste enthaltenen Dokumente, deren Identikationsnummer (FR940717-002224) und Titel (Käthe-Kollwitz-Schule)
vermerkt sind. Weiterhin wird protokolliert, ob das entsprechende Dokument von der
Testpersonen im Volltext-Fenster aufgerufen und wie die Relevanz bewertet wurde. Im
73
vorliegenden Beispiel wurde das Dokument aufgerufen (true) und als irrelevant gekennzeichnet. Des Weiteren werden für jeden ausgewählten Treer die Aufruf- und Schlieÿzeiten protokolliert. Das letzte Tag gibt die Relevanzbewertung der CLEF-Juroren an.
In der angegebenen Logdatei stimmt die Relevanzbewertung der Testperson also nicht
mit der Relevanzbewertung der Juroren überein.
Die Testsoftware Morae der Softwarerma TechSmith
7
ermöglicht die Aufzeichnung
des Verhaltens der Testbenutzer auf mehreren Kanälen. Neben einer Aufzeichnung der
Bildschirminhalte können mit Hilfe dieser Software auch Audio- und Videosignale aufgenommen werden. Für den im Rahmen dieser Arbeit durchgeführten Benutzertest wurde
jedoch auf die Möglichkeit der Videoaufzeichnung verzichtet. Damit sollte eine zusätzliche Erhöhung der ohnehin vorhandenen Künstlichkeit der Testsituation vermieden
werden. Die Vorstellung während des Tests gelmt zu werden, könnte bei einigen Testpersonen den Eindruck verstärken, dass sie bei der Bearbeitung der Aufgaben beobachtet
werden und infolgedessen natürliches Verhalten unterdrücken.
Der Vorteil von Morae besteht in der integrierten Bewertungskomponente, dem so-
Manager. Dieser Programmteil gestattet es, das mediale Datenmaterial synchron abzuspielen und wichtige Momente mittels sogenannter Marker zu kennzeichnen.
genannten
Auf diese Weise konnten die exakten Anfangs- und Endzeiten für die einzelnen Suchaufgaben nachvollzogen werden. Dadurch, dass das Anwendungsprogramm während der
gesamten Dauer einer Sitzung nicht geschlossen werden sollte, konnten diese Daten nämlich nicht ohne Weiteres in der Logdatei protokolliert werden. Auch wurde der exakte
Zeitpunkt der Relevanzbewertung des ersten korrekt relevanten Dokuments im Nachhinein mit Hilfe des Managers ermittelt.
5.3. Ergebnisse der qualitativen Voruntersuchung
Im Rahmen einer Voruntersuchung wurde das für die empirische Untersuchung geplante
Vorgehen noch einmal überprüft. Zum einen sollten potentielle Schwierigkeiten bei der
Bedienung der graphischen Benutzeroberäche des Anwendungsprogramms aufgedeckt,
zum anderen die Verständlichkeit der Informations- und Instruktionstexte sowie des
Fragebogens getestet werden. Insgesamt fanden vier Vortests mit vier verschiedenen
Teilnehmerinnen statt, so dass alle vier Versuchsbedingungen überprüft werden konnten.
Um herauszunden, an welchen Stellen des Versuchsablaufs noch Unklarheiten bestanden, wurden die vier Teilnehmerinnen der Voruntersuchung gebeten, während der
7 Link zum Hersteller: http://www.techsmith.de/
74
5.3. Ergebnisse der qualitativen Voruntersuchung
Bearbeitung der Suchaufgaben laut zu denken. Wie in Abschnitt 2.1.2 bereits erläutert,
ermöglicht dieses Verfahren Einblicke in die im Zuge der Aufgabenbearbeitung stattndenden Denkprozesse der Versuchspersonen. Zusätzlich zu diesem Verfahren wurden die
Probandinnen während ihrer Interaktion mit dem Anwendungsprogramm beobachtet
und Schwierigkeiten bei der Bedienung sowie sonstige Auälligkeiten protokolliert.
Die aus der Voruntersuchung resultierenden Umgestaltungen im Untersuchungsdesign lassen sich in drei Kategorien untergliedern: textuelle, graphische und inhaltliche
Veränderungen.
Auf textueller Ebene hat die Voruntersuchung dazu beigetragen, dass einzelne Formulierungen der Informations- und Instruktionstexte noch präzisiert werden konnten. So
haben beispielsweise alle Testpersonen nachgefragt, ob sie die aufgerufenen Dokumente
tatsächlich nach ihrer Relevanz bewerten sollen. An dieser Stelle wurde die Aufgabenbeschreibung dementsprechend eindeutiger formuliert. Eine weitere Unsicherheit resultierte aus der mangelnden Aktualität der dargebotenen Presseartikel. Für die Hauptuntersuchung wurde deshalb das Erscheinungsdatum aus den Ergebnislisten entfernt. Da
jedoch auch das Fehlen jeglicher Datumsangaben zu Irritationen hätte führen können,
blieb das Erscheinungsdatum in der Volltextdarstellung bestehen. Zusätzlich wurde die
Aufgabenbeschreibung um den Hinweis erweitert, dass aus Demonstrationszwecken nur
Presseartikel der Jahre
1994
und
1995
in der Datenbank enthalten seien.
In graphischer Hinsicht wurde die Benutzeroberäche aufgrund der Erfahrungen aus
der Voruntersuchung an einigen Stellen umgestaltet. Zum Beispiel war den Teilnehmerinnen der Voruntersuchung die Schriftgröÿe der Ergebnislisten und Volltextdarstellungen teilweise zu klein. Auÿerdem ist aufgefallen, dass die Scrollgeschwindigkeit zu
niedrig eingestellt war, so dass es für die Teilnehmerinnen recht mühsam war, die Ergebnislisten durchzusehen. Da das abschlieÿende Zufriedenheitsurteil der Testbenutzer
möglichst wenig durch äuÿere Umstände des Anwendungsprogramms beeinusst werden
sollte, wurden diese Punkte für die Hauptuntersuchung korrigiert. Weiterhin wurden die
einzelnen Ergebnislisten auf mehrere Seiten verteilt. Zusätzlich wurde am Anfang und
am Ende jeder Seite eine Anzeige zur Seitenauswahl hinzugefügt. Diese Änderungen
erschienen sinnvoll, nachdem die Ergebnislisten im Fragebogen übereinstimmend als zu
umfangreich beschrieben wurden. Auch diese Maÿnahmen sollten dazu beitragen, dass
die Ergebnisse der Hauptuntersuchung nicht durch äuÿere Umstände des Anwendungsprogramms beeinusst werden.
Auf der inhaltlichen Ebene wurden im Wesentlichen zwei Änderungen vorgenommen.
Diese betrafen zum einen die Idee des frei gewählten Abbruchzeitpunkts und zum anderen die Manipulation der Ergebnislisten. Ursprünglich bestand die Idee, die Testpersonen
75
den Abbruchzeitpunkt selbst bestimmen zu lassen. Die Erfahrungen aus der Voruntersuchung haben jedoch zu der Einsicht geführt, dass diese Freiheit die Testpersonen eher
verunsicherte. Aus diesem Grund wurde für die Hauptuntersuchung entschieden, einen
maximalen Zeitrahmen von zehn Minuten pro Aufgabe vorzugeben. Gleichzeitig blieb
für die Teilnehmerinnen aber die Möglichkeit bestehen, die Recherche schon vorher zu
beenden. Aufgrund der Tatsache, dass in der Voruntersuchung alle Teilnehmerinnen
bemängelten, dass die Ergebnislisten nicht gut genug geltert gewesen seien, erfolgte
für die Hauptuntersuchung eine Erhöhung der Precision bei den besseren Ergebnislisten
(vgl. Abschn. 5.2.3). Während in der Voruntersuchung die Precision für alle Ergebnislisten bei
0, 5
lag, wurde dieser Werte für den höheren Systemlevel auf
Die Average Precision von
0, 55
blieb hingegen unverändert.
76
für den niedrigen und
0, 75
0, 6
angehoben.
für den hohen Systemlevel
6. Darstellung und Auswertung der
Untersuchungsergebnisse
Dieses Kapitel behandelt die Analyse der in der Hauptuntersuchung erhobenen Daten.
Dazu wird in Abschnitt 6.1 zunächst die Zusammensetzung der Stichprobe in Bezug auf
demograpische Merkmale sowie Internet- und Computererfahrung untersucht. Um die
Übersichtlichkeit der Darstellung der Untersuchungsergebnisse zu erhöhen, werden die
eingesetzten statistischen Verfahren im Vorfeld in Abschnitt 6.2 erläutert. In Abschnitt
6.3 werden schlieÿlich die Ergebnisse der vorliegenden Untersuchung präsentiert und
interpretiert.
6.1. Zusammensetzung und Beschreibung der
Stichprobe
Die Basis für die empirische Untersuchung bildet eine Stichprobe von
Testpersonen im Alter von
17
bis
32
89
weiblichen
1
Jahren . Wie bereits in Abschnitt 5.1.2 erläutert,
wurden männliche Teilnehmer von dieser Untersuchung ausgeschlossen, um zusätzliche
personengebundene Störeekte schon im Vorfeld durch Konstanthalten zu kontrollie-
2
ren. Das Medianalter
der Teilnehmerinnen betrug 24 Jahre. Hinsichtlich der derzeiti-
gen Tätigkeit der Testpersonen erfolgte eine Einteilung in die Kategorien Schülerinnen,
Auszubildende, Studentinnen, Berufstätige und Sonstige. Es ergibt sich ein prozentualer Anteil von knapp
80%
Studentinnen gegenüber Probandinnen anderer Tätigkeiten.
13, 5% der Testpersonen sind nichtdeutscher
von 12 Probandinnen entspricht.
Muttersprache, was einer Teilnehmerzahl
Alle Testpersonen gaben an, im Rahmen ihrer Tätigkeit einen Computer zu verwenden.
78
Teilnehmerinnen haben in der Woche vor dem Benutzertest an fünf bis sieben
1 Da zu Beginn der Hauptuntersuchung noch nicht abzusehen war, ob die erforderliche Stichprobengröÿe von
80
Personen erreicht werden würde, wurden zunächst auch Testpersonen zugelassen, die
etwas jünger oder älter als 18 beziehungsweise 30 Jahre waren.
2 Der Median teilt eine Verteilung [. . . ] in zwei gleich groÿe Hälften. (Bortz/Döring 1995: 620)
77
Tabelle 6.1.: Beschreibung der Stichprobe I: Statistische Kennzahlen
Merkmal
Mina Maxb
Alter
a
Mc
17
32
24
Computernutzung eine Woche vor Test in Tagen/Woche
3
7
7, 00
Computernutzung in Stunden/Woche
2
60
12,50
Internetnutzung in Stunden/Woche
1
50
8,00
Anzahl bekannter Suchmaschinen
1
7
2,00
Anzahl regelmäÿig verwendeter Suchmaschinen
1
5
1,00
minimaler Wert
b
maximaler Wert
c Median
Tagen in der Woche mit Computern gearbeitet. Die mediane Computernutzung beträgt
12, 5 Stunden in der Woche, die mediane Internetnutzung acht Stunden. Der gröÿte Teil
der Befragten kennt zwei unterschiedliche Suchmaschinen (46, 1%) und über die Hälfte
der Versuchspersonen verwendet eine Suchmaschine regelmäÿig (57, 3%). Weitere Einzelheiten in Bezug auf die Zusammensetzung der Stichprobe sind in den Tabellen 6.1
und 6.2 dargestellt.
Tabelle 6.2.: Beschreibung der Stichprobe II: Statistische Häugkeiten
bek.
verw.
Mutterspr. Ha % Tätigkeit
H %
H %
H
Suchm.
Suchm.
Bulgarisch
1
1,1
Schülerinnen
7
7,9
1
15
16,9
1
51
57,3
Dari
1
1,1
Auszubildende
2
2,2
2
41
46,1
2
23
25,8
77
86,5
70
78,7
3
14
15,7
3
11
12,4
Griechisch
1
1,1
Berufstätige
5
5,6
4
12
13,5
4
2
2,2
Kurdisch
1
1,1
Sonstige
5
5,6
5
3
3,4
5
2
2,2
Polnisch
1
1,1
6
2
2,2
Russisch
6
6,7
7
2
2,2
Spanisch
1
1,1
Deutsch
a
%
Studentinnen
Häugkeiten
6.2. Analyse - und Auswertungsverfahren
Wie in Abschnitt 5.1 erläutert, liegt der vorliegenden Untersuchung ein zweifaktorielles Design mit den beiden unabhängigen Variablen Erwartungshaltung und Systemgüte
zugrunde. Als statistische Testverfahren zur Untersuchung der Einüsse beider Variablen dienten neben der einfaktoriellen die zweifaktorielle Varianzanalyse sowie Kreuztabellen. Die statistische Auswertung der Daten erfolgte mit Hilfe der Statistik- und
78
3
Analyse-Software SPSS der gleichnamigen Herstellerrma . Da eine umfassende Erläuterung der mathematischen Hintergründe der verwendeten statistischen Analysemethoden an dieser Stelle zu weit führen würde, soll sich im Folgenden auf eine Darstellung
der zugrundeliegenden Prinzipien beschränkt werden.
Als erstes wird die Grundidee
4
der einfaktoriellen Varianzanalyse erläutert. Sie dient
dazu, den Einuss einer unabhängigen Variablen, auch Faktor genannt, auf eine abhängige Variable zu untersuchen (vgl. Abschn. 4.1). Dazu muss für jede Merkmalsausprägung
des Faktors, auch als Faktorstufe bezeichnet, eine Stichprobe mit den Werten einer abhängigen Variablen vorliegen. Eine einfaktorielle Varianzanalyse prüft nun mit Hilfe der
Gesamtvarianz der Stichproben, ob die unterschiedlichen Versuchsbedingungen signikante Unterschiede zwischen den Einzelstichproben bewirken. Dabei ist die Varianz
ein Maÿ für die Abweichung der Merkmale einer Stichprobe von deren Mittelwert (vgl.
Bortz 2005: 41). Die in der Stichprobe beobachtete Gesamtvarianz einer abhängigen
Variablen wird bei der einfaktoriellen Varianzanalyse in zwei Anteile zerlegt. Der erste
Anteil beinhaltet die Varianz der Messwerte zwischen den unterschiedlichen Versuchsbedingungen, der zweite die Varianz innerhalb der einzelnen Versuchsgruppen (vgl. Zöfel
2003: 131).
Unterscheiden sich diese beiden Varianzanteile signikant, so ist ein Einuss der Versuchsbedingungen auf die abhängige Variable nachgewiesen (Rudolf/Müller 2004: 83).
Dazu wird ein sogenannter F-Test durchgeführt, der die Nullhypothese überprüft, [. . . ]
dass die beiden zu vergleichenden Stichproben aus Grundgesamtheiten mit gleichen Varianzen stammen, d.h. dass mögliche Varianzunterschiede nur stichprobenbedingt bzw.
zufällig sind. (Bortz 2005: 148) Hier gehen neben dem Quotienten der beiden Varianzanteile (F ) auch deren jeweilige Freiheitsgrade (df ) ein. Dabei handelt es sich um
die Anzahl der unabhängig voneinander variierbaren Gröÿen, die einen statistischen
Kennwert wie beispielsweise die Varianz bestimmen (vgl. Bortz 2005: 789 f ).
Eine Erweiterung der Varianzanalyse besteht in der Einbeziehung sogenannter
wiederholgungsfaktoren.
Mess-
Diese Methode ist für ein Untersuchungsdesign angepasst, bei
dem [. . . ] die Probanden unter verschiedenen Bedingungen wiederholt untersucht werden. (vgl. Rudolf/Müller 2004: 97) Die interessierende Fragestellung ist in diesem
Fall, ob sich die Ergebnisse der Testpersonen in Bezug auf die einzelnen Testreihen unterscheiden (vgl. ebd.). Einfaktorielle Varianzanalysen mit und ohne Messwiederholung
3 Link zum Hersteller: http://www.spss.com/
4 Anzumerken ist, dass es sich bei den hier dargestellten Grundprinzipien der Varianzanalyse um die
klassische Methode nach Fisher handelt (vgl. Zöfel 2003: 216). Die verwendete Statistik-Software
SPSS verwendet eine etwas andere Implementation, die aber im Wesentlichen zu den gleichen Ergebnissen führt (vgl. ebd.).
79
dienten zur Überprüfung der Daten auf untersuchungsbedingte und personenbedingte
Einüsse. In die erste Gruppe fallen Aspekte wie Schwierigkeitsgrad und Reihenfolge
der Aufgaben, in die zweite solche wie Muttersprache und Alter der Testpersonen (vgl.
Abschn. 6.3.1 u. 6.3.4).
Auch bei der Kovarianzanalyse handelt es sich um eine Erweiterung des varianzanalytischen Modells. Sie ergänzt die Varianzanalyse um die Möglichkeit, neben den
Faktoren auch intervallskalierte (vgl. Abschn. 3.2.2) Einussgröÿen einzubeziehen (vgl.
Rudolf/Müller 2004: 93). Damit können zusätzliche Störgröÿen aus den Untersuchungsergebnissen eliminiert werden (vgl. Abschn. 5.1.2).
Um den Einuss zweier experimenteller Faktoren auf eine abhängige Variable zu
untersuchen, kann eine zweifaktorielle Varianzanalyse verwendet werden (vgl. Abschn.
5.1.1). Bei dieser Methode wird die Varianz der Messwerte zwischen den Versuchsbedingungen weiter untergliedert. Es ndet eine Zerlegung in eine durch Faktor
Faktor
B
A, eine durch
und eine durch die Wechselwirkung der beiden Faktoren verursachte Varianz
statt (Rudolf/Müller 2004: 90). Jede dieser Varianzen kann nun auf eine Abweichung von der Varianz innerhalb der einzelnen Versuchsgruppen überprüft werden. Ein
signikanter Unterschied impliziert hier wie im Fall der einfaktoriellen Varianzanalyse
einen Eekt des betrachteten Einusses (vgl. a.a.O.: 91). Die zweifaktorielle Varianzanalyse stellte das wichtigste Testverfahren zur Auswertung der Gruppeneekte dar,
weil neben dem Einuss der einzelnen manipulierten Faktoren auch potentielle Wechselwirkungseekte überprüft werden können. Aus diesem Grund kam sie sowohl bei
der Auswertung der Fragebogenitems zur Benutzerzufriedenheit (vgl. Abschn. 6.3.2) als
auch bei der Auswertung der erhobenen Maÿe zur Benutzerleistung (vgl. Abschn. 6.3.3)
zur Anwendung.
Grundsätzlich müssen für die Anwendung varianzanalytischer Auswertungsverfahren
zwei Voraussetzungen erfüllt sein: Normalverteilung innerhalb der Stichproben und Homogenität der Varianzen zwischen den Stichproben (vgl. Zöfel 2003: 208).
Eine Stichprobe wird als normalverteilt angesehen, wenn die Häugkeit der Werte
symmetrisch zu beiden Seiten des am meisten vorkommenden Werts abnimmt (vgl.
a.a.O.: 78 f ). Zur Überprüfung der Verteilungsform wurde der sogenannte
Kolmogorov-
Smirnov-Test durchgeführt. Dieser Test prüft, ob eine signikante Abweichung der Stich-
probenverteilung von der Normalverteilung vorliegt (vgl. a.a.O.: 113). Dabei darf die
gröÿte Abweichung der zu überprüfenden Werte von der Normalverteilung einen bestimmten von der Stichprobengröÿe abhängigen Grenzwert nicht überschreiten (vgl.
ebd.).
Die zweite Voraussetzung, die Varianzhomogenität, betrit die Streuung der Merk-
80
malswerte um die sich für die einzelnen Versuchsbedingungen ergebenden Mittelwerte.
Diese muss in den untersuchten Stichproben homogen, also gleich sein (vgl. a.a.O.:
208). Zur Überprüfung dieser Voraussetzung wurde der sogenannte
Levene-Test
her-
angezogen. Er beruht auf einer Varianzanalyse mit den ursprünglichen unabhängigen
Variablen, bei der jedoch die Werte der abhängigen Variablen transformiert werden (vgl.
a.a.O.: 135). Im Fall der einfaktoriellen Varianzanalyse mit Messwiederholung tritt an
Mauchly-Test.
die Stelle des Levene- der
Dieser überprüft neben der Homogenität der
Varianzen auch die Homogenität der Korrelationen zwischen den Versuchsbedingungen,
was zusammengefasst als
Sphärizität
bezeichnet wird (vgl. Pospeschill 2007: 131).
Zeigt der Mauchly-Test eine signikante Abweichung von dieser Sphärizitätsannahme,
sind für den nachfolgenden Signikanztest Korrekturen an den zugrundeliegenden Freiheitsgraden vorzunehmen (vgl. a.a.O.: 131 f ).
Allgemein wird die Varianzanalyse jedoch als relativ robust gegenüber Verletzungen dieser beiden Voraussetzungen angesehen (vgl. Zöfel 2003: 217). Zöfel gibt die
folgenden drei Empfehlungen, wie im Fall nicht gegebener Normalverteilung und Varianzhomogenität zu verfahren ist (vgl. ebd.):
1. Ein nicht signikantes Ergebnis wäre auch bei Erfüllung der Voraussetzungen nicht
signikant geworden.
2. Bei Verletzung der Normalverteilungsbedingung sollte die Nullhypothese erst ab
einer Irrtumswahrscheinlichkeit
p < 0, 04
verworfen werden.
3. Ist die Varianzhomogenität nicht gegeben, sollte die Nullhypothese erst ab einer
Irrtumswahrscheinlichkeit
p < 0, 01
verworfen werden.
Da eine Varianzanaylse nur überprüft, ob überhaupt Unterschiede zwischen den Faktorstufen bestehen, muss bei einem Faktor mit mehr als zwei Merkmalsausprägungen
bei einem signikanten Ergebnis überprüft werden, zwischen welchen Gruppen ein signikanter Unterschied besteht (vgl. Zöfel 2003: 133). Um zu verhindern, dass bei diesen
paarweisen Mittelwertvergleichen das
nannter
α-Fehlerniveau
zunimmt, bedient man sich soge-
Post-Hoc-Tests, die die Gesamtirrtumswahrscheinlichkeit, welche sich aus dem
Produkt der
α-Fehler
aller Mittelwerttests ergibt, kontrollieren (vgl. Bortz 2005: 271
). Im Rahmen der einfaktoriellen Varianzanalyse kam dabei der Scheé-Test zum Einsatz, da er als robust gegenüber Verletzungen der Voraussetzungen der Varianzanalyse
gilt (vgl. a.a.O.: 274). Dieser Test steht bei SPSS im Fall von Messwiederholungsfaktoren
nicht zur Verfügung, deshalb wurden nach einer Empfehlung von Pospeschill paarwei-
81
se Einzelvergleiche mit einer Bonferroni-Korrektur vorgenommen (vgl. Pospeschill
2007: 135).
Da mit Hilfe der Varianzanalyse nur der Einuss unabhängiger Variablen auf eine intervallskalierte abhängige Variable untersucht werden kann (vgl. Zöfel 2003: 5),
kommt für Frageitems mit einer Nominalskala (vgl. Abschn. 3.2.2) ein anderes statistisches Verfahren, die sogenannte
Kreuztabelle,
zur Anwendung. Für nominalskalierte
Variablen mit mehr als zwei Kategorien ist dies die einzige Möglichkeit, Beziehungen
untereinander aufzudecken. (vgl. Zöfel 2003: 179) Das Prinzip besteht darin, die aufgetretenen Werte der abhängigen Variablen den entsprechenden Versuchsbedingungen
der unabhängigen Variablen zuzuordnen und die Häugkeiten dieser Kombinationen
zu ermitteln (vgl. a.a.O.: 179 ). Anschlieÿend wird überprüft, ob einzelne Kombinationen signikant häug beziehungsweise selten auftreten (vgl. ebd.). Diese Analysetechnik
wurde zur Auswertung der im Fragebogen enthaltenen Ja/Nein-Fragen verwendet (vgl.
Abschn. 6.3.2).
Die mit den oben genannten Verfahren erhaltenen Ergebnisse werden in den nun
folgenden Abschnitten dargestellt.
6.3. Untersuchungsergebnisse
Die Darstellung der Ergebnisse gliedert sich in vier Teile. In Abschnitt 6.3.1 erfolgt zunächst eine Überprüfung der erhobenen Daten hinsichtlich potentiell die Aussagekraft
der Ergebnisse verfälschender Eekte. In den beiden nächsten Abschnitten, 6.3.2 und
6.3.3, werden die Ergebnisse der Varianzanalysen in Bezug auf die im Rahmen dieser
Untersuchung erhobenen abhängigen Variablen Benutzerzufriedenheit und Benutzerleistung besprochen. Im letzten Abschnitt 6.3.4 wird die Einbeziehung verschiedener
Kovariaten in die Analyse beschrieben. Die statistischen Tests zu den Voraussetzungen
der Varianzanalysen benden sich gesammelt in Anhang C.1 Aus diesem Grund erfolgt
an den entsprechenden Stellen nur eine einfache Nennung der Ergebnisse.
6.3.1. Überprüfung der Daten
Zunächst erfolgte eine Analyse der erhobenen Daten auf Einfüsse, die auf das untersuchungsmethodische Vorgehen zurückzuführen sind. Diesbezüglich wurde zunächst überprüft, ob die verwendeten Testaufgaben für die Versuchsteilnehmerinnen einen unterschiedlichen Schwierigkeitsgrad aufwiesen. Ein solcher Eekt wird in Anlehnung an Turpin und Scholer im Folgenden Topic-Eekt genannt (vgl. Turpin/Scholer 2006: 16).
82
Weiterhin wurde untersucht, ob die Bearbeitungsreihenfolge der Testaufgaben einen Einuss auf die Leistung der Testpersonen hatte, was im Folgenden als Reihenfolgeeekt
bezeichnet wird.
Tabelle 6.3.: Überprüfung der Daten auf Topic-Eekte
Varianzanalyse
Post-Hoc-Test
Energie - Asien Energie - Atom
df a
Fb
Sig.c MDd
Sig.
MD
Sig.
Maÿ
Dok@10
BR
t1.Dok
BP
PCP
a
1,850
2,000
1,751
2,000
2,000
Freiheitsgrade
7,118
11,396
1098,927
2,202
4,198
b
F-Wert
0,001
0,000
0,000
0,114
0,017
-0,562
0,707
-2,022
-0,042
0,000
-0,045
492,337
0,000
7,483
0,040
c Signikanz d
0,218
-0,019
0,004
Asien - Atom
MD
Sig.
-1,461
0,039
0,000
-0,003
1,000
1,000
-484,854
0,000
-
-
1,000
-0,059
0,013
Mittelwertdierenz
Um festzustellen, ob ein Topic-Eekt vorliegt, wurden für alle Leistungsmaÿe (vgl.
Abschn. 5.2.4) einfaktorielle Varianzanalysen durchgeführt. Die erhobenen Leistungswerte der Benutzer zu den drei Aufgaben ossen dabei als Messwiederholungsfaktor
ein. Die Normalverteilungsvoraussetzung ist nur im Fall der Pre-Click-Precision (PCP)
erfüllt und das Signikanzniveau somit für die anderen Leistungsmaÿe entsprechend auf
p < 0, 04
zu reduzieren (vgl. Abschn. 6.2).
Tabelle 6.3 fasst die Ergebnisse dieser Tests zusammen. War der Mauchly-Test signikant, werden die mit den korrigierten Freiheitsgraden erhaltenen Resultate angegeben
(vgl. Abschn. 6.2). Unter Post-Hoc-Test sind die Befunde der paarweisen Mittelwertvergleiche aufgeführt. Man kann erkennen, dass bis auf die Benutzer-Precision (BP) alle
Leistungsmaÿe einem signikanten Topic-Einuss unterliegen. Um die Art der Beeinussung abschätzen zu können, sind in Abbildung 6.1 für die vier Performanzmaÿe, die
einen solchen Eekt aufweisen, die Mittelwerte der einzelnen Aufgaben angegeben. Für
die beiden recall-orientierten Maÿe, die Zahl der korrekt relevanten Dokumente in
10
Minuten (Dok@10) und den Benutzer-Recall (BR), ergibt sich, dass die Energieaufgabe
oensichtlich schwerer als die Atomaufgabe zu bearbeiten war (vgl. Abb. (a) u. (b)). Die
Asienaufgabe hingegen zeigt sich indierent. Für die Dok@10 liegt ihr Schwierigkeitsgrad in der Nähe der Energie-, für den BR in der Nähe der Atomaufgabe. Weiterhin
ist zu erkennen, dass das Auswählen des ersten korrekt relevanten Dokuments (t1.Dok )
bei der Asienaufgabe besonders schnell möglich gewesen ist (vgl. Abb. (c)). Allerdings
weisen die Mittelwertunterschiede darauf hin, dass es bei diesem Topic schwieriger war,
relevante Dokumente vor dem Önen zu erkennen (PCP) als bei der Atomaufgabe (vgl.
83
(a) Anzahl korrekt relevante Dokumente
(b) Benutzer-Recall
(c) Zeit erstes korrekt relevantes Dokument
(d) Pre-Click-Precision
Abbildung 6.1.: Graphische Darstellung der Topic-Eekte
Abb. (d)). Letztere scheint damit die für die Teilnehmerinnen am einfachsten zu bearbeitende Aufgabe gewesen zu sein. Die lange Zeit bis zum ersten korrekt relevanten
Dokument ist dabei darauf zurückzuführen, dass das erste Dokument in der Liste nicht
relevant war (vgl. Anh. B).
Das Vorhandensein von Topic-Eekten kann als positive Voraussetzung für die Generalisierbarkeit der Ergebnisse betrachtet werden, da auch in einer realistischen Anwendungssituation von Information-Retrieval-Systemen nicht alle Suchanfragen den gleichen
Schwierigkeitsgrad aufweisen. Um Aussagen über die mittlere Benutzerleistung treen
zu können, wird für die Auswertung in Abschnitt 6.3.3 deshalb der Mittelwert über die
drei Topics herangezogen.
Um denkbare Reihenfolgeeekte vorab zu kontrollieren, wurde die Abfolge der drei
84
zu bearbeitenden Testaufgaben zwischen den Testpersonen variiert (vgl. Abschn. 5.1.2).
Es erfolgten für alle drei Topics einfaktorielle Varianzanalysen, um zu überprüfen, ob
Unterschiede in der gemessenen Benutzerleistung auf die Bearbeitungsreihenfolge zurückzuführen sind. Als Faktorstufen der unabhängigen Variablen wurde gewählt, ob
die Bearbeitung der betreenden Aufgabe als erstes, zweites oder drittes erfolgte. Die
abhängigen Variablen entsprachen auch hier den erhobenen Leistungsmaÿen.
Tabelle 6.4.: Überprüfung der Daten auf Reihenfolgeeekte
Energie
Asien
a
b
c
df
F
Sig.
df
F
Sig.
df
Maÿ
Dok@10
2
BR
2
t1.Dok
2
BP
2
2
PCP
a
3,679
4,131
0,096
2,419
3,853
Freiheitsgrade
b
F-Wert
0,029
0,019
0,908
0,095
0,025
2
2
2
2
2
3,404
3,547
3,599
2,480
0,693
0,038
0,033
0,032
0,090
0,503
2
2
2
2
2
Atom
F
Sig.
1,729
1,943
0,574
0,168
0,266
0,184
0,150
0,565
0,846
0,767
c Signikanz
Die Voraussetzung der Normalverteilung ist wiederum nur bei der Pre-Click-Precision
(PCP) erfüllt, weshalb die Nullhypothese erst bei einem
p < 0, 04
zu verwerfen ist (vgl.
Abschn. 6.2). Die Varianzhomogenität ist für alle signikanten Ergebnisse gegeben. Für
die nicht signikanten Fälle ergäbe sich nach Zöfel auch bei Erfüllung dieser Voraussetzung kein anderes Ergebnis (vgl. ebd.).
Maÿ
Dok@10
BR
PCP
a
Tabelle 6.5.: Post-Hoc-Test der Reihenfolgeeekte I: Energieaufgabe
1. vs. 2. Position
1. vs. 3. Position
2. vs. 3. Position
MDa
Sig.b
MD
Sig.
MD
Sig.
−3,818
−0,072
−0,113
Mittelwertdierenz
b
0,030
0,020
0,050
−2,093
−0,039
−0,103
0,337
0,298
0,081
1,724
0,033
0,010
0,489
0,445
0,978
Signikanz
In Tabelle 6.4 sind die Ergebnisse der Varianzanalysen für alle Topics und Leistungsmaÿe zusammengefasst. Sowohl für die Energie- als auch für die Asienaufgabe sind signikante Reihenfolgeeekte zu erkennen. Auf die Atomaufgabe hingegen hat die Reihenfolge keinen signikanten Einuss. Dies deckt sich mit der zu Anfang dieses Abschnitts
gemachten Beobachtung, dass es sich bei dieser Aufgabe um die am einfachsten zu bearbeitende handelt. Es scheint also bei diesem Topic kein Training notwendig gewesen
zu sein.
85
Für die signikanten Unterschiede der Energie- und Asienaufgabe wurde ein ScheéTest durchgeführt, um herauszunden, welche Positionen der Testaufgaben dieses Ergebnis bewirken. Die Tabellen 6.5 und 6.6 enthalten die resultierenden Befunde. Zur
weiteren Veranschaulichung sind in Abbildung 6.2 ausgewählte Graphiken beigefügt.
Für die Energieaufgabe lässt sich bei allen vier signikanten Maÿen ein nachweisbarer
Trainingseekt von der ersten zur zweiten Position der Aufgabe beobachten. Tendenziell
ist von der zweiten zur dritten Position auch ein Ermüdungseekt zu erkennen, doch
ist dieser Unterschied nicht signikant (vgl. Abb. (a)). Ein ähnlicher Verlauf ergibt sich
auch für die Zeit bis zum ersten korrekt relevanten Dokument (t1.Dok ) bei der Asienaufgabe. Für die Dok@10 und den Benutzer-Recall (BR) dieses Topics lässt sich hingegen
tendenziell ein durchgehender Trainingseekt von der ersten bis zur dritten Position der
Aufgabe feststellen, wenn auch keiner dieser Unterschiede signikant ist (vgl. Abb. (b)).
Maÿ
Dok@10
BR
t1.Dok
a
Tabelle 6.6.: Post-Hoc-Test der Reihenfolgeeekte II: Asienaufgabe
1. vs. 2. Position
1. vs. 3. Posistion
2. vs. 3. Position
MDa
Sig.b
MD
Sig.
MD
Sig.
−0,724
−0,014
49,517
Mittelwertdierenz
b
0,862
0,885
0,066
−3,227
−0,071
46,974
0,052
0,048
0,079
−2,503
−0,057
−2,543
0,165
0,141
0,992
Signikanz
Allgemein wird hier deutlich, dass der Scheé-Test die Unterschiede zwischen den
Mittelwerten der Faktorstufen konservativ beurteilt, [. . . ] also eher zögerlich bei der
Aufspürung von Signikanzen ist. (Zöfel 2003: 213) Dadurch ergeben sich trotz der
signikanten Varianzanalyse Fälle, für die der Post-Hoc-Test keine signikant verschiedenen Gruppenmittelwerte ndet. Da hier jedoch nur allgemein ein Einuss der Aufgabenreihenfolge überprüft werden sollte, wird auf weitergehende Analysen verzichtet.
Zusammenfassend kann für die vorgestellten Befunde festgestellt werden, dass die Variation der Reihenfolge der Testaufgaben als Designelement sinnvoll war, denn auf diese
Weise wurde jedes Topic sowohl als Trainings- als auch als Abschlussaufgabe bearbeitet.
Im Weiteren werden Eekte auf die Untersuchungsergebnisse betrachtet, die primär
im Zusammenhang mit den Probandinnen stehen. Zu diesen personengebundenen Störeinüssen ist allgemein zu bemerken, dass hier einzelne Abweichungen von für die
Mehrheit der Probandinnen gültigen Eigenschaften untersucht werden. Dies impliziert,
dass die Häugkeiten der betrachteten Faktoren sehr unterschiedlich ausfallen. Nach
Rudolf und Müller kann dadurch die Robustheit der Varianzanalyse vermindert werden
(vgl. Rudolf/Müller 2004: 80). Dennoch sollen mögliche Eekte mit dieser Methode
86
(a) Energie
(b) Asien
Abbildung 6.2.: Graphische Darstellung der Reihenfolgeeekte
analysiert werden.
Als erstes soll auf zwei Aspekte hingewiesen werden, die sowohl das untersuchungsmethodische Vorgehen als auch die Testpersonen betreen. Um der Künstlichkeit der
Testsituation entgegenzuwirken, wurde es den Teilnehmerinnen freigestellt, die Bearbeitung der Aufgaben vorzeitig zu beenden, falls sie schon vor Ablauf der vorgegebenen
Bearbeitungszeit von zehn Minuten der Meinung waren, sich einen ausreichenden Überblick über das betreende Thema verschat zu haben (vgl. Abschn. 5.2). Im Rahmen
der Datenüberprüfung sollte aus diesem Grund untersucht werden, ob sich die Verkürzung der Bearbeitungszeit auf die Benutzerleistung auswirkt. Auch in diesem Fall
dienten einfaktorielle Varianzanalysen als Testverfahren. Dabei entsprach die Gesamtbearbeitungszeit, die in zwei Stufen (t
≥
9 min vs. t
<
9 min) realisiert wurde, der
unabhängigen, die Leistungswerte der Benutzer zu den einzelnen Topics der abhängigen
Variable.
Tabelle 6.7 zeigt, dass sich nur in drei Fällen ein Hinweis auf einen signikanten Einuss ndet. In Bezug auf die Voraussetzung der Normalverteilung wird wie bei den Reihenfolgeeekten verfahren. Für die beiden signikanten Ergebnisse der Energieaufgabe
(BP u.
t1.Dok )
sind, im Gegensatz zur Atomaufgabe, die Varianzen nicht homogen. Die
Nullhypothese ist also erst bei einer Irrtumswahrscheinlichkeit
p < 0, 01
zu verwerfen
(vgl. Abschn. 6.2), was jedoch in beiden Fällen erfüllt ist.
Für beide Aufgaben ist zu beobachten, dass Teilnehmerinnen, die den Test vorzeitig
beendeten, schneller das erste korrekt relevante Dokument auanden (t1.Dok ) (vgl. Anh.
C.2). Zusammen mit der Tatsache, dass sich in den recall-orientierten Leistungsmaÿen
87
Tabelle 6.7.: Überprüfung der Daten auf Einuss durch selbstbestimmten Abbruch
Häugkeiten
Energie
Asien
Atom
t<
9
t≥ 9
min
15
min
74
Maÿ
14
78
75
df a
Fb
Sig.c
df
F
Sig.
df
F
Sig.
Dok@10
1
t1.Dok
1
BP
1
0,389
0,372
0,000
0,001
0,895
2,018
1,268
2,364
2,599
0,013
0,159
0,263
0,128
0,111
0,908
1
1
0,748
0,805
164,936
11,918
0,018
1
BR
2,444
2,175
297,034
2,078
1,171
0,122
0,144
0,000
0,153
0,282
PCP
a
11
1
Freiheitsgrade
b
F-Wert
1
1
1
1
1
1
1
1
c Signikanz
kein signikanter Unterschied nachweisen lässt, könnte dies folgendermaÿen gedeutet
werden: Die Testpersonen dieser Gruppe arbeiten etwas schneller und können einschätzen, wann sie sich einen ausreichenden Überblick über das Thema verschat haben. Auch
scheint diese Gruppe, zumindest bei der tendenziell schwierigeren Energieaufgabe, die
Relevanz eines Dokuments weniger restriktiv zu bewerten als die restlichen Versuchspersonen. Dies lässt sich daran erkennen, dass Angehörige dieser Gruppe zwar einerseits im
Mittel genauso viele Dokumente korrekt als relevant identiziert haben (Dok@10) wie
die übrigen Versuchsteilnehmerinnen, andererseits aber der Anteil der korrekt relevant
bewerteten an allen als relevant bewerteten Dokumenten (BP) kleiner ist.
Zusammenfassend lässt sich festhalten, dass von einigen Testpersonen oenbar eine
andere Suchstrategie verfolgt wird. Da dies jedoch auch der realen Anwendungssituation von Information-Retrieval-Systemen entspricht und sich diese Gruppe ausreichend
gleichmäÿig über die vier Versuchsbedingungen (
Vpn.,
S2,2 = 15
S1,1 = 11 Vpn., S1,2 = 5 Vpn., S2,1 = 9
Vpn.) verteilt, erscheint dieser Einuss für die Auswertung der Benut-
zerleistung vernachlässigbar.
Ein zweiter Aspekt betrit die Beobachtung, dass einige Probandinnen nur Ergebnisse auf der ersten Seite der Ergebnisliste angesehen und bewertet haben. Dies kann zum
einen, wie von einigen Versuchspersonen im Gespräch geäuÿert, auf das Übersehen der
weiteren Ergebnisseiten oder aber auf eine entsprechende Suchstrategie zurückzuführen sein. Auch hier wurden einfaktorielle Varianzanalysen mit den angesehenen Seiten
(nur erste Seite vs. mehr als eine Seite) als unabhängige und den Leistungsmaÿen als
abhängige Variablen durchgeführt. Die detaillierten Ergebnisse sind Anhang C.3 zu entnehmen. Erwartungsgemäÿ erreichen diese Probandinnen niedrigere Leistungswerte bei
den recall-orientierten Maÿen (Dok@10 u. BR), da ihnen weniger relevante Dokumente
88
als den übrigen Teilnehmerinnen zugänglich waren. Wegen der geringen Fallzahl von nur
19
aus den
3 × 89 = 267
Datensätzen für alle drei Aufgaben, wird dieser Einuss eben-
falls als vernachlässigbar angesehen. Auch aufgrund der Tatsache, dass beide eingangs
erwähnten Erklärungsmöglichkeiten auch in einer realen Anwendungssituation auftreten
könnten, ist dieses Vorgehen sinnvoll.
Wie aus der Stichprobenbeschreibung (vgl. Abschn. 6.1) hervorgeht, war die Muttersprache einiger Testteilnehmerinnen nicht Deutsch. Um auszuschlieÿen, dass dieser
Sachverhalt einen signikanten Einuss auf die Ergebnisse der Untersuchung hatte, kamen auch hier mehrere einfaktorielle Varianzanalysen mit dem zweigestuften Faktor
Muttersprache (Deutsch vs. Nicht-Deutsch) zur Anwendung. Da zur Auswertung der
Benutzerleistung (vgl. Abschn. 6.3.3) die über die drei Aufgaben gemittelten Leistungswerte der Benutzer analysiert werden, wurden diese Mittelwerte sowie die Fragebogenitems zur Benutzerzufriedenheit als unabhängige Variablen herangezogen. Sowohl für die
gemittelten Leistungsmaÿe als auch für die
15
Frageitems mit Zufriedenheitsskala war
kein signikanter Einuss der Muttersprache festzustellen (vgl. Anh. C.4). Bezüglich der
Muttersprache der Probandinnen ist also davon auszugehen, dass dieser Faktor keinen
störenden Einuss auf die erhobenen Daten hat.
Auf weitere potentielle Störeinüsse wie Alter und Rechercheerfahrung der Versuchsteilnehmerinnen wird in Abschnitt 6.3.4 im Zusammenhang mit der Einbeziehung von
Kovariaten eingegangen.
6.3.2. Auswertung der Benutzerzufriedenheit
15 Fragebogenitems,
Anh. A.5 Items 1 − 14 u.
Um einen ersten Eindruck von den Daten zu gewinnen, wurden die
die auf einer Zufriedenheitsskala zu beantworten waren (vgl.
16),
zunächst einzeln mit Hilfe von zweifaktoriellen Varianzanalysen ausgewertet. Dem
zugrundeliegenden Untersuchungsdesign entsprechend bildeten die Systemleistung und
die Erwartungshaltung die unabhängigen Variablen. Die Antworten der Probandinnen
zu den einzelnen Fragen gingen jeweils als abhängige Variable in die Auswertung ein. In
Tabelle 6.8 sind die Ergebnisse dieser Analysen in Bezug auf die Haupt- und Wechselwirkungseekte für die jeweiligen Items dargestellt. Die Normalverteilungsvoraussetzung
ist in keinem der Fälle erfüllt, weswegen ein korrigiertes Signikanzniveau von
zu verwenden ist (vgl. Abschn. 6.2). Frageitems
2, 9, 11
und
14
p < 0, 4
erfüllen auch nicht die
Bedingung der Varianzhomogenität, so dass hier die Nullhypothese erst bei
p < 0, 01
verworfen werden sollte (vgl. ebd.).
Aus den Resultaten geht hervor, dass sich in Bezug auf die Systemgüte nur für die
89
Tabelle 6.8.: Ergebnisse der Varianzanalysen für die 15 Frageitems mit Zufriedenheitsskala
Erwartungshaltung
Systemgüte
Interaktion
a
b
c
Item
df
F
Sig.
df
F
Sig.
df
F
Sig.
1
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
1
10
1
11
1
12
1
13
1
14
1
1
16
a
Freiheitsgrade
Frageitems
b
0,256
0,714
0,345
0,394
0,260
0,406
0,065
0,263
0,179
0,895
0,037
1,101
0,386
1,235
0,187
F-Wert
0,614
0,400
0,559
0,532
0,611
0,526
0,800
0,609
0,673
0,347
0,848
0,297
0,536
0,270
0,666
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0,018
0,208
0,068
0,096
0,061
1,025
0,168
1,250
7,480
5,222
0,657
1,680
3,526
0,231
0,014
0,894
0,649
0,794
0,758
0,806
0,314
0,683
0,267
0,008
0,025
0,420
0,198
0,064
0,632
0,905
1,134
3,519
1,566
1,416
6,336
0,581
0,065
1,211
0,055
0,003
2,044
1,680
0,875
0,985
0,239
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0,290
0,064
0,214
0,237
0,014
0,448
0,800
0,274
0,815
0,954
0,157
0,198
0,352
0,324
0,626
c Signikanz
9 (Die Artikel hätten besser geltert werden können.)
Artikel waren für die dazugehörigen Suchanfragen relevant.)
und
10 (Die meisten
signikante Unterschiede
feststellen lassen. Es werden also Zufriedenheitsurteile zu dem gleichen Sachverhalt, der
Precision der Ergebnislisten, abgefragt. In beiden Fällen sind die Angehörigen der Versuchsgruppen, denen der höhere Systemlevel zugeordnet wurde (S1,2 u.
S2,2 ), zufriedener
mit den präsentierten Suchergebnissen. Dies lässt sich anhand der Gruppenmittelwerte
für den niedrigen (B1 ) und den hohen Systemlevel (B2 ) verdeutlichen. Es ergeben sich
5
für Item 9 Mittelwerte
von
5, 47 (B1 )
zu
4, 52 (B2 )
beziehungsweise
3, 58 (B1 )
zu
2, 95
(B2 ) für Item
beträgt der
10, wobei niedrigere Werte einer höheren Zufriedenheit entsprechen. Damit
prozentuale Mittelwertunterschied in beiden Fällen circa 18%. Die unter-
schiedliche Qualität der Ergebnislisten zwischen den beiden Systemlevels wurde von den
Probandinnen also tatsächlich wahrgenommen. Für den bei Frageitem
5
signikanten
Interaktionseekt ist nach Bortz keine Interpretation möglich, da keine signikanten
Haupteekte vorliegen (vgl. Bortz/Döring 1995: 498).
Die Manipulation der Erwartungshaltung zeigt bei keinem der Frageitems eine signikante Wirkung, was im ersten Moment darauf schlieÿen lassen könnte, dass sie kei-
5 Zu beachten ist, dass Frageitem 9 negativ formuliert ist, weshalb die Skala zum besseren Vergleich
mit den anderen Frageitems umgedreht wurde.
90
nen Einuss auf die Wahrnehmung von Retrievalergebnissen besitzt. Wahrscheinlicher
erscheint allerdings die Interpretation, dass die Manipulation im Rahmen dieser Untersuchung nicht in ausreichendem Maÿe gelungen ist. Dafür spricht die Tatsache, dass
sich in der Auswertung der Leistungsmaÿe, die im nächsten Abschnitt berichtet wird,
ebenfalls kein signikanter Einuss der Erwartungshaltung nachweisen lässt. Darüber
hinaus wurde eine nicht ausreichende Manipulation durch einige Versuchspersonen im
informellen Gespräch bestätigt. Auf mögliche Verbesserungsvorschläge für Folgestudien
wird in Kapitel 7 eingegangen.
Obgleich kaum signikante Unterschiede zwischen den Versuchsbedingungen nachgewiesen werden konnten, soll im Folgenden versucht werden, eine gemeinsame Zufriedenheitsskala für diejenigen Frageitems zu konstruieren, die direkt auf die Qualität der
Ergebnislisten Bezug nehmen. Dies entspricht den in Fragebogenteil
8
bis
14.
B enthaltenen Items
Dazu wurde zunächst eine Reliabilitätsanalyse dieser sieben Fragen durchge-
führt. Pospeschill beschreibt den Zweck einer solchen Analyse wie folgt: Grundlegend
geht es dabei um die Frage, ob sich verschiedene Skalen zu einer gemeinsamen Skala
zusammenfassen lassen, so dass sie bestimmten Anforderungen an die Reliabilität ('Zuverlässigkeit') genügt. (Pospeschill 2007: 201) Der hierzu berechnete als Cronbachs
Alpha bezeichnete Kennwert ist ein Maÿ dafür, wie stark die einzelnen Items untereinander korrelieren (vgl. a.a.O.: 202). Eine hohe Korrelation wird dabei als Hinweis
auf die Zuverlässigkeit der Skala gewertet (vgl. ebd.). Die Reliabilitätsanalyse ermöglicht es also, Frageitems zu identizieren, die zur Erhöhung der Zuverlässigkeit einer
gemeinsamen Skala ausgeschlossen werden sollten.
In Bezug auf die hier betrachteten Frageitems ergibt sich, dass ein Ausschluss von
Item
12
zu einer Verbesserung des Cronbachs Alpha der resultierenden Skala auf
führt, was nur knapp unter einem als ausreichend betrachteten Wert von
0, 7
0, 69
liegt (vgl.
ebd.). Weitere Items zu entfernen, würde zu keiner Erhöhung dieses Wertes mehr führen
(vgl. Anh. C.7). Da aus den bisherigen Ergebnissen eher ein signikanter Einuss der
12 auszuschlieÿen. Mit
Die Ergebnislisten waren zu umfangreich. (Item 12) wird nämlich die
Systemgüte zu erwarten ist, erscheint es plausibel, Frageitem
der Behauptung
Zufriedenheit mit einer Eigenschaft des präsentierten Anwendungssystems erhoben, das
für beide Systemlevels identisch war (vgl. Abschn. 5.2.3). Es wäre also zu vermuten,
dass hier eher die Erwartungshaltung zu einer unterschiedlichen Wahrnehmung führen
würde.
Die Ergebnisse der Varianzanalyse für die resultierende Skala aus den Items
11, 13
und
14
8, 9, 10,
ist in Tabelle 6.9 angegeben. Der signikante Unterschied zwischen den
beiden Systemlevels, der schon für die Einzelauswertungen der Fragen
9
und
10
festge-
91
Tabelle 6.9.: Ergebniss der Varianzanalyse nach der Skalenbildung
Erwartungshaltung
Systemgüte
Interaktion
a
b
c
df
F
Sig.
df
F
Sig.
df
F
Sig.
1
a
0,343
Freiheitsgrade
b
0,560
F-Wert
1
5,846
0,018
1
0,001
0,980
c Signikanz
stellt werden konnte, wird auch hier sichtbar. Zu erwähnen ist, dass für die kombinierte
Skala beide Voraussetzungen der Varianzanalyse erfüllt sind.
Für Testteilnehmerinnen, denen der niedrigere Systemlevel präsentiert wurde, ergibt
sich ein durchschnittlicher Wert von
ein mittlerer Wert von
3, 31.
3, 76
auf der Zufriedenheitsskala, für die übrigen
Benutzer des besseren Systems sind also im Mittel etwas
zufriedener als die übrigen Probandinnen, wenn der Unterschied mit etwa einem halben
Skalenwert (3, 76
− 3, 31 = 0, 45)
auch relativ gering ausfällt.
(a) Erwartungshaltung - Zufriedenheit
(b) Systemlevel - Zufriedenheit
Abbildung 6.3.: Interaktionsdiagramm C/D-Paradigma
In den Abbildungen 6.3(a) und (b) sind die Mittelwerte für alle vier Versuchsgruppen
aufgetragen. Wenn die Unterschiede in Bezug auf die Erwartungshaltung auch nicht
signikant sind, lässt sich tendenziell doch die durch das C/D-Paradigma vorausgesagte Beeinussung der Benutzerzufriedenheit, wie sie in den Untersuchungshypothesen
formuliert wurden, erkennen (vgl. Abschn. 5.1.1).
Der Einuss der beiden Systemlevels ist am deutlichsten ausgeprägt und für beide Erwartungshaltungen ist die Zufriedenheit mit dem besseren System gröÿer als mit
dem schlechteren (vgl. Abb. 6.3(a)). Zusätzlich erscheinen die Angehörigen der Unterschungsgruppen mit der niedrigen Erwartungshaltung im Durchschnitt zufriedener
92
als die Testpersonen mit der hohen Erwartungshaltung (vgl. Abb. 6.3(b)). Gerade dies
wird auch vom C/D-Paradigma postuliert. Bei der hohen Erwartungshaltung und dem
niedrigen Systemlevel stimmen Soll- und Ist-Leistung nicht überein, was eine negative
Diskonrmation zur Folge hat. Entsprechend ist die betreende Versuchsgruppe weniger
zufrieden mit dem System als Testpersonen mit der niedrigen Erwartungshaltung. Der
umgekehrte Eekt zeigt sich beim höheren Systemlevel. Hier erfahren die Versuchsteilnehmerinnen mit der niedrigeren Erwartungshaltung eine positive Diskonrmation, was
sie das Suchsystem positiver beurteilen lässt als alle übrigen Probandinnen. Allerdings
soll an dieser Stelle noch einmal ausdrücklich darauf hingewiesen werden, dass diese Effekte nur tendenziell und ohne signikante Mittelwertunterschiede zu beobachten sind.
Hier könnte eine Studie mit einer deutlicheren Manipulation der Erwartungshaltung
weiteren Aufschluss bringen.
Des Weiteren ist an Abbildung 6.3 abzulesen, dass die durchschnittlichen Zufriedenheitsurteile aller Testpersonen im positiven Bereich der Antwortskala (Skalenwerte
< 4)
Würdest Du
den Einsatz von Periodikum als Suchmaschine für Fachzeitschriften in der Hildesheimer
Universitätsbibliothek empfehlen? ) zu, bei dem die Zufriedenheit der Teilnehmerinnen
liegen. Diese Beobachtung trit in besonderem Maÿe auch auf Item 16 (
auf indirektem Weg gemessen werden sollte (vgl. Abschn. 5.2.4).
Abbildung 6.4.: Histogramm Frageitem 16
89 Probandinnen eine Beurteilung im negativen Bereich der Antwortskala (Skalenwert > 4) abgegeben (vgl. Abb. 6.4). Selbst wenn man
die vier neutralen Antworten (Skalenwert = 4) noch zu diesem Bereich hinzuzählt, ergibt sich ein prozentualer Anteil von fast 90% der Testpersonen, die diese Frage positiv
Hier haben nur
5
der insgesamt
beantwortet haben. Einerseits könnte diese Häufung der Skalenwerte im positiven Bereich der Antwortskala bedeuten, dass die Versuchspersonen im Schnitt tatsächlich mit
93
den Suchergebnissen zufrieden waren. Andererseits könnte die allgemeine Tendenz positiver Bewertungen auch als Hinweis darauf verstanden werden, dass die Zufriedenheit
mit dem präsentierten Suchsystem durch dieses Frageitem nicht erfasst wird. So könnte es beispielsweise sein, dass die generelle Möglichkeit, in einer Universitätsbibliothek
nach Artikeln aus Fachzeitschriften zu suchen, unabhängig von der individuellen Zufriedenheit mit dem präsentierten Suchsystem begrüÿt wird. Dafür spricht auch, dass die
Manipulation des Systemlevels keinen signikanten Eekt zeigt (vgl. Tab. 6.8).
Frageitem
15 (Hättest Du andere Suchbegrie eingegeben? Falls ja, welche? )
kann
nicht mittels Varianzanalyse ausgewertet werden, da es sich um eine Ja/Nein-Frage
handelt. In Bezug auf dieses Fragebogenitem ist auÿerdem kritisch anzumerken, dass
hier die Regel, nur einen Sachverhalt pro Frage anzusprechen (vgl. Abschn. 3.2.2), verletzt wird. Um die Frage auswerten zu können, mussten die Daten zunächst angepasst
werden. Dazu wurden die Antworten in zwei Gruppen eingeteilt, je nachdem, ob die Versuchspersonen für eine oder mehrere Testaufgaben alternative Suchbegrie angegeben
haben oder nicht. Aufgrund der Tatsache, dass es sich hierbei um eine nominalskalierte
Variable handelt, wurden die Daten mit einer Kreuztabelle ausgewertet (vgl. Abschn.
6.2).
Tabelle 6.10.: Antworthäugkeiten Frageitem 15
Weitere Suchbegrie
Keine weiteren Suchbegrie
S1,1
S1,2
S2,1
S2,2
18
4
17
5
15
8
18
4
Gesamt
68
21
%
0,76
0,24
Für keine der vier verschiedenen Untersuchungsbedingungen lassen sich signikante Unterschiede in den Häugkeiten der beiden Antwortmöglichkeiten nachweisen (vgl.
Anh. C.8). Vielmehr ist zu beobachten, dass die Anzahl der Testpersonen, die gern weitere Suchbegrie eingegeben hätten, über die Versuchsgruppen hinweg nahezu konstant
ist und insgesamt einem Anteil von über
70%
entspricht (vgl. Tab. 6.10). Dies deutet
darauf hin, dass es sich bei der Reformulierung von Suchanfragen eher um eine grundlegende Suchstrategie handelt, die von den Untersuchungsbedingungen unabhängig ist.
Gestützt wird diese Interpretation dadurch, dass die im Untersuchungsdesign begründete Beschränkung auf vorgegebene Suchbegrie von einigen Testteilnehmerinnen als
unnatürlich empfunden wurde. Dies ergab sich sowohl aus Gesprächen mit einzelnen
Testpersonen als auch aus einzelnen der noch zu berichtenden Antworten zu Item
Die indirekt gestellte Zufriedenheitsfrage am Ende des Fragebogens (Item
29)
27.
(vgl.
Abschn. 5.2.4) wurde ebenfalls mittels einer Kreuztabelle ausgewertet. Auch in diesem
94
Fall lassen sich keine signikanten Unterschiede zwischen den vier Faktorstufenkombinationen feststellen (vgl. Anh. C.9). Insgesamt erklärten sich
76 der 89 Untersuchungsteil-
nehmerinnen bereit, an einem weiteren Benutzertest mit einer anderen Suchmaschine
teilzunehmen, was einem prozentualen Anteil von
85%
entspricht. Hier scheint einge-
treten zu sein, was durch den Hinweis auf eine andere Magisterarbeit verhindert werden sollte, dass sich nämlich die Probandinnen zu einer Zusage gedrängt fühlten (vgl.
Abschn. 5.2.4). Somit ist auch in Bezug auf dieses Item fraglich, ob tatsächlich die
Zufriedenheit der Testpersonen mit dem präsentierten Suchsystem gemessen wurde.
Durch die beiden oenen Fragen (Item
26
u.
27)
sollte den Probandinnen die Mög-
lichkeit gegeben werden, zusätzliche Aspekte anzusprechen, die durch das vorgegebene
Antwortspektrum nicht berücksichtigt wurden (vgl. Abschn. 5.2.4).
Zur Auswertung von Item
26 (Wenn Du möchtest, kannst Du hier genauer angeben,
welche Stärken und Schwächen die Suchmaschine Periodikum aus Deiner Sicht hat: )
bietet sich eine quantitative Inhaltsanalyse der Antworttexte an (vgl. Bortz/Döring
1995: 138 f ). Diese Auswertungsmethode beruht auf einer [. . . ] Zuordnung der einzelnen Teile eines Textes zu ausgewählten, übergreifenden Bedeutungseinheiten (Kategorien) [. . . ]. (a.a.O.: 138) Eine nachfolgende Analyse der Häugkeiten in den einzelnen
Kategorien gibt Aufschluss über den Inhalt der untersuchten Antworten (vgl. ebd.).
In einem ersten Schritt wurden dazu die Antworten der Testteilnehmerinnen danach
unterschieden, ob sie Stärken oder Schwächen des Systems zum Inhalt haben. Darüber
hinaus lassen sich die Antworttexte zu folgenden sechs Kategorien zusammenfassen:
Kommentare, die die Gestaltung der graphischen Benutzeroberäche des Anwendungsprogramms oder formale Aspekte der Ergebnislisten wie zum Beispiel deren Übersichtlichkeit zum Inhalt haben (L
dungssystems (U
=Layout),
Einschätzungen der Bedienbarkeit des Anwen-
6
=Usability ), Anmerkungen bezüglich der Kurzbeschreibungen zu den
einzelnen Dokumenten (S =Snippet), Bemerkungen zur Qualität und Relevanz der Suchergebnisse, die nicht explizit auf das Ranking der Ergebnisse verweisen (T =Treer),
Bewertungen des Rankings der Ergebnislisten (R =Ranking) und schlieÿlich allgemeine Äuÿerungen, die im weitesten Sinne die thematische Ausrichtung der Suchmaschine
betreen (I
=Inhalt).
Insgesamt nahmen
77
der Versuchsteilnehmerinnen die Möglich-
keit wahr, das präsentierte Suchsystem in Form einer selbst formulierten Antwort zu
87% der Gesamtstichprobe entspricht. In 48% dieser Fälle werden sowohl
auch Schwächen benannt, in weiteren 40% nur Schwächen, in den restlichen
bewerten, was
Stärken als
6 Die Usability [. . . ] eines Produktes ist das Ausmaÿ, in dem es von einem bestimmten Benutzer
verwendet werden kann, um bestimmte Ziele in einem bestimmten Kontext eektiv, ezient und
zufrieden stellend zu erreichen. (Strauch 2004: 43)
95
12%
nur Stärken angemerkt. Tabelle 6.11 schlüsselt die Häugkeiten der Stärken und
Schwächen nach Versuchsbedingungen und Kategoriezugehörigkeit auf. Eine Auistung
der genauen Antworttexte mit den vergebenen Kategorien ist in Anhang D.1 zu nden.
Tabelle 6.11.: Kategoriezugehörigkeit der genannten Stärken und Schwächen
S1,1
Kategorie
S1,2
S2,1
S2,2
Stärke
Schwäche
Stärke
Schwäche
Stärke
Schwäche
Stärke
Schwäche
T
2
7
4
6
0
7
3
3
L
3
5
5
6
12
2
6
4
R
2
5
2
5
2
8
0
3
S
0
3
2
3
5
3
1
1
U
3
3
4
4
6
2
7
3
I
1
2
3
0
5
3
2
4
Gesamt
11
25
20
24
30
25
19
18
Prozent
0,31
0,69
0,45
0,55
0,55
0,45
0,51
0,49
Aufaddiert halten sich die Gesamthäugkeiten der genannten Stärken und Schwächen über alle Kategorien hinweg in jeder Versuchsbedingung die Waage. Etwas stärker
weicht hier die Versuchsgruppe mit der niedrigen Erwartungshaltung und dem schlechteren Systemlevel (S1,1 ) ab. Ob hier der Hinweis, die Suchmaschine werde in einem
Studentenprojekt weiterentwickelt, die Probandinnen stärker dazu animierte, Verbesserungsvorschläge anzubringen, kann jedoch nicht abschlieÿend geklärt werden. Zwar
überwiegt auch bei der zweiten Versuchsgruppe mit der niedrigen Erwartungshaltung
(S1,2 ) der Anteil der genannten Schwächen, doch fällt dieser Unterschied mit
55%
45%
zu
weit geringer aus.
Insgesamt ist zu berücksichtigen, dass sich die Anmerkungen der einzelnen Testpersonen meist nur auf wenige der Kategorien beziehen, was in der Folge zu geringen Fallzahlen innerhalb der einzelnen Antworttypen führt. Dies deutet darauf hin, dass hier
eher Einzelmeinungen vorliegen. Eine Interpretation der Ergebnisse der einzelnen Kategorien im Sinne einer Verallgemeinerung auf die Gesamtstichprobe erscheint deshalb
problematisch.
Frage
27 (Falls Du noch Anmerkungen zu dem Benutzertest hast, kannst Du diese
hier einbringen: ) wurde nur von sehr wenigen Probandinnen beantwortet, weshalb eine
quantitative Inhaltsanalyse an dieser Stelle nicht sinnvoll erscheint. Da diese Frage als
Gesamtbeurteilung des Benutzertests aus Sicht der Testteilnehmerinnen dienen sollte,
genügt hier eine Auswertung der Antworttexte über alle vier Versuchsgruppen hinweg.
Zunächst wurden Antworten, die thematisch eher auf Item
96
26 zutrafen, wie zum Beispiel
Die Seitenübersicht sollte zu jeder Zeit ersichtlich sein. nachträglich selbigem zugeordnet. Sieht man von sehr allgemeinen Aussagen wie war super! oder mehr frische Luft
ab, beziehen sich die übrigen neun Angaben auf die konkrete Aufgabenstellung. An
der Beurteilung des Schwierigkeitsgrads der Aufgaben, der sowohl als hoch wie auch als
niedrig eingeschätzt wird, kann man ablesen, dass es sich auch hier um Einzelmeinungen
handelt. Weitere Aussagen betreen weitestgehend die Themenauswahl für die zu bearbeitenden Aufgaben. Der genaue Wortlaut der Kommentare kann ebenfalls in Anhang
D.2 eingesehen werden. Hervorzuheben ist noch, dass, wie bereits in der Auswertung
von Frage
15
angesprochen, zwei Probandinnen explizit darauf hinweisen, dass sie die
Suchbegrie gern selbst gewählt hätten.
Die Auswertung von Item
28
hat ergeben, dass nur
2
der
27
Probandinnen, welche
diese zusätzliche Frage gestellt bekamen, angaben, im Vorfeld der Untersuchung versucht zu haben, sich im Internet über die Suchmaschine Periodikum zu informieren
(vgl. Abschn. 5.2.4). In beiden Fällen hat sich jedoch im Rahmen eines informellen Gesprächs im Anschluss an den Benutzertest herausgestellt, dass dies keinen Einuss auf
die Glaubwürdigkeit des präsentierten Systems hatte, so dass von einem Ausschluss der
von diesen Probandinnen erhobenen Daten in der Folge abgesehen wurde.
6.3.3. Auswertung der Benutzerleistung
In diesem Abschnitt wird die Auswertung der Testergebnisse zur Benutzerleistung dargestellt. Den Ausgangspunkt bildet eine Analyse der von den Versuchspersonen aufgerufenen Dokumente, da diese direkt oder indirekt in die Berechnung der einzelnen
Leistungsmaÿe einieÿen und so die Ursachen der in den Performanzmaÿen auftretenden Eekte besser beurteilt werden können.
Allgemein steht dabei die mittlere Leistung der Testpersonen über alle drei und nicht
ihr Abschneiden in den einzelnen Aufgaben im Vordergrund. Deshalb fanden zunächst
die in der Information-Retrieval-Forschung üblichen Mittelwertbildungsverfahren Anwendung: Die Makro- und die Mikromethode (vgl. Abschn. 2.3.2).
Unterschiede zwischen den mit diesen beiden Methoden erhaltenen Werte treten bei
allen Testpersonen höchstens in der zweiten Nachkommastelle auf. Aus diesem Grund
und weil beide Methoden auf qualitativ identische Resultate führen, wird im Folgenden
nur auf die Ergebnisse für die Makromittelwerte eingegangen, da dieses Verfahren in der
Retrievalbewertung am häugsten verwendet wird (vgl. Womser-Hacker 2004: 231).
Die Ergebnisse der Mikromittelwerte können Anhang C entnommen werden.
Neben den schon in Abschnitt 5.2.4 denierten Dokumentenmengen zur Berechnung
97
Tabelle 6.12.: Denition der Dokumentenmengen
a
M
Denition
M1
M2
M3
M4
M5
M6
M7
Menge der von CLEF als relevant bewerteten Dokumente in der Ergebnisliste
a
Menge der von einer Vpn.
aufgerufenen Dokumente
Menge der von einer Vpn. als relevant bewerteten Dokumente
Menge der von einer Vpn. übereinstimmend mit CLEF als relevant bewerteten Dokumente
Menge der von einer Vpn. aufgerufenen und von CLEF als relevant bewerteten Dokumente
Menge der von einer Vpn. im Gegensatz zu CLEF als irrelevant bewerteten Dokumente
Menge der von einer Vpn. im Gegensatz zu CLEF als relevant bewerteten Dokumente
Versuchsperson
der fünf Leistungsmaÿe werden im Folgenden noch drei weitere Teilmengen von
M2
be-
trachtet: Die Menge der aufgerufenen und von CLEF als relevant bewerteten Dokumente
M5 , die Menge der im Gegensatz zu CLEF als irrelevant bewerteten Dokumente M6 und
die Menge der im Gegensatz zu CLEF als relevant bewerteten Dokumente M7 . Zur besseren Übersicht sind alle Denitionen noch einmal in Tabelle 6.12 zusammengefasst.
In Tabelle 6.13 sind die Ergebnisse zweifaktorieller Varianzanalysen mit den beiden
Faktoren Erwartungshaltung und Systemgüte angegeben. Als abhängige Variablen gingen die über die drei Topics gemittelten Anzahlen der in den Mengen
M6
und
M7
enthaltenen Dokumente ein. Da die Anzahl der Dokumente
M2 , M3 , M5 ,
in M4 gerade
der Dok@10 entspricht, wird sie im Zusammenhang mit den übrigen Leistungsmaÿen
behandelt. Die Normalverteilungsvoraussetzung wird von keiner der betrachteten Einussgröÿen erfüllt. Des Weiteren ist bei der Menge
M7
auch die Varianzhomogenität
verletzt, so dass die Signikanzniveaus entsprechend abzusenken sind (vgl. Abschn. 6.2).
Tabelle 6.13.: Varianzanalyse der von den Benutzern angesehenen Dokumente
Dokumente
Erwartungshaltung
Systemgüte
Interaktion
a
b
c
in Menge
df
F
Sig.
df
F
Sig.
df
F
Sig.
M2
M3
M5
M6
M7
a
Freiheitsgrade
1
1
1
1
1
b
F-Wert
2,454
3,317
1,971
1,205
2,825
0,121
0,072
0,164
0,276
0,096
1
1
1
1
1
0,068
0,012
1,498
4,750
9,932
0,795
0,912
0,224
0,032
0,002
1
1
1
1
1
1,876
1,386
4,174
2,591
1,159
0,174
0,242
0,044
0,111
0,285
c Signikanz
Einzig die beiden Gröÿen, bei denen die Teilnehmer der Relevanzbewertung der
CLEF-Juroren widersprechen (M6 u.
M7 ),
den beiden Systemlevels erkennen. Mit fast
98
lassen signikante Unterschiede zwischen
30% (M6 )
und fast
60% (M7 )
weisen diese
Mengen auch mit den gröÿten prozentualen Mittelwertunterschied auf (vgl. Tab. 6.14).
Zunächst soll auf die Dierenz bezüglich der Anzahl der Dokumente, bei denen einer positiven Relevanzbewertung der CLEF-Juroren widersprochen wurde, eingegangen
werden (M6 ). Eine mögliche Interpretation ist, dass die Testpersonen, die viele zu einem Thema relevante Dokumente präsentiert bekamen (B2 ), die Relevanz der einzelnen
Dokumente strenger bewerteten. Beispielsweise könnten solche Benutzer Dokumente als
irrelevant empfunden haben, die thematisch nur zu einem geringen Teil mit ihrem Informationsbedürfnis in Verbindung standen. Diese restriktive Bewertung würde auch
erklären, warum diese Versuchsgruppe im Mittel weniger irrelevante Dokumente als relevant markiert hat (M7 ). Nimmt man die Bewertung der CLEF-Juroren als Maÿstab,
so sollten von ihnen als irrelevant markierte Dokumente erst recht von der strenger
bewertenden Versuchsgruppe abgelehnt worden sein.
Tabelle 6.14.: Mittelwerte der Dokumentenanzahlen
Erwartungshaltung
Systemgüte
Interaktion
M2
M3
M5
M6
M7
A1
A2
B1
B2
S1,1
S1,2
S2,1
S2,2
14,83
11,59
11,94
1,80
1,46
12,52
9,11
10,29
2,13
0,95
13,87
10,43
10,39
1,64
1,68
13,49
10,27
11,83
2,29
0,73
14,02
10,86
10,02
1,24
2,09
15,65
12,32
13,86
2,36
0,82
13,73
9,99
10,77
2,04
1,26
11,32
8,23
9,80
2,21
0,64
Der beobachtete Eekt lässt sich auch aus der entgegengesetzten Perspektive interpretieren. Die Gesamtzahl der Dokumente, die im Widerspruch zu den CLEF-Juroren als
relevant markiert wurden (M7 ), ist in der Versuchsgruppe, der der niedrigere Systemlevel (B1 ) präsentiert wurde, signikant höher. Diese Testpersonen scheinen die Relevanz
der einzelnen Dokumente also weniger streng zu bewerten. Die geringere Anzahl an relevanten Dokumenten in der Ergebnisliste könnte hier dazu geführt haben, dass auch
thematisch weiter vom eigenen Informationsbedürfnis entfernte Dokumente als relevant
akzeptiert wurden. Umgekehrt sollten Angehörige dieser Versuchsgruppe dann auch seltener ein von den CLEF-Juroren als relevant eingeschätztes Dokument abgelehnt haben
(M6 ), was in der Tat zu beobachten ist (vgl. Tab 6.14).
Ob tatsächlich eines dieser Erklärungsmodelle oder ein Zusammenwirken beider für
die beobachteten Eekte verantwortlich ist, muss an dieser Stelle allerdings oen bleiben. Die Tatsache, dass auch hier für die Erwartungshaltung kein signikanter Eekt
festzustellen ist, liefert einen weiteren Hinweis darauf, dass die Manipulation dieser Untersuchungsbedingung nicht stark genug ausgeprägt war.
99
Wie die nicht signikanten Haupt- und Interaktionseekte der übrigen Mengen vermuten lassen, liegen hier die Mittelwerte in der gleichen Gröÿenordnung (vgl. Tab. 6.14).
Dies ist schon ein Hinweis darauf, dass auch in den Leistungsmaÿen nur geringe Dierenzen sichtbar werden, was im Folgenden bestätigt wird.
Die Ergebnisliste des schlechteren Systems enthielt weniger relevant bewertete Dokumente. Aus diesem Grund hätte man erwarten können, dass sich ein deutlicher Unterschied in der Anzahl der aufgerufenen relevanten Dokumente (M5 ) zwischen den beiden
Systemlevels zeigt. Doch bestätigt sich diese Vermutung nur tendenziell. Der bei der
Menge
M5
auftretende Interaktionseekt (vgl. Tab. 6.13) kann mangels signikanter
Haupteekte nicht weiter interpretiert werden (vgl. Bortz/Döring 1995: 498), auch
ist die Signikanz hier wegen der Verletzung der Normalverteilungsbedingung anzuzweifeln.
Zur Auswertung der fünf in Abschnitt 5.2.4 beschriebenen Leistungsmaÿe wurden
zweifaktorielle Varianzanalysen mit diesen als abhängige und der Erwartungshaltung
und der Systemgüte als unabhängige Variablen durchgeführt. Nur bei der Pre-ClickPrecision (PCP) ist die Normalverteilungsbedingung erfüllt, für die restlichen Maÿe
also das Signikanzniveau anzupassen. Hingegen verletzt bis auf die Benutzer-Precision
(BP) kein Performanzmaÿ die Voraussetzung der Varianzhomogenität.
Tabelle 6.15.: Ergebnisse der zweifkatoriellen Varianzanaylsen der Leistungsmaÿe
Erwartungshaltung
Systemgüte
Interaktion
a
b
c
Maÿ
df
F
Sig.
df
F
Sig.
df
F
Sig.
Dok@10
1
BR
1
t1.Dok
1
BP
1
PCP
a
Freiheitsgrade
1
b
2,868
2,562
0,041
0,486
0,939
F-Wert
0,094
0,113
0,840
0,488
0,335
1
1
1
1
1
0,465
0,519
0,101
13,045
4,424
0,497
0,473
0,751
0,001
0,038
1
1
1
1
1
2,731
2,316
0,289
4,823
1,013
0,102
0,132
0,592
0,031
0,317
c Signikanz
In Tabelle 6.15 sind deren Ergebnisse in Bezug auf die Haupt-und Wechselwirkungseekte dargestellt. Sowohl für die Benutzer-Precision (BP) als auch für die Pre-ClickPrecision (PCP) lässt sich ein signikanter Einuss der Systemgüte auf die Benutzerleistung nachweisen. Für die restlichen Maÿe zeigt keine der Versuchsbedingungen einen
signikanten Einuss.
Tendenziell ist allerdings, wie erwartet, die Zahl der korrekt relevanten Dokumente
(Dok@10) beim besseren System (B2 ) gröÿer als beim schlechteren (B1 ) (vgl. Tab. 6.16).
Der gegensätzliche Trend zu einem geringeren Benutzer-Recall (BR) bei Testpersonen,
100
denen der höhere Systemlevel präsentiert wurde, überrascht in diesem Zusammenhang
zunächst, da hier als Benutzerleistung nur die Dok@10 in die Berechnung eingeht. Allerdings ist zu beachten, dass sich der Benutzer-Recall als Quotient aus der Dok@10 und der
Gesamtzahl relevanter Dokumente in der Ergebnisliste berechnet (vgl. Abschn. 5.2.4).
Da die Ergebnisliste des schlechteren Systems weniger relevante Dokumente enthält (vgl.
Abschn. 5.2.3) und der Unterschied in der Dok@10 zwischen den beiden Systemlevels
relativ gering ausfällt, gibt hier das Teilen durch eine kleinere Zahl den Ausschlag. Damit erklärt sich der niedrigere Wert des Benutzer-Recalls bei Versuchspersonen mit dem
besseren System.
Insgesamt scheinen aber die Probandinnen in Bezug auf die recall-orientierten Maÿe
in der Lage zu sein, den Unterschied zwischen den Systemlevels zu kompensieren, was
sich an den nicht signikanten Haupteekten von Dok@10 und BR ablesen lässt (vgl.
Tab. 6.15).
Die Zeit, die zum Aunden des ersten korrekt relevanten Dokuments benötigt wurde
(t1.Dok ), zeigt auch keine signikante Beeinussung durch die beiden unterschiedlichen
Systemlevels. Da der prozentuale Mittelwertunterschied mit einem knappen Prozent mit
Abstand am geringsten ausfällt, kann hier auch nicht von einem Trend in die eine oder
andere Richtung gesprochen werden.
Tabelle 6.16.: Mittelwerte der Leistungsmaÿe
Erwartungshaltung
Systemgüte
Interaktion
Dok@10
BR
t1.Dok
BP
PCP
A1
A2
B1
B2
S1,1
S1,2
S2,1
S2,2
10,14
0,20
440,99
0,89
0,67
8,16
0,16
443,62
0,90
0,64
8,75
0,19
440,23
0,86
0,62
9,55
0,17
444,38
0,93
0,68
8,77
0,19
435,42
0,83
0,62
11,50
0,21
446,56
0,95
0,71
8,73
0,19
445,04
0,89
0,62
7,59
0,14
442,20
0,92
0,66
Die signikant niedrigeren Werte in der Pre-Click-Precision (PCP) bei Teilnehmerinnen, die mit dem schlechteren System gearbeitet haben, bei gleichzeitig nicht signikant
unterschiedlicher Dok@10, scheint im ersten Moment folgende Interpretation nahezulegen: Die entsprechenden Versuchspersonen mussten mehr Dokumente önen, um die
gleiche Anzahl korrekt relevanter Dokumente zu nden wie die Angehörigen der Versuchsgruppe mit dem besseren System. Allerdings ist der Unterschied in der Menge
M2
auch nicht signikant, wie Tabelle 6.14 zu entnehmen ist. Stattdessen tritt hier ein
Verstärkungseekt auf.
101
Wie bereits erläutert, nden die Probandinnen mit dem schlechteren System zumindest tendenziell weniger korrekt relevante Dokumente (Dok@10) als Angehörige der
Vergleichsgruppe mit dem höheren Systemlevel. Wie aus den zu Beginn dieses Abschnitts analysierten Dokumentenmengen hervorgeht, lässt sich bei den Probandinnen
mit der geringeren Systemgüte weiterhin ein schwacher Trend zu einer gröÿeren Anzahl
an geöneten Dokumenten beobachten (vgl. Tab. 6.14). Für sich genommen ist keiner
dieser Unterschiede signikant. Für die Berechnung der Pre-Click-Precision werden diese beiden Gröÿen aber durcheinander geteilt. Die bei dem schlechteren System schon
tendenziell geringere Dok@10 wird so noch durch die tendenziell gröÿere Zahl der angesehenen Dokumente geteilt. Bei dem besseren System ist es genau umgekehrt. Die
daraus resultierende Verstärkung der Unterschiede zwischen den beiden Systemlevels
führt in der Konsequenz zu einer signikanten Mittelwertdierenz.
Im Folgenden soll untersucht werden, wie der signikante Unterschied in der BenutzerPrecision (BP) zu erklären ist. Sie ist als der Quotient der Dok@10 und der Menge
der als relevant markierten Dokumente (M3 ) deniert. Beachtet man, dass sich
M3
in
die Summe aus Dok@10 und der Anzahl der fälschlicherweise als relevant markierten
Dokumente (M7 ) zerlegen lässt, ergibt sich für die BP:
BP
=
Dok@10
Dok@10
+ M7
=
Dok@10
Dok@10(1
Man erkennt, dass die BP nur von der Gröÿe
+
M7
Dok@10 )
=
1
1+
M7
(6.1)
Dok@10
M
7
Dok@10 abhängt. Damit wird der Unter-
schied in der Benutzer-Precision zwischen den beiden Systemlevels in erster Linie durch
die zu Beginn dieses Abschnitts analysierte signikante Mittelwertdierenz in der Menge
M7
verursacht. An der Benutzer-Precision ist also direkt die restriktivere beziehungs-
weise weniger strenge Relevanzbewertung der beiden Versuchsgruppen abzulesen. Durch
den tendenziellen Unterschied in der Zahl der korrekt relevant markierten Dokumente
wird dieser Unterschied höchstens noch weiter verstärkt.
Interessant ist der bei der Benutzer-Precision tendenziell auftretende Wechselwirkungseekt zwischen Erwartungshaltung und Systemgüte, wenn dieser wegen der Verletzung der Varianzhomogenität auch knapp nicht signikante ist. Wie aus den Interaktionsdiagrammen in Abbildung 6.5 hervorgeht, handelt es sich dabei um eine hybride
Interaktion, da die Linienzüge in Diagramm 6.5(a) entgegengesetzt und in Diagramm
6.5(b) gleichsinnig verlaufen (vgl. Bortz 2005: 301). Damit ist, wie zuvor geschehen,
nur die Systemleistung global als bei dem höheren Systemlevel gröÿer zu interpretieren
102
(a) Erwartungshaltung - Benutzer-Precision
(b) Systemleistung - Benutzer-Precision
Abbildung 6.5.: Interaktionsdiagramme Benutzer-Precision
(vgl. ebd.). Weiterhin scheint der Unterschied in der Benutzer-Precision zwischen Probandinnen mit der niedrigen Erwartungshaltung bei den beiden Systemlevels besonders
ausgeprägt zu sein. Eine globale Aussage für die Erwartungshaltung, dass die BenutzerPrecision für die eine Faktorstufe höher als für die andere sei, ist jedoch nicht möglich
(vgl. ebd.).
Allgemein ist aber auch zu den soeben betrachteten Leistungsmaÿen Benutzer- und
Pre-Click-Precision (BP u. PCP) zu bemerken, dass die prozentualen Mittelwertunterschiede mit
8%
und
9%
nicht übermäÿig stark ausfallen (vgl. Tab. 6.16).
Auÿer im Fall der tendenziellen Interaktion bei der Benutzer-Precision zeigt sich auch
für die Leistungsmaÿe kein signikanter Einuss der Erwartungshaltung. Letzteres ist
wahrscheinlich, wie schon in Abschnitt 6.3.2 angemerkt, darauf zurückzuführen, dass
die Manipulation dieses Faktors nicht in ausreichendem Maÿe gelungen ist.
6.3.4. Einbeziehung von Kovariaten
In diesem Abschnitt wird untersucht, inwiefern sich die Einüsse von Kontrollvariablen
auf die Benutzerleistung und die Benutzerzufriedenheit auswirken. Dies geschieht, indem
die entsprechenden Einussgröÿen als Kovariaten in die statistische Analyse einbezogen
werden (vgl. Abschn. 6.2).
Als erstes wurde mit Hilfe einer weiteren einfaktoriellen Varianzanalyse mit dem Alter
der Testteilnehmerinnen als unabhängige und den abhängigen Variablen Benutzerleistung und Benutzerzufriedenheit überprüft, ob die Altersverteilung der Probandinnen
einen Einuss auf die Untersuchungsergebnisse ausübt. Dazu fand eine Einteilung der
103
Tabelle 6.17.: Überprüfung der Daten auf Alterseekte
Varianzanalyse
Post-Hoc-Test
1. vs. 2. AG 1. vs. 3. AG 2. vs. 3. AG
df a Fb Sig.c
MDd Sig. MD Sig. MD Sig.
Maÿ
Dok@10
2
BR
2
t1 .Dok
2
BP
2
PCP
a
2
Freiheitsgrade
b
F-Wert
6,497
5,676
1,609
1,039
1,609
0,002
0,005
0,206
0,358
0,206
c Signikanz d
−1,84
−0,04
0,464
0,381
−7,47
−0,14
0,003
0,005
−5,63
−0,10
0,010
0,035
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
Mittelwertdierenz
Teilnehmerinnen in drei Altersgruppen (AG) (1. AG
AG
= 28 − 32)
= 17 − 21, 2.
AG
= 22 − 27, 3.
statt. Die Varianzhomogenität ist bei allen Tests gegeben. Wegen ei-
ner Verletzung der Normalverteilungsbedingung wurde die Signikanzgrenze erneut auf
p < 0, 04
vermindert (vgl. Abschn. 6.2). Dies ist allerdings in keinem der betrachteten
Fälle relevant, da alle Ergebnisse weit ober- beziehungsweise unterhalb dieser Grenze
liegen.
Die Befunde für die Leistungsmaÿe sind in Tabelle 6.17 angegeben. Es zeigt sich,
dass das Alter nur auf die recall-orientierten Maÿe (Dok@10 u. BR) einen signikanten
Einuss hat. Angehörige der dritten Altersgruppe (3. AG) nden hier deutlich mehr
relevante Dokumente. Ob dies beispielsweise in einer höheren Allgemeinbildung, einer
besseren Konzentrationsfähigkeit oder einem souveräneren Umgang mit der Testsituation begründet liegt, muss im Rahmen dieser Untersuchung allerdings oen bleiben,
zumal dieser Unterschied bei den precision-orientierten Maÿen nicht gegeben ist.
Auch die Frageitems zur Zufriedenheit wurden auf einen Alterseinuss getestet. Bis
auf Frage
2 (df = 2, F = 4, 789, Sig. = 0, 011),
ob die Suchmaschine einfach zu bedie-
nen sei, ist jedoch bei keinem Frageitem ein signikanter Einuss zu beobachten. Der
Post-Hoc-Test ergibt hier erneut einen signikanten Unterschied zwischen der zweiten
und dritten Altersgruppe (vgl. Anh. C.5). Dies deckt sich mit der Beobachtung für
die Leistungsmaÿe, dass es Angehörigen der dritten Altersgruppe leichter el, relevante
Dokumente zu identizieren.
Aufgrund der beobachteten Alterseekte ist es sinnvoll, das Alter der Testteilnehmerinnen insbesondere bei den recall-orientierten Leistungsmaÿen als Kovariate in die
Auswertung einzubeziehen (vgl. Abschn. 6.3.4). Im Folgenden wird nur die Auswertung
der Performanzmaÿe und der kombinierten Zufriedenheitsskala (BZ) der Frageitems
9, 10, 11, 13
und
14
8,
dargestellt (vgl. Tab. 6.18). Für die einzelnen Frageitems lässt sich
wie im Fall der Altersgruppen kein signikanter Einuss nachweisen (vgl. Anh. C.5).
104
Dies gilt selbst für das zuvor angesprochene Frageitem
Maÿ
a
1
BR
1
t1.Dok
1
BP
1
PCP
1
BZ
1
d
Tabelle 6.18.: Varianzanalysen mit Kovariate Alter
Alter
Erwartungshaltung
Systemgüte
b
c
F
Sig. df
F
Sig.
df
F
Sig.
df a
Dok@10
Freiheitsgrade
2.
4,933
4,796
2,000
0,497
0,512
0,250
b
0,029
0,031
0,161
0,483
0,476
0,618
F-Wert
1
1
1
1
1
1
1,266
1,080
0,024
0,720
0,575
0,287
c Signikanz d
0,264
0,302
0,877
0,398
0,451
0,594
1
1
1
1
1
1
0,301
0,774
0,171
12,578
4,183
6,674
0,585
0,382
0,680
0,001
0,044
0,012
Interaktion
df
F
Sig.
1
1
1
1
1
1
2,642
2,225
0,338
4,702
0,965
0,089
0,108
0,140
0,563
0,033
0,329
0,766
Gesamtskala Benutzerzufriedenheit
Bei den Performanzmaÿen wurde sich, wie im vorherigen Abschnitt, auf die Angabe der Makromittelwerte beschränkt, da auch in diesem Fall kein qualitativer Unterschied zu den Mikromittelwerten feststellbar ist. Wie sich bei der Analyse mit Hilfe
der Altersstufen schon andeutete, besitzt das Alter der Teilnehmerinnen nur bei den
recall-orientierten Maÿen einen signikanten Einuss, ohne jedoch einen Haupteekt in
Erwartungshaltung oder Systemgüte sichtbar werden zu lassen.
Um eine weitere potentielle Störvariable könnte es sich bei der Rechercheerfahrung
der Versuchspersonen handeln, die mit den Frageitems
21
bis
25
erfasst werden sollte.
Für jede dieser fünf Fragen wurden die Probandinnen ihren Antworten entsprechend als
durchschnittlich oder besonders erfahren eingestuft. Die Einteilung erfolgte dabei so,
dass der Median für jedes der Frageitems innerhalb der Durchschnittsgruppe lag. Die
einzige Ausnahme von dieser Regel bildet Item 21, da in diesem Fall
60%
der Teilneh-
merinnen angaben, an sieben Tagen der vergangenen Woche einen Computer benutzt
zu haben (vgl. Abschn. 6.1). Aus diesem Grund wurde diese Gruppe als rechercheerfahrener als Testteilnehmerinnen mit weniger als sieben Tagen Computernutzung in der
Woche angesehen.
Als Gesamtrechercheerfahrung der Testpersonen wurde nun deniert, wie oft sie für
die fünf Frageitems der erfahrenen Benutzergruppe angehörten, woraus sich eine sechsstuge Skala (0 bis
5)
ergibt. Abbildung 6.6 zeigt ein Histogramm für die Häugkei-
ten der einzelnen Skalenwerte. Die Auswertung erfolgte für alle Leistungsmaÿe und die
Frageitems wie auch schon im Fall der Alterseekte durch zweifaktorielle Kovarianzanalysen mit der Rechercheerfahrung als Kontroll- und der Erwartungshaltung sowie
der Systemgüte als unabhängige Variablen. Es lässt sich jedoch weder auf die Benutzerleistung noch auf die Benutzerzufriedenheit ein signikanter Einuss nachweisen (vgl.
Anh. C.6). Die Ursache dafür könnte in der durch das gewählte Untersuchungsdesign
105
Abbildung 6.6.: Histogramm der Kovariate Rechercheerfahrung
festgelegten Beschränkung auf vorgegebene Suchanfragen begründet liegen.
Da die Aufgabe der Teilnehmerinnen somit primär im Identizieren von relevanten
Dokumenten bestand, stellt sich die Frage, ob hier nicht eine allgemeinere Kovariate,
wie die Informationskompetenz der Benutzer, berücksichtigt werden sollte. Wobei Kuhlen diese folgendermaÿen deniert: Selbstbestimmt über die Nutzung und den Nutzen
informationeller Ressourcen und das in ihnen enthaltene Wissen entscheiden zu können,
macht Informationskompetenz aus. (Kuhlen 2004: 306) Dieses Zitat macht deutlich,
dass mit der Rechercheerfahrung nur eine Facette der Informationskompetenz erfasst
wurde. In einer Folgestudie wäre also zu überlegen, weitere Aspekte der Informationskompetenz der Testteilnehmer zu erheben.
Auf weitere Verbesserungsmöglichkeiten und eine zusammenfassende Bewertung der
in diesem Kapitel dargestellten Ergebnisse wird in dem sich nun anschlieÿenden Fazit
eingegangen.
106
Information-Retrieval-Systeme und ihre Fähigkeit, Dokumente in umfangreichen Datenbeständen aufzunden, sind zur Bewältigung der digitalen Informationsut unverzichtbar. Die Eektivität solcher Suchsysteme zu quantizieren ist Aufgabe der InformationRetrieval-Evaluierung. Dabei entscheidet in letzter Konsequenz der Mehrwert, den ein
Anwender aus dem Einsatz eines Information-Retrieval-Systems erlangt, über dessen
Qualität.
Den Ausgangspunkt der vorliegenden Magisterarbeit bildete die Fragestellung, welche
Wirkung die Qualität von Retrievalergebnissen auf den Sucherfolg der Benutzer einerseits und ihre Wahrnehmung des verwendeten Systems andererseits ausübt. Da in der
Kundenzufriedenheitsforschung die Wahrnehmung eines Produkts eng mit der Erwartungshaltung des Konsumenten verknüpft ist, erhob sich weiterhin die Frage, ob dieser
Einuss auch in der Information-Retrieval-Evaluierung zu beobachten sei.
Dazu wurde ein benutzerorientiertes Untersuchungsdesign entworfen, das die gleichzeitige Überprüfung beider Faktoren gestattete. Auf Benutzerseite wurden diesbezüglich
die Benutzerleistung sowie die Benutzerzufriedenheit erfasst. Die wesentlichen empirischen Befunde der durchgeführten Untersuchung werden nun noch einmal zusammengefasst und mit den Ergebnissen anderer Studien verglichen. Dabei wird die theoretische
und praktische Bedeutsamkeit der Ergebnisse herausgearbeitet und auf zusätzlichen
Forschungsbedarf hingewiesen.
In Bezug auf die Auswertung der Benutzerzufriedenheit konnte tatsächlich ein signikanter Einuss der Systemleistung auf das Zufriedenheitsurteil der Testteilnehmerinnen
nachgewiesen werden (vgl. Abschn. 6.3.2). Allerdings ist diese Einussnahme in der Einzelauswertung nur bei zwei Items, die dezidiert die Zufriedenheit mit der Precision der
Ergebnisliste abfragen, zu beobachten. Auch für die gemeinsame Zufriedenheitsskala zur
Qualität der Ergebnislisten ist dieser Eekt gegeben. Insgesamt führt der prozentuale
Unterschied von
10%
in der Precision und
listen auf eine Dierenz von
18%
20%
in der Average Precision der Ergebnis-
für die beiden einzelnen Frageitems und
12%
für die
Gesamtzufriedenheitskala. Damit zeigt sich, dass Benutzer in der Lage sind, systemseitig
gemessene qualitative Unterschiede von Retrievalergebnissen zu bemerken.
107
Diese Beobachtung deckt sich mit den Ergebnissen von Al-Maskari et. al., die ebenfalls
einen Zusammenhang zwischen der Precision und der Benutzerzufriedenheit nachweisen
konnten (vgl. Al-Maskari et al. 2007: 773), wohingegen in der Vorgängerstudie zum
Bildretrieval keine Korrelation mit der P@100 und der R-Precision zu erkennen war (vgl.
Al-Maskari et al. 2006: 4). Weiterhin präferierte die Mehrheit der Teilnehmer der
letztgenannten Untersuchung in einem Abschlussfragebogen eine hohe Precision anstelle
eines hohen Recall, was mit den signikanten Testergebnissen der Frageitems
9
und
10
der vorliegenden Arbeit übereinstimmt.
Zusammenfassend könnte dies ein Hinweis darauf sein, dass eine parallele Charakterisierung der Systemgüte durch die Average Precision und die Precision besser geeignet
ist, die Zufriedenheit von Benutzern mit einem Information-Retrieval-System einzuschätzen. Für eine eindeutige Klärung dieses Zusammenhangs besteht allerdings weiterer Forschungsbedarf. Auch wäre für eine Folgestudie zu überlegen, den Fragenkatalog
in Bezug auf die Qualität der Ergebnislisten weiter auszubauen, da der Einuss der
unterschiedlichen Systemlevels bei solchen Frageitems am stärksten ausgeprägt war.
Weiterhin hat sich gezeigt, dass die indirekte Erhebung der Benutzerzufriedenheit
problematisch ist, da leicht auch nicht intendierte Aspekte die Antworten beeinussen
können. Hier sollten in umfangreicheren Vortests präzisere Frageitems entwickelt und
erprobt werden. Im Hinblick auf eine bessere Vergleichbarkeit und Erprobung wäre allgemein eine Standardisierung von Fragebögen zur Messung der Benutzerzufriedenheit
durch die Evaluierungsinitiativen hilfreich.
Für die beiden Erwartungshaltungen ergaben sich keine signikanten Abweichungen
in der Zufriedenheit der Testteilnehmerinnen. In der Tendenz lieÿen sich allerdings die
Vorhersagen des C/D-Paradigmas erkennen, was einen Anknüpfungspunkt für weitergehende Untersuchungen bietet.
Wie im Auswertungskapitel bereits angemerkt, lässt sich der fehlende Einuss der
Erwartungshaltung wohl in erster Line auf eine nicht in ausreichendem Maÿe gelungene Manipulation dieses experimentellen Faktors zurückführen. Für Folgestudien sollte
deshalb das Vorgehen modiziert werden. Ein erster Punkt betrit hier die Instruktion
der Testpersonen, die im vorliegenden Fall in schriftlicher Form erfolgte und somit von
den Teilnehmerinnen leicht überlesen werden konnte. Ein direkter Hinweis durch den
Versuchsleiter könnte hier Abhilfe schaen, was allerdings mit der Gefahr von Versuchsleitereekten verbunden wäre. Eine zweite Überlegung betrit die Tatsache, dass die
Szenarien Studentenprojekt versus professionelle Recherchesoftware für sich genommen
nicht die gewünschte Erwartung bei den Probanden ausgelöst hat. Hier wäre zu überlegen, den Testpersonen beide Alternativen zu nennen und sie darüber zu informieren,
108
mit welchem System sie im Folgenden arbeiten werden. Damit könnten die Versuchsteilnehmer das präsentierte System eher in einen Kontext einordnen und sich damit bei
ihnen eine entsprechende Erwartungshaltung einstellen.
Für die Auswertung der Benutzerleistung mit Hilfe der fünf Performanzmaÿe können zwei Hauptergebnisse festgehalten werden (vgl. Abschn. 6.3.3): Für die recallorientierten Leistungsmaÿe ist keine signikante Beeinussung durch die präsentierte
Systemgüte festzustellen. Benutzer sind also in der Lage, den Qualitätsunterschied in
Precision und Average Precision zwischen Retrievalergebnissen bei der Befriedigung ihres Informationsbedürfnisses zu kompensieren. Dies steht im Einklang mit den Befunden
der beiden Studien von Turpin und Hersh (vgl. Turpin/Hersh 2001: 230).
Hingegen ergab sich ein signikanter Einuss der Systemgüte auf die beiden precisionorientierten Maÿe. Sowohl in der Benutzer- als auch in der Pre-Click-Precision erzielten
Testpersonen, die mit dem besseren System arbeiteten, eine höhere Leistung.
Interessanterweise beruht dieser Eekt auf einer unterschiedlich strengen Relevanzbewertung der Versuchspersonen, je nachdem welches der beiden Systemlevels ihnen
präsentiert wurde. Benutzer, die mit einem schlechteren System arbeiten, scheinen in
gröÿerem Maÿe bereit zu sein, auch thematisch weiter von ihrem Informationsbedürfnis
entfernte Dokumente als relevant zu akzeptieren. Dies konnte anhand einer signikant
höheren Zahl von Dokumenten, die entgegen der CLEF-Bewertung als relevant markiert
wurden, nachgewiesen werden. Ein umgekehrter Eekt ist hingegen bei den Benutzerinnen des besseren Systems zu beobachten. Sie widersprechen signikant häuger einer
positiven Relevanzbewertung der CLEF-Juroren. In beiden Fällen ist der prozentuale
Mittelwertunterschied mit fast
60%
beziehungsweise fast
30%
deutlich ausgeprägt.
Dieser Adaptionseekt könnte ein lohnender Ausgangspunkt für weitere Forschung
sein, einerseits, um die Repräsentativität der untersuchten Stichprobe zu validieren,
andererseits, weil dieses Verhalten eine mögliche Erklärung für die allgemein positive
Beurteilung von Information-Retrieval-Systemen liefern könnte, wie sie auch in anderen Studien beobachtet wurde. So bemerken beispielsweise Al-Maskari et. al.: Results
demonstrate that users were highly satised with the system's performance despite the
system not being of high quality [. . . ]. (Al-Maskari et al. 2006: 4)
Im Zusammenhang mit der Repräsentativität der Stichprobe wäre zum Vergleich auch
eine Erweiterung auf männliche Testteilnehmer in Betracht zu ziehen. Darüber hinaus
wäre eine Überprüfung dieser Befunde im Kontext einer Recherche ohne Vorgabe von
Suchbegrien empfehlenswert, um sicherzustellen, dass bei der Verfolgung einer individuellen Suchstrategie die gleichen Eekte beobachtet werden können.
Die Tatsache, dass trotz des beschriebenen Anpassungseekts der individuellen Rele-
109
vanzbewertung keine signikante Wirkung der Erwartungshaltung zu erkennen war, ist
ein weiteres Indiz dafür, dass die Manipulation dieser Einussgröÿe in einer möglichen
Folgestudie verstärkt werden sollte. Trotzdem war in Bezug auf die Benutzer-Precision
zumindest in der Tendenz ein Interaktionseekt derart erkennbar, dass Benutzer mit
einer niedrigen Erwartungshaltung besonders stark von einem besseren System protieren. Die im Zusammenhang mit der Zufriedenheit genannten Verbesserungsvorschläge
könnten auch hier Abhilfe schaen.
Eine Analyse möglicher Störvariablen ergab, dass in der vorliegenden Untersuchung
weder das Alter noch die Rechercheerfahrung der Testpersonen den Einuss von Systemleistung und Erwartungshaltung auf Benutzerleistung und Zufriedenheit verzerren (vgl.
Abschn. 6.3.4). Wie bereits angesprochen, wäre zu überlegen, ob in einer erweiterten
Studie die weiter gefasste Einussgröÿe Informationskompetenz erhoben werden sollte,
um die Homogenität der Versuchsgruppen noch besser zu kontrollieren. Auch könnte zusätzlich das Vorwissen zu den einzelnen Topics erfragt werden, um eine dadurch
verursachte Verzerrung der Stichprobe auszuschlieÿen.
Ferner wäre darüber nachzudenken, ob die Durchführung einer Kano-Analyse (vgl.
Abschn. 3.2.1) weiteren Aufschluss über die Wahrnehmung von Retrievalergebnissen liefern könnte. Grundsätzlich erscheint eine solche Analyse vor allem in Bezug auf gestalterische Aspekte wie die Beschreibung von Suchergebnissen in Treerlisten oder erweiterte
Suchfunktionalitäten, wie die Möglichkeit bestimmte Begrie ausschlieÿen zu können,
sinnvoll. Auf diese Weise lieÿe sich herausnden, welche Eigenschaften Benutzer von
Information-Retrieval-Systemen als Basis-, Leistungs- oder Begeisterungsfaktoren erleben und infolgedessen erwarten oder gar voraussetzen. Zu beachten ist jedoch, dass die
Kano-Methode äuÿerst zielgruppenabhängig ist und mit der Gewöhnung an bestimmte
Systemeigenschaften eine Verschiebung der Kategorien stattnden kann.
Zusammenfassend kann gesagt werden, dass die in der vorliegenden Arbeit gewählte
interdisziplinäre Herangehensweise einen vielversprechenden Ansatz für die benutzerorientierte Evaluierung von Information-Retrieval-Systemen darstellt. Insbesondere die
Einbeziehung der Erwartungshaltung als Determinante der Benutzerzufriedenheit sollte
in diesem Zusammenhang weiter untersucht werden.
110
Al-Maskari et al. 2006
Al-Maskari, Azzah; Clough, Paul; Sanderson, Mark (2006):
tiveness and Satisfaction for Image Retrieval.
Users' Eec-
In: (Althoff/Schaaf 2006), S.
8488
<http://web1.bib.uni-hildesheim.de/edocs/2007/521554985/meta/>
(veriziert
am: 21.07.2008)
Al-Maskari et al. 2007
Al-Maskari, Azzah; Clough, Paul; Sanderson, Mark (2007): The Relationship
between IR Eectiveness Measures and User Satisfaction.
In: (Clarke et al.
2007), S. 773774
Al-Maskari/Sanderson 2006
Al-Maskari, Azzah; Sanderson, Mark (2006): The Eects of Topic Familiarity
on User Search Behavior in Question Answering Systems. In: (Althoff/Schaaf
2006), S. 132137
(veriziert
am: 21.07.2008)
Allan et al. 2005
Allan, James; Carterette, Ben; Lewis, Joshua (2005): When Will Information
Retrieval Be 'Good Enough' ? User Eectiveness As a Function of Retrieval Accuracy. In: Baeza-Yates, Ricardo A.; Ziviani, Nivio; Marchionini, Gary; Moffat,
Proceedings of the 28th Annual International ACM
SIGIR Conference on Research and Development in Information Retrieval (SIGIR
2005). Salvador, Brasilien, 15.-19.08.2005, New York : ACM Press, S. 433440
Alistair; Tait, John (Hrsg.):
Althoff/Schaaf 2006
Lernen - Wissensentdeckung
- Adaptivität (LWA 2006) : Workshop Information Retrieval 2006 of the Special
Interest Group Information Retrieval (FGIR 2006). Hildesheim, Deutschland, 9.Althoff, Klaus-Dieter; Schaaf, Martin (Hrsg.):
11.10.2006, Hildesheim : Universität Hildesheim, Institut für Informatik (Hildesheimer Informatik Berichte).
Belkin et al. 2000
Belkin, Nicholas J.; Ingwersen, Peter; Leong, Mun-Kew (Hrsg.):
Proceedings of
111
the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2000). Athen, Griechenland, 24.-28.07.2000,
New York : ACM Press
Bertram 2004
Bertram, Jutta (2004):
Methodische Grundlagen der Nutzerforschung.
Fach-
hochschule Potsdam, Institut für Information und Dokumentation (veriziert am:
20.02.2008)
<http://www.iid.fh-potsdam.de/fileadmin/iid/dokumente/nufoSCRv2_1_.pdf>
Bollmann/Cherniavsky 1980
Bollmann, Peter; Cherniavsky, Vladimir S. (1980): Probleme der Bewertung
von Information-Retrieval-Systemen. In: (Kuhlen 1980), S. 97121
Bortz/Döring 1995
Bortz, Jürgen; Döring, Nicola (1995):
Sozialwissenschaftler.
Forschungsmethoden und Evaluation : für
2., vollst. überarb. u. akt. Au. Berlin : Springer (Springer-
Lehrbuch)
Bortz 2005
Bortz, Jürgen and (2005):
Statistik für Human- und Sozialwissenschaftler.
6.,
vollst. überarb. u. akt. Au. Heidelberg : Springer Medizin (Springer-Lehrbuch)
Braschler 2002
Braschler, Martin (2002):
CLEF 2001 - Overview of Results.
In: Peters,
Evaluation of Cross-Language Information Retrieval Systems : Second Workshop of the
Cross-Language Evaluation Forum (CLEF 2001). Darmstadt, Deutschland, 03.-
Carol; Braschler, Martin; Gonzalo, Julio; Kluck, Michael (Hrsg.):
04.09. 2001, Revised Papers. Berlin : Springer (Lecture Notes in Computer Science
2406), S. 926
Braschler 2004
Braschler, Martin (2004): CLEF 2003 - Overview of Results. In: Peters, Ca-
Comparative
Evaluation of Multilingual Information Access Systems : 4th Workshop of the CrossLanguage Evaluation Forum (CLEF 2003). Trondheim, Norwegen, 21.-22.08.2003,
rol; Gonzalo, Julio; Braschler, Martin; Kluck, Michael (Hrsg.):
Revised Papers. Berlin : Springer (Lecture Notes in Computer Science 3237), S.
4463
Buckley/Voorhees 2004
Buckley, Chris; Voorhees, Ellen M. (2004): Retrieval Evaluation with Incom-
Proceedings of the 27th Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval (SIGIR 2004).
plete Information. In:
Sheeld, Groÿbritannien, 25.-29.07.2004, New York : ACM Press. ISBN 158113
8814, S. 2532
112
Buckley/Vorhees 2000
Buckley, Chris; Vorhees, Ellen M. (2000): Evaluating Evaluation Measure Stability. In: (Belkin et al. 2000), S. 3340
Cardozo 1965
Cardozo, Richard N. (1965): An Experimental Study of Customer Eort, Expectation, and Satisfaction. In:
Journal of Marketing Research (JMR)
2, Nr. 3, S.
244249
Clarke et al. 2007
Clarke, Charles L. A.; Fuhr, Norbert; Kando, Noriko; Kraaij, Wessel; Vries,
Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2007). Ams-
Arjen P. (Hrsg.):
terdam, Niederlande, 23.-27.07.2007, New York : ACM Press
Clef 2008
Clef (2008):
Homepage des Cross-Language Evaluation Forums (CLEF) (veriziert
am: 15.06.2008)
<http://www.clef-campaign.org>
Dahm 2006
Dahm, Markus (2006):
Grundlagen der Mensch-Computer-Interaktion.
München :
Pearson Studium (Informatik : Software-Ergonomie)
Duden 2003
Schülerduden Informatik : Ein Lexikon zum Informatikunterricht :
Begrie, Prinzipien und Methoden der Informatik. Das Grundlagenwissen für Unterricht und Computerpraxis. 4., akt. Au. Mannheim : Dudenverlag
Duden (2003):
Duden 2007
Duden (2007):
Duden : Das Fremdwörterbuch.
9., akt. Auage. Mannheim : Du-
denverlag (Der Duden in zwölf Bänden : Das Standardwerk zur deutschen Sprache
5)
Ferber 2003
Information Retrieval : Suchmodelle und Data-MiningVerfahren für Textsammlungen und das Web. 1. Au. Heidelberg : dpunkt-Verl.
Ferber, Reginald (2003):
Festinger 1978
Festinger, Leon (1978) ; Irle, Martin; Möntmann, Volker (Hrsg.):
kognitiven Dissonanz.
Bern : Huber
Fuhr 2005
Fuhr, Norbert (2005):
Retrieval.
Universität
Theorie der
Information Retrieval.
Duisburg-Essen,
Skript zur Vorlesung Information
Abteilung
Informatik
und
angewandte
Kognitionswissenschaft (veriziert am: 07.02.2008)
<http://www.is.informatik.uni-duisburg.de/courses/ir_ss05/folien/irskall.
pdf>
113
Gediga et al. 2005
Gediga, Günther; Gildhorn, Antje; Colver, Britta (2005):
vascoda.de aus Benutzersicht : Ergebnisse der Nutzerbefragung
Evaluation von
(veriziert am:
10.06.2008)
<http://www.dl-forum.de/dateien/Evaluation_vascoda_Ergebnisse_Befragung_
2005.pdf>
Giese/Cote 2000
Giese, Joan L.; Cote, Joseph A. (2000): Dening Consumer Satisfaction. In:
Academy of Marketing Science Review (AMS Review)
4, Nr. 1, S. 124.
<http://www.amsreview.org/articles/giese01-2000.pdf>
Hersh et al. 2000
Hersh, William; Turpin, Andrew; Price, Susan; Chan, Benjamin; Kramer,
Dale; Sacherek, Lynetta; Olson, Daniel (2000): Do Batch and User Evaluations
Give the Same Results?. In: (Belkin et al. 2000), S. 1724
Herzberg et al. 1997
Herzberg, Frederick; Mausner, Bernard; Bloch Snyderman, Barbara (1997):
The Motivation to Work.
2. Au. New Brunswick : Transaction Publ.
Hinterhuber/Matzler 2000
Hinterhuber, Hans H.; Matzler, Kurt (Hrsg.): Kundenorientierte Unternehmensführung : Kundenorientierung, Kundenzufriedenheit, Kundenbindung. 2., akt.
u. erw. Au. Wiesbaden : Gabler
Homburg et al. 1999
Homburg, Christian; Giering, Annette; Hentschel, Frederike (1999):
Der
Zusammenhang zwischen Kundenzufriedenheit und Kundenbindung. In: Bruhn,
Manfred; Homburg, Chirstian (Hrsg.):
Grundlagen, Konzepte, Erfahrungen.
Handbuch Kundenbindungsmanagement :
2., akt. u. erw. Au. Wiesbaden : Gabler, S.
81112
Huffman/Hochster 2007
Huffman, Scott B.; Hochster, Michael (2007): How Well Does Result Relevance
Predict Session Satisfaction?. In: (Clarke et al. 2007), S. 567574
IfAS 2008
IfAS, Institut für Angewandte Sprachwissenschaft (2008):
wandte Informationswissenschaft
Der Schwerpunkt Ange-
(veriziert am: 21.06.2008)
<http://www.uni-hildesheim.de/de/9490.htm>
Järvelin/Ingwersen 2004
Järvelin, Kalervo; Ingwersen, Peter (2004):
Information Seeking Research
Needs Extension toward Tasks and Technology. In:
1.
<http://informationr.net/ir/10-1/paper212.html>
114
Information Research
10, Nr.
Kaczmirek 2003
Kaczmirek, Lars (2003): Information und Selektion : Gebrauchstauglichkeit der
Ergebnisseiten von Suchmaschinen. Universität Mannheim, Fachbereich Psychologie, Dipl.-Arb.
Karlgren et al. 2007
Karlgren, Jussi; Gonzalo, Julio; Clough, Paul (2007):
iCLEF 2006 Over-
view : Searching the Flickr WWW Photo-Sharing Repository. In: Peters, Carol;
Clough, Paul; Gey, Fredric C.; Karlgren, Jussi; Magnini, Bernardo; Oard,
Evaluation
of Multilingual and Multi-modal Information Retrieval : 7th Workshop of the CrossLanguage Evaluation Forum (CLEF 2006). Alicante, Spanien, 20.-22.09.2006, ReDouglas W.; Rijke, Maarten de; Stempfhuber, Maximilian (Hrsg.):
vised Selected Papers. Berlin : Springer (Lecture Notes in Computer Science 4730),
S. 186194
Kirchhoff et al. 2003
Kirchhoff, Sabine; Kuhnt, Sonja; Lipp, Peter; Schlawin, Siefried (2003):
Fragebogen : Datenbasis, Konstruktion, Auswertung.
Der
3., überarb. Au. Opladen :
Leske Budrich (UTB 2245)
Kishida 2005
Property of Average Precision and its Generalization
: An Examination of Evaluation Indicator for Information Retrieval Experiments.
Kishida, Kazuaki (2005):
National Institute of Informatics, Tokyo, Japan, Arbeitsbericht NII-2005-014E (veriziert am: 30.06.2008)
<http://research.nii.ac.jp/TechReports/05-014E.pdf>
Kowalski 1997
Kowalski, Gerald (1997):
tation.
Information Retrieval Systems : Theory and Implemen-
Boston : Kluwer (The Kluwer International Series on Information Retrieval
1)
Kuhlen 1980
Datenbasen, Datenbanken, Netzwerke : Praxis des Information Retrieval. Bd. 3: Nutzung und Bewertung von Retrievalsystemen. München
Kuhlen, Rainer (Hrsg.):
: Saur
Kuhlen 2004
Informationsethik : Umgang mit Wissen und Information
in elektronischen Räumen. Konstanz : UVK (UTB 2454)
Kuhlen, Rainer (2004):
Mandl 2006a
Mandl, Thomas (2006): Die automatische Bewertung der Qualität von InternetSeiten im Information Retrieval. Universität Hildesheim, Fachbereich III Informations- und Kommunikationswissenschaften, Habil.-Schr.
115
Mandl 2006b
Mandl, Thomas (2006):
Benutzerorientierte Bewertungsmaÿstäbe für Informa-
tion Retrieval Systeme: Der Robust Task bei CLEF 2006. In: Mandl, Thomas;
Womser-Hacker, Christa (Hrsg.): Eektive Information Retrieval Verfahren
in Theorie und Praxis : Proceedings des Fünften Hildesheimer Evaluierungs- und
Retrievalworkshops (HIER 2006). Hildesheim, Deutschland, 11.10.2006, Hildesheim
: Universität Hildesheim, Institut für Angewandte Sprachwissenschaft, S. 7991
<http://web1.bib.uni-hildesheim.de/edocs/2006/519937899/doc/519937899.pdf>
Matzler/Bailom 2000
Matzler, Kurt; Bailom, Franz (2000): Messung von Kundenzufriedenheit. In:
(Hinterhuber/Matzler 2000), S. 197229
Matzler et al. 2000
Matzler,
Kurt;
Sauerwein,
Elmar;
Stark,
Christian
(2000):
Metho-
den zur Identikation von Basis-, Leistungs- und Begeisterungsfaktoren.
In:
(Hinterhuber/Matzler 2000), S. 251274
Meyers 2007
Meyers, Lexikon Online 2.0 (2007):
Performanz
<http://lexikon.meyers.de/meyers/Performanz>
Möhr 1980
Möhr, Malte (1980): Benutzerorientierte Bewertung von Information-RetrievalSystemen. In: (Kuhlen 1980), S. 123156
Müller 2004
Müller, Wolfgang (2004):
denheit.
Gerechtigkeitstheoretische Modelle der Kundenzufrie-
Fachhochschule Dortmund, Institut für Angewandtes Markt-Management,
Reihe Forschungspapier Bd. 4 (veriziert am: 15.05.2008)
<http://www.fh-dortmund.de/de/fb/9/personen/lehr/mueller/medien/
Gerechtigkeitstheoretische_Kundenzufriedenheitstheorie.pdf>
Navarro 2001
Navarro, Gonzalo (2001): A Guided Tour to Approximate String Matching. In:
ACM Computing Surveys
33, Nr. 1, S. 3188. ISSN 03600300
Nerdinger/Neumann 2007
Nerdinger, Friedemann W.; Neumann, Christina (2007): Kundenzufriedenheit
und Kundenbindung. In: Moser, Klaus (Hrsg.):
Wirtschaftspsychologie.
Heidel-
berg : Springer (Springer-Lehrbuch), S. 127146
Oppermann/Reiterer 1994
Oppermann, Reinhard; Reiterer, Harald (1994): Software-ergonomische Evaluation.
(Hrsg.):
116
In: Eberleh, Edmund; Oberquelle, Horst; Oppermann, Reinhard
Einführung in die Software-Ergonomie : Gestaltung graphisch-interaktiver
Systeme : Prinzipien, Werkzeuge, Lösungen.
2., völlig neu bearb. Au. Berlin : de
Gruyter (Mensch Computer Kommunikation : Grundwissen 1), S. 335371
Pospeschill 2007
Pospeschill, Markus (2007):
Analysen.
SPSS - Durchführung fortgeschrittener statistischer
7., vollst. überab. Au. Hannover : RRZN (RRZN Handbücher)
Powers 1988
Powers, Thomas L. (1988): Identify and Fulll Customer Service Expectations.
In:
Industrial Marketing Management
17, Nr. 4, S. 273276
Resnick/Lergier 2003
Resnick, Marc L.; Lergier, Rebeca (2003):
On-line Search. In:
Journal of E-Business
Task Specic User Strategies in
3, Nr. 1, S. 122
Robertson 2006
Robertson, Stephen (2006): On GMAP : And other Transformations. In: Yu,
Proceedings
of the 15th ACM International Conference on Information and Knowledge Management (CIKM 2006). Arlington, Virginia, USA, 05.-11.11.2006, New York : ACM
Philip S.; Tsotras, Vassilis J.; Fox, Edward A.; Liu, Bing (Hrsg.):
Press, S. 7883
Rudolf/Müller 2004
Multivariate Verfahren : Eine praxisorientierte Einführung mit Anwendungsbeispielen in SPSS. Göttingen : Hogrefe
Rudolf, Matthias; Müller, Johannes (2004):
Saake/Sattler 2004
Saake, Gunter; Sattler, Kai-Uwe (2004):
Eine Einführung mit Java.
Algorithmen und Datenstrukturen :
2. überarb. u. erw. Au.
Heidelberg : dpunkt-Verl.
(dpunkt-Lehrbuch)
Sakai 2004
Sakai, Tetsuya (2004): New Performance Metrics Based on Multigrade Relevance
: Their Application to Question Answering.
In: Kando, Noriko; Ishikawa,
Haruko (Hrsg.): Proceedings of the Fourth NTCIR Workshop on Research in
Information Access Technologies Information Retrieval, Question Answering and
Summarization (NTCIR-4). Tokyo, Japan, April 2003 - Juni 2004, Tokyo : National
Institute of Informatics
<http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings4/OPEN/
NTCIR4-OPEN-SakaiTrev.pdf> (veriziert am: 25.07.2008)
Salton/McGill 1987
Salton, Gerard; McGill, Michael J. (1987):
des für Informationswissenschaftler.
Information Retrieval : Grundlegen-
Hamburg : McGraw-Hill (McGraw-Hill-Texte)
Sarodnick/Brau 2006
Sarodnick, Florian; Brau, Henning (2006):
Methoden der Usability Evaluation
117
: wissenschaftliche Grundlagen und praktische Anwendung.
1. Au. Bern : Huber
(Praxis der Arbeits- und Organisationspsychologie)
Sauerwein 2000
Das Kano-Modell der Kundenzufriedenheit : Reliabilität
und Validität einer Methode zur Klassizierung von Produkteigenschaften. WiesbaSauerwein, Elmar (2000):
den : Dt. Univ.-Verl. (Gabler Edition Wissenschaft)
Scharnbacher/Kiefer 1996
Scharnbacher, Kurt; Kiefer, Guido (1996):
Kundenzufriedenheit : Analyse,
Messbarkeit und Zertizierung. München : Oldenbourg (Managementwissen für Studium und Praxis)
Schnell et al. 1993
Schnell, Rainer; Hill, Paul B.; Esser, Elke (1993):
Sozialforschung.
Methoden der empirischen
4., überarb. Au. München : Oldenbourg
Sherif/Hovland 1961
Social Judgment : Assimilation and
Contrast Eects in Communication and Attitude Change. New Haven : Yale Univ.
Sherif, Muzafer; Hovland, Carl I. (1961):
Press (Yale studies in attitude and communication 4)
Strauch 2004
Strauch, Dietmar (2004) ; Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (Hrsg.):
Glossar.
Grundlagen der praktischen Information und Dokumentation. Bd. 2:
5., völlig neu gefasste Au. München : Saur
Thom/Scholer 2007
Thom, James A.; Scholer, Falk (2007):
A Comparison of Evaluation Measu-
res Given How Users Perform on Search Tasks.
In: Spink, Amanda; Turpin,
Proceedings of 12th Australasian Document Computing Symposium (ADCS 2007). Melbourne, Australia, 10.12.2007, Melbourne :
Andrew; Wu, Mingfang (Hrsg.):
RMIT University, S. 100103
<http://goanna.cs.rmit.edu.au/~aht/adcs2007/papers/21N.PDF>
(veriziert
am:
25.07.2008)
Trec 2008
Trec (2008):
Homepage der Text REtrieval Conference (TREC)
(veriziert am:
15.06.2008)
<http://trec.nist.gov/>
Turpin/Hersh 2001
Turpin, Andrew; Hersh, William (2001): Why Batch and User Evaluations Do
Not Give the Same Results. In: Croft, W. B.; Harper, David J.; Kraft, Do-
Proceedings of the 24th Annual International ACM
SIGIR Conference on Research and Development in Information Retrieval (SIGIR
nald H.; Zobel, Justin (Hrsg.):
118
2001).
New Orleans, Lousiana, USA, 09.-12.09.2001, New York : ACM Press, S.
225231
Turpin/Scholer 2006
Turpin, Andrew H.; Scholer, Falk (2006):
on Measures for Simple Search Tasks.
User Performance versus Precisi-
In: Efthimiadis, Efthimis N.; Dumais,
Proceedings of the 29th
Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2006). Seattle, Washington, USA, 06.-11.08.2006, New
Susan T.; Hawking, David; Järvelin, Kalervo (Hrsg.):
York : ACM Press, S. 1118
Womser-Hacker 1989
Der PADOK-Retrievaltest : Zur Methode und
Verwendung statistischer Verfahren bei der Bewertung von Information-RetrievalSystemen. Hildesheim : Olms (Sprache und Computer 10)
Womser-Hacker, Christa (1989):
Womser-Hacker 2004
Womser-Hacker, Christa (2004): Theorie des Information Retrieval III : Evaluierung.
In: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (Hrsg.):
Grundlagen der praktischen Information und Dokumentation. Bd. 1: Handbuch zur
Einführung in die Informationswissenschaft und -praxis. 5., völlig neu gefasste Au.
München : Saur, S. 227235
Woodruff et al. 1983
Woodruff, Robert B.; Cadotte, Ernest R.; Jenkins, Roger L. (1983): Modeling
Consumer Satisfaction Processes Using Experience-Based Norms.
Marketing Research (JMR)
In:
Journal of
20, Nr. 3, S. 296304
Zimbardo/Gerrig 1999
Zimbardo, Philip G.; Gerrig, Richard J. (1999) ; Hoppe-Graff, Siegfried; Engel, Irma (Hrsg.):
Psychologie.
Zöfel 2003
Zöfel, Peter (2003):
7., neu übers. u. bearb. Au. Berlin : Springer
Statistik für Psychologen : im Klartext.
München : Pearson
Studium
119
120
2.1.
Die Pooling-Methode als Verfahren zur Bestimmung der Gesamtzahl aller relevanten Dokumente in einer Kollektion (Quelle: In Anlehnung an
Kowalski 1997: 231)
2.2.
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mengendiagramm zur Darstellung von System- und Benutzerrelevanz
(Quelle: In Anlehnung an Womser-Hacker 1989: 32) . . . . . . . . . .
2.3.
8
14
Typischer Verlauf einer Recall-Precision-Kurve auf der Basis von Mittelwerten
(Quelle: Salton/McGill 1987: 180) . . . . . . . . . . . . . . . . . . . .
3.1.
Das Prinzip des Conrmation/Disconrmation-Modells
(Quelle: Homburg et al. 1999: 85)
3.2.
. . . . . . . . . . . . . . . . . . . .
26
Das Kano-Modell der Kundenzufriedenheit
(Quelle: In Anlehnung an Matzler/Bailom 2000: 220)
3.3.
17
. . . . . . . . .
33
. . . . . . . . . . . . . . . . . .
35
Fragebogenauswertung mit der Kano-Methode
(Quelle:
Matzler/Bailom 2000: 221)
5.1.
Die Benutzeroberäche des Anwendungsprogramms
. . . . . . . . . . . .
64
5.2.
Die Benutzeroberäche des Anwendungsprogramms
. . . . . . . . . . . .
65
6.1.
Graphische Darstellung der Topic-Eekte . . . . . . . . . . . . . . . . . .
84
6.2.
Graphische Darstellung der Reihenfolgeeekte
87
6.3.
Interaktionsdiagramm C/D-Paradigma
6.4.
Histogramm Frageitem 16
6.5.
Interaktionsdiagramme Benutzer-Precision
6.6.
Histogramm der Kovariate Rechercheerfahrung . . . . . . . . . . . . . . . 106
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
92
. . . . . . . . . . . . . . . . . . . . . . . . . .
93
. . . . . . . . . . . . . . . . . 103
121
122
Tabellenverzeichnis
4.1.
Vergleich benutzerorientierter Untersuchungsdesigns . . . . . . . . . . . .
5.1.
Untersuchungsschema . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
5.2.
Topicauswahl für den Benutzertest
62
5.3.
Aufteilung der verfügbaren Dokumente auf die beiden Systemlevels
. . .
66
5.4.
Verwendete Performanzmaÿe zur Bestimmung der Benutzerleistung
. . .
72
6.1.
Beschreibung der Stichprobe I: Statistische Kennzahlen . . . . . . . . . .
78
6.2.
Beschreibung der Stichprobe II: Statistische Häugkeiten . . . . . . . . .
78
6.3.
Überprüfung der Daten auf Topic-Eekte . . . . . . . . . . . . . . . . . .
83
6.4.
Überprüfung der Daten auf Reihenfolgeeekte
6.5.
Post-Hoc-Test der Reihenfolgeeekte I: Energieaufgabe
. . . . . . . . . .
85
6.6.
Post-Hoc-Test der Reihenfolgeeekte II: Asienaufgabe . . . . . . . . . . .
86
6.7.
Überprüfung der Daten auf Einuss durch selbstbestimmten Abbruch . .
88
6.8.
Ergebnisse der Varianzanalysen für die
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
51
85
15 Frageitems mit Zufriedenheits-
skala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
Ergebniss der Varianzanalyse nach der Skalenbildung
. . . . . . . . . . .
92
6.10. Antworthäugkeiten Frageitem 15 . . . . . . . . . . . . . . . . . . . . . .
94
6.11. Kategoriezugehörigkeit der genannten Stärken und Schwächen
. . . . . .
96
. . . . . . . . . . . . . . . . . . . . .
98
6.9.
6.12. Denition der Dokumentenmengen
6.13. Varianzanalyse der von den Benutzern angesehenen Dokumente
. . . . .
98
6.14. Mittelwerte der Dokumentenanzahlen . . . . . . . . . . . . . . . . . . . .
99
6.15. Ergebnisse der zweifkatoriellen Varianzanaylsen der Leistungsmaÿe . . . . 100
6.16. Mittelwerte der Leistungsmaÿe . . . . . . . . . . . . . . . . . . . . . . . . 101
6.17. Überprüfung der Daten auf Alterseekte
6.18. Varianzanalysen mit Kovariate Alter
. . . . . . . . . . . . . . . . . . 104
. . . . . . . . . . . . . . . . . . . . 105
B.1. Energieaufgabe, niedriger Systemlevel . . . . . . . . . . . . . . . . . . . . 137
B.2. Energieaufgabe, hoher Systemlevel
. . . . . . . . . . . . . . . . . . . . . 137
B.3. Asienaufgabe, niedriger Systemlevel . . . . . . . . . . . . . . . . . . . . . 138
B.4. Asienaufgabe, hoher Systemlevel . . . . . . . . . . . . . . . . . . . . . . . 138
B.5. Atomaufgabe, niedriger Systemlevel . . . . . . . . . . . . . . . . . . . . . 139
B.6. Atomaufgabe, hoher Systemlevel . . . . . . . . . . . . . . . . . . . . . . . 139
C.1. Kolmogorov-Smirnov-Test auf Normalverteilung
C.2. Mauchly-Test auf Spherizität: Topiceekte
. . . . . . . . . . . . . . 141
. . . . . . . . . . . . . . . . . 142
C.3. Varianzhomogenität: Reihenfolgeeekte, Abbruch vor 10 min, nur erste
Seite betrachte
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
123
Tabellenverzeichnis
C.4. Varianzhomogenität: Benutzerleistung mit und ohne Kovariaten
. . . . . 143
C.5. Varianzhomogenität: Benutzerleistung, Einuss Muttersprache und Alterseekte
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
C.6. Varianzhomogenität: Fragebogenitems und Gesamtskala Benutzerzufriedenheit (BZ), Einuss Muttersprache und Altersgruppen
. . . . . . . . . 144
C.7. Varianzhomogenität: Fragebogenitems und Gesamtskala Benutzerzufriedenheit (BZ) mit und ohne Kovariaten
. . . . . . . . . . . . . . . . . . . 145
C.8. Mittelwerte: Selbstbestimmter Abbruch . . . . . . . . . . . . . . . . . . . 146
C.9. Varianzanalysen nur erste Ergebnisseite betrachtet . . . . . . . . . . . . . 146
C.10.Mittelwerte nur erste Ergebnisseite betrachtet
. . . . . . . . . . . . . . . 146
C.11.Varianzanalysen Muttersprache: Leistungsmaÿe und Frageitems Benutzerzufriedenheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
C.12.Überprüfung der Daten auf Alterseekte: Mikromittelwerte Benutzerleistung und Frageitems Benutzerzufriedenheit . . . . . . . . . . . . . . . . . 148
C.13.Varianzanalysen mit Kovariate Alter: Mikromittelwerte Benutzerleistung
148
und Frageitems Benutzerzufriedenheit . . . . . . . . . . . . . . . . . . . . 149
C.15.Varianzanalysen mit Kovariate Recherecheerfahrung: Makromittelwerte
. 149
C.16.Varianzanalysen mit Kovariate Recherecheerfahrung: Mikromittelwerte
un. Fragebogen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
und Frageitems Benutzerzufriedenheit . . . . . . . . . . . . . . . . . . . . 151
C.18.Varianzanalyse: Mikromittelwerte Leistungsmaÿe
C.19.Mittelwerte: Mikromittelwerte Leistungsmaÿe
D.1. Oene Fragen Gruppen
124
S1,1
S1,2
S2,1
S2,2
. . . . . . . . . . . . . 152
. . . . . . . . . . . . . . . 152
. . . . . . . . . . . . . . . . . . . . . . . . . 154
. . . . . . . . . . . . . . . . . . . . . . . . . 155
. . . . . . . . . . . . . . . . . . . . . . . . . 156
. . . . . . . . . . . . . . . . . . . . . . . . . 157
Eigenständigkeitserklärung
Hiermit erkläre ich, dass ich die vorliegende Arbeit selbständig und ohne fremde Hilfe verfasst und keine anderen als die angegebenen Hilfsmittel benutzt habe. Auÿerdem
versichere ich, dass die Arbeit noch nicht veröentlicht oder in einem anderen Prüfungsverfahren als Prüfungsleistung vorgelegt wurde.
Hildesheim, im Juli 2008
125
7.
126
A.1. Vorabinformation niedrige Erwartungshaltung
Benutzertest zur Bewertung der Suchmaschine Periodikum
Magisterarbeit im Studiengang Internationales Informationsmanagement (IIM)
an der Universität Hildesheim
Liebe Teilnehmerin,
Im Rahmen des Projektseminars Suchmaschinentechnologie soll für die Universität Hildesheim
eine neue Suchmaschine für Artikel aus Fachzeitschriften entstehen. Dazu soll die an der
Universität Duisburg-Essen von Studenten entwickelte Suchmaschine für Presseartikel Periodikum
weiterentwickelt werden.
Im Rahmen dieses Benutzertests soll bewertet werden, wie gut diese Suchmaschine in der Lage ist
zu einer Suchanfrage relevante Artikel zu liefern und nicht-relevante Artikel zurückzuhalten.
Der Benutzertest wird ca. 30 Minuten dauern. Du bekommst nacheinander drei Suchaufgaben
gestellt. Damit alle Teilnehmerinnen die gleichen Voraussetzungen haben, sind die zu
verwendenden Suchbegriffe vorgegeben. Deine Aufgabe ist es die Qualität der Ergebnislisten zu
bewerten. Im Anschluss folgt ein kurzer Fragebogen.
Wenn Du während des Benutzertests irgendwelche Fragen hast, kannst Du diese jederzeit stellen.
Unter allen Teilnehmerinnen werden von meinem Fachbereich drei Geldpreise im Wert von 20, 30
und 50 € verlost.
Alle Untersuchungsdaten werden selbstverständlich anonym ausgewertet und ausschließlich zu
wissenschaftlichen Zwecken verwendet.
Vielen Dank, dass Du Dich bereit erklärt hast,
an diesem Benutzertest teilzunehmen.
127
A.2. Vorabinformation hohe Erwartungshaltung
Benutzertest zur Bewertung der Suchmaschine Periodikum
Magisterarbeit im Studiengang Internationales Informationsmanagement (IIM)
an der Universität Hildesheim
Liebe Teilnehmerin,
Die Universität Hildesheim beabsichtigt eine neue Suchmaschine für Artikel aus Fachzeitschriften
anzuschaffen. In die engere Auswahl gekommen ist die Suchmaschine Periodikum von der index
Recherche und Suchmaschinentechnologie GmbH. Die Suchmaschinensoftware kostet 20.000 €.
Im Rahmen dieses Benutzertests soll bewertet werden, wie gut diese Suchmaschine in der Lage ist
zu einer Suchanfrage relevante Artikel zu liefern und nicht-relevante Artikel zurückzuhalten. Die
index GmbH hat der Universität Hildesheim zu diesem Zweck eine Demo-Version zur Verfügung
gestellt.
Der Benutzertest wird ca. 30 Minuten dauern. Du bekommst nacheinander drei Suchaufgaben
gestellt. Damit alle Teilnehmerinnen die gleichen Voraussetzungen haben, sind die zu
verwendenden Suchbegriffe vorgegeben. Deine Aufgabe ist es die Qualität der Ergebnislisten zu
bewerten. Im Anschluss folgt ein kurzer Fragebogen.
Wenn Du während des Benutzertests irgendwelche Fragen hast, kannst Du diese jederzeit stellen.
Unter allen Teilnehmerinnen werden von meinem Fachbereich drei Geldpreise im Wert von 20, 30
und 50 € verlost.
Alle Untersuchungsdaten werden selbstverständlich anonym ausgewertet und ausschließlich zu
wissenschaftlichen Zwecken verwendet.
Vielen Dank, dass Du Dich bereit erklärt hast,
an diesem Benutzertest teilzunehmen.
128
A.3. Beschreibung des Anwendungsszenarios
A.3. Beschreibung des Anwendungsszenarios
Aufgabenbeschreibung:
Stell Dir für den weiteren Verlauf dieses Benutzertests bitte folgendes Szenario vor:
Du bist Journalistin und möchtest Dir für einen Beitrag, den Du demnächst schreiben wirst, einen
Überblick über das entsprechende Thema verschaffen. Dazu recherchierst Du mit der Suchmaschine
Periodikum nach bereits veröffentlichten Presseartikeln, die das Thema Deines Beitrages betreffen.
Zu Demonstrationszwecken befinden sich zur Zeit nur Presseartikel aus den Jahren 1994 und 1995
in der Datenbank.
Hinweise zur Bedienung der Suchmaschine
Nachdem Du die vorgegebenen Suchbegriffe in das Suchfeld eingegeben und auf „Suche“
geklickt hast, erhältst Du eine Ergebnisliste mit Verweisen auf Artikel.
Scheint einer dieser Artikel aufgrund der Kurzfassung für Dich relevant zu sein, lässt sich der
vollständige Text durch Anklicken des Titels in einem neuen Fenster öffnen. Dort gibt es die
Möglichkeit den Artikel als relevant bzw. nicht relevant zu kennzeichnen. Bitte bewerte den
Artikel, den Du Dir angesehen hast, bevor Du das Volltext-Fenster wieder schließt.
Für jede Suchaufgabe hast Du 10 Minuten Zeit. Wenn Du schon vorher der Meinung bist, Dir einen
ausreichenden Überblick über das betreffende Thema verschafft zu haben, kannst Du auch schon
vorher mit der nächsten Aufgabe beginnen.
Viel Spaß beim Recherchieren!
129
A.4. Beschreibungen der einzelnen Suchaufgaben
Suchaufgabe: Erneuerbare Energien
Für einen Beitrag über Erneuerbare Energien suchst Du nach Presseartikeln, die die Nutzung
von umweltfreundlicher Energie oder eine darauf ausgerichtete Politik betreffen, d.h. von
Energie, die aus erneuerbaren Energiequellen erzeugt wurde.
Die zu verwendenden Suchbegriffe lauten: Erneuerbare Energien
Suchaufgabe: Kinderarbeit in Asien
Für einen Beitrag über Kinderarbeit in Asien suchst Du nach Presseartikeln, die Kinderarbeit in
Asien diskutieren und Vorschläge zu deren Beseitigung oder zur Verbesserung der
Arbeitsbedingungen für Kinder liefern.
Die zu verwendenden Suchbegriffe lauten: Kinderarbeit Asien
Suchaufgabe: Atomtransporte in Deutschland
Für einen Beitrag über Atomtransporte in Deutschland suchst Du Berichte über Proteste gegen
den Transport von radioaktivem Müll in Castor-Behältern in Deutschland.
Die zu verwendenden Suchbegriffe lauten: Atomtransporte Castor Deutschland
130
A.5. Fragebogen zur Benutzerzufriedenheit
Wie gut ist die Suchmaschine Periodikum?
Fragebogen zur Bewertung der Suchmaschine Periodikum
Liebe Teilnehmerin,
Du hattest jetzt etwa 30 Minuten lang die Möglichkeit mit der Suchmaschine Periodikum zu
arbeiten und Dich mit ihrer Funktionsweise vertraut zu machen. Dieser Fragebogen dient dazu,
Deine Erfahrungen im Umgang mit der Suchmaschine zu dokumentieren.
Bei den meisten Fragen handelt es sich um Deine persönliche Meinung. Es gibt also keine richtigen
oder falschen Antworten. Versuche bitte alle Fragen offen und ehrlich zu beantworten. Solltest Du
während des Ausfüllens Fragen haben, kannst Du diese jederzeit stellen.
Hinweise zum Beantworten des Fragebogens
Der Fragebogen enthält zwei unterschiedliche Fragetypen:
Typ 1: Auswahlfragen
Bei den meisten Fragen handelt es sich um Auswahlfragen, bei denen Du aus sieben Abstufungen
von „trifft vollkommen zu“ bis „trifft überhaupt nicht zu“ wählen kannst.
Bsp. 1: Meine Lieblingsfarbe ist Grün.
1
2
trifft vollkommen zu
□
□
3
4
5
6
7
□
□
□
□
□
trifft überhaupt nicht zu
In diesem Beispiel wurde das vorderste Kästchen angekreuzt, was bedeutet, dass es sich bei Grün
tatsächlich um die Lieblingsfarbe der Teilnehmerin handelt.
Typ 2: Offene Fragen
Bei einigen Fragen handelt es sich um offene Fragen, bei denen keine Antwortmöglichkeiten
vorgegeben sind.
Bsp. 2: Wie viele Stunden machst Du in der Woche Sport?
5
Wie zu Beginn des Benutzertests bereits erwähnt, werden alle Daten anonym ausgewertet und
ausschließlich zu wissenschaftlichen Zwecken verwendet.
131
Testperson:
Datum:
Teil A: Deine Erfahrungen im Umgang mit Periodikum
Im diesem Teil des Fragebogens wirst Du gebeten Deine praktischen Erfahrungen im Umgang mit
der Suchmaschine Periodikum zu beschreiben. Dazu werden Dir eine Reihe von Aussagen
angeboten und Du sollst entscheiden, inwieweit diese mit Deinen Erfahrungen übereinstimmen:
1) Periodikum entspricht der Vorstellung, die ich von einer Suchmaschine habe.
1
2
3
4
5
6
7
□
□
□
□
□
□
□
2) Periodikum ist einfach zu bedienen.
1
2
3
4
5
6
7
□
□
□
□
□
□
□
3) Ich habe die Recherche mit Periodikum als mühsam und zeitaufwändig empfunden.
1
2
3
4
5
6
7
□
□
□
□
□
□
□
4) Ich habe die Recherche mit Periodikum als effizient empfunden.
1
2
3
4
5
6
7
□
□
□
□
□
□
□
5) Ich bin mit meinen Rechercheergebnissen zufrieden.
1
2
3
4
5
6
7
□
□
□
□
□
□
□
6) Es war schwierig zwischen den Kurzfassungen der einzelnen Artikel auszuwählen.
1
2
3
4
5
6
7
□
□
□
□
□
□
□
132
1
Testperson:
Datum:
7) Ich würde Periodikum jederzeit wieder als Suchmaschine verwenden.
1
2
3
4
5
6
7
□
□
□
□
□
□
□
Teil B: Deine Beurteilung der Qualität der Ergebnislisten
Im diesem Teil des Fragebogens wirst Du gefragt, inwieweit Deiner Meinung nach verschiedene
Aussagen über die Qualität der Ergebnislisten zutreffen:
8) Ich bin mit der Qualität der Suchergebnisse zufrieden.
1
2
3
4
5
6
7
□
□
□
□
□
□
□
9) Die Artikel hätten besser gefiltert sein können.
1
2
3
4
5
6
7
□
□
□
□
□
□
□
10) Die meisten Artikel waren für die dazugehörigen Suchanfragen relevant.
1
2
3
4
5
6
7
□
□
□
□
□
□
□
11) Die Präsentation der Ergebnisse war übersichtlich.
1
2
3
4
5
6
7
□
□
□
□
□
□
□
12) Die Ergebnislisten waren zu umfangreich.
1
2
3
4
5
6
7
□
□
□
□
□
□
□
2
133
Testperson:
Datum:
13) Die Reihenfolge der Suchergebnisse spiegelte die Relevanz der Artikel wieder.
1
2
3
4
5
6
7
□
□
□
□
□
□
□
14) Die von mir aufgerufenen Artikel waren für die Recherche hilfreich.
1
2
3
4
5
6
7
□
□
□
□
□
□
□
15) Hättest Du andere Suchbegriffe eingegeben? Falls ja, welche?
Suchaufgabe: Atomtransporte in Deutschland:
______________________________________
Suchaufgabe: Erneuerbare Energien:
______________________________________
Suchaufgabe: Kinderarbeit in Asien:
______________________________________
Teil C: Dein Votum zu der Suchmaschine Periodikum
In diesem Teil des Fragebogens kannst Du Dein Votum zu der Suchmaschine Periodikum abgeben:
16) Würdest Du den Einsatz von Periodikum als Suchmaschine für Fachzeitschriften in der
Hildesheimer Universitätsbibliothek empfehlen?
1
2
3
4
5
6
7
□
□
□
□
□
□
□
134
3
Testperson:
Datum:
Teil D: Angaben zu Deiner Person und Computererfahrung
In diesem Teil des Fragebogens wirst Du um einige allgemeine Angaben zu Deiner Person und zu
Deiner bisherigen Computererfahrung gebeten:
17) Geburtsjahr: _______
18) Ich bin derzeit
□ Schülerin
□ Auszubildende
Ausbildungsberuf: _____________________
□ Studentin
Studiengang:
_____________________
□ berufstätig
Berufsbezeichnung: _____________________
□ Sonstiges: _____________________
19) Muttersprache: _____________________
20) Benutzt Du im Zuge Deiner schulischen/beruflichen Ausbildung, Deines Studiums oder
Deines Berufes einen Computer?
□ ja
□ nein
21) An wie vielen Tagen hast Du in der letzten Woche einen Computer benutzt? ____
22) Wie viele Stunden verbringst Du in der Woche am Computer? ____
23) Wie viele Stunden verbringst Du in der Woche im Internet? ____
24) Welche Suchmaschinen kennst Du?
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
25) Wie viele verschiedene Suchmaschinen verwendest Du regelmäßig? ____
4
135
Testperson:
Datum:
Teil E: Was Dir gefällt – was Dich stört
26) Wenn Du möchtest, kannst Du hier genauer angeben, welche Stärken und Schwächen die
Suchmaschine Periodikum aus Deiner Sicht hat:
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
27) Falls Du noch Anmerkungen zu dem Benutzertest hast, kannst Du diese hier einbringen:
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
Teil F: Abschlussfrage
28) Hast Du im Internet nach der Suchmaschine Periodikum gesucht, nachdem Du die
Einladung zu diesem Benutzertest bekommen hast?
□ ja
□ nein
Zum Schluss noch eine Einladung zu einem weiteren Benutzertest:
Online-Benutzertest zur Bewertung der Suchmaschine FactDirectory
Demnächst soll, ebenfalls im Rahmen einer Magisterarbeit, die Suchmaschine FactDirectory
getestet werden. Auch dieser Benutzertest wird ca. 30 Minuten dauern und es werden noch
Teilnehmer gesucht. Die Teilnahme kann diesmal online erfolgen.
Falls Du Interesse daran hast, wäre es schön, wenn Du Dich im Anschluss mit Deiner E-MailAdresse in die Teilnehmerliste eintragen würdest.
In jedem Fall vielen Dank für Deine Mitarbeit an diesem Benutzertest!
136
5
B.1. Energieaufgabe
Tabelle B.1.: Energieaufgabe, niedriger Systemlevel, Precision: 0, 5, Average Precision: 0, 549648,
50
relevante Dokumente,
50
irrelevante Dokumente,
100
Dokumente insgesamt
1: relevantes Dokument, 0: irrelevantes Dokument
1
1
1
0
0
0
1
0
1
0
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
1
,
1
0
0
2
1
0
0
1
3
4
1
1
1
1
1
1
1
0
5
0
0
1
1
6
0
1
0
1
7
0
1
1
1
8
0
0
0
0
1
1
0
0
0
1
0
1
0
1
1
1
0
1
1
0
0
0
0
1
0
0
1
1
1
1
1
0
1
0
1
0
0
1
0
1
0
0
1
1
0
0
1
0
1
1
1
0
1
0
1
0
0
0
1
0
0
0
0
Tabelle B.2.: Energieaufgabe, hoher Systemlevel, Precision: 0, 6, Average Precision: 0, 750172,
60
40
100
Dokumente insgesamt
1
1
1
0
1
1
1
1
0
0
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
1
0
1
0
2
1
1
1
1
3
1
0
1
0
4
1
0
1
0
5
1
0
0
0
6
1
0
0
0
7
1
0
1
1
8
1
1
1
0
1
1
0
1
1
1
1
1
1
1
0
0
0
1
1
1
1
1
1
1
1
0
1
0
1
1
0
1
0
0
1
1
0
0
1
0
1
0
0
1
1
1
1
0
0
1
1
0
0
1
0
0
0
1
1
1
1
0
0
137
B.2. Asienaufgabe
Tabelle B.3.: Asienaufgabe, niedriger Systemlevel, Precision: 0, 5, Average Precision: 0, 550129,
42
42
84
Dokumente insgesamt
1
1
1
0
0
0
1
0
1
1
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
1
0
1
1
2
1
0
1
0
3
0
1
0
0
4
5
1
1
0
0
1
0
1
6
0
1
1
7
0
1
1
8
0
0
0
0
1
1
1
1
1
0
0
1
1
0
1
0
0
0
0
0
1
0
0
0
1
0
1
1
1
1
1
0
0
1
0
0
0
0
1
0
1
0
0
0
1
1
1
1
0
1
Tabelle B.4.: Asienaufgabe, hoher Systemlevel, Precision: 0, 6, Average Precision: 0, 750398,
50
34
84
Dokumente insgesamt
1
1
1
1
1
0
1
1
1
0
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
1
0
1
0
138
2
0
1
1
0
3
1
0
1
1
4
1
0
0
1
5
1
1
0
6
1
0
1
7
1
1
1
8
0
1
0
1
1
1
1
0
0
1
1
1
0
0
1
0
0
0
1
1
1
0
1
0
0
1
1
1
1
0
1
0
0
0
1
0
1
0
0
1
1
1
1
0
0
1
0
1
1
0
B.3. Atomaufgabe
B.3. Atomaufgabe
Tabelle B.5.: Atomaufgabe, niedriger Systemlevel, Precision: 0, 5, Average Precision: 0, 550318,
48
48
96
Dokumente insgesamt
0
1
1
1
0
0
0
1
1
1
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
-
-
-
-
0
0
0
0
2
0
1
1
1
3
1
1
1
0
4
5
0
1
1
1
0
0
0
1
6
0
1
0
0
7
1
1
1
1
8
0
1
1
0
0
1
1
0
0
1
1
0
0
1
1
0
0
1
1
1
0
0
1
1
0
1
1
0
1
0
1
0
0
0
1
0
0
1
1
0
0
0
0
0
0
1
0
1
1
1
0
1
0
1
0
1
0
0
1
Tabelle B.6.: Atomaufgabe, hoher Systemlevel, Precision: 0, 6, Average Precision: 0, 75014,
57
39
96
Dokumente insgesamt
0
1
1
1
1
1
1
1
1
0
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
-
-
-
-
1
0
1
0
2
1
0
1
0
3
0
0
1
1
4
1
1
0
0
5
1
1
0
0
6
1
1
1
1
7
0
1
0
0
8
0
0
0
0
0
1
0
0
1
1
1
1
0
1
1
1
1
1
1
1
0
0
0
0
1
1
1
0
1
1
1
0
0
1
0
1
1
0
1
1
1
0
0
1
0
1
0
1
1
1
0
1
1
1
0
0
1
1
1
139
140
C.1. Überprüfung der Voraussetzungen
Tabelle C.1.: Kolmogorov-Smirnov-Test auf Normalverteilung
Energie
Asien
a
b
Maÿ
df Sig.
Maÿ
df Sig.
Maÿ
Dok@10
89
BR
89
t1.Dok
89
BP
89
PCP
89
Dok@10
89
BR
89
t1.Dok
89
BP
89
PCP
89
0,000c
0,000c
0,001c
0,000c
0,200
Mikromittelwerte
Maÿ
df Sig.
Makromittelwerte
Maÿ
df Sig.
Dok@10
89
Dok@10
89
BR
89
BR
89
t1.Dok
89
t1.Dok
0,005c
0,012c
-
-
0,005c
0,004c
0,000
0,000c
0,200
Dok@10
89
BR
89
t1.Dok
89
BP
89
PCP
89
M2
M3
M5
M6
M7
89
89
89
BP
89
BP
89
PCP
89
0,200
PCP
89
Sig.
Fragebogen
Item
df Sig.
Item
df
7
Item
df
1
89
0,000c
89
0,000c
89
0,000c
4
89
0,000c
5
89
6
89
3
Freiheitsgrade
0,000c
0,000c
b
Signikanz
89
89
89
0,000c
12
89
89
0,000c
13
89
89
0,000c
14
89
10
89
0,000c
16
89
11
89
0,000c
BZ
89
8
9
c Normalverteilung
0,000c
0,000c
0,000c
0,000c
0,005c
Dokumentenmengen
Maÿ
df Sig.
0,000c
2
a
0,001c
0,004c
0,000c
0,000c
0,149
Atom
df Sig.
0,001c
0,000c
0,024
0,001c
0,000c
Sig.
0,000c
0,000c
0,000c
0,000c
0,200
nicht gegeben
141
Tabelle C.2.: Mauchly-Test auf Spherizität: Topiceekte
Approximiertes
Greenhouse-Geisser
2
a
b
Mauchly-W
χ
df Sig .
Korrektur
0,993
0,950
0,858
0,993
0,987
Dok@10
BR
t1.Dok
BP
PCP
a
Freiheitsgrade
b
Signikanz
c Spherizität
0,578
4,456
13,364
0,578
1,104
2
2
2
2
2
0,749
0,108
0,001c
0,749
0,576
0,993
0,952
0,875
0,993
0,988
nicht gegeben
Tabelle C.3.: Varianzhomogenität: Reihenfolgeeekte, Abbruch vor 10 min, nur erste Seite betrachte
Energie
df1a df2 Sig.b
F
Dok@10
BR
t1.Dok
BP
PCP
1,043
1,243
0,659
4,503
1,076
BR
t1.Dok
BP
PCP
0,290
0,468
6,751
6,914
0,199
Dok@10
t1.Dok
BP
PCP
a
3,665
4,750
0,538
18,603
4,497
Freiheitsgrade
142
2
86
2
86
2
86
2
86
1
87
1
87
1
87
1
87
1
87
Energie
df1 df2
F
BR
86
Energie
df1 df2
F
Dok@10
2
b
1
87
1
87
1
87
1
87
1
87
Signikanz
0,357
0,294
0,520
0,014c
0,345
Reihenfolgeeekte
Asien
F
df1 df2 Sig.
1,759
2,305
1,220
1,063
0,226
2
86
2
86
2
86
2
86
2
86
0,178
0,106
0,300
0,350
0,798
Abbruch vor 10 Minuten
Asien
Sig.
F
df1 df2 Sig.
0,592 19,344
0,496 15,772
0,011c 0,021
0,010c 4,396
0,657
0,571
87
0,000c
1
87
0,000c
1
87
1
87
1
87
1
c Varianzhomogenität
1
87
1
87
1
87
1
87
1
87
0,663
0,919
0,445
0,230
0,159
F
2,442
1,628
0,885 34,558
0,039c 0,160
0,452
1,641
Nur erste Seite betrachtet
Asien
Sig.
F
df1 df2 Sig.
0,059
3,590
0,032c 4,426
0,465
0,028
c
0,000 27,964
0,037c 0,197
F
0,061
0,038c
0,867
0,000c
0,659
nicht gegeben
F
5,583
6,672
3,377
0,085
2,513
Atom
df1 df2
2
86
2
86
2
86
2
86
2
86
Atom
df1 df2
1
87
1
87
1
87
1
87
1
87
Atom
df1 df2
1
87
1
87
1
87
1
87
1
87
Sig.
0,518
0,403
0,642
0,795
0,853
Sig.
0,122
0,205
0,000c
0,690
0,204
Sig.
0,020
0,011c
0,070
0,771
0,117
Tabelle C.4.: Varianzhomogenität: Benutzerleistung mit und ohne Kovariaten
Benutzerleistung ohne Kovariate
Makromittelwerte
Mikromittelwerte
a
b
F df1 df2 Sig.
F df1 df2 Sig.
1,077
0,724
1,221
5,419
0,454
Dok@10
BR
t1.Dok
BP
PCP
3
85
3
85
3
85
3
85
3
85
0,363
0,540
0,307
0,002c
0,715
1,077
0,745
3
85
3
85
0,363
0,528
-
-
-
-
3,680
0,600
3
85
3
85
0,015c
0,617
Dokumentenmengen
F
df1 df2 Sig.
Mengen
M2
M3
M5
M6
M7
1,224
1,113
1,433
1,215
5,177
Dok@10
0,986
0,883
0,986
5,177
0,464
3
85
3
85
3
85
3
85
3
85
0,306
0,348
0,239
0,309
0,002c
Leistungsmaÿe mit Kovariate Alter
Makromittelwerte
Mikromittelwerte
F
df1 df2 Sig.
F df1 df2 Sig.
BR
t1.Dok
BP
PCP
3
85
3
85
3
85
3
85
3
85
0,403
0,453
0,403
0,002c
0,708
1,359
0,897
3
85
3
85
0,261
0,446
-
-
-
-
3,513
0,614
3
85
3
85
0,019c
0,608
Leistungsmaÿe mit Kovariate Rechercheerfahrung
Makromittelwerte
Mikromittelwerte
F
df1 df2 Sig.
F df1 df2 Sig.
1,123
0,759
1,225
5,456
0,387
Dok@10
BR
t1.Dok
BP
PCP
a
Freiheitsgrade
b
Signikanz
3
85
3
85
3
85
3
85
3
85
0,344
0,520
0,306
0,002c
0,763
1,123
0,781
3
85
3
85
-
-
-
3,716
0,546
3
85
3
85
0,344
0,508
-
0,015c
0,652
nicht gegeben
143
Tabelle C.5.: Varianzhomogenität: Benutzerleistung, Einuss Muttersprache und Alterseekte
Einuss Muttersprache
Makromittelwert
Mikromittelwerte
a
b
F df1 df2 Sig.
F df1 df2 Sig.
0,815
0,736
1,302
4,333
2,248
Dok@10
BR
t1.Dok
BP
PCP
1
87
1
87
1
87
1
87
1
87
0,369
0,393
0,257
0,040c
0,137
0,815
0,606
1
87
1
87
0,369
0,438
-
-
-
-
1,873
1,244
1
87
1
87
0,175
0,268
Einuss Altersgruppen
Makromittelwert
Mikromittelwerte
F
df1 df2 Sig.
F df1 df2 Sig.
2,482
1,735
1,827
1,078
1,905
Dok@10
BR
t1.Dok
BP
PCP
a
Freiheitsgrade
b
Signikanz
2
86
2
86
2
86
2
86
2
86
0,090
0,182
0,167
0,345
0,155
2,482
1,652
2
86
2
86
0,090
0,198
-
-
-
-
1,064
1,329
2
86
2
86
0,350
0,270
nicht gegeben
Tabelle C.6.: Varianzhomogenität: Fragebogenitems und Gesamtskala Benutzerzufriedenheit (BZ),
Einuss Muttersprache und Altersgruppen
Einuss Muttersprache
Item F df1a df2 Sig.b
1
2
3
4
5
6
7
8
9
10
11
12
13
14
16
BZ
a
0,099
0,235
1,866
1,150
6,601
0,008
0,090
0,613
0,016
0,033
0,285
2,718
3,057
0,888
0,008
1,956
Freiheitsgrade
144
b
1
87
1
87
1
87
1
87
1
87
1
87
1
87
1
87
1
87
1
87
1
87
1
87
1
87
1
87
1
87
1
87
Signikanz
Einuss Altersgruppen
Item F df1 df2 Sig.
0,753
0,629
0,175
0,286
0,012c
0,927
0,765
0,436
0,901
0,857
0,595
0,103
0,084
0,349
0,928
0,166
1
2
3
4
5
6
7
8
9
10
11
12
13
14
16
nicht gegeben
0,260
3,045
0,935
0,035
2,356
0,156
0,360
2,364
1,063
4,178
4,019
2,079
0,784
2,658
0,381
2
86
2
86
2
86
2
86
2
86
2
86
2
86
2
86
2
86
2
86
2
86
2
86
2
86
2
86
2
86
0,771
0,053
0,397
0,966
0,101
0,856
0,699
0,100
0,350
0,019c
0,021c
0,131
0,460
0,076
0,684
Tabelle C.7.: Varianzhomogenität: Fragebogenitems und Gesamtskala Benutzerzufriedenheit (BZ)
mit und ohne Kovariaten
Auswertung ohne Kovariate
Item F df1a df2 Sig.b
1
2
3
4
5
6
7
8
9
10
11
12
13
14
16
BZ
Item
F
1
0,989
4,018
1,629
1,866
2,184
0,488
0,855
1,138
2
3
4
5
6
7
8
a
0,855
3,973
1,716
2,083
2,171
0,656
0,817
1,160
3,879
0,839
3,443
1,339
1,401
3,475
0,763
1,171
Freiheitsgrade
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
0,468
0,011c
0,170
0,108
0,097
0,581
0,488
0,330
0,012c
0,476
0,020c
0,267
0,248
0,020c
0,518
0,326
Auswertung mit Kovariate Alter
Item F df1 df2
Sig.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
16
BZ
0,927
3,063
1,644
2,126
2,156
0,406
0,766
1,114
3,982
0,851
3,327
1,434
1,369
3,538
0,772
1,048
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
Auswertung mit Kovariate Rechercheerfahrung
df1 df2 Sig.
Item F df1 df2
b
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
Signikanz
0,402
0,010c
0,189
0,141
0,096
0,692
0,468
0,339
9
10
11
12
13
14
16
BZ
3,435
0,912
3,758
1,507
1,410
3,178
0,762
0,932
3
85
3
85
3
85
3
85
3
85
3
85
3
85
3
85
0,431
0,032c
0,185
0,103
0,099
0,749
0,516
0,348
0,010c
0,470
0,023c
0,239
0,258
0,018c
0,513
0,376
Sig.
0,021c
0,439
0,014c
0,218
0,245
0,028c
0,519
0,429
nicht gegeben
145
C.2. Einuss selbstbestimmter Abbruch
Tabelle C.8.: Mittelwerte: Selbstbestimmter Abbruch
Energie
Maÿ
t
<9
min | t≥
7,13
0,13
454,4
0,81
0,67
Dok@10
BR
t1.Dok
BP
PCP
Asien
9
min
t
<9
8,51
0,16
640,27
0,93
0,66
min
Atom
t≥
10,91
0,23
81,36
0,84
0,61
9
min
t
8,55
0,19
121,58
0,9
0,62
<9
min
7,29
0,14
402,29
0,82
0,63
t≥
9
min
10,87
0,21
638,64
0,89
0,69
C.3. Einuss nur erste Ergebnisseite betrachtet
Tabelle C.9.: Varianzanalysen nur erste Ergebnisseite betrachtet
Nur eine Seite
Mehr als eine Seite
Asien
Atom
9
3
7
86
82
80
a
df
b
F
c
Sig.
Dok@10
1
BR
1
t1.Dok
1
BP
1
PCP
1
11,618
13,108
0,058
2,459
3,213
0,001
0,000
0,810
0,121
0,077
Maÿ
a
Energie
Freiheitsgrade
b
F-Wert
df
F
Sig.
df
F
Sig.
1
5,701
5,970
2,517
2,848
9,092
0,019
0,017
0,116
0,095
0,003
1
7,164
8,166
1,612
4,387
2,639
0,009
0,005
0,208
0,039
0,108
1
1
1
1
1
1
1
1
c Signikanz
Tabelle C.10.: Mittelwerte nur erste Ergebnisseite betrachtet
Energie
Maÿ
Dok@10
BR
BP
PCP
146
Asien
Atom
Eine S.
Mehrere S.
Eine S.
Mehrere S.
Eine S.
Mehrere S.
2,56
0,04
0,84
0,56
8,93
0,16
0,92
0,67
2,00
0,04
0,78
0,35
9,08
0,2
0,9
0,63
2,86
0,05
0,76
0,57
10,94
0,21
0,89
0,69
C.4. Einuss der Muttersprache
C.4. Einuss der Muttersprache
Tabelle C.11.: Varianzanalysen Muttersprache: Leistungsmaÿe und Frageitems Benutzerzufriedenheit
Makromittelwerte
a
F F-Wert
Dok@10
1
BR
1
t1.Dok
1
BP
1
PCP
1
2,513
2,891
3,306
2,852
0,503
Item
df
F
1
1
2
1
3
1
4
1
5
1
6
1
7
1
1,637
0,016
0,052
0,170
0,164
0,003
0,386
0,048
1
8
a
b
df
Maÿ
Freiheitsgrade
b
F-Wert
Mikromittelwerte
c
Sig.
Maÿ
df
F
Sig.
0,117
0,093
0,072
0,095
0,480
Dok@10
1
BR
1
2,513
2,763
0,117
0,100
Sig.
0,204
0,901
0,820
0,681
0,686
0,960
0,536
0,827
t1.Dok
-
-
-
BP
1
PCP
1
2,214
0,135
0,140
0,714
Item
df
F
Sig.
9
1
10
1
11
1
12
1
13
1
14
1
16
1
0,548
0,033
0,204
0,091
1,346
2,831
0,001
0,461
0,857
0,653
0,764
0,249
0,096
0,981
c Signikanz
147
C.5. Einuss des Alters
Tabelle C.12.: Überprüfung der Daten auf Alterseekte: Mikromittelwerte Benutzerleistung
und Frageitems Benutzerzufriedenheit
Varianzanalyse
Maÿ
df
a
Dok@10
2
BR
2
BP
2
PCP
2
F
b
Post-Hoc-Test
c
Sig.
1. vs. 2. AG
1. vs. 3. AG
2. vs. 3. AG
MD
Sig.
MD
Sig.
MD
Sig.
6,497
5,699
1,147
1,660
0,002
0,005
0,322
0,196
−1,84
−0,04
−
−
0,464
0,381
−
−
−7,47
−0,14
−
−
0,003
0,005
−
−
−5,63
−0,10
−
−
0,010
0,035
−
−
0,566
4,789
0,423
0,166
0,985
0,142
0,580
0,341
0,626
0,524
0,889
0,080
0,028
0,347
1,861
0,570
0,011
0,656
0,847
0,378
0,868
0,562
0,712
0,537
0,594
0,415
0,923
0,972
0,708
0,162
−
0,07
−
−
−
−
−
−
−
−
−
−
−
−
−
−
0,883
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−0,49
−
−
−
−
−
−
−
−
−
−
−
−
−
−
0,082
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−0,56
−
−
−
−
−
−
−
−
−
−
−
−
−
−
0,011
−
−
−
−
−
−
−
−
−
−
−
−
−
Item
1
2
2
2
3
2
4
2
5
2
6
2
7
2
8
2
9
2
10
2
11
2
12
2
13
2
14
2
16
2
a
Freiheitsgrade
b
F-Wert
c Signikanz
Tabelle C.13.: Varianzanalysen mit Kovariate Alter: Mikromittelwerte Benutzerleistung
Alter
Maÿ
df
a
Dok@10
1
BR
1
BP
1
PCP
1
a
Freiheitsgrade
F
4,933
4,801
0,378
0,611
b
Erwartungshaltung
b
c
Sig.
df
F
0,029
0,031
0,540
0,436
1
1,266
1,052
0,315
0,734
F-Wert
1
1
1
Systemgüte
df
F
Sig.
df
F
Sig.
0,264
0,308
0,576
0,394
1
0,301
0,760
15,705
3,858
0,585
0,386
0,000
0,053
1
2,642
2,284
2,532
1,091
0,108
0,134
0,115
0,299
1
1
1
c Signikanz
C.6. Einuss der Rechercheerfahrung
148
Interaktion
Sig.
1
1
1
C.6. Einuss der Rechercheerfahrung
Tabelle C.14.: Varianzanalysen mit Kovariate Alter: Mikromittelwerte Benutzerleistung und
Frageitems Benutzerzufriedenheit
Alter
Erwartungshaltung
a
df
b
F
c
Sig.
1
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
1
10
1
11
1
12
1
13
1
14
1
16
1
0,141
5,006
0,088
0,003
0,000
1,464
0,078
0,340
0,032
0,236
1,909
0,046
0,017
0,397
2,195
0,708
0,028
0,767
0,960
0,982
0,230
0,780
0,562
0,859
0,628
0,171
0,831
0,898
0,530
0,142
Maÿ
df
F
1
0,338
0,079
0,242
0,350
0,236
0,101
0,031
0,122
0,132
1,067
0,025
0,916
0,321
0,839
0,003
Systemgüte
Interaktion
Sig.
df
F
Sig.
df
F
Sig.
0,563
0,780
0,624
0,556
0,629
0,752
0,861
0,727
0,717
0,305
0,875
0,341
0,573
0,362
0,958
1
0,025
0,101
0,078
0,096
0,061
0,870
0,151
1,150
7,426
5,299
0,521
1,690
3,438
0,190
0,048
0,875
0,752
0,781
0,757
0,806
0,354
0,699
0,287
0,008
0,024
0,473
0,197
0,067
0,664
0,827
1
1,099
3,438
1,527
1,402
6,254
0,638
0,068
1,164
0,052
0,005
2,180
1,675
0,871
0,942
0,202
0,298
0,067
0,220
0,240
0,014
0,427
0,795
0,284
0,820
0,943
0,144
0,199
0,353
0,335
0,654
Item
a
b
Freiheitsgrade
F-Wert
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
c Signikanz
Tabelle C.15.: Varianzanalysen mit Kovariate Recherecheerfahrung: Makromittelwerte
Makromittelwerte
a
Rechercheerfahrung
Erwartungshaltung
Maÿ
df
F
Sig.
df
F
Dok@10
1
1
t1.Dok
1
BP
1
0,124
0,158
0,010
0,751
1,556
0,726
0,692
0,921
0,389
0,216
1
BR
2,695
2,388
0,036
0,606
0,713
PCP
1
Freiheitsgrade
b
F-Wert
1
1
1
1
c Signikanz e
Systemgüte
Interaktion
Sig.
df
F
Sig.
df
F
Sig.
0,104
0,126
0,850
0,438
0,401
1
0,419
0,558
0,105
12,408
3,999
0,519
0,457
0,747
0,001
0,049
1
2,721
2,313
0,283
4,873
1,063
0,103
0,132
0,596
0,030
0,306
1
1
1
1
Varianzhomogenität nicht gegeben
f
1
1
1
1
Normalverteilung nicht
gegeben
149
Tabelle C.16.: Varianzanalysen mit Kovariate Recherecheerfahrung: Mikromittelwerte un. Fragebogen
Mikromittelwerte
Rechercheerfahrung
Erwartungshaltung
Maÿ
df
F
Sig.
df
F
Dok@10
1
1
BP
1
PCP
1
0,124
0,177
0,684
1,055
0,726
0,675
0,411
0,307
1
BR
0,264
0,102
0,135
0,157
0,002
1,058
1,854
0,035
0,216
0,167
2,157
0,472
0,394
2,575
0,005
0,776
0,609
0,750
0,714
0,693
0,963
0,307
0,177
0,852
0,643
0,684
0,146
0,494
0,532
0,112
0,945
0,381
1
1
1
1
df
F
Sig.
df
F
Sig.
2,695
2,341
0,252
0,963
0,104
0,130
0,617
0,329
1
0,419
0,550
15,504
3,740
0,519
0,460
0,000
0,057
1
2,721
2,374
2,645
1,184
0,103
0,127
0,108
0,280
0,305
0,648
0,382
0,437
0,259
0,283
0,014
0,239
0,217
0,803
0,002
1,229
0,460
0,916
0,177
0,352
0,582
0,423
0,538
0,511
0,612
0,596
0,905
0,626
0,643
0,373
0,963
0,271
0,500
0,341
0,675
0,555
0,031
0,181
0,052
0,075
0,058
0,854
0,089
1,193
7,153
4,983
0,479
1,514
3,673
0,123
0,016
6,495
0,861
0,671
0,820
0,785
0,810
0,358
0,766
0,278
0,009
0,028
0,491
0,222
0,059
0,727
0,901
0,013
1
1,143
3,501
1,534
1,418
6,256
0,554
0,054
1,204
0,051
0,004
1,999
1,699
0,889
1,059
0,237
0,073
0,288
0,065
0,219
0,237
0,014
0,459
0,817
0,276
0,822
0,948
0,161
0,196
0,349
0,306
0,627
0,787
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
1
10
1
11
1
12
1
13
1
14
1
16
1
BZ
1
Freiheitsgrade
b
150
1
1
1
1
1
1
Fragebogen
1
gegeben
Interaktion
Sig.
Item
a
Systemgüte
F-Wert
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
c Signikanz e
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Varianzhomogenität nicht gegeben
f
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Normalverteilung nicht
C.7. Reliabilitätsanalyse für die kombinierte Zufriedenheitsskala
C.7. Reliabilitätsanalyse für die kombinierte
Zufriedenheitsskala
Tabelle C.17.: Varianzanalysen mit Kovariate Alter: Mikromittelwerte Benutzerleistung und
Frageitems Benutzerzufriedenheit
Cronbachs Alpha
Anzahl der Items
Cronbachs Alpha
Anzahl der Items
0,63
7
0,69
6
Cronbachs Alpha,
Item
Cronbachs Alpha,
falls Item gelöscht
Item
falls Item gelöscht
8
0,56
8
0,61
9
0,52
9
0,62
10
0,55
10
0,61
11
0,6
11
0,69
12
0,69
13
0,67
13
0,63
14
0,69
14
0,61
C.8. Auswertung Item 15
Hättest Du andere Suchbegrie eingegeben? Falls ja, welche?
S1,1
Item 15
ja
Anzahl
Gesamt
18
17
15
18
68
16,8
17,6
16,8
68
% von Item 15
0,27
0,25
0,22
0,27
1,00
S
0,82
0,77
0,65
0,82
0,76
4
5
8
4
21
Anzahl
5,2
5,2
5,4
5,2
21
% von Item 15
0,19
0,24
0,38
0,19
1,00
S
0,18
0,23
0,35
0,18
0,24
Anzahl
22
22
23
22
89
Erwartete Anzahl
22
22
23
22
89
% von Item 15
0,25
0,25
0,26
0,25
1,00
S
1,00
1,00
1,00
1,00
1,00
% von
% von
Wert
df
Sig.
Chi-Quadrat nach Pearson
2,32
3
0,51
Likelihood-Quotient
2,23
3
0,53
Anzahl der gültigen Fälle
S2,2
16,8
Erwartete Anzahl
Gesamt
S2,1
Erwartete Anzahl
% von
nein
S1,2
89
151
C.9. Auswertung Item 29
Online-Benutzertest zur Bewertung der Suchmaschine FactDirectory
Item 29
17
S1,1
S1,2
S2,1
21
17
76
Erwartete Anzahl
18,8
18,8
% von Item 29
0,22
S
0,77
5
21
% von
nein
Anzahl
Erwartete Anzahl
Gesamt
19,6
18,8
76
0,28
0,28
0,22
1,00
0,96
0,91
0,77
0,85
1
2
5
13
3,2
3,2
3,4
3,2
13
% von Item 29
0,39
0,08
0,15
0,39
1,00
S
% von
0,23
0,05
0,09
0,23
0,15
Anzahl
22
22
23
22
89
22
22
23
22
89
0,25
0,25
0,26
0,25
1,00
1,00
1,00
1,00
1,00
1,00
Gesamt
Wert
df
Sig.
Chi-Quadrat nach Pearson
4,76
3
0,51
Likelihood-Quotient
5,13
3
0,16
Anzahl der gültigen Fälle
S2,2
89
C.10. Leistungsmaÿe
Tabelle C.18.: Varianzanalyse: Mikromittelwerte Leistungsmaÿe
Erwartungshaltung
Maÿ
Dok@10
df
F
Sig.
1
2,868
0,094
Systemgüte
df
F
1
Interaktion
Sig.
df
F
Sig.
0,465
0,497
1
2,731
0,102
BR
1
2,519
0,116
1
0,508
0,478
1
2,375
0,127
BP
1
0,179
0,673
1
16,219
0,000
1
2,609
0,110
PCP
1
1,183
0,280
1
4,101
0,046
1
1,145
0,288
Tabelle C.19.: Mittelwerte: Mikromittelwerte Leistungsmaÿe
Erwartungshaltung
Maÿ
Dok@10
A1
30,41
A2
24,47
Systemgüte
Interaktion
B1
B2
S1,1
S1,2
S2,1
S2,2
26,25
28,64
26,32
34,50
26,17
22,77
BR
0,20
0,16
0,19
0,17
0,19
0,21
0,19
0,14
BP
0,89
0,90
0,85
0,93
0,83
0,94
0,87
0,92
PCP
0,67
0,64
0,63
0,69
0,63
0,72
0,63
0,66
152
D. Darstellung und Auswertung der
oenen Fragen
D.1. Auswertung Item 26
Wenn Du möchtest, kannst Du hier genauer angeben, welche Stärken und
Schwächen die Suchmaschine Periodikum aus Deiner Sicht hat:
Antworten der Probandinnen auf diese oene Frage in ungekürzter und unveränderter
Form sowie die Zuordnung zu den fünf Antwortkategorien:
153
Tabelle D.1.: Gruppe S1,1 : I=Inhalt, L=Layout, R=Ranking, S=Snippet, T=Treer, U=Usibility
Kategorie
Stärke
I
Als Ergänzung zu anderen Suchmaschinen bzw. im Zusammenspiel ist sie bei Recherchearbeiten auf jeden Fall zu empfehlen. Pluspunkt Stärke Fachzeitschriften: Im
Internet sind Fachartikel meist nur unvollständig einzusehen (da man Geld bezahlen
muss für Fachzeitschriften!)
L, U
übersichtlich und wenig Schnick-Schnack, leicht und unkompliziert zu bedienen
R
gelterte Beiträge
R, U, T, L
aus meiner Sicht gibt es bei der Suchmaschine Periodikum keine Schwächen.
T
Die Artikel, die interessant waren, trafen dafür 100%ig zu.
L, U
gut: sehr übersichtlich, Handhabung ist intuitiv
T
z.T. zu lange Antworten, teilw. viel zu kurz, viele irrelevante Artikel zu Suchbegri
R
Die besten Suchergebnisse sind meist auf Seite 2 oder 3 der Ergebnisliste.
Kategorie
Schwäche
R
Bei einzelnen Themen sollte sie noch besser ltern (Thema 3).
T, I
Relevanz der Berichte besser einstufen, Links zu speziellen Seiten
T, U
Artikel mit relativ gleichem Inhalt werden nicht hintereinander angezeigt (verschiedene Seiten), keine Auswahlmöglichkeit für z.B. nur Artikel aus Deutschland etc., keine
Anzeige der Relevanz bzw. der Übereinstimmung des angezeigten Artikels mit Suchbegrien
I
nicht nur Fachzeitschriften, sondern alle Zeitungen und Zeitschriften sind relevant bei
umfassenden Suchen (z.B. auch Bildzeitung u.a.)
S, T, R
Kurztext in der Übersicht könnte etwas länger sein. Wenn man mehr als 1 Suchwort
hat, sollten wirklich nur Ergebnisse gezeigt werden, wo wirklich alle Suchwörter drin
auftauchen (oder mindestens nach oben sortieren -> best results)
L
Übersicht der relevanten Artikel an der Seite....
R
nicht immer nach Relevanz sortierte Beiträge, nicht stark genug geltert
L, U
Informationskästchen waren nicht verstellbar, nach längerem Lesen/Recherchieren
kann dies eventuell hinderlich/anstrengend sein.
R
Die Suchergebnisse müssten besser nach Relevanz geordnet werden.
L
Es wäre bei manchen Texten einfacher gewesen sich einen Überblick zu verschaen,
wenn der Text nochmals mit Schlagwörtern untergliedert gewesen wäre. Evtl. hätten
Bilder (zu den passenden Zeitungsartikeln) bei der Auswahl geholfen.
T
L, S
Viele Artikel hatten mit dem Thema nix zu tun.
Layout ist sehr rudimentär. Zusammenfassung der Texte bietet nicht immer eine kurze
Zusammenfassung/Übersicht.
S
Die kurzen Beschreibungen in der Ergebnisliste waren oft nicht aussagekräftig genug.
L, U
Es wäre übersichtlicher, wenn die gesuchten Worte im Text markiert wären. Umständliche Bedienung (von Überschrift, Auswahl, Kreuz, nächster Überschrift)
T
Viele Artikel waren nicht nur für gesuchtes Thema relevant, sondern für das allgemeine
Wissen interessant.
T
Durch manche Artikel hat man Suchzeit verschenkt, weil sie interessant waren, aber
für die Suchaufgabe unrelevant
154
Kategorie
Stärke
L, U
sehr übersichtlich, leicht zu bedienen
I
weit gefächerte Ergebnislisten
S
gute, informative Kurzbeschreibung der Artikel
T
die meisten der gefundenen Artikel waren passend
L
Übersichtlichkeit
T, R
Die Suchergebnisse treen meistens vollkommen zu. Die Suchergebnisse sind nach ihrer
Relevanz eingegeben
I
gut geeignet für gezielte Suche nach Zeitungsartikeln, zitierbare Texte für Arbeiten
S
Die Kurzbeschreibungen zu den Artikeln waren sehr hilfreich, so dass man gut aussortieren konnte.
L
übersichtliche Gliederung
I
gut fand ich, dass sehr viele verschiedene Quellen angegeben wurden
U, T
Möglichkeit interessante Artikel schnell zu nden
L, U
gut, dass man Artikelrelevanz bewerten kann, benutzerfreundliches Layout
U, L, R, T
Ich bin mit der Suchmaschine Periodikum zufrieden und würde die verwenden.
T
aber manchmal tauchen Themen auf, die garnicht zum gefragten Thema passen
Kategorie
Schwäche
R
keine Sortierung nach Relevanz
S
Den Kurztext etwas länger (1-3 Sätze)
L
Hinweis des Erscheinungsdatums der Artikel fehlt, um die Aktualität auf einen Blick
erkennen zu können.
L, R
Die Suchbegrie sollten in Überschrift o. Kurzbeschreibung auftauchen bzw. die Artikel
in denen sie in Ü. o. K. vorkommen müssen an 1. Stelle stehen.
R
Relevanz der Artikel nach dem Suchbegri erschien mir nicht ausreichend sortiert.
S
Kurztext auf der Liste der Suchergebnisse nicht immer aussagekräftig
L
leichte Reaktionsträgheit bei Mausklicks (könnte aber auch an eingestellter Mausgeschwindigkeit liegen), habe Datum der Artikel nicht wahrgenommen
T
Die eingegebenen Suchbegrie tauchten nicht immer im Text auf. Z.B. bei der Kinderarbeit in Asien hat man zwar Artikel über Kinderarbeit gefunden, über Kinderarbeit
in Asien aber weniger und wenn ging es meistens um Teppich-Fabriken in Indien.
T
Die Suchmaschine ndet zwar viele Artikel zu den entsprechenden Suchwörtern, da
diese jedoch oft Kommentare, Interviews etc. sind, enthalten sie nicht immer primär
objektive Informationen zum Sachverhalt. Dies ist ein Nachteil der Suchmaschine für
die Recherche.
T
Ich hätte mir gern Artikel gewünscht, die einen Überblick über das Thema liefern.
L
Schrift war recht klein im Fenster der Artikel, dadurch wirkte es etwas unübersichtlich
L, R
bei
und hat das Überiegen etwas schwierig gemacht.
längerem
Suchen
wären
gröÿere
Titelüberschriften
hilfreich,
teilweise
nicht-
relevante Ergebnisse auf den 1. Seiten
U, S
keine erweiterte Suchfunktion, in der Kurzzusammenfassung fehlt die Ortsangabe
T, U
schlecht, dass nicht alle Artikel relevant waren und es keine Funktion gibt, im Text
U, L
Man konnte seine Suche nicht erweitern. Artikel hatten keine Bilder, obwohl es in
R, T
Die gezeigte Artikelliste scheint nicht nach Relevanz geordnet zu sein. Manchmal ist
nach dem Wort zu suchen
manchen Texten angegeben war.
kein Bezug zum gesuchten Thema erkennbar.
U
unklar, ob relevante Artikel noch einmal separat abrufbar sind
155
Kategorie
Stärke
S, L
kurze Zusammenfassung der Artikel, Übersichtlichkeit
L
übersichtlich, Quelle wird angezeigt
I
Vielfältigkeit, nicht länderspezisch
L, R, S
Sie Suchergebnisse waren sehr übersichtlich und gut sortiert. Die Inhalte waren gut in
U, L
leichte Bedienung und klare Auistung
der Kurzbeschreibung erkennbar.
U
Ich nde es wunderbar, dass man beim Anklicken der Kurzzusammenfassungen nur ein
kleines Fenster auf dem Bildschirm hat, das ist viel übersichtlicher und bequemer.
L, R
ist sehr übersichtlich, gut strukturiert
I
sucht tatsächlich nur in Fachzeitschriften, anders als google.de
L, I, U
Die Einfachheit der Suchmaschine gefällt mir. Es gibt keine Werbung etc., die einen
S
unter der Überschrift die kurze Erläuterung
ablenkt. Die Bedienung ist ebenfalls sehr leicht.
L, S
die Präsentation der einzelnen Artikel, der Beginn der Artikel wird in der Liste angezeigt
I
Die Artikel stammen aus seriöser Quelle.
U, L
einfach zu bedienen, übersichtliche Präsentation der Ergebnisse
L, S
gut sind die fett gedruckten Überschriften sowie die Einleitungen
L, U
Angenehme Optik, übersichtlich, unkomplizierte Bedienung
L, U
übersichtlich, einfach zu bedienen
I
Finde ich generell gut, da man relativ einfach passende Zeitungsartikel zu einem bestimmten Thema ndet.
L
gut ist, dass die Quelle aus der der Artikel stammt bei jedem Artikel dabei steht
S
Die Kurzfassungen der Artikel waren teilweise nicht aussagekräftig. Ergebnis aus dem
Kategorie
Schwäche
Hohlspiegel -> da werden Tippfehler etc. veröentlicht -> nicht relevant
L
Die Anzahl der Seiten sollte auch im oberen Teil des Fensters sichtbar sein. Man sollte
auf einen Blick erkennen können, wie viele Suchergebnisse erzielt wurden.
U
genauere Filter, z.B. welche Worte nicht gesucht werden sollen etc.
S
Suchbegri kommt nicht immer in der Kurzfassung vor
T, R
Reihenfolge/ Relevanz
I
Gefehlt haben mir eindeutig die Bilder.
T
meist falsche Artikel aufgezeigt, die nicht mit dem Oberthema kooperierten
R
Artikel schlecht geordnet (liegt vielleicht an Suchbegrien?)
T
manchmal nicht passende Themen dabei
T
man ndet die Suchwörter manchmal nicht in den gezeigten Artikeln
R
Die Ergebnisse könnten besser geltert sein.
T
gab viele Artikel, die nicht passten
T
Einige unrelevante, auch völlig andere Themen betreende Artikel wurden auf der
ersten Seite angezeigt.
S, R
Die Kurzfassung ist viel zu kurz und nicht ansprechend genug. Sie waren auch nicht
nach Relevanz geordnet.
R
R
nicht nach Relevanz geordnet
sollte besser ltern, wichtige/relevante Artikel zuerst und nicht durcheinander, so dass
man alles lesen muss
R
unscharfer Filter, Relevanz nicht nach Suchbegrien sortiert
R, I
Ich hatte nicht den Eindruck, dass die Artikel nach ihrer Relevanz aufgeführt wurden. Viele Artikel aus der Schweiz; schwierig, wenn man einen Artikel f. Deutschland
schreiben will
I, U
nur deutschsprachige Literatur verfügbar -> sollte international auswählbar sein, eventuell Ordnung nach Fachzeitschrift (Auswahlmöglichkeit geben)
T
Es wurden zum Teil Ergebnisse geliefert, die nicht mit dem Suchbegri in Zusammenhang standen.
L
156
der blaue Hintergrund ist etwas störend;
Kategorie
Stärke
L
Es ist positiv, dass die Artikel gleich in einem neuen Fenster geönet werden.
L, U
ansprechende Optik, angenehm anzuschauen, einfach zu bedienen, übersichtlich
U
Handhabung war einfach
I, U
Zugri zu vielen verschiedenen Bereichen (z.B. Zeitungen), schnell
T
qualitativ hochwertige Artikel
I
nur Fachliteratur/-berichte, keine Werbeanzeigen oder Kaufangebote
T
Ich nde es super, dass alle eingegebenen Suchbegrie in ihrer Reihenfolge/Zusammenhang berücksichtigt werden
L, U, T
Übersichtlichkeit, Schnelligkeit, Themenbezogenheit, einfache Anwendung
L, U
sehr übersichtlich und einfach zu bedienen
L, U, S
einfach zu bedienen, übersichtlich, Kurzfassungen waren gut u. verständlich
U
spült schnell die Suchergebnisse hervor
L
Angenehmer Hintergrund
L, T
fehlt: Datumsangabe in der Ergebnisliste, Wörter im Text markiert, Relevanz der
Kategorie
Schwäche
Artikel nicht klar
I
Hilfreich ist es, wenn auch Aufsätze aus Sammelbänden gesucht werden können.
T
zu ungenau für den jeweiligen Artikel herausgeltert
U
Sortierungen zulassen: Wichtigkeit, Datum ...
L, U
Markierung von Artikeln, die bereits aufgerufen wurden.
S, T
Meistens wurde der komplette 1. Abschnitt des Artikels bei der Übersicht aufgelistet,
was nicht so sinnvoll ist, da man so keinen guten Überblick über den Artikel bekommt.
Manchmal war der Suchbegri im Artikel garnicht zu nden.
L, R
Meine Suchbegrie in Fett-Schrift, um sie schneller zu sehen. Hatte nicht das Gefühl,
dass sie nach der Relevanz geordnet waren.
I
Die Suchergebnisse sind von wenigen Zeitungen/ Zeitschriften und zeigen somit nicht
die ganze Vielfalt möglicher Artikel; viele Lokalberichte, viel aus der Schweiz; keine
Ordnung ersichtliche
R
Es ist allerdings schade, dass die wichtigsten, die Artikel, die am öftesten die Suchbegrie enthalten, nicht zuerst gezeigt werden.
R, U, I
Keine chronologische Abfolge der Artikel, keine genaue Sucheingabe, nur Artikel aus
wenigen Zeitschriften
I
aufwändige Pege des Bestands
L
die jeweilige Quelle könnte besser hervorgehoben werden
L
Quellenangabe könnte genauer sein
L
Die Seitenübersicht sollte zu jeder Zeit ersichtlich sein.
157
Falls Du noch Anmerkungen zu dem Benutzertest hast, kannst Du diese hier
einbringen:
Antworten der Probandinnen auf diese oene Frage in ungekürzter und unveränderter
Form:
•
Fand ich ganz gut!
•
mehr frische Luft
•
Ich fand die Zeit als Benutzer zu knapp, um behaupten zu können, die Suchmaschine seriös bewerten zu können.
•
war gut zu leisten, nicht zu umfangreich oder viel
•
Manchmal hätte ich mir eine Abstufung zwischen Artikel ist relevant und nicht
relevant gewünscht, da manche Artikel nur z.T. wichtig waren: z.B. eher relevant
und eher nicht relevant als zusätzliche Wahl
•
Die weit gefassten Aufgabenstellungen irritierten mich ein wenig bei der Auswahl
der Artikel.
•
Die Themen waren sehr allgemein gehalten. Da es über diese jede Menge Berichte
gibt, liefert Periodikum jede Menge Material. Es bleibt die Frage oen, ob Periodikum auch bei Recherchen zu spezielleren Themen ausreichend relevantes Material
liefert.
•
Die Suchmaschine wird als eine für Fachzeitschriften bezeichnet, es hätten Themen
genommen werden sollen, die solcher Fachzeitschriften bedürfen, wie Themen aus
der Pädagogik etc., da für mich normaleZeitschriften keine Fachzeitschriften sind.
•
Ich weiÿ nicht, inwieweit Bilder von Nutzen sind, aber bei einer anderen Themenauswahl wie z.B. Kunst wären diese von Nutzen.
•
Evtl. kann man selber die Suchbegrie auswählen, um zu schauen, wann man den
passenden Artikel ndet.
•
158
schade, dass Begrie nicht variabel waren

Das Confirmation/Disconfirmation-Paradigma der

Transcrição

Documentos relacionados

Franz-Josef Nocke Liebe, Tod und Auferstehung Die Mitte des

USS 7000 - Zehnder Pumpen GmbH

USS 3000 - Zehnder Pumpen GmbH

SIG Combibloc GmbH Sicherheitsingenieur (m/w) (Fulltime)

mosquito - Burgstaller Waffenhandel GmbH

USS Iowa BB61 in Bremerhaven USS Iowa BB61 in Bremerhaven

Folie 1

Universal-Schlammsauger USS 3000/4000

Oh Herr, wirf Hirn vom Himmel, und gib, dass sie es nicht auffressen

Der Angriff auf Pearl Harbor (Berichterstattung)