Das Confirmation/Disconfirmation-Paradigma der
Transcrição
Das Confirmation/Disconfirmation-Paradigma der
Fachbereich III - Informations- und Kommunikationswissenschaften Institut für Angewandte Sprachwissenschaft Magisterarbeit Internationales Informationsmanagement Das Conrmation/Disconrmation-Paradigma der Kundenzufriedenheit im Kontext des Information Retrieval Vorgelegt von: Gutachter: Katrin Lamm Prof. Dr. Christa Womser-Hacker E-Mail: [email protected] Prof. Dr. Werner Greve Hildesheim, im Juli 2008 ii Inhaltsverzeichnis 1. Einleitung und Zielsetzung 1 2. Grundlagen und Methoden der Information-Retrieval-Evaluierung 5 2.1. 2.2. 2.3. 2.4. 2.5. Bewertung und Vergleich der Retrievaleektivität . . . . . . . . . . . . . 6 2.1.1. Systemorientierte Evaluierung . . . . . . . . . . . . . . . . . . . . 6 2.1.2. Benutzerorientierte Evaluierung . . . . . . . . . . . . . . . . . . . 9 Die Bedeutung internationaler Evaluierungsinitiativen . . . . . . . . . . . 11 2.2.1. Text REtrieval Conference (TREC) . . . . . . . . . . . . . . . . . 12 2.2.2. Cross-Language Evaluation Forum (CLEF) . . . . . . . . . . . . . 13 Leistungsvergleich auf der Basis von Eektivitätsmaÿen . . . . . . . . . . 14 2.3.1. Die Standardmaÿe Recall und Precision . . . . . . . . . . . . . . . 15 2.3.2. Weitere relevanzbasierte Eektivitätsmaÿe . . . . . . . . . . . . . 18 Erhebungsmethoden zur Evaluierung von Mensch-Maschine-Interaktion . 20 2.4.1. Objektive Erhebungsmethoden . . . . . . . . . . . . . . . . . . . 21 2.4.2. Subjektive Erhebungsmethoden . . . . . . . . . . . . . . . . . . . 22 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3. Grundlagen der Zufriedenheitsforschung 3.1. 3.2. 3.3. Theoretische Ansätze in der Kundenzufriedenheitsforschung 25 . . . . . . . 25 3.1.1. Der Soll-Ist-Vergleich der Kundenzufriedenheit . . . . . . . . . . . 26 3.1.2. Die Faktorstruktur der Kundenzufriedenheit . . . . . . . . . . . . 31 Methodische Ansätze in der Kundenzufriedenheitsforschung . . . . . . . . 34 3.2.1. Identizierung und Kategorisierung von Kundenanforderungen . . 34 3.2.2. Messung von Kundenzufriedenheit . . . . . . . . . . . . . . . . . . 36 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4. Stand der Forschung 41 4.1. Performanzorientierte Forschung . . . . . . . . . . . . . . . . . . . . . . . 41 4.2. Zufriedenheitsorientierte Forschung 44 . . . . . . . . . . . . . . . . . . . . . iii Inhaltsverzeichnis 4.3. Forschungsansätze zum Einuss der Ergebnispräsentation . . . . . . . . . 46 4.4. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5. Aufbau und Ablauf der empirischen Untersuchung 5.1. 5.2. 5.3. Auswahl des Untersuchungsdesigns 53 . . . . . . . . . . . . . . . . . . . . . 5.1.1. Formulierung der Untersuchungshypothesen 5.1.2. Kontrolle von Störvariablen 54 . . . . . . . . . . . . 55 . . . . . . . . . . . . . . . . . . . . . 58 . . . . . . . . . . . . . . . . . . . . . . . 59 5.2.1. Beschreibung der Suchaufgaben . . . . . . . . . . . . . . . . . . . 62 5.2.2. Beschreibung des Anwendungsprogramms . . . . . . . . . . . . . 63 5.2.3. Erstellung der Ergebnislisten . . . . . . . . . . . . . . . . . . . . . 66 5.2.4. Erhebungsverfahren der Hauptuntersuchung . . . . . . . . . . . . 68 Ergebnisse der qualitativen Voruntersuchung . . . . . . . . . . . . . . . . 74 Ablauf der Hauptuntersuchung 6. Darstellung und Auswertung der Untersuchungsergebnisse 77 6.1. Zusammensetzung und Beschreibung der Stichprobe . . . . . . . . . . . . 77 6.2. Analyse - und Auswertungsverfahren . . . . . . . . . . . . . . . . . . . . 78 6.3. Untersuchungsergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 6.3.1. Überprüfung der Daten . . . . . . . . . . . . . . . . . . . . . . . . 82 6.3.2. Auswertung der Benutzerzufriedenheit . . . . . . . . . . . . . . . 89 6.3.3. Auswertung der Benutzerleistung . . . . . . . . . . . . . . . . . . 97 6.3.4. Einbeziehung von Kovariaten . . . . . . . . . . . . . . . . . . . . 103 7. Fazit und Ausblick 107 Literaturverzeichnis 111 Abbildungsverzeichnis 121 Tabellenverzeichnis 123 Anhang 125 A. Materialien zum Benutzertest 127 A.1. Vorabinformation niedrige Erwartungshaltung . . . . . . . . . . . . . . . 127 A.2. Vorabinformation hohe Erwartungshaltung . . . . . . . . . . . . . . . . . 128 A.3. Beschreibung des Anwendungsszenarios . . . . . . . . . . . . . . . . . . . 129 A.4. Beschreibungen der einzelnen Suchaufgaben iv . . . . . . . . . . . . . . . . 130 Inhaltsverzeichnis A.5. Fragebogen zur Benutzerzufriedenheit . . . . . . . . . . . . . . . . . . . . 131 B. Ranking der Ergebnislisten B.1. Energieaufgabe 137 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 B.2. Asienaufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 B.3. Atomaufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 C. Statistische Auswertungen 141 C.1. Überprüfung der Voraussetzungen . . . . . . . . . . . . . . . . . . . . . . 141 C.2. Einuss selbstbestimmter Abbruch . . . . . . . . . . . . . . . . . . . . . 146 C.3. Einuss nur erste Ergebnisseite betrachtet . . . . . . . . . . . . . . . . . 146 C.4. Einuss der Muttersprache . . . . . . . . . . . . . . . . . . . . . . . . . . 147 C.5. Einuss des Alters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 C.6. Einuss der Rechercheerfahrung . . . . . . . . . . . . . . . . . . . . . . . 148 C.7. Reliabilitätsanalyse für die kombinierte Zufriedenheitsskala . . . . . . . . 151 C.8. Auswertung Item C.9. Auswertung Item 15 29 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 C.10.Leistungsmaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 D. Darstellung und Auswertung der oenen Fragen D.1. Auswertung Item D.2. Auswertung Item 26 27 153 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 v Inhaltsverzeichnis vi Danksagung Die vorliegende Magisterarbeit entstand am Institut für Angewandte Sprachwissenschaft des Fachbereichs Informations- und Kommunikationswissenschaften der Universität Hildesheim. An dieser Stelle möchte ich allen Personen meinen herzlichen Dank aussprechen, die zum Gelingen dieser Arbeit beigetragen haben. Mein besonderer Dank gilt zunächst meinen beiden Betreuern Frau Prof. Dr. Christa Womser-Hacker und Herrn Prof. Dr. Werner Greve für das interessante Thema und die Oenheit gegenüber der für diese Arbeit gewählten interdisziplinären Herangehensweise. Nicht zuletzt durch ihre freundliche und engagierte Betreuung hat mir die Bearbeitung sehr viel Freude bereitet. Auch möchte ich mich bei Herrn PD Dr. Thomas Mandl für die besondere Unterstützung während der Konzeption des Benutzertests sowie die konstruktiven Gespräche, die das Entstehen und den Fortgang dieser Arbeit begleitet haben, ganz herzlich bedanken. Nicht unerwähnt lassen möchte ich auch all diejenigen, die sich bereit erklärt haben, an dem im Rahmen dieser Arbeit durchgeführten Benutzertest teilzunehmen. Ohne sie wäre diese Magisterarbeit nicht möglich gewesen. Bedanken möchte ich mich weiterhin bei Melanie Glaubitz, Sonja Ziegler und Björn Scharoba für das Korrekturlesen und viele hilfreiche Anregungen. Auch meinem Freund Albert möchte ich für die zahlreichen Diskussionen und Denkanstösse, aber vor allem für die Motivation und das entgegengebrachte Verständnis in der Endphase dieser Arbeit danken. Ein besonderer Dank gebührt auch meinen Eltern, die mich durch ihre Bereitschaft zuzuhören und aufmunternde Gespräche zu jeder Zeit unterstützt und ermutigt haben. Danke! vii viii Zusammenfassung Die vorliegende Magisterarbeit befasst sich mit der benutzerorientierten Evaluierung von Information-Retrieval-Systemen. Untersucht wird die Wahrnehmung von Suchergebnissen sowie deren Einuss auf den Sucherfolg von Informationssuchenden. Zu Beginn werden die im Bereich der Information-Retrieval-Forschung üblichen Vorgehensweisen in Bezug auf die Evaluierung von Information-Retrieval-Systemen vorgestellt und einander gegenübergestellt. Darüber hinaus wird ein aus dem Bereich der Kundenzufriedenheitsforschung stammendes Modell zur Erklärung der Entstehung von Kundenzufriedenheit eingeführt und auf die Anwendungssituation des Information Retrieval übertragen. Anschlieÿend wird ein experimentelles Untersuchungsdesign entwickelt und erprobt, im Rahmen dessen der Frage nachgegangen wird, welchen Einuss die Erwartungshaltung von Benutzern und die Leistung von Suchsystemen auf die Zufriedenheit und die Suchleistung von Informationssuchenden haben. Schlüsselwörter: Information Retrieval, benutzerorientierte Evaluierung, Benutzertest, Eektivitätsmaÿe, Systemleistung, Benutzerleistung, Zufriedenheitsforschung, Conrmation/Disconrmation-Paradigma, Kundenzufriedenheit, Erwartungshaltung ix x Abstract This thesis deals with the user-based evaluation of information retrieval systems. The perception of search results as well as their inuence on the search success of users seeking information will be examined. First common approaches to the evaluation of information retrieval systems in the eld of information retrieval research are presented and compared with each other. Furthermore, a model from the eld of customer satisfaction research which explains the development of customer satisfaction is introduced and will be transferred to the application of information retrieval. Afterwards an experimental study design will be developed and tested. Within the scope of this study design the eects of the expectancy of users and the performance of search systems on the satisfaction as well as the search performance of information seekers are investigated. Keywords: information retrieval, user-based evaluation, user study, eectiveness measures, system performance, user performance, satisfaction research, conrmation/disconrmation-paradigm, customer satisfaction, expectancy xi 1. Einleitung und Zielsetzung Information ist Wissen in Aktion (Kuhlen 2004: 162) Diese prägnante Formel beschreibt den Kern der Angewandten Informationswissenschaft, nämlich Wissen für konkrete Problemstellungen nutzbar zu machen. In der heutigen auf Informations- und Kommunikationstechnologien basierenden Informationsgesellschaft liegt dieses Wissen immer häuger in elektronischer Form vor. Die damit einhergehende Entwicklung von Verfahren zum Austausch und zur Speicherung von Information führt zur Entstehung immer umfangreicherer Datenbestände. Aus diesem Grund kommt der inhaltlichen Erschlieÿung und dem Wiederaunden von Informationsobjekten innerhalb solcher Datensammlungen eine immer gröÿere Bedeutung zu. Mit dieser computergestützten Suche nach Information beschäftigt sich das Forschungsgebiet des Information Retrieval (IR) (vgl. IfAS 2008: o. S.). Dementsprechend werden Systeme, die das Aunden von Informationsobjekten ermöglichen, als InformationRetrieval-Systeme bezeichnet. Die betrachteten Datenbestände sind dabei so vielfältig wie Bibliothekskataloge, Zeitungsarchive oder das Internet und die Informationsbedürfnisse reichen von der Fachrecherche eines Experten bis zur Internetsuche eines Laien. Diese besondere Berücksichtigung des Benutzers grenzt die Angewandte Informationswissenschaft von der Informatik ab (vgl. ebd.). Weiterhin zeigt diese Perspektive Parallelen zur Psychologie auf: Im Zentrum der Informationswissenschaft stehen immer die kognitiven Fähigkeiten des Menschen. (ebd.) Einen Teilaspekt der Information-Retrieval-Forschung stellt die Evaluierung des Sucherfolgs dar. Dabei werden Information-Retrieval-Systeme aus einer bewertenden Perspektive betrachtet (vgl. Womser-Hacker 2004: 227). Der Erfolg einer Suche ist von einer Vielzahl von Faktoren abhängig. Neben technischen Faktoren wie beispielsweise den angewendeten Verfahren zur inhaltlichen Erschlieÿung der Datenbestände tragen auch individuelle Faktoren wie das Suchverhalten der Anwender sowie deren Erwartungen und Erfahrungen im Umgang mit solchen Systemen zum Erfolg einer computergestützten Informationssuche bei (vgl. Ferber 2003: 84). 1 1. Einleitung und Zielsetzung Im Rahmen dieser Magisterarbeit soll die Anwendungssituation von InformationRetrieval-Systemen im Mittelpunkt stehen, da diese in letzter Konsequenz über den Erfolg einer Suche und somit die Qualität eines Systems entscheidet. Besonderes Interesse gilt in diesem Zusammenhang der subjektiv wahrgenommenen Qualität von Suchergebnissen, da die Kenntnis über die Entstehung von Benutzerzufriedenheit eine wichtige Voraussetzung für die Verbesserung und Weiterentwicklung von Information-RetrievalSystemen ist (vgl. Al-Maskari et al. 2006: 1). Im Bereich der Kundenzufriedenheitsforschung dominiert das anschauliche Conrmation/Disconrmation-Modell zur Erklärung der Entstehung von Kundenzufriedenheit (vgl. Sauerwein 2000: 8). Dieses theoretische Basismodell wird auch C/D-Paradigma genannt (vgl. ebd.). Kundenzu- oder unzufriedenheit entsteht gemäÿ dieser Modellvorstellung durch die Bestätigung beziehungsweise Nicht-Bestätigung von Erwartungen (vgl. Nerdinger/Neumann 2007: 128). Die vorliegende Arbeit überprüft, ob das C/D-Paradigma auch im Kontext der Informationssuche als theoretischer Bezugsrahmen für die Untersuchung von Benutzerzufriedenheit genutzt werden kann. Weiterhin soll untersucht werden, inwiefern sich die Güte eines Systems auf die Suchleistung der Benutzer auswirkt. Dabei wird unter der Güte eines Systems seine Fähigkeit verstanden, viele relevante Dokumente zu einer Suchanfrage aufzunden. Gerade der Bereich einer anwendungs- oder benutzerorientierten Forschung ist durch Interdisziplinarität gekennzeichnet (vgl. Ferber 2003: 30). Ferber verweist in diesem Zusammenhang vor allem auf die Bedeutung der Informatik und der Kognitionswissenschaften (vgl. ebd.). Auch für das Forschungsvorhaben der vorliegenden Arbeit wurde bewusst ein interdisziplinärer Ansatz gewählt, der Kompetenzen der Angewandten Informationswissenschaft und der Psychologie zusammenführt. Daraus ergeben sich die folgenden forschungsleitenden Fragen: 1. Welche Ansätze existieren im Bereich der experimentellen Evaluierung von Information-Retrieval-Systemen und was zeichnet diese Ansätze aus? 2. Kann das C/D-Paradigma der Kundenzufriedenheit ebenfalls als theoretischer Bezugsrahmen für die Untersuchung von Benutzerzufriedenheit im Information Retrieval genutzt werden? 3. Welches Untersuchungsdesign eignet sich für die Durchführung einer benutzerorientierten Evaluierung von Information-Retrieval-Systemen? 2 4. Welchen Einuss hat im Information Retrieval die Erwartungshaltung der Benutzer auf Benutzerzufriedenheit und Benutzerleistung? 5. Welchen Einuss hat die Systemgüte eines Information-Retrieval-Systems auf Benutzerzufriedenheit und Benutzerleistung? 6. Welchen Einuss hat im Information Retrieval die Rechercheerfahrung der Benutzer auf Benutzerzufriedenheit und Benutzerleistung? Die Beantwortung dieser Forschungsfragen erfolgt auf theoretischem und empirischem Weg. Dementsprechend lässt sich die vorliegende Arbeit in zwei Teile untergliedern. Im theoretischen Teil der Arbeit werden die interdisziplinären Voraussetzungen und Grundlagen für die Durchführung einer benutzerorientierten Evaluierung herausgearbeitet. Dabei befasst sich Kapitel 2 mit den informationswissenschaftlichen Ansätzen für die experimentelle Evaluierung von Information-Retrieval-Systemen. In Kapitel 3 werden ausgehend von den Grundgedanken des C/D-Paradigmas zur Entstehung von Kundenzufriedenheit die psychologischen Hintergründe und Zusammenhänge zur Erfassung der Benutzerzufriedenheit behandelt. Der Forschungsüberblick in Kapitel 4 führt die erarbeiteten Grundlagen zusammen, indem die methodischen Ansätze aktueller Studien und deren empirische Befunde vorgestellt und miteinander verglichen werden. Aufbauend auf diesen Überlegungen wird im empirischen Teil der Arbeit ein experimentelles Untersuchungsdesign entwickelt und erprobt. Nachdem zunächst in Kapitel 5 das dieser Untersuchung zugrundeliegende Design dargestellt wird, folgt in Kapitel 6 die statistische Auswertung der Ergebnisse. Abschlieÿend werden in Kapitel 7 die Ergebnisse und Erkenntnisse der im Rahmen dieser Arbeit durchgeführten Untersuchung zusammengefasst und diskutiert. Dieses Kapitel enthält auÿerdem eine Einschätzung der Generalisierbarkeit der empirischen Befunde sowie ein Gesamtfazit mit einem Ausblick auf weiteren Forschungsbedarf. 3 1. Einleitung und Zielsetzung 4 2. Grundlagen und Methoden der Information-RetrievalEvaluierung Man kann an einem Auto verschiedene Messungen vornehmen und erhält so eine Menge von Meÿwerten. Ein Meÿwert ist der Benzinverbrauch. Er beschreibt das Automobil, denn mit ihm kann man abschätzen, wann man wieder tanken muÿ. Man kann den Benzinverbrauch aber auch zum Vergleichen benutzen, wenn man ihn als Kriterium beim Kauf eines Automobils benutzt. Bollmann/Cherniavsky ( 1980: 99) Ein Ziel der Information-Retrieval-Evaluierung ist es, verschiedene Information-Retrieval-Systeme vergleichbar zu machen. Dabei hat es sich bewährt, das System selbst als eine Art Black Box zu betrachten (vgl. Womser-Hacker 2004: 227), deren innerer Aufbau und Funktionsweise für die Bewertung ausgeblendet werden. So wie in dem einleitenden Beispiel nur der Benzinverbrauch und nicht die Arbeitsweise des Motors berücksichtigt wird, ist bei der Bewertung eines Information-Retrieval-Systems allein sein Input-Output-Verhalten von Interesse. Abhängig von den jeweiligen Bewertungskriterien unterscheidet man bei der Information-Retrieval-Evaluierung zwischen Ezienz- und Eektivitätsbewertungen (vgl. Wom- ser-Hacker 2004: 227). Während man bei Ezienzbewertungen eine Kosten-NutzenAnalyse durchführt, untersucht man bei Eektivitätsbewertungen die Qualität der erreichten Lösungen (vgl. ebd.). Unter Ezienz versteht man demnach das Verhältnis zwischen den eingesetzten Ressourcen zu der erreichten Lösung. Als Eektivität bezeichnet man die Fähigkeit eines Systems, relevante Dokumente auszugeben und zugleich irrelevante Dokumente zurückzuhalten. Eektivitätsbewertungen sind in der Praxis der Information-Retrieval-Forschung am weitesten verbreitet (vgl. ebd.). Dies hängt vermutlich mit der Schwierigkeit zusammen, die genauen Kosten und den konkreten Nutzen eines Information-Retrieval-Systems zu ermitteln. Salton und McGill bemerken 5 2. Grundlagen und Methoden der Information-Retrieval-Evaluierung dazu: Leider unterscheiden sich Kosten und Nutzen eines Systems stark nach der jeweiligen Systemumgebung und oft ist es auch gar nicht möglich, die Kosten für eine bestimmte Funktion oder einen bestimmten Arbeitsvorgang von den übrigen Kosten zu trennen. (Salton/McGill 1987: 204 f ) Im vorliegenden Kapitel werden zunächst in Abschnitt 2.1 zwei Paradigmen zur Eektivitätsbewertung von Information-Retrieval-Systemen diskutiert. Dabei entspricht der systemorientierte Ansatz dem Beispiel zum Benzinverbrauch, da auch in diesem Fall objektive Messgröÿen betrachtet werden. Beim benutzerorientierten Ansatz werden zusätzlich subjektive Messgröÿen untersucht. Dies käme einer Unterscheidung von Autos durch das von ihnen vermittelte Fahrvergnügen gleich. Bei diesem Ansatz kommt also noch ein weiteres Bewertungskriterium hinzu, die Zufriedenheit der Benutzer. Im Anschluss werden in Abschnitt 2.2 die wichtigsten internationalen Evaluierungsinitiativen auf dem Gebiet der Information-Retrieval-Forschung vorgestellt. Abschnitt 2.3 diskutiert die Vor- und Nachteile ausgewählter Eektivitätsmaÿe. In Abschnitt 2.4 werden zunächst objektive und subjektive Datenerhebungsmethoden voneinander abgegrenzt, um dann auf einzelne Methoden genauer einzugehen. 2.1. Bewertung und Vergleich der Retrievaleektivität In Bezug auf die Eektivitätsbewertung existieren in der Information-Retrieval-Forschung zwei unterschiedliche Bewertungsansätze, der te Ansatz system- und der benutzerorientier- (vgl. Turpin/Scholer 2006: 12 f ). Während bei ersterem die Systemper- spektive im Vordergrund steht, hebt der zweite Ansatz die Informationsbedürfnisse der Benutzer stärker hervor. 2.1.1. Systemorientierte Evaluierung Die systemorientierte Bewertung hat eine längere Tradition auf dem Gebiet des Information Retrieval als die benutzerorientierte und stellt den Hauptbestandteil aller wichtigen Evaluierungsinitiativen (vgl. Abschn. 2.2) dar. Bei diesem Ansatz werden automatisiert Testanfragen an das System gestellt. Anschlieÿend wird durch die Auswertung verschiedener Eektivitätsmaÿe (vgl. Abschn. 2.3) überprüft, wie gut das System in der Lage ist, relevante Dokumente zu nden und irrelevante Dokumente zurückzuhalten. Die Relevanzbewertung der Dokumente erfolgt durch unabhängige Experten mit dem Ziel, eine 6 2.1. Bewertung und Vergleich der Retrievaleektivität möglichst einheitliche und objektive Bewertung zu erreichen. Nach den ersten groÿen Craneld-Kollektion 1 durchgeführt wurden, wird dieses Vorgehen in der Literatur als das Craneld-Paradigma der Evaluierung bezeichnet Retrievaltests, die mit der sogenannten (vgl. Mandl 2006a: 54). Ferber bezeichnet die Tatsache, dass die Relevanz der Dokumente bekannt sein muss, um die Eektivität des Systems bewerten zu können, als das zentrale Problem bei der Evaluierung von Information-Retrieval-Systemen (vgl. Ferber 2003: 85). Indem er darauf hinweist, dass Retrievaltests eigentlich messen, inwieweit der Retrievaloutput mit den Expertenbewertungen übereinstimmt, kritisiert Ferber die Abhängigkeit der Bewertungsmaÿe von menschlichen Einüssen (vgl. a.a.O.: 85 f ). Möhr spricht in diesem Zusammenhang von dem Problem der Stellvertreterentscheidung, da hier ein Juror, dem das Informationsbedürfnis des Benutzers nicht bekannt ist, die Qualität des Retrievaloutputs bewertet (vgl. Möhr 1980: 135). Diese Einwände fallen bei der vergleichenden Evaluierung mehrerer Systeme weniger stark ins Gewicht. Deshalb begegnet man [. . . ] dieser Problematik durch den Einsatz komparativer Evaluierungsverfahren, welche die beteiligten Information-Retrieval-Systeme gleich behandeln, so dass die Ergebnisse im Vergleich ihre Gültigkeit bewahren, jedoch nicht als Einzelbewertung pro System valide sind. (Womser-Hacker 2004: 228) Auch folgern Salton und McGill aus experimentellen Ergebnissen, dass die subjektive Komponente der Relevanzbewertung nur einen geringen Einuss auf die Bewertungsmaÿe besitzt (vgl. Salton/McGill 1987: 184). Ebenfalls im Zusammenhang mit der Relevanzbewertung weisen Turpin und Scholer darauf hin, dass es durch immer umfangreichere Testkollektionen immer schwieriger wird, Relevanzangaben für alle in den Kollektionen enthaltenen Dokumente bereitzustellen (vgl. Turpin/Scholer 2006: 12). Aus diesem Grund wird bei der vergleichenden Evaluierung durch Evaluierungsinitiativen häug eine sogenannte Pooling-Methode angewendet. Dabei wird nur eine feste Anzahl der von den teilnehmenden Systemen zurückgelieferten Dokumente durch Juroren bewertet (vgl. Womser-Hacker 2004: 229). Alle nicht zurückgelieferten Dokumente werden bei diesem Verfahren als irrelevant eingestuft (vgl. Turpin/Scholer 2006: 12). Laut Turpin und Scholer besteht bei dieser Methode jedoch das Risiko, dass die Eektivitätsbewertung der Systeme verfälscht wird, weil die Anzahl der nicht bewerteten Dokumente bei groÿen Testkollektionen unter Umständen sehr umfangreich sein kann (vgl. ebd.). Dies birgt in der Folge die Gefahr, zu 1 Eine solche Testkollektion beinhaltet als wesentliche Elemente eine Sammlung von Dokumenten, eine Zusammenstellung von Testanfragen, sogenannten Topics (vgl. Fuhr 2005: 31), sowie die zugehö- rigen Relevanzbewertungen, die angeben, welche Dokumente aus der Kollektion für die jeweilige Anfrage als relevant eingestuft wurden (vgl. Ferber 2003: 92). 7 2. Grundlagen und Methoden der Information-Retrieval-Evaluierung viele relevante Dokumente als irrelevant einzustufen (vgl. ebd.). Auch an dieser Stelle kann das Argument geltend gemacht werden, dass bei der vergleichenden Evaluierung 2 Grundlagen und Methoden der Information-Retrieval-Evaluierung für alle Systeme die gleichen Voraussetzungen herrschen, so dass die Ergebnisse im Vergleich ihre Aussagekraft behalten. Wie durch die Pooling-Methode versucht wird, eine möglichst präzise Annäherung Wie durch die Pooling-Methode versucht wird, eine möglichst präzise Annäherung an die Gesamtzahl aller in der Kollektion enthaltenen relevanten Dokumente zu einer an die Gesamtzahl aller in der Kollektion enthaltenen relevanten Dokumente zu einer Suchanfrage 2.1 graphisch graphischdargestellt. dargestellt. Dabei steht Suchanfragezu zuerreichen, erreichen, ist ist in in Abbildung Abbildung 2.1 Dabei steht R fürfür die Gesamtzahl zueiner einerSuchanfrage Suchanfrage vorhandenen die Gesamtzahlder der im im Dokumentenbestand Dokumentenbestand D zu vorhandenen relevanten Dokumente. der von vonden deneinzelnen einzelnen Systemen relevanten Dokumente.Aus Aus der der Gesamtzahl Gesamtzahl der Systemen A, C zurückgeliefertenrelevanten relevanten Dokumente Dokumente ergibt fürfür R. zurückgelieferten ergibtsich sichder derSchätzwert Schätzwert SystemA B, undund . SystemB Sfrag replacements R SystemC Dokumentenbestand Abbildung 2.1.: D Die Pooling-Methodeals alsVerfahren Verfahren zur Bestimmung aller relevanAbbildung 2.1: Die Pooling-Methode Bestimmungder derGesamtzahl Gesamtzahl aller relevan- Kowalski Dokumenteinineiner einerKollektion Kollektion (Quelle: (Quelle: In 231) tenten Dokumente In Anlehnung Anlehnungan anKowalski 1997: 1997: 231) Neben derintendierten intendierten höheren höheren Objektivität Objektivität der durch unabNeben der derRelevanzbewertungen Relevanzbewertungen durch unabhängige Experten besteht ein weiterer Vorteil des systemorientierten Bewertungsansathängige Experten besteht ein weiterer Vorteil des systemorientierten Bewertungsansatzes darin, dass Retrievaltests ohne die Einbeziehung realer Benutzer mit vergleichsweise zes darin, dass Retrievaltests ohne die Einbeziehung realer Benutzer mit vergleichsweise geringem Aufwand durchzuführen sind (vgl. Möhr 1980: 127). Allerdings bleibt die Frageringem Aufwand durchzuführen sind (vgl. Möhr 1980: 127). Allerdings bleibt die Frage zu beantworten, inwieweit sich diese systemorientierten Ergebnisse auf reale Benutzer ge zu beantworten, inwieweit sich diese systemorientierten Ergebnisse auf reale Benutzer und deren individuelle Informationsbedürfnisse übertragen lassen. Al-Maskari und San- und deren individuelle Informationsbedürfnisse übertragen lassen. Al-Maskari und Sanderson schreiben deshalb: Therefore, the issue in Information Retrieval (IR) shifts from derson schreiben deshalb in diesem Zusammenhang: Therefore, the issue in Information maximizing the retrieval performance by rening IR techniques and methods to maximi- Retrieval (IR) shifts from maximizing the retrieval performance by rening IR technizing the understanding of users' behaviors and information need representation during ques and methods to maximizing the understanding of users' behaviors and information retrieval. (Al-Maskari/Sanderson 2006: 132) need representation during retrieval. (Al-Maskari/Sanderson 2006: 132) Mit der Untersuchung dieser Aspekte beschäftigt sich die im folgenden Abschnitt Mit der Untersuchung dieser Aspekte beschäftigt sich die im folgenden Abschnitt beschriebene benutzerorientierte Evaluierung. beschriebene benutzerorientierte Evaluierung. 2.1.2 Benutzerorientierte Evaluierung 8 Im Unterschied zum systemorientierten verfolgt der benutzerorientierte Bewertungsansatz das Ziel, die realistische Anwendungssituation von Information-Retrieval-Systemen 2.1. Bewertung und Vergleich der Retrievaleektivität 2.1.2. Benutzerorientierte Evaluierung Im Unterschied zum systemorientierten verfolgt der benutzerorientierte Bewertungsansatz das Ziel, die Anwendungssituation von Information-Retrieval-Systemen möglichst realistisch zu simulieren. Dazu werden neben einer Testkollektion reale Benutzer als Versuchspersonen benötigt, die innerhalb eines vorgegebenen Anwendungsszenarios mit dem System interagieren. In der Regel werden die Testbenutzer hierzu mit Testaufgaben konfrontiert, die sie mit Hilfe des zu beurteilenden Systems lösen sollen. Im Fokus können je nach zu untersuchender Fragestellung zum Beispiel der Suchprozess selbst, die Qualität der erreichten Lösungen, das persönliche Erleben der Testpersonen oder die Beobachtungen des Versuchsleiters stehen. Daran wird bereits deutlich, dass diese Art der Evaluierung sehr viel aufwendiger ist als im systemorientierten Fall. Auch im Hinblick auf die Erhebung der Daten können in Abhängigkeit von der jeweiligen Fragestellung unterschiedliche Verfahren herangezogen werden. Einige im Rahmen der benutzerorientierten Evaluierung eingesetzten Erhebungsverfahren werden in Abschnitt 2.4 genauer betrachtet. In Bezug auf die Frage, inwieweit sich die Ergebnisse aus systemorientierten Evaluierungen mit denen aus benutzerorientierten vergleichen lassen, haben Turpin und Hersh herausgefunden, dass die in systemorientierten Evaluierungen festgestellten Leistungsunterschiede bei benutzerorientierten Evaluierungen verschwinden (vgl. Turpin/Hersh 2001: 229). Turpin und Hersh interpretieren dieses Ergebnis als Hinweis darauf, dass die Testpersonen ihrer Untersuchung in der Lage waren, diese Unterschiede leicht zu kompensieren (vgl. a.a.O.: 230). Die Ergebnisse aus systemorientierten Evaluierungen lassen sich also nicht ohne Weiteres auf die reale Anwendungssituation von InformationRetrieval-Systemen übertragen. Fuhr kommt aus diesem Grund zu dem Schluss, [. . . ] dass Ergebnisse aus Batch-Evaluierungen nur sehr beschränkte Aussagekraft auf die viel realistischere Situation des interaktiven Retrieval haben. 2 (Fuhr 2005: 33) Deshalb ist es wichtig, dass die heute veranstalteten Evaluierungsinitiativen der benutzerorientierten Evaluierung einen gröÿeren Stellenwert einräumen. Umgesetzt wird dies zum Beispiel schon mit dem unter anderem von der Evaluierungsinitiative CrossLanguage Evaluation Forum (CLEF) (vgl. Abschn. 2.2.2) angebotenen Interactive Track 3 . Wie der Name vermuten lässt, ist es Ziel dieses Track, die Interaktion realer Benutzer 2 Die systemorientierte Bewertung wird in der Literatur auch als Fuhr 2005: 33). Wenn Fuhr von interaktivem Retrieval Batch-Evaluierung bezeichnet (vgl. spricht, meint er den benutzerorientierten Ansatz (vgl. ebd.). 3 Als Tracks werden Aufgabenstellungen bezeichnet, die das Verhalten von Information-Retrieval- Systemen in Bezug auf spezielle Forschungsbereiche bewerten sollen (vgl. Womser-Hacker 2004: 233). Ferber spricht deshalb auch von Spezialaufgaben (vgl. Ferber 2003: 221). 9 2. Grundlagen und Methoden der Information-Retrieval-Evaluierung mit Information-Retrieval-Systemen zu untersuchen. Karlgren et al. denieren das Ziel des Interactive Track in Bezug auf die oben genannte Evaluierungsinitiative wie folgt: The aim has always been to investigate real-life cross-language searching problems in a realistic scenario, and to obtain indications on how best to aid users in solving them. (Karlgren et al. 2007: 186) 4 So bestand der Interactive Track von CLEF (iCLEF ) im Jahr der Durchführung eines Benutzertests zum Bildretrieval 6 das Fotoportal Flickr 5 (engl.: 2006 beispielsweise in image retrieval ), dem als Dokumentenkollektion zugrunde lag (vgl. a.a.O.: 187). In die- sem Zusammenhang ist erwähnenswert, dass bei diesem Track zwar die Kollektion sowie die Aufgaben für die Benutzer von Seiten der Evaluierungsinitiative vorgegeben wurden, nicht aber die Evaluierungsmethode (vgl. a.a.O.: 186). Auf diese Weise sollte den teilnehmenden Forschungsgruppen die Möglichkeit gegeben werden, alternative Evaluierungsmethoden beizutragen und zu testen (vgl. ebd.). Daran wird deutlich, dass sich im Bereich der benutzerorientierten Evaluierung im Gegensatz zur systemorientierten noch keine Standard-Evaluierungsmethoden etabliert haben. Eine Schwierigkeit dieses Bewertungsansatzes besteht darin, dass Benutzertests keine einheitlichen und objektiven, sondern individuelle, durch die Testpersonen subjektiv gefärbte Ergebnisse liefern. In der Regel werden hier der Erfolg und die Zufriedenheit der Benutzer bewertet (vgl. Mandl 2006a: 54). Deshalb sollten bei diesem Bewertungsansatz andere Maÿstäbe gelten als bei der systemorientierten Evaluierung. Während sich der Erfolg wie bei der systemorientierten Evaluierung anhand der gefundenen Dokumente bestimmen lässt, ist es notwendig die Zufriedenheit direkt bei den Benutzern zu erfragen. Vor allem in Bezug auf die Erhebung der Benutzerzufriedenheit müssen also geeignete Methoden gefunden werden (vgl. Kap. 4). Diese Schwierigkeit hat in der Information-Retrieval-Forschung dazu beigetragen, dass die systemorientierte Evaluierung von den Entwicklern immer noch bevorzugt wird (vgl. Mandl 2006a: 54). Damit erklärt sich auch die geringe Teilnahme von nur drei Forschungsgruppen an dem zuvor beschriebenen Interactive Track von CLEF 2006 (vgl. Karlgren et al. 2007: 192). Karlgren et al. sprechen in diesem Zusammenhang von der schlechtesten Erfolgsquote, seit es iCLEF gibt und vermuten, dass die sehr oene Aufgabenstellung dazu beigetragen haben könnte (vgl. ebd.). Da jedoch die Suchergebnisse, die reale Benutzer mit Information-Retrieval-Systemen 4 Link zur Homepage: http://nlp.uned.es/iCLEF/ 5 Bei dieser Form des Information Retrieval geht es um die Suche von Bildern. Dabei kann sowohl nach einem bestimmten Bildinhalt als auch nach Gestaltungsmerkmalen wie Farbe, Textur oder Kontur gesucht werden (vgl. Fuhr 2005: 7). 6 Link zur Homepage: http://www.ickr.com/ 10 2.2. Die Bedeutung internationaler Evaluierungsinitiativen erreichen, am Ende über deren Anwendbarkeit entscheiden, sollte die benutzerorientierte Evaluierung nicht vernachlässigt werden. Diese Tatsache wird von Järvelin und Ingwersen wie folgt zusammengefasst: The real issue in information retrieval systems design is not whether its recall-precision performance goes up by a statistically signicant percentage. Rather, it is whether it helps the actor solve the search task more eectively or eciently. 7 (Järvelin/Ingwersen 2004: o. S.) Kapitel 4 der vorliegenden Arbeit vermittelt einen umfassenderen Einblick in den derzeitigen Stand der benutzerorientierten Evaluierungsforschung. 2.2. Die Bedeutung internationaler Evaluierungsinitiativen Die vorangegangenen Abschnitte haben gezeigt, dass eine erfolgreiche Evaluierung von Information-Retrieval-Systemen einer sorgfältigen Vorbereitung bedarf. Besonders aufwändig ist diesbezüglich der Aufbau einer Testkollektion (vgl. Mandl 2006a: 55). Dazu muss zunächst ein Textkorpus zusammen mit einer Sammlung ktiver Informationsbedürfnisse, den Testanfragen oder Topics, zusammengestellt werden. Anschlieÿend müssen die im Textkorpus enthaltenen Dokumente in Bezug auf die einzelnen Informationsbedürfnisse als relevant beziehungsweise irrelevant klassiziert werden. Im Hinblick auf die Auswertung der Retrievalergebnisse ist zu beachten, dass die Verwendung unterschiedlicher Testkollektionen zu abweichenden Retrievalergebnissen führen kann (vgl. Ferber 2003: 94). Neben der daraus resultierenden Unvergleichbarkeit der Ergebnisse könnte dies darüber hinaus dazu führen, dass die Verwendung einer Testkollektion von der Güte der damit erzielten Ergebnisse abhängig gemacht wird (vgl. ebd.). Auch ist zu bedenken, dass die wiederholte Verwendung derselben Testkollektionen in einer Optimierung der Systeme auf diese Testkollektionen hin resultiert (vgl. ebd.). Da unterschiedliche Kollektionen zu unterschiedlichen Ergebnissen führen können, bleibt jedoch zu prüfen, ob diese Optimierung auch zu einer allgemeinen Verbesserung der Retrievalqualität führt. Diese Überlegungen haben zu der Einrichtung verschiedener Evaluierungsinitiativen geführt. Alle Initiativen stellen Testkollektionen für die Evaluierung von InformationRetrieval-Systemen bereit. Gemeinsame Ziele sind die Vergleichbarkeit der Systeme, die 7 Bei Recall und Precision handelt es sich um die am häugsten verwendeten Eektivitätsmaÿe, weshalb man sie in der Literatur auch als Standardmaÿe bezeichnet (vgl. Womser-Hacker 2004: 228) (vgl. Abschn. 2.3). 11 2. Grundlagen und Methoden der Information-Retrieval-Evaluierung Standardisierung der Evaluierungsmethoden sowie der gegenseitige Austausch von Ideen innerhalb der Forschungsgemeinschaft. 8 Zu den groÿen Evaluierungsinitiativen zählen die Text REtrieval Conference (TREC ), 9 das Cross-Language Evaluation Forum (CLEF ), die NII Test Collection for IR Systems 10 (NTCIR 11 ) und die INitiative for the Evaluation of XML retrieval (INEX ) (vgl. Fuhr 2005: 31). Stellvertretend werden im Folgenden die beiden erstgenannten Initiativen vorgestellt. 2.2.1. Text REtrieval Conference (TREC) TREC ist die älteste der oben genannten Evaluierungsinitiativen und stellt laut Fuhr den Defacto-Standard für die Information-Retrieval-Evaluierung dar (vgl. Fuhr 2005: 31). Die TREC-Initiative entstand im Jahr 1992 und wird seitdem jährlich vom National Institute of Standards and Technology (NIST 12 ) mit Sitz in Gaithersburg (Maryland, USA) organisiert (vgl. Trec 2008: o. S.). Der Schwerpunkt lag zunächst auf den sogenannten Ad-hoc- und Routing-Aufgaben (vgl. Womser-Hacker 2004: 232 f ). Bei der ersten Aufgabenstellung wird untersucht, wie gut die teilnehmenden Systeme in der Lage sind, in einer bekannten Dokumentenkollektion relevante Dokumente zu unbekannten Testanfragen zu nden (vgl. Ferber 2003: 94). Im Gegensatz dazu wird bei der zweiten Aufgabenstellung gemessen, wie gut die Systeme zu bekannten Testanfragen relevante Dokumente in einer unbekannten Dokumentenkollektion nden (vgl. ebd.). Neue Anregungen aus der Forschungsgemeinschaft werden in den bereits in Abschnitt 2.1.2 erwähnten Spezialaufgaben, den sogenannten Tracks, aufgegrien. Die Einführung eines neuen Track zeigt daher an, dass in einem speziellen Forschungsbereich neue Entwicklungen stattgefunden haben, die nun im Rahmen dieses Track erforscht und weiterentwickelt werden sollen. Inzwischen sind viele weitere Tracks 13 hinzugekommen und das Ad-hoc-Retrieval wird seit 1999 im Rahmen anderer Tracks fortgeführt (vgl. Mandl 2006b: 81). 8 Link zur Homepage: http://trec.nist.gov/ 9 Link zur Homepage: http://www.clef-campaign.org/ 10 Link zur Homepage: http://research.nii.ac.jp/ntcir/ 11 Link zur Homepage: http://inex.is.informatik.uni-duisburg.de/2006/index.html 12 Link zur Homepage: http://www.nist.gov/ 13 Beschreibungen der aktuellen und früheren Tracks von TREC können auf der Homepage der Evaluierungsinitiative nachgelesen werden: http://trec.nist.gov/tracks.html 12 2.2. Die Bedeutung internationaler Evaluierungsinitiativen 2.2.2. Cross-Language Evaluation Forum (CLEF) Die europäische Initiative CLEF ist aus dem Cross-Language Track (CLIR) von TREC hervorgegangen (vgl. Fuhr 2005: 32). Inhalt dieses Track war das multilinguale Information Retrieval. Dabei müssen ausgehend von einer Sprache relevante Dokumente zu einer Testanfrage in anderen Sprachen gefunden werden (vgl. Trec 2008: o. S.). Seit dem Jahr 2000 ist CLEF eigenständig organsiert (vgl. Clef 2008: o. S.). Koordiniert wird sie von dem Istituto di Scienza e Tecnologie dell'Informazione - Consiglio Nazionale delle Ricerche (ISTI-CNR 14 ) in Pisa (Italien) (vgl. Clef 2008: o. S.). Die Organisati- 15 on der einzelnen Tracks teilen sich verschiedene Institutionen aus unterschiedlichen Sprachräumen (vgl. ebd.). Auch hier werden Neuerungen im Bereich der Information-Retrieval-Forschung in zu- 16 sätzlichen Tracks aufgegrien. Ein Beispiel hierfür, der Interactive Track, wurde bereits in Abschnitt 2.1.2 besprochen. Erwähnenswert hinsichtlich einer benutzerorientierten Konzeption der Evaluierung von Information-Retrieval-Systemen ist darüber hinaus der sogenannte Robust Track. Ausgangspunkt ist dabei die Feststellung, dass die Qualität der zurückgelieferten Ergebnisse im Information Retrieval vom Schwierigkeitsgrad der einzelnen Topics abhängig ist (vgl. Mandl 2006b: 79). Für die Bewertung der Systeme wird bei dieser Evaluierungsmethode versucht, schwierige Anfragen stärker zu gewichten als leichte (vgl. a.a.O.: 82). Ziel ist es, Systeme, die eine konstant gute Leistung erbringen, zu belohnen (vgl. ebd.). Das Augenmerk liegt hier also auf der Stabilität der Systeme und nicht auf ihrer durchschnittlichen Leistung. Der Bezug zur Benutzerorientierung besteht in der Beobachtung, dass sich schlechte Retrievalergebnisse in der Regel besonders negativ auf die Zufriedenheit der Benutzer und deren Gesamteindruck von einem System auswirken (vgl. a.a.O.: 79). Der Schwerpunkt bei den CLEF-Konferenzen liegt auf der Evaluierung von multilingualem Retrieval (vgl. Womser-Hacker 2004: 233). Als europäische Initiative konzentrierte sich CLEF zunächst auf die europäischen Kernsprachen Englisch, Französisch, Italienisch, Spanisch und Deutsch (vgl. ebd.). Im Laufe der Zeit wurde das Sprachenangebot stetig ausgebaut, so dass in der Ankündigung für CLEF 2008 neben den oben genannten Sprachen auch Aufgaben in Arabisch, Bulgarisch, Niederländisch, Portugiesisch, Rumänisch und Russisch angeboten werden (vgl. Clef 2008: o. S.). 14 Link zur Homepage: http://www.isti.cnr.it/ 15 Eine Auistung der Organisatoren von CLEF 2007 bendet sich auf der Homepage der Evaluierungsinitiative: http://www.clef-campaign.org/consortium.html 16 Weitere Beschreibungen der aktuellen und früheren Tracks von CLEF können auf der Homepage der Evaluierungsinitiative nachgelesen werden: http://www.clef-campaign.org/ 13 2. Grundlagen und Methoden der Information-Retrieval-Evaluierung 2.3. Leistungsvergleich auf der Basis von Eektivitätsmaÿen Wie bereits beschrieben muss die Relevanz der Dokumente für die gegebene Suchanfrage bekannt sein, um die Qualität der Treermenge und somit die Leistung eines Information-Retrieval-Systems bewerten zu können (vgl. Abschn. 2.1.1). In der Literatur wird für die Beziehung, die zwischen einer Anfrage und einem Dokument besteht, das Konzept der Relevanz deniert (vgl. Ferber 2003: 85). Da für den Benutzer in der Regel nicht alle Dokumente einer Treermenge relevant sind, unterscheidet man zwischen einer System- und einer Benutzerrelevanz (vgl. Womser-Hacker 1989: 31 f ). Von Systemrelevanz spricht man, wenn die Dokumente aus Sicht des Systems zu der Eingabe des Benutzers passen. Die Relevanzbewertung der Dokumente aus Sicht des Benutzers wird als Benutzerrelevanz bezeichnet. Wie bereits in Abschnitt 2.1.1 erwähnt, erfolgt diese Relevanzbewertung jedoch in den meisten Fällen durch unabhängige Ex- 2.3 Leistungsvergleich auf der Basis von Eektivitätsmaÿen perten anstelle der realen Benutzer. Der Benutzer wird gewissermaÿen als Konstante begrien (vgl. Mandl 2006a: 54). S̄ B ag replacements S B̄ Dokumentenbestand D Abbildung 2.2.: Mengendiagramm zur Darstellung von von SystemBenutzerrelevanz Abbildung 2.2: Mengendiagramm zur Darstellung System-und und Benutzerrelevanz (Quelle: In Anlehnung anWomser-Hacker Womser-Hacker 1989: 32) (Quelle: In Anlehnung an 1989: 32) Sowohl die System- als auch die Benutzerrelevanz bewirken eine Zerlegung des Doku- | als Anzahl der vom System ausgegebenen und vom Benutzer als D in zwei Mengen. Die Systemrelevanz unterteilt D in die Menge S irrelevant klassizierten Dokumente, und ihre Komplementärmenge S̄ , die Benutzerrelevanz in die Menge B und ihre Kom- mentenbestandes plementärmenge B̄ (vgl. Womser-Hacker 1989: 32). | als Anzahl der vom System einbehaltenen und vom Benutzer als relevant klassizierten Dokumente und | als Anzahl der vom System einbehaltenen und vom Benutzer als irrelevant klassizierten Dokumente. 14 Ausgehend von diesen vier Einussgröÿen werden in den folgenden Abschnitten zunächst die beiden Standardmaÿe Recall und Precision vorgestellt. Danach wird kurz auf 2.3. Leistungsvergleich auf der Basis von Eektivitätsmaÿen Dabei bezeichnet • S die Menge der vom System ausgegebenen Dokumente, • S̄ die Menge der vom System einbehaltenen Dokumente, • B die Menge der vom Benutzer als relevant klassizierten Dokumente und • B̄ die Menge der vom Benutzer als irrelevant klassizierten Dokumente. Abbildung 2.2 verdeutlicht die Beziehungen dieser Mengen zueinander. Es erweist sich als sinnvoll, für die dort dargestellten Schnittmengen folgende Einussgröÿen für die Bewertung der Retrievaleektivität zu denieren (vgl. ebd.): • a = |S ∩ B | als Anzahl der vom System ausgegebenen und vom Benutzer als relevant klassizierten Dokumente, • b = |S ∩ B̄ | als Anzahl der vom System ausgegebenen und vom Benutzer als irrelevant klassizierten Dokumente, • c = |S̄ ∩ B | als Anzahl der vom System einbehaltenen und vom Benutzer als relevant klassizierten Dokumente und • d = |S̄ ∩ B̄ | als Anzahl der vom System einbehaltenen und vom Benutzer als irrelevant klassizierten Dokumente. Ausgehend von diesen vier Einussgröÿen werden im folgenden Abschnitt die beiden Standardmaÿe Recall und Precision vorgestellt. 2.3.1. Die Standardmaÿe Recall und Precision Bei den Eektivitätsmaÿen Recall und Precision handelt es sich um die am häugsten verwendeten Evaluierungsmaÿe. Sie werden deshalb auch als Standardmaÿe bezeichnet. Der Recall beschreibt dabei die Fähigkeit eines Systems, relevante Dokumente für eine Suchanfrage auszugeben (vgl. Salton/McGill 1987: 172). Die Fähigkeit eines Systems, irrelevante Dokumente zurückzuhalten, wird hingegen als Precision bezeichnet (vgl. ebd.). Recall ist demnach ein Maÿ für die Vollständigkeit und Precision für die Genauigkeit der Retrievalergebnisse (vgl. Ferber 2003: 86). 15 2. Grundlagen und Methoden der Information-Retrieval-Evaluierung Durch die im vorherigen Abschnitt eingeführten Einussgröÿen lassen sich Recall und Precision folgendermaÿen darstellen (Womser-Hacker 2004: 229): Recall: Precision: a a+c a p= a+b r= (2.1) (2.2) 0 und 1 annehmen (vgl. ebd.). Für den RecallWert bedeutet der Maximalwert von 1, dass alle relevanten Dokumente der Kollektion gefunden wurden. Entsprechend beschreibt der Minimalwert 0 die Situation, dass Beide Maÿe können Werte zwischen kein relevantes Dokument zurückgegeben wurde. Nimmt hingegen die Precision den Maximalwert 1 an, so sind alle gefundenen Dokumente relevant. Im Gegensatz da- zu wurde beim Minimalwert 0 kein relevantes Dokument zurückgegeben. Ein gutes Information-Retrieval-System sollte demnach sowohl einen hohen Recall- als auch einen hohen Precision-Wert besitzen. Ferber merkt in diesem Zusammenhang an, dass in der vergleichenden Evaluierung nur dann verlässliche Aussagen darüber gemacht werden können, ob ein InformationRetrieval-System besser ist als das andere, wenn es sowohl einen höheren Recall- als auch einen höheren Precision-Wert besitzt: Ist bei einem System z.B. die Precision besser, dafür aber der Recall schlechter, so eignen sich die Systeme zwar eventuell für unterschiedliche Aufgaben, es kann aber nicht allgemein gesagt werden, welches besser ist. (Ferber 2003: 87) Ebenfalls in diesem Zusammenhang heben Salton und McGill hervor, dass die sich in der Praxis unterscheidenden Informationsbedürfnisse der Benutzer zu unterschiedlichen Anforderungen an das System führen (vgl. Salton/McGill 1987: 174 f ). Beispielsweise verlangen Patentrecherchen 17 (engl.: patent retrieval ) nach einem möglichst vollständi- gen Überblick über den Weltstand der Technik, erfordern also einen hohen Recall-Wert. Bei einer Websuche hingegen, bei der ein Internetnutzer vor allem Wert auf die Relevanz der Treer legt, ist ein hoher Precision-Wert gefordert. Während manchen Nutzern also ein hoher Recall besonders wichtig ist, bevorzugen andere eine hohe Precision. Allerdings können die beiden Maÿe auch nicht vollkommen unabhängig voneinander betrachtet werden. In einem solchen Fall bestünde nämlich die Möglichkeit, dass ein System auf Kosten des Precision-Werts ungeltert sämtliche Dokumente einer Kollekti- 17 Dabei handelt es sich um [. . . ] bewertete Recherchen, die den Weltstand der Technik, die Neuheit technischer Lösungen oder die mögliche Verletzung fremder Patente nachweisen sollen. (Strauch 2004: 95) 16 2.3. Leistungsvergleich auf der Basis von Eektivitätsmaÿen on zurückgeben könnte und damit immer einen maximalen Recall-Wert erzielen würde (vgl. Womser-Hacker 2004: 229). Um dies zu umgehen, wird zur Charakterisierung von Information-Retrieval-Systemen meist eine sogenannte Recall-Precision-Kurve an- gegeben. Dazu berechnet man die Precision-Werte einer Ergebnisliste zu festen RecallWerten und trägt die sich ergebenden Wertepaare in einem Recall-Precision-Graph auf (vgl. a.a.O.: 230). Abbildung 2.3.: Typischer Verlauf einer Recall-Precision-Kurve auf der Basis von Mittelwerten (Quelle: Salton/McGill 1987: 180) In Abbildung 2.3 ist das typische Verhalten einer solchen Recall-Precision-Kurve dargestellt. Die Kurve aus dem vorliegenden Beispiel basiert auf Mittelwerten, die über mehrere Suchanfragen gebildet wurden. Dabei stellen Salton und McGill heraus, in welcher Weise sich auch die Suchstrategie der Benutzer auf das Verhältnis von Recall und Precision auswirkt: Während spezisch formulierte Suchanfragen gemeinhin zu einem hohen Precision-Wert führen (linkes Ende der Kurve), haben allgemein gehaltene Suchanfragen in der Regel einen hohen Recall-Wert zur Folge (rechtes Ende der Kurve) (vgl. Salton/McGill 1987: 180). Neben den sich unterscheidenden Informationsbedürfnissen kann es in der Praxis auch Probleme bereiten, die Gleichungen (2.1) und (2.2) auszuwerten. Dies ist zum Beispiel bei groÿen Dokumentenkollektionen der Fall. Wie bereits in Abschnitt 2.1.1 erläutert, ist es hier nicht ohne Weiteres möglich, die Gesamtzahl der relevanten Dokumente zu einer Suchanfrage zu ermitteln, weshalb in solchen Fällen häug die Pooling-Methode zum 17 2. Grundlagen und Methoden der Information-Retrieval-Evaluierung Einsatz kommt. Die Bewertung der Ergebnismengen mehrerer Information-RetrievalSysteme ermöglicht es dann, einen Schätzwert für die Gesamtzahl der relevanten Dokumente zu einer Suchanfrage zu ermitteln. 2.3.2. Weitere relevanzbasierte Eektivitätsmaÿe Am Ende des letzten Abschnitts wurde dargelegt, auf welche Weise Probleme bei der Berechnung von Recall und Precision auftreten können. Diese Schwierigkeiten legen eine Anpassung der Standardmaÿe an verschiedene Informationsbedürfnisse einerseits und unterschiedliche Kontextbedingungen andererseits nahe. Anstatt in den oben genannten Fällen ausschlieÿlich mit den in den Gleichungen (2.1) und (2.2) denierten Gröÿen zu arbeiten, verwendet man deshalb auch Varianten dieser Maÿe (vgl. Fuhr 2005: 17). Precision der ersten n Treer Anstatt die Precision der gesamten Ergebnisliste zu berücksichtigen, berechnet man für das im Folgenden vorgestellte Eektivitätsmaÿ den Precision-Wert der ersten n Treer einer Ergebnismenge. Es soll im Weiteren als P@n bezeichnet werden. So wird zum Beispiel zur Untersuchung der webbasierten Informationssuche, beim Web-InformationRetrieval, die Precision für die ersten zehn Dokumente, also die P@10 berechnet (vgl. ebd.). Fuhr zufolge liegt diesem Maÿ die durch empirische Untersuchungen gestützte Erkenntnis zugrunde, dass die meisten Benutzer von Suchmaschinen nur die erste Seite einer Ergebnisliste beachten (vgl. ebd.). Buckley und Vorhees haben eine Studie zur Stabilität verschiedener Leistungsmaÿe durchgeführt (vgl. Buckley/Vorhees 2000: 33 ). Dazu untersuchten sie, wie die Ergebnisse verschiedener Evaluierungsmaÿe in Bezug auf unterschiedliche Suchanfragen variierten (vgl. ebd.). Für das Eektivitätsmaÿ P@n hat diese Studie ergeben: In environments such as the Web where it is very dicult to know how many relevant documents exist for a query, precision at a cut-o level of 10 or 20 is an appropriate evaluation measure. (a.a.O.: 39) Die Berechnung dieser Precision-Variante kann über folgende Formel erfolgen (vgl. Kishida 2005: 2): n 1X ri P @n = n i=1 Dabei ist 18 ri = 1, falls das i-te Dokument der Ergebnisliste relevant und (2.3) ri = 0, falls 2.3. Leistungsvergleich auf der Basis von Eektivitätsmaÿen das i-te Dokument irrelevant für die Suchanfrage ist (vgl. ebd.). Neben der P@10 sollen hier noch die Precision nach dem ersten Dokument (n = 1) Gesamtzahl der für die Suchanfrage relevanten Dokumente (vgl. Thom/Scholer 2007: 101). Dabei entspricht denierten Einussgröÿen a und c. R und die Precision nach der R (n = R ) erwähnt werden der Summe der in Abschnitt 2.3 Letztere Variante wird auch als R-Precision (RP) bezeichnet (vgl. ebd.). Allerdings muss für dieses Maÿ die Gesamtzahl aller relevanten Dokumente zu einer Suchanfrage bekannt sein, deren Ermittlung wie zuvor erwähnt nicht immer praktikabel ist. Average Precision Ein weiteres Eektivitätsmaÿ, das sich aus dem Standardmaÿ Precision ableiten lässt, ist die sogenannte Average Precision (AP) (vgl. Buckley/Vorhees 2000: 34). Buckley und Vorhees denieren es wie folgt: The mean of the precision scores obtained after each relevant document is retrieved, using zero as the precision for relevant documents that are not retrieved. (ebd.) Auch für die Berechnung dieses Maÿes muss demnach die Anzahl der relevanten Dokumente zu einer Suchanfrage bekannt sein. Mathematisch lässt sich die Average Precision mit Hilfe der im vorangegangenen Abschnitt denierten P@n sowie den in Abschnitt 2.3 denierten Einussgröÿen folgendermaÿen darstellen (vgl. Kishida 2005: 2): k 1 X rn P @n AP = a + c n=1 (2.4) k die Zahl der vom System zurückgegebenen Dokumente und es gilt wie zuvor, rn = 1, falls das n-te Dokument relevant und n = 0, falls das n-te Dokument Dabei ist dass irrelevant für die Suchanfrage ist. Geometrisch kann die Average Precision Robertson zufolge als die Fläche unter der Recall-Precision-Kurve interpretiert werden (vgl. Robertson 2006: 79). Im Gegensatz zu Maÿen, wie der zuvor beschriebenen P@n, die nur lokale Aussagen für einzelne Punkte der Recall-Precision-Kurve treen, charakterisiert die Average Precision damit den globalen Verlauf der Kurve (vgl. ebd.). Dennoch wird in Bezug auf diese Precision-Variante teilweise eine fehlende Transparenz kritisiert, deren anschauliche Bedeutung sich nicht so leicht wie bei anderen Evaluierungsmaÿen, beispielsweise der P@n, erschlieÿt (vgl. ebd.). Ungeachtet dessen besitzt die Average Precision jedoch positive Eigenschaften in Bezug auf ihre Stabilität (vgl. Buckley/Vorhees 2000: 39) sowie die Trennschärfe zwi- 19 2. Grundlagen und Methoden der Information-Retrieval-Evaluierung schen verschiedenen Rankings 18 (vgl. Robertson 2006: 79). Eine weitere positive Ei- genschaft dieses Maÿes ist laut Kishida, dass Unterschiede in den oberen Listenplätzen des Rankings den stärksten Einuss auf den Average-Precision-Wert besitzen (vgl. Kis- hida 2005: 4). Aus diesem Grund schlieÿt Robertson seine Erörterung des Eektivitätsmaÿes Average Precision mit dem Satz: These reasons make it attractive to researchers, despite its lack of transparency. (Robertson 2006: 79) Um Systeme möglichst unabhängig von einer speziellen Testanfrage bewerten zu können, werden in der Praxis meist mehrere Suchanfragen zur Evaluierung herangezogen. Dabei unterscheidet man zwei Methoden der Mittelwertbildung, die Mikromittelung Makro - und die (vgl. Womser-Hacker 2004: 231). Während das Eekivitätsmaÿ bei der Makromethode für jede Testanfrage getrennt berechnet und anschlieÿend über alle Anfragen gemittelt wird, berechnet man das Eektivitätsmaÿ bei der Mikromethode aus der Gesamtzahl der für alle Anfragen gefundenen Dokumente (vgl. ebd.). Wendet man die Makromethode auf das Eektivitätsmaÿ Average Precision an, so erhält man die sogenannte Mean Average Precision (MAP) (vgl. Thom/Scholer 2007: 101). Auch dieses Maÿ ndet in der Information-Retrieval-Forschung eine breite Anwendung zur Charakterisierung von Systemleistungen (vgl. Mandl 2006b: 79). 2.4. Erhebungsmethoden zur Evaluierung von Mensch-Maschine-Interaktion Bei der Evaluierung von interaktiven Systemen und ihren Benutzungsschnittstellen unterscheidet man grundsätzlich zwei Arten von Erhebungsverfahren: jektive objektive und sub- Methoden (vgl. Oppermann/Reiterer 1994: 342 ). Als objektiv bezeichnet man ein Erhebungsverfahren, wenn es in Zahlen messbare Ergebnisse liefert. Bei diesen Verfahren sollen subjektive Einüsse möglichst vermieden werden, um eine Verallgemeinerung der Ergebnisse zu ermöglichen (vgl. a.a.O.: 344). Subjektive Verfahren hingegen liefern verbal geäuÿerte Ergebnisse. Oppermann und Reiterer sprechen deshalb im ersten Fall von harten und im zweiten von weichen Daten (vgl. a.a.O.: 342). In der Literatur wird weiterhin von quantitativen beziehungsweise qualitativen Methoden gesprochen (vgl. Dahm 2006: 319). In der Regel empehlt es sich, eine Kombination unterschiedlicher Erhebungsmetho- 18 Mit dem Begri des Rankings bezeichnet man [. . . ] das Verfahren einer Suchmaschine, die bezüglich einer Suchanfrage ermittelte Ergebnisliste in eine aus Benutzersicht nach Relevanz sortierten Reihenfolge zu bringen. (Strauch 2004: 103) 20 2.4. Erhebungsmethoden zur Evaluierung von Mensch-Maschine-Interaktion den einzusetzen, um so eine möglichst ganzheitliche Betrachtung zu gewährleisten (vgl. Oppermann/Reiterer 1994: 347). Unter einer ganzheitlichen Evaluierung verstehen Oppermann und Reiterer die Einbeziehung der Einüsse der Benutzer, der Aufgaben sowie des Systems auf die Interaktion mit dem zu beurteilenden System (vgl. a.a.O.: 337 f ). Da die einzelnen Verfahren in der Regel unterschiedliche Evaluierungsschwerpunkte besitzen, nden die oben genannten Einüsse je nach Schwerpunkt eine unterschiedlich stark ausgeprägte Berücksichtigung. 2.4.1. Objektive Erhebungsmethoden Oppermann und Reiterer zufolge ist die Beobachtung die gängigste Methode der objektiven Evaluierung (vgl. a.a.O.: 343). Darüber hinaus existieren weitere objektive Erhebungsmethoden, die als Ergänzung zur bloÿen Beobachtung der Testbenutzer durch den Versuchsleiter eingesetzt werden können. Dazu zählen die Logdatei-Analyse, die Videoaufzeichnung sowie der Performanztest. In Logdateien (engl.: logles ) oder Eingabeprotokollen wird jede Benutzereingabe automatisch erfasst (vgl. Sarodnick/Brau 2006: 162). Anhand dieser Beobachtungsdaten kann später die Abfolge der einzelnen Benutzereingaben genau rekonstruiert werden. Im Hinblick auf die Auswertung von benutzerorientierten Retrievaltests merkt Fuhr an, dass diese Daten zwar vergleichsweise einfach zu erheben sind, jedoch nur eine beschränkte Aussagekraft besitzen (vgl. Fuhr 2005: 33). Mandl schreibt in Bezug auf die Aussagekraft von Logdateien, dass sie als objektives Evaluierungsverfahren die Schwäche besitzen, bei ihren Ergebnissen keine Erklärungen mitzuliefern (vgl. Mandl 2006a: 36). Die Hintergründe, die zu einer bestimmten Benutzereingabe geführt haben, bleiben dem Versuchsleiter bei diesem Erhebungsverfahren also im Nachhinein verborgen. Um dem oben beschriebenen Nachteil entgegenzuwirken, werden in der Regel zusätzlich Videoaufzeichnungen eingesetzt (vgl. Oppermann/Reiterer 1994: 344). Diese dienen der Erfassung des Verhaltens der Versuchspersonen während des Benutzertests. Dazu gehören vor allem die Mimik sowie sprachliche Äuÿerungen der Testpersonen. Weiterhin besteht die Möglichkeit mit Hilfe einer entsprechenden Testsoftware die Bildschirminhalte während des Tests aufzuzeichnen. Im Fall eines Retrievaltests könnte auf diese Weise zum Beispiel noch einmal beobachtet werden, wie die Testbenutzer mit dem Information-Retrieval-System interagieren, welche Suchbegrie sie eingeben, ob sie diese im Laufe der Suche verfeinern und in welcher Reihenfolge sie die Suchergebnisse auswählen (vgl. Abschn. 5.2.4). Der Begri der Performanz wird in verschiedenen Zusammenhängen verwendet. In der 21 2. Grundlagen und Methoden der Information-Retrieval-Evaluierung Performanz die Leistung in Handlungstests (vgl. Meyers 2007: o. S.). Der englische Begri der performance hingegen steht im Kontext der elekPsychologie bezeichnet die tronischen Datenverarbeitung (EDV) für das Leistungsniveau eines Computers (vgl. Duden 2007: 780). In Bezug auf die Information-Retrieval-Forschung bemerkt WomserHacker, dass der Begri der Performanz die beiden Bewertungskriterien Ezienz und Eektivität verbindet (vgl. Womser-Hacker 2004: 227). Im Bereich der Information-Retrieval-Evaluierung gibt es verschiedene Möglichkeiten Performanzmessung vorzunehmen. Zu nennen sind in diesem Zusammenhang die unterschiedlichen im Information Retrieval entwickelten Eektivitätsmaÿe, die sowohl im Bereich der systemorientierten als auch der benutzerorientierten Evaluierung Verwendung nden. Im benutzerorientierten Fall vergleicht man mit Hilfe dieser Maÿe beispielsweise, ob sich die Leistung der Testbenutzer proportional zur Leistung des zu beurteilenden Systems verändert (vgl. Abschn. 4.1). Des Weiteren besteht die Möglichkeit Zeit- und Fehlermessungen vorzunehmen, um die Qualität eines Systems zu ermitteln. So kann zum Beispiel die Zeit, die die Probanden zur Bearbeitung der Testaufgaben benötigen oder die Anzahl der Aufgaben, die sie in einer vorgegebenen Zeitspanne lösen, protokolliert werden (vgl. Sarodnick/Brau 2006: 165 f ). In Bezug auf Bedienungsfehler kann deren Anzahl, das Verhältnis zwischen erfolgreichen und fehlerhaften Benutzereingaben oder auch die Zeit, die die Testbenutzer für die eigenständige Fehlerbehebung benötigen, gemessen werden (vgl. a.a.O.: 166). Allerdings ist bei diesen beiden Messgröÿen zu beachten, dass die auf diese Weise gewonnenen Ergebnisse nur für die entsprechenden Testaufgaben valide sind und bei anderen Aufgaben abweichende Zeiten gemessen werden können und mit dem Auftreten anderer Fehler zur rechnen ist (vgl. a.a.O.: 165). 2.4.2. Subjektive Erhebungsmethoden Bei der Methode des lauten Denkens und der Befragung handelt es sich um subjektive Verfahren. Bei diesen Verfahren ist der Benutzer die Quelle der Evaluation (vgl. Op- permann/Reiterer 1994: 342). Damit wollen Oppermann und Reiterer hervorheben, dass bei den subjektiven Erhebungsmethoden das persönliche Erleben der Testpersonen die Grundlage für die Evaluierung darstellt. Das laute Denken während eines Benutzertests ist ein Verfahren, durch das die Denkweise der Testpersonen erfasst werden soll (vgl. Fuhr 2005: 33). Dazu werden die Benutzer gebeten, ihre Gedanken während der Interaktion mit dem System laut zu äuÿern. Ein Nachteil dieser Erhebungsmethode besteht Sarodnick und Brau zufolge in der 22 2.5. Zusammenfassung Doppelbelastung, die durch die gleichzeitige Bearbeitung der Aufgaben und das laute Denken entsteht (vgl. Sarodnick/Brau 2006: 163). In der Folge könnte dies die Bearbeitungsgeschwindigkeit senken (vgl. ebd.). Auÿerdem [. . . ] werden den Testpersonen Inkonsistenzen im eigenen Denken eher bewusst, sodass weniger oder andere Probleme auftauchen können als unter realen Bedingungen. (ebd.) Deshalb verträgt sich diese Methode nicht mit Verfahren, bei welchen gleichzeitig die Performanz der Testbenutzer erhoben werden soll (vgl. ebd.). Ein weiterer Nachteil dieser Methode besteht in der durch das laute Denken erzeugten Künstlichkeit der Testsituation (vgl. Opper- mann/Reiterer 1994: 343). Deshalb wird manchmal alternativ ein Partnergespräch durchgeführt, im Rahmen dessen zwei Testpersonen gemeinsam eine Testaufgabe bearbeiten und sich dabei unterhalten sollen (vgl. ebd.). In der empirischen Nutzerforschung sind Befragungen das am meisten verbreitete Erhebungsverfahren (vgl. Bertram 2004: 2). Mit Hilfe von Interviews oder Fragebögen kann im Anschluss an einen Retrievaltest der persönliche Eindruck, den die Testbenutzer von dem zu beurteilenden System haben, erfragt werden. Man möchte auf diese Weise [. . . ] Hinweise auf die subjektiv empfundenen Stärken und Schwächen des Systems sammeln. (Fuhr 2005: 33) Laut Fuhr besitzen schriftliche gegenüber mündlichen Befragungen folgende Vorteile: Sie erfordern weniger Aufwand für die Versuchsleitung, sind leichter auszuwerten und ermöglichen eine quantitative Beurteilung nach verschiedenen Kriterien. (ebd.) Problematisch kann jedoch in beiden Fällen die Validität 19 der Ergebnisse sein (vgl. Zimbar- do/Gerrig 1999: 29). Sie ist zum Beispiel gefährdet, wenn die Versuchspersonen die Fragen nicht richtig verstehen oder sie das Gefühl vermittelt bekommen, selbst getestet zu werden und daher dazu tendieren, sozial erwünschte Antworten zu geben (vgl. ebd.). Daher ist eine angemessene Gestaltung der Fragen dringend erforderlich, um verlässliche Ergebnisse zu erhalten. Abschnitt 3.2.2 befasst sich ausführlicher mit der Thematik der Fragebogenerstellung. 2.5. Zusammenfassung Ziel dieses Kapitels war es, einen Überblick über die experimentelle Evaluierung im Information Retrieval zu geben. Neben theoretischen Grundlagen wurden insbesondere die typische Vorgehensweise sowie damit verbundene Vor- und Nachteile behandelt. Der Vergleich von system- und benutzerorientiertem Vorgehen hat gezeigt, dass vor allem im 19 Der Begri der Validität bezeichnet die Gültigkeit eines Erhebungsverfahrens (vgl. Zimbardo/Ger- rig 1999: 22). 23 2. Grundlagen und Methoden der Information-Retrieval-Evaluierung benutzerorientierten Bereich der experimentellen Evaluierung weiterer Forschungsbedarf besteht, da sich hier bislang noch keine allgemeine Evaluierungsmethodik herausgebildet hat. Dies mag mit darin begründet liegen, dass bei diesem Bewertungsansatz neben dem Erfolg der Benutzer auch die Zufriedenheit der Benutzer von Interesse ist. Die besondere Schwierigkeit dabei besteht darin, dass es sich bei der Benutzerzufriedenheit nicht um ein direkt beobachtbares und aus diesem Grund nur schwer erfassbares Phänomen handelt. 24 3. Grundlagen der Zufriedenheitsforschung Wie im vorherigen Kapitel bereits angedeutet, stellt die Zufriedenheit der Benutzer ein wesentliches Bewertungskriterium bei der Evaluierung von Mensch-Maschine-Interaktion dar. Zusammen mit den beiden Bewertungskriterien Eektivität und Ezienz zählt sie zu den zentralen Kriterien bei der Beurteilung interaktiver Systeme (vgl. Strauch 2004: 43) und wird deshalb in diesem Kapitel genauer betrachtet. Das psychologische Konstrukt der Zufriedenheit nimmt als Forschungsgegenstand eine bedeutende Stellung in der Wirtschaftspsychologie ein. Die Erkenntnisse der Zufriedenheitsforschung nden dort vorzugsweise in den beiden Teilgebieten Arbeits- und Marktpsychologie Anwendung, in denen sie zur Messung der Arbeits- beziehungsweise der Kundenzufriedenheit eingesetzt werden. Im Folgenden wird überwiegend auf theoretische und methodische Ansätze aus dem Bereich der Kundenzufriedenheitsforschung eingegangen. Entsprechend befasst sich Abschnitt 3.1 zunächst mit den theoretischen Grundlagen zur Bedeutung und Entstehung von Kundenzufriedenheit. Daran anschlieÿend folgt in Abschnitt 3.2 eine kurze Darstellung methodischer Ansätze zur Messung von Kundenzufriedenheit und zur Ermittlung von Kundenerwartungen. 3.1. Theoretische Ansätze in der Kundenzufriedenheitsforschung In der Diskussion theoretischer Ansätze zur Denition des Konstrukts der Kundenzufriedenheit hat sich das sogenannte C/D-Paradigma Conrmation/Disconrmation-Modell, auch als bezeichnet, durchgesetzt (vgl. Sauerwein 2000: 8). Dieses Modell gilt als Basismodell zur Erklärung der Entstehung von Kundenzufriedenheit. 25 3. Grundlagen der Zufriedenheitsforschung 3.1.1. Der Soll-Ist-Vergleich der Kundenzufriedenheit Das Conrmation/Disconrmation-Modell erklärt den Entstehungsprozess von Zu- oder Unzufriedenheit als individuellen Vergleichsprozess zwischen den Erwartungen an ein Produkt einerseits (Soll-Komponente) und der wahrgenommenen Produktqualität andererseits (Ist-Komponente) (vgl. Scharnbacher/Kiefer 1996: 6 f ). Die Grundlage für die Entstehung von Zu- oder Unzufriedenheit ist folglich die Bestätigung (engl.: rmation ) oder Nicht-Bestätigung (engl.: disconrmation ) con- dieser Kundenerwartungen (vgl. a.a.O.: 6). Das Prinzip des C/D-Paradigmas wird in Abbildung 3.1 veranschaulicht. Wahrgenommene Vergleichsstandard Leistung (Soll-Leistung) (Ist-Leistung) Vergleichsprozess Negative Diskonrmation (Ist<Soll) Konrmation (Ist=Soll) Unzufriedenheit Positive Diskonrmation (Ist>Soll) Zufriedenheit Abbildung 3.1.: Das Prinzip des Conrmation/Disconrmation-Modells (Quelle: Homburg et al. 1999: 85) Werden im Rahmen des Soll-Ist-Vergleichs die Erwartungen des Kunden erfüllt, entspricht also die Ist- der Soll-Leistung, ist der Kunde zufrieden. Man bezeichnet diesen Zustand als Bestätigung (vgl. ebd.) beziehungsweise Konrmation (vgl. Sauerwein 2000: 11). Im Fall einer Nicht-Bestätigung der Kundenerwartungen unterscheidet man zwei Zustände: Werden die Erwartungen des Konsumenten übertroen, übersteigt also positiver Nicht-Bestätigung (vgl. positiver Diskonrmation (vgl. Sauerwein die Ist- die Soll-Leistung, wird in der Literatur von Scharnbacher/Kiefer 1996: 7) oder 2000: 11) gesprochen. Werden die Erwartungen hingegen enttäuscht, liegt also die Istunter der Soll-Leistung, ist der Kunde unzufrieden. Man bezeichnet diesen Zustand als negative Nicht-Bestätigung (vgl. Scharnbacher/Kiefer 1996: 7) oder negative Diskonrmation (vgl. Sauerwein 2000: 11). Gemäÿ dieses Modells wird das psychologische Konstrukt der Kundenzufriedenheit 26 3.1. Theoretische Ansätze in der Kundenzufriedenheitsforschung in der Literatur als Reaktion auf einen Vergleichsprozess aufgefasst: Most denitions have favored the notion of consumer satisfaction as a response to an evaluation process. (Giese/Cote 2000: 1) Uneinigkeit besteht nach Giese und Cote jedoch in der Frage, ob es sich dabei um eine kognitive oder um eine emotionale Reaktion handelt (vgl. ebd.). Müller schreibt in diesem Zusammenhang: Beide Denitionszweige sind jedoch nicht als unvereinbare Gegensätze, sondern als sich einander ergänzende Interpretationswege zu werten. (Müller 2004: 4) Zur Begründung führt er an, dass die individuelle Zufriedenheitsbeurteilung als menschlicher Informationsverarbeitungsprozess sowohl kognitive als auch emotionale Komponenten beinhaltet (vgl. ebd.). Auch Scharnbacher und Kiefer gehen von einer beide Komponenten verknüpfenden Denition aus. Sie verstehen Kundenzufriedenheit als emotionale Reaktion auf einen kognitiven Vergleich (vgl. Scharnbacher/Kiefer 1996: 10 f ). Die Soll-Komponente der Kundenzufriedenheit Die Erwartung der Kunden in Bezug auf die Produktqualität stellt im ErwartungsWahrnehmungs-Vergleich des C/D-Paradigmas den Vergleichsstandard dar. In Bezug auf die Analyse von Kundenerwartungen muss berücksichtigt werden, dass diese von verschiedenen Einussgröÿen abhängig sind, die zusammen in die Erwartungshaltung der Konsumenten einieÿen. Die bisherigen Erfahrungen der Kunden sind laut Sauerwein die wichtigste Einussgröÿe (vgl. Sauerwein 2000: 9). Scharnbacher und Kiefer nennen vier Hauptfaktoren, die die Kundenerwartung und somit die Zufriedenheitsbeurteilung beeinussen können (vgl. Scharnbacher/Kiefer 1996: 8). Diese Hauptfaktoren werden im Folgenden am Beispiel von Suchmaschinennutzern erläutert: • Persönliche Bedürfnisse: Die Anforderungen, die Nutzer von Suchmaschinen an die Qualität der Suchergebnisse stellen, können je nach zugrundeliegendem Informationsbedürfnis unterschiedlich ausfallen. So wird ein Internetnutzer, der eine Suchmaschine verwendet, um damit Informationen wie das aktuelle Kinoprogramm abzurufen, andere Ansprüche an das Suchergebnis haben, als ein Nutzer, der sich im Internet über die neuesten Erkenntnisse in der naturheilkundlichen Tumortherapie informieren möchte. • Frühere Erfahrungen: Es wurde bereits darauf hingewiesen, dass frühere Erfahrungen ein wesentlicher Faktor für die Entstehung von Kundenerwartungen sind. In Bezug auf die Nutzung 27 3. Grundlagen der Zufriedenheitsforschung von Suchmaschinen wird ein erfahrener Nutzer vermutlich andere Erwartungen an die Suchfunktionalität haben, als ein unerfahrener Suchmaschinennutzer. So ist anzunehmen, dass ein erfahrener Nutzer gröÿeren Wert auf erweiterte Suchmöglichkeiten, wie zum Beispiel die Suche nach einer genauen Wortfolge, legt als ein unerfahrener. • Direkte Kommunikation über die Unternehmensleistung: Mit der direkten Kommunikation ist die Gesamtheit aller vom Unternehmen direkt steuerbaren Kommunikationskanäle gemeint (vgl. ebd.). Wie bei allen Unternehmen beeinusst auch die Unternehmenskommunikation von Suchmaschinenbetreibern die Erwartungshaltung ihrer Nutzer. Wirbt beispielsweise eine spezielle Suchmaschine für Kinder mit angemessenen Inhalten, so werden Eltern, die ihren Kindern erlauben, diese Suchmaschine zu verwenden, auch erwarten, dass sie sich auf dieses Werbeversprechen verlassen können. • Indirekte Kommunikation über die Unternehmensleistung: Ebenso beeinusst auch die indirekte Kommunikation über die Qualität einer Suchmaschine die Wünsche und Anforderungen der Suchmaschinennutzer. Dazu zählt nach Scharnbacher und Kiefer besonders die Mundpropaganda, aber auch [. . . ] die Kommunikation über ein Leistungsspektrum durch unabhängige Medien (z.B. Stiftung Warentest). (ebd.) Es ist leicht vorzustellen, dass persönliche 1 Empfehlungen viel zum Erfolg der Suchmaschine Google ist das Verb googeln beigetragen haben. So sogar schon in den Duden aufgenommen worden: ['gu:gln] engl.>: mit Google im Internet suchen, recherchieren < (Duden 2007: 372). Zusammenfassend bedeutet dies für die Praxis der Zufriedenheitsforschung, dass die Soll-Komponente des Kundenzufriedenheitsurteils von einer Vielzahl veränderlicher Faktoren abhängig ist. Indem Powers schreibt: Unfortunately, we are not the customer and cannot see their needs as they do. (Powers 1988: 274), weist er auf die Schwierigkeit hin, die jeweiligen Kundenerwartungen im Einzelfall zu bestimmen. Auch Scharnbacher und Kiefer geben zu bedenken, dass eine Generalisierung der Kundenerwartungen letztlich nicht möglich ist und belegen ihre Argumentation mit folgendem Beispiel: Dies begründet sich unter anderem durch die Feststellung, daÿ ein und dieselbe Leistung eines Unternehmens bei dem einen Kunden die Erwartungen erfüllt, bei einem anderen Kunden die Erwartungen enttäuscht. (Scharnbacher/Kiefer 1996: 9) Daran wird deutlich, dass Erwartungen individuell sehr unterschiedlich ausfallen können. Eine Me- 1 Link zur Homepage: http://www.google.de/ 28 3.1. Theoretische Ansätze in der Kundenzufriedenheitsforschung thoden, die in der Praxis Anwendung ndet, um die Anforderungen und Erwartungen der Konsumenten an die Qualität eines Produkts zu identizieren, wird in Abschnitt 3.2.1 näher beschrieben. Die Ist-Komponente der Kundenzufriedenheit Die zweite Komponente des Erwartungs-Wahrnehmungs-Vergleichs umfasst die vom Kunden wahrgenommene Produktqualität. Ebenso wie die Erwartungen der Kunden mitunter subjektiv gefärbt sind, können auch bezüglich der Wahrnehmung der Produktleistung Verzerrungen entstehen (vgl. ebd.). Sauerwein zufolge sind die AssimilationsKontrast-Theorie und die Theorie der kognitiven Dissonanz die beiden wichtigsten Theorien, die zur Interpretation solcher Wahrnehmungsverzerrungen entwickelt wurden (vgl. Sauerwein 2000: 11). Beide Erklärungsmodelle gehen davon aus, dass Wahrnehmungsverzerrungen eine Folge nicht-bestätigter Erwartungen sind (vgl. Scharnbacher/Kie- fer 1996: 9). Im Sinne der von den Psychologen Muzafer Sherif und Carl I. Hovland entwickelten Assimilations-Kontrast-Theorie (auch: social judgement theory ) erfolgt im Fall einer Er- wartungsdiskonrmation eine nachträgliche Anpassung der eigenen Wahrnehmung an die ursprüngliche Erwartungshaltung (vgl. Sherif/Hovland 1961: 38 ). Bezogen auf den Soll-Ist-Vergleich der Kundenzufriedenheit neigen Kunden bei geringer Abweichung zwischen Soll- und Ist-Leistung dazu, diese als identisch wahrzunehmen (vgl. Sauer- wein 2000: 11). Man spricht bei dieser Art der Wahrnehmungsverzerrung von einem Assimilationseekt (engl.: assimilation eect ) (vgl. Sherif/Hovland 1961: 52). Be- steht dagegen eine groÿe Abweichung zwischen Soll- und Ist-Leistung, wird dieser Unterschied noch gröÿer wahrgenommen als er tatsächlich ist (vgl. Sauerwein 2000: 11). Dabei ist es unerheblich, ob es sich um eine positive oder um eine negative Abweichung handelt (vgl. ebd.). In der Literatur wird diese Art der Wahrnehmungsverzerrung als Kontrasteekt (engl.: contrast eect ) bezeichnet (vgl. Sherif/Hovland 1961: 52). Der Toleranzbereich, in dem die Soll- annähernd der Ist-Leistung entspricht, wird als Indierenzzone (engl.: zone of indierence ) bezeichnet (vgl. Woodruff et al. 1983: 299). Liegt die wahrgenommene Produktqualität innerhalb dieses Bereichs, vollzieht sich ein Verschmelzungsprozess zwischen Produktwahrnehmung und -erwartung, in dessen Konsequenz sich Zufriedenheit einstellt (vgl. a.a.O.: 300). Liegt sie auÿerhalb, wird eine Kontrastreaktion hervorgerufen, die das Empnden von Zu- oder Unzufriedenheit zusätzlich verstärkt (vgl. ebd.). Woodru et al. weisen auÿerdem darauf hin, dass das Ausmaÿ der vorhandenen Toleranz situationsabhängig variieren kann (vgl. ebd.). 29 3. Grundlagen der Zufriedenheitsforschung Ein Beispiel hierfür ist die wahrgenommene Wichtigkeit der Produkteigenschaften: Bei wichtigen Produkteigenschaften ist die Indierenzzone kleiner, bei unwichtigen ist sie gröÿer. (Sauerwein 2000: 11) Der Begri der kognitiven Dissonanz wurde von dem Sozialpsychologen Leon Festinger eingeführt (vgl. Festinger 1978: 15 ). Gemäÿ dieser Theorie ist das Individuum bestrebt [. . . ] eine Harmonie, Konsistenz oder Kongruenz zwischen seinen Meinungen, Attitüden, Kenntnissen und Wertvorstellungen herzustellen. (Festinger 1978: 253) Im Fall einer Erwartungsdiskonrmation entstehen beim Konsumenten kognitive Spannungen, sogenannte Dissonanzen (vgl. Sauerwein 2000: 11). Um diesem konikthaften Zustand des Ungleichgewichts entgegenzuwirken, tendieren Konsumenten in der Folge dazu, wahrgenommene und erwartete Produktleistung aneinander anzupassen: Das kann durch Senkung der Erwartungen oder durch Erhöhung der wahrgenommenen Produktleistung geschehen. (ebd.) Cardozo hat das Zusammenspiel wahrnehmungsverzerrender Mechanismen in Bezug auf den Aufwand, der für den Kunden mit dem Erhalt einer bestimmten Produkt- oder Dienstleistung verbunden ist, untersucht (vgl. Cardozo 1965: 244 ). Er geht davon aus, dass Konsumenten die Qualität eines Produkts oder einer Dienstleistung wichtiger ist, wenn sie einen gewissen Aufwand betreiben, um diese zu erhalten (vgl. a.a.O.: 245). Übertragen auf eine Information-Retrieval-Anwendungssituation wäre zum Beispiel denkbar, dass sich die wahrgenommene Wichtigkeit einer Informationsbeschaung für den Nutzer erhöht, wenn er Geld dafür bezahlen muss. Ausgehend von dieser Annahme stellte Cardozo vier Hypothesen auf (ebd.): 1. When customers expend little eort to obtain a product, those who receive a product less valuable than they expected will rate that product lower than will those who expected to receive, and do receive, the same product. 2. As eort expended increases, this eect decreases. 3. When customers obtain a product less valuable than they expected, those who expended high eort to obtain the product will rate it higher than will those who expended little eort. 4. When customers obtain a product about as valuable as they expected, those who expended high eort to obtain the product will rate it higher than will those who expended little eort. Die erste Hypothese lässt sich aus der Assimilations-Kontrast-Theorie ableiten (vgl. a.a.O.: 244). Während die wahrgenommene Produktqualität bei der einen Gruppe au- 30 3.1. Theoretische Ansätze in der Kundenzufriedenheitsforschung ÿerhalb des Indierenzbereichs liegt und deshalb ein Kontrasteekt einsetzt, entspricht bei der anderen Gruppe die Soll- gerade der Ist-Leistung. Die zweite Hypothese begründet Cardozo mit der Theorie der kognitiven Dissonanz (vgl. a.a.O.: 245). Er legt dar, dass bei Kunden, die mehr Mühe aufwenden, um eine bestimmte Leistung zu erhalten ein kognitives Ungleichgewicht entsteht, wenn ihre Erwartungen nicht erfüllt werden (vgl. ebd.). Weiter argumentiert er, dass in einem solchen Fall eine Kontrastierung des Ungleichgewichts zwischen Aufwand und wahrgenommener Leistung nicht ratsam ist, weil damit die Dissonanz noch vergröÿert wird (vgl. ebd.). Deshalb werden solche Konsumenten entweder nachträglich ihre Wahrnehmung der Produktleistung erhöhen oder den eigenen Aufwand leugnen (vgl. ebd.). Der soeben beschriebene Mechanismus liefert gleichzeitig den Erklärungsansatz für die letzten beiden Hypothesen. Auch hier lässt sich die Reaktion der Kunden, die mehr Mühe aufwenden, mit ihrem Bestreben erklären, kognitive Dissonanzen reduzieren zu wollen (vgl. ebd.). Die empirische Überprüfung dieser Hypothesen durch Cardozo erbrachte eine Bestätigung der ersten drei Hypothesen (vgl. 2 a.a.O.: 246 f ). In Bezug auf die vierte Hypothese waren die Ergebnisse nicht signikant (vgl. a.a.O.: 247 f ). Zusammenfassend kann also festgehalten werden, dass das Zufriedenheitsurteil von Konsumenten im Rahmen eines Erwartungs-Wahrnehmungs-Vergleichs gebildet wird, in den eine Vielzahl veränderlicher Faktoren einieÿen. Dazu zählen vor allem die individuelle Erwartungshaltung der Kunden, das persönliche Erleben der entsprechenden Leistung, aber auch situative Faktoren, wie die aufgewendete Mühe zur Erlangung einer bestimmten Leistung. 3.1.2. Die Faktorstruktur der Kundenzufriedenheit Ein weiteres Thema der Zufriedenheitsforschung ist die sogenannte Faktorstruktur der Zufriedenheit. Dabei geht es um die Frage, ob es sich bei der Zufriedenheit um ein einoder mehrdimensionales Konstrukt handelt (vgl. Müller 2004: 5). Die eindimensionale Sichtweise begreift Zu- und Unzufriedenheit als zwei gegensätzliche Pole (vgl. ebd.). Je höher also die situativ wahrgenommene Qualität des Beurteilungsobjekts, desto höher die Zufriedenheit und umgekehrt (vgl. Sauerwein 2000: 12). Im Unterschied zu dieser bipolaren Auassung geht man bei dem mehrdimensionalen Ansatz davon aus, dass Zuund Unzufriedenheit zwei eigenständige Bewertungskontinua darstellen (vgl. Müller 2 In der Statistik wird ein Ergebnis als nicht signikant bezeichnet, wenn die Möglichkeit, dass es zufällig zustande gekommen ist, nicht mit ausreichender Sicherheit verworfen werden kann (vgl. Bortz 2005: 796). 31 3. Grundlagen der Zufriedenheitsforschung 2004: 5). Inzwischen scheint sich Matzler et al. zufolge eine mehrdimensionale Sichtweise etabliert zu haben, nach der das Konstrukt der Kundenzufriedenheit im Wesentlichen von drei Zufriedenheitskategorien, als Basis-, Leistungs- und Begeisterungfaktoren be- zeichnet, bestimmt wird (vgl. Matzler et al. 2000: 254). Bevor jedoch diese drei Faktoren genauer betrachtet werden, soll zunächst die ZweiFaktoren-Theorie von Frederick Herzberg dargestellt werden, da sie die Grundlage der meisten mehrfaktoriellen Theorien bildet (vgl. Sauerwein 2000: 94 f ). Die Zwei-Faktoren-Theorie wurde im Bereich der Arbeitszufriedenheitsforschung von dem Arbeitswissenschaftler und Psychologen Frederick Herzberg entwickelt (vgl. Herzberg et al. 1997: 3 ). Danach werden Arbeitszu- und -unzufriedenheit jeweils durch unterschiedliche Faktoren ausgelöst. Dabei unterscheidet man zwischen inhalts- und kontextbezogenen Faktoren (vgl. a.a.O.: 113 ). Inhaltsbezogene Faktoren, wie zum Beispiel gute Aufstiegsmöglichkeiten, sind für Zufriedenheit verantwortlich (vgl. a.a.O.: 113). Ihr Vorhandensein wirkt motivierend, weshalb sie als Motivatoren (engl.: motivators ) bezeichnet werden (vgl. a.a.O.: 114). Da Zu- und Unzufriedenheit gemäÿ dieser Theorie jedoch nicht als zwei gegensätzliche Pole betrachtet werden, führt ihr Fehlen nicht zwangsläug auch zu Arbeitsunzufriedenheit: Werden die Erwartungen an Motivatoren nicht erfüllt, erleben die Mitarbeiter einen neutralen Zustand der Nichtzufriedenheit. (Nerdinger/Neumann 2007: 133) Arbeitsunzufriedenheit entsteht durch das Fehlen sogenannter Hygienefaktoren (engl.: factors of hygiene ) (vgl. Herzberg et al. 1997: 113). Dabei handelt es sich um Faktoren, die den Kontext der Arbeit betreen, wie eine angemessene Bezahlung oder humane Arbeitsbedingungen (vgl. ebd.). Auch hier gilt, dass eine Erfüllung dieser Faktoren nicht notwendigerweise zu mehr Arbeitszufriedenheit führt (vgl. a.a.O.: 113 f ). In der Kundenzufriedenheitsforschung wird Matzler et al. zufolge meist zwischen den folgenden zufriedenheitsbeeinussenden Faktoren unterschieden (vgl. Matzler et al. 2000: 254): • Basisfaktoren: Die Basisfaktoren entsprechen den soeben beschriebenen Hygienefaktoren. Es handelt sich dabei um Mindestanforderungen, die vom Kunden vorausgesetzt werden (vgl. ebd.). Auch hier entsteht bei Nicht-Erfüllung der Kundenerwartungen Unzufriedenheit und bei Erfüllung ein neutraler Zustand, in dem der Kunde weder zufrieden noch unzufrieden ist. • Leistungsfaktoren: Leistungsfaktoren können sowohl Zufriedenheit als auch Unzufriedenheit bei Kun- 32 3.1. Theoretische Ansätze in der Kundenzufriedenheitsforschung den hervorrufen, wenn deren Erwartungen entweder übertroen oder nicht erfüllt werden (vgl. ebd.). Auf diese Faktoren trit demnach die eindimensionale Zufriedenheitsauassung zu. • Begeisterungsfaktoren: Begeisterungsfaktoren haben die gleiche Funktion wie die Motivatoren der ZweiFaktoren-Theorie. Im Gegensatz zu den Basis- und Leistungsfaktoren werden diese jedoch nicht vom Kunden erwartet (vgl. ebd.). Deshalb entsteht bei Erfüllung der Kundenerwartungen Zufriedenheit, die Nicht-Erfüllung der Kundenerwartungen hat jedoch keinen negativen Einuss auf die Zufriedenheit. Schon das nach seinem Ernder, dem japanischen Wissenschaftler Noriaki Kano, benannte Kano-Modell der Kundenzufriedenheit basiert auf diesen drei Zufriedenheits- kategorien (vgl. Sauerwein 2000: 1). Die übliche Darstellung dieses Modells ist in Abbildung 3.2 angegeben. Kunde sehr zufrieden Begeisterungsfaktoren Leistungsfaktoren Erwartungen Erwartungen nicht erfüllt übertroen Basisfaktoren Kunde unzufrieden Abbildung 3.2.: Das Kano-Modell der Kundenzufriedenheit (Quelle: In Anlehnung an Matzler/Bailom 2000: 220) Für jede der drei Zufriedenheitskategorien stellt die angegebene Kurve dar, wie sich die Erfüllung beziehungsweise Nicht-Erfüllung der Kundenerwartung gemäÿ des Modells auf die Kundenzufriedenheit auswirkt. Auch ist die Rangfolge der einzelnen Bedürfnisebenen hier zu erkennen: Die Erfüllung von Basisfaktoren ist eine notwendige aber keine hinreichende Bedingung zur Entstehung von Kundenzufriedenheit. [. . . ] Erst das Anbieten von Leistungs- und Begeisterungsfaktoren führt zu Zufriedenheit. (ebd.). Um also eine langfristige Sicherung der Kundenzufriedenheit zu erreichen, sollten als erstes die Basisfaktoren erfüllt werden. Als nächstes sollten die Leistungsfaktoren angegangen werden, da auch sie Unzufriedenheit beim Kunden auslösen können, wenn seine 33 3. Grundlagen der Zufriedenheitsforschung Erwartungen an diese nicht erfüllt sind. Die Erfüllung der Begeisterungsfaktoren stellt sozusagen die Kür der zufriedenheitsverbessernden Maÿnahmen dar. Für die Praxis ergibt sich damit die Frage, welche Produkteigenschaften von Kunden als Basis-, Leistungs- oder Begeisterungsfaktoren erlebt werden. In diesem Zusammenhang erwähnen Matzler und Bailom: Nach unseren Erfahrungen werden Begeisterungseigenschaften vom Kunden im Vergleich zu Basis- und Leistungseigenschaften meist als unwichtig eingestuft. Allerdings können Begeisterungseigenschaften häug als ein kaufentscheidender Vorzug betrachtet werden, wenn Basis- und Leistungseigenschaften gleich gut erfüllt sind wie bei Konkurrenzprodukten. (Matzler/Bailom 2000: 219) Die Erfahrungen von Matzler und Bailom zeigen, dass die Wichtigkeit von Produkteigenschaften innerhalb der einzelnen Kategorien unterschiedlich wahrgenommen wird und dass verschiedene Produkteigenschaften deshalb einen unterschiedlichen Einuss auf die Entstehung von Zufriedenheit haben können. Zum besseren Verständnis von Kundenanforderungen wurden im Rahmen der Kundenzufriedenheitsforschung verschiedene Methoden entwickelt. Stellvertretend wird in Abschnitt 3.2.1 die nach Kano benannte Kano-Methode zur Kategorisierung verschiedener Kundenanforderungen genauer besprochen. 3.2. Methodische Ansätze in der Kundenzufriedenheitsforschung In der Diskussion methodischer Ansätze zur Untersuchung des psychologischen Konstrukts der Kundenzufriedenheit nden sich auf der einen Seite Ansätze zur Identizierung und Kategorisierung von Kundenanforderungen. Auf der anderen Seite gibt es Ansätze, deren Fokus auf der Messung der Kundenzufriedenheit liegt. 3.2.1. Identizierung und Kategorisierung von Kundenanforderungen 3 Exemplarisch für die Gruppe methodischer Ansätze zur Identizierung und Kategorisierung von Kundenanforderungen soll an dieser Stelle die Kano-Methode des japanischen Wissenschaftlers Noriaki Kano vorgestellt werden. Sie ermöglicht es, diese Anforderungen entsprechend des in Abbildung 3.2 dargestellten Kano-Modells in Basis-, Leistungs- 3 Eine gute Übersicht über weitere Methoden zur Identizierung und Kategorisierung von Kundenanforderungen ndet sich bei Matzler et al. (vgl. Matzler et al. 2000: 251). 34 3.2. Methodische Ansätze in der Kundenzufriedenheitsforschung und Begeisterungsanforderungen einzuteilen. Dazu wurde von Kano eine Fragebogentechnik entwickelt, bei der jede Frage zu einer Produkteigenschaft in zwei Ausprägungen vorliegt. Die positive Form der Frage bezieht sich dabei auf die Reaktion der Kunden für den Fall, dass eine Produkteigenschaft vorhanden ist (vgl. Sauerwein 2000: 2). Man spricht diesbezüglich auch von der nalen funktio- Form der Frage (vgl. Matzler et al. 2000: 263). Die zweite, negative Form der Frage untersucht hingegen die Reaktion der Kunden auf ein Fehlen der entsprechenden Produkteigenschaft (vgl. Sauerwein 2000: 2). Dies wird auch als die le dysfunktiona- Form der Frage bezeichnet (vgl. Matzler et al. 2000: 263). Die Zuordnung der Produkteigenschaften zu einer der drei Anforderungskategorien erfolgt über die für die funktionale und dysfunktionale Form der Frage gewählten Antwortmöglichkeiten (vgl. ebd.). Dazu werden in einer Auswertungstabelle allen möglichen Antwortkombinationen die entsprechenden Kategorien zugeordnet (vgl. a.a.O.: 263 f ). Abbildung 3.3.: Fragebogenauswertung mit der Kano-Methode (Quelle: Matzler/Bailom 2000: 221) In Abbildung 3.3 ist für eine Beispielfrage die Anwendung der Kano-Methode dargestellt. Daraus ist zu erkennen, auf welche Weise den fünfundzwanzig verschiedenen Antwortpaarungen die drei Anforderungskategorien zugeordnet sind. Neben Basis- (M ), Leistungs- (O ), und Begeisterungsfaktoren (A) sind darüber hinaus 35 3. Grundlagen der Zufriedenheitsforschung drei zusätzliche Kategorien möglich (vgl. ebd.). In die Kategorie R fallen Produkteigen- schaften, die vom Kunden nicht gewünscht oder sogar als negativ empfunden werden (vgl. a.a.O.: 264). Produkteigenschaften hingegen, die aus Sicht der Kunden unerheblich sind, werden der Kategorie I zugeteilt (vgl. a.a.O.: 263). Paarungen, deren Antworten sich in Bezug auf die funktionale und dysfunktionale Form der Frage widersprechen, werden der Kategorie Q zugeordnet (vgl. a.a.O.: 264). Zur Auswertung der Daten betrachtet man im einfachsten Fall, wie oft eine Produkteigenschaft durch die Kunden welcher Kategorie zugeordnet wurde (vgl. ebd.). Abschlieÿend kann gesagt werden, dass die Kano-Methode am Beginn eines Produktentwicklungsprozesses stehen sollte. Auf diese Weise kann herausgefunden werden, welche Produkteigenschaften von den Kunden erwartet beziehungsweise vorausgesetzt werden und somit in jedem Fall zu realisieren sind. Dabei ist jedoch zu beachten, dass diese Erwartungen von Kunde zu Kunde variieren können: Was von Kunden als Basis-, Leistungs- oder Begeisterungsanforderung betrachtet wird, hängt wesentlich von seinen persönlichen Prädispositionen ab und kann stark zwischen verschiedenen Segmenten dierieren. (Matzler/Bailom 2000: 220). Dies bedeutet, dass die Kano-Methode äuÿerst zielgruppenabhängig ist. Weiterhin ist eine im Laufe der Zeit mögliche Änderung der Kundenerwartungen zu berücksichtigen, so dass aus Begeisterungs- zuerst Leistungsund schlieÿlich Basisfaktoren werden können (vgl. ebd.). 3.2.2. Messung von Kundenzufriedenheit Ausgehend von einer kurzen Darstellung der von Scharnbacher und Kiefer beschriebenen Klassikation 4 der verschiedenen Verfahren zur Erhebung der Kundenzufriedenheit (vgl. Scharnbacher/Kiefer 1996: 19), wird in diesem Abschnitt insbesondere auf die schriftliche Befragung als Instrument zur Messung der Kundenzufriedenheit eingegangen. Wie bei den Verfahren zur Evaluierung von Mensch-Maschine-Interaktion (vgl. Abschn. 2.4) lassen sich auch die verschiedenen methodischen Ansätze zur Messung der Kundenzufriedenheit in objektive und subjektive Messansätze unterteilen (vgl. Scharn- bacher/Kiefer 1996: 19). Zu den objektiven Messansätzen gehören zum Beispiel die Bewertung von Marktanteilen oder die Beobachtung der Wiederkäuferrate (vgl. ebd.). Ziel dieser Verfahren ist es also, die Zufriedenheit der Kunden unabhängig von der subjektiven Wahrnehmung 4 Sie beziehen sich diesbezüglich auf Arbeiten von Andreasen (1982), Standop und Hesse (1985) sowie Lingenfelder und Schneider (1990). 36 3.2. Methodische Ansätze in der Kundenzufriedenheitsforschung einzelner Kunden zu erfassen. Matzler und Bailom weisen jedoch darauf hin, dass diese Verfahren [. . . ] erstens nur zeitlich verzögert als Konsequenz von Kundenzufriedenheit meÿbar sind, zweitens auch andere Einuÿfaktoren eine erhebliche Rolle spielen können. (Matzler/Bailom 2000: 199) Die in Abschnitt 2.4 vorgestellten Eigenschaften subjektiver Erhebungsmethoden können direkt auf die im Rahmen der Kundenzufriedenheitsforschung entwickelten Methoden übertragen werden. Auch hier steht die persönliche Wahrnehmung der Kunden im Mittelpunkt. Weiterhin lassen sich in diesem Zusammenhang implizite und explizite Messungen unterscheiden (vgl. Scharnbacher/Kiefer 1996: 19). Während implizite Messungen bestimmte Indikatoren wie zum Beispiel das Beschwerdeverhalten der Kunden analysieren, erheben explizite Messungen die Kundenzufriedenheit durch Befragungen. Der Hauptnachteil von impliziten Messungen liegt nach Matzler und Bailom in ihrer Unvollständigkeit, da sich beispielsweise nur wenige Kunden tatsächlich beschweren (vgl. Matzler/Bailom 2000: 199). Bei expliziten Messungen schlieÿlich kann zusätzlich zwischen indirekten und direkten Messungen unterschieden werden (vgl. Scharnbacher/Kiefer 1996: 19). Während die Kundenzufriedenheit bei indirekten Messungen über den Erfüllungsgrad der Kundenerwartungen bestimmt wird (vgl. a.a.O.: 23), ermittelt man sie bei direkten Messungen durch Zufriedenheitsskalen (vgl. a.a.O.: 25). Da die subjektive Messung der Kundenzufriedenheit beziehungsweise die Durchführung schriftlicher Befragungen im empirischen Teil dieser Arbeit von zentraler Bedeutung ist, soll auf dieses Verfahren im Folgenden ausführlicher eingegangen werden. Dabei wird ein besonderes Augenmerk auf die Erstellung der Fragen sowie die Aussagekraft unterschiedlicher Antwortskalen gelegt. Grundsätzlich unterscheidet man bei der Erstellung der Fragen, auch Items genannt (vgl. Sarodnick/Brau 2006: 169), zwei Arten: oene und geschlossene Fragen (vgl. Bertram 2004: 15). Diese Fragearten dierieren in ihrem Standardisierungsgrad (vgl. ebd.). Oene Fragen sind weniger standardisiert und überlassen den befragten Personen die Formulierung der Antwort. Geschlossene Fragen hingegen geben den Befragten verschiedene Antwortmöglichkeiten vor. Bei der Erstellung eines Fragebogens sollte man sich bewusst sein, dass je nach Standardisierungsgrad der Frage unterschiedliche kognitive Anforderungen an die Befragten gestellt werden (vgl. ebd.). Dies soll an der Frage: Welche Suchmaschinen kennen Sie? verdeutlicht werden. Im Kontext einer oenen Fra- gestellung müssten die Testpersonen sich bei dieser Frage wirklich erinnern, welche Suchmaschinen sie kennen. Im Kontext einer geschlossenen Fragestellung dagegen müssten sie lediglich die ihnen bekannten Suchmaschinen wiedererkennen. Allerdings besteht im 37 3. Grundlagen der Zufriedenheitsforschung zweiten Fall eine gröÿere Gefahr, dass die Befragten versucht sein könnten, eine Antwort zu erraten und somit die Testergebnisse verfälschen (vgl. Bortz/Döring 1995: 196 f ). Dies gilt insbesondere für Wissensfragen (vgl. a.a.O.: 196). Weiterhin ist zu beachten, dass sich der Standardisierungsgrad der Fragen auch auf den Beantwortungsspielraum der Befragten auswirkt: Je standardisierter der Fragebogen, desto gröÿer die Gefahr, die Bewertungsfreiheit einzuschränken (vgl. Sarodnick/Brau 2006: 171). Die Nachteile oener Fragestellungen werden jedoch höher bewertet als ihre Vorteile: Der Auswertungsaufwand ist bei oenen Fragen um ein Vielfaches höher, die Vergleichbarkeit der Antworten wesentlich geringer. (Bertram 2004: 16) Auch Bortz und Döring bemerken aus diesem Grund: Fragen mit Antwortvorgaben sind bei schriftlichen Befragungen der oenen Frageform vorzuziehen. (Bortz/Döring 1995: 232) 5 Für die Formulierung der Fragen sind nach Schnell et. al. einige Regeln einzuhalten, die im Folgenden kurz erläutert werden (vgl. Schnell et al. 1993: 343 f ): Zunächst ist auf eine einfache, eindeutige und neutrale Formulierung der Fragen zu achten, die weder Fachausrücke noch Fremdwörter enthält (vgl. ebd.). Auch sollte die Länge der Fragen auf weniger als 20 Wörter beschränkt bleiben (vgl. a.a.O.: 343). Weiterhin sollten die Formulierungen nicht suggestiv gewählt werden, die Frage: Finden Sie, dass die Startseite der Suchmaschine XY zu schlicht gestaltet ist? wäre deshalb der Formulierung: Sind Sie nicht auch der Ansicht, dass die Startseite der Suchmaschine XY zu schlicht gestaltet ist? vorzuziehen (vgl. a.a.O.: 344). Auch hypothetische Fragen, die Formulierungen der Art: Angenommen, Sie würden die Suchmaschine XY verwenden ... enthalten, sind zu vermeiden (vgl. ebd.). In jeder Frage sollte auÿerdem nur ein Sachverhalt angesprochen werden (vgl. ebd.). Ein Negativbeispiel wäre die Frage: Kennen und nutzen Sie den OPAC der Universität Hildesheim häug?. Darüber hinaus sollten die Fragen keine doppelten Verneinungen beinhalten und die Befragten nicht überfor- Wieviel Prozent ihrer Zeit im Internet verbringen Sie mit der Verwendung von Suchmaschinen?. Besser dert werden (vgl. ebd.). Ein Negativbeispiel für letzteres ist die Frage: wäre in diesem Fall eine Frage nach der üblichen Nutzungszeit des Internets und eine weitere Frage zur durchschnittlichen Verwendungsdauer von Suchmaschinen. Schlieÿlich ist auch auf die Ausgewogenheit der Formulierungen zu achten (vgl. ebd.). Diese Forderung bezieht sich auf Fragen mit zwei Antwortalternativen. Bei der Formulierung solcher Fragen sollte man sicherstellen, dass beide Alternativen in der Frage vorkommen. Ein Positivbeispiel wäre die folgende Frage: Werbung anzeigen oder nicht? Sollte eine Suchmaschine auf der Startseite 5 Schnell et. al. beziehen sich hier auf Arbeiten von Payne (1951), Dillmann (1978) sowie Converse und Presser (1986). 38 3.2. Methodische Ansätze in der Kundenzufriedenheitsforschung Neben der Fragenformulierung muss aber auch die Konstruktion der Antwortmöglichkeiten berücksichtigt werden. Zentral ist in diesem Zusammenhang das zugrundeliegende Skalenniveau. In der Diskussion methodischer Ansätze zur Messung von Kundenzufriedenheit wurden sehr viele unterschiedliche Skalen entwickelt (vgl. Matzler/Bailom 2000: 214). Es gibt numerische, verbale und graphische Skalen sowie Mischformen dieser Skalen (vgl. ebd.). Sie unterscheiden sich in der Art und Weise, wie die einzelnen Abstufungen auf der Skala dargestellt werden. Während die Skalenwerte bei numerischen Skalen durch Zahlen repräsentiert werden, geschieht dies bei verbalen Skalen durch Text und bei graphischen Skalen durch Zeichnungen. Im Hinblick auf die Auswertung der Daten gibt Bertram zu bedenken, dass verbale Skalen zwar besser für die textuelle Aufbereitung der Ergebnisse geeignet sind, numerische Daten dagegen mehr statistische Verfahren zulassen (vgl. Bertram 2004: 18). Dies hängt mit den unterschiedlichen Skalenniveaus zusammen (vgl. ebd.). Bei psychologischen Fragestellungen hat man meistens mit den folgenden drei Skalenniveaus, auch Messniveaus genannt, zu tun: Nominalskala, Ordinalskala, Intervallskala (vgl. Zimbar- do/Gerrig 1999: 26f ). Je höher das jeweilige Skalenniveau, desto mehr statistische Auswertungsverfahren können angewendet werden (vgl. Bertram 2004: 18). Bei der Nominalskala handelt es sich um das niedrigste Messniveau (vgl. a.a.O.: 17). Ein klassisches Beispiel ist der Familienstand mit den Kategorien: schieden ledig, verheiratet, ge- (vgl. Zimbardo/Gerrig 1999: 27). Durch dieses Messniveau wird lediglich die Verschiedenheit der einzelnen Kategorien ausgedrückt. Verbale Skalen benden sich auf ordinalem Messniveau (vgl. Bertram 2004: 18). Bei diesem Skalenniveau stellen die einzelnen Skalenwerte eine Rangordnung dar (vgl. Zimbardo/Gerrig 1999: 27). Ein Beispiel sind Schulnoten (vgl. Bertram 2004: 17). Das intervallskalierte Messniveau zeichnet sich zusätzlich dadurch aus, dass die Abstände zwischen den einzelnen Skalenwerten identisch sein müssen (vgl. a.a.O.: 18). Deshalb ist es bei einer Intervallskala möglich, die Dierenz zwischen unterschiedlichen Antwortkategorien zu quantizieren (vgl. Zimbardo/Gerrig 1999: 27). Auch numerische Skalen sind auf Intervallskalenniveau angesiedelt (vgl. Bertram 2004: 18). Matzler und Bailom zufolge ist bei der Erstellung eines Fragebogens weiterhin darauf zu achten, [. . . ] daÿ die Anzahl der Antwortkategorien pro Item so gewählt ist, daÿ die Befragten in Bezug auf eine Unterscheidungsfähigkeit einerseits nicht überfordert sind und andererseits doch kein Informationsverlust durch zu grobe Skalen auftritt. (Matzler/Bailom 2000: 214) Sie empfehlen daher eine Skala mit circa sieben Abstufungen (vgl. ebd.). Eine weitere Frage in diesem Zusammenhang betrit die Entscheidung zwischen ei- 39 3. Grundlagen der Zufriedenheitsforschung ner geraden und einer ungeraden Skala (vgl. ebd.). Von dieser Entscheidung hängt es ab, ob es eine mittlere Antwortkategorie gibt. Diesbezüglich ist zu bedenken, dass eine eindeutige Interpretation einer solchen Mittelkategorie nicht möglich ist (vgl. ebd.). Sie lässt sowohl eine Interpretation im Sinne von indierent als auch eine durchschnittli- che Bewertung des Beurteilungsgegenstands zu. Bertram spricht sich für eine mittlere Antwortkategorie aus und begründet ihre Wahl wie folgt: Bei der Skalenbildung sollte man sich stets den Zwang vergegenwärtigen, den standardisierte Instrumente für die Befragten ohnehin schon mit sich bringen. Auf zusätzlichen Zwang durch eine Skala sollte man, wo entbehrlich, verzichten. (Bertram 2004: 19) 3.3. Zusammenfassung In diesem Kapitel wurden theoretische und methodische Grundlagen zum psychologischen Konstrukt der Zufriedenheit behandelt. Es wurde gezeigt, dass Zufriedenheit beziehungsweise Kundenzufriedenheit im Sinne des C/D-Paradigmas als Resultat eines individuellen Erwartungs-Wahrnehmungs-Vergleichs angesehen werden kann. Im Kontext der Information-Retrieval-Evaluierung ist hier insbesondere der Zusammenhang zwischen der Kundenzufriedenheit und der Erwartungshaltung der Benutzer hervorzuheben. Weiterhin wurde dargelegt, dass nicht alle Produkteigenschaften den gleichen Einuss auf die Entstehung von Kundenzufriedenheit haben. Wie dieser Einuss in der Praxis bestimmt werden kann, wurde exemplarisch anhand der Kano-Methode vorgestellt. Im methodischen Teil wurde überdies die subjektive Messung von Kundenzufriedenheit besprochen, da die schriftliche Befragung als Erhebungstechnik im empirischen Teil dieser Magisterarbeit zum Einsatz kommt. 40 4. Stand der Forschung Dieses Kapitel befasst sich mit den gegenwärtigen Schwerpunkten in der benutzerorientierten Evaluierungsforschung. Neben den konkreten Fragestellungen ausgewählter Studien werden auch deren Untersuchungsdesigns und Erhebungsmethoden einander gegenübergestellt. Ein Anspruch auf Vollständigkeit wird mit diesem Forschungsüberblick nicht erhoben. Vielmehr soll die Darstellung vorhandener Studien das Ziehen von Parallelen zu dem im empirischen Teil dieser Magisterarbeit entwickelten Untersuchungsdesign ermöglichen. In den Abschnitten 4.1 bis 4.3 werden zunächst verschiedene Forschungsansätze kurz vorgestellt und anschlieÿend anhand einer ausgewählten Untersuchung vertieft. Dabei sollen Gemeinsamkeiten und Unterschiede der einzelnen empirischen Herangehensweisen herausgearbeitet werden, um die vorliegende Arbeit besser in den Kontext der aktuellen Forschung einordnen zu können. 4.1. Performanzorientierte Forschung Insgesamt wurde die wissenschaftliche Diskussion im Bereich der Information-RetrievalEvaluierung in den vergangenen Jahren weniger von zufriedenheits- als von performanzorientierten Ansätzen bestimmt. In diesem Zusammenhang sind insbesondere die Studien von Hersh et al. (vgl. Hersh et al. 2000: 17 ), Turpin und Hersh (vgl. Tur- pin/Hersh 2001: 225 )1 sowie Allan et al. (vgl. Allan et al. 2005: 433 ) und Turpin und Scholer (vgl. Turpin/Scholer 2006: 11 ) zu nennen. Alle diese Studien befassten sich primär mit der Frage, inwieweit sich Ergebnisse aus systemorientierten Evaluierungen auf reale Benutzer und deren individuelle Informationsbedürfnisse über- 2 tragen lassen, das heiÿt, ob eine Korrelation zwischen System- und Benutzerleistung nachgewiesen werden kann. 1 Im Folgenden wird ausschlieÿlich auf diese Quelle verwiesen, da Turpin und Hersh darin die Befunde beider Untersuchungen (2000 u. 2001) beschreiben. 2 In der Statistik bezeichnet die Korrelation [. . . ] die Art und das Ausmaÿ des Zusammenhanges zwischen zwei oder mehr Variablen. (vgl. Zimbardo/Gerrig 1999: 791) 41 4. Stand der Forschung Wie in Abschnitt 2.1.2 bereits beschrieben, geht es in benutzerorientierten Studien darum, dass Testpersonen Suchaufgaben mit Hilfe des zu beurteilenden Systems lösen sollen. Ein Kriterium zur Unterscheidung der oben genannten Studien ist die Frage, ob die Testpersonen ein reales System bedienten oder ob sie stattdessen künstlich erzeugte Ergebnislisten vorgelegt bekamen. Letzteres Vorgehen wird auch als Wizard-of-Oz- Experiment bezeichnet (vgl. Allan et al. 2005: 436). So basieren die Studien von Allan et al. sowie Turpin und Scholer auf einem Experiment mit künstlich erzeugten Ergebnislisten auf je fünf unterschiedlichen Systemlevels (vgl. Allan et al. 2005: 436; Tur- pin/Scholer 2006: 14). Die beiden Studien von Turpin und Hersh hingegen verwendeten je zwei reale Systeme unterschiedlicher Leistung (vgl. Turpin/Hersh 2001: 226 f ). Weiterhin unterscheiden sich die Studien in der Art der gestellten Testaufgaben. So lieÿen Turpin und Hersh in der Studie aus dem Jahr 2000 die Testpersonen innerhalb von 20 Minuten möglichst viele Antwortdokumente zu einer Suchaufgabe wie Länder importieren kubanischen Zucker? Welche nden (vgl. a.a.O.: 226). Ihre Studie aus dem Jahr 2001 enthielt zwei Aufgabentypen. Der erste ist eine Abwandlung der soeben beschriebenen Aufgabe, nur dass diesmal die Anzahl der zu suchenden Antworten in der Frage festgelegt wurde (vgl. a.a.O.: 227). Beim zweiten Aufgabentyp sollten die Teilnehmer die richtige Antwort aus zwei vorgegebenen Antworten herausnden, wie zum Beispiel Welches war die letzte chinesische Dynastie: Qing oder Ming? (vgl. ebd.). Da bei der ersten Aufgabe so viele Länder wie möglich gefunden werden sollen, ist sie stärker recall-orientiert als die zweite. Des Weiteren gibt es Unterschiede in der Wahl der Eektivitätsmaÿe, mit denen System- und Benutzerleistung charakterisiert wurden. Zur Bestimmung der Systemleistung verwendeten drei der vier oben genannten Studien das Eektivitätsmaÿ Mean Average Precision (vgl. Abschn. 2.3.2) (vgl. Turpin/Hersh 2001: 227; Turpin/Scho- ler 2006: 14). Ausschlieÿlich Allan et al. setzten das Maÿ Binary Preference (bpref ) ein (vgl. Allan et al. 2005: 335), das auswertet, wie oft im Mittel irrelevante vor relevanten Dokumenten ausgegeben werden (vgl. Buckley/Voorhees 2004: 27). Allan et al. geben an, dass die meisten performanzorientierten Benutzerstudien die Bearbeitungszeit der Suchaufgaben als Maÿ für die Leistung der Benutzer heranziehen (vgl. a.a.O.: 437). Darüber hinaus besteht die Möglichkeit, ebenfalls Eektivitätsmaÿe wie Recall und Precision für die Suchergebnisse der Benutzer zu berechnen (vgl. ebd.). Allerdings scheint es schwierig, einen signikanten Zusammenhang zwischen System- und Benutzerleistung nachzuweisen: However, recent studies have demonstrated that improvements in these metrics do not translate into a direct benet for 42 4.1. Performanzorientierte Forschung users. (Turpin/Scholer 2006: 11) Einzig in der Studie von Allan et al. konnte solch ein Zusammenhang für eine Zunahme der Binary Preference beobachtet werden (vgl. Allan et al. 2005: 18). In der vorliegenden Magisterarbeit wird dieser Ansatz jedoch nicht weiterverfolgt. Stattdessen soll untersucht werden, ob sich bei Berücksichtigung der Erwartungshaltung von Anwendern ein Einuss der Mean Average Precision auf die Benutzerleistung beobachten lässt (vgl. Abschn. 5.1.1). Die im Rahmen dieser Arbeit entwickelte Untersuchung bezieht sich in einigen Punkten auf die von Turpin und Scholer durchgeführte Studie, auf die deshalb im Folgenden umfassender eingegangen wird. Das Untersuchungsdesign entsprach einem einfaktoriellen Design mit Messwiederholung. Ein solches Design lässt sich mittels einer einfaktoriellen Varianzanalyse auswerten. Dieses statistische Testverfahren dient der Überprüfung der Wirkung einer unabhängigen Variablen (UV), auch Faktor genannt, auf eine abhängige Variable (AV) (vgl. Rudolf/Müller 2004: 77). Dabei bedeutet Messwiederholung, dass die abhängige Variable für jeden Untersuchungsteilnehmer mehrmals mit unterschiedlichen Faktorausprägungen erhoben wird (vgl. a.a.O.: 97). In der Untersuchung von Turpin und Scholer war die Systemleistung die unabhängige Variable, welche in den fünf Mean-Average-Precision-Abstufungen 0,55, 0,65, 0,75, 0,85 und 0,95 variiert wurde (vgl. Turpin/Scholer 2006: 14). Die Ergebnislisten für diese fünf Systemlevels wurden künstlich erzeugt (vgl. ebd.). Als Testkollektion dienten Web-Track-Daten der Evaluierungsinitiative TREC (vgl. ebd.). Der entsprechende Algorithmus zur Erzeugung der Listen kam auch in der im empirischen Teil dieser Arbeit durchgeführten Untersuchung zum Einsatz und wird daher in Abschnitt 5.2.3 beschrieben. Jeder der 30 Teilnehmer sollte 50 Suchaufgaben bearbeiten, wobei die Aufgaben in einer zufälligen Reihenfolge einem der fünf Systemlevels zugeordnet wurden (vgl. ebd.). Das bedeutet, dass jeder Untersuchungsteilnehmer zehn Aufgaben pro Systemlevel bearbeiten musste. Turpin und Scholer vermuteten, dass die Schwierigkeit der Suchaufgaben in den vorherigen Studien eine mögliche Erklärung für die fehlende Korrelation zwischen System- und Benutzerleistung gewesen sein könnte, weshalb sie für ihre eigene Studie besonderen Wert auf die Einfachheit der Suchaufgaben legten (vgl. a.a.O.: 11 f ). Die Teilnehmer sollten deshalb innerhalb von fünf Minuten so viele relevante Antwortdokumente wie möglich zu einem vorgegebenen Thema nden (vgl. a.a.O.: 14). Weiterhin bemerken Turpin und Scholer: However, previous experiments have focused on user search tasks that may promote aspects of searcher behaviour that are dierent from what the system eectiveness metrics are aiming to capture. (a.a.O.: 13) Die gemessene Benutzerleistung stellte in dieser Studie die abhängige Variable dar. Für die Auswertung wurden zwei verschiedene Aspekte der Benutzerleistung betrach- 43 4. Stand der Forschung tet. Einerseits wurde die Zeit gemessen, die die Teilnehmer benötigen, um das erste relevante Dokument zu nden (vgl. a.a.O.: 15). Andererseits fand ein Vergleich der Anzahl der relevanten Antwortdokumente, die die Untersuchungsteilnehmer innerhalb von fünf Minuten aufzunden vermochten, statt (vgl. a.a.O.: 16). Im Ergebnis konnte in der Studie kein signikanter Zusammenhang zwischen der Aundzeit des ersten relevanten Dokuments und dem Systemlevel nachgewiesen werden (vgl. a.a.O.: 15). Auch die Korrelation zwischen Systemlevel und Gesamtzahl der gefundenen relevanten Dokumente war nur schwach signikant (vgl. a.a.O.: 16). Insgesamt konnte also nur ein geringer Einuss der unterschiedlichen Mean-Average-Precision-Abstufungen auf die Benutzerleistung festgestellt werden. Weiterhelfen würde hier möglicherweise der Einsatz alternativer Performanzmaÿe, wie dies in der vorliegenden Untersuchung unternommen wurde (vgl. Abschn. 5.2.4). 4.2. Zufriedenheitsorientierte Forschung Drei Studien, die als weiteren Aspekt neben der Leistung auch die Zufriedenheit der Benutzer zum Inhalt hatten, wurden von Al-Maskari et al. (vgl. Al-Maskari et al. 2006: 1 ; Al-Maskari et al. 2007: 773 f) und Humann und Hochster (vgl. Huff- man/Hochster 2007: 567 f ) durchgeführt. Diese Studien zielten darauf ab, zu untersuchen, inwieweit sich die Systemleistung auf die empfundene Zufriedenheit der Benutzer auswirkt. Die drei Studien unterscheiden sich zunächst in ihrem Untersuchungsgegenstand. Während Al-Maskari et al. ihre Testpersonen in der Studie von 2006 nach Bildern suchen lieÿen (vgl. Al-Maskari et al. 2006: 2), hatte die Studie von 2007 Webseiten zum Inhalt (vgl. Al-Maskari et al. 2007: 773). Auch in der Studie von Human und Hochster waren von den Teilnehmern Webseiten aufzunden und zu bewerten (vgl. Huff- man/Hochster 2007: 567 f ). Dabei verwendeten die beiden letztgenannten Studien die Internetsuchmaschine Google als Information-Retrieval-System (vgl. Al-Maskari et al. 2007: 773; Huffman/Hochster 2007: 567 f). Gemein ist allen drei Studien, dass jeweils nur ein und nicht mehrere Systeme oder Systemlevels zugrunde gelegt wurden (vgl. Al-Maskari et al. 2006: 2; Al-Maskari et al. 2007: 773; Huffman/Hochster 2007: 567 f). Weitere Unterschiede bestehen hingegen in Bezug auf die gewählten Aufgabenstellungen sowie die eingesetzten Relevanzmaÿe zur Bewertung der Systemleistung (vgl. Al-Maskari et al. 2006: 2; Al-Maskari et al. 2007: 773;Huffman/Hochster 2007: 568). Im Folgenden soll 44 4.2. Zufriedenheitsorientierte Forschung jedoch der Schwerpunkt auf die verschiedenen Herangehensweisen zur Bestimmung der Benutzerzufriedenheit gelegt werden. In den beiden Studien von Al-Maskari et al. wurde sie auf eine ähnliche Art und Weise erfasst. In beiden Fällen konnten die Teilnehmer ihre Zufriedenheit mit der Genauigkeit und der Vollständigkeit der Retrievalergebnisse auf einer dreistugen Skala von zufrieden über halbwegs zufrieden bis nicht zufrieden angeben (vgl. Al-Maskari et al. 2006: 3; Al-Maskari et al. 2007: 773). Während in der Studie von 2006 zusätzlich die Nützlichkeit der einzelnen Suchergebnisse eingeschätzt werden sollte (vgl. Al-Maskari et al. 2006: 3), wurde in der Studie im darauolgenden Jahr stattdessen die Zufriedenheit der Untersuchungsteilnehmer mit dem Ranking der Suchergebnisse erfasst (vgl. Al-Maskari et al. 2007: 773). Die Bildretrieval-Studie von Al-Maskari et al. hat ergeben, dass die Testpersonen trotz eines niedrigen Systemlevels mit ihren Suchergebnissen zufrieden waren (vgl. Al- Maskari et al. 2006: 4). Dabei wurde die Systemleistung unter anderem über das Eektivitätsmaÿ P@100 bestimmt (vgl. ebd.). Andererseits fand sich ein signikanter Zusammenhang zwischen dem Benutzer-Recall und dem Q-measure des Systems (vgl. ebd.). Letzteres erweitert die Average Precision um die Möglichkeit, auch abgestufte Relevanzbewertungen für die Dokumente zu vergeben und diese in die Berechnung der Retrievaleektivität einzubeziehen (vgl. Sakai 2004: o.S.). In der Studie aus dem Jahr 2007 konnten Al-Maskari et al. auch einen Zusammenhang zwischen Benutzerzufriedenheit und Systemleistung feststellen (vgl. Al-Maskari et al. 2007: 773). Human und Hochster verfolgten in ihrer Studie eine etwas andere Herangehensweise. Als Aufgaben für die Testpersonen kamen hier real an die Suchmaschine Google gestellte Suchanfragen zum Einsatz (vgl. Huffman/Hochster 2007: 567). Da nur die reinen Suchbegrie ohne Kontext vorlagen, wurde versucht, die zugrundeliegenden Informationsbedürfnisse mit Hilfe einer ersten Gruppe von Testpersonen zu rekonstruieren (vgl. a.a.O.: 567 f ). Die so ermittelten Kontexte wurden dann zusammen mit den ursprünglichen Suchbegrien einer zweiten Gruppe von Probanden als Aufgaben gestellt und anschlieÿend ihre Zufriedenheit erhoben (vgl. a.a.O.: 568). Indem sie sowohl Relevanzinformationen über die ersten drei Listenplätze als auch die Art des Informationsbedürfnisses berücksichtigten, gelang es Human und Hochster, ein Relevanzmaÿ zu denieren, das mit der Nutzerzufriedenheit korreliert (vgl. a.a.O.: 568 ). Im Folgenden soll die Untersuchung von Al-Maskari et al. aus dem Jahr 2006 noch etwas eingehender betrachtet werden. Sie wurde im Rahmen des in Abschnitt 2.1.2 vorgestellten Interactive Track von CLEF durchgeführt (vgl. Al-Maskari et al. 2006: 2). Bei den erhobenen Variablen handelte es sich in diesem Design um die Benutzerleistung 45 4. Stand der Forschung und die Zufriedenheit der Testteilnehmer (vgl. a.a.O.: 2 f ). Im Gegensatz zu der im vorherigen Abschnitt beschriebenen Studie von Turpin und Scholer sollten die 11 Teilnehmer dieser Studie nur zwei Aufgaben bearbeiten, die für alle Teilnehmer identisch waren (vgl. a.a.O.: 2). Bei der ersten Aufgabenstellung wurden die Untersuchungsteilnehmer aufgefordert, so viele Bilder europäischer Parlamentsgebäude wie möglich zu suchen (vgl. ebd.). Bei der zweiten Aufgabenstellung ging es darum, die Überschrift The story of saron anhand fünf unterschiedlicher Bilder zu illustrieren (vgl. ebd.). Für beide Aufgaben hatten die Testpersonen je 20 Minuten Zeit (vgl. ebd.). Das Vorgehen zur Erhebung der Zufriedenheit der Teilnehmer wurde bereits beschrieben. Zur Messung der Benutzerleistung dienten die Eektivitätsmaÿe Recall und Precision (vgl. Al-Maskari et al. 2006: 3). Die entsprechende Modizierung dieser Maÿe fand auch in der im empirischen Teil dieser Arbeit durchgeführten Untersuchung Anwendung und ist daher in Abschnitt 5.2.4 beschrieben. Der Vergleich der Benutzerleistung mit der Systemleistung erfolgte systemseitig anhand der fünf Eektivitätsmaÿe P@50, P@100, Q-measure, bpref-10 und 10-Precision. Das Q-measure wurde bereits im Verlauf dieses Abschnitts, die P@50, die P@100 sowie die 10-Precision in Abschnitt 2.3.2 unter den allgemeineren Denitionen der P@n und der R-Precision besprochen. Bei bpref-10 handelt es sich um eine an Ergebnislisten mit wenigen relevanten Dokumenten angepasste Variante des in Abschnitt 4.1 erläuterten Maÿes Binary Preference (vgl. Buckley/Voorhees 2004: 27). Wie schon berichtet, ergab sich in der Studie ein signikanter Zusammenhang zwischen dem Q-measure und dem Benutzer-Recall. Leider geht aus der Veröentlichung nicht hervor, wie das angegebene statistische Testverfahren der Varianzanalyse auf die Daten angewendet wird. Unklar bleibt die Einteilung der Daten in ab- und unabhängige Variablen. 4.3. Forschungsansätze zum Einuss der Ergebnispräsentation Neben diesen performanz- und zufriedenheitsorientierten Untersuchungen wurden im Bereich der benutzerorientierten Evaluierungsforschung auch Studien durchgeführt, die einzelne Aspekte der Anwendungssituation von Information-Retrieval-Systemen genauer untersuchten. Dahinter steht der Gedanke, dass man ein System nur dann verbessern kann, wenn man alle Aspekte, die die Anwendungssituation betreen, in die Evaluierung einbezieht. Al-Maskari et al. nennen diesbezüglich folgende Einussfaktoren: Factors 46 4.3. Forschungsansätze zum Einuss der Ergebnispräsentation such as prior search experience, search strategies and knowledge about the topic are also expected to inuence the eectiveness of retrieval. (a.a.O.: 1) In diesem Abschnitt soll insbesondere auf Studien hingewiesen werden, die den Einuss verschiedener Merkmale der Ergebnisbeschreibung, wie zum Beispiel des Datums, auf die Auswahlentscheidung innerhalb des Suchprozesses erforschen. Mit diesem Aspekt der Anwendungssituation beschäftigten sich die Studien von Resnick und Lergier (vgl. Resnick/Lergier 2003: 1 ), Kaczmirek (vgl. Kaczmirek 2003: 1 ) und Al-Maskari und Sanderson (vgl. Al- Maskari/Sanderson 2006: 132 ). Resnick und Lergier beschreiben zwei Studien, die sie unter dem Gesichtspunkt der Aussagefähigkeit verschiedener Ergebnisbeschreibungen in Treerlisten durchgeführt haben. Dabei ist die erste Studie als Voruntersuchung zu werten, die in erster Linie der Feststellung dienen sollte, welche Merkmale der Ergebnisbeschreibung den gröÿten Einuss auf die Auswahlentscheidung von Suchmaschinennutzern haben (vgl. Resnick/L- ergier 2003: 4). Das Ziel der Hauptuntersuchung bestand darin herauszunden, inwiefern unterschiedliche Aufgabenanforderungen die Suchstrategien der Nutzer in Bezug auf drei verschiedene Merkmale der Ergebnisbeschreibung verändern (vgl. Resnick/L- ergier 2003: 9). Ein ähnliches Forschungsziel verfolgte auch Kaczmirek, der die Gebrauchstauglichkeit der Ergebnisseiten von Suchmaschinen anhand von vier Beschreibungsmerkmalen analysierte (vgl. Kaczmirek 2003: 46). In der letzten Studie wurde der Zusammenhang zwischen dem Vorwissen der Informationssuchenden und zwei unter- 3 schiedlichen Ergebnisbeschreibungen bei einem Question-Answering-System untersucht (vgl. Al-Maskari/Sanderson 2006: 132). Ein wesentlicher Unterschied besteht auch hier in der Art der Experimente. Während es sich bei den beiden Studien von Resnick und Lergier sowie bei der Studie von Al-Maskari und Sanderson um Laborexperimente handelte (vgl. Resnick/Lergier 2003: 4 ; Al-Maskari/Sanderson 2006: 134), führte Kaczmirek ein Webexperiment durch (vgl. Kaczmirek 2003: 52). Darüber hinaus verwendeten die Studien von Resnick und Lergier sowie die von Kaczmirek rein künstlich erzeugte Ergebnisseiten (vgl. Resnick/Lergier 2003: 4 ; Kaczmirek 2003: 50), die Studie von Al-Maskari und Sanderson hingegen variierte lediglich die Beschreibungsmerkmale der Suchergebnisse eines realen Question-Answering-Systems (vgl. Al-Maskari/Sanderson 2006: 133). Auch hier sollten die Teilnehmer in allen vier Studien relevante Antworten zu ver- 3 Wie beim Web Information Retrieval handelt es sich auch beim Question Answering (QA) um einen speziellen Forschungsbereich innerhalb des Information Retrieval. Dabei geht es nicht mehr nur um das klassische Retrieval von Dokumenten, sondern um eine Antwort auf eine konkrete Frage (vgl. Fuhr 2005: 32). 47 4. Stand der Forschung schiedenen Fragestellungen auswählen (vgl. Resnick/Lergier 2003: 4 ; Kaczmirek 2003: 50; Al-Maskari/Sanderson 2006: 134). Dazu erhoben alle Untersuchungen die Entscheidungssicherheit der Teilnehmer in Bezug auf die eigene Auswahlentscheidung (vgl. Resnick/Lergier 2003: 4 ; Kaczmirek 2003: 51; Al-Maskari/Sanderson 2006: 136). Resnick und Lergier führen in diesem Zusammenhang den Begri condence pre-click ein: Pre-click condence (PCC) was the participant's expectation of how well his/her selection would match his/her expectations. (Resnick/Lergier 2003: 8) Al-Maskari und Sanderson konnten in ihrer Studie zwei Trends beobachten. Erstens protierte die Benutzerleistung von umfangreicheren Ergebnisbeschreibungen (vgl. Al- Maskari/Sanderson 2006: 136). Zweitens existierte ein Zusammenhang zwischen dem Vorwissen und der Benutzerleistung der Probanden: Accuracy was found to increase with topic familiarity; the more familiar participants were with a topic, the more accurate their answers. (ebd.) Die Bevorzugung von umfangreicheren Ergebnisbeschreibungen konnten auch Lergier und Resnick in ihrer ersten Studie bestätigen (vgl. Resnick/Lergier 2003: 8). Die zweite Studie ergab in Bezug auf die Aufgabenanforderungen, dass Unterschiede in der Spezität der Aufgaben einen signikanten Einuss auf die Wahl der Suchstrategie haben (vgl. a.a.O.: 19). Weiterhin legen die Ergebnisse dieser Studie nahe, dass die Entscheidungssicherheit keinen zuverlässigen Hinweis auf den Sucherfolg der Nutzer darstellt: Though the dierence was statistically signicant, participants' condence in their correct answers was only slightly greater than their condence in their incorrect answers. (a.a.O.: 20) Im Folgenden sollen das Untersuchungsdesign sowie die empirischen Befunde von Kaczmirek umfassender vorgestellt werden. An diesem, von Kaczmirek im Rahmen seiner Diplomarbeit durchgeführten, Webexperiment nahmen 191 Internetnutzer teil (vgl. Kaczmirek 2003: 69). Die Studie hatte ein zweifaktorielles Design mit den unabhängigen Variablen Ergebnisbeschreibung und Aufgabenspezität (vgl. a.a.O.: 46). Mit einem zweifaktoriellen varianzanalytischen Design können die Haupt- und Wechselwirkungseffekte von zwei Faktoren auf die abhängige Variable festgestellt werden (vgl. Rudolf/- Müller 2004: 87). Von einem Haupteekt spricht man, wenn die Wirkung einer unabhängigen Variablen auf die abhängige Variable nachgewiesen werden kann. Beeinussen sich die unabhängigen Variablen gegenseitig, spricht man von einem Wechselwirkungs(vgl. a.a.O.: 88) beziehungsweise Interaktionseekt (vgl. Bortz/Döring 1995: 496). In dem Experiment von Kaczmirek wurden die Teilnehmer zufällig einer von vier Stufen des Faktors Ergebnisbeschreibung zugewiesen und mussten beide Stufen des Faktors Spezität der Suchaufgabe durchlaufen (vgl. Kaczmirek 2003: 46). Der Faktor Ergebnisbeschreibung wurde in den Ausprägungen 48 Wörter im Kontext, Textanfang, 4.3. Forschungsansätze zum Einuss der Ergebnispräsentation Schlüsselwörter und MaxInfo realisiert (vgl. ebd.). Die ersten drei Bedingungen sind selbsterklärend, bei der Bedingung MaxInfo handelt es sich um eine Mischform der drei erstgenannten Bedingungen (vgl. a.a.O.: 45). Alle Teilnehmer sollten zwei Suchaufgaben Welche Gröÿe haben Euroscheine?, bei der unspezischen Aufgabe sollte die Frage Welche Folgen hat die Währungsunion? beantwortet werden (vgl. ebd.). Kaczmirek ging davon aus, dass unterschiedlicher Spezität bearbeiten. Die spezische Aufgabe lautete sich die Teilnehmer ihrer Entscheidung bei der spezischen Aufgabe sicherer seien würden, als bei der unspezischen Bedingung (vgl. a.a.O.: 45 f ). Eine Besonderheit der Untersuchung von Kaczmirek bestand in dem Verzicht auf eine Darstellung der durch die Links repräsentierten Webseiten (vgl. a.a.O.: 43). Die Testpersonen sollten also lediglich angeben, welche Links sie in einer realen Anwendungssituation ausgewählt hätten und anschlieÿend einschätzen, wie sicher sie sich bei dieser Entscheidung waren. Auch in diesem Fall kann also von einer pre-click condence gesprochen werden. Kaczmirek begründet dieses Vorgehen mit der Tatsache, dass die Ergebnisbeschreibungen und nicht das Ranking der Ergebnisse evaluiert werden sollten (vgl. ebd.). Kaczmirek testete die Haupt- und Wechselwirkungseekte der beiden unabhängigen Variablen auf mehrere abhängige Variablen, indem er für jede Variable eine zweifaktorielle Varianzanalyse berechnete (vgl. a.a.O.: 72 ). Die verwendeten abhängigen Variablen lassen sich in die drei Gruppen Eektivität, Ezienz und Zufriedenheit untergliedern (vgl. a.a.O.: 59). Die Eektivität wurde bei Kaczmirek durch die Eektivitätsmaÿe Recall und Precision bestimmt, die Ezienz durch Variablen wie Erfolgsrate und Entscheidungszeit der Testpersonen (vgl. ebd.). Dabei entsprach die Erfolgsrate dem Verhältnis von Benutzer-Recall und -Precision zu der Entscheidungszeit der Testpersonen (vgl. a.a.O.: 58). Die Zufriedenheit schlieÿlich wurde durch die eingeschätzte Entscheidungssicherheit, einen Fragebogen, sowie einen direkten Vergleich der vier Ergebnispräsentationsvarianten gemessen. Das Hauptergebnis der Studie besteht in der Präferenz der Testteilnehmer für die Beschreibungsvariante Textanfang, die den Ergebnissen zufolge gleichzeitig die Auswahlentscheidung von Suchmaschinennutzern am besten unterstützt (vgl. a.a.O.: 83). In Bezug auf den zweiten manipulierten Faktor in diesem Design hat sich die Vermutung von Kaczmirek bestätigt, [. . . ] dass spezische Suchaufgaben sicherere Entscheidungen erlauben als unspezische Aufgaben. (a.a.O.: 77) Weiterhin konnten keine signikanten Unterschiede in der Benutzerleistung, charakterisiert durch Recall und Precision, zwischen den verschiedenen Beschreibungsvarianten ermittelt werden (vgl. a.a.O.: 81). Da die Untersuchung ergab, dass die Präsentation des Textanfangs in der Treerliste 49 4. Stand der Forschung am besten abschnitt, wurde diese Form der Ergebnisbeschreibung auch für das in der vorliegenden Arbeit eingesetzte Anwendungsprogramm gewählt (vgl. Abschn. 5.2.2). 4.4. Zusammenfassung Das Ziel dieses Forschungsüberblicks bestand vor allem darin, die verschiedenen Untersuchungsdesigns einiger bestehender Studien kurz vorzustellen und miteinander zu vergleichen. Dazu wurden die einzelnen Studien zunächst entsprechend ihrer primären Forschungsziele in performanzorientierte, zufriedenheitsorientierte sowie weitere Aspekte der Anwendungssituation betreende Studien eingeteilt. Der Vergleich der unterschiedlichen empirischen Herangehensweisen stützt die in Kapitel 2 aufgestellte These, dass sich im Bereich der benutzerorientierten Evaluierungsforschung bislang noch keine Standard-Evaluierungsmethoden etabliert haben. So vielfältig wie die Fragestellungen, an welchen sich die Ziele dieses Forschungsbereichs orientieren, sind auch die Untersuchungsdesigns und Erhebungsmethoden. Dieser Vergleich hat aber auch gezeigt, dass der benutzerorientierte Bewertungsansatz eine umfassendere Beurteilung der Anwendungssituation ermöglicht, als dies bei systemorientierten Untersuchungen der Fall ist. Die wesentlichen Aspekte der drei ausführlich betrachteten Studien sind in Tabelle 4.1 zusammengefasst. 50 4.4. Zusammenfassung Autoren Methode Design Tabelle 4.1.: Vergleich benutzerorientierter Untersuchungsdesigns Turpin und Scholer (2006) Wizard-of-Oz-Experiment mit künstlich erzeugten Ergebnislisten Einfaktorielles Design: UV: Systemleistung (5-stug mit Messwiederholung) Systemleistung Benutzerleistung Benutzerzufriedenheit Aufgaben Bearbeitungszeit Teilnehmerzahl Ergebnis Autoren Methode Design Systemleistung AV: Benutzerleistung 5 Systemlevels (MAP): 0,55 ; 0,65 ; 0,75 ; 0,85 ; 0,95 Zeit bis zum ersten gefundenen relevanten Dokument und Anzahl gefundener relevanter Dokumente in fünf Minuten Nicht erfasst 50 Web-Suchaufgaben aus TREC Web Track Daten (10 pro Systemlevel): So viele relevante Dokumente wie möglich nden 5 Minuten pro Suchaufgabe 30 Keine Korrelation zwischen System- und Benutzerleistung Al-Maskari et al. (2006) iCLEF Experiment mit einem realen System Varianzanalytisches Design (Unklare Aufteilung in UV und AV): Erhobene Variablen: System- und Benutzerleistung, Zufriedenheit 5 Eektivitätsmaÿe (Werte über Suchaufgaben gemittelt): P@50: 0,465 ; P@100: 0,47 ; Q-measure: 0,345 ; bpref-10: 0,435 ; 10- Benutzerleistung Benutzerzufriedenheit Aufgaben Precision: 0,56 Recall und Precision Fragebogen 2 Bild-Suchaufgaben: Aufgabe 1: So viele Bilder wie möglich zu einem Thema nden Bearbeitungszeit Teilnehmerzahl Ergebnis Aufgabe 2: Fünf unterschiedliche Bilder zu einem Thema nden 20 Minuten pro Suchaufgabe 11 Korrelation zwischen Q-measure und Benutzer-Recall Keine Korrelation zwischen Systemleistung und Benutzerzufriedenheit Autoren Methode Design Kaczmirek (2003) Web-Experiment mit künstlich erzeugten Ergebnislisten Zweifaktorielles Design: UV 1: Ergebnisbeschreibung (4-stug ohne Messwiederholung) UV 2: Aufgabenspezität (2-stug mit Messwiederholung) AV 1: Eektivität AV 2: Ezienz Systemleistung Benutzerleistung Benutzerzufriedenheit Aufgaben Bearbeitungszeit Teilnehmerzahl Ergebnis AV 3: Zufriedenheit Keine Angabe Recall, Precision, Erfolgsrate, Entscheidungszeit Entscheidungssicherheit, Fragebogen, direkter Vergleich 2 Web-Suchaufgaben unterschiedlicher Spezität: Relevante Links auswählen und Entscheidungssicherheit angeben Kein Zeitlimit 191 Positiver Einuss der Ausprägung Textanfang des Faktors Ergebnisbeschreibung auf Benutzerzufriedenheit und Entscheidungssicherheit 51 4. Stand der Forschung 52 5. Aufbau und Ablauf der empirischen Untersuchung Ausgangspunkt dieser Magisterarbeit war die Feststellung, dass in der InformationRetrieval-Evaluierung gegenwärtig noch der systemorientierte gegenüber dem benutzerorientierten Bewertungsansatz bevorzugt wird (vgl. Abschn. 2.1.2). Dies zeigt sich auch in der Tatsche, dass sich in diesem Bereich noch keine allgemeine Evaluierungsmethodik etabliert hat. Vor dem Hintergrund, dass Information-Retrieval-Systeme von Menschen genutzt werden, sollten diese jedoch auch in den Evaluierungsprozess einbezogen werden, da nur sie letztlich beurteilen können, ob ihr Informationsbedürfnis erfüllt wurde oder nicht. Im theoretischen Teil der vorliegenden Arbeit wurde gezeigt, dass eine solche Beteiligung andere Anforderungen an die Evaluierungsmethodik stellt als eine rein systemorientierte Bewertung (vgl. Abschn. 2.4). Auf psychologischer Ebene wurde dargelegt, dass die individuelle Wahrnehmung eines Beurteilungsgegenstands von einer Vielzahl veränderlicher Faktoren abhängig ist. Hinsichtlich der Zufriedenheit der Benutzer wurde ein theoretisches Rahmenmodell aus dem Bereich der Kundenzufriedenheitsforschung eingeführt. Im Rahmen dieses sogenannten C/D-Paradigmas wird die Entstehung von Zu- oder Unzufriedenheit auf die Bestätigung oder Nicht-Bestätigung von Erwartungen zurückführt (vgl. Abschn. 3.1.1). Darauf aufbauend wurde als empirischer Teil der vorliegenden Arbeit ein experimentelles Untersuchungsdesign zur Beantwortung der in der Einleitung dargestellten forschungsleitenden Fragen entwickelt und erprobt. Das folgende Kapitel beschreibt Aufbau und Ablauf dieser empirischen Untersuchung. Zunächst wird in Abschnitt 5.1 das gewählte Forschungsdesign beschrieben und begründet. Davon ausgehend hat Abschnitt 5.2 den organisatorischen Ablauf sowie die technischen Voraussetzungen zum Inhalt. Er enthält jeweils eine kurze Beschreibung der Testkollektion, des Anwendungsprogramms, der Ergebnislisten sowie der verwendeten Erhebungsverfahren. Der letzte Abschnitt dieses Kapitels, Abschnitt 5.3, befasst sich mit den Ergebnissen der qualitativen Voruntersuchung. 53 5. Aufbau und Ablauf der empirischen Untersuchung 5.1. Auswahl des Untersuchungsdesigns Im Zuge der Planung und Vorbereitung der Untersuchung stellte sich zunächst die Frage, welche Variablen aktiv manipuliert werden sollten. Die unabhängigen Variablen der vorhandenen Untersuchung wurden ausgehend von den folgenden inhaltlichen Forschungsfragen festgelegt (vgl. Kap. 1): 1. Welchen Einuss hat im Information Retrieval die Erwartungshaltung der Benutzer auf Benutzerzufriedenheit und Benutzerleistung? 2. Welchen Einuss hat die Systemgüte eines Information-Retrieval-Systems auf Benutzerzufriedenheit und Benutzerleistung? 3. Welchen Einuss hat im Information Retrieval die Rechercheerfahrung der Benutzer auf Benutzerzufriedenheit und Benutzerleistung? In Bezug auf diese Forschungsfragen erschien es sinnvoll, davon auszugehen, dass in einer realistischen Anwendungssituation von Information-Retrieval-Systemen mehrere Faktoren gleichzeitig wirken. In einem solchen Fall wird die Wahl eines mehrfaktoriellen Untersuchungsdesigns empfohlen (vgl. Bortz/Döring 1995: 495). Wie bei der von Kaczmirek durchgeführten Untersuchung wurde auch hier ein zweifaktorielles Design, allerdings ohne Messwiederholung, zugrunde gelegt (vgl. Abschn. 4.3). Der erste Faktor (Faktor (A1 = A) entspricht dabei der Erwartungshaltung der Benutzer, die in zwei Stufen niedrig u. A2 = hoch) manipuliert wird. Den zweiten Faktor (Faktor die Güte des Systems, auch hier wird zwischen zwei Systemlevels (B1 B) bildet = niedrig u. B2 = hoch) variiert. Daraus ergibt sich das in Abbildung 5.1 dargestellte Untersuchungsschema mit insgesamt 2×2 = 4 Faktorstufenkombinationen. Es wurde davon ausgegangen, Tabelle 5.1.: Untersuchungsschema A1 A2 dass für jede Einzelstichprobe 1 B1 B2 S1,1 S1,2 S2,1 S2,2 der vier Faktorstufenkombinationen S1,1 bis S2,2 mindes- tens 20 Testpersonen benötigt werden, um eine signikante Aussage treen zu können. 1 Der Begri der Stichprobe bezeichnet die untersuchte Teilmenge einer Grundgesamtheit (vgl. Zimbardo/Gerrig 1999: 798). Die statistische Gesamtheit oder Grundgesamtheit bezieht sich auf die Menge aller Menschen, [. . . ] auf die sich der Geltungsbereich einer Untersuchung oder einer wissenschaftlichen Aussage bezieht. (a.a.O.: 787) Wie im weiteren Verlauf dieses Kapitels noch erläutert werden wird, entspricht die Grundgesamtheit im Kontext der vorliegenden Untersuchung der Menge der Frauen im Alter zwischen 54 18 und 30 Jahren (vgl. Abschn. 5.1.2). 5.1. Auswahl des Untersuchungsdesigns Daraus folgte, dass eine Gesamtstichprobe von mindestens 80 Untersuchungsteilnehmern erforderlich war. 5.1.1. Formulierung der Untersuchungshypothesen In Übereinstimmung mit den eingangs genannten Forschungsfragen und den in den Kapiteln 2 bis 4 dargelegten Theorien werden die Forschungshypothesen dieser empirischen 2 Untersuchung als folgende unspezische Unterschiedshypothesen • formuliert: Die Zufriedenheit der Benutzer wird durch ihre Erwartungshaltung und die Systemgüte gemäÿ den Aussagen des C/D-Paradigmas beeinusst. • Die Leistung der Benutzer wird durch die Erwartungshaltung beeinusst. • Die Leistung der Benutzer wird durch die Systemgüte positiv beeinusst. In der empirischen Forschung folgt dieser allgemein formulierten Forschungshypothese meist eine sogenannte operationale Hypothese : Mit der operationalen Hypothese pro- gnostiziert der Forscher den Ausgang einer konkreten Untersuchung nach den Vorgaben der allgemeinen Forschungshypothese. (Bortz/Döring 1995: 461) Die operationale Hypothese stellt also den direkten Bezug zu dem gewählten Forschungsdesign und den darin realisierten unabhängigen und abhängigen Variablen her (vgl. ebd.). Den drei möglichen Ausgängen des dem C/D-Paradigma zugrundeliegenden Erwartungs-Wahrnehmungs-Vergleichs lassen sich in Bezug auf die Benutzerzufriedenheit die vier Faktorstufenkombinationen folgendermaÿen zuordnen: Die erste Stichprobe S1,1 ist durch eine niedrige Erwartungshaltung und eine nied- rige Systemleistung gekennzeichnet. Da in diesem Fall Soll- und Ist-Leistung übereinstimmen, ist zu erwarten, dass bei diesen Testpersonen als Konsequenz des Soll-IstVergleichs Zufriedenheit ausgelöst wird. Gleiches gilt für die Stichprobe S2,2 . Auch bei hoher Erwartungshaltung und hoher Systemleistung ist anzunehmen, dass die Untersuchungsteilnehmer in dieser Gruppe ihre Erwartungen an die Leistung des InformationRetrieval-Systems erfüllt sehen, so dass bei ihnen Zufriedenheit entsteht. Diese beiden Untersuchungsbedingungen sollten sich also auf eine ähnliche Weise auf die Zufriedenheitsurteile der Teilnehmer auswirken. Bei der dritten Gruppe S1,2 hingegen wird im Sinne des C/D-Paradigmas keine bloÿe Bestätigung der Erwartungshaltung, sondern 2 In einer Unterschiedshyphothese wird ein Unterschied zwischen zwei oder mehreren Stichproben in Bezug auf eine oder mehrere abhängige Variablen postuliert (vgl. Bortz/Döring 1995: 461). In einer unspezischen Hypothese wird keine Aussage über die Gröÿe des Unterschiedes getroen (vgl. a.a.O.: 51). 55 5. Aufbau und Ablauf der empirischen Untersuchung ein Übertreen der Erwartungen vermutet. Die daraus resultierende positive Diskonrmation sollte zu einem noch ausgeprägteren Zufriedenheitseekt führen. Im Gegensatz dazu ist bei der Stichprobe S2,1 eine negative Diskonrmation, also eine Enttäuschung der Erwartungen, und somit ein negatives Zufriedenheitsurteil anzunehmen. Bezüglich der zweiten abhängigen Variablen, der Benutzerleistung, könnte man erwarten, dass diejenigen Testpersonen mit der höheren Systemleistung (S1,2 u. S2,2 ) ei- ne bessere Leistung erbringen, weil unter diesen Versuchsbedingungen mehr relevante Dokumente angezeigt werden. Zusätzlich wird ein möglicher Einuss der Erwartungshaltung auf die Benutzerleistung sowie ein Interaktionseekt mit der Systemgüte im Sinne einer explorativen Fragestellung durch das gewählte Testdesign überprüft. Damit ist gemeint, dass die entsprechende Hypothese ungerichtet, also ohne Festlegung auf einen positiven oder negativen Zusammenhang, formuliert ist (vgl. Bortz/Döring 1995: 462). Aus den vorherigen Betrachtungen lassen sich die folgenden operationalen Hypothesen formulieren: • Es besteht ein Einuss der Erwartungshaltung auf die Benutzerzufriedenheit. • Es besteht ein positiver Zusammenhang zwischen der Systemgüte und der Benutzerzufriedenheit. • Es besteht ein Interaktionseekt zwischen der Erwartungshaltung und der Systemgüte in Bezug auf die Benutzerzufriedenheit, der im Einklang mit dem C/DParadigma steht. • Es besteht ein Einuss der Erwartungshaltung auf die Benutzerleistung. • Es besteht ein positiver Zusammenhang zwischen der Systemgüte und der Benutzerleistung. • Es besteht ein Interaktionseekt zwischen der Erwartungshaltung und der Systemgüte in Bezug auf die Benutzerleistung. Nachdem ein Forschungsvorhaben auf operationaler Ebene deniert ist, müssen die statistischen Hypothesen formuliert werden (vgl. Bortz/Döring 1995: 461). Diese Testhypothesen werden als Null- und Alternativhypothese bezeichnet und sind so zu wäh- len, dass sie einander gegenseitig ausschlieÿen (vgl. ebd.). Die zu überprüfende statistische Vorhersage entspricht dabei der Alternativhypothese (H1 ) und besagt, dass ein 56 5.1. Auswahl des Untersuchungsdesigns gemessener Unterschied zwischen zwei oder mehreren Stichproben nicht zufällig zustande gekommen ist (vgl. Zöfel 2003: 90). Die Nullhypothese (H0 ) behauptet das genaue Gegenteil, dass also der gemessene Unterschied zufällig ist (vgl. ebd.). Die Überprüfung dieser Hypothesen erfolgt dann durch einen sogenannten Signikanztest, mit dem sich die Wahrscheinlichkeit einer Übereinstimmung der erhobenen Daten mit der Nullhypothese bestimmen lässt (vgl. Bortz/Döring 1995: 463). Diese Wahrscheinlichkeit wird auch als Irrtumswahrscheinlichkeit (p) oder α-Fehler bezeichnet, da sie angibt, wie wahrscheinlich es ist, die Nullhypothese fälschlicherweise zu verwerfen (vgl. a.a.O.: 467). Ist der Wert des α-Fehlers p < 0, 05, spricht man von einem signikanten Ergebnis und verwirft die Nullhypothese zugunsten der Alternativhypothese (vgl. ebd.). Ist der Wert der Irrtumswahrscheinlichkeit einem Wert p < 0, 001 p < 0, 01, spricht man von einem sehr signikanten, bei von einem höchst signikanten Ergebnis (vgl. Zöfel 2003: 92). In der vorliegenden empirischen Untersuchung geschieht die Hypothesenprüfung mit Hilfe einer zweifaktoriellen Varianzanalyse. In einem zweifaktoriellen Untersuchungsdesign können die folgenden drei Fragestellungen geprüft werden (vgl. Bortz/Döring 1995: 496): 1. Gibt es einen Haupteekt von Faktor A? 2. Gibt es einen Haupteekt von Faktor B? 3. Gibt es einen Interaktionseekt zwischen diesen beiden Faktoren? Bei der ersten Frage geht es um die Überprüfung, ob sich die durchschnittliche Zufriedenheit oder Leistung von Benutzern mit niedriger Erwartungshaltung von denen mit hoher Erwartungshaltung unterscheidet. Demzufolge möchte man bei der zweiten Frage herausnden, ob die Durchschnittswerte der abhängigen Variablen bei niedrigem Systemlevel von denen bei hohem Systemlevel abweichen. Die letzte Frage befasst sich mit möglichen Wechselwirkungseekten zwischen den beiden unabhängigen Variablen. Folglich soll mit dieser Fragestellung untersucht werden, ob die Wirkung der Erwartungshaltung durch die präsentierte Systemleistung bedingt wird oder umgekehrt. Den vorangegangenen Ausführungen entsprechend lauten die statistischen Hypothesen für die möglichen Haupteekte (vgl. Rudolf/Müller 2004: 88): • H0 : Es existiert kein Haupteekt von Faktor • H1 : Es existiert ein Haupteekt von Faktor A A beziehungsweise beziehungsweise B. B. Für einen möglichen Interaktionseekt ergeben sich die Hypothesen (vgl. ebd.): 57 5. Aufbau und Ablauf der empirischen Untersuchung • H0 : Es existiert kein Interaktionseekt zwischen den Faktoren • H1 : Es existiert ein Interaktionseekt zwischen den Faktoren A A und und B. B. Die in einer empirischen Untersuchung gewonnen Daten unterliegen neben den direkt manipulierten unabhängigen Variablen auch möglichen weiteren Einussgröÿen. Der Versuch, solche Eekte im Rahmen des vorliegenden Untersuchungsdesigns zu kontrollieren, wird im nächsten Abschnitt behandelt. 5.1.2. Kontrolle von Störvariablen Das Überprüfen von Forschungshypothesen mit Hilfe einer empirischen Untersuchung setzt ihre interne Validität voraus (vgl. Bortz/Döring 1995: 471 f ). Dies bedeutet, dass sich die beobachteten Ergebnisse eindeutig auf den Einuss der manipulierten unabhängigen Variablen zurückführen lassen müssen (vgl. ebd.). Aus diesem Grund dürfen bei der Planung des Testdesigns zusätzlich wirksame Einüsse auf den Untersuchungsgegenstand nicht vernachlässigt werden (vgl. ebd.). Dazu gehören insbesondere individuelle Unterschiede zwischen den Versuchsteilnehmern wie die in der dritten Forschungsfrage angesprochene Rechercheerfahrung. Allgemein werden derartige Unterschiede als variablen Stör- bezeichnet (vgl. ebd.). Neben der Rechercheerfahrung wurden für die vorlie- gende Untersuchung das Geschlecht und das Alter der Probanden sowie unterschiedliche Testumgebungen und die dargebotene Aufgabenreihenfolge als mögliche Störvariablen identiziert. Im Folgenden wird dargelegt, welcher Techniken sich zur Kontrolle dieser Einüsse bedient wurde. Als erstes soll auf die Rechercheerfahrung der Versuchspersonen eingegangen werden, worunter die Vorerfahrung der Teilnehmer im Umgang mit Suchsystemen zu verstehen ist. Sie könnte die Erwartungshaltung der Teilnehmer und somit ihr Zufriedenheitsurteil zusätzlich beeinussen (vgl. Abschn. 3.1.1) und soll daher durch die Einbeziehung einer Kovariate in das zweifakttorielle Design kontrolliert werden. Damit wird versucht, den Einuss der personengebundenen Störvariablen Rechercheerfahrung aus den abhängigen Variablen zu eliminieren (vgl. Bortz/Döring 1995: 509). Dieses statistische Verfahren Kovarianzanalyse (vgl. Abschn. 6.3.4) bezeichnet, wobei die Störvariable auch Kontrollvariable genannt wird (vgl. Bortz/Döring 1995: 509). Im Ergebnis ermöglicht wird als also die kovarianzanalytische Auswertung der Untersuchung, dass die Eekte der Erwartungshaltung sowie der Systemgüte unabhängig von der bisherigen Rechercheerfahrung der Testpersonen analysiert werden können. 58 5.2. Ablauf der Hauptuntersuchung Da weiterhin nicht auszuschlieÿen ist, dass das Geschlecht der Probanden einen Einuss auf die Untersuchungsergebnisse hat, soll auch diese potentielle Störvariable berücksichtigt werden. In diesem Fall kommt eine Kontrolltechnik, die bei Bortz und Döring als Konstanthalten bezeichnet wird, zur Anwendung: Personengebundene Störvariablen beeinussen die Unterschiedlichkeit von Vergleichsgruppen nicht, wenn sie konstant gehalten werden. (a.a.O.: 491) In Bezug auf die vorliegende Untersuchung wurde deshalb entschieden, die Stichprobe auf weibliche Testpersonen zu beschränken. Darüber hinaus wurde versucht, die Altersverteilung der Teilnehmerinnen konstant zu halten. Das Alter der Testpersonen sollte zwischen 18 und 30 Jahren liegen. Eine dritte Technik zur Kontrolle von Störvariablen ist die sogenannte rung Parallelisie- der Stichproben: Der Einuÿ von Störvariablen wird irrelevant, wenn die Störva- riablen in allen Vergleichsgruppen gleichermaÿen wirksam sind. (ebd.) Aufgrund der hohen Teilnehmerzahl war es nicht möglich, alle Tests am gleichen Ort durchzuführen. Für den Fall, dass die Art des Untersuchungsraums die Ergebnisse der Untersuchung beeinusst, wurden die unterschiedlichen Standorte gleichmäÿig auf die vier Untersuchungsbedingungen verteilt. Diese Technik wurde auch angewandt, um etwaige Lernoder Reihenfolgeeekte bei der Bearbeitung der Testaufgaben zu kontrollieren. Deshalb wurde die Reihenfolge der insgesamt drei Aufgaben innerhalb der vier Untersuchungsgruppen variiert. 5.2. Ablauf der Hauptuntersuchung Nachdem im vorherigen Abschnitt das designtheoretische Gerüst der empirischen Untersuchung genauer erläutert wurde, soll in diesem Abschnitt auf das konkrete Vorgehen in der vorliegenden Untersuchung sowie einzelne Aspekte der praktischen Umsetzung ausführlicher eingegangen werden. Dabei ist anzumerken, dass sich dieser Abschnitt auf die Vorgehensweise der Hauptuntersuchung bezieht, wie sie nach der qualitativen Voruntersuchung (vgl. Abschn. 5.3) festgelegt wurde. Zu Beginn wurden die Untersuchungsteilnehmerinnen nach dem Zufallsprinzip auf eine der vier Untersuchungsbedingungen 3 te Verzerrungen S1,1 bis S2,2 verteilt. Um versuchsleiterbeding- der Untersuchungsergebnisse durch unterschiedliche Informationen zu vermeiden, erfolgte die Einführung und Instruktion der Testpersonen in schriftlicher Form. Nach der Begrüÿung erhielten die Probandinnen je nach Bedingung entweder den 3 Solche Verzerrungen werden auch als Versuchsleitereekt bezeichnet (vgl. Zimbardo/Gerrig 1999: 21). Sie entstehen aufgrund der persönlichen Erwartungen eines Versuchsleiters in Bezug auf den Ausgang eines Experiments. 59 5. Aufbau und Ablauf der empirischen Untersuchung Informationstext für die hohe oder die niedrige Erwartungshaltung. Diese kurze Einführung diente dazu, alle Teilnehmerinnen mit dem Thema der Untersuchung vertraut zu machen. Weiterhin erhielten sie die Information, dass die Universität Hildesheim plane, eine neue Suchmaschine für Artikel aus Fachzeitschriften in der Bibliothek einzusetzen und dass diese im Rahmen eines Benutzertests erprobt werden solle. Die Manipulation der Erwartungshaltung wurde folgendermaÿen realisiert: Die Teilnehmerinnen, bei denen die niedrige Erwartungshaltung (A1 ) erzeugt werden sollte, bekamen mitgeteilt, dass es sich bei der Suchmaschine mit dem Namen Periodikum 4 um ein Studentenprojekt einer anderen Hochschule handele, das nun im Rahmen eines Projektseminars an der Universität Hildesheim weiterentwickelt würde (vgl. Anh. A.1). Dieser Hinweis erschien notwendig, um bei den Versuchspersonen nicht den Eindruck zu erwecken, die Verfasserin dieser Arbeit sei an der Entwicklung der Suchmaschine beteiligt gewesen. Damit sollte vermieden werden, dass sich die Probandinnen eventuell zu einer möglichst positiven Bewertung gedrängt fühlten. Ziel der soeben beschriebenen Untersuchungsbedingung war es also, die Erwartungshaltung aufzubauen, es handele sich bei dem zu beurteilenden System um einen noch in der Entwicklung bendlichen Prototypen. Zur Erzeugung der hohen Erwartungshaltung (A2 ) wurde den Teilnehmerinnen die Suchmaschine hingegen als professionelles Produkt einer IT-Firma vorgestellt, dessen Kaufpreis 20.000 e betrage (vgl. Anh. A.2). Dadurch sollte sich bei den Probandinnen die Erwartungshaltung einstellen, dass sie mit einer ausgereiften und hochwertigen Suchmaschine arbeiten würden. Im Gegensatz zu dem Szenario mit niedriger Erwartungshaltung lagen in diesem Fall die Informations- und Instruktionstexte auf Hochglanzpapier vor. Auch diese Maÿnahme diente dazu, das Entstehen einer hohen Erwartungshaltung zu fördern. Nachdem die Untersuchungsteilnehmerinnen den jeweiligen Informationstext durchgelesen hatten, erhielten sie einen allgemeinen Instruktionstext. Darin wurden die Probandinnen aufgefordert, sich vorzustellen, sie seien Journalistinnen und recherchierten mit der Suchmaschine Periodikum nach bereits veröentlichten Presseartikeln, die das Thema ihres nächsten Beitrags beträfen. Dieses Szenario sollte von der Künstlichkeit der Testsituation ablenken und gleichzeitig den praktischen Zugang zum Thema erleichtern. Weiterhin enthielt dieser Instruktionstext allgemeine Hinweise zur Bedienung der Eingabemaske. Der genaue Wortlaut kann Anhang A.3 entnommen werden. Alle Teilnehmerinnen sollten nacheinander drei Rechercheaufgaben bearbeiten, de- 4 Dieser Name wurde gewählt, weil Periodikum die fachsprachliche Bezeichung für regelmäÿig erscheinende Publikationen wie zum Beispiel Fachzeitschriften ist (vgl. Duden 2007: 782). 60 5.2. Ablauf der Hauptuntersuchung ren Reihenfolge variiert wurde, um zwangsläug auftretende Lerneekte zwischen den einzelnen Aufgaben zu kontrollieren (vgl. Abschn. 5.1.2). Wie in der von Kaczmirek durchgeführten Studie wurden den Testpersonen auch in dieser Untersuchung die Suchbegrie vorgegeben (vgl. Kaczmirek 2003: 43 f ). Diese Einschränkung war erforderlich, da die Testpersonen wie in einigen der in Abschnitt 4.1 beschriebenen Studien nicht mit einem realen System, sondern lediglich mit einem für den Benutzertest entwickelten Anwendungssystem interagierten (vgl. Abschn. 5.2.2). Aufgrund der Tatsache, dass das Suchverhalten der Teilnehmerinnen nicht primärer Untersuchungsgegenstand der vorliegenden Arbeit ist, sondern die wahrgenommene Qualität der Ergebnislisten, sollte eine freie Wahl der Suchbegrie jedoch auch nicht notwendig sein. Für das Anwendungssystem wurden im Vorfeld der Untersuchung sechs unterschiedliche Ergebnislisten künstlich erzeugt, je eine Liste für den hohen und eine für den niedrigen Systemlevel jeder Aufgabe (vgl. Abschn. 5.2.3). Um Irritationen bezüglich dieser Einschränkung zu vermeiden, wurde im Einführungstext darauf hingewiesen, dass diese Maÿnahme dazu diene, allen Testteilnehmerinnen die gleichen Anfangsvoraussetzungen zu ermöglichen. Hatten die Versuchspersonen die Suchbegrie in das Suchfeld der Eingabemaske eingegeben, erhielten sie je nach Untersuchungsbedingung eine der beiden zu diesem Informationsbedürfnis vorgefertigten Treerlisten. Erschien ihnen eines der Ergebnisse aufgrund der Kurzbeschreibung relevant zu sein, sollten die Testpersonen diesen Presseartikel im Volltext-Fenster önen und anschlieÿend als relevant beziehungsweise nichtrelevant kennzeichnen. Pro Suchaufgabe standen den Probandinnen zehn Minuten Zeit zur Verfügung. Falls sie schon früher der Meinung waren, sich einen ausreichenden Überblick über das betreende Thema verschat zu haben, stand es ihnen frei, schon vorher mit der nächsten Aufgabe zu beginnen. Auch dieser Aspekt sollte der Künstlichkeit der Testsituation durch die Schaung realistischerer Rahmenbedingungen entgegenwirken. Auÿerdem sollte auf diese Art und Weise die Entstehung von Zeitdruck vermieden werden. Am Ende der Untersuchung wurden die Testpersonen gebeten, einen Fragebogen zur Bewertung der Suchmaschine auszufüllen. Einige wesentliche Überlegungen zur Konstruktion dieses Fragebogens werden in Abschnitt 5.2.4 besprochen. Als kleinen Anreiz und Belohnung für die geopferte Zeit hatten alle Teilnehmerinnen die Möglichkeit, am Ende der Untersuchung an einer Verlosung teilzunehmen. Dazu stellte die Universität Hildesheim drei Geldpreise im Wert von 50 e, 30 e und 20 e zur Verfügung. 61 5. Aufbau und Ablauf der empirischen Untersuchung 5.2.1. Beschreibung der Suchaufgaben Die in der Untersuchung verwendeten Suchaufgaben entstammen der CLEF-2001- und der CLEF-2003-Testkollektion. Die beiden Kollektionen umfassen ne Topics sowie circa 750.000 und 1.500.000 50 und 60 verschiede- Millionen nach Relevanz bewertete Presse- artikel (Braschler 2002: 13; Braschler 2004: 49). Wie bereits im vorangegangenen Abschnitt erläutert, umfasste der Benutzertest drei Testanfragen, die die Informationsbedürfnisse der Testpersonen repräsentierten sollten. Um für alle Versuchspersonen vergleichbare Anfangsvoraussetzungen zu schaen, wurde versucht, allgemein bekannte Themen für die Suchaufgaben auszuwählen. Die Testanfragen umfassen die Themenbereiche Atomtransporte in Deutschland Erneuerbare Energien, Kinderarbeit in Asien und und werden im Folgenden verkürzt als Energie-, Asien- sowie Atomaufgabe bezeichnet. Dabei gehört die Energieaufgabe der Topicsammlung von CLEF 2001, die beiden anderen Aufgaben der von 2003 an. Die deutschsprachigen Dokumente, zu denen für die drei Topics Relevanzbewertun- SchweizeFrankfurter Rundschau gen vorlagen, entstammen der nationalen Nachrichtenagentur der Schweiz rische Depeschenagentur (SDA), der deutschen Tageszeitung (FR) und der deutschen Wochenzeitschrift Der Spiegel aus den Jahren 1994 und 1995. Die Kurzbeschreibungen der einzelnen Informationsbedürfnisse sind in Tabelle 5.2 dargestellt. Sie erläutern das Thema der Suche näher und grenzen es gleichzeitig ein. Diese Zusammenfassungen wurden auch für die Instruktionstexte zu den einzelnen Rechercheaufgaben verwendet. Die genauen Aufgabenbeschreibungen benden sich in Anhang A.4. Tabelle 5.2.: Topicauswahl für den Benutzertest Topic-Nr. Topic Kurzbeschreibung C086 Erneuerbare Energien Suche Dokumente, die die Nutzung von umweltfreundlicher Energie oder eine darauf ausgerichtete Politik betreen, d.h. von Energie, die aus erneuerbaren Energiequellen erzeugt wurde. C187 Atomtransporte in Deutschland Finde Berichte über Proteste gegen den Transport von radioaktivem Müll in CastorBehältern in Deutschland. C190 Kinderarbeit in Asien Finde Dokumente, die Kinderarbeit in Asien diskutieren und Vorschläge zu deren Beseitigung oder zur Verbesserung der Arbeitsbedingungen für Kinder liefern. Abbildung 5.1 zeigt am Beispiel der ersten Suchaufgabe Aufbau und Struktur eines 62 5.2. Ablauf der Hauptuntersuchung <top > <num > C187 </ num > <DE - title > Atomtransporte in Deutschland </ DE - title > <DE - desc > Finde Berichte über Proteste gegen den Transport von radioaktivem Müll in Castor - Behältern in Deutschland . </DE - desc > <DE - narr > Relevante Dokumente berichten über Lieferungen radioaktiven Mülls mit Castor - Containern nach Gorleben in Niedersachsen und Protestaktionen dagegen . Jedes Dokument , das über Proteste gegen solche Transporte berichtet , ist relevant , auch wenn es den Ort oder den verwendeten Containertyp nicht speziell erwähnt . </DE - narr > </ top > Abbildung 5.1: Beispiel-Topic CLEF-Topics. Ein solches Topic (top) setzt sich aus vier Komponenten zusammen: Der Identikationsnummer (num), dem Titel (title), einer Kurzbeschreibung (desc) sowie einer ausführlichen Beschreibung (narr). Letztere enthält häug zusätzliche Angaben darüber, welche Dokumente für das entsprechende Topic als relevant beziehungsweise irrelevant zu werten sind und ist daher in erster Linie als Orientierungshilfe für die Juroren gedacht. Um die Instruktionstexte möglichst kurz zu halten und die Relevanzbewertungen der Testteilnehmerinnen nicht zu beeinussen, wurde bei ihrer Erstellung auf diese Angaben verzichtet. Tags genannt. markup language ) wie Die in die spitzen Klammern eingeschlossenen Bezeichnungen werden Tags sind Befehle innerhalb einer Auszeichnungssprache (engl.: zum Beispiel der Extensible Markup Language (XML) (vgl. Duden 2003: 286). Sie legen die Bedeutung einer Texteinheit fest und dienen gleichzeitig der logischen Strukturierung von Dokumenten (vgl. ebd.). 5.2.2. Beschreibung des Anwendungsprogramms Für den Benutzertest wurde ein in der Programmiersprache Java geschriebenes Anwendungsprogramm verwendet, durch das der Suchprozess eines realen InformationRetrieval-Systems simuliert wird. Dadurch sollte den Untersuchungsteilnehmerinnen eine möglichst realitätsnahe Anwendungssituation geboten werden, die es ihnen erleichtert, sich in das vorgegebene Szenario hineinzuversetzen. Im Folgenden wird vor allem auf Gestaltungsaspekte der Benutzeroberäche sowie deren Bedienung eingegangen. Gestaltung und Funktionalität der graphischen Benutzeroberäche orientieren sich an den derzeit bekannten Internet-Suchmaschinen. Der hierdurch intendierte Wiedererkennungseekt sowie eine einfache Benutzerführung sollten eine weitestgehend intuitive 63 5. Aufbau und Ablauf der empirischen Untersuchung Abbildung 5.1.: Die Benutzeroberäche des Anwendungsprogramms Bedienung des Anwendungssystems bewirken. Dies musste gewährleistet sein, damit eventuelle Schwierigkeiten bei der Bedienung des Systems nicht zu einer ungewollten Störvariable werden, die in der Folge die Ergebnisse der Untersuchung verfälscht hätte. Die Abbildungen 5.1 und 5.2 zeigen Screenshots der graphischen Benutzeroberäche des Anwendungsprogramms. Das Menü (1) des Anwendungsprogramms ist ausschlieÿlich für den Versuchsleiter bestimmt und deshalb bewusst unscheinbar gehalten. Über den Menüpunkt Login (2) vergibt man für die jeweilige Testperson eine Test-ID (3), die am Ende des Benutzertests gemeinsam mit den weiteren Benutzereingaben in einer Logdatei erfasst wird (vgl. Abschn. 5.2.4). Um ein versehentliches Schlieÿen des Anwendungsprogramms durch die Testpersonen zu verhindern, wurde eine Sperre des Schlieÿ-Buttons (4) eingebaut. Diese kann nur aufgehoben werden, indem der Menüpunkt Schlieÿen (5) aktiviert wird. Die Sicherung der Testdaten erfolgt über den Menüpunkt Speichern (6). Wie bereits in Abschnitt 5.2 angedeutet, handelt es sich nicht um ein autonomes Suchsystem, denn in Wirklichkeit stehen alle Ergebnislisten des Systems im Vorhinein fest. Das Anwendungsprogramm liegt in vierfacher Ausführung vor, je eine Version pro Faktorstufenkombination. Äuÿerlich unterscheiden sich diese nur durch das Copyright (7), durch das angezeigt wird, welche Erwartungshaltung im aktuellen Fall manipuliert 64 5.2. Ablauf der Hauptuntersuchung Abbildung 5.2.: Die Benutzeroberäche des Anwendungsprogramms wurde. Darüber hinaus unterscheiden sie sich jedoch auch in der Qualität der angezeigten Ergebnislisten. Die beiden Programme für die Untersuchungsbedingungen mit der besseren Systemleistung (S1,2 u. den (S1,1 u. S2,2 ) enthalten Treerlisten mit hoher, die anderen bei- S2,1 ) mit niedriger Average Precision (vgl. Abschn. 5.2.3). Die vier Versionen des Programms sowie der Quellcode liegen dieser Arbeit auf CD bei. Nachdem die Teilnehmerinnen die vorgegebenen Suchbegrie in das Suchfeld (7) ein- Suche (8) geklickt haben, wird die dem Informationsbedürfnis entErgebnisliste (9) angezeigt. Dabei verhält sich das Anwendungsprogramm gegeben und auf sprechende tolerant gegenüber der Reihenfolge der vorgegebenen Suchbegrie. Um Rechtschreibfehler abzufangen, werden auch Eingaben akzeptiert, die bis zu einer Levenshtein-Distanz von sieben mit den vorgegebenen Suchbegrien übereinstimmen. Dabei beschreibt die Levenshtein-Distanz zweier Wörter die minimale Anzahl der Löschungen, Einfügungen und Ersetzungen einzelner Buchstaben, die vorgenommen werden müssen, um die eine Buchstabenfolge in die andere zu überführen (vgl. Navarro 2001: 37). Stimmt in diesem Toleranzbereich keine der Suchanfragen mit der Eingabe überein, wird die Fehlermeldung, dass eine ungültige Suchanfrage verwendet wurde, ausgegeben. Die Fehlermeldung, dass kein Suchbegri eingegeben wurde, erscheint, falls der Suchbutton mit leerem Eingabefeld betätigt wird. Diese Maÿnahmen dienen dazu, die Illusion eines 65 5. Aufbau und Ablauf der empirischen Untersuchung realen Suchsystems auch bei Fehlbedienungen aufrecht zu erhalten. In der Ergebnisliste wird für jeden Treer (10) neben dem Titel auch der erste Satz des entsprechenden Presseartikels sowie die Quelle präsentiert. Die Entscheidung den Textanfang als Kurzbeschreibung (engl.: snippet ) für die Dokumente zu wählen beruht auf den guten Ergebnissen der Testbenutzer bei dieser Form der Ergebnispräsentation, die in der in Abschnitt 4.3 vorgestellten Studie von Kaczmirek beobachtet wurden. Anklicken der Treer (11) lassen sich die vollständigen Presseartikel in einem neuen Fenster (12) önen. Bevor die Teilnehmerinnen dieses Volltext-Fenster schlossen (13), sollten sie den entsprechenden Artikel bewerten (14). Wie bei den derzeit bekannten Durch Suchmaschinen, sind die Treerlisten auch hier über mehrere Seiten verteilt. Pro Seite werden zehn Treer angezeigt. Damit die Testpersonen nicht gleich erkennen konnten, wieviele Treer pro Suchanfrage angezeigt werden, wurde bei der Seitenauswahl (15) nicht von Anfang an angegeben, wieviele Seiten die Treerliste beinhaltete. 5.2.3. Erstellung der Ergebnislisten In diesem Abschnitt wird das Vorgehen zur Erstellung der Ergebnislisten beziehungsweise zur Manipulation der Systemleistung erläutert. Wie in Abschnitt 5.2.1 beschrieben, handelt es sich bei den verwendeten Dokumenten um Presseartikel aus verschiedenen Nachrichtenquellen. Dabei ähneln sich die Dokumente und Topics von CLEF in Struktur und Aufbau sehr, so dass an dieser Stelle auf die Darstellung eines Beispieldokuments verzichtet wird. Tabelle 5.3.: Aufteilung der verfügbaren Dokumente auf die beiden Systemlevels Atomtransporte Erneuerbare Kinderarbeit Aufteilung in Deutschland Energien in Asien Verfügbare relevant 57 60 50 Dokumente irrelevant 48 50 42 Gesamt 105 110 92 Systemlevel relevant 50% 48 50 42 niedrig (B1 ) irrelevant 50% 48 50 42 AP= 0, 55 Gesamt 96 100 84 Systemlevel relevant 60% 57 60 50 hoch (B2 ) irrelevant 40% 39 40 34 AP= 0, 75 Gesamt 96 100 84 Als Grundlage dienten die Dokumente der CLEF-2001- und der CLEF-2003-Testkollektion (vgl. Abschn. 5.2.1). Zur Realisierung der beiden Systemlevels wurden zum einen die Precision-Werte und zum anderen die Average Precision der Ergebnislisten variiert. 66 5.2. Ablauf der Hauptuntersuchung Eingabe : L Länge der Ergebnisliste R Zahl der enthaltenen relevanten Dokumente I Zahl der enthaltenen irrelevanten Dokumente W Gewünschte Average Precision E= (e1 , ..., eL ) Liste mit L Einträgen die I Nullen und R Einsen enthält , dabei markieren Nullen Positionen irrelevanter , Einsen relevanter Dokumente Z Liste der Länge L in der das Ergebnis gespeichert wird Definition : AP (E) berechnet die Average Precision der Liste E Schritt Schritt Schritt Schritt Setze Z =L Setze k =0 While | AP (E) - W | > 0.005 and k < 1000 do If ( AP (E) < W) then Wähle zufällig ein ei =0 und ein ej =1 , so , dass 1 ≤ i ≤ j ≤ L Else Wähle zufällig ein ei =1 und ein ej =0 , so , dass 1 ≤ i ≤ j ≤ L Vertausche ei und ej in der Liste E If |W - AP ( E)| < |W - AP (Z) | then Setze Z=E Setze k=k +1 Gehe zu Schritt 3 1: 2: 3: 3.1: Schritt 3.2: Schritt 3.3: Schritt 3.4: Schritt 3.5: Ausgabe : Beste gefundene Liste : Z Abbildung 5.2: Algorithmus zur Erstellung der Ergebnislisten (Quelle: In Anlehnung an Turpin/Scholer 2006: 14) Ergebnislisten für den niedrigen Systemlevel (B1 ) sind durch einen Precision-Wert von 0, 5 und eine Average Precision von 0, 55 gekennzeichnet, für den hohen Systemlevel (B2 ) wurde ein Precision-Wert von 0, 6 und eine Average Precision von 0, 75 gewählt. Eine Übersicht über die Anzahl der verfügbaren Dokumente für die einzelnen Aufgaben und ihre Aufteilung auf die beiden Systemlevels ist in Tabelle 5.3 angegeben. Zur Erstellung der Ergebnislisten mit einer vorgegebenen Average Precision wurde ein von Turpin und Scholer veröentlichter Algorithmus verwendet (vgl. Turpin/Scholer 2006: 14). Seine genaue Arbeitsweise ist in Abbildung 5.2 mit Hilfe von Pseudocode 5 dargestellt. Als Eingabe erhält der Algorithmus eine Liste (E) mit einer Anzahl an Einträgen (L), die der Länge der gewünschten Ergebnisliste entspricht. Ihre Einträge bestehen aus Nullen und Einsen, die an ihrer jeweiligen Position irrelevante (0) und relevante Dokumente (1) repräsentieren. Es wird nun die vorgegebene Average Precision (W) mit der tatsächlichen Average Precision der Liste (AP(E)) verglichen. Ist die Average Precision der Liste zu groÿ, wird ein relevantes Dokument mit einem dahinter liegenden irrelevanten Dokument vertauscht, um den Wert zu vermindern (Schritte 3.1 u. 3.2). Ist umgekehrt die Average Precision der Liste zu klein, vertauscht man ein ir- 5 Dabei handelt es sich um eine Beschreibungsform für Algorithmen ohne den direkten Rückgri auf eine spezielle Programmiersprache (vgl. Saake/Sattler 2004: 21). Die Pseudocode-Notation erleichtert das intuitive Verständnis für die Arbeitsweise eines Algorithmus (vgl. ebd.). 67 5. Aufbau und Ablauf der empirischen Untersuchung relevantes mit einem in der Liste dahinter liegenden relevanten Dokument, um so den Wert zu erhöhen. Anschlieÿend wird die Average Precision dieser neuen Liste mit dem Average-Precision-Wert der besten bis dahin erzeugten Liste (Z) verglichen, beim ersten Durchlauf wäre dies die Liste vor dem Vertauschen der zwei Dokumente. Ist der Unterschied der Average Precision der neuen Liste zur vorgegebenen Average Precision kleiner als der der alten Liste, wird die neue gespeichert, ansonsten nicht (Schritt 3.3). Danach wird die gesamte Prozedur wiederholt, bis entweder die erzeugte Liste nah genug an der gewünschten Average Precision liegt oder nach 1000 Versuchen das Programm abgebrochen wird. Die Ausgabe des Algorithmus besteht aus einer Liste von Nullen und Einsen, die angeben, an welchen Positionen einer Ergebnisliste irrelevante und relevante Dokumente platziert werden müssen, um die gewünschte Average Precision zu erreichen. Zu beachten ist, dass die Verteilung irrelevanter und relevanter Dokumente auch bei gleicher Average Precision sehr unterschiedlich ausfallen kann. So ist es möglich, dass bei einem niedrigen vorgegebenen Average-Precision-Wert mehr relevante Dokumente auf den ersten zehn Listenplätzen stehen als bei einem hohen Wert. Um dadurch nicht die Manipulation der Systemleistung zu gefährden, wurden die Ergebnislisten so gewählt, dass bei dem niedrigen Systemlevel in den ersten fünf Listenplätzen drei, bei dem hohen hingegen nur ein irrelevantes Dokument enthalten war. Die in der Untersuchung verwendeten Listen können in Anhang B eingesehen werden. Im nächsten Schritt wurden die relevanten und irrelevanten Dokumente aus der Testkollektion diesen Vorgaben entsprechend zufällig auf die einzelnen Listenplätze verteilt. Auf diese Weise wurde für alle drei Aufgaben jeweils eine Liste für den niedrigen und eine für den hohen Systemlevel, insgesamt also sechs verschiedene Ergebnislisten, erzeugt. Die verwendeten Java-Programme liegen der Arbeit auf CD bei. 5.2.4. Erhebungsverfahren der Hauptuntersuchung Dieser Abschnitt beschreibt, welche Verfahren zur Erfassung der abhängigen Variablen Benutzerzufriedenheit und Benutzerleistung herangezogen wurden. Es kamen in dieser empirischen Untersuchung sowohl subjektive als auch objektive Erhebungsmethoden zum Einsatz (vgl. Abschn. 2.4). Während die Erhebung der Zufriedenheit über die subjektive Erhebungsmethode des Fragebogens erfolgte, wurde die Leistung der Benutzer ausschlieÿlich über objektive Methoden erfasst. 68 5.2. Ablauf der Hauptuntersuchung Erhebung der Benutzerzufriedenheit Wie bereits in den Abschnitten 2.1.2 und 3.2.2 besprochen, werden subjektive Erfahrungen und Meinungen von Benutzern in Bezug auf eine zu evaluierende Anwendung üblicherweise durch Fragebögen erfasst. Auch in der vorliegenden Untersuchung wurde die Einstellung der Testpersonen gegenüber den Ergebnislisten mit einem Fragebogen erhoben. Bortz und Döring empfehlen, im Vorfeld der Fragebogenkonstruktion zu überprüfen, ob es möglich ist, für die eigene Untersuchung auf bereits entwickelte Fragebögen zurückzugreifen (vgl. Bortz/Döring 1995: 231 f ). Kirchho et al. nennen diesbezüglich folgende Vorteile: Die Übernahme von häuger angwandten Fragen macht übrigens nicht nur aus Gründen der Fehlervermeidung, Arbeits- und Zeitersparnis Sinn. Sie erönet überhaupt erst Vergleichsmöglichkeiten mit anderen Studien. (Kirchhoff et al. 2003: 19) Als Vorlagen für die Auswahl der Fragen dienten die von Kaczmirek verwendeten Fragebogenitems (vgl. Kaczmirek 2003: 126 ) sowie der Fragenkatalog einer Nutzerbefragung zur Evaluierung des Wissenschaftsportals Vascoda 6 (vgl. Gediga et al. 2005: 86 ). Der vollständige in der Untersuchung eingesetzte Fragebogen ist in Anhang A.5 zu nden. Zunächst soll kurz der inhaltliche Aufbau des Fragebogens beschrieben werden. Am Anfang steht ein kurzer Einleitungstext sowie eine Anleitung zum Ausfüllen des Fragenkatalogs. Um eine logische Reihenfolge der Fragen zu gewährleisten, untergliedert sich der Fragebogen in die folgenden vier Themenschwerpunkte: Erfahrungen im Umgang mit dem Anwendungsprogramm (Teil A), Beurteilung der Qualität der Ergebnislisten (Teil B), Gesamtbeurteilung in Bezug auf den Einsatz in der Hildesheimer Universitätsbibliothek (Teil C), demographische Daten (Teil D) und oene Fragen für Anmerkungen und Kommentare (Teil E). Insgesamt besteht dieser Fragebogen aus 28 Frageitems. Im Weiteren werden einige zentrale Aspekte, die bei der Konstruktion der Fragen berücksichtigt wurden, herausgegrien und erläutert. Im Hinblick auf die Ausgestaltung der einzelnen Fragebogenitems merken Bortz und Döring an, dass Meinungs- oder Einstellungsfragen am besten als Behauptungen auszudrücken sind (vgl. Bortz/Döring 1995: 233). Sie begründen dies mit dem Argument, dass diese im Gegensatz zu Fragen direkter formuliert werden können und dementsprechend die Befragten zu eindeutigeren Stellungnahmen veranlassen (vgl. ebd.). Dieser Empfehlung folgend sind die meisten Frageitems als Behauptungen realisiert. Dabei 6 Bei Vascoda handelt es sich um ein Internetportal, das den Zugri auf wissenschaftliche Literatur aus verschiedenen Fachgebieten ermöglicht. (Link zur Homepage: http://www.vascoda.de/) 69 5. Aufbau und Ablauf der empirischen Untersuchung wurde zwischen persönlichen Formulierungen in der ersten Person wie zum Beispiel Ich bin mit der Qualität der Suchergebnisse zufrieden. (Item 8) und unpersönlichen Formulierungen wie Die meisten Artikel waren für die dazugehörigen Suchanfragen relevant. (Item 10) variiert. Dies diente dazu, die Gleichförmigkeit der Fragen etwas aufzulockern, um so dem Aufkommen von Langeweile bei den Testteilnehmerinnen entgegenzuwirken. Aus dem gleichen Grund enthält der Fragebogen sowohl positiv als auch negativ formulierte Frageitems. So handelt es sich bei der Behauptung zu umfangreich. (Item 12) Die Ergebnislisten waren im Gegensatz zu den bisherigen Beispielen um ein negativ formuliertes Item. Auf der Grundlage der in Abschnitt 3.2.2 vorgestellten Richtlinien el bei der Konstruktion der geschlossenen Fragen die Entscheidung auf eine siebenstuge Antwortskala, von 1= trit vollkommen zu bis 7= trit überhaupt nicht zu. Es handelt sich also um eine Mischform aus verbaler und numerischer Skala. Auf diese Weise standen den Befragten je drei Abstufungen hinsichtlich Zustimmung und Ablehnung sowie eine neutrale mittlere Antwortkategorie zur Verfügung. Neben der direkten Erfassung der Zufriedenheit der Probandinnen mit dem präsentierten Information-Retrieval-System, wie in Item 8, kamen auch indirekte Frageitems Würdest Du den Einsatz von Periodikum als Suchmaschine für Fachzeitschriften in der Hildesheimer Universitätsbibliothek empfehlen? (Item 16). Sie dient dazu, die Zufriedenheit der Teilnehmerinnen auf indizum Einsatz. Dazu zählt zum Beispiel die Frage rektem Weg zu messen. Dahinter stand der Gedanke, dass eine derartige Formulierung möglicherweise Bewertungen aktiviert, die durch eine Frage wie Item werden können. Item 8 nicht ausgelöst 7, Ich würde Periodikum jederzeit wieder als Suchmaschine ver- wenden., ist ein weiteres Beispiel für solch eine indirekte Zufriedenheitserhebung. Auch wurden die Teilnehmerinnen auf der letzten Seite des Fragebogens auf einen zweiten Benutzertest hingewiesen, bei dem angeblich eine andere Suchmaschine getestet werden sollte. Diese Wahlmöglichkeit wird im weiteren Verlauf dieser Arbeit als Item 29 bezeich- net. Bei Interesse konnten die Versuchspersonen sich im Anschluss an den Benutzertest mit ihrer E-Mail-Adresse in eine Teilnehmerliste eintragen. Auch hierbei handelte es sich in Wirklichkeit um ein zusätzliches indirektes Frageitem zur Feststellung der Zufriedenheit. Damit die Anzahl der bereits auf der Liste bendlichen Personen keinen störenden Einuss auf die Entscheidung der Testpersonen haben konnte, bekam jede Probandin eine neue, leere Seite präsentiert. Auch wurde darauf hingewiesen, dass dieser zweite Benutzertest im Rahmen einer anderen Magisterarbeit durchgeführt werde. Damit sollte wie im Fall der Manipulation der niedrigen Erwartungshaltung verhindert werden, dass die Probandinnen sich zu einer Zusage gedrängt fühlten (vgl. Abschn. 5.2). 70 5.2. Ablauf der Hauptuntersuchung Die Entscheidung, demographische sowie weitere persönliche Merkmale der Untersuchungsteilnehmerinnen im vorletzten Teil des Fragebogens anstatt am Anfang zu erheben, wurde von Kirchho et al. übernommen. Dort wird diese Reihenfolge vorgezogen, da solche Fragen [. . . ] zwar leicht zu beantworten sind, aber teilweise ungern beantwortet werden. (Kirchhoff et al. 2003: 23) Die oenen Fragen für Anmerkungen und weitere Kommentare am Schluss des Fragebogens (Item 26 u. 27) gehören laut Kirchho et al. zum guten Ton (vgl. ebd.). Hier wird den Befragten die Möglichkeit geboten, Aspekte anzusprechen, die ihrer Meinung nach nicht durch das vorgegebene Antwortspektrum berücksichtigt werden. Gegebenenfalls bekommt man auf diese Weise zusätzliche Hinweise darauf, ob und welche Erwartungen seitens der Testbenutzer enttäuscht wurden. Der Vollständigkeit halber sei an dieser Stelle darauf hingewiesen, dass etwa ein Drittel Hast Du im Internet nach der Suchmaschine Periodikum gesucht, nachdem Du die Einladung zu diesem Benutzertest bekommen hast? (Item 28) Erforderlich war diese Maÿnahme, der Untersuchungsteilnehmerinnen zusätzlich folgende Frage gestellt bekamen: weil im Anschreiben an diese Personengruppe der Name der angeblichen Suchmaschine erwähnt wurde. Auf diesem Weg sollte eine Beeinussung der Untersuchungsergebnisse durch eine im Vorfeld fehlgeschlagen Suche nach der nicht existierenden Suchmaschine ausgeschlossen werden. Für die weiteren Anschreiben wurde diese Passage geändert. Erhebung der Benutzerleistung In diesem Abschnitt wird beschrieben, welche Performanzmessungen zur Erhebung der Benutzerleistung zum Einsatz kamen. Anschlieÿend wird kurz darauf eingegangen, welche Erhebungstechniken diesbezüglich Verwendung fanden. Die Leistung der Benutzer wurde in der vorliegenden Untersuchung mit fünf Leistungsmaÿen erfasst. Diese lassen sich in recall- und precision-orientierte Maÿe unterteilen. In Anlehnung an die in Abschnitt 4.1 wiedergegebene Studie von Turpin und Scholer entspricht das erste Leistungskriterium, im Folgenden Dok@10 genannt, der Anzahl der korrekt relevanten Dokumente, die die Untersuchungsteilnehmerinnen innerhalb der vorgegebenen Bearbeitungszeit gefunden haben (vgl. Turpin/Scholer 2006: 16). Als korrekt relevant werden im Folgenden Dokumente bezeichnet, die die Versuchsperson in Übereinstimmung mit den CLEF-Juroren als relevant bewertet hat. Das zweite recall-orientierte Leistungskriterium, im Weiteren als Benutzer-Recall (BR) bezeichnet, wurde von der Bildretrieval-Studie von Al-Maskari et al. übernommen (vgl. Abschn. 4.2). Danach ergibt sich der Benutzer-Recall aus der Anzahl der von den Teil- 71 5. Aufbau und Ablauf der empirischen Untersuchung nehmerinnen gefundenen korrekt relevanten Dokumente geteilt durch die Gesamtzahl aller relevanten Treer in der Ergebnisliste (vgl. Al-Maskari et al. 2006: 2 f ). Die übrigen Kriterien messen die Benutzerleistung an der Genauigkeit der Suchergebnisse. Wie bei Turpin und Scholer wurde auch in der vorliegenden Untersuchung die Zeit gemessen, die die Teilnehmerinnen benötigten, um das erste korrekt relevante Dokument zu nden, im Weiteren als t1.Dok bezeichnet (vgl. Turpin/Scholer 2006: 15). Das zweite precision-orientierte Maÿ wurde wiederum von Al-Maskari et al. übernommen und wird im Folgenden als Benutzer-Precision (BP) bezeichnet. Es ergibt sich aus der Anzahl der korrekt relevanten Dokumente geteilt durch die Gesamtzahl aller von den Teilnehmerinnen als relevant bewerteten Dokumente (vgl. Al-Maskari et al. 2006: 2 f ). Als weiteres Genauigkeitsmaÿ wurde in Anlehnung an die von Resnick und Lergier eingeführte pre-click condence (vgl. Abschn. 4.3) eine Pre-Click-Precision (PCP) erhoben. Zur Berechnung dieser Precision-Variante wird die Anzahl der korrekt relevanten Dokumente durch die Gesamtzahl der von den Teilnehmerinnen als möglicherweise relevant ausgewählten Treer geteilt. Bei diesem Eektivitätsmaÿ wird also der erste Eindruck der Testpersonen erfasst, indem alle Dokumente, die im Volltext-Fenster geönet wurden, in die Berechnung der Benutzerleistung einbezogen werden. Tabelle 5.4.: Verwendete Performanzmaÿe zur Bestimmung der Benutzerleistung Recall-orientiert Precision-orientiert Maÿ Formel a Dok@10 BR t1.Dok BP PCP M4 M4 M1 ta M4 M3 M4 M2 Zeit bis zum ersten korrekt relevanten Dokument Zur einfacheren Darstellung der Berechnungsweise der fünf Leistungsmaÿe ist es zweckmäÿig, wie in Abschnitt 2.3 vorzugehen und verschiedene Dokumentenmengen zu denieren. Dazu sei M1 die Menge der von CLEF als relevant bewerteten Dokumente, die in der Ergebnisliste enthalten sind und M2 die Menge der von einer Versuchsperson aufgerufenen Dokumente. In letzterer lassen sich noch die Menge der als relevant bewerteten Dokumente M3 und die Menge der in Übereinstimmung mit CLEF als relevant bewerteten Dokumente M4 identizieren. Die mit Hilfe der soeben denierten Dokumentenmengen ausgedrückten Berechnungsvorschriften sind für alle fünf Leistungsmaÿe in Tabelle 5.4 zusammengefasst. Dabei wird die Bezeichnung M im Weiteren synonym für die Menge selbst und für die Anzahl der in ihr enthaltenen Dokumente verwendet. 72 5.2. Ablauf der Hauptuntersuchung < AUFGABE ID ="1" > < TESTPERSON ID ="1" /> < UNTERSUCHUNGSBEDINGUNGEN > < ERWARTUNGSHALTUNG > niedrig </ ERWARTUNGSHALTUNG > < SYSTEMLEVEL >0 ,549648 </ SYSTEMLEVEL > < SUCHBEGRIFFE > Erneuerbare Energien </ SUCHBEGRIFFE > </ UNTERSUCHUNGSBEDINGUNGEN > < SUCHANFRAGE DURCHGEFÜHRT =" true " >" erneuerbare Energien " </ SUCHANFRAGE > <DOK > < DOKNR > FR940717 -002224 </ DOKNR > < TITEL > Käthe - Kollwitz - Schule </ TITEL > < AUFGERUFEN > true </ AUFGERUFEN > < RELEVANZBEWERTUNG > irrelevant </ RELEVANZBEWERTUNG > < GEÖFFNET > < AUFRUFZEIT Nr .=" 1 " >20.03.2008 09.38.29 </ AUFRUFZEIT > </ GEÖFFNET > < GESCHLOSSEN > < SCHLIEÿZEIT Nr .=" 1 " >20.03.2008 09.39.01 </ SCHLIEÿZEIT > </ GESCHLOSSEN > < CLEFBEWERTUNG > relevant </ CLEFBEWERTUNG > </ DOK > ... </ AUFGABE > Abbildung 5.3: Beispiel-Logdatei Die zur Umsetzung der soeben vorgestellten Performanzmessungen erforderlichen Daten, wie die Relevanzbewertungen der Benutzer und die Bearbeitungszeiten der Dokumente, wurden mittels der durch das Anwendungsprogramm erstellten Logdatei sowie der Usability-Test-Software Morae ermittelt. Wie in Abschnitt 2.4.1 erläutert, dienen Logdateien dazu, bestimmte Benutzereingaben automatisch erfassen zu können. Im Rahmen der vorliegenden Untersuchung wurden für jede Testperson drei Logdateien erstellt, eine Datei pro Suchaufgabe. Abbildung 5.3 zeigt einen Ausschnitt einer dieser Logdateien. Sie enthält neben der ID der Suchaufgabe (1 = Energieaufgabe, 2= Atomaufgabe, 3= Asienaufgabe) und der vergebenen Test-ID, im Beispiel 1, zunächst die zugrundeliegenden Untersuchungsbedingungen. Im dargestellten Beispiel handelt es sich um eine niedrige Erwartungshaltung bei niedrigem Systemlevel (Average Precision= 0, 549648), also Stichprobe S1,1 . Zusammen mit den Untersuchungsbedingungen werden auÿerdem die zu verwendenden Suchbegrie angezeigt. Als nächstes wird die tatsächlich getätigte Eingabe protokolliert. In dem angegebenen Beispiel hat die Testperson die Suchbegrie unter Verwendung von Anführungszeichen eingegeben, was jedoch im Toleranzbereich des Anwendungsprogramms liegt (vgl. Abschn. 5.2.2). Darauf folgen alle in der Ergebnisliste enthaltenen Dokumente, deren Identikationsnummer (FR940717-002224) und Titel (Käthe-Kollwitz-Schule) vermerkt sind. Weiterhin wird protokolliert, ob das entsprechende Dokument von der Testpersonen im Volltext-Fenster aufgerufen und wie die Relevanz bewertet wurde. Im 73 5. Aufbau und Ablauf der empirischen Untersuchung vorliegenden Beispiel wurde das Dokument aufgerufen (true) und als irrelevant gekennzeichnet. Des Weiteren werden für jeden ausgewählten Treer die Aufruf- und Schlieÿzeiten protokolliert. Das letzte Tag gibt die Relevanzbewertung der CLEF-Juroren an. In der angegebenen Logdatei stimmt die Relevanzbewertung der Testperson also nicht mit der Relevanzbewertung der Juroren überein. Die Testsoftware Morae der Softwarerma TechSmith 7 ermöglicht die Aufzeichnung des Verhaltens der Testbenutzer auf mehreren Kanälen. Neben einer Aufzeichnung der Bildschirminhalte können mit Hilfe dieser Software auch Audio- und Videosignale aufgenommen werden. Für den im Rahmen dieser Arbeit durchgeführten Benutzertest wurde jedoch auf die Möglichkeit der Videoaufzeichnung verzichtet. Damit sollte eine zusätzliche Erhöhung der ohnehin vorhandenen Künstlichkeit der Testsituation vermieden werden. Die Vorstellung während des Tests gelmt zu werden, könnte bei einigen Testpersonen den Eindruck verstärken, dass sie bei der Bearbeitung der Aufgaben beobachtet werden und infolgedessen natürliches Verhalten unterdrücken. Der Vorteil von Morae besteht in der integrierten Bewertungskomponente, dem so- Manager. Dieser Programmteil gestattet es, das mediale Datenmaterial synchron abzuspielen und wichtige Momente mittels sogenannter Marker zu kennzeichnen. genannten Auf diese Weise konnten die exakten Anfangs- und Endzeiten für die einzelnen Suchaufgaben nachvollzogen werden. Dadurch, dass das Anwendungsprogramm während der gesamten Dauer einer Sitzung nicht geschlossen werden sollte, konnten diese Daten nämlich nicht ohne Weiteres in der Logdatei protokolliert werden. Auch wurde der exakte Zeitpunkt der Relevanzbewertung des ersten korrekt relevanten Dokuments im Nachhinein mit Hilfe des Managers ermittelt. 5.3. Ergebnisse der qualitativen Voruntersuchung Im Rahmen einer Voruntersuchung wurde das für die empirische Untersuchung geplante Vorgehen noch einmal überprüft. Zum einen sollten potentielle Schwierigkeiten bei der Bedienung der graphischen Benutzeroberäche des Anwendungsprogramms aufgedeckt, zum anderen die Verständlichkeit der Informations- und Instruktionstexte sowie des Fragebogens getestet werden. Insgesamt fanden vier Vortests mit vier verschiedenen Teilnehmerinnen statt, so dass alle vier Versuchsbedingungen überprüft werden konnten. Um herauszunden, an welchen Stellen des Versuchsablaufs noch Unklarheiten bestanden, wurden die vier Teilnehmerinnen der Voruntersuchung gebeten, während der 7 Link zum Hersteller: http://www.techsmith.de/ 74 5.3. Ergebnisse der qualitativen Voruntersuchung Bearbeitung der Suchaufgaben laut zu denken. Wie in Abschnitt 2.1.2 bereits erläutert, ermöglicht dieses Verfahren Einblicke in die im Zuge der Aufgabenbearbeitung stattndenden Denkprozesse der Versuchspersonen. Zusätzlich zu diesem Verfahren wurden die Probandinnen während ihrer Interaktion mit dem Anwendungsprogramm beobachtet und Schwierigkeiten bei der Bedienung sowie sonstige Auälligkeiten protokolliert. Die aus der Voruntersuchung resultierenden Umgestaltungen im Untersuchungsdesign lassen sich in drei Kategorien untergliedern: textuelle, graphische und inhaltliche Veränderungen. Auf textueller Ebene hat die Voruntersuchung dazu beigetragen, dass einzelne Formulierungen der Informations- und Instruktionstexte noch präzisiert werden konnten. So haben beispielsweise alle Testpersonen nachgefragt, ob sie die aufgerufenen Dokumente tatsächlich nach ihrer Relevanz bewerten sollen. An dieser Stelle wurde die Aufgabenbeschreibung dementsprechend eindeutiger formuliert. Eine weitere Unsicherheit resultierte aus der mangelnden Aktualität der dargebotenen Presseartikel. Für die Hauptuntersuchung wurde deshalb das Erscheinungsdatum aus den Ergebnislisten entfernt. Da jedoch auch das Fehlen jeglicher Datumsangaben zu Irritationen hätte führen können, blieb das Erscheinungsdatum in der Volltextdarstellung bestehen. Zusätzlich wurde die Aufgabenbeschreibung um den Hinweis erweitert, dass aus Demonstrationszwecken nur Presseartikel der Jahre 1994 und 1995 in der Datenbank enthalten seien. In graphischer Hinsicht wurde die Benutzeroberäche aufgrund der Erfahrungen aus der Voruntersuchung an einigen Stellen umgestaltet. Zum Beispiel war den Teilnehmerinnen der Voruntersuchung die Schriftgröÿe der Ergebnislisten und Volltextdarstellungen teilweise zu klein. Auÿerdem ist aufgefallen, dass die Scrollgeschwindigkeit zu niedrig eingestellt war, so dass es für die Teilnehmerinnen recht mühsam war, die Ergebnislisten durchzusehen. Da das abschlieÿende Zufriedenheitsurteil der Testbenutzer möglichst wenig durch äuÿere Umstände des Anwendungsprogramms beeinusst werden sollte, wurden diese Punkte für die Hauptuntersuchung korrigiert. Weiterhin wurden die einzelnen Ergebnislisten auf mehrere Seiten verteilt. Zusätzlich wurde am Anfang und am Ende jeder Seite eine Anzeige zur Seitenauswahl hinzugefügt. Diese Änderungen erschienen sinnvoll, nachdem die Ergebnislisten im Fragebogen übereinstimmend als zu umfangreich beschrieben wurden. Auch diese Maÿnahmen sollten dazu beitragen, dass die Ergebnisse der Hauptuntersuchung nicht durch äuÿere Umstände des Anwendungsprogramms beeinusst werden. Auf der inhaltlichen Ebene wurden im Wesentlichen zwei Änderungen vorgenommen. Diese betrafen zum einen die Idee des frei gewählten Abbruchzeitpunkts und zum anderen die Manipulation der Ergebnislisten. Ursprünglich bestand die Idee, die Testpersonen 75 5. Aufbau und Ablauf der empirischen Untersuchung den Abbruchzeitpunkt selbst bestimmen zu lassen. Die Erfahrungen aus der Voruntersuchung haben jedoch zu der Einsicht geführt, dass diese Freiheit die Testpersonen eher verunsicherte. Aus diesem Grund wurde für die Hauptuntersuchung entschieden, einen maximalen Zeitrahmen von zehn Minuten pro Aufgabe vorzugeben. Gleichzeitig blieb für die Teilnehmerinnen aber die Möglichkeit bestehen, die Recherche schon vorher zu beenden. Aufgrund der Tatsache, dass in der Voruntersuchung alle Teilnehmerinnen bemängelten, dass die Ergebnislisten nicht gut genug geltert gewesen seien, erfolgte für die Hauptuntersuchung eine Erhöhung der Precision bei den besseren Ergebnislisten (vgl. Abschn. 5.2.3). Während in der Voruntersuchung die Precision für alle Ergebnislisten bei 0, 5 lag, wurde dieser Werte für den höheren Systemlevel auf Die Average Precision von 0, 55 blieb hingegen unverändert. 76 für den niedrigen und 0, 75 0, 6 angehoben. für den hohen Systemlevel 6. Darstellung und Auswertung der Untersuchungsergebnisse Dieses Kapitel behandelt die Analyse der in der Hauptuntersuchung erhobenen Daten. Dazu wird in Abschnitt 6.1 zunächst die Zusammensetzung der Stichprobe in Bezug auf demograpische Merkmale sowie Internet- und Computererfahrung untersucht. Um die Übersichtlichkeit der Darstellung der Untersuchungsergebnisse zu erhöhen, werden die eingesetzten statistischen Verfahren im Vorfeld in Abschnitt 6.2 erläutert. In Abschnitt 6.3 werden schlieÿlich die Ergebnisse der vorliegenden Untersuchung präsentiert und interpretiert. 6.1. Zusammensetzung und Beschreibung der Stichprobe Die Basis für die empirische Untersuchung bildet eine Stichprobe von Testpersonen im Alter von 17 bis 32 89 weiblichen 1 Jahren . Wie bereits in Abschnitt 5.1.2 erläutert, wurden männliche Teilnehmer von dieser Untersuchung ausgeschlossen, um zusätzliche personengebundene Störeekte schon im Vorfeld durch Konstanthalten zu kontrollie- 2 ren. Das Medianalter der Teilnehmerinnen betrug 24 Jahre. Hinsichtlich der derzeiti- gen Tätigkeit der Testpersonen erfolgte eine Einteilung in die Kategorien Schülerinnen, Auszubildende, Studentinnen, Berufstätige und Sonstige. Es ergibt sich ein prozentualer Anteil von knapp 80% Studentinnen gegenüber Probandinnen anderer Tätigkeiten. 13, 5% der Testpersonen sind nichtdeutscher von 12 Probandinnen entspricht. Muttersprache, was einer Teilnehmerzahl Alle Testpersonen gaben an, im Rahmen ihrer Tätigkeit einen Computer zu verwenden. 78 Teilnehmerinnen haben in der Woche vor dem Benutzertest an fünf bis sieben 1 Da zu Beginn der Hauptuntersuchung noch nicht abzusehen war, ob die erforderliche Stichprobengröÿe von 80 Personen erreicht werden würde, wurden zunächst auch Testpersonen zugelassen, die etwas jünger oder älter als 18 beziehungsweise 30 Jahre waren. 2 Der Median teilt eine Verteilung [. . . ] in zwei gleich groÿe Hälften. (Bortz/Döring 1995: 620) 77 6. Darstellung und Auswertung der Untersuchungsergebnisse Tabelle 6.1.: Beschreibung der Stichprobe I: Statistische Kennzahlen Merkmal Mina Maxb Alter a Mc 17 32 24 Computernutzung eine Woche vor Test in Tagen/Woche 3 7 7, 00 Computernutzung in Stunden/Woche 2 60 12,50 Internetnutzung in Stunden/Woche 1 50 8,00 Anzahl bekannter Suchmaschinen 1 7 2,00 Anzahl regelmäÿig verwendeter Suchmaschinen 1 5 1,00 minimaler Wert b maximaler Wert c Median Tagen in der Woche mit Computern gearbeitet. Die mediane Computernutzung beträgt 12, 5 Stunden in der Woche, die mediane Internetnutzung acht Stunden. Der gröÿte Teil der Befragten kennt zwei unterschiedliche Suchmaschinen (46, 1%) und über die Hälfte der Versuchspersonen verwendet eine Suchmaschine regelmäÿig (57, 3%). Weitere Einzelheiten in Bezug auf die Zusammensetzung der Stichprobe sind in den Tabellen 6.1 und 6.2 dargestellt. Tabelle 6.2.: Beschreibung der Stichprobe II: Statistische Häugkeiten bek. verw. Mutterspr. Ha % Tätigkeit H % H % H Suchm. Suchm. Bulgarisch 1 1,1 Schülerinnen 7 7,9 1 15 16,9 1 51 57,3 Dari 1 1,1 Auszubildende 2 2,2 2 41 46,1 2 23 25,8 77 86,5 70 78,7 3 14 15,7 3 11 12,4 Griechisch 1 1,1 Berufstätige 5 5,6 4 12 13,5 4 2 2,2 Kurdisch 1 1,1 Sonstige 5 5,6 5 3 3,4 5 2 2,2 Polnisch 1 1,1 6 2 2,2 Russisch 6 6,7 7 2 2,2 Spanisch 1 1,1 Deutsch a % Studentinnen Häugkeiten 6.2. Analyse - und Auswertungsverfahren Wie in Abschnitt 5.1 erläutert, liegt der vorliegenden Untersuchung ein zweifaktorielles Design mit den beiden unabhängigen Variablen Erwartungshaltung und Systemgüte zugrunde. Als statistische Testverfahren zur Untersuchung der Einüsse beider Variablen dienten neben der einfaktoriellen die zweifaktorielle Varianzanalyse sowie Kreuztabellen. Die statistische Auswertung der Daten erfolgte mit Hilfe der Statistik- und 78 6.2. Analyse - und Auswertungsverfahren 3 Analyse-Software SPSS der gleichnamigen Herstellerrma . Da eine umfassende Erläuterung der mathematischen Hintergründe der verwendeten statistischen Analysemethoden an dieser Stelle zu weit führen würde, soll sich im Folgenden auf eine Darstellung der zugrundeliegenden Prinzipien beschränkt werden. Als erstes wird die Grundidee 4 der einfaktoriellen Varianzanalyse erläutert. Sie dient dazu, den Einuss einer unabhängigen Variablen, auch Faktor genannt, auf eine abhängige Variable zu untersuchen (vgl. Abschn. 4.1). Dazu muss für jede Merkmalsausprägung des Faktors, auch als Faktorstufe bezeichnet, eine Stichprobe mit den Werten einer abhängigen Variablen vorliegen. Eine einfaktorielle Varianzanalyse prüft nun mit Hilfe der Gesamtvarianz der Stichproben, ob die unterschiedlichen Versuchsbedingungen signikante Unterschiede zwischen den Einzelstichproben bewirken. Dabei ist die Varianz ein Maÿ für die Abweichung der Merkmale einer Stichprobe von deren Mittelwert (vgl. Bortz 2005: 41). Die in der Stichprobe beobachtete Gesamtvarianz einer abhängigen Variablen wird bei der einfaktoriellen Varianzanalyse in zwei Anteile zerlegt. Der erste Anteil beinhaltet die Varianz der Messwerte zwischen den unterschiedlichen Versuchsbedingungen, der zweite die Varianz innerhalb der einzelnen Versuchsgruppen (vgl. Zöfel 2003: 131). Unterscheiden sich diese beiden Varianzanteile signikant, so ist ein Einuss der Versuchsbedingungen auf die abhängige Variable nachgewiesen (Rudolf/Müller 2004: 83). Dazu wird ein sogenannter F-Test durchgeführt, der die Nullhypothese überprüft, [. . . ] dass die beiden zu vergleichenden Stichproben aus Grundgesamtheiten mit gleichen Varianzen stammen, d.h. dass mögliche Varianzunterschiede nur stichprobenbedingt bzw. zufällig sind. (Bortz 2005: 148) Hier gehen neben dem Quotienten der beiden Varianzanteile (F ) auch deren jeweilige Freiheitsgrade (df ) ein. Dabei handelt es sich um die Anzahl der unabhängig voneinander variierbaren Gröÿen, die einen statistischen Kennwert wie beispielsweise die Varianz bestimmen (vgl. Bortz 2005: 789 f ). Eine Erweiterung der Varianzanalyse besteht in der Einbeziehung sogenannter wiederholgungsfaktoren. Mess- Diese Methode ist für ein Untersuchungsdesign angepasst, bei dem [. . . ] die Probanden unter verschiedenen Bedingungen wiederholt untersucht werden. (vgl. Rudolf/Müller 2004: 97) Die interessierende Fragestellung ist in diesem Fall, ob sich die Ergebnisse der Testpersonen in Bezug auf die einzelnen Testreihen unterscheiden (vgl. ebd.). Einfaktorielle Varianzanalysen mit und ohne Messwiederholung 3 Link zum Hersteller: http://www.spss.com/ 4 Anzumerken ist, dass es sich bei den hier dargestellten Grundprinzipien der Varianzanalyse um die klassische Methode nach Fisher handelt (vgl. Zöfel 2003: 216). Die verwendete Statistik-Software SPSS verwendet eine etwas andere Implementation, die aber im Wesentlichen zu den gleichen Ergebnissen führt (vgl. ebd.). 79 6. Darstellung und Auswertung der Untersuchungsergebnisse dienten zur Überprüfung der Daten auf untersuchungsbedingte und personenbedingte Einüsse. In die erste Gruppe fallen Aspekte wie Schwierigkeitsgrad und Reihenfolge der Aufgaben, in die zweite solche wie Muttersprache und Alter der Testpersonen (vgl. Abschn. 6.3.1 u. 6.3.4). Auch bei der Kovarianzanalyse handelt es sich um eine Erweiterung des varianzanalytischen Modells. Sie ergänzt die Varianzanalyse um die Möglichkeit, neben den Faktoren auch intervallskalierte (vgl. Abschn. 3.2.2) Einussgröÿen einzubeziehen (vgl. Rudolf/Müller 2004: 93). Damit können zusätzliche Störgröÿen aus den Untersuchungsergebnissen eliminiert werden (vgl. Abschn. 5.1.2). Um den Einuss zweier experimenteller Faktoren auf eine abhängige Variable zu untersuchen, kann eine zweifaktorielle Varianzanalyse verwendet werden (vgl. Abschn. 5.1.1). Bei dieser Methode wird die Varianz der Messwerte zwischen den Versuchsbedingungen weiter untergliedert. Es ndet eine Zerlegung in eine durch Faktor Faktor B A, eine durch und eine durch die Wechselwirkung der beiden Faktoren verursachte Varianz statt (Rudolf/Müller 2004: 90). Jede dieser Varianzen kann nun auf eine Abweichung von der Varianz innerhalb der einzelnen Versuchsgruppen überprüft werden. Ein signikanter Unterschied impliziert hier wie im Fall der einfaktoriellen Varianzanalyse einen Eekt des betrachteten Einusses (vgl. a.a.O.: 91). Die zweifaktorielle Varianzanalyse stellte das wichtigste Testverfahren zur Auswertung der Gruppeneekte dar, weil neben dem Einuss der einzelnen manipulierten Faktoren auch potentielle Wechselwirkungseekte überprüft werden können. Aus diesem Grund kam sie sowohl bei der Auswertung der Fragebogenitems zur Benutzerzufriedenheit (vgl. Abschn. 6.3.2) als auch bei der Auswertung der erhobenen Maÿe zur Benutzerleistung (vgl. Abschn. 6.3.3) zur Anwendung. Grundsätzlich müssen für die Anwendung varianzanalytischer Auswertungsverfahren zwei Voraussetzungen erfüllt sein: Normalverteilung innerhalb der Stichproben und Homogenität der Varianzen zwischen den Stichproben (vgl. Zöfel 2003: 208). Eine Stichprobe wird als normalverteilt angesehen, wenn die Häugkeit der Werte symmetrisch zu beiden Seiten des am meisten vorkommenden Werts abnimmt (vgl. a.a.O.: 78 f ). Zur Überprüfung der Verteilungsform wurde der sogenannte Kolmogorov- Smirnov-Test durchgeführt. Dieser Test prüft, ob eine signikante Abweichung der Stich- probenverteilung von der Normalverteilung vorliegt (vgl. a.a.O.: 113). Dabei darf die gröÿte Abweichung der zu überprüfenden Werte von der Normalverteilung einen bestimmten von der Stichprobengröÿe abhängigen Grenzwert nicht überschreiten (vgl. ebd.). Die zweite Voraussetzung, die Varianzhomogenität, betrit die Streuung der Merk- 80 6.2. Analyse - und Auswertungsverfahren malswerte um die sich für die einzelnen Versuchsbedingungen ergebenden Mittelwerte. Diese muss in den untersuchten Stichproben homogen, also gleich sein (vgl. a.a.O.: 208). Zur Überprüfung dieser Voraussetzung wurde der sogenannte Levene-Test her- angezogen. Er beruht auf einer Varianzanalyse mit den ursprünglichen unabhängigen Variablen, bei der jedoch die Werte der abhängigen Variablen transformiert werden (vgl. a.a.O.: 135). Im Fall der einfaktoriellen Varianzanalyse mit Messwiederholung tritt an Mauchly-Test. die Stelle des Levene- der Dieser überprüft neben der Homogenität der Varianzen auch die Homogenität der Korrelationen zwischen den Versuchsbedingungen, was zusammengefasst als Sphärizität bezeichnet wird (vgl. Pospeschill 2007: 131). Zeigt der Mauchly-Test eine signikante Abweichung von dieser Sphärizitätsannahme, sind für den nachfolgenden Signikanztest Korrekturen an den zugrundeliegenden Freiheitsgraden vorzunehmen (vgl. a.a.O.: 131 f ). Allgemein wird die Varianzanalyse jedoch als relativ robust gegenüber Verletzungen dieser beiden Voraussetzungen angesehen (vgl. Zöfel 2003: 217). Zöfel gibt die folgenden drei Empfehlungen, wie im Fall nicht gegebener Normalverteilung und Varianzhomogenität zu verfahren ist (vgl. ebd.): 1. Ein nicht signikantes Ergebnis wäre auch bei Erfüllung der Voraussetzungen nicht signikant geworden. 2. Bei Verletzung der Normalverteilungsbedingung sollte die Nullhypothese erst ab einer Irrtumswahrscheinlichkeit p < 0, 04 verworfen werden. 3. Ist die Varianzhomogenität nicht gegeben, sollte die Nullhypothese erst ab einer Irrtumswahrscheinlichkeit p < 0, 01 verworfen werden. Da eine Varianzanaylse nur überprüft, ob überhaupt Unterschiede zwischen den Faktorstufen bestehen, muss bei einem Faktor mit mehr als zwei Merkmalsausprägungen bei einem signikanten Ergebnis überprüft werden, zwischen welchen Gruppen ein signikanter Unterschied besteht (vgl. Zöfel 2003: 133). Um zu verhindern, dass bei diesen paarweisen Mittelwertvergleichen das nannter α-Fehlerniveau zunimmt, bedient man sich soge- Post-Hoc-Tests, die die Gesamtirrtumswahrscheinlichkeit, welche sich aus dem Produkt der α-Fehler aller Mittelwerttests ergibt, kontrollieren (vgl. Bortz 2005: 271 ). Im Rahmen der einfaktoriellen Varianzanalyse kam dabei der Scheé-Test zum Einsatz, da er als robust gegenüber Verletzungen der Voraussetzungen der Varianzanalyse gilt (vgl. a.a.O.: 274). Dieser Test steht bei SPSS im Fall von Messwiederholungsfaktoren nicht zur Verfügung, deshalb wurden nach einer Empfehlung von Pospeschill paarwei- 81 6. Darstellung und Auswertung der Untersuchungsergebnisse se Einzelvergleiche mit einer Bonferroni-Korrektur vorgenommen (vgl. Pospeschill 2007: 135). Da mit Hilfe der Varianzanalyse nur der Einuss unabhängiger Variablen auf eine intervallskalierte abhängige Variable untersucht werden kann (vgl. Zöfel 2003: 5), kommt für Frageitems mit einer Nominalskala (vgl. Abschn. 3.2.2) ein anderes statistisches Verfahren, die sogenannte Kreuztabelle, zur Anwendung. Für nominalskalierte Variablen mit mehr als zwei Kategorien ist dies die einzige Möglichkeit, Beziehungen untereinander aufzudecken. (vgl. Zöfel 2003: 179) Das Prinzip besteht darin, die aufgetretenen Werte der abhängigen Variablen den entsprechenden Versuchsbedingungen der unabhängigen Variablen zuzuordnen und die Häugkeiten dieser Kombinationen zu ermitteln (vgl. a.a.O.: 179 ). Anschlieÿend wird überprüft, ob einzelne Kombinationen signikant häug beziehungsweise selten auftreten (vgl. ebd.). Diese Analysetechnik wurde zur Auswertung der im Fragebogen enthaltenen Ja/Nein-Fragen verwendet (vgl. Abschn. 6.3.2). Die mit den oben genannten Verfahren erhaltenen Ergebnisse werden in den nun folgenden Abschnitten dargestellt. 6.3. Untersuchungsergebnisse Die Darstellung der Ergebnisse gliedert sich in vier Teile. In Abschnitt 6.3.1 erfolgt zunächst eine Überprüfung der erhobenen Daten hinsichtlich potentiell die Aussagekraft der Ergebnisse verfälschender Eekte. In den beiden nächsten Abschnitten, 6.3.2 und 6.3.3, werden die Ergebnisse der Varianzanalysen in Bezug auf die im Rahmen dieser Untersuchung erhobenen abhängigen Variablen Benutzerzufriedenheit und Benutzerleistung besprochen. Im letzten Abschnitt 6.3.4 wird die Einbeziehung verschiedener Kovariaten in die Analyse beschrieben. Die statistischen Tests zu den Voraussetzungen der Varianzanalysen benden sich gesammelt in Anhang C.1 Aus diesem Grund erfolgt an den entsprechenden Stellen nur eine einfache Nennung der Ergebnisse. 6.3.1. Überprüfung der Daten Zunächst erfolgte eine Analyse der erhobenen Daten auf Einfüsse, die auf das untersuchungsmethodische Vorgehen zurückzuführen sind. Diesbezüglich wurde zunächst überprüft, ob die verwendeten Testaufgaben für die Versuchsteilnehmerinnen einen unterschiedlichen Schwierigkeitsgrad aufwiesen. Ein solcher Eekt wird in Anlehnung an Turpin und Scholer im Folgenden Topic-Eekt genannt (vgl. Turpin/Scholer 2006: 16). 82 6.3. Untersuchungsergebnisse Weiterhin wurde untersucht, ob die Bearbeitungsreihenfolge der Testaufgaben einen Einuss auf die Leistung der Testpersonen hatte, was im Folgenden als Reihenfolgeeekt bezeichnet wird. Tabelle 6.3.: Überprüfung der Daten auf Topic-Eekte Varianzanalyse Post-Hoc-Test Energie - Asien Energie - Atom df a Fb Sig.c MDd Sig. MD Sig. Maÿ Dok@10 BR t1.Dok BP PCP a 1,850 2,000 1,751 2,000 2,000 Freiheitsgrade 7,118 11,396 1098,927 2,202 4,198 b F-Wert 0,001 0,000 0,000 0,114 0,017 -0,562 0,707 -2,022 -0,042 0,000 -0,045 492,337 0,000 7,483 0,040 c Signikanz d 0,218 -0,019 0,004 Asien - Atom MD Sig. -1,461 0,039 0,000 -0,003 1,000 1,000 -484,854 0,000 - - 1,000 -0,059 0,013 Mittelwertdierenz Um festzustellen, ob ein Topic-Eekt vorliegt, wurden für alle Leistungsmaÿe (vgl. Abschn. 5.2.4) einfaktorielle Varianzanalysen durchgeführt. Die erhobenen Leistungswerte der Benutzer zu den drei Aufgaben ossen dabei als Messwiederholungsfaktor ein. Die Normalverteilungsvoraussetzung ist nur im Fall der Pre-Click-Precision (PCP) erfüllt und das Signikanzniveau somit für die anderen Leistungsmaÿe entsprechend auf p < 0, 04 zu reduzieren (vgl. Abschn. 6.2). Tabelle 6.3 fasst die Ergebnisse dieser Tests zusammen. War der Mauchly-Test signikant, werden die mit den korrigierten Freiheitsgraden erhaltenen Resultate angegeben (vgl. Abschn. 6.2). Unter Post-Hoc-Test sind die Befunde der paarweisen Mittelwertvergleiche aufgeführt. Man kann erkennen, dass bis auf die Benutzer-Precision (BP) alle Leistungsmaÿe einem signikanten Topic-Einuss unterliegen. Um die Art der Beeinussung abschätzen zu können, sind in Abbildung 6.1 für die vier Performanzmaÿe, die einen solchen Eekt aufweisen, die Mittelwerte der einzelnen Aufgaben angegeben. Für die beiden recall-orientierten Maÿe, die Zahl der korrekt relevanten Dokumente in 10 Minuten (Dok@10) und den Benutzer-Recall (BR), ergibt sich, dass die Energieaufgabe oensichtlich schwerer als die Atomaufgabe zu bearbeiten war (vgl. Abb. (a) u. (b)). Die Asienaufgabe hingegen zeigt sich indierent. Für die Dok@10 liegt ihr Schwierigkeitsgrad in der Nähe der Energie-, für den BR in der Nähe der Atomaufgabe. Weiterhin ist zu erkennen, dass das Auswählen des ersten korrekt relevanten Dokuments (t1.Dok ) bei der Asienaufgabe besonders schnell möglich gewesen ist (vgl. Abb. (c)). Allerdings weisen die Mittelwertunterschiede darauf hin, dass es bei diesem Topic schwieriger war, relevante Dokumente vor dem Önen zu erkennen (PCP) als bei der Atomaufgabe (vgl. 83 6. Darstellung und Auswertung der Untersuchungsergebnisse (a) Anzahl korrekt relevante Dokumente (b) Benutzer-Recall (c) Zeit erstes korrekt relevantes Dokument (d) Pre-Click-Precision Abbildung 6.1.: Graphische Darstellung der Topic-Eekte Abb. (d)). Letztere scheint damit die für die Teilnehmerinnen am einfachsten zu bearbeitende Aufgabe gewesen zu sein. Die lange Zeit bis zum ersten korrekt relevanten Dokument ist dabei darauf zurückzuführen, dass das erste Dokument in der Liste nicht relevant war (vgl. Anh. B). Das Vorhandensein von Topic-Eekten kann als positive Voraussetzung für die Generalisierbarkeit der Ergebnisse betrachtet werden, da auch in einer realistischen Anwendungssituation von Information-Retrieval-Systemen nicht alle Suchanfragen den gleichen Schwierigkeitsgrad aufweisen. Um Aussagen über die mittlere Benutzerleistung treen zu können, wird für die Auswertung in Abschnitt 6.3.3 deshalb der Mittelwert über die drei Topics herangezogen. Um denkbare Reihenfolgeeekte vorab zu kontrollieren, wurde die Abfolge der drei 84 6.3. Untersuchungsergebnisse zu bearbeitenden Testaufgaben zwischen den Testpersonen variiert (vgl. Abschn. 5.1.2). Es erfolgten für alle drei Topics einfaktorielle Varianzanalysen, um zu überprüfen, ob Unterschiede in der gemessenen Benutzerleistung auf die Bearbeitungsreihenfolge zurückzuführen sind. Als Faktorstufen der unabhängigen Variablen wurde gewählt, ob die Bearbeitung der betreenden Aufgabe als erstes, zweites oder drittes erfolgte. Die abhängigen Variablen entsprachen auch hier den erhobenen Leistungsmaÿen. Tabelle 6.4.: Überprüfung der Daten auf Reihenfolgeeekte Energie Asien a b c df F Sig. df F Sig. df Maÿ Dok@10 2 BR 2 t1.Dok 2 BP 2 2 PCP a 3,679 4,131 0,096 2,419 3,853 Freiheitsgrade b F-Wert 0,029 0,019 0,908 0,095 0,025 2 2 2 2 2 3,404 3,547 3,599 2,480 0,693 0,038 0,033 0,032 0,090 0,503 2 2 2 2 2 Atom F Sig. 1,729 1,943 0,574 0,168 0,266 0,184 0,150 0,565 0,846 0,767 c Signikanz Die Voraussetzung der Normalverteilung ist wiederum nur bei der Pre-Click-Precision (PCP) erfüllt, weshalb die Nullhypothese erst bei einem p < 0, 04 zu verwerfen ist (vgl. Abschn. 6.2). Die Varianzhomogenität ist für alle signikanten Ergebnisse gegeben. Für die nicht signikanten Fälle ergäbe sich nach Zöfel auch bei Erfüllung dieser Voraussetzung kein anderes Ergebnis (vgl. ebd.). Maÿ Dok@10 BR PCP a Tabelle 6.5.: Post-Hoc-Test der Reihenfolgeeekte I: Energieaufgabe 1. vs. 2. Position 1. vs. 3. Position 2. vs. 3. Position MDa Sig.b MD Sig. MD Sig. −3,818 −0,072 −0,113 Mittelwertdierenz b 0,030 0,020 0,050 −2,093 −0,039 −0,103 0,337 0,298 0,081 1,724 0,033 0,010 0,489 0,445 0,978 Signikanz In Tabelle 6.4 sind die Ergebnisse der Varianzanalysen für alle Topics und Leistungsmaÿe zusammengefasst. Sowohl für die Energie- als auch für die Asienaufgabe sind signikante Reihenfolgeeekte zu erkennen. Auf die Atomaufgabe hingegen hat die Reihenfolge keinen signikanten Einuss. Dies deckt sich mit der zu Anfang dieses Abschnitts gemachten Beobachtung, dass es sich bei dieser Aufgabe um die am einfachsten zu bearbeitende handelt. Es scheint also bei diesem Topic kein Training notwendig gewesen zu sein. 85 6. Darstellung und Auswertung der Untersuchungsergebnisse Für die signikanten Unterschiede der Energie- und Asienaufgabe wurde ein ScheéTest durchgeführt, um herauszunden, welche Positionen der Testaufgaben dieses Ergebnis bewirken. Die Tabellen 6.5 und 6.6 enthalten die resultierenden Befunde. Zur weiteren Veranschaulichung sind in Abbildung 6.2 ausgewählte Graphiken beigefügt. Für die Energieaufgabe lässt sich bei allen vier signikanten Maÿen ein nachweisbarer Trainingseekt von der ersten zur zweiten Position der Aufgabe beobachten. Tendenziell ist von der zweiten zur dritten Position auch ein Ermüdungseekt zu erkennen, doch ist dieser Unterschied nicht signikant (vgl. Abb. (a)). Ein ähnlicher Verlauf ergibt sich auch für die Zeit bis zum ersten korrekt relevanten Dokument (t1.Dok ) bei der Asienaufgabe. Für die Dok@10 und den Benutzer-Recall (BR) dieses Topics lässt sich hingegen tendenziell ein durchgehender Trainingseekt von der ersten bis zur dritten Position der Aufgabe feststellen, wenn auch keiner dieser Unterschiede signikant ist (vgl. Abb. (b)). Maÿ Dok@10 BR t1.Dok a Tabelle 6.6.: Post-Hoc-Test der Reihenfolgeeekte II: Asienaufgabe 1. vs. 2. Position 1. vs. 3. Posistion 2. vs. 3. Position MDa Sig.b MD Sig. MD Sig. −0,724 −0,014 49,517 Mittelwertdierenz b 0,862 0,885 0,066 −3,227 −0,071 46,974 0,052 0,048 0,079 −2,503 −0,057 −2,543 0,165 0,141 0,992 Signikanz Allgemein wird hier deutlich, dass der Scheé-Test die Unterschiede zwischen den Mittelwerten der Faktorstufen konservativ beurteilt, [. . . ] also eher zögerlich bei der Aufspürung von Signikanzen ist. (Zöfel 2003: 213) Dadurch ergeben sich trotz der signikanten Varianzanalyse Fälle, für die der Post-Hoc-Test keine signikant verschiedenen Gruppenmittelwerte ndet. Da hier jedoch nur allgemein ein Einuss der Aufgabenreihenfolge überprüft werden sollte, wird auf weitergehende Analysen verzichtet. Zusammenfassend kann für die vorgestellten Befunde festgestellt werden, dass die Variation der Reihenfolge der Testaufgaben als Designelement sinnvoll war, denn auf diese Weise wurde jedes Topic sowohl als Trainings- als auch als Abschlussaufgabe bearbeitet. Im Weiteren werden Eekte auf die Untersuchungsergebnisse betrachtet, die primär im Zusammenhang mit den Probandinnen stehen. Zu diesen personengebundenen Störeinüssen ist allgemein zu bemerken, dass hier einzelne Abweichungen von für die Mehrheit der Probandinnen gültigen Eigenschaften untersucht werden. Dies impliziert, dass die Häugkeiten der betrachteten Faktoren sehr unterschiedlich ausfallen. Nach Rudolf und Müller kann dadurch die Robustheit der Varianzanalyse vermindert werden (vgl. Rudolf/Müller 2004: 80). Dennoch sollen mögliche Eekte mit dieser Methode 86 6.3. Untersuchungsergebnisse (a) Energie (b) Asien Abbildung 6.2.: Graphische Darstellung der Reihenfolgeeekte analysiert werden. Als erstes soll auf zwei Aspekte hingewiesen werden, die sowohl das untersuchungsmethodische Vorgehen als auch die Testpersonen betreen. Um der Künstlichkeit der Testsituation entgegenzuwirken, wurde es den Teilnehmerinnen freigestellt, die Bearbeitung der Aufgaben vorzeitig zu beenden, falls sie schon vor Ablauf der vorgegebenen Bearbeitungszeit von zehn Minuten der Meinung waren, sich einen ausreichenden Überblick über das betreende Thema verschat zu haben (vgl. Abschn. 5.2). Im Rahmen der Datenüberprüfung sollte aus diesem Grund untersucht werden, ob sich die Verkürzung der Bearbeitungszeit auf die Benutzerleistung auswirkt. Auch in diesem Fall dienten einfaktorielle Varianzanalysen als Testverfahren. Dabei entsprach die Gesamtbearbeitungszeit, die in zwei Stufen (t ≥ 9 min vs. t < 9 min) realisiert wurde, der unabhängigen, die Leistungswerte der Benutzer zu den einzelnen Topics der abhängigen Variable. Tabelle 6.7 zeigt, dass sich nur in drei Fällen ein Hinweis auf einen signikanten Einuss ndet. In Bezug auf die Voraussetzung der Normalverteilung wird wie bei den Reihenfolgeeekten verfahren. Für die beiden signikanten Ergebnisse der Energieaufgabe (BP u. t1.Dok ) sind, im Gegensatz zur Atomaufgabe, die Varianzen nicht homogen. Die Nullhypothese ist also erst bei einer Irrtumswahrscheinlichkeit p < 0, 01 zu verwerfen (vgl. Abschn. 6.2), was jedoch in beiden Fällen erfüllt ist. Für beide Aufgaben ist zu beobachten, dass Teilnehmerinnen, die den Test vorzeitig beendeten, schneller das erste korrekt relevante Dokument auanden (t1.Dok ) (vgl. Anh. C.2). Zusammen mit der Tatsache, dass sich in den recall-orientierten Leistungsmaÿen 87 6. Darstellung und Auswertung der Untersuchungsergebnisse Tabelle 6.7.: Überprüfung der Daten auf Einuss durch selbstbestimmten Abbruch Häugkeiten Energie Asien Atom t< 9 t≥ 9 min 15 min 74 Maÿ 14 78 75 df a Fb Sig.c df F Sig. df F Sig. Dok@10 1 t1.Dok 1 BP 1 0,389 0,372 0,000 0,001 0,895 2,018 1,268 2,364 2,599 0,013 0,159 0,263 0,128 0,111 0,908 1 1 0,748 0,805 164,936 11,918 0,018 1 BR 2,444 2,175 297,034 2,078 1,171 0,122 0,144 0,000 0,153 0,282 PCP a 11 1 Freiheitsgrade b F-Wert 1 1 1 1 1 1 1 1 c Signikanz kein signikanter Unterschied nachweisen lässt, könnte dies folgendermaÿen gedeutet werden: Die Testpersonen dieser Gruppe arbeiten etwas schneller und können einschätzen, wann sie sich einen ausreichenden Überblick über das Thema verschat haben. Auch scheint diese Gruppe, zumindest bei der tendenziell schwierigeren Energieaufgabe, die Relevanz eines Dokuments weniger restriktiv zu bewerten als die restlichen Versuchspersonen. Dies lässt sich daran erkennen, dass Angehörige dieser Gruppe zwar einerseits im Mittel genauso viele Dokumente korrekt als relevant identiziert haben (Dok@10) wie die übrigen Versuchsteilnehmerinnen, andererseits aber der Anteil der korrekt relevant bewerteten an allen als relevant bewerteten Dokumenten (BP) kleiner ist. Zusammenfassend lässt sich festhalten, dass von einigen Testpersonen oenbar eine andere Suchstrategie verfolgt wird. Da dies jedoch auch der realen Anwendungssituation von Information-Retrieval-Systemen entspricht und sich diese Gruppe ausreichend gleichmäÿig über die vier Versuchsbedingungen ( Vpn., S2,2 = 15 S1,1 = 11 Vpn., S1,2 = 5 Vpn., S2,1 = 9 Vpn.) verteilt, erscheint dieser Einuss für die Auswertung der Benut- zerleistung vernachlässigbar. Ein zweiter Aspekt betrit die Beobachtung, dass einige Probandinnen nur Ergebnisse auf der ersten Seite der Ergebnisliste angesehen und bewertet haben. Dies kann zum einen, wie von einigen Versuchspersonen im Gespräch geäuÿert, auf das Übersehen der weiteren Ergebnisseiten oder aber auf eine entsprechende Suchstrategie zurückzuführen sein. Auch hier wurden einfaktorielle Varianzanalysen mit den angesehenen Seiten (nur erste Seite vs. mehr als eine Seite) als unabhängige und den Leistungsmaÿen als abhängige Variablen durchgeführt. Die detaillierten Ergebnisse sind Anhang C.3 zu entnehmen. Erwartungsgemäÿ erreichen diese Probandinnen niedrigere Leistungswerte bei den recall-orientierten Maÿen (Dok@10 u. BR), da ihnen weniger relevante Dokumente 88 6.3. Untersuchungsergebnisse als den übrigen Teilnehmerinnen zugänglich waren. Wegen der geringen Fallzahl von nur 19 aus den 3 × 89 = 267 Datensätzen für alle drei Aufgaben, wird dieser Einuss eben- falls als vernachlässigbar angesehen. Auch aufgrund der Tatsache, dass beide eingangs erwähnten Erklärungsmöglichkeiten auch in einer realen Anwendungssituation auftreten könnten, ist dieses Vorgehen sinnvoll. Wie aus der Stichprobenbeschreibung (vgl. Abschn. 6.1) hervorgeht, war die Muttersprache einiger Testteilnehmerinnen nicht Deutsch. Um auszuschlieÿen, dass dieser Sachverhalt einen signikanten Einuss auf die Ergebnisse der Untersuchung hatte, kamen auch hier mehrere einfaktorielle Varianzanalysen mit dem zweigestuften Faktor Muttersprache (Deutsch vs. Nicht-Deutsch) zur Anwendung. Da zur Auswertung der Benutzerleistung (vgl. Abschn. 6.3.3) die über die drei Aufgaben gemittelten Leistungswerte der Benutzer analysiert werden, wurden diese Mittelwerte sowie die Fragebogenitems zur Benutzerzufriedenheit als unabhängige Variablen herangezogen. Sowohl für die gemittelten Leistungsmaÿe als auch für die 15 Frageitems mit Zufriedenheitsskala war kein signikanter Einuss der Muttersprache festzustellen (vgl. Anh. C.4). Bezüglich der Muttersprache der Probandinnen ist also davon auszugehen, dass dieser Faktor keinen störenden Einuss auf die erhobenen Daten hat. Auf weitere potentielle Störeinüsse wie Alter und Rechercheerfahrung der Versuchsteilnehmerinnen wird in Abschnitt 6.3.4 im Zusammenhang mit der Einbeziehung von Kovariaten eingegangen. 6.3.2. Auswertung der Benutzerzufriedenheit 15 Fragebogenitems, Anh. A.5 Items 1 − 14 u. Um einen ersten Eindruck von den Daten zu gewinnen, wurden die die auf einer Zufriedenheitsskala zu beantworten waren (vgl. 16), zunächst einzeln mit Hilfe von zweifaktoriellen Varianzanalysen ausgewertet. Dem zugrundeliegenden Untersuchungsdesign entsprechend bildeten die Systemleistung und die Erwartungshaltung die unabhängigen Variablen. Die Antworten der Probandinnen zu den einzelnen Fragen gingen jeweils als abhängige Variable in die Auswertung ein. In Tabelle 6.8 sind die Ergebnisse dieser Analysen in Bezug auf die Haupt- und Wechselwirkungseekte für die jeweiligen Items dargestellt. Die Normalverteilungsvoraussetzung ist in keinem der Fälle erfüllt, weswegen ein korrigiertes Signikanzniveau von zu verwenden ist (vgl. Abschn. 6.2). Frageitems 2, 9, 11 und 14 p < 0, 4 erfüllen auch nicht die Bedingung der Varianzhomogenität, so dass hier die Nullhypothese erst bei p < 0, 01 verworfen werden sollte (vgl. ebd.). Aus den Resultaten geht hervor, dass sich in Bezug auf die Systemgüte nur für die 89 6. Darstellung und Auswertung der Untersuchungsergebnisse Tabelle 6.8.: Ergebnisse der Varianzanalysen für die 15 Frageitems mit Zufriedenheitsskala Erwartungshaltung Systemgüte Interaktion a b c Item df F Sig. df F Sig. df F Sig. 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 1 10 1 11 1 12 1 13 1 14 1 1 16 a Freiheitsgrade Frageitems b 0,256 0,714 0,345 0,394 0,260 0,406 0,065 0,263 0,179 0,895 0,037 1,101 0,386 1,235 0,187 F-Wert 0,614 0,400 0,559 0,532 0,611 0,526 0,800 0,609 0,673 0,347 0,848 0,297 0,536 0,270 0,666 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0,018 0,208 0,068 0,096 0,061 1,025 0,168 1,250 7,480 5,222 0,657 1,680 3,526 0,231 0,014 0,894 0,649 0,794 0,758 0,806 0,314 0,683 0,267 0,008 0,025 0,420 0,198 0,064 0,632 0,905 1,134 3,519 1,566 1,416 6,336 0,581 0,065 1,211 0,055 0,003 2,044 1,680 0,875 0,985 0,239 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0,290 0,064 0,214 0,237 0,014 0,448 0,800 0,274 0,815 0,954 0,157 0,198 0,352 0,324 0,626 c Signikanz 9 (Die Artikel hätten besser geltert werden können.) Artikel waren für die dazugehörigen Suchanfragen relevant.) und 10 (Die meisten signikante Unterschiede feststellen lassen. Es werden also Zufriedenheitsurteile zu dem gleichen Sachverhalt, der Precision der Ergebnislisten, abgefragt. In beiden Fällen sind die Angehörigen der Versuchsgruppen, denen der höhere Systemlevel zugeordnet wurde (S1,2 u. S2,2 ), zufriedener mit den präsentierten Suchergebnissen. Dies lässt sich anhand der Gruppenmittelwerte für den niedrigen (B1 ) und den hohen Systemlevel (B2 ) verdeutlichen. Es ergeben sich 5 für Item 9 Mittelwerte von 5, 47 (B1 ) zu 4, 52 (B2 ) beziehungsweise 3, 58 (B1 ) zu 2, 95 (B2 ) für Item beträgt der 10, wobei niedrigere Werte einer höheren Zufriedenheit entsprechen. Damit prozentuale Mittelwertunterschied in beiden Fällen circa 18%. Die unter- schiedliche Qualität der Ergebnislisten zwischen den beiden Systemlevels wurde von den Probandinnen also tatsächlich wahrgenommen. Für den bei Frageitem 5 signikanten Interaktionseekt ist nach Bortz keine Interpretation möglich, da keine signikanten Haupteekte vorliegen (vgl. Bortz/Döring 1995: 498). Die Manipulation der Erwartungshaltung zeigt bei keinem der Frageitems eine signikante Wirkung, was im ersten Moment darauf schlieÿen lassen könnte, dass sie kei- 5 Zu beachten ist, dass Frageitem 9 negativ formuliert ist, weshalb die Skala zum besseren Vergleich mit den anderen Frageitems umgedreht wurde. 90 6.3. Untersuchungsergebnisse nen Einuss auf die Wahrnehmung von Retrievalergebnissen besitzt. Wahrscheinlicher erscheint allerdings die Interpretation, dass die Manipulation im Rahmen dieser Untersuchung nicht in ausreichendem Maÿe gelungen ist. Dafür spricht die Tatsache, dass sich in der Auswertung der Leistungsmaÿe, die im nächsten Abschnitt berichtet wird, ebenfalls kein signikanter Einuss der Erwartungshaltung nachweisen lässt. Darüber hinaus wurde eine nicht ausreichende Manipulation durch einige Versuchspersonen im informellen Gespräch bestätigt. Auf mögliche Verbesserungsvorschläge für Folgestudien wird in Kapitel 7 eingegangen. Obgleich kaum signikante Unterschiede zwischen den Versuchsbedingungen nachgewiesen werden konnten, soll im Folgenden versucht werden, eine gemeinsame Zufriedenheitsskala für diejenigen Frageitems zu konstruieren, die direkt auf die Qualität der Ergebnislisten Bezug nehmen. Dies entspricht den in Fragebogenteil 8 bis 14. B enthaltenen Items Dazu wurde zunächst eine Reliabilitätsanalyse dieser sieben Fragen durchge- führt. Pospeschill beschreibt den Zweck einer solchen Analyse wie folgt: Grundlegend geht es dabei um die Frage, ob sich verschiedene Skalen zu einer gemeinsamen Skala zusammenfassen lassen, so dass sie bestimmten Anforderungen an die Reliabilität ('Zuverlässigkeit') genügt. (Pospeschill 2007: 201) Der hierzu berechnete als Cronbachs Alpha bezeichnete Kennwert ist ein Maÿ dafür, wie stark die einzelnen Items untereinander korrelieren (vgl. a.a.O.: 202). Eine hohe Korrelation wird dabei als Hinweis auf die Zuverlässigkeit der Skala gewertet (vgl. ebd.). Die Reliabilitätsanalyse ermöglicht es also, Frageitems zu identizieren, die zur Erhöhung der Zuverlässigkeit einer gemeinsamen Skala ausgeschlossen werden sollten. In Bezug auf die hier betrachteten Frageitems ergibt sich, dass ein Ausschluss von Item 12 zu einer Verbesserung des Cronbachs Alpha der resultierenden Skala auf führt, was nur knapp unter einem als ausreichend betrachteten Wert von 0, 7 0, 69 liegt (vgl. ebd.). Weitere Items zu entfernen, würde zu keiner Erhöhung dieses Wertes mehr führen (vgl. Anh. C.7). Da aus den bisherigen Ergebnissen eher ein signikanter Einuss der 12 auszuschlieÿen. Mit Die Ergebnislisten waren zu umfangreich. (Item 12) wird nämlich die Systemgüte zu erwarten ist, erscheint es plausibel, Frageitem der Behauptung Zufriedenheit mit einer Eigenschaft des präsentierten Anwendungssystems erhoben, das für beide Systemlevels identisch war (vgl. Abschn. 5.2.3). Es wäre also zu vermuten, dass hier eher die Erwartungshaltung zu einer unterschiedlichen Wahrnehmung führen würde. Die Ergebnisse der Varianzanalyse für die resultierende Skala aus den Items 11, 13 und 14 8, 9, 10, ist in Tabelle 6.9 angegeben. Der signikante Unterschied zwischen den beiden Systemlevels, der schon für die Einzelauswertungen der Fragen 9 und 10 festge- 91 6. Darstellung und Auswertung der Untersuchungsergebnisse Tabelle 6.9.: Ergebniss der Varianzanalyse nach der Skalenbildung Erwartungshaltung Systemgüte Interaktion a b c df F Sig. df F Sig. df F Sig. 1 a 0,343 Freiheitsgrade b 0,560 F-Wert 1 5,846 0,018 1 0,001 0,980 c Signikanz stellt werden konnte, wird auch hier sichtbar. Zu erwähnen ist, dass für die kombinierte Skala beide Voraussetzungen der Varianzanalyse erfüllt sind. Für Testteilnehmerinnen, denen der niedrigere Systemlevel präsentiert wurde, ergibt sich ein durchschnittlicher Wert von ein mittlerer Wert von 3, 31. 3, 76 auf der Zufriedenheitsskala, für die übrigen Benutzer des besseren Systems sind also im Mittel etwas zufriedener als die übrigen Probandinnen, wenn der Unterschied mit etwa einem halben Skalenwert (3, 76 − 3, 31 = 0, 45) auch relativ gering ausfällt. (a) Erwartungshaltung - Zufriedenheit (b) Systemlevel - Zufriedenheit Abbildung 6.3.: Interaktionsdiagramm C/D-Paradigma In den Abbildungen 6.3(a) und (b) sind die Mittelwerte für alle vier Versuchsgruppen aufgetragen. Wenn die Unterschiede in Bezug auf die Erwartungshaltung auch nicht signikant sind, lässt sich tendenziell doch die durch das C/D-Paradigma vorausgesagte Beeinussung der Benutzerzufriedenheit, wie sie in den Untersuchungshypothesen formuliert wurden, erkennen (vgl. Abschn. 5.1.1). Der Einuss der beiden Systemlevels ist am deutlichsten ausgeprägt und für beide Erwartungshaltungen ist die Zufriedenheit mit dem besseren System gröÿer als mit dem schlechteren (vgl. Abb. 6.3(a)). Zusätzlich erscheinen die Angehörigen der Unterschungsgruppen mit der niedrigen Erwartungshaltung im Durchschnitt zufriedener 92 6.3. Untersuchungsergebnisse als die Testpersonen mit der hohen Erwartungshaltung (vgl. Abb. 6.3(b)). Gerade dies wird auch vom C/D-Paradigma postuliert. Bei der hohen Erwartungshaltung und dem niedrigen Systemlevel stimmen Soll- und Ist-Leistung nicht überein, was eine negative Diskonrmation zur Folge hat. Entsprechend ist die betreende Versuchsgruppe weniger zufrieden mit dem System als Testpersonen mit der niedrigen Erwartungshaltung. Der umgekehrte Eekt zeigt sich beim höheren Systemlevel. Hier erfahren die Versuchsteilnehmerinnen mit der niedrigeren Erwartungshaltung eine positive Diskonrmation, was sie das Suchsystem positiver beurteilen lässt als alle übrigen Probandinnen. Allerdings soll an dieser Stelle noch einmal ausdrücklich darauf hingewiesen werden, dass diese Effekte nur tendenziell und ohne signikante Mittelwertunterschiede zu beobachten sind. Hier könnte eine Studie mit einer deutlicheren Manipulation der Erwartungshaltung weiteren Aufschluss bringen. Des Weiteren ist an Abbildung 6.3 abzulesen, dass die durchschnittlichen Zufriedenheitsurteile aller Testpersonen im positiven Bereich der Antwortskala (Skalenwerte < 4) Würdest Du den Einsatz von Periodikum als Suchmaschine für Fachzeitschriften in der Hildesheimer Universitätsbibliothek empfehlen? ) zu, bei dem die Zufriedenheit der Teilnehmerinnen liegen. Diese Beobachtung trit in besonderem Maÿe auch auf Item 16 ( auf indirektem Weg gemessen werden sollte (vgl. Abschn. 5.2.4). Abbildung 6.4.: Histogramm Frageitem 16 89 Probandinnen eine Beurteilung im negativen Bereich der Antwortskala (Skalenwert > 4) abgegeben (vgl. Abb. 6.4). Selbst wenn man die vier neutralen Antworten (Skalenwert = 4) noch zu diesem Bereich hinzuzählt, ergibt sich ein prozentualer Anteil von fast 90% der Testpersonen, die diese Frage positiv Hier haben nur 5 der insgesamt beantwortet haben. Einerseits könnte diese Häufung der Skalenwerte im positiven Bereich der Antwortskala bedeuten, dass die Versuchspersonen im Schnitt tatsächlich mit 93 6. Darstellung und Auswertung der Untersuchungsergebnisse den Suchergebnissen zufrieden waren. Andererseits könnte die allgemeine Tendenz positiver Bewertungen auch als Hinweis darauf verstanden werden, dass die Zufriedenheit mit dem präsentierten Suchsystem durch dieses Frageitem nicht erfasst wird. So könnte es beispielsweise sein, dass die generelle Möglichkeit, in einer Universitätsbibliothek nach Artikeln aus Fachzeitschriften zu suchen, unabhängig von der individuellen Zufriedenheit mit dem präsentierten Suchsystem begrüÿt wird. Dafür spricht auch, dass die Manipulation des Systemlevels keinen signikanten Eekt zeigt (vgl. Tab. 6.8). Frageitem 15 (Hättest Du andere Suchbegrie eingegeben? Falls ja, welche? ) kann nicht mittels Varianzanalyse ausgewertet werden, da es sich um eine Ja/Nein-Frage handelt. In Bezug auf dieses Fragebogenitem ist auÿerdem kritisch anzumerken, dass hier die Regel, nur einen Sachverhalt pro Frage anzusprechen (vgl. Abschn. 3.2.2), verletzt wird. Um die Frage auswerten zu können, mussten die Daten zunächst angepasst werden. Dazu wurden die Antworten in zwei Gruppen eingeteilt, je nachdem, ob die Versuchspersonen für eine oder mehrere Testaufgaben alternative Suchbegrie angegeben haben oder nicht. Aufgrund der Tatsache, dass es sich hierbei um eine nominalskalierte Variable handelt, wurden die Daten mit einer Kreuztabelle ausgewertet (vgl. Abschn. 6.2). Tabelle 6.10.: Antworthäugkeiten Frageitem 15 Weitere Suchbegrie Keine weiteren Suchbegrie S1,1 S1,2 S2,1 S2,2 18 4 17 5 15 8 18 4 Gesamt 68 21 % 0,76 0,24 Für keine der vier verschiedenen Untersuchungsbedingungen lassen sich signikante Unterschiede in den Häugkeiten der beiden Antwortmöglichkeiten nachweisen (vgl. Anh. C.8). Vielmehr ist zu beobachten, dass die Anzahl der Testpersonen, die gern weitere Suchbegrie eingegeben hätten, über die Versuchsgruppen hinweg nahezu konstant ist und insgesamt einem Anteil von über 70% entspricht (vgl. Tab. 6.10). Dies deutet darauf hin, dass es sich bei der Reformulierung von Suchanfragen eher um eine grundlegende Suchstrategie handelt, die von den Untersuchungsbedingungen unabhängig ist. Gestützt wird diese Interpretation dadurch, dass die im Untersuchungsdesign begründete Beschränkung auf vorgegebene Suchbegrie von einigen Testteilnehmerinnen als unnatürlich empfunden wurde. Dies ergab sich sowohl aus Gesprächen mit einzelnen Testpersonen als auch aus einzelnen der noch zu berichtenden Antworten zu Item Die indirekt gestellte Zufriedenheitsfrage am Ende des Fragebogens (Item 29) 27. (vgl. Abschn. 5.2.4) wurde ebenfalls mittels einer Kreuztabelle ausgewertet. Auch in diesem 94 6.3. Untersuchungsergebnisse Fall lassen sich keine signikanten Unterschiede zwischen den vier Faktorstufenkombinationen feststellen (vgl. Anh. C.9). Insgesamt erklärten sich 76 der 89 Untersuchungsteil- nehmerinnen bereit, an einem weiteren Benutzertest mit einer anderen Suchmaschine teilzunehmen, was einem prozentualen Anteil von 85% entspricht. Hier scheint einge- treten zu sein, was durch den Hinweis auf eine andere Magisterarbeit verhindert werden sollte, dass sich nämlich die Probandinnen zu einer Zusage gedrängt fühlten (vgl. Abschn. 5.2.4). Somit ist auch in Bezug auf dieses Item fraglich, ob tatsächlich die Zufriedenheit der Testpersonen mit dem präsentierten Suchsystem gemessen wurde. Durch die beiden oenen Fragen (Item 26 u. 27) sollte den Probandinnen die Mög- lichkeit gegeben werden, zusätzliche Aspekte anzusprechen, die durch das vorgegebene Antwortspektrum nicht berücksichtigt wurden (vgl. Abschn. 5.2.4). Zur Auswertung von Item 26 (Wenn Du möchtest, kannst Du hier genauer angeben, welche Stärken und Schwächen die Suchmaschine Periodikum aus Deiner Sicht hat: ) bietet sich eine quantitative Inhaltsanalyse der Antworttexte an (vgl. Bortz/Döring 1995: 138 f ). Diese Auswertungsmethode beruht auf einer [. . . ] Zuordnung der einzelnen Teile eines Textes zu ausgewählten, übergreifenden Bedeutungseinheiten (Kategorien) [. . . ]. (a.a.O.: 138) Eine nachfolgende Analyse der Häugkeiten in den einzelnen Kategorien gibt Aufschluss über den Inhalt der untersuchten Antworten (vgl. ebd.). In einem ersten Schritt wurden dazu die Antworten der Testteilnehmerinnen danach unterschieden, ob sie Stärken oder Schwächen des Systems zum Inhalt haben. Darüber hinaus lassen sich die Antworttexte zu folgenden sechs Kategorien zusammenfassen: Kommentare, die die Gestaltung der graphischen Benutzeroberäche des Anwendungsprogramms oder formale Aspekte der Ergebnislisten wie zum Beispiel deren Übersichtlichkeit zum Inhalt haben (L dungssystems (U =Layout), Einschätzungen der Bedienbarkeit des Anwen- 6 =Usability ), Anmerkungen bezüglich der Kurzbeschreibungen zu den einzelnen Dokumenten (S =Snippet), Bemerkungen zur Qualität und Relevanz der Suchergebnisse, die nicht explizit auf das Ranking der Ergebnisse verweisen (T =Treer), Bewertungen des Rankings der Ergebnislisten (R =Ranking) und schlieÿlich allgemeine Äuÿerungen, die im weitesten Sinne die thematische Ausrichtung der Suchmaschine betreen (I =Inhalt). Insgesamt nahmen 77 der Versuchsteilnehmerinnen die Möglich- keit wahr, das präsentierte Suchsystem in Form einer selbst formulierten Antwort zu 87% der Gesamtstichprobe entspricht. In 48% dieser Fälle werden sowohl auch Schwächen benannt, in weiteren 40% nur Schwächen, in den restlichen bewerten, was Stärken als 6 Die Usability [. . . ] eines Produktes ist das Ausmaÿ, in dem es von einem bestimmten Benutzer verwendet werden kann, um bestimmte Ziele in einem bestimmten Kontext eektiv, ezient und zufrieden stellend zu erreichen. (Strauch 2004: 43) 95 6. Darstellung und Auswertung der Untersuchungsergebnisse 12% nur Stärken angemerkt. Tabelle 6.11 schlüsselt die Häugkeiten der Stärken und Schwächen nach Versuchsbedingungen und Kategoriezugehörigkeit auf. Eine Auistung der genauen Antworttexte mit den vergebenen Kategorien ist in Anhang D.1 zu nden. Tabelle 6.11.: Kategoriezugehörigkeit der genannten Stärken und Schwächen S1,1 Kategorie S1,2 S2,1 S2,2 Stärke Schwäche Stärke Schwäche Stärke Schwäche Stärke Schwäche T 2 7 4 6 0 7 3 3 L 3 5 5 6 12 2 6 4 R 2 5 2 5 2 8 0 3 S 0 3 2 3 5 3 1 1 U 3 3 4 4 6 2 7 3 I 1 2 3 0 5 3 2 4 Gesamt 11 25 20 24 30 25 19 18 Prozent 0,31 0,69 0,45 0,55 0,55 0,45 0,51 0,49 Aufaddiert halten sich die Gesamthäugkeiten der genannten Stärken und Schwächen über alle Kategorien hinweg in jeder Versuchsbedingung die Waage. Etwas stärker weicht hier die Versuchsgruppe mit der niedrigen Erwartungshaltung und dem schlechteren Systemlevel (S1,1 ) ab. Ob hier der Hinweis, die Suchmaschine werde in einem Studentenprojekt weiterentwickelt, die Probandinnen stärker dazu animierte, Verbesserungsvorschläge anzubringen, kann jedoch nicht abschlieÿend geklärt werden. Zwar überwiegt auch bei der zweiten Versuchsgruppe mit der niedrigen Erwartungshaltung (S1,2 ) der Anteil der genannten Schwächen, doch fällt dieser Unterschied mit 55% 45% zu weit geringer aus. Insgesamt ist zu berücksichtigen, dass sich die Anmerkungen der einzelnen Testpersonen meist nur auf wenige der Kategorien beziehen, was in der Folge zu geringen Fallzahlen innerhalb der einzelnen Antworttypen führt. Dies deutet darauf hin, dass hier eher Einzelmeinungen vorliegen. Eine Interpretation der Ergebnisse der einzelnen Kategorien im Sinne einer Verallgemeinerung auf die Gesamtstichprobe erscheint deshalb problematisch. Frage 27 (Falls Du noch Anmerkungen zu dem Benutzertest hast, kannst Du diese hier einbringen: ) wurde nur von sehr wenigen Probandinnen beantwortet, weshalb eine quantitative Inhaltsanalyse an dieser Stelle nicht sinnvoll erscheint. Da diese Frage als Gesamtbeurteilung des Benutzertests aus Sicht der Testteilnehmerinnen dienen sollte, genügt hier eine Auswertung der Antworttexte über alle vier Versuchsgruppen hinweg. Zunächst wurden Antworten, die thematisch eher auf Item 96 26 zutrafen, wie zum Beispiel 6.3. Untersuchungsergebnisse Die Seitenübersicht sollte zu jeder Zeit ersichtlich sein. nachträglich selbigem zugeordnet. Sieht man von sehr allgemeinen Aussagen wie war super! oder mehr frische Luft ab, beziehen sich die übrigen neun Angaben auf die konkrete Aufgabenstellung. An der Beurteilung des Schwierigkeitsgrads der Aufgaben, der sowohl als hoch wie auch als niedrig eingeschätzt wird, kann man ablesen, dass es sich auch hier um Einzelmeinungen handelt. Weitere Aussagen betreen weitestgehend die Themenauswahl für die zu bearbeitenden Aufgaben. Der genaue Wortlaut der Kommentare kann ebenfalls in Anhang D.2 eingesehen werden. Hervorzuheben ist noch, dass, wie bereits in der Auswertung von Frage 15 angesprochen, zwei Probandinnen explizit darauf hinweisen, dass sie die Suchbegrie gern selbst gewählt hätten. Die Auswertung von Item 28 hat ergeben, dass nur 2 der 27 Probandinnen, welche diese zusätzliche Frage gestellt bekamen, angaben, im Vorfeld der Untersuchung versucht zu haben, sich im Internet über die Suchmaschine Periodikum zu informieren (vgl. Abschn. 5.2.4). In beiden Fällen hat sich jedoch im Rahmen eines informellen Gesprächs im Anschluss an den Benutzertest herausgestellt, dass dies keinen Einuss auf die Glaubwürdigkeit des präsentierten Systems hatte, so dass von einem Ausschluss der von diesen Probandinnen erhobenen Daten in der Folge abgesehen wurde. 6.3.3. Auswertung der Benutzerleistung In diesem Abschnitt wird die Auswertung der Testergebnisse zur Benutzerleistung dargestellt. Den Ausgangspunkt bildet eine Analyse der von den Versuchspersonen aufgerufenen Dokumente, da diese direkt oder indirekt in die Berechnung der einzelnen Leistungsmaÿe einieÿen und so die Ursachen der in den Performanzmaÿen auftretenden Eekte besser beurteilt werden können. Allgemein steht dabei die mittlere Leistung der Testpersonen über alle drei und nicht ihr Abschneiden in den einzelnen Aufgaben im Vordergrund. Deshalb fanden zunächst die in der Information-Retrieval-Forschung üblichen Mittelwertbildungsverfahren Anwendung: Die Makro- und die Mikromethode (vgl. Abschn. 2.3.2). Unterschiede zwischen den mit diesen beiden Methoden erhaltenen Werte treten bei allen Testpersonen höchstens in der zweiten Nachkommastelle auf. Aus diesem Grund und weil beide Methoden auf qualitativ identische Resultate führen, wird im Folgenden nur auf die Ergebnisse für die Makromittelwerte eingegangen, da dieses Verfahren in der Retrievalbewertung am häugsten verwendet wird (vgl. Womser-Hacker 2004: 231). Die Ergebnisse der Mikromittelwerte können Anhang C entnommen werden. Neben den schon in Abschnitt 5.2.4 denierten Dokumentenmengen zur Berechnung 97 6. Darstellung und Auswertung der Untersuchungsergebnisse Tabelle 6.12.: Denition der Dokumentenmengen a M Denition M1 M2 M3 M4 M5 M6 M7 Menge der von CLEF als relevant bewerteten Dokumente in der Ergebnisliste a Menge der von einer Vpn. aufgerufenen Dokumente Menge der von einer Vpn. als relevant bewerteten Dokumente Menge der von einer Vpn. übereinstimmend mit CLEF als relevant bewerteten Dokumente Menge der von einer Vpn. aufgerufenen und von CLEF als relevant bewerteten Dokumente Menge der von einer Vpn. im Gegensatz zu CLEF als irrelevant bewerteten Dokumente Menge der von einer Vpn. im Gegensatz zu CLEF als relevant bewerteten Dokumente Versuchsperson der fünf Leistungsmaÿe werden im Folgenden noch drei weitere Teilmengen von M2 be- trachtet: Die Menge der aufgerufenen und von CLEF als relevant bewerteten Dokumente M5 , die Menge der im Gegensatz zu CLEF als irrelevant bewerteten Dokumente M6 und die Menge der im Gegensatz zu CLEF als relevant bewerteten Dokumente M7 . Zur besseren Übersicht sind alle Denitionen noch einmal in Tabelle 6.12 zusammengefasst. In Tabelle 6.13 sind die Ergebnisse zweifaktorieller Varianzanalysen mit den beiden Faktoren Erwartungshaltung und Systemgüte angegeben. Als abhängige Variablen gingen die über die drei Topics gemittelten Anzahlen der in den Mengen M6 und M7 enthaltenen Dokumente ein. Da die Anzahl der Dokumente M2 , M3 , M5 , in M4 gerade der Dok@10 entspricht, wird sie im Zusammenhang mit den übrigen Leistungsmaÿen behandelt. Die Normalverteilungsvoraussetzung wird von keiner der betrachteten Einussgröÿen erfüllt. Des Weiteren ist bei der Menge M7 auch die Varianzhomogenität verletzt, so dass die Signikanzniveaus entsprechend abzusenken sind (vgl. Abschn. 6.2). Tabelle 6.13.: Varianzanalyse der von den Benutzern angesehenen Dokumente Dokumente Erwartungshaltung Systemgüte Interaktion a b c in Menge df F Sig. df F Sig. df F Sig. M2 M3 M5 M6 M7 a Freiheitsgrade 1 1 1 1 1 b F-Wert 2,454 3,317 1,971 1,205 2,825 0,121 0,072 0,164 0,276 0,096 1 1 1 1 1 0,068 0,012 1,498 4,750 9,932 0,795 0,912 0,224 0,032 0,002 1 1 1 1 1 1,876 1,386 4,174 2,591 1,159 0,174 0,242 0,044 0,111 0,285 c Signikanz Einzig die beiden Gröÿen, bei denen die Teilnehmer der Relevanzbewertung der CLEF-Juroren widersprechen (M6 u. M7 ), den beiden Systemlevels erkennen. Mit fast 98 lassen signikante Unterschiede zwischen 30% (M6 ) und fast 60% (M7 ) weisen diese 6.3. Untersuchungsergebnisse Mengen auch mit den gröÿten prozentualen Mittelwertunterschied auf (vgl. Tab. 6.14). Zunächst soll auf die Dierenz bezüglich der Anzahl der Dokumente, bei denen einer positiven Relevanzbewertung der CLEF-Juroren widersprochen wurde, eingegangen werden (M6 ). Eine mögliche Interpretation ist, dass die Testpersonen, die viele zu einem Thema relevante Dokumente präsentiert bekamen (B2 ), die Relevanz der einzelnen Dokumente strenger bewerteten. Beispielsweise könnten solche Benutzer Dokumente als irrelevant empfunden haben, die thematisch nur zu einem geringen Teil mit ihrem Informationsbedürfnis in Verbindung standen. Diese restriktive Bewertung würde auch erklären, warum diese Versuchsgruppe im Mittel weniger irrelevante Dokumente als relevant markiert hat (M7 ). Nimmt man die Bewertung der CLEF-Juroren als Maÿstab, so sollten von ihnen als irrelevant markierte Dokumente erst recht von der strenger bewertenden Versuchsgruppe abgelehnt worden sein. Tabelle 6.14.: Mittelwerte der Dokumentenanzahlen Erwartungshaltung Systemgüte Interaktion M2 M3 M5 M6 M7 A1 A2 B1 B2 S1,1 S1,2 S2,1 S2,2 14,83 11,59 11,94 1,80 1,46 12,52 9,11 10,29 2,13 0,95 13,87 10,43 10,39 1,64 1,68 13,49 10,27 11,83 2,29 0,73 14,02 10,86 10,02 1,24 2,09 15,65 12,32 13,86 2,36 0,82 13,73 9,99 10,77 2,04 1,26 11,32 8,23 9,80 2,21 0,64 Der beobachtete Eekt lässt sich auch aus der entgegengesetzten Perspektive interpretieren. Die Gesamtzahl der Dokumente, die im Widerspruch zu den CLEF-Juroren als relevant markiert wurden (M7 ), ist in der Versuchsgruppe, der der niedrigere Systemlevel (B1 ) präsentiert wurde, signikant höher. Diese Testpersonen scheinen die Relevanz der einzelnen Dokumente also weniger streng zu bewerten. Die geringere Anzahl an relevanten Dokumenten in der Ergebnisliste könnte hier dazu geführt haben, dass auch thematisch weiter vom eigenen Informationsbedürfnis entfernte Dokumente als relevant akzeptiert wurden. Umgekehrt sollten Angehörige dieser Versuchsgruppe dann auch seltener ein von den CLEF-Juroren als relevant eingeschätztes Dokument abgelehnt haben (M6 ), was in der Tat zu beobachten ist (vgl. Tab 6.14). Ob tatsächlich eines dieser Erklärungsmodelle oder ein Zusammenwirken beider für die beobachteten Eekte verantwortlich ist, muss an dieser Stelle allerdings oen bleiben. Die Tatsache, dass auch hier für die Erwartungshaltung kein signikanter Eekt festzustellen ist, liefert einen weiteren Hinweis darauf, dass die Manipulation dieser Untersuchungsbedingung nicht stark genug ausgeprägt war. 99 6. Darstellung und Auswertung der Untersuchungsergebnisse Wie die nicht signikanten Haupt- und Interaktionseekte der übrigen Mengen vermuten lassen, liegen hier die Mittelwerte in der gleichen Gröÿenordnung (vgl. Tab. 6.14). Dies ist schon ein Hinweis darauf, dass auch in den Leistungsmaÿen nur geringe Dierenzen sichtbar werden, was im Folgenden bestätigt wird. Die Ergebnisliste des schlechteren Systems enthielt weniger relevant bewertete Dokumente. Aus diesem Grund hätte man erwarten können, dass sich ein deutlicher Unterschied in der Anzahl der aufgerufenen relevanten Dokumente (M5 ) zwischen den beiden Systemlevels zeigt. Doch bestätigt sich diese Vermutung nur tendenziell. Der bei der Menge M5 auftretende Interaktionseekt (vgl. Tab. 6.13) kann mangels signikanter Haupteekte nicht weiter interpretiert werden (vgl. Bortz/Döring 1995: 498), auch ist die Signikanz hier wegen der Verletzung der Normalverteilungsbedingung anzuzweifeln. Zur Auswertung der fünf in Abschnitt 5.2.4 beschriebenen Leistungsmaÿe wurden zweifaktorielle Varianzanalysen mit diesen als abhängige und der Erwartungshaltung und der Systemgüte als unabhängige Variablen durchgeführt. Nur bei der Pre-ClickPrecision (PCP) ist die Normalverteilungsbedingung erfüllt, für die restlichen Maÿe also das Signikanzniveau anzupassen. Hingegen verletzt bis auf die Benutzer-Precision (BP) kein Performanzmaÿ die Voraussetzung der Varianzhomogenität. Tabelle 6.15.: Ergebnisse der zweifkatoriellen Varianzanaylsen der Leistungsmaÿe Erwartungshaltung Systemgüte Interaktion a b c Maÿ df F Sig. df F Sig. df F Sig. Dok@10 1 BR 1 t1.Dok 1 BP 1 PCP a Freiheitsgrade 1 b 2,868 2,562 0,041 0,486 0,939 F-Wert 0,094 0,113 0,840 0,488 0,335 1 1 1 1 1 0,465 0,519 0,101 13,045 4,424 0,497 0,473 0,751 0,001 0,038 1 1 1 1 1 2,731 2,316 0,289 4,823 1,013 0,102 0,132 0,592 0,031 0,317 c Signikanz In Tabelle 6.15 sind deren Ergebnisse in Bezug auf die Haupt-und Wechselwirkungseekte dargestellt. Sowohl für die Benutzer-Precision (BP) als auch für die Pre-ClickPrecision (PCP) lässt sich ein signikanter Einuss der Systemgüte auf die Benutzerleistung nachweisen. Für die restlichen Maÿe zeigt keine der Versuchsbedingungen einen signikanten Einuss. Tendenziell ist allerdings, wie erwartet, die Zahl der korrekt relevanten Dokumente (Dok@10) beim besseren System (B2 ) gröÿer als beim schlechteren (B1 ) (vgl. Tab. 6.16). Der gegensätzliche Trend zu einem geringeren Benutzer-Recall (BR) bei Testpersonen, 100 6.3. Untersuchungsergebnisse denen der höhere Systemlevel präsentiert wurde, überrascht in diesem Zusammenhang zunächst, da hier als Benutzerleistung nur die Dok@10 in die Berechnung eingeht. Allerdings ist zu beachten, dass sich der Benutzer-Recall als Quotient aus der Dok@10 und der Gesamtzahl relevanter Dokumente in der Ergebnisliste berechnet (vgl. Abschn. 5.2.4). Da die Ergebnisliste des schlechteren Systems weniger relevante Dokumente enthält (vgl. Abschn. 5.2.3) und der Unterschied in der Dok@10 zwischen den beiden Systemlevels relativ gering ausfällt, gibt hier das Teilen durch eine kleinere Zahl den Ausschlag. Damit erklärt sich der niedrigere Wert des Benutzer-Recalls bei Versuchspersonen mit dem besseren System. Insgesamt scheinen aber die Probandinnen in Bezug auf die recall-orientierten Maÿe in der Lage zu sein, den Unterschied zwischen den Systemlevels zu kompensieren, was sich an den nicht signikanten Haupteekten von Dok@10 und BR ablesen lässt (vgl. Tab. 6.15). Die Zeit, die zum Aunden des ersten korrekt relevanten Dokuments benötigt wurde (t1.Dok ), zeigt auch keine signikante Beeinussung durch die beiden unterschiedlichen Systemlevels. Da der prozentuale Mittelwertunterschied mit einem knappen Prozent mit Abstand am geringsten ausfällt, kann hier auch nicht von einem Trend in die eine oder andere Richtung gesprochen werden. Tabelle 6.16.: Mittelwerte der Leistungsmaÿe Erwartungshaltung Systemgüte Interaktion Dok@10 BR t1.Dok BP PCP A1 A2 B1 B2 S1,1 S1,2 S2,1 S2,2 10,14 0,20 440,99 0,89 0,67 8,16 0,16 443,62 0,90 0,64 8,75 0,19 440,23 0,86 0,62 9,55 0,17 444,38 0,93 0,68 8,77 0,19 435,42 0,83 0,62 11,50 0,21 446,56 0,95 0,71 8,73 0,19 445,04 0,89 0,62 7,59 0,14 442,20 0,92 0,66 Die signikant niedrigeren Werte in der Pre-Click-Precision (PCP) bei Teilnehmerinnen, die mit dem schlechteren System gearbeitet haben, bei gleichzeitig nicht signikant unterschiedlicher Dok@10, scheint im ersten Moment folgende Interpretation nahezulegen: Die entsprechenden Versuchspersonen mussten mehr Dokumente önen, um die gleiche Anzahl korrekt relevanter Dokumente zu nden wie die Angehörigen der Versuchsgruppe mit dem besseren System. Allerdings ist der Unterschied in der Menge M2 auch nicht signikant, wie Tabelle 6.14 zu entnehmen ist. Stattdessen tritt hier ein Verstärkungseekt auf. 101 6. Darstellung und Auswertung der Untersuchungsergebnisse Wie bereits erläutert, nden die Probandinnen mit dem schlechteren System zumindest tendenziell weniger korrekt relevante Dokumente (Dok@10) als Angehörige der Vergleichsgruppe mit dem höheren Systemlevel. Wie aus den zu Beginn dieses Abschnitts analysierten Dokumentenmengen hervorgeht, lässt sich bei den Probandinnen mit der geringeren Systemgüte weiterhin ein schwacher Trend zu einer gröÿeren Anzahl an geöneten Dokumenten beobachten (vgl. Tab. 6.14). Für sich genommen ist keiner dieser Unterschiede signikant. Für die Berechnung der Pre-Click-Precision werden diese beiden Gröÿen aber durcheinander geteilt. Die bei dem schlechteren System schon tendenziell geringere Dok@10 wird so noch durch die tendenziell gröÿere Zahl der angesehenen Dokumente geteilt. Bei dem besseren System ist es genau umgekehrt. Die daraus resultierende Verstärkung der Unterschiede zwischen den beiden Systemlevels führt in der Konsequenz zu einer signikanten Mittelwertdierenz. Im Folgenden soll untersucht werden, wie der signikante Unterschied in der BenutzerPrecision (BP) zu erklären ist. Sie ist als der Quotient der Dok@10 und der Menge der als relevant markierten Dokumente (M3 ) deniert. Beachtet man, dass sich M3 in die Summe aus Dok@10 und der Anzahl der fälschlicherweise als relevant markierten Dokumente (M7 ) zerlegen lässt, ergibt sich für die BP: BP = Dok@10 Dok@10 + M7 = Dok@10 Dok@10(1 Man erkennt, dass die BP nur von der Gröÿe + M7 Dok@10 ) = 1 1+ M7 (6.1) Dok@10 M 7 Dok@10 abhängt. Damit wird der Unter- schied in der Benutzer-Precision zwischen den beiden Systemlevels in erster Linie durch die zu Beginn dieses Abschnitts analysierte signikante Mittelwertdierenz in der Menge M7 verursacht. An der Benutzer-Precision ist also direkt die restriktivere beziehungs- weise weniger strenge Relevanzbewertung der beiden Versuchsgruppen abzulesen. Durch den tendenziellen Unterschied in der Zahl der korrekt relevant markierten Dokumente wird dieser Unterschied höchstens noch weiter verstärkt. Interessant ist der bei der Benutzer-Precision tendenziell auftretende Wechselwirkungseekt zwischen Erwartungshaltung und Systemgüte, wenn dieser wegen der Verletzung der Varianzhomogenität auch knapp nicht signikante ist. Wie aus den Interaktionsdiagrammen in Abbildung 6.5 hervorgeht, handelt es sich dabei um eine hybride Interaktion, da die Linienzüge in Diagramm 6.5(a) entgegengesetzt und in Diagramm 6.5(b) gleichsinnig verlaufen (vgl. Bortz 2005: 301). Damit ist, wie zuvor geschehen, nur die Systemleistung global als bei dem höheren Systemlevel gröÿer zu interpretieren 102 6.3. Untersuchungsergebnisse (a) Erwartungshaltung - Benutzer-Precision (b) Systemleistung - Benutzer-Precision Abbildung 6.5.: Interaktionsdiagramme Benutzer-Precision (vgl. ebd.). Weiterhin scheint der Unterschied in der Benutzer-Precision zwischen Probandinnen mit der niedrigen Erwartungshaltung bei den beiden Systemlevels besonders ausgeprägt zu sein. Eine globale Aussage für die Erwartungshaltung, dass die BenutzerPrecision für die eine Faktorstufe höher als für die andere sei, ist jedoch nicht möglich (vgl. ebd.). Allgemein ist aber auch zu den soeben betrachteten Leistungsmaÿen Benutzer- und Pre-Click-Precision (BP u. PCP) zu bemerken, dass die prozentualen Mittelwertunterschiede mit 8% und 9% nicht übermäÿig stark ausfallen (vgl. Tab. 6.16). Auÿer im Fall der tendenziellen Interaktion bei der Benutzer-Precision zeigt sich auch für die Leistungsmaÿe kein signikanter Einuss der Erwartungshaltung. Letzteres ist wahrscheinlich, wie schon in Abschnitt 6.3.2 angemerkt, darauf zurückzuführen, dass die Manipulation dieses Faktors nicht in ausreichendem Maÿe gelungen ist. 6.3.4. Einbeziehung von Kovariaten In diesem Abschnitt wird untersucht, inwiefern sich die Einüsse von Kontrollvariablen auf die Benutzerleistung und die Benutzerzufriedenheit auswirken. Dies geschieht, indem die entsprechenden Einussgröÿen als Kovariaten in die statistische Analyse einbezogen werden (vgl. Abschn. 6.2). Als erstes wurde mit Hilfe einer weiteren einfaktoriellen Varianzanalyse mit dem Alter der Testteilnehmerinnen als unabhängige und den abhängigen Variablen Benutzerleistung und Benutzerzufriedenheit überprüft, ob die Altersverteilung der Probandinnen einen Einuss auf die Untersuchungsergebnisse ausübt. Dazu fand eine Einteilung der 103 6. Darstellung und Auswertung der Untersuchungsergebnisse Tabelle 6.17.: Überprüfung der Daten auf Alterseekte Varianzanalyse Post-Hoc-Test 1. vs. 2. AG 1. vs. 3. AG 2. vs. 3. AG df a Fb Sig.c MDd Sig. MD Sig. MD Sig. Maÿ Dok@10 2 BR 2 t1 .Dok 2 BP 2 PCP a 2 Freiheitsgrade b F-Wert 6,497 5,676 1,609 1,039 1,609 0,002 0,005 0,206 0,358 0,206 c Signikanz d −1,84 −0,04 0,464 0,381 −7,47 −0,14 0,003 0,005 −5,63 −0,10 0,010 0,035 - - - - - - - - - - - - - - - - - - Mittelwertdierenz Teilnehmerinnen in drei Altersgruppen (AG) (1. AG AG = 28 − 32) = 17 − 21, 2. AG = 22 − 27, 3. statt. Die Varianzhomogenität ist bei allen Tests gegeben. Wegen ei- ner Verletzung der Normalverteilungsbedingung wurde die Signikanzgrenze erneut auf p < 0, 04 vermindert (vgl. Abschn. 6.2). Dies ist allerdings in keinem der betrachteten Fälle relevant, da alle Ergebnisse weit ober- beziehungsweise unterhalb dieser Grenze liegen. Die Befunde für die Leistungsmaÿe sind in Tabelle 6.17 angegeben. Es zeigt sich, dass das Alter nur auf die recall-orientierten Maÿe (Dok@10 u. BR) einen signikanten Einuss hat. Angehörige der dritten Altersgruppe (3. AG) nden hier deutlich mehr relevante Dokumente. Ob dies beispielsweise in einer höheren Allgemeinbildung, einer besseren Konzentrationsfähigkeit oder einem souveräneren Umgang mit der Testsituation begründet liegt, muss im Rahmen dieser Untersuchung allerdings oen bleiben, zumal dieser Unterschied bei den precision-orientierten Maÿen nicht gegeben ist. Auch die Frageitems zur Zufriedenheit wurden auf einen Alterseinuss getestet. Bis auf Frage 2 (df = 2, F = 4, 789, Sig. = 0, 011), ob die Suchmaschine einfach zu bedie- nen sei, ist jedoch bei keinem Frageitem ein signikanter Einuss zu beobachten. Der Post-Hoc-Test ergibt hier erneut einen signikanten Unterschied zwischen der zweiten und dritten Altersgruppe (vgl. Anh. C.5). Dies deckt sich mit der Beobachtung für die Leistungsmaÿe, dass es Angehörigen der dritten Altersgruppe leichter el, relevante Dokumente zu identizieren. Aufgrund der beobachteten Alterseekte ist es sinnvoll, das Alter der Testteilnehmerinnen insbesondere bei den recall-orientierten Leistungsmaÿen als Kovariate in die Auswertung einzubeziehen (vgl. Abschn. 6.3.4). Im Folgenden wird nur die Auswertung der Performanzmaÿe und der kombinierten Zufriedenheitsskala (BZ) der Frageitems 9, 10, 11, 13 und 14 8, dargestellt (vgl. Tab. 6.18). Für die einzelnen Frageitems lässt sich wie im Fall der Altersgruppen kein signikanter Einuss nachweisen (vgl. Anh. C.5). 104 6.3. Untersuchungsergebnisse Dies gilt selbst für das zuvor angesprochene Frageitem Maÿ a 1 BR 1 t1.Dok 1 BP 1 PCP 1 BZ 1 d Tabelle 6.18.: Varianzanalysen mit Kovariate Alter Alter Erwartungshaltung Systemgüte b c F Sig. df F Sig. df F Sig. df a Dok@10 Freiheitsgrade 2. 4,933 4,796 2,000 0,497 0,512 0,250 b 0,029 0,031 0,161 0,483 0,476 0,618 F-Wert 1 1 1 1 1 1 1,266 1,080 0,024 0,720 0,575 0,287 c Signikanz d 0,264 0,302 0,877 0,398 0,451 0,594 1 1 1 1 1 1 0,301 0,774 0,171 12,578 4,183 6,674 0,585 0,382 0,680 0,001 0,044 0,012 Interaktion df F Sig. 1 1 1 1 1 1 2,642 2,225 0,338 4,702 0,965 0,089 0,108 0,140 0,563 0,033 0,329 0,766 Gesamtskala Benutzerzufriedenheit Bei den Performanzmaÿen wurde sich, wie im vorherigen Abschnitt, auf die Angabe der Makromittelwerte beschränkt, da auch in diesem Fall kein qualitativer Unterschied zu den Mikromittelwerten feststellbar ist. Wie sich bei der Analyse mit Hilfe der Altersstufen schon andeutete, besitzt das Alter der Teilnehmerinnen nur bei den recall-orientierten Maÿen einen signikanten Einuss, ohne jedoch einen Haupteekt in Erwartungshaltung oder Systemgüte sichtbar werden zu lassen. Um eine weitere potentielle Störvariable könnte es sich bei der Rechercheerfahrung der Versuchspersonen handeln, die mit den Frageitems 21 bis 25 erfasst werden sollte. Für jede dieser fünf Fragen wurden die Probandinnen ihren Antworten entsprechend als durchschnittlich oder besonders erfahren eingestuft. Die Einteilung erfolgte dabei so, dass der Median für jedes der Frageitems innerhalb der Durchschnittsgruppe lag. Die einzige Ausnahme von dieser Regel bildet Item 21, da in diesem Fall 60% der Teilneh- merinnen angaben, an sieben Tagen der vergangenen Woche einen Computer benutzt zu haben (vgl. Abschn. 6.1). Aus diesem Grund wurde diese Gruppe als rechercheerfahrener als Testteilnehmerinnen mit weniger als sieben Tagen Computernutzung in der Woche angesehen. Als Gesamtrechercheerfahrung der Testpersonen wurde nun deniert, wie oft sie für die fünf Frageitems der erfahrenen Benutzergruppe angehörten, woraus sich eine sechsstuge Skala (0 bis 5) ergibt. Abbildung 6.6 zeigt ein Histogramm für die Häugkei- ten der einzelnen Skalenwerte. Die Auswertung erfolgte für alle Leistungsmaÿe und die Frageitems wie auch schon im Fall der Alterseekte durch zweifaktorielle Kovarianzanalysen mit der Rechercheerfahrung als Kontroll- und der Erwartungshaltung sowie der Systemgüte als unabhängige Variablen. Es lässt sich jedoch weder auf die Benutzerleistung noch auf die Benutzerzufriedenheit ein signikanter Einuss nachweisen (vgl. Anh. C.6). Die Ursache dafür könnte in der durch das gewählte Untersuchungsdesign 105 6. Darstellung und Auswertung der Untersuchungsergebnisse Abbildung 6.6.: Histogramm der Kovariate Rechercheerfahrung festgelegten Beschränkung auf vorgegebene Suchanfragen begründet liegen. Da die Aufgabe der Teilnehmerinnen somit primär im Identizieren von relevanten Dokumenten bestand, stellt sich die Frage, ob hier nicht eine allgemeinere Kovariate, wie die Informationskompetenz der Benutzer, berücksichtigt werden sollte. Wobei Kuhlen diese folgendermaÿen deniert: Selbstbestimmt über die Nutzung und den Nutzen informationeller Ressourcen und das in ihnen enthaltene Wissen entscheiden zu können, macht Informationskompetenz aus. (Kuhlen 2004: 306) Dieses Zitat macht deutlich, dass mit der Rechercheerfahrung nur eine Facette der Informationskompetenz erfasst wurde. In einer Folgestudie wäre also zu überlegen, weitere Aspekte der Informationskompetenz der Testteilnehmer zu erheben. Auf weitere Verbesserungsmöglichkeiten und eine zusammenfassende Bewertung der in diesem Kapitel dargestellten Ergebnisse wird in dem sich nun anschlieÿenden Fazit eingegangen. 106 7. Fazit und Ausblick Information-Retrieval-Systeme und ihre Fähigkeit, Dokumente in umfangreichen Datenbeständen aufzunden, sind zur Bewältigung der digitalen Informationsut unverzichtbar. Die Eektivität solcher Suchsysteme zu quantizieren ist Aufgabe der InformationRetrieval-Evaluierung. Dabei entscheidet in letzter Konsequenz der Mehrwert, den ein Anwender aus dem Einsatz eines Information-Retrieval-Systems erlangt, über dessen Qualität. Den Ausgangspunkt der vorliegenden Magisterarbeit bildete die Fragestellung, welche Wirkung die Qualität von Retrievalergebnissen auf den Sucherfolg der Benutzer einerseits und ihre Wahrnehmung des verwendeten Systems andererseits ausübt. Da in der Kundenzufriedenheitsforschung die Wahrnehmung eines Produkts eng mit der Erwartungshaltung des Konsumenten verknüpft ist, erhob sich weiterhin die Frage, ob dieser Einuss auch in der Information-Retrieval-Evaluierung zu beobachten sei. Dazu wurde ein benutzerorientiertes Untersuchungsdesign entworfen, das die gleichzeitige Überprüfung beider Faktoren gestattete. Auf Benutzerseite wurden diesbezüglich die Benutzerleistung sowie die Benutzerzufriedenheit erfasst. Die wesentlichen empirischen Befunde der durchgeführten Untersuchung werden nun noch einmal zusammengefasst und mit den Ergebnissen anderer Studien verglichen. Dabei wird die theoretische und praktische Bedeutsamkeit der Ergebnisse herausgearbeitet und auf zusätzlichen Forschungsbedarf hingewiesen. In Bezug auf die Auswertung der Benutzerzufriedenheit konnte tatsächlich ein signikanter Einuss der Systemleistung auf das Zufriedenheitsurteil der Testteilnehmerinnen nachgewiesen werden (vgl. Abschn. 6.3.2). Allerdings ist diese Einussnahme in der Einzelauswertung nur bei zwei Items, die dezidiert die Zufriedenheit mit der Precision der Ergebnisliste abfragen, zu beobachten. Auch für die gemeinsame Zufriedenheitsskala zur Qualität der Ergebnislisten ist dieser Eekt gegeben. Insgesamt führt der prozentuale Unterschied von 10% in der Precision und listen auf eine Dierenz von 18% 20% in der Average Precision der Ergebnis- für die beiden einzelnen Frageitems und 12% für die Gesamtzufriedenheitskala. Damit zeigt sich, dass Benutzer in der Lage sind, systemseitig gemessene qualitative Unterschiede von Retrievalergebnissen zu bemerken. 107 7. Fazit und Ausblick Diese Beobachtung deckt sich mit den Ergebnissen von Al-Maskari et. al., die ebenfalls einen Zusammenhang zwischen der Precision und der Benutzerzufriedenheit nachweisen konnten (vgl. Al-Maskari et al. 2007: 773), wohingegen in der Vorgängerstudie zum Bildretrieval keine Korrelation mit der P@100 und der R-Precision zu erkennen war (vgl. Al-Maskari et al. 2006: 4). Weiterhin präferierte die Mehrheit der Teilnehmer der letztgenannten Untersuchung in einem Abschlussfragebogen eine hohe Precision anstelle eines hohen Recall, was mit den signikanten Testergebnissen der Frageitems 9 und 10 der vorliegenden Arbeit übereinstimmt. Zusammenfassend könnte dies ein Hinweis darauf sein, dass eine parallele Charakterisierung der Systemgüte durch die Average Precision und die Precision besser geeignet ist, die Zufriedenheit von Benutzern mit einem Information-Retrieval-System einzuschätzen. Für eine eindeutige Klärung dieses Zusammenhangs besteht allerdings weiterer Forschungsbedarf. Auch wäre für eine Folgestudie zu überlegen, den Fragenkatalog in Bezug auf die Qualität der Ergebnislisten weiter auszubauen, da der Einuss der unterschiedlichen Systemlevels bei solchen Frageitems am stärksten ausgeprägt war. Weiterhin hat sich gezeigt, dass die indirekte Erhebung der Benutzerzufriedenheit problematisch ist, da leicht auch nicht intendierte Aspekte die Antworten beeinussen können. Hier sollten in umfangreicheren Vortests präzisere Frageitems entwickelt und erprobt werden. Im Hinblick auf eine bessere Vergleichbarkeit und Erprobung wäre allgemein eine Standardisierung von Fragebögen zur Messung der Benutzerzufriedenheit durch die Evaluierungsinitiativen hilfreich. Für die beiden Erwartungshaltungen ergaben sich keine signikanten Abweichungen in der Zufriedenheit der Testteilnehmerinnen. In der Tendenz lieÿen sich allerdings die Vorhersagen des C/D-Paradigmas erkennen, was einen Anknüpfungspunkt für weitergehende Untersuchungen bietet. Wie im Auswertungskapitel bereits angemerkt, lässt sich der fehlende Einuss der Erwartungshaltung wohl in erster Line auf eine nicht in ausreichendem Maÿe gelungene Manipulation dieses experimentellen Faktors zurückführen. Für Folgestudien sollte deshalb das Vorgehen modiziert werden. Ein erster Punkt betrit hier die Instruktion der Testpersonen, die im vorliegenden Fall in schriftlicher Form erfolgte und somit von den Teilnehmerinnen leicht überlesen werden konnte. Ein direkter Hinweis durch den Versuchsleiter könnte hier Abhilfe schaen, was allerdings mit der Gefahr von Versuchsleitereekten verbunden wäre. Eine zweite Überlegung betrit die Tatsache, dass die Szenarien Studentenprojekt versus professionelle Recherchesoftware für sich genommen nicht die gewünschte Erwartung bei den Probanden ausgelöst hat. Hier wäre zu überlegen, den Testpersonen beide Alternativen zu nennen und sie darüber zu informieren, 108 mit welchem System sie im Folgenden arbeiten werden. Damit könnten die Versuchsteilnehmer das präsentierte System eher in einen Kontext einordnen und sich damit bei ihnen eine entsprechende Erwartungshaltung einstellen. Für die Auswertung der Benutzerleistung mit Hilfe der fünf Performanzmaÿe können zwei Hauptergebnisse festgehalten werden (vgl. Abschn. 6.3.3): Für die recallorientierten Leistungsmaÿe ist keine signikante Beeinussung durch die präsentierte Systemgüte festzustellen. Benutzer sind also in der Lage, den Qualitätsunterschied in Precision und Average Precision zwischen Retrievalergebnissen bei der Befriedigung ihres Informationsbedürfnisses zu kompensieren. Dies steht im Einklang mit den Befunden der beiden Studien von Turpin und Hersh (vgl. Turpin/Hersh 2001: 230). Hingegen ergab sich ein signikanter Einuss der Systemgüte auf die beiden precisionorientierten Maÿe. Sowohl in der Benutzer- als auch in der Pre-Click-Precision erzielten Testpersonen, die mit dem besseren System arbeiteten, eine höhere Leistung. Interessanterweise beruht dieser Eekt auf einer unterschiedlich strengen Relevanzbewertung der Versuchspersonen, je nachdem welches der beiden Systemlevels ihnen präsentiert wurde. Benutzer, die mit einem schlechteren System arbeiten, scheinen in gröÿerem Maÿe bereit zu sein, auch thematisch weiter von ihrem Informationsbedürfnis entfernte Dokumente als relevant zu akzeptieren. Dies konnte anhand einer signikant höheren Zahl von Dokumenten, die entgegen der CLEF-Bewertung als relevant markiert wurden, nachgewiesen werden. Ein umgekehrter Eekt ist hingegen bei den Benutzerinnen des besseren Systems zu beobachten. Sie widersprechen signikant häuger einer positiven Relevanzbewertung der CLEF-Juroren. In beiden Fällen ist der prozentuale Mittelwertunterschied mit fast 60% beziehungsweise fast 30% deutlich ausgeprägt. Dieser Adaptionseekt könnte ein lohnender Ausgangspunkt für weitere Forschung sein, einerseits, um die Repräsentativität der untersuchten Stichprobe zu validieren, andererseits, weil dieses Verhalten eine mögliche Erklärung für die allgemein positive Beurteilung von Information-Retrieval-Systemen liefern könnte, wie sie auch in anderen Studien beobachtet wurde. So bemerken beispielsweise Al-Maskari et. al.: Results demonstrate that users were highly satised with the system's performance despite the system not being of high quality [. . . ]. (Al-Maskari et al. 2006: 4) Im Zusammenhang mit der Repräsentativität der Stichprobe wäre zum Vergleich auch eine Erweiterung auf männliche Testteilnehmer in Betracht zu ziehen. Darüber hinaus wäre eine Überprüfung dieser Befunde im Kontext einer Recherche ohne Vorgabe von Suchbegrien empfehlenswert, um sicherzustellen, dass bei der Verfolgung einer individuellen Suchstrategie die gleichen Eekte beobachtet werden können. Die Tatsache, dass trotz des beschriebenen Anpassungseekts der individuellen Rele- 109 7. Fazit und Ausblick vanzbewertung keine signikante Wirkung der Erwartungshaltung zu erkennen war, ist ein weiteres Indiz dafür, dass die Manipulation dieser Einussgröÿe in einer möglichen Folgestudie verstärkt werden sollte. Trotzdem war in Bezug auf die Benutzer-Precision zumindest in der Tendenz ein Interaktionseekt derart erkennbar, dass Benutzer mit einer niedrigen Erwartungshaltung besonders stark von einem besseren System protieren. Die im Zusammenhang mit der Zufriedenheit genannten Verbesserungsvorschläge könnten auch hier Abhilfe schaen. Eine Analyse möglicher Störvariablen ergab, dass in der vorliegenden Untersuchung weder das Alter noch die Rechercheerfahrung der Testpersonen den Einuss von Systemleistung und Erwartungshaltung auf Benutzerleistung und Zufriedenheit verzerren (vgl. Abschn. 6.3.4). Wie bereits angesprochen, wäre zu überlegen, ob in einer erweiterten Studie die weiter gefasste Einussgröÿe Informationskompetenz erhoben werden sollte, um die Homogenität der Versuchsgruppen noch besser zu kontrollieren. Auch könnte zusätzlich das Vorwissen zu den einzelnen Topics erfragt werden, um eine dadurch verursachte Verzerrung der Stichprobe auszuschlieÿen. Ferner wäre darüber nachzudenken, ob die Durchführung einer Kano-Analyse (vgl. Abschn. 3.2.1) weiteren Aufschluss über die Wahrnehmung von Retrievalergebnissen liefern könnte. Grundsätzlich erscheint eine solche Analyse vor allem in Bezug auf gestalterische Aspekte wie die Beschreibung von Suchergebnissen in Treerlisten oder erweiterte Suchfunktionalitäten, wie die Möglichkeit bestimmte Begrie ausschlieÿen zu können, sinnvoll. Auf diese Weise lieÿe sich herausnden, welche Eigenschaften Benutzer von Information-Retrieval-Systemen als Basis-, Leistungs- oder Begeisterungsfaktoren erleben und infolgedessen erwarten oder gar voraussetzen. Zu beachten ist jedoch, dass die Kano-Methode äuÿerst zielgruppenabhängig ist und mit der Gewöhnung an bestimmte Systemeigenschaften eine Verschiebung der Kategorien stattnden kann. Zusammenfassend kann gesagt werden, dass die in der vorliegenden Arbeit gewählte interdisziplinäre Herangehensweise einen vielversprechenden Ansatz für die benutzerorientierte Evaluierung von Information-Retrieval-Systemen darstellt. Insbesondere die Einbeziehung der Erwartungshaltung als Determinante der Benutzerzufriedenheit sollte in diesem Zusammenhang weiter untersucht werden. 110 Literaturverzeichnis Al-Maskari et al. 2006 Al-Maskari, Azzah; Clough, Paul; Sanderson, Mark (2006): tiveness and Satisfaction for Image Retrieval. Users' Eec- In: (Althoff/Schaaf 2006), S. 8488 <http://web1.bib.uni-hildesheim.de/edocs/2007/521554985/meta/> (veriziert am: 21.07.2008) Al-Maskari et al. 2007 Al-Maskari, Azzah; Clough, Paul; Sanderson, Mark (2007): The Relationship between IR Eectiveness Measures and User Satisfaction. In: (Clarke et al. 2007), S. 773774 Al-Maskari/Sanderson 2006 Al-Maskari, Azzah; Sanderson, Mark (2006): The Eects of Topic Familiarity on User Search Behavior in Question Answering Systems. In: (Althoff/Schaaf 2006), S. 132137 <http://web1.bib.uni-hildesheim.de/edocs/2007/521554985/meta/> (veriziert am: 21.07.2008) Allan et al. 2005 Allan, James; Carterette, Ben; Lewis, Joshua (2005): When Will Information Retrieval Be 'Good Enough' ? User Eectiveness As a Function of Retrieval Accuracy. In: Baeza-Yates, Ricardo A.; Ziviani, Nivio; Marchionini, Gary; Moffat, Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2005). Salvador, Brasilien, 15.-19.08.2005, New York : ACM Press, S. 433440 Alistair; Tait, John (Hrsg.): Althoff/Schaaf 2006 Lernen - Wissensentdeckung - Adaptivität (LWA 2006) : Workshop Information Retrieval 2006 of the Special Interest Group Information Retrieval (FGIR 2006). Hildesheim, Deutschland, 9.Althoff, Klaus-Dieter; Schaaf, Martin (Hrsg.): 11.10.2006, Hildesheim : Universität Hildesheim, Institut für Informatik (Hildesheimer Informatik Berichte). <http://web1.bib.uni-hildesheim.de/edocs/2007/521554985/meta/> Belkin et al. 2000 Belkin, Nicholas J.; Ingwersen, Peter; Leong, Mun-Kew (Hrsg.): Proceedings of 111 Literaturverzeichnis the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2000). Athen, Griechenland, 24.-28.07.2000, New York : ACM Press Bertram 2004 Bertram, Jutta (2004): Methodische Grundlagen der Nutzerforschung. Fach- hochschule Potsdam, Institut für Information und Dokumentation (veriziert am: 20.02.2008) <http://www.iid.fh-potsdam.de/fileadmin/iid/dokumente/nufoSCRv2_1_.pdf> Bollmann/Cherniavsky 1980 Bollmann, Peter; Cherniavsky, Vladimir S. (1980): Probleme der Bewertung von Information-Retrieval-Systemen. In: (Kuhlen 1980), S. 97121 Bortz/Döring 1995 Bortz, Jürgen; Döring, Nicola (1995): Sozialwissenschaftler. Forschungsmethoden und Evaluation : für 2., vollst. überarb. u. akt. Au. Berlin : Springer (Springer- Lehrbuch) Bortz 2005 Bortz, Jürgen and (2005): Statistik für Human- und Sozialwissenschaftler. 6., vollst. überarb. u. akt. Au. Heidelberg : Springer Medizin (Springer-Lehrbuch) Braschler 2002 Braschler, Martin (2002): CLEF 2001 - Overview of Results. In: Peters, Evaluation of Cross-Language Information Retrieval Systems : Second Workshop of the Cross-Language Evaluation Forum (CLEF 2001). Darmstadt, Deutschland, 03.- Carol; Braschler, Martin; Gonzalo, Julio; Kluck, Michael (Hrsg.): 04.09. 2001, Revised Papers. Berlin : Springer (Lecture Notes in Computer Science 2406), S. 926 Braschler 2004 Braschler, Martin (2004): CLEF 2003 - Overview of Results. In: Peters, Ca- Comparative Evaluation of Multilingual Information Access Systems : 4th Workshop of the CrossLanguage Evaluation Forum (CLEF 2003). Trondheim, Norwegen, 21.-22.08.2003, rol; Gonzalo, Julio; Braschler, Martin; Kluck, Michael (Hrsg.): Revised Papers. Berlin : Springer (Lecture Notes in Computer Science 3237), S. 4463 Buckley/Voorhees 2004 Buckley, Chris; Voorhees, Ellen M. (2004): Retrieval Evaluation with Incom- Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2004). plete Information. In: Sheeld, Groÿbritannien, 25.-29.07.2004, New York : ACM Press. ISBN 158113 8814, S. 2532 112 Literaturverzeichnis Buckley/Vorhees 2000 Buckley, Chris; Vorhees, Ellen M. (2000): Evaluating Evaluation Measure Stability. In: (Belkin et al. 2000), S. 3340 Cardozo 1965 Cardozo, Richard N. (1965): An Experimental Study of Customer Eort, Expectation, and Satisfaction. In: Journal of Marketing Research (JMR) 2, Nr. 3, S. 244249 Clarke et al. 2007 Clarke, Charles L. A.; Fuhr, Norbert; Kando, Noriko; Kraaij, Wessel; Vries, Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2007). Ams- Arjen P. (Hrsg.): terdam, Niederlande, 23.-27.07.2007, New York : ACM Press Clef 2008 Clef (2008): Homepage des Cross-Language Evaluation Forums (CLEF) (veriziert am: 15.06.2008) <http://www.clef-campaign.org> Dahm 2006 Dahm, Markus (2006): Grundlagen der Mensch-Computer-Interaktion. München : Pearson Studium (Informatik : Software-Ergonomie) Duden 2003 Schülerduden Informatik : Ein Lexikon zum Informatikunterricht : Begrie, Prinzipien und Methoden der Informatik. Das Grundlagenwissen für Unterricht und Computerpraxis. 4., akt. Au. Mannheim : Dudenverlag Duden (2003): Duden 2007 Duden (2007): Duden : Das Fremdwörterbuch. 9., akt. Auage. Mannheim : Du- denverlag (Der Duden in zwölf Bänden : Das Standardwerk zur deutschen Sprache 5) Ferber 2003 Information Retrieval : Suchmodelle und Data-MiningVerfahren für Textsammlungen und das Web. 1. Au. Heidelberg : dpunkt-Verl. Ferber, Reginald (2003): Festinger 1978 Festinger, Leon (1978) ; Irle, Martin; Möntmann, Volker (Hrsg.): kognitiven Dissonanz. Bern : Huber Fuhr 2005 Fuhr, Norbert (2005): Retrieval. Universität Theorie der Information Retrieval. Duisburg-Essen, Skript zur Vorlesung Information Abteilung Informatik und angewandte Kognitionswissenschaft (veriziert am: 07.02.2008) <http://www.is.informatik.uni-duisburg.de/courses/ir_ss05/folien/irskall. pdf> 113 Literaturverzeichnis Gediga et al. 2005 Gediga, Günther; Gildhorn, Antje; Colver, Britta (2005): vascoda.de aus Benutzersicht : Ergebnisse der Nutzerbefragung Evaluation von (veriziert am: 10.06.2008) <http://www.dl-forum.de/dateien/Evaluation_vascoda_Ergebnisse_Befragung_ 2005.pdf> Giese/Cote 2000 Giese, Joan L.; Cote, Joseph A. (2000): Dening Consumer Satisfaction. In: Academy of Marketing Science Review (AMS Review) 4, Nr. 1, S. 124. <http://www.amsreview.org/articles/giese01-2000.pdf> Hersh et al. 2000 Hersh, William; Turpin, Andrew; Price, Susan; Chan, Benjamin; Kramer, Dale; Sacherek, Lynetta; Olson, Daniel (2000): Do Batch and User Evaluations Give the Same Results?. In: (Belkin et al. 2000), S. 1724 Herzberg et al. 1997 Herzberg, Frederick; Mausner, Bernard; Bloch Snyderman, Barbara (1997): The Motivation to Work. 2. Au. New Brunswick : Transaction Publ. Hinterhuber/Matzler 2000 Hinterhuber, Hans H.; Matzler, Kurt (Hrsg.): Kundenorientierte Unternehmensführung : Kundenorientierung, Kundenzufriedenheit, Kundenbindung. 2., akt. u. erw. Au. Wiesbaden : Gabler Homburg et al. 1999 Homburg, Christian; Giering, Annette; Hentschel, Frederike (1999): Der Zusammenhang zwischen Kundenzufriedenheit und Kundenbindung. In: Bruhn, Manfred; Homburg, Chirstian (Hrsg.): Grundlagen, Konzepte, Erfahrungen. Handbuch Kundenbindungsmanagement : 2., akt. u. erw. Au. Wiesbaden : Gabler, S. 81112 Huffman/Hochster 2007 Huffman, Scott B.; Hochster, Michael (2007): How Well Does Result Relevance Predict Session Satisfaction?. In: (Clarke et al. 2007), S. 567574 IfAS 2008 IfAS, Institut für Angewandte Sprachwissenschaft (2008): wandte Informationswissenschaft Der Schwerpunkt Ange- (veriziert am: 21.06.2008) <http://www.uni-hildesheim.de/de/9490.htm> Järvelin/Ingwersen 2004 Järvelin, Kalervo; Ingwersen, Peter (2004): Information Seeking Research Needs Extension toward Tasks and Technology. In: 1. <http://informationr.net/ir/10-1/paper212.html> 114 Information Research 10, Nr. Literaturverzeichnis Kaczmirek 2003 Kaczmirek, Lars (2003): Information und Selektion : Gebrauchstauglichkeit der Ergebnisseiten von Suchmaschinen. Universität Mannheim, Fachbereich Psychologie, Dipl.-Arb. Karlgren et al. 2007 Karlgren, Jussi; Gonzalo, Julio; Clough, Paul (2007): iCLEF 2006 Over- view : Searching the Flickr WWW Photo-Sharing Repository. In: Peters, Carol; Clough, Paul; Gey, Fredric C.; Karlgren, Jussi; Magnini, Bernardo; Oard, Evaluation of Multilingual and Multi-modal Information Retrieval : 7th Workshop of the CrossLanguage Evaluation Forum (CLEF 2006). Alicante, Spanien, 20.-22.09.2006, ReDouglas W.; Rijke, Maarten de; Stempfhuber, Maximilian (Hrsg.): vised Selected Papers. Berlin : Springer (Lecture Notes in Computer Science 4730), S. 186194 Kirchhoff et al. 2003 Kirchhoff, Sabine; Kuhnt, Sonja; Lipp, Peter; Schlawin, Siefried (2003): Fragebogen : Datenbasis, Konstruktion, Auswertung. Der 3., überarb. Au. Opladen : Leske Budrich (UTB 2245) Kishida 2005 Property of Average Precision and its Generalization : An Examination of Evaluation Indicator for Information Retrieval Experiments. Kishida, Kazuaki (2005): National Institute of Informatics, Tokyo, Japan, Arbeitsbericht NII-2005-014E (veriziert am: 30.06.2008) <http://research.nii.ac.jp/TechReports/05-014E.pdf> Kowalski 1997 Kowalski, Gerald (1997): tation. Information Retrieval Systems : Theory and Implemen- Boston : Kluwer (The Kluwer International Series on Information Retrieval 1) Kuhlen 1980 Datenbasen, Datenbanken, Netzwerke : Praxis des Information Retrieval. Bd. 3: Nutzung und Bewertung von Retrievalsystemen. München Kuhlen, Rainer (Hrsg.): : Saur Kuhlen 2004 Informationsethik : Umgang mit Wissen und Information in elektronischen Räumen. Konstanz : UVK (UTB 2454) Kuhlen, Rainer (2004): Mandl 2006a Mandl, Thomas (2006): Die automatische Bewertung der Qualität von InternetSeiten im Information Retrieval. Universität Hildesheim, Fachbereich III Informations- und Kommunikationswissenschaften, Habil.-Schr. 115 Literaturverzeichnis Mandl 2006b Mandl, Thomas (2006): Benutzerorientierte Bewertungsmaÿstäbe für Informa- tion Retrieval Systeme: Der Robust Task bei CLEF 2006. In: Mandl, Thomas; Womser-Hacker, Christa (Hrsg.): Eektive Information Retrieval Verfahren in Theorie und Praxis : Proceedings des Fünften Hildesheimer Evaluierungs- und Retrievalworkshops (HIER 2006). Hildesheim, Deutschland, 11.10.2006, Hildesheim : Universität Hildesheim, Institut für Angewandte Sprachwissenschaft, S. 7991 <http://web1.bib.uni-hildesheim.de/edocs/2006/519937899/doc/519937899.pdf> (veriziert am: 21.07.2008) Matzler/Bailom 2000 Matzler, Kurt; Bailom, Franz (2000): Messung von Kundenzufriedenheit. In: (Hinterhuber/Matzler 2000), S. 197229 Matzler et al. 2000 Matzler, Kurt; Sauerwein, Elmar; Stark, Christian (2000): Metho- den zur Identikation von Basis-, Leistungs- und Begeisterungsfaktoren. In: (Hinterhuber/Matzler 2000), S. 251274 Meyers 2007 Meyers, Lexikon Online 2.0 (2007): Performanz (veriziert am: 10.06.2008) <http://lexikon.meyers.de/meyers/Performanz> Möhr 1980 Möhr, Malte (1980): Benutzerorientierte Bewertung von Information-RetrievalSystemen. In: (Kuhlen 1980), S. 123156 Müller 2004 Müller, Wolfgang (2004): denheit. Gerechtigkeitstheoretische Modelle der Kundenzufrie- Fachhochschule Dortmund, Institut für Angewandtes Markt-Management, Reihe Forschungspapier Bd. 4 (veriziert am: 15.05.2008) <http://www.fh-dortmund.de/de/fb/9/personen/lehr/mueller/medien/ Gerechtigkeitstheoretische_Kundenzufriedenheitstheorie.pdf> Navarro 2001 Navarro, Gonzalo (2001): A Guided Tour to Approximate String Matching. In: ACM Computing Surveys 33, Nr. 1, S. 3188. ISSN 03600300 Nerdinger/Neumann 2007 Nerdinger, Friedemann W.; Neumann, Christina (2007): Kundenzufriedenheit und Kundenbindung. In: Moser, Klaus (Hrsg.): Wirtschaftspsychologie. Heidel- berg : Springer (Springer-Lehrbuch), S. 127146 Oppermann/Reiterer 1994 Oppermann, Reinhard; Reiterer, Harald (1994): Software-ergonomische Evaluation. (Hrsg.): 116 In: Eberleh, Edmund; Oberquelle, Horst; Oppermann, Reinhard Einführung in die Software-Ergonomie : Gestaltung graphisch-interaktiver Literaturverzeichnis Systeme : Prinzipien, Werkzeuge, Lösungen. 2., völlig neu bearb. Au. Berlin : de Gruyter (Mensch Computer Kommunikation : Grundwissen 1), S. 335371 Pospeschill 2007 Pospeschill, Markus (2007): Analysen. SPSS - Durchführung fortgeschrittener statistischer 7., vollst. überab. Au. Hannover : RRZN (RRZN Handbücher) Powers 1988 Powers, Thomas L. (1988): Identify and Fulll Customer Service Expectations. In: Industrial Marketing Management 17, Nr. 4, S. 273276 Resnick/Lergier 2003 Resnick, Marc L.; Lergier, Rebeca (2003): On-line Search. In: Journal of E-Business Task Specic User Strategies in 3, Nr. 1, S. 122 Robertson 2006 Robertson, Stephen (2006): On GMAP : And other Transformations. In: Yu, Proceedings of the 15th ACM International Conference on Information and Knowledge Management (CIKM 2006). Arlington, Virginia, USA, 05.-11.11.2006, New York : ACM Philip S.; Tsotras, Vassilis J.; Fox, Edward A.; Liu, Bing (Hrsg.): Press, S. 7883 Rudolf/Müller 2004 Multivariate Verfahren : Eine praxisorientierte Einführung mit Anwendungsbeispielen in SPSS. Göttingen : Hogrefe Rudolf, Matthias; Müller, Johannes (2004): Saake/Sattler 2004 Saake, Gunter; Sattler, Kai-Uwe (2004): Eine Einführung mit Java. Algorithmen und Datenstrukturen : 2. überarb. u. erw. Au. Heidelberg : dpunkt-Verl. (dpunkt-Lehrbuch) Sakai 2004 Sakai, Tetsuya (2004): New Performance Metrics Based on Multigrade Relevance : Their Application to Question Answering. In: Kando, Noriko; Ishikawa, Haruko (Hrsg.): Proceedings of the Fourth NTCIR Workshop on Research in Information Access Technologies Information Retrieval, Question Answering and Summarization (NTCIR-4). Tokyo, Japan, April 2003 - Juni 2004, Tokyo : National Institute of Informatics <http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings4/OPEN/ NTCIR4-OPEN-SakaiTrev.pdf> (veriziert am: 25.07.2008) Salton/McGill 1987 Salton, Gerard; McGill, Michael J. (1987): des für Informationswissenschaftler. Information Retrieval : Grundlegen- Hamburg : McGraw-Hill (McGraw-Hill-Texte) Sarodnick/Brau 2006 Sarodnick, Florian; Brau, Henning (2006): Methoden der Usability Evaluation 117 Literaturverzeichnis : wissenschaftliche Grundlagen und praktische Anwendung. 1. Au. Bern : Huber (Praxis der Arbeits- und Organisationspsychologie) Sauerwein 2000 Das Kano-Modell der Kundenzufriedenheit : Reliabilität und Validität einer Methode zur Klassizierung von Produkteigenschaften. WiesbaSauerwein, Elmar (2000): den : Dt. Univ.-Verl. (Gabler Edition Wissenschaft) Scharnbacher/Kiefer 1996 Scharnbacher, Kurt; Kiefer, Guido (1996): Kundenzufriedenheit : Analyse, Messbarkeit und Zertizierung. München : Oldenbourg (Managementwissen für Studium und Praxis) Schnell et al. 1993 Schnell, Rainer; Hill, Paul B.; Esser, Elke (1993): Sozialforschung. Methoden der empirischen 4., überarb. Au. München : Oldenbourg Sherif/Hovland 1961 Social Judgment : Assimilation and Contrast Eects in Communication and Attitude Change. New Haven : Yale Univ. Sherif, Muzafer; Hovland, Carl I. (1961): Press (Yale studies in attitude and communication 4) Strauch 2004 Strauch, Dietmar (2004) ; Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (Hrsg.): Glossar. Grundlagen der praktischen Information und Dokumentation. Bd. 2: 5., völlig neu gefasste Au. München : Saur Thom/Scholer 2007 Thom, James A.; Scholer, Falk (2007): A Comparison of Evaluation Measu- res Given How Users Perform on Search Tasks. In: Spink, Amanda; Turpin, Proceedings of 12th Australasian Document Computing Symposium (ADCS 2007). Melbourne, Australia, 10.12.2007, Melbourne : Andrew; Wu, Mingfang (Hrsg.): RMIT University, S. 100103 <http://goanna.cs.rmit.edu.au/~aht/adcs2007/papers/21N.PDF> (veriziert am: 25.07.2008) Trec 2008 Trec (2008): Homepage der Text REtrieval Conference (TREC) (veriziert am: 15.06.2008) <http://trec.nist.gov/> Turpin/Hersh 2001 Turpin, Andrew; Hersh, William (2001): Why Batch and User Evaluations Do Not Give the Same Results. In: Croft, W. B.; Harper, David J.; Kraft, Do- Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR nald H.; Zobel, Justin (Hrsg.): 118 Literaturverzeichnis 2001). New Orleans, Lousiana, USA, 09.-12.09.2001, New York : ACM Press, S. 225231 Turpin/Scholer 2006 Turpin, Andrew H.; Scholer, Falk (2006): on Measures for Simple Search Tasks. User Performance versus Precisi- In: Efthimiadis, Efthimis N.; Dumais, Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2006). Seattle, Washington, USA, 06.-11.08.2006, New Susan T.; Hawking, David; Järvelin, Kalervo (Hrsg.): York : ACM Press, S. 1118 Womser-Hacker 1989 Der PADOK-Retrievaltest : Zur Methode und Verwendung statistischer Verfahren bei der Bewertung von Information-RetrievalSystemen. Hildesheim : Olms (Sprache und Computer 10) Womser-Hacker, Christa (1989): Womser-Hacker 2004 Womser-Hacker, Christa (2004): Theorie des Information Retrieval III : Evaluierung. In: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (Hrsg.): Grundlagen der praktischen Information und Dokumentation. Bd. 1: Handbuch zur Einführung in die Informationswissenschaft und -praxis. 5., völlig neu gefasste Au. München : Saur, S. 227235 Woodruff et al. 1983 Woodruff, Robert B.; Cadotte, Ernest R.; Jenkins, Roger L. (1983): Modeling Consumer Satisfaction Processes Using Experience-Based Norms. Marketing Research (JMR) In: Journal of 20, Nr. 3, S. 296304 Zimbardo/Gerrig 1999 Zimbardo, Philip G.; Gerrig, Richard J. (1999) ; Hoppe-Graff, Siegfried; Engel, Irma (Hrsg.): Psychologie. Zöfel 2003 Zöfel, Peter (2003): 7., neu übers. u. bearb. Au. Berlin : Springer Statistik für Psychologen : im Klartext. München : Pearson Studium 119 Literaturverzeichnis 120 Abbildungsverzeichnis 2.1. Die Pooling-Methode als Verfahren zur Bestimmung der Gesamtzahl aller relevanten Dokumente in einer Kollektion (Quelle: In Anlehnung an Kowalski 1997: 231) 2.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mengendiagramm zur Darstellung von System- und Benutzerrelevanz (Quelle: In Anlehnung an Womser-Hacker 1989: 32) . . . . . . . . . . 2.3. 8 14 Typischer Verlauf einer Recall-Precision-Kurve auf der Basis von Mittelwerten (Quelle: Salton/McGill 1987: 180) . . . . . . . . . . . . . . . . . . . . 3.1. Das Prinzip des Conrmation/Disconrmation-Modells (Quelle: Homburg et al. 1999: 85) 3.2. . . . . . . . . . . . . . . . . . . . . 26 Das Kano-Modell der Kundenzufriedenheit (Quelle: In Anlehnung an Matzler/Bailom 2000: 220) 3.3. 17 . . . . . . . . . 33 . . . . . . . . . . . . . . . . . . 35 Fragebogenauswertung mit der Kano-Methode (Quelle: Matzler/Bailom 2000: 221) 5.1. Die Benutzeroberäche des Anwendungsprogramms . . . . . . . . . . . . 64 5.2. Die Benutzeroberäche des Anwendungsprogramms . . . . . . . . . . . . 65 6.1. Graphische Darstellung der Topic-Eekte . . . . . . . . . . . . . . . . . . 84 6.2. Graphische Darstellung der Reihenfolgeeekte 87 6.3. Interaktionsdiagramm C/D-Paradigma 6.4. Histogramm Frageitem 16 6.5. Interaktionsdiagramme Benutzer-Precision 6.6. Histogramm der Kovariate Rechercheerfahrung . . . . . . . . . . . . . . . 106 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 . . . . . . . . . . . . . . . . . . . . . . . . . . 93 . . . . . . . . . . . . . . . . . 103 121 Abbildungsverzeichnis 122 Tabellenverzeichnis 4.1. Vergleich benutzerorientierter Untersuchungsdesigns . . . . . . . . . . . . 5.1. Untersuchungsschema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.2. Topicauswahl für den Benutzertest 62 5.3. Aufteilung der verfügbaren Dokumente auf die beiden Systemlevels . . . 66 5.4. Verwendete Performanzmaÿe zur Bestimmung der Benutzerleistung . . . 72 6.1. Beschreibung der Stichprobe I: Statistische Kennzahlen . . . . . . . . . . 78 6.2. Beschreibung der Stichprobe II: Statistische Häugkeiten . . . . . . . . . 78 6.3. Überprüfung der Daten auf Topic-Eekte . . . . . . . . . . . . . . . . . . 83 6.4. Überprüfung der Daten auf Reihenfolgeeekte 6.5. Post-Hoc-Test der Reihenfolgeeekte I: Energieaufgabe . . . . . . . . . . 85 6.6. Post-Hoc-Test der Reihenfolgeeekte II: Asienaufgabe . . . . . . . . . . . 86 6.7. Überprüfung der Daten auf Einuss durch selbstbestimmten Abbruch . . 88 6.8. Ergebnisse der Varianzanalysen für die . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 85 15 Frageitems mit Zufriedenheits- skala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 Ergebniss der Varianzanalyse nach der Skalenbildung . . . . . . . . . . . 92 6.10. Antworthäugkeiten Frageitem 15 . . . . . . . . . . . . . . . . . . . . . . 94 6.11. Kategoriezugehörigkeit der genannten Stärken und Schwächen . . . . . . 96 . . . . . . . . . . . . . . . . . . . . . 98 6.9. 6.12. Denition der Dokumentenmengen 6.13. Varianzanalyse der von den Benutzern angesehenen Dokumente . . . . . 98 6.14. Mittelwerte der Dokumentenanzahlen . . . . . . . . . . . . . . . . . . . . 99 6.15. Ergebnisse der zweifkatoriellen Varianzanaylsen der Leistungsmaÿe . . . . 100 6.16. Mittelwerte der Leistungsmaÿe . . . . . . . . . . . . . . . . . . . . . . . . 101 6.17. Überprüfung der Daten auf Alterseekte 6.18. Varianzanalysen mit Kovariate Alter . . . . . . . . . . . . . . . . . . 104 . . . . . . . . . . . . . . . . . . . . 105 B.1. Energieaufgabe, niedriger Systemlevel . . . . . . . . . . . . . . . . . . . . 137 B.2. Energieaufgabe, hoher Systemlevel . . . . . . . . . . . . . . . . . . . . . 137 B.3. Asienaufgabe, niedriger Systemlevel . . . . . . . . . . . . . . . . . . . . . 138 B.4. Asienaufgabe, hoher Systemlevel . . . . . . . . . . . . . . . . . . . . . . . 138 B.5. Atomaufgabe, niedriger Systemlevel . . . . . . . . . . . . . . . . . . . . . 139 B.6. Atomaufgabe, hoher Systemlevel . . . . . . . . . . . . . . . . . . . . . . . 139 C.1. Kolmogorov-Smirnov-Test auf Normalverteilung C.2. Mauchly-Test auf Spherizität: Topiceekte . . . . . . . . . . . . . . 141 . . . . . . . . . . . . . . . . . 142 C.3. Varianzhomogenität: Reihenfolgeeekte, Abbruch vor 10 min, nur erste Seite betrachte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 123 Tabellenverzeichnis C.4. Varianzhomogenität: Benutzerleistung mit und ohne Kovariaten . . . . . 143 C.5. Varianzhomogenität: Benutzerleistung, Einuss Muttersprache und Alterseekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 C.6. Varianzhomogenität: Fragebogenitems und Gesamtskala Benutzerzufriedenheit (BZ), Einuss Muttersprache und Altersgruppen . . . . . . . . . 144 C.7. Varianzhomogenität: Fragebogenitems und Gesamtskala Benutzerzufriedenheit (BZ) mit und ohne Kovariaten . . . . . . . . . . . . . . . . . . . 145 C.8. Mittelwerte: Selbstbestimmter Abbruch . . . . . . . . . . . . . . . . . . . 146 C.9. Varianzanalysen nur erste Ergebnisseite betrachtet . . . . . . . . . . . . . 146 C.10.Mittelwerte nur erste Ergebnisseite betrachtet . . . . . . . . . . . . . . . 146 C.11.Varianzanalysen Muttersprache: Leistungsmaÿe und Frageitems Benutzerzufriedenheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 C.12.Überprüfung der Daten auf Alterseekte: Mikromittelwerte Benutzerleistung und Frageitems Benutzerzufriedenheit . . . . . . . . . . . . . . . . . 148 C.13.Varianzanalysen mit Kovariate Alter: Mikromittelwerte Benutzerleistung 148 C.14.Varianzanalysen mit Kovariate Alter: Mikromittelwerte Benutzerleistung und Frageitems Benutzerzufriedenheit . . . . . . . . . . . . . . . . . . . . 149 C.15.Varianzanalysen mit Kovariate Recherecheerfahrung: Makromittelwerte . 149 C.16.Varianzanalysen mit Kovariate Recherecheerfahrung: Mikromittelwerte un. Fragebogen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 C.17.Varianzanalysen mit Kovariate Alter: Mikromittelwerte Benutzerleistung und Frageitems Benutzerzufriedenheit . . . . . . . . . . . . . . . . . . . . 151 C.18.Varianzanalyse: Mikromittelwerte Leistungsmaÿe C.19.Mittelwerte: Mikromittelwerte Leistungsmaÿe D.1. Oene Fragen Gruppen D.2. Oene Fragen Gruppen D.3. Oene Fragen Gruppen D.4. Oene Fragen Gruppen 124 S1,1 S1,2 S2,1 S2,2 . . . . . . . . . . . . . 152 . . . . . . . . . . . . . . . 152 . . . . . . . . . . . . . . . . . . . . . . . . . 154 . . . . . . . . . . . . . . . . . . . . . . . . . 155 . . . . . . . . . . . . . . . . . . . . . . . . . 156 . . . . . . . . . . . . . . . . . . . . . . . . . 157 Eigenständigkeitserklärung Hiermit erkläre ich, dass ich die vorliegende Arbeit selbständig und ohne fremde Hilfe verfasst und keine anderen als die angegebenen Hilfsmittel benutzt habe. Auÿerdem versichere ich, dass die Arbeit noch nicht veröentlicht oder in einem anderen Prüfungsverfahren als Prüfungsleistung vorgelegt wurde. Hildesheim, im Juli 2008 125 7. 126 A. Materialien zum Benutzertest A.1. Vorabinformation niedrige Erwartungshaltung Benutzertest zur Bewertung der Suchmaschine Periodikum Magisterarbeit im Studiengang Internationales Informationsmanagement (IIM) an der Universität Hildesheim Liebe Teilnehmerin, Im Rahmen des Projektseminars Suchmaschinentechnologie soll für die Universität Hildesheim eine neue Suchmaschine für Artikel aus Fachzeitschriften entstehen. Dazu soll die an der Universität Duisburg-Essen von Studenten entwickelte Suchmaschine für Presseartikel Periodikum weiterentwickelt werden. Im Rahmen dieses Benutzertests soll bewertet werden, wie gut diese Suchmaschine in der Lage ist zu einer Suchanfrage relevante Artikel zu liefern und nicht-relevante Artikel zurückzuhalten. Der Benutzertest wird ca. 30 Minuten dauern. Du bekommst nacheinander drei Suchaufgaben gestellt. Damit alle Teilnehmerinnen die gleichen Voraussetzungen haben, sind die zu verwendenden Suchbegriffe vorgegeben. Deine Aufgabe ist es die Qualität der Ergebnislisten zu bewerten. Im Anschluss folgt ein kurzer Fragebogen. Wenn Du während des Benutzertests irgendwelche Fragen hast, kannst Du diese jederzeit stellen. Unter allen Teilnehmerinnen werden von meinem Fachbereich drei Geldpreise im Wert von 20, 30 und 50 € verlost. Alle Untersuchungsdaten werden selbstverständlich anonym ausgewertet und ausschließlich zu wissenschaftlichen Zwecken verwendet. Vielen Dank, dass Du Dich bereit erklärt hast, an diesem Benutzertest teilzunehmen. 127 A. Materialien zum Benutzertest A.2. Vorabinformation hohe Erwartungshaltung Benutzertest zur Bewertung der Suchmaschine Periodikum Magisterarbeit im Studiengang Internationales Informationsmanagement (IIM) an der Universität Hildesheim Liebe Teilnehmerin, Die Universität Hildesheim beabsichtigt eine neue Suchmaschine für Artikel aus Fachzeitschriften anzuschaffen. In die engere Auswahl gekommen ist die Suchmaschine Periodikum von der index Recherche und Suchmaschinentechnologie GmbH. Die Suchmaschinensoftware kostet 20.000 €. Im Rahmen dieses Benutzertests soll bewertet werden, wie gut diese Suchmaschine in der Lage ist zu einer Suchanfrage relevante Artikel zu liefern und nicht-relevante Artikel zurückzuhalten. Die index GmbH hat der Universität Hildesheim zu diesem Zweck eine Demo-Version zur Verfügung gestellt. Der Benutzertest wird ca. 30 Minuten dauern. Du bekommst nacheinander drei Suchaufgaben gestellt. Damit alle Teilnehmerinnen die gleichen Voraussetzungen haben, sind die zu verwendenden Suchbegriffe vorgegeben. Deine Aufgabe ist es die Qualität der Ergebnislisten zu bewerten. Im Anschluss folgt ein kurzer Fragebogen. Wenn Du während des Benutzertests irgendwelche Fragen hast, kannst Du diese jederzeit stellen. Unter allen Teilnehmerinnen werden von meinem Fachbereich drei Geldpreise im Wert von 20, 30 und 50 € verlost. Alle Untersuchungsdaten werden selbstverständlich anonym ausgewertet und ausschließlich zu wissenschaftlichen Zwecken verwendet. Vielen Dank, dass Du Dich bereit erklärt hast, an diesem Benutzertest teilzunehmen. 128 A.3. Beschreibung des Anwendungsszenarios A.3. Beschreibung des Anwendungsszenarios Aufgabenbeschreibung: Stell Dir für den weiteren Verlauf dieses Benutzertests bitte folgendes Szenario vor: Du bist Journalistin und möchtest Dir für einen Beitrag, den Du demnächst schreiben wirst, einen Überblick über das entsprechende Thema verschaffen. Dazu recherchierst Du mit der Suchmaschine Periodikum nach bereits veröffentlichten Presseartikeln, die das Thema Deines Beitrages betreffen. Zu Demonstrationszwecken befinden sich zur Zeit nur Presseartikel aus den Jahren 1994 und 1995 in der Datenbank. Hinweise zur Bedienung der Suchmaschine Nachdem Du die vorgegebenen Suchbegriffe in das Suchfeld eingegeben und auf „Suche“ geklickt hast, erhältst Du eine Ergebnisliste mit Verweisen auf Artikel. Scheint einer dieser Artikel aufgrund der Kurzfassung für Dich relevant zu sein, lässt sich der vollständige Text durch Anklicken des Titels in einem neuen Fenster öffnen. Dort gibt es die Möglichkeit den Artikel als relevant bzw. nicht relevant zu kennzeichnen. Bitte bewerte den Artikel, den Du Dir angesehen hast, bevor Du das Volltext-Fenster wieder schließt. Für jede Suchaufgabe hast Du 10 Minuten Zeit. Wenn Du schon vorher der Meinung bist, Dir einen ausreichenden Überblick über das betreffende Thema verschafft zu haben, kannst Du auch schon vorher mit der nächsten Aufgabe beginnen. Viel Spaß beim Recherchieren! 129 A. Materialien zum Benutzertest A.4. Beschreibungen der einzelnen Suchaufgaben Suchaufgabe: Erneuerbare Energien Für einen Beitrag über Erneuerbare Energien suchst Du nach Presseartikeln, die die Nutzung von umweltfreundlicher Energie oder eine darauf ausgerichtete Politik betreffen, d.h. von Energie, die aus erneuerbaren Energiequellen erzeugt wurde. Die zu verwendenden Suchbegriffe lauten: Erneuerbare Energien Suchaufgabe: Kinderarbeit in Asien Für einen Beitrag über Kinderarbeit in Asien suchst Du nach Presseartikeln, die Kinderarbeit in Asien diskutieren und Vorschläge zu deren Beseitigung oder zur Verbesserung der Arbeitsbedingungen für Kinder liefern. Die zu verwendenden Suchbegriffe lauten: Kinderarbeit Asien Suchaufgabe: Atomtransporte in Deutschland Für einen Beitrag über Atomtransporte in Deutschland suchst Du Berichte über Proteste gegen den Transport von radioaktivem Müll in Castor-Behältern in Deutschland. Die zu verwendenden Suchbegriffe lauten: Atomtransporte Castor Deutschland 130 A.5. Fragebogen zur Benutzerzufriedenheit A.5. Fragebogen zur Benutzerzufriedenheit Wie gut ist die Suchmaschine Periodikum? Fragebogen zur Bewertung der Suchmaschine Periodikum Liebe Teilnehmerin, Du hattest jetzt etwa 30 Minuten lang die Möglichkeit mit der Suchmaschine Periodikum zu arbeiten und Dich mit ihrer Funktionsweise vertraut zu machen. Dieser Fragebogen dient dazu, Deine Erfahrungen im Umgang mit der Suchmaschine zu dokumentieren. Bei den meisten Fragen handelt es sich um Deine persönliche Meinung. Es gibt also keine richtigen oder falschen Antworten. Versuche bitte alle Fragen offen und ehrlich zu beantworten. Solltest Du während des Ausfüllens Fragen haben, kannst Du diese jederzeit stellen. Hinweise zum Beantworten des Fragebogens Der Fragebogen enthält zwei unterschiedliche Fragetypen: Typ 1: Auswahlfragen Bei den meisten Fragen handelt es sich um Auswahlfragen, bei denen Du aus sieben Abstufungen von „trifft vollkommen zu“ bis „trifft überhaupt nicht zu“ wählen kannst. Bsp. 1: Meine Lieblingsfarbe ist Grün. 1 2 trifft vollkommen zu □ □ 3 4 5 6 7 □ □ □ □ □ trifft überhaupt nicht zu In diesem Beispiel wurde das vorderste Kästchen angekreuzt, was bedeutet, dass es sich bei Grün tatsächlich um die Lieblingsfarbe der Teilnehmerin handelt. Typ 2: Offene Fragen Bei einigen Fragen handelt es sich um offene Fragen, bei denen keine Antwortmöglichkeiten vorgegeben sind. Bsp. 2: Wie viele Stunden machst Du in der Woche Sport? 5 Wie zu Beginn des Benutzertests bereits erwähnt, werden alle Daten anonym ausgewertet und ausschließlich zu wissenschaftlichen Zwecken verwendet. 131 A. Materialien zum Benutzertest Testperson: Datum: Teil A: Deine Erfahrungen im Umgang mit Periodikum Im diesem Teil des Fragebogens wirst Du gebeten Deine praktischen Erfahrungen im Umgang mit der Suchmaschine Periodikum zu beschreiben. Dazu werden Dir eine Reihe von Aussagen angeboten und Du sollst entscheiden, inwieweit diese mit Deinen Erfahrungen übereinstimmen: 1) Periodikum entspricht der Vorstellung, die ich von einer Suchmaschine habe. trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ trifft überhaupt nicht zu 2) Periodikum ist einfach zu bedienen. trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ trifft überhaupt nicht zu 3) Ich habe die Recherche mit Periodikum als mühsam und zeitaufwändig empfunden. trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ trifft überhaupt nicht zu 4) Ich habe die Recherche mit Periodikum als effizient empfunden. trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ trifft überhaupt nicht zu 5) Ich bin mit meinen Rechercheergebnissen zufrieden. trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ trifft überhaupt nicht zu 6) Es war schwierig zwischen den Kurzfassungen der einzelnen Artikel auszuwählen. trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ Fragebogen zur Bewertung der Suchmaschine Periodikum 132 trifft überhaupt nicht zu 1 A.5. Fragebogen zur Benutzerzufriedenheit Testperson: Datum: 7) Ich würde Periodikum jederzeit wieder als Suchmaschine verwenden. trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ trifft überhaupt nicht zu Teil B: Deine Beurteilung der Qualität der Ergebnislisten Im diesem Teil des Fragebogens wirst Du gefragt, inwieweit Deiner Meinung nach verschiedene Aussagen über die Qualität der Ergebnislisten zutreffen: 8) Ich bin mit der Qualität der Suchergebnisse zufrieden. trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ trifft überhaupt nicht zu 9) Die Artikel hätten besser gefiltert sein können. trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ trifft überhaupt nicht zu 10) Die meisten Artikel waren für die dazugehörigen Suchanfragen relevant. trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ trifft überhaupt nicht zu 11) Die Präsentation der Ergebnisse war übersichtlich. trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ trifft überhaupt nicht zu 12) Die Ergebnislisten waren zu umfangreich. trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ Fragebogen zur Bewertung der Suchmaschine Periodikum trifft überhaupt nicht zu 2 133 A. Materialien zum Benutzertest Testperson: Datum: 13) Die Reihenfolge der Suchergebnisse spiegelte die Relevanz der Artikel wieder. trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ trifft überhaupt nicht zu 14) Die von mir aufgerufenen Artikel waren für die Recherche hilfreich. trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ trifft überhaupt nicht zu 15) Hättest Du andere Suchbegriffe eingegeben? Falls ja, welche? Suchaufgabe: Atomtransporte in Deutschland: ______________________________________ Suchaufgabe: Erneuerbare Energien: ______________________________________ Suchaufgabe: Kinderarbeit in Asien: ______________________________________ Teil C: Dein Votum zu der Suchmaschine Periodikum In diesem Teil des Fragebogens kannst Du Dein Votum zu der Suchmaschine Periodikum abgeben: 16) Würdest Du den Einsatz von Periodikum als Suchmaschine für Fachzeitschriften in der Hildesheimer Universitätsbibliothek empfehlen? trifft vollkommen zu 1 2 3 4 5 6 7 □ □ □ □ □ □ □ Fragebogen zur Bewertung der Suchmaschine Periodikum 134 trifft überhaupt nicht zu 3 A.5. Fragebogen zur Benutzerzufriedenheit Testperson: Datum: Teil D: Angaben zu Deiner Person und Computererfahrung In diesem Teil des Fragebogens wirst Du um einige allgemeine Angaben zu Deiner Person und zu Deiner bisherigen Computererfahrung gebeten: 17) Geburtsjahr: _______ 18) Ich bin derzeit □ Schülerin □ Auszubildende Ausbildungsberuf: _____________________ □ Studentin Studiengang: _____________________ □ berufstätig Berufsbezeichnung: _____________________ □ Sonstiges: _____________________ 19) Muttersprache: _____________________ 20) Benutzt Du im Zuge Deiner schulischen/beruflichen Ausbildung, Deines Studiums oder Deines Berufes einen Computer? □ ja □ nein 21) An wie vielen Tagen hast Du in der letzten Woche einen Computer benutzt? ____ 22) Wie viele Stunden verbringst Du in der Woche am Computer? ____ 23) Wie viele Stunden verbringst Du in der Woche im Internet? ____ 24) Welche Suchmaschinen kennst Du? ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ 25) Wie viele verschiedene Suchmaschinen verwendest Du regelmäßig? ____ Fragebogen zur Bewertung der Suchmaschine Periodikum 4 135 A. Materialien zum Benutzertest Testperson: Datum: Teil E: Was Dir gefällt – was Dich stört 26) Wenn Du möchtest, kannst Du hier genauer angeben, welche Stärken und Schwächen die Suchmaschine Periodikum aus Deiner Sicht hat: ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ 27) Falls Du noch Anmerkungen zu dem Benutzertest hast, kannst Du diese hier einbringen: ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ Teil F: Abschlussfrage 28) Hast Du im Internet nach der Suchmaschine Periodikum gesucht, nachdem Du die Einladung zu diesem Benutzertest bekommen hast? □ ja □ nein Zum Schluss noch eine Einladung zu einem weiteren Benutzertest: Online-Benutzertest zur Bewertung der Suchmaschine FactDirectory Demnächst soll, ebenfalls im Rahmen einer Magisterarbeit, die Suchmaschine FactDirectory getestet werden. Auch dieser Benutzertest wird ca. 30 Minuten dauern und es werden noch Teilnehmer gesucht. Die Teilnahme kann diesmal online erfolgen. Falls Du Interesse daran hast, wäre es schön, wenn Du Dich im Anschluss mit Deiner E-MailAdresse in die Teilnehmerliste eintragen würdest. In jedem Fall vielen Dank für Deine Mitarbeit an diesem Benutzertest! Fragebogen zur Bewertung der Suchmaschine Periodikum 136 5 B. Ranking der Ergebnislisten B.1. Energieaufgabe Tabelle B.1.: Energieaufgabe, niedriger Systemlevel, Precision: 0, 5, Average Precision: 0, 549648, 50 relevante Dokumente, 50 irrelevante Dokumente, 100 Dokumente insgesamt 1: relevantes Dokument, 0: irrelevantes Dokument 1 1 1 0 0 0 1 0 1 0 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 1 , 1 0 0 2 1 0 0 1 3 4 1 1 1 1 1 1 1 0 5 0 0 1 1 6 0 1 0 1 7 0 1 1 1 8 0 0 0 0 1 1 0 0 0 1 0 1 0 1 1 1 0 1 1 0 0 0 0 1 0 0 1 1 1 1 1 0 1 0 1 0 0 1 0 1 0 0 1 1 0 0 1 0 1 1 1 0 1 0 1 0 0 0 1 0 0 0 0 Tabelle B.2.: Energieaufgabe, hoher Systemlevel, Precision: 0, 6, Average Precision: 0, 750172, 60 relevante Dokumente, 40 irrelevante Dokumente, 100 Dokumente insgesamt 1: relevantes Dokument, 0: irrelevantes Dokument 1 1 1 0 1 1 1 1 0 0 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 1 0 1 0 2 1 1 1 1 3 1 0 1 0 4 1 0 1 0 5 1 0 0 0 6 1 0 0 0 7 1 0 1 1 8 1 1 1 0 1 1 0 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 0 1 0 1 1 0 1 0 0 1 1 0 0 1 0 1 0 0 1 1 1 1 0 0 1 1 0 0 1 0 0 0 1 1 1 1 0 0 137 B. Ranking der Ergebnislisten B.2. Asienaufgabe Tabelle B.3.: Asienaufgabe, niedriger Systemlevel, Precision: 0, 5, Average Precision: 0, 550129, 42 relevante Dokumente, 42 irrelevante Dokumente, 84 Dokumente insgesamt 1: relevantes Dokument, 0: irrelevantes Dokument 1 1 1 0 0 0 1 0 1 1 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 - - - - - - - - - - - - - - - - 1 0 1 1 2 1 0 1 0 3 0 1 0 0 4 5 1 1 0 0 1 0 1 6 0 1 1 7 0 1 1 8 0 0 0 0 1 1 1 1 1 0 0 1 1 0 1 0 0 0 0 0 1 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 0 0 1 0 1 0 0 0 1 1 1 1 0 1 Tabelle B.4.: Asienaufgabe, hoher Systemlevel, Precision: 0, 6, Average Precision: 0, 750398, 50 relevante Dokumente, 34 irrelevante Dokumente, 84 Dokumente insgesamt 1: relevantes Dokument, 0: irrelevantes Dokument 1 1 1 1 1 0 1 1 1 0 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 - - - - - - - - - - - - - - - - 1 0 1 0 138 2 0 1 1 0 3 1 0 1 1 4 1 0 0 1 5 1 1 0 6 1 0 1 7 1 1 1 8 0 1 0 1 1 1 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0 0 1 0 1 0 0 1 1 1 1 0 0 1 0 1 1 0 B.3. Atomaufgabe B.3. Atomaufgabe Tabelle B.5.: Atomaufgabe, niedriger Systemlevel, Precision: 0, 5, Average Precision: 0, 550318, 48 relevante Dokumente, 48 irrelevante Dokumente, 96 Dokumente insgesamt 1: relevantes Dokument, 0: irrelevantes Dokument 0 1 1 1 0 0 0 1 1 1 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 - - - - 0 0 0 0 2 0 1 1 1 3 1 1 1 0 4 5 0 1 1 1 0 0 0 1 6 0 1 0 0 7 1 1 1 1 8 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 1 1 0 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 0 0 1 0 1 1 1 0 1 0 1 0 1 0 0 1 Tabelle B.6.: Atomaufgabe, hoher Systemlevel, Precision: 0, 6, Average Precision: 0, 75014, 57 relevante Dokumente, 39 irrelevante Dokumente, 96 Dokumente insgesamt 1: relevantes Dokument, 0: irrelevantes Dokument 0 1 1 1 1 1 1 1 1 0 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 - - - - 1 0 1 0 2 1 0 1 0 3 0 0 1 1 4 1 1 0 0 5 1 1 0 0 6 1 1 1 1 7 0 1 0 0 8 0 0 0 0 0 1 0 0 1 1 1 1 0 1 1 1 1 1 1 1 0 0 0 0 1 1 1 0 1 1 1 0 0 1 0 1 1 0 1 1 1 0 0 1 0 1 0 1 1 1 0 1 1 1 0 0 1 1 1 139 B. Ranking der Ergebnislisten 140 C. Statistische Auswertungen C.1. Überprüfung der Voraussetzungen Tabelle C.1.: Kolmogorov-Smirnov-Test auf Normalverteilung Energie Asien a b Maÿ df Sig. Maÿ df Sig. Maÿ Dok@10 89 BR 89 t1.Dok 89 BP 89 PCP 89 Dok@10 89 BR 89 t1.Dok 89 BP 89 PCP 89 0,000c 0,000c 0,001c 0,000c 0,200 Mikromittelwerte Maÿ df Sig. Makromittelwerte Maÿ df Sig. Dok@10 89 Dok@10 89 BR 89 BR 89 t1.Dok 89 t1.Dok 0,005c 0,012c - - 0,005c 0,004c 0,000 0,000c 0,200 Dok@10 89 BR 89 t1.Dok 89 BP 89 PCP 89 M2 M3 M5 M6 M7 89 89 89 BP 89 BP 89 PCP 89 0,200 PCP 89 Sig. Fragebogen Item df Sig. Item df 7 Item df 1 89 0,000c 89 0,000c 89 0,000c 4 89 0,000c 5 89 6 89 3 Freiheitsgrade 0,000c 0,000c b Signikanz 89 89 89 0,000c 12 89 89 0,000c 13 89 89 0,000c 14 89 10 89 0,000c 16 89 11 89 0,000c BZ 89 8 9 c Normalverteilung 0,000c 0,000c 0,000c 0,000c 0,005c Dokumentenmengen Maÿ df Sig. 0,000c 2 a 0,001c 0,004c 0,000c 0,000c 0,149 Atom df Sig. 0,001c 0,000c 0,024 0,001c 0,000c Sig. 0,000c 0,000c 0,000c 0,000c 0,200 nicht gegeben 141 C. Statistische Auswertungen Tabelle C.2.: Mauchly-Test auf Spherizität: Topiceekte Approximiertes Greenhouse-Geisser 2 a b Mauchly-W χ df Sig . Korrektur 0,993 0,950 0,858 0,993 0,987 Dok@10 BR t1.Dok BP PCP a Freiheitsgrade b Signikanz c Spherizität 0,578 4,456 13,364 0,578 1,104 2 2 2 2 2 0,749 0,108 0,001c 0,749 0,576 0,993 0,952 0,875 0,993 0,988 nicht gegeben Tabelle C.3.: Varianzhomogenität: Reihenfolgeeekte, Abbruch vor 10 min, nur erste Seite betrachte Energie df1a df2 Sig.b F Dok@10 BR t1.Dok BP PCP 1,043 1,243 0,659 4,503 1,076 BR t1.Dok BP PCP 0,290 0,468 6,751 6,914 0,199 Dok@10 t1.Dok BP PCP a 3,665 4,750 0,538 18,603 4,497 Freiheitsgrade 142 2 86 2 86 2 86 2 86 1 87 1 87 1 87 1 87 1 87 Energie df1 df2 F BR 86 Energie df1 df2 F Dok@10 2 b 1 87 1 87 1 87 1 87 1 87 Signikanz 0,357 0,294 0,520 0,014c 0,345 Reihenfolgeeekte Asien F df1 df2 Sig. 1,759 2,305 1,220 1,063 0,226 2 86 2 86 2 86 2 86 2 86 0,178 0,106 0,300 0,350 0,798 Abbruch vor 10 Minuten Asien Sig. F df1 df2 Sig. 0,592 19,344 0,496 15,772 0,011c 0,021 0,010c 4,396 0,657 0,571 87 0,000c 1 87 0,000c 1 87 1 87 1 87 1 c Varianzhomogenität 1 87 1 87 1 87 1 87 1 87 0,663 0,919 0,445 0,230 0,159 F 2,442 1,628 0,885 34,558 0,039c 0,160 0,452 1,641 Nur erste Seite betrachtet Asien Sig. F df1 df2 Sig. 0,059 3,590 0,032c 4,426 0,465 0,028 c 0,000 27,964 0,037c 0,197 F 0,061 0,038c 0,867 0,000c 0,659 nicht gegeben F 5,583 6,672 3,377 0,085 2,513 Atom df1 df2 2 86 2 86 2 86 2 86 2 86 Atom df1 df2 1 87 1 87 1 87 1 87 1 87 Atom df1 df2 1 87 1 87 1 87 1 87 1 87 Sig. 0,518 0,403 0,642 0,795 0,853 Sig. 0,122 0,205 0,000c 0,690 0,204 Sig. 0,020 0,011c 0,070 0,771 0,117 C.1. Überprüfung der Voraussetzungen Tabelle C.4.: Varianzhomogenität: Benutzerleistung mit und ohne Kovariaten Benutzerleistung ohne Kovariate Makromittelwerte Mikromittelwerte a b F df1 df2 Sig. F df1 df2 Sig. 1,077 0,724 1,221 5,419 0,454 Dok@10 BR t1.Dok BP PCP 3 85 3 85 3 85 3 85 3 85 0,363 0,540 0,307 0,002c 0,715 1,077 0,745 3 85 3 85 0,363 0,528 - - - - 3,680 0,600 3 85 3 85 0,015c 0,617 Dokumentenmengen F df1 df2 Sig. Mengen M2 M3 M5 M6 M7 1,224 1,113 1,433 1,215 5,177 Dok@10 0,986 0,883 0,986 5,177 0,464 3 85 3 85 3 85 3 85 3 85 0,306 0,348 0,239 0,309 0,002c Leistungsmaÿe mit Kovariate Alter Makromittelwerte Mikromittelwerte F df1 df2 Sig. F df1 df2 Sig. BR t1.Dok BP PCP 3 85 3 85 3 85 3 85 3 85 0,403 0,453 0,403 0,002c 0,708 1,359 0,897 3 85 3 85 0,261 0,446 - - - - 3,513 0,614 3 85 3 85 0,019c 0,608 Leistungsmaÿe mit Kovariate Rechercheerfahrung Makromittelwerte Mikromittelwerte F df1 df2 Sig. F df1 df2 Sig. 1,123 0,759 1,225 5,456 0,387 Dok@10 BR t1.Dok BP PCP a Freiheitsgrade b Signikanz 3 85 3 85 3 85 3 85 3 85 0,344 0,520 0,306 0,002c 0,763 c Varianzhomogenität 1,123 0,781 3 85 3 85 - - - 3,716 0,546 3 85 3 85 0,344 0,508 - 0,015c 0,652 nicht gegeben 143 C. Statistische Auswertungen Tabelle C.5.: Varianzhomogenität: Benutzerleistung, Einuss Muttersprache und Alterseekte Einuss Muttersprache Makromittelwert Mikromittelwerte a b F df1 df2 Sig. F df1 df2 Sig. 0,815 0,736 1,302 4,333 2,248 Dok@10 BR t1.Dok BP PCP 1 87 1 87 1 87 1 87 1 87 0,369 0,393 0,257 0,040c 0,137 0,815 0,606 1 87 1 87 0,369 0,438 - - - - 1,873 1,244 1 87 1 87 0,175 0,268 Einuss Altersgruppen Makromittelwert Mikromittelwerte F df1 df2 Sig. F df1 df2 Sig. 2,482 1,735 1,827 1,078 1,905 Dok@10 BR t1.Dok BP PCP a Freiheitsgrade b Signikanz 2 86 2 86 2 86 2 86 2 86 0,090 0,182 0,167 0,345 0,155 c Varianzhomogenität 2,482 1,652 2 86 2 86 0,090 0,198 - - - - 1,064 1,329 2 86 2 86 0,350 0,270 nicht gegeben Tabelle C.6.: Varianzhomogenität: Fragebogenitems und Gesamtskala Benutzerzufriedenheit (BZ), Einuss Muttersprache und Altersgruppen Einuss Muttersprache Item F df1a df2 Sig.b 1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 BZ a 0,099 0,235 1,866 1,150 6,601 0,008 0,090 0,613 0,016 0,033 0,285 2,718 3,057 0,888 0,008 1,956 Freiheitsgrade 144 b 1 87 1 87 1 87 1 87 1 87 1 87 1 87 1 87 1 87 1 87 1 87 1 87 1 87 1 87 1 87 1 87 Signikanz Einuss Altersgruppen Item F df1 df2 Sig. 0,753 0,629 0,175 0,286 0,012c 0,927 0,765 0,436 0,901 0,857 0,595 0,103 0,084 0,349 0,928 0,166 c Varianzhomogenität 1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 nicht gegeben 0,260 3,045 0,935 0,035 2,356 0,156 0,360 2,364 1,063 4,178 4,019 2,079 0,784 2,658 0,381 2 86 2 86 2 86 2 86 2 86 2 86 2 86 2 86 2 86 2 86 2 86 2 86 2 86 2 86 2 86 0,771 0,053 0,397 0,966 0,101 0,856 0,699 0,100 0,350 0,019c 0,021c 0,131 0,460 0,076 0,684 C.1. Überprüfung der Voraussetzungen Tabelle C.7.: Varianzhomogenität: Fragebogenitems und Gesamtskala Benutzerzufriedenheit (BZ) mit und ohne Kovariaten Auswertung ohne Kovariate Item F df1a df2 Sig.b 1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 BZ Item F 1 0,989 4,018 1,629 1,866 2,184 0,488 0,855 1,138 2 3 4 5 6 7 8 a 0,855 3,973 1,716 2,083 2,171 0,656 0,817 1,160 3,879 0,839 3,443 1,339 1,401 3,475 0,763 1,171 Freiheitsgrade 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 0,468 0,011c 0,170 0,108 0,097 0,581 0,488 0,330 0,012c 0,476 0,020c 0,267 0,248 0,020c 0,518 0,326 Auswertung mit Kovariate Alter Item F df1 df2 Sig. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 BZ 0,927 3,063 1,644 2,126 2,156 0,406 0,766 1,114 3,982 0,851 3,327 1,434 1,369 3,538 0,772 1,048 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 Auswertung mit Kovariate Rechercheerfahrung df1 df2 Sig. Item F df1 df2 b 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 Signikanz 0,402 0,010c 0,189 0,141 0,096 0,692 0,468 0,339 c Varianzhomogenität 9 10 11 12 13 14 16 BZ 3,435 0,912 3,758 1,507 1,410 3,178 0,762 0,932 3 85 3 85 3 85 3 85 3 85 3 85 3 85 3 85 0,431 0,032c 0,185 0,103 0,099 0,749 0,516 0,348 0,010c 0,470 0,023c 0,239 0,258 0,018c 0,513 0,376 Sig. 0,021c 0,439 0,014c 0,218 0,245 0,028c 0,519 0,429 nicht gegeben 145 C. Statistische Auswertungen C.2. Einuss selbstbestimmter Abbruch Tabelle C.8.: Mittelwerte: Selbstbestimmter Abbruch Energie Maÿ t <9 min | t≥ 7,13 0,13 454,4 0,81 0,67 Dok@10 BR t1.Dok BP PCP Asien 9 min t <9 8,51 0,16 640,27 0,93 0,66 min Atom t≥ 10,91 0,23 81,36 0,84 0,61 9 min t 8,55 0,19 121,58 0,9 0,62 <9 min 7,29 0,14 402,29 0,82 0,63 t≥ 9 min 10,87 0,21 638,64 0,89 0,69 C.3. Einuss nur erste Ergebnisseite betrachtet Tabelle C.9.: Varianzanalysen nur erste Ergebnisseite betrachtet Nur eine Seite Mehr als eine Seite Asien Atom 9 3 7 86 82 80 a df b F c Sig. Dok@10 1 BR 1 t1.Dok 1 BP 1 PCP 1 11,618 13,108 0,058 2,459 3,213 0,001 0,000 0,810 0,121 0,077 Maÿ a Energie Freiheitsgrade b F-Wert df F Sig. df F Sig. 1 5,701 5,970 2,517 2,848 9,092 0,019 0,017 0,116 0,095 0,003 1 7,164 8,166 1,612 4,387 2,639 0,009 0,005 0,208 0,039 0,108 1 1 1 1 1 1 1 1 c Signikanz Tabelle C.10.: Mittelwerte nur erste Ergebnisseite betrachtet Energie Maÿ Dok@10 BR BP PCP 146 Asien Atom Eine S. Mehrere S. Eine S. Mehrere S. Eine S. Mehrere S. 2,56 0,04 0,84 0,56 8,93 0,16 0,92 0,67 2,00 0,04 0,78 0,35 9,08 0,2 0,9 0,63 2,86 0,05 0,76 0,57 10,94 0,21 0,89 0,69 C.4. Einuss der Muttersprache C.4. Einuss der Muttersprache Tabelle C.11.: Varianzanalysen Muttersprache: Leistungsmaÿe und Frageitems Benutzerzufriedenheit Makromittelwerte a F F-Wert Dok@10 1 BR 1 t1.Dok 1 BP 1 PCP 1 2,513 2,891 3,306 2,852 0,503 Item df F 1 1 2 1 3 1 4 1 5 1 6 1 7 1 1,637 0,016 0,052 0,170 0,164 0,003 0,386 0,048 1 8 a b df Maÿ Freiheitsgrade b F-Wert Mikromittelwerte c Sig. Maÿ df F Sig. 0,117 0,093 0,072 0,095 0,480 Dok@10 1 BR 1 2,513 2,763 0,117 0,100 Sig. 0,204 0,901 0,820 0,681 0,686 0,960 0,536 0,827 t1.Dok - - - BP 1 PCP 1 2,214 0,135 0,140 0,714 Item df F Sig. 9 1 10 1 11 1 12 1 13 1 14 1 16 1 0,548 0,033 0,204 0,091 1,346 2,831 0,001 0,461 0,857 0,653 0,764 0,249 0,096 0,981 c Signikanz 147 C. Statistische Auswertungen C.5. Einuss des Alters Tabelle C.12.: Überprüfung der Daten auf Alterseekte: Mikromittelwerte Benutzerleistung und Frageitems Benutzerzufriedenheit Varianzanalyse Maÿ df a Dok@10 2 BR 2 BP 2 PCP 2 F b Post-Hoc-Test c Sig. 1. vs. 2. AG 1. vs. 3. AG 2. vs. 3. AG MD Sig. MD Sig. MD Sig. 6,497 5,699 1,147 1,660 0,002 0,005 0,322 0,196 −1,84 −0,04 − − 0,464 0,381 − − −7,47 −0,14 − − 0,003 0,005 − − −5,63 −0,10 − − 0,010 0,035 − − 0,566 4,789 0,423 0,166 0,985 0,142 0,580 0,341 0,626 0,524 0,889 0,080 0,028 0,347 1,861 0,570 0,011 0,656 0,847 0,378 0,868 0,562 0,712 0,537 0,594 0,415 0,923 0,972 0,708 0,162 − 0,07 − − − − − − − − − − − − − − 0,883 − − − − − − − − − − − − − − −0,49 − − − − − − − − − − − − − − 0,082 − − − − − − − − − − − − − − −0,56 − − − − − − − − − − − − − − 0,011 − − − − − − − − − − − − − Item 1 2 2 2 3 2 4 2 5 2 6 2 7 2 8 2 9 2 10 2 11 2 12 2 13 2 14 2 16 2 a Freiheitsgrade b F-Wert c Signikanz Tabelle C.13.: Varianzanalysen mit Kovariate Alter: Mikromittelwerte Benutzerleistung Alter Maÿ df a Dok@10 1 BR 1 BP 1 PCP 1 a Freiheitsgrade F 4,933 4,801 0,378 0,611 b Erwartungshaltung b c Sig. df F 0,029 0,031 0,540 0,436 1 1,266 1,052 0,315 0,734 F-Wert 1 1 1 Systemgüte df F Sig. df F Sig. 0,264 0,308 0,576 0,394 1 0,301 0,760 15,705 3,858 0,585 0,386 0,000 0,053 1 2,642 2,284 2,532 1,091 0,108 0,134 0,115 0,299 1 1 1 c Signikanz C.6. Einuss der Rechercheerfahrung 148 Interaktion Sig. 1 1 1 C.6. Einuss der Rechercheerfahrung Tabelle C.14.: Varianzanalysen mit Kovariate Alter: Mikromittelwerte Benutzerleistung und Frageitems Benutzerzufriedenheit Alter Erwartungshaltung a df b F c Sig. 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 1 10 1 11 1 12 1 13 1 14 1 16 1 0,141 5,006 0,088 0,003 0,000 1,464 0,078 0,340 0,032 0,236 1,909 0,046 0,017 0,397 2,195 0,708 0,028 0,767 0,960 0,982 0,230 0,780 0,562 0,859 0,628 0,171 0,831 0,898 0,530 0,142 Maÿ df F 1 0,338 0,079 0,242 0,350 0,236 0,101 0,031 0,122 0,132 1,067 0,025 0,916 0,321 0,839 0,003 Systemgüte Interaktion Sig. df F Sig. df F Sig. 0,563 0,780 0,624 0,556 0,629 0,752 0,861 0,727 0,717 0,305 0,875 0,341 0,573 0,362 0,958 1 0,025 0,101 0,078 0,096 0,061 0,870 0,151 1,150 7,426 5,299 0,521 1,690 3,438 0,190 0,048 0,875 0,752 0,781 0,757 0,806 0,354 0,699 0,287 0,008 0,024 0,473 0,197 0,067 0,664 0,827 1 1,099 3,438 1,527 1,402 6,254 0,638 0,068 1,164 0,052 0,005 2,180 1,675 0,871 0,942 0,202 0,298 0,067 0,220 0,240 0,014 0,427 0,795 0,284 0,820 0,943 0,144 0,199 0,353 0,335 0,654 Item a b Freiheitsgrade F-Wert 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 c Signikanz Tabelle C.15.: Varianzanalysen mit Kovariate Recherecheerfahrung: Makromittelwerte Makromittelwerte a Rechercheerfahrung Erwartungshaltung Maÿ df F Sig. df F Dok@10 1 1 t1.Dok 1 BP 1 0,124 0,158 0,010 0,751 1,556 0,726 0,692 0,921 0,389 0,216 1 BR 2,695 2,388 0,036 0,606 0,713 PCP 1 Freiheitsgrade b F-Wert 1 1 1 1 c Signikanz e Systemgüte Interaktion Sig. df F Sig. df F Sig. 0,104 0,126 0,850 0,438 0,401 1 0,419 0,558 0,105 12,408 3,999 0,519 0,457 0,747 0,001 0,049 1 2,721 2,313 0,283 4,873 1,063 0,103 0,132 0,596 0,030 0,306 1 1 1 1 Varianzhomogenität nicht gegeben f 1 1 1 1 Normalverteilung nicht gegeben 149 C. Statistische Auswertungen Tabelle C.16.: Varianzanalysen mit Kovariate Recherecheerfahrung: Mikromittelwerte un. Fragebogen Mikromittelwerte Rechercheerfahrung Erwartungshaltung Maÿ df F Sig. df F Dok@10 1 1 BP 1 PCP 1 0,124 0,177 0,684 1,055 0,726 0,675 0,411 0,307 1 BR 0,264 0,102 0,135 0,157 0,002 1,058 1,854 0,035 0,216 0,167 2,157 0,472 0,394 2,575 0,005 0,776 0,609 0,750 0,714 0,693 0,963 0,307 0,177 0,852 0,643 0,684 0,146 0,494 0,532 0,112 0,945 0,381 1 1 1 1 df F Sig. df F Sig. 2,695 2,341 0,252 0,963 0,104 0,130 0,617 0,329 1 0,419 0,550 15,504 3,740 0,519 0,460 0,000 0,057 1 2,721 2,374 2,645 1,184 0,103 0,127 0,108 0,280 0,305 0,648 0,382 0,437 0,259 0,283 0,014 0,239 0,217 0,803 0,002 1,229 0,460 0,916 0,177 0,352 0,582 0,423 0,538 0,511 0,612 0,596 0,905 0,626 0,643 0,373 0,963 0,271 0,500 0,341 0,675 0,555 0,031 0,181 0,052 0,075 0,058 0,854 0,089 1,193 7,153 4,983 0,479 1,514 3,673 0,123 0,016 6,495 0,861 0,671 0,820 0,785 0,810 0,358 0,766 0,278 0,009 0,028 0,491 0,222 0,059 0,727 0,901 0,013 1 1,143 3,501 1,534 1,418 6,256 0,554 0,054 1,204 0,051 0,004 1,999 1,699 0,889 1,059 0,237 0,073 0,288 0,065 0,219 0,237 0,014 0,459 0,817 0,276 0,822 0,948 0,161 0,196 0,349 0,306 0,627 0,787 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 1 10 1 11 1 12 1 13 1 14 1 16 1 BZ 1 Freiheitsgrade b 150 1 1 1 1 1 1 Fragebogen 1 gegeben Interaktion Sig. Item a Systemgüte F-Wert 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 c Signikanz e 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Varianzhomogenität nicht gegeben f 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Normalverteilung nicht C.7. Reliabilitätsanalyse für die kombinierte Zufriedenheitsskala C.7. Reliabilitätsanalyse für die kombinierte Zufriedenheitsskala Tabelle C.17.: Varianzanalysen mit Kovariate Alter: Mikromittelwerte Benutzerleistung und Frageitems Benutzerzufriedenheit Cronbachs Alpha Anzahl der Items Cronbachs Alpha Anzahl der Items 0,63 7 0,69 6 Cronbachs Alpha, Item Cronbachs Alpha, falls Item gelöscht Item falls Item gelöscht 8 0,56 8 0,61 9 0,52 9 0,62 10 0,55 10 0,61 11 0,6 11 0,69 12 0,69 13 0,67 13 0,63 14 0,69 14 0,61 C.8. Auswertung Item 15 Hättest Du andere Suchbegrie eingegeben? Falls ja, welche? S1,1 Item 15 ja Anzahl Gesamt 18 17 15 18 68 16,8 17,6 16,8 68 % von Item 15 0,27 0,25 0,22 0,27 1,00 S 0,82 0,77 0,65 0,82 0,76 4 5 8 4 21 Anzahl 5,2 5,2 5,4 5,2 21 % von Item 15 0,19 0,24 0,38 0,19 1,00 S 0,18 0,23 0,35 0,18 0,24 Anzahl 22 22 23 22 89 Erwartete Anzahl 22 22 23 22 89 % von Item 15 0,25 0,25 0,26 0,25 1,00 S 1,00 1,00 1,00 1,00 1,00 % von % von Wert df Sig. Chi-Quadrat nach Pearson 2,32 3 0,51 Likelihood-Quotient 2,23 3 0,53 Anzahl der gültigen Fälle S2,2 16,8 Erwartete Anzahl Gesamt S2,1 Erwartete Anzahl % von nein S1,2 89 151 C. Statistische Auswertungen C.9. Auswertung Item 29 Online-Benutzertest zur Bewertung der Suchmaschine FactDirectory Item 29 17 S1,1 S1,2 S2,1 21 17 76 Erwartete Anzahl 18,8 18,8 % von Item 29 0,22 S 0,77 5 21 % von nein Anzahl Erwartete Anzahl Gesamt 19,6 18,8 76 0,28 0,28 0,22 1,00 0,96 0,91 0,77 0,85 1 2 5 13 3,2 3,2 3,4 3,2 13 % von Item 29 0,39 0,08 0,15 0,39 1,00 S % von 0,23 0,05 0,09 0,23 0,15 Anzahl 22 22 23 22 89 22 22 23 22 89 0,25 0,25 0,26 0,25 1,00 1,00 1,00 1,00 1,00 1,00 Gesamt Wert df Sig. Chi-Quadrat nach Pearson 4,76 3 0,51 Likelihood-Quotient 5,13 3 0,16 Anzahl der gültigen Fälle S2,2 89 C.10. Leistungsmaÿe Tabelle C.18.: Varianzanalyse: Mikromittelwerte Leistungsmaÿe Erwartungshaltung Maÿ Dok@10 df F Sig. 1 2,868 0,094 Systemgüte df F 1 Interaktion Sig. df F Sig. 0,465 0,497 1 2,731 0,102 BR 1 2,519 0,116 1 0,508 0,478 1 2,375 0,127 BP 1 0,179 0,673 1 16,219 0,000 1 2,609 0,110 PCP 1 1,183 0,280 1 4,101 0,046 1 1,145 0,288 Tabelle C.19.: Mittelwerte: Mikromittelwerte Leistungsmaÿe Erwartungshaltung Maÿ Dok@10 A1 30,41 A2 24,47 Systemgüte Interaktion B1 B2 S1,1 S1,2 S2,1 S2,2 26,25 28,64 26,32 34,50 26,17 22,77 BR 0,20 0,16 0,19 0,17 0,19 0,21 0,19 0,14 BP 0,89 0,90 0,85 0,93 0,83 0,94 0,87 0,92 PCP 0,67 0,64 0,63 0,69 0,63 0,72 0,63 0,66 152 D. Darstellung und Auswertung der oenen Fragen D.1. Auswertung Item 26 Wenn Du möchtest, kannst Du hier genauer angeben, welche Stärken und Schwächen die Suchmaschine Periodikum aus Deiner Sicht hat: Antworten der Probandinnen auf diese oene Frage in ungekürzter und unveränderter Form sowie die Zuordnung zu den fünf Antwortkategorien: 153 D. Darstellung und Auswertung der oenen Fragen Tabelle D.1.: Gruppe S1,1 : I=Inhalt, L=Layout, R=Ranking, S=Snippet, T=Treer, U=Usibility Kategorie Stärke I Als Ergänzung zu anderen Suchmaschinen bzw. im Zusammenspiel ist sie bei Recherchearbeiten auf jeden Fall zu empfehlen. Pluspunkt Stärke Fachzeitschriften: Im Internet sind Fachartikel meist nur unvollständig einzusehen (da man Geld bezahlen muss für Fachzeitschriften!) L, U übersichtlich und wenig Schnick-Schnack, leicht und unkompliziert zu bedienen R gelterte Beiträge R, U, T, L aus meiner Sicht gibt es bei der Suchmaschine Periodikum keine Schwächen. T Die Artikel, die interessant waren, trafen dafür 100%ig zu. L, U gut: sehr übersichtlich, Handhabung ist intuitiv T z.T. zu lange Antworten, teilw. viel zu kurz, viele irrelevante Artikel zu Suchbegri R Die besten Suchergebnisse sind meist auf Seite 2 oder 3 der Ergebnisliste. Kategorie Schwäche R Bei einzelnen Themen sollte sie noch besser ltern (Thema 3). T, I Relevanz der Berichte besser einstufen, Links zu speziellen Seiten T, U Artikel mit relativ gleichem Inhalt werden nicht hintereinander angezeigt (verschiedene Seiten), keine Auswahlmöglichkeit für z.B. nur Artikel aus Deutschland etc., keine Anzeige der Relevanz bzw. der Übereinstimmung des angezeigten Artikels mit Suchbegrien I nicht nur Fachzeitschriften, sondern alle Zeitungen und Zeitschriften sind relevant bei umfassenden Suchen (z.B. auch Bildzeitung u.a.) S, T, R Kurztext in der Übersicht könnte etwas länger sein. Wenn man mehr als 1 Suchwort hat, sollten wirklich nur Ergebnisse gezeigt werden, wo wirklich alle Suchwörter drin auftauchen (oder mindestens nach oben sortieren -> best results) L Übersicht der relevanten Artikel an der Seite.... R nicht immer nach Relevanz sortierte Beiträge, nicht stark genug geltert L, U Informationskästchen waren nicht verstellbar, nach längerem Lesen/Recherchieren kann dies eventuell hinderlich/anstrengend sein. R Die Suchergebnisse müssten besser nach Relevanz geordnet werden. L Es wäre bei manchen Texten einfacher gewesen sich einen Überblick zu verschaen, wenn der Text nochmals mit Schlagwörtern untergliedert gewesen wäre. Evtl. hätten Bilder (zu den passenden Zeitungsartikeln) bei der Auswahl geholfen. T L, S Viele Artikel hatten mit dem Thema nix zu tun. Layout ist sehr rudimentär. Zusammenfassung der Texte bietet nicht immer eine kurze Zusammenfassung/Übersicht. S Die kurzen Beschreibungen in der Ergebnisliste waren oft nicht aussagekräftig genug. L, U Es wäre übersichtlicher, wenn die gesuchten Worte im Text markiert wären. Umständliche Bedienung (von Überschrift, Auswahl, Kreuz, nächster Überschrift) T Viele Artikel waren nicht nur für gesuchtes Thema relevant, sondern für das allgemeine Wissen interessant. T Durch manche Artikel hat man Suchzeit verschenkt, weil sie interessant waren, aber für die Suchaufgabe unrelevant 154 D.1. Auswertung Item 26 Tabelle D.2.: Gruppe S1,2 : I=Inhalt, L=Layout, R=Ranking, S=Snippet, T=Treer, U=Usibility Kategorie Stärke L, U sehr übersichtlich, leicht zu bedienen I weit gefächerte Ergebnislisten S gute, informative Kurzbeschreibung der Artikel T die meisten der gefundenen Artikel waren passend L Übersichtlichkeit T, R Die Suchergebnisse treen meistens vollkommen zu. Die Suchergebnisse sind nach ihrer Relevanz eingegeben I gut geeignet für gezielte Suche nach Zeitungsartikeln, zitierbare Texte für Arbeiten S Die Kurzbeschreibungen zu den Artikeln waren sehr hilfreich, so dass man gut aussortieren konnte. L übersichtliche Gliederung I gut fand ich, dass sehr viele verschiedene Quellen angegeben wurden U, T Möglichkeit interessante Artikel schnell zu nden L, U gut, dass man Artikelrelevanz bewerten kann, benutzerfreundliches Layout U, L, R, T Ich bin mit der Suchmaschine Periodikum zufrieden und würde die verwenden. T aber manchmal tauchen Themen auf, die garnicht zum gefragten Thema passen Kategorie Schwäche R keine Sortierung nach Relevanz S Den Kurztext etwas länger (1-3 Sätze) L Hinweis des Erscheinungsdatums der Artikel fehlt, um die Aktualität auf einen Blick erkennen zu können. L, R Die Suchbegrie sollten in Überschrift o. Kurzbeschreibung auftauchen bzw. die Artikel in denen sie in Ü. o. K. vorkommen müssen an 1. Stelle stehen. R Relevanz der Artikel nach dem Suchbegri erschien mir nicht ausreichend sortiert. S Kurztext auf der Liste der Suchergebnisse nicht immer aussagekräftig L leichte Reaktionsträgheit bei Mausklicks (könnte aber auch an eingestellter Mausgeschwindigkeit liegen), habe Datum der Artikel nicht wahrgenommen T Die eingegebenen Suchbegrie tauchten nicht immer im Text auf. Z.B. bei der Kinderarbeit in Asien hat man zwar Artikel über Kinderarbeit gefunden, über Kinderarbeit in Asien aber weniger und wenn ging es meistens um Teppich-Fabriken in Indien. T Die Suchmaschine ndet zwar viele Artikel zu den entsprechenden Suchwörtern, da diese jedoch oft Kommentare, Interviews etc. sind, enthalten sie nicht immer primär objektive Informationen zum Sachverhalt. Dies ist ein Nachteil der Suchmaschine für die Recherche. T Ich hätte mir gern Artikel gewünscht, die einen Überblick über das Thema liefern. L Schrift war recht klein im Fenster der Artikel, dadurch wirkte es etwas unübersichtlich L, R bei und hat das Überiegen etwas schwierig gemacht. längerem Suchen wären gröÿere Titelüberschriften hilfreich, teilweise nicht- relevante Ergebnisse auf den 1. Seiten U, S keine erweiterte Suchfunktion, in der Kurzzusammenfassung fehlt die Ortsangabe T, U schlecht, dass nicht alle Artikel relevant waren und es keine Funktion gibt, im Text U, L Man konnte seine Suche nicht erweitern. Artikel hatten keine Bilder, obwohl es in R, T Die gezeigte Artikelliste scheint nicht nach Relevanz geordnet zu sein. Manchmal ist nach dem Wort zu suchen manchen Texten angegeben war. kein Bezug zum gesuchten Thema erkennbar. U unklar, ob relevante Artikel noch einmal separat abrufbar sind 155 D. Darstellung und Auswertung der oenen Fragen Tabelle D.3.: Gruppe S2,1 : I=Inhalt, L=Layout, R=Ranking, S=Snippet, T=Treer, U=Usibility Kategorie Stärke S, L kurze Zusammenfassung der Artikel, Übersichtlichkeit L übersichtlich, Quelle wird angezeigt I Vielfältigkeit, nicht länderspezisch L, R, S Sie Suchergebnisse waren sehr übersichtlich und gut sortiert. Die Inhalte waren gut in U, L leichte Bedienung und klare Auistung der Kurzbeschreibung erkennbar. U Ich nde es wunderbar, dass man beim Anklicken der Kurzzusammenfassungen nur ein kleines Fenster auf dem Bildschirm hat, das ist viel übersichtlicher und bequemer. L, R ist sehr übersichtlich, gut strukturiert I sucht tatsächlich nur in Fachzeitschriften, anders als google.de L, I, U Die Einfachheit der Suchmaschine gefällt mir. Es gibt keine Werbung etc., die einen S unter der Überschrift die kurze Erläuterung ablenkt. Die Bedienung ist ebenfalls sehr leicht. L, S die Präsentation der einzelnen Artikel, der Beginn der Artikel wird in der Liste angezeigt I Die Artikel stammen aus seriöser Quelle. U, L einfach zu bedienen, übersichtliche Präsentation der Ergebnisse L, S gut sind die fett gedruckten Überschriften sowie die Einleitungen L, U Angenehme Optik, übersichtlich, unkomplizierte Bedienung L, U übersichtlich, einfach zu bedienen I Finde ich generell gut, da man relativ einfach passende Zeitungsartikel zu einem bestimmten Thema ndet. L gut ist, dass die Quelle aus der der Artikel stammt bei jedem Artikel dabei steht S Die Kurzfassungen der Artikel waren teilweise nicht aussagekräftig. Ergebnis aus dem Kategorie Schwäche Hohlspiegel -> da werden Tippfehler etc. veröentlicht -> nicht relevant L Die Anzahl der Seiten sollte auch im oberen Teil des Fensters sichtbar sein. Man sollte auf einen Blick erkennen können, wie viele Suchergebnisse erzielt wurden. U genauere Filter, z.B. welche Worte nicht gesucht werden sollen etc. S Suchbegri kommt nicht immer in der Kurzfassung vor T, R Reihenfolge/ Relevanz I Gefehlt haben mir eindeutig die Bilder. T meist falsche Artikel aufgezeigt, die nicht mit dem Oberthema kooperierten R Artikel schlecht geordnet (liegt vielleicht an Suchbegrien?) T manchmal nicht passende Themen dabei T man ndet die Suchwörter manchmal nicht in den gezeigten Artikeln R Die Ergebnisse könnten besser geltert sein. T gab viele Artikel, die nicht passten T Einige unrelevante, auch völlig andere Themen betreende Artikel wurden auf der ersten Seite angezeigt. S, R Die Kurzfassung ist viel zu kurz und nicht ansprechend genug. Sie waren auch nicht nach Relevanz geordnet. R R nicht nach Relevanz geordnet sollte besser ltern, wichtige/relevante Artikel zuerst und nicht durcheinander, so dass man alles lesen muss R unscharfer Filter, Relevanz nicht nach Suchbegrien sortiert R, I Ich hatte nicht den Eindruck, dass die Artikel nach ihrer Relevanz aufgeführt wurden. Viele Artikel aus der Schweiz; schwierig, wenn man einen Artikel f. Deutschland schreiben will I, U nur deutschsprachige Literatur verfügbar -> sollte international auswählbar sein, eventuell Ordnung nach Fachzeitschrift (Auswahlmöglichkeit geben) T Es wurden zum Teil Ergebnisse geliefert, die nicht mit dem Suchbegri in Zusammenhang standen. L 156 der blaue Hintergrund ist etwas störend; D.1. Auswertung Item 26 Tabelle D.4.: Gruppe S2,2 : I=Inhalt, L=Layout, R=Ranking, S=Snippet, T=Treer, U=Usibility Kategorie Stärke L Es ist positiv, dass die Artikel gleich in einem neuen Fenster geönet werden. L, U ansprechende Optik, angenehm anzuschauen, einfach zu bedienen, übersichtlich U Handhabung war einfach I, U Zugri zu vielen verschiedenen Bereichen (z.B. Zeitungen), schnell T qualitativ hochwertige Artikel I nur Fachliteratur/-berichte, keine Werbeanzeigen oder Kaufangebote T Ich nde es super, dass alle eingegebenen Suchbegrie in ihrer Reihenfolge/Zusammenhang berücksichtigt werden L, U, T Übersichtlichkeit, Schnelligkeit, Themenbezogenheit, einfache Anwendung L, U sehr übersichtlich und einfach zu bedienen L, U, S einfach zu bedienen, übersichtlich, Kurzfassungen waren gut u. verständlich U spült schnell die Suchergebnisse hervor L Angenehmer Hintergrund L, T fehlt: Datumsangabe in der Ergebnisliste, Wörter im Text markiert, Relevanz der Kategorie Schwäche Artikel nicht klar I Hilfreich ist es, wenn auch Aufsätze aus Sammelbänden gesucht werden können. T zu ungenau für den jeweiligen Artikel herausgeltert U Sortierungen zulassen: Wichtigkeit, Datum ... L, U Markierung von Artikeln, die bereits aufgerufen wurden. S, T Meistens wurde der komplette 1. Abschnitt des Artikels bei der Übersicht aufgelistet, was nicht so sinnvoll ist, da man so keinen guten Überblick über den Artikel bekommt. Manchmal war der Suchbegri im Artikel garnicht zu nden. L, R Meine Suchbegrie in Fett-Schrift, um sie schneller zu sehen. Hatte nicht das Gefühl, dass sie nach der Relevanz geordnet waren. I Die Suchergebnisse sind von wenigen Zeitungen/ Zeitschriften und zeigen somit nicht die ganze Vielfalt möglicher Artikel; viele Lokalberichte, viel aus der Schweiz; keine Ordnung ersichtliche R Es ist allerdings schade, dass die wichtigsten, die Artikel, die am öftesten die Suchbegrie enthalten, nicht zuerst gezeigt werden. R, U, I Keine chronologische Abfolge der Artikel, keine genaue Sucheingabe, nur Artikel aus wenigen Zeitschriften I aufwändige Pege des Bestands L die jeweilige Quelle könnte besser hervorgehoben werden L Quellenangabe könnte genauer sein L Die Seitenübersicht sollte zu jeder Zeit ersichtlich sein. 157 D. Darstellung und Auswertung der oenen Fragen D.2. Auswertung Item 27 Falls Du noch Anmerkungen zu dem Benutzertest hast, kannst Du diese hier einbringen: Antworten der Probandinnen auf diese oene Frage in ungekürzter und unveränderter Form: • Fand ich ganz gut! • mehr frische Luft • Ich fand die Zeit als Benutzer zu knapp, um behaupten zu können, die Suchmaschine seriös bewerten zu können. • war gut zu leisten, nicht zu umfangreich oder viel • Manchmal hätte ich mir eine Abstufung zwischen Artikel ist relevant und nicht relevant gewünscht, da manche Artikel nur z.T. wichtig waren: z.B. eher relevant und eher nicht relevant als zusätzliche Wahl • Die weit gefassten Aufgabenstellungen irritierten mich ein wenig bei der Auswahl der Artikel. • Die Themen waren sehr allgemein gehalten. Da es über diese jede Menge Berichte gibt, liefert Periodikum jede Menge Material. Es bleibt die Frage oen, ob Periodikum auch bei Recherchen zu spezielleren Themen ausreichend relevantes Material liefert. • Die Suchmaschine wird als eine für Fachzeitschriften bezeichnet, es hätten Themen genommen werden sollen, die solcher Fachzeitschriften bedürfen, wie Themen aus der Pädagogik etc., da für mich normaleZeitschriften keine Fachzeitschriften sind. • Ich weiÿ nicht, inwieweit Bilder von Nutzen sind, aber bei einer anderen Themenauswahl wie z.B. Kunst wären diese von Nutzen. • Evtl. kann man selber die Suchbegrie auswählen, um zu schauen, wann man den passenden Artikel ndet. • 158 schade, dass Begrie nicht variabel waren