Ue6 Web Mining
Transcrição
Ue6 Web Mining
Übungsarbeit Information Search and Retrieval Technische Universität Graz WS 2007 Web Mining Martin Daum (Technische Universität Graz, Österreich [email protected]) Philipp Melab (Technische Universität Graz, Österreich [email protected]) Karl Heinz Struggl (Technische Universität Graz, Österreich [email protected]) Betreuer Dipl.-Ing. Dr.techn. Christian GÜTL Institute for Information Systems and Computer Media (IICM), Austria [email protected] and [email protected] Copyright (C) 2007 [Martin Daum, Philipp Melab, Karl Heinz Struggl]. Dieses Werk kann durch jedermann gemäß den Bestimmungen der Lizenz für Freie Inhalte genutzt werden. Die Lizenzbedingungen können unter http://www.uvm. nrw.de/opencontent abgerufen oder bei der Geschäftsstelle des Kompetenznetzwerkes Universitätsverbund MultiMedia NRW, Universitätsstraße 11, D58097 Hagen, schriftlich angefordert werden. 1 Zusammenfassung Das Internet ist die gewaltigste Informationsquelle der Neuzeit. Seine Daten sind jedoch auf unterschiedlichste Weise strukturiert oder folgen überhaupt keiner Struktur. Es existieren vielfältige Ansätze, diesem Problem zu begegnen, um damit das Internet als Nährboden für Erkenntnisse urbar zu machen. Einer jener Ansätze wird in der Wissenschaft unter dem Begriff Web Mining zusammengefasst. Er steht für die Anwendung von Data Mining auf verschiedene Bestandteile des Webs. Die vorliegende Arbeit wird zunächst bei der geschichtlichen Entwicklung und der Begriffsbildung von Web Mining und seinen Teilbereichen ansetzen. Es wird der Begriff des Web Mining Prozesses eingeführt und ein Blick auf das Semantic Web Mining gerichtet werden. Anschließend werden zwei benutzerorientierte Forschungsansätze aus dem Umfeld des Web Mining dargestellt und der Anwendungsfall eines kollaborativen Web Mining Systems besprochen. Ein Ausblick auf die mögliche zukünftige Entwicklung dieses Themenkomplexes schließt diese Arbeit ab. Abstract The Internet is the most enormous source of information of today. Its data, however, is stored in many different ways and often not structured at all. There are manifold approaches trying to counteract this problem and to reclaim the internet as fertile soil for knowledge. One of these approaches, applying Data Mining to several aspects of the Web, is scientifically referred to as Web Mining. The work at hand will open wih a short historical and conceptual overview on the subject of Web Mining. The notion of the Web Mining Process will then be introduced, followed by a view to Semantic Web Mining. Subsequently, the work will present two user-oriented research areas in the context of Web Mining. The last section of this paper will then discuss and review a collaborative Web Mining system as an example of a particular case of appliction. Final considerations and a prospect for possible future development will close this work. Key Words: Semantic Web, Data Mining, Web Mining, Usage Mining, mining Category: H.3.1, H.3.3, H.3.5 2 Inhaltsverzeichnis 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Was ist Web Mining . . . . . . . . . . . 2.1 Data Mining . . . . . . . . . . . . . . 2.2 Web Mining . . . . . . . . . . . . . . 2.2.1 Web Structure Mining . . . . . . 2.2.2 Web Content Mining . . . . . . . 2.2.3 Web Usage Mining . . . . . . . . 2.3 Der Web Mining Prozess . . . . . . . 2.4 Semantic Web Mining . . . . . . . . . 2.4.1 Ontology Learning . . . . . . . . 2.4.2 Mapping and Merging Ontologies 2.4.3 Instance Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 6 7 7 8 8 9 10 12 12 12 3 Aktuelle Forschungsbereiche . . . . . . . . . . . . . . . . . . 3.1 Web Usage Mining zur Evaluierung von Webseiten . . . . . 3.1.1 Datenerfassung und Vorverarbeitung . . . . . . . . . . 3.1.2 Analyse und Auswerung . . . . . . . . . . . . . . . . . 3.1.3 Umsetzung und Auswirkungen . . . . . . . . . . . . . . 3.2 Web Mining als Mittel zur automatisierten Personalisierung 3.2.1 Datenerfassung und Vorverarbeitung . . . . . . . . . . 3.2.2 Analyse und Auswertung . . . . . . . . . . . . . . . . . 3.2.3 Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 14 15 15 15 15 16 16 4 Anwendung: Kollaboratives Web Mining System . . . 4.1 Vorbetrachtungen . . . . . . . . . . . . . . . . . . . . . 4.1.1 Kollaboratives Information Retrieval und Filtering 4.1.2 Software Agents im Web . . . . . . . . . . . . . . . 4.2 Zwei Hauptprobleme konventioneller Suchsysteme . . . 4.2.1 Problem 1: Unzureichende Post-Retrieval Analyse . 4.2.2 Problem 2: Keine kollaborativen Suchmechanismen 4.3 Die Collaborative Spider“ . . . . . . . . . . . . . . . . ” 4.3.1 User Agent . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Collaborator Agent und Scheduler Agent . . . . . . 4.3.3 Beispielhafter Suchvorgang . . . . . . . . . . . . . . 4.3.4 Evaluierung . . . . . . . . . . . . . . . . . . . . . . 4.3.5 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 17 17 18 18 19 19 19 20 21 21 22 23 5 Fazit und Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Einleitung Das Internet wurde durch sein enormes Wachstum in den letzten Jahren zur wichtigsten öffentlich zugänglichen Informationsquelle. Mittlerweile besteht das Internet laut [12] aus mehreren Milliarden von Webseiten und über 300 Millionen Benutzern weltweit, und hat bereits erheblichen Einfluss auf deren Leben. So wurde beispielsweise unser Verhalten bei der Informationssuche durch das Internet stark verändert. Mussten früher Bibliotheken händisch durchsucht werden, kann dies mittlerweile durch wenige Mausklicks mit jeder gängigen Suchmaschine erledigt werden. Das Internet hat jedoch nicht nur Vorteile. Durch den hohen Nutzungsgrad und die ständig wachsende Anzahl an Webseiten, und den darin enthaltenen Informationen, wird es immer schwieriger, relevante Informationen zu finden. Dadurch ist es für den Benutzer sehr wichtig, automatische Tools zu benutzen, um die gewünschten Informationen aufzufinden. Mittlerweile ist das Auffinden der relevanten Informationen im Internet, sowie die Speicherung und Auswertung von Verhaltensmustern der Benutzer, eine der größten Herausforderungen in der Internet-Forschung.[7] In [11] werden einige Eigenschaften des Internets aufgezählt, die erklären, warum Web Mining so ein faszinierender und gleichzeitig herausfordernder Prozess für die Wissenschaft ist: – Die Anzahl an verschiedenen Informationen im Internet ist riesig und wächst ständig weiter. Auch der Umfang der Information ist enorm und unterschiedlich. – Daten kommen im World Wide Web in den verschiedensten Typen und Formen vor. Sie können beispielsweise in strukturierten Tabellen, semistrukturierten Webseiten, unstrukturierten Texten oder in Multimedia-Files vorkommen. – Informationen im Internet sind heterogen. Durch die verschiedenen Autoren von verschiedenen Webseiten, werden ähnliche Informationen oft in komplett unterschiedlicher Weise dargestellt. – Der Großteil aller Informationen im Internet sind über Hyperlinks miteinander verlinkt. Innerhalb einer Seite werden Links dazu verwendet, Informationen zu ordnen und zu strukturieren. Links können auch viel über die Qualität einer Seite aussagen. Wird eine Seite oft von anderen verlinkt, so nimmt man an dass die Qualität der Informationen auf dieser Seite sehr hoch ist. 4 – Informationen im Web sind ungenau. Für diese Ungenauigkeit gibt es zwei Gründe. Erstens beinhalten Webseiten mehrere Arten von Informationen, wie Navigation, Werbungen sowie den Hauptinhalt. In den meisten Fällen wird nur eine Art der Information gewünscht sein, welche vom Rest extrahiert werden muss. Der zweite Grund ist, dass es keine Qualitätskontrollen für Informationen im Internet gibt. Dadurch haben viele Informationen wenig Qualität oder sind schlichtweg falsch. – Das Internet bietet viele Services an. Webseiten erlauben es den Benutzern nützliche Operationen auszuführen. – Das Internet ist dynamisch. Die Informationen ändern sich ständig. Für viele Applikationen ist es wichtig, auf Änderungen der Information reagieren zu können. – Das Internet ist eine virtuelle Gesellschaft. Es sind nicht nur Daten und Informationen wichtig, sondern auch Interaktion und Kommunikation. All diese Eigenschaften zeigen Herausforderungen und Möglichkeiten auf, um Informationen und Wissen aus dem Internet aufzufinden und zu extrahieren. In den folgenden Kapiteln wird nun näher auf das Thema Web Mining eingegangen. Kapitel 2 widmet sich dabei einer Herleitung und Abgrenzung der gängigen Begriffe Data Mining bzw. Web Mining, und den Teilbereichen des Web Mining sowie einer Erläuterung des Web Mining Prozesses. Anschließend dazu beschäftigt sich Kapitel 3 mit aktuellen Themen der Forschung mit Fokus auf Web Usage Mining. Der darauf folgende Abschnitt 4 stellt dann in einer gesamtheitlichen Betrachtung eine auf Content Mining und Usage Mining basierende, kollaborative Suchanwendung vor. 2 Was ist Web Mining Das Internet bildet eine riesige Datenquelle für Data Mining. Es beinhaltet eine enorme und dynamische Kollektion von Webseiten, mit einer Vielzahl an Hyperlinks sowie Benutzungsinformationen.[8] Laut [16] bedeutet Web Mining ganz allgemein die Anwendung von Data Mining Techniken auf Ressourcen aus dem Internet. Diese Techniken werden auf sie Struktur, die Inhalte und die Benutzung der Ressourcen angewandt. Wie andere Data Mining Methoden profitiert auch Web Mining von gegebenen Strukturen von Daten, wie zum Beispiel Datenbanken, kann aber auch auf semistrukturierten und unstrukturierten Text angewandt werden. 5 Das bedeutet, dass Web Mining ein außerordentlich wertvolles Mittel ist, um Inhalte, die von Menschen gelesen werden können, in maschinenlesbare Inhalte zu transformieren. Bevor der Begriff Web Mining nun näher betrachtet wird, wird zum besseren Verständnis ein kurzer Einblick ins Thema Data Mining gegeben. 2.1 Data Mining Data Mining wird in [11] auch als knowledge discovery in databases (KDD) bezeichnet und wird allgemein als Prozess zur Auffindung von nützlichem Wissen und Varhalten aus verschiedenen Datenquellen definiert. Die Muster müssen richtig, nützlich und verständlich sein. Data Mining wird in mehreren einflussreichen Gebieten der Forschung angewandt, einige davon sind:[11] – Datenbanken – Künstliche Intelligenz – Statistik – Information Retrieval – Visualisierung – Machine Learning Bekannte Anwendungen von Data Mining sind: [11] – supervised learning – unsupervised lerning – association rule mining – sequential pattern mining Data Mining wird als iterativer Prozess definiert, welcher in folgenden Schritten abläuft: [11] – Datenerhebung In dieser Phase werden die Daten ausgewählt, die im Laufe des Prozesses verarbeitet werden sollen. 6 – Pre-Processing Da die Rohdaten für Data Mining normalerweise ungeeignet sind, müssen diese im ersten Schritte erst verarbeitet werden. Dieser Schritt ist wichtig, um Ungenauigkeiten zu vermeiden. – Data Mining In diesem Schritt werden verschiedene Algorithmen auf die bereits verarbeiteten Daten angewandt. Das Ergebnis sind Muster und Wissen. – Post-Processing Nicht alle gefundenen Muster sind relevant. In diesem Schritt werden die nützlichen Muster für die Applikation herausgefiltert. Verschiedene Evaluierungsund Visualisierungsmethoden werden in diesem Schritt verwendet. 2.2 Web Mining Das traditionelle Data Mining verwendet hauptsächlich strukturierte Daten, durch das enorme Wachstum des Internet wird jedoch Web Mining immer wichtiger. Web Mining kann laut [11] nicht direkt als eine Anwendung von Data Mining gesehen werden. Gründe dafür sind die heterogenen und unstrukturierten Daten im Web. Durch diesen Umstand ist auch darauf zu achten, dass die gefundenen Relationen und Muster mehrfach vorkommen können.[4] Wie bereits am Anfang dieses Kapitels erwähnt, wird Web Mining auf Struktur, Inhalte und die Benutzung von Web Ressourcen angewandt. Analog zu diesen Anwendungsgebieten wird Web Mining in die drei Teilgebiete Web Structure Mining, Web Content Mining und Web Usage Mining eingeteilt. Die Besonderheiten dieser Teilgebiete werden in den folgenden Kapiteln näher betrachtet. 2.2.1 Web Structure Mining Laut [13] werden beim Web Structure Mining Informationen direkt aus der Struktur von Hyperlinks gewonnen, die auch die Struktur des Internets bilden. Web Structure Mining basiert somit auf der Topologie von Hyperlinks. Diese Art von Web Mining wird laut [11] bei vielen Suchmaschinen eingesetzt, um wichtige Webseiten identifizieren zu können. Dabei wird überprüft, welche und wieviele Links auf eine Seite zeigen. Anhand dieser Informationen kann dann die Priorität einer Seite errechnet werden. Google’s PageRank-Algorithmus basiert beispielsweise auf dieser Idee. Web Structure Mining kann auch verwendet werden, um die Funktion von einzelnen Webseiten herauszufinden. In [1] werden dabei vier Arten von Webseiten unterschieden: 7 – Headpages Headpages sind Einstiegsseiten für Web-Auftritte – Navigationsseiten Navigationsseiten enthalten viele Links und kaum Informationen – Contentseiten Contentseiten enthalten typischerweise viele Informationen, aber wenig Links – Look-Up-Seiten Diese Seiten enthalten viele eingehende Links, wenige ausgehende Links und keinen wichtigen Inhalt Web Structure Mining unterscheidet sich stark von traditionellem Data Mining, da dieses hauptsächlich auf Daten in Tabellen oder Datenbanken angewandt wird, wo es keine Hyperlink-Strukturen gibt. 2.2.2 Web Content Mining Beim Web Content Mining werden relevante Informationen direkt aus den Inhalten von Webseiten extrahiert. Es muss dabei beachtet werden, dass es sich nicht unbedingt um Hypertext, sondern auch um Audio, Video oder Metadaten handeln kann.[13] Bei den primären Web-Ressourcen handelt es sich jedoch um HTML- oder XML-Dokumente. Die Semistrukturiertheit dieser Daten kann Web Mining zu seinem Vorteil benutzen, denn HTML- und XML-Tags geben nicht nur Layoutinformation, sondern auch logische Strukturen an.[1] Ein gutes Beispiel für Web Content Mining wäre das automatische Kategorisieren von Webseiten in verschiedene Themengruppen oder das Erkennen von verschiedenen Trends. Dieses Beispiel ist dem traditionellen Data Mining sehr ähnlich. Eine andere Anwendung wäre laut [11] das Auslesen von Informationen aus Kommentaren oder Foren, um Daten über einen Benutzer zu erhalten. Diese Aufgabe hat mit traditionellem Data Mining nichts zu tun. 2.2.3 Web Usage Mining Web Usage Mining beschäftigt sich mit Daten, die während der Benutzung der Webseite, also der Interaktion mit dem Benutzer, erfasst werden. Es handelt sich dabei also um die Auffindung von sekundären Daten. Diese werden dabei unter anderem aus Logfiles, Sessions, Cookies, Keyboardeingaben, Mausklicks, Formulareingaben und Benutzerprofilen gelesen.[13] Ein wichtiger Anwendungsfall von Web Usage Mining findet sich in [1]. Es handelt sich dabei um das Erkennen von Zusammenhängen zwischen Seiten, wo 8 eigentlich keine speziellen Strukturen gegeben sind. Als konkretes Beispiel wäre hier ein Online-Produktkatalog zu nennen, in dem Produkte nur innerhalb von Kategorien strukturiert sind. Mit Hilfe von Web Usage Mining ist es nun möglich, semantische Zusammenhänge zwischen Produkten zu finden. Das wäre der Fall, wenn viele Benutzer die ein Produkt A aufrufen, auch die Artikelseite eines anderen Produktes B ansehen. In vielen E-Commerce Systemen wird diese Technik verwendet, um Produkte untereinander zu verlinken oder dem Kunden Empfehlungen zu geben, wie es der E-Commerce-Riese Amazon sehr erfolgreich vorlebt. Für den Betreiber einer Webseite kann Web Usage Mining auch dazu verwendet werden, um die Usability und die Strukturen einer Seite zu evaluieren. So kann man herausfinden, über welche Pfade Benutzer Seiten aufrufen. Dabei ist es wichtig herauszufinden, ob der Pfad gewünscht ist, oder ob die Struktur der Seite an dieser Stelle falsch ist. Aus diesem Grund sollte Web Usage Mining immer zusammen mit der Analyse von Inhalt und Struktur stattfinden, um feststellen zu können, ob die gefundenen Ergebnisse auch sinnvoll sind.[10] 2.3 Der Web Mining Prozess Der Web Mining Prozess besteht grundlegend aus den gleichen Teilschritten wie der Data Mining Prozess. Die einzelnen Phasen können sich allerdings stark vom Data Mining Prozess unterscheiden. In der folgenden Auflistung werden die Schritte genauer betrachtet: 1. Datenerhebung In diesem Schritt werden die Datenquellen ausgesucht, aus denen die Informationen bezogen werden können. Im Falle von Web Mining kommen hier Dokumente in Frage, die im World Wide Web verfügbar sind. Dabei muss es sich nicht automatisch um Webseiten handeln, sondern es kommen auch Newsletter, Newsgroup-Text oder Multimedia-Dateien in Frage. [10] 2. Pre-Processing Bevor die Daten für die Zwecke für Information Retrieval genutzt werden können, müssen sie vorverarbeitet werden. Für Textdokumente werden dazu meistens die Teilschritte Stoppworte entfernen, Stemming sowie eine spezielle Behandlung für Nummern, Aufzählungen und Groß- und Kleinschreibungen angewandt. Für Webseiten ist es notwendig, zusätzlich HTML-Tags zu entfernen und den Hauptinhalt zu identifizieren. Dabei ist darauf zu achten, dass HTMLTags nicht blind entfernt werden sollten, da sie auch einiges über die logische Struktur einer Seite aussagen, wie zum Beispiel Überschriften. [10] 9 Ein weiterer Vorverarbeitungsschritt, auf den beim Web Mining zu achten ist, ist das Erkennen von Duplikaten. Dieses Problem kommt beim traditionellen Data Mining nicht vor. In [11] werden mehrere Arten von Kopien unterschieden. Von einem Duplikat spricht man, wenn eine Seite kopiert wird, handelt es sich um den ganzen Webauftritt so spricht man von spiegeln. Diese Seiten werden oft absichtlich benutzt, um die Performance von Seiten zu erhöhen (zum Beispiel für große Downloads). Einige kopierte Seiten sind auch Plagiate. Eine einfache Möglichkeit Duplikate zu finden, ist einen HashWert von der Seite zu errechnen und diesen zu vergleichen. 3. Web Mining In dieser Phase werden Machine Learning und Data Mining Techniken angewandt. Das heißt, verschiedene Algorithmen werden auf die bereits vorverarbeiteten Daten angewandt. Da das Internet ein interaktives Medium ist, spielt auch der Mensch eine bedeutende Rolle beim Auffinden von Wissen oder Mustern.[10] 4. Post-Processing In dieser Phase werden die Daten für die Ausgabe aufbereitet. Mögliche Teilschritte sind unter anderem Sortieren und Formatierung. Der Web Mining Prozess ist zur besseren Veranschaulichung in Abbildung 1 dargestellt. Abbildung 1: Der Web Mining Prozess 2.4 Semantic Web Mining Laut [3] werden bei Semantic Web Mining die beiden wichtigen Forschungsgebiete Semantic Web und Web Mining miteinander kombiniert. Die Idee hinter Semantic Web Mining ist es, die Ergebnisse des Web Minings mit Hilfe der semantischen Strukturen des Webs zu verbessern. Web Mining kann auch helfen um das Semantic Web zu bauen. Das Semantic Web geht auf eine Vision von Tim Berners-Lee zurück.[17] Ein Großteil der Daten ist nur vom Menschen selbst interpretierbar, nicht jedoch 10 von Maschinen. Berners-Lees Idee war es nun, die Inhalte durch Information zu ergänzen, die von Maschinen verarbeitbar sind und die Bedeutung der Inhalte beschreiben. Um ein semantisches Netz zu bauen, muss eine Struktur definiert und diese mit Leben gefüllt werden. Die folgenden Punkte zeigen die Schritte um ein Semantic Web aufzubauen: [17] 1. Eine Syntax für Maschinen-lesbare Statements zur Verfügung zu stellen. 2. Eine allgemeines Vokabular herzustellen. 3. Eine Übereinstimmung mit einer logischen Sprache zu finden. 4. Die Anwendung der Sprache um Schlüsse abzuleiten. Berners-Lee schlug vor, das semantische Web in verschiedenen Schichten, auch Layer genannt, aufzubauen. Diese Struktur reflektiert die zuvor genannten Schritte. Das Modell ist in Abbildung 2 ersichtlich. Abbildung 2: Struktur des Semantic Web, aus [17] Damit die Maschine anhand dieser zusätzlichen Daten selbstständig semantische Zusammenhänge herstellen kann, müssen diese jedoch erst zur Verfügung gestellt werden. Eine vollständige Automatisierung dieser Aufgabe ist nicht möglich, und würde gleichzeitig alle Anstrengungen in diesem Gebiet überflüssig machen. Wäre die Technologie bereits vorhanden, solche Schlüsse völlig automatisch zu ziehen, so wären auch keine Metadaten zu einzelnen Dokumenten notwendig. Computer könnten dann auch direkt von den Quelldokumenten ausgehen und sie verarbeiten. 11 Der Mensch, mit seinem Erfahrungsschatz und Hintergrundwissen, ist und bleibt also unabdingbar. Es wird jedoch versucht, seine Arbeit möglichst einfach und effizient zu gestalten. [1] beschreibt die drei grundlegenden, allesamt semiautomatischen Techniken um dies zu bewerkstelligen. 2.4.1 Ontology Learning Ontology Learning vereint verschiedene Techniken um unstrukturierte, semistrukturierte und vollständig strukturierte Daten zu verarbeiten und relevante Informationen zu extrahieren. Die Ergebnisse werden meist noch von Menschenhand kontrolliert, was aber zumindest weniger Aufwand bedeutet als das ganze Dokument selbst zu lesen und die Metadaten zu erstellen.[1] 2.4.2 Mapping and Merging Ontologies Oft werden Ontologien zu den selben oder ähnlichen Themen von verschiedenen Autoren erstellt, die sich dabei leicht überschneiden können. Redundanz stellt für die maschinelle Verarbeitung jedoch ein erhebliches Problem dar, da sie ein Programm meist in eine zwiespältige, nicht selbstständig entscheidbare, Situation bringt. Es liegt also wieder am Menschen, diese Metainformationen in Einklang zu bringen. Da rein manuelles Vorgehen wiederum zeitaufwändig und fehleranfällig ist, gilt es Hilfestellung zu bieten. Anhand von semantischen und syntaktischen Techniken wird versucht, das menschliche Vorgehen in so einem Fall nachzustellen, und so den simplen, repetetiven Teil dieser Arbeit zu übernehmen. Eine Endkontrolle ist jedoch nach wie vor unabdingbar.[1] 2.4.3 Instance Learning Auch wenn von nun an beim Erstellen von Dokumenten vom Autor immer die relevanten Informationen strukturiert mitgeliefert werden würden, bliebe immer noch das Problem der gewaltigen Menge an Schriftstücken, die bereits ohne diese im World Wide Web umherschwirren. Hier kommt Information Extraction als Teilbereich des Human Language Processing ins Spiel. Darunter versteht man einige verschiedene Methoden, mit denen automatisch oder semiautomatisch Kerninformationen extrahiert und zur Verfügung gestellt werden.[1] 12 3 Aktuelle Forschungsbereiche Es wurden zwei verschiedene Richtungen identifiziert, die die Hauptmotivation für die Forschung im Bereich Web Mining darstellen. Auf der einen Seite steht die Optimierung und Kontrolle der eigenen Anwendung. Man betrachtet die Menge aller Benutzer und versucht das eigene Produkt besser, zugänglicher und performanter zu gestalten. Diese Vorgehensweise stellt damit die analytischere und passivere dar. Verbesserung und Kontrolle des eigenen Angebots bilden einen iterativen Prozess. Die andere Bewegung geht dahin, dass das System dem Besucher entgegen kommt, sein Verhalten analysiert und versucht dem einzelnen Nutzer einen auf ihn zugeschnittenen, besseren Service zu bieten. Da es im Idealfall sehr viele Benutzer gibt muss die Anpassung natürlich automatisch erfolgen, was eine höhere Herausforderung darstellt. 3.1 Web Usage Mining zur Evaluierung von Webseiten Wenn Unternehmen oder Organisationen eine Website betreiben und warten, nehmen sie diesen Aufwand nicht ohne jeden Zweck in Kauf. Sei es nun nur zur Imagepflege, für den Kundenkontakt oder zur direkten Geschäftsdurchführung, wie beispielsweise in einem Webshop, so verfolgt die Internetpräsenz immer ein gewisses Ziel. Ein Ziel, dessen Einhaltung kontrolliert und bewertet werden muss, um einzuschätzen ob sich die Investition bezahlt macht, oder wo und wie man Optimierungen vornehmen kann. In [15] wird der Evaluierungsprozess in acht Schritte unterteilt: 1. Formulierung der Fragestellung 2. Definition von Evaluationsregeln 3. Erfassung des Datenbestandes 4. Aufbereitung des Datenbestandes 5. Datenanalyse 6. Auswertung der Muster 7. Umsetzung der Resultate in die Praxis 8. Analyse der Auswirkungen 13 Für keinen dieser Punkte gibt es ein Rezept“, nach dem vorgegangen werden ” kann. Jeder Schritt muss genau an die Gegenheiten und Zielsetzungen des jeweiligen Unternehmens angepasst werden, damit mit der gewonnenen Information eine relevante Aussage getroffen werden kann. 3.1.1 Datenerfassung und Vorverarbeitung Die Problematik bei der Erfassung von Daten über die Nutzung von Webseiten entsteht aus der zugrundeliegenden Technologie. Das Hypertext Transfer Protocol liefert keinerlei verlässliche Daten über den Besucher, die über seine IP-Adresse hinaus gehen. Damit wäre die kleinste Dateneinheit definiert - der Aufruf. Die Nächstgrößere ist die Sitzung. Eine definitive Aggregation von Aufrufen zu einer Sitzung erweist sich allerdings schon als äußerst problematisch. So wie ein Benutzer durchaus mehrere Adressen haben kann, so kann es auch vorkommen, dass mehrere dieselbe verwenden, wie es zum Beispiel innerhalb eines Netzwerks hinter einem Router der Fall ist. Auch auf zusätzliche Header-Daten, die vom Browser mitgeliefert werden, wie Sprache, Ort, Zeit, Betriebssystem, Browserversion und ähnliches, kann man sich nicht verlassen, da sie problemlos vom Benutzer modifizert oder ganz unterbunden werden können. Diese Umstände verwässern den Datenbestand stark und machen eine exakte Analyse praktisch unmöglich. Grundsätzlich gibt es laut [15] zwei Varianten mit dieser Problematik umzugehen. Die proaktive Methode setzt Cookies oder ähnliche externe Technologien ein um Benutzer eindeutig zu identifizieren. Zwar ist dies in den meisten Fällen möglich, es kann jedoch auch vom Benutzer einfach unterbunden werden. Ausserdem ist diese Vorgehensweise fragwürdig im Bezug auf Rechtslage und Privatsphäre. Die reaktive Taktik nimmt die Schwächen der Datenerfassung hin und versucht sie im Zuge der Vorverarbeitung auf statistischem Wege auszugleichen. Hierbei wird die Masse an Daten zu einer Tendenz zusammengefasst die Aufschluss über das allgemeine Benutzerverhalten geben kann. Je nach Problemstellung können dabei jedoch wichtige Informationen im statistischen Rauschen untergehen. Letztendlich entscheidet die Zielsetzung der Evaluierung, welche Methoden man einsetzt. Geht es nur darum die Serverauslastung zu analysieren, oder herauszufinden, an welchen Produkten die Allgemeinheit am meisten interessiert ist, reicht eine statistische Auswertung der Zugriffe völlig. 14 Um Muster darin zu erkennen sind natürlich die Zusammenhänge zwischen den Aufrufen wichtig, auf die so nicht eingegangen werden kann. 3.1.2 Analyse und Auswerung Sind die Daten aufbereitet und so vollständig wie eben möglich, muss begonnen werden sie zu analysieren und Schlüsse daraus zu ziehen. Mit dem bloßen Auge ist die erforderliche Datenmenge aber kaum überblickbar, weswegen sich eine strukturierte Vorgehensweise empfiehlt. Es gilt Muster zu definieren, die man dann im Strom aus Zugriffen und Sitzungen sucht und quantifiziert. Diese Muster werden meist in einem interdisziplinären Prozess mit der Geschäftsleitung, Webdesignexperten und Psychologen erarbeitet, da sie sehr zielgerichtet definiert werden müssen. Ein einfaches Beispiel so eines Verhaltensmusters wäre, wie viel Benutzer erst eine Werbeeinschaltung gesehen haben und sich daraufhin für das entsprechende Produkt interessiert haben. Daraus lässt sich dann direkt die Effizienz der Werbeeinschaltung ableiten. 3.1.3 Umsetzung und Auswirkungen Aus den Ergebnissen der Analyse kann die Geschäftsleitung Schlüsse ziehen und entsprechende Maßnahmen veranlassen. Hierbei unterscheiden sich prinzipiell zwei Fälle. Entweder die Datenerhebung war Teil einer einmaligen Entscheidungsfindung, wie beispielsweise welches Produkt stärker beworben werden sollte. Die andere Variante ist ein iterativer Prozess, der anhand der gewonnenen Daten laufend kontrolliert und angepasst wird. So kann in kontrollierter Umgebung mit verschiedenen Maßnahmen experimentiert werden.[15] 3.2 Web Mining als Mittel zur automatisierten Personalisierung Ein weiteres Forschungsgebiet im Bereich des Web Mining ist die automatische Personalisierung von Inhalten auf Basis des Surfverhaltens des Nutzers. Ziel ist es, den Benutzer anhand seiner Aktionen zu erkennen, einzuordnen, automatisiert Konsequenzen zu ziehen und entsprechende Funktionalitäten oder Zusatzinformationen anzubieten. Um dies zu bewerkstelligen ist natürlich einiges an Information im Vorhinein notwendig. 3.2.1 Datenerfassung und Vorverarbeitung Den grundlegenden Datenbestand stellen wiederum die Protokolldateien des jeweiligen Webservers, und wie auch schon bei der Evaluierung von Webseiten 15 (siehe Abschitt 3.1) stellt die Zustandslosigkeit von HTTP das Kernproblem dar. Einzelne Zugriffe müssen wieder Benutzern zugeordnet werden, was u.a. von Browsercaches und Proxyservern erheblich erschwert wird. Als Begriff für eine abgeschlossene Aktion eines Benutzers führt [14] den Begriff der Transaction ein. Sie stellt die Reinform der Intention des Anwenders dar, bereinigt von eventuellen Zusatzzugriffen für beispielsweise Bilder oder Stylesheets und Hilfszugriffen wie beispielsweise einer Navigationsseite. 3.2.2 Analyse und Auswertung Mit den aus der Vorverarbeitung gewonnenen Daten kann auf verschiedene Weise umgegangen werden. Die einfachste Methode ist es, URLs zu finden, die auffällig oft gemeinsam vorkommen. Damit entstehen Gruppen von Zugriffen die sich miteinander assoziieren lassen. Aus diesen Itemsets lassen sich wiederum Assoziationsregeln ableiten, die dazu verwendet werden um Empfehlungen darüber abzugeben, in welchem Bereich sich der User bewegt. Eine andere Variante verwendet einen kollaborativen Ansatz, das Transaction Clustering, indem sie die Transaktionen verschiedener verwandter Benutzerprofile vergleicht und daraus Schlüsse zieht. Die Transaktionen werden in einen Vektorraum aus Adressen eingeordnet und anhand ihrer Distanz miteinander in Verbindung gebracht. Ob dabei Mehrfachvorkommen einer URL miteinbezogen werden sollten, oder rein binär gewichtet werden muss, ist umstritten. Eine weitere von [14] genannte Methode ist das sogenannte Usage Clustering. Im Gegensatz zur vorherigen Variante werden hier nicht die Transaktionen sondern die URLs selbst herangezogen und einander zugeordnet. Es ist sozusagen die Umkehrung des Transaction Clustering. Nun werden nicht die Transaktionen in einen Raum aus URLs eingeordnet um ihre Distanz zu messen, sondern sie spannen den Raum auf, in dem wiederum die einzelnen Adressen nach ihrer Zugehörigkeit positioniert werden. So werden auch Zugriffe einander zugeordnet, deren Transaktionen eigentlich weit voneinander entfernt sind, was wiederum gemeinsame Intentionen unterschiedlicher Benutzer abdeckt. 3.2.3 Umsetzung Die so gewonnenen Daten können auf verschiedene Weise genutzt werden. [14] erwähnt die Möglichkeit, dem Benutzer weitere Links direkt anzubieten. Anhand 16 seiner Position im Raum und seiner Distanz zu verschiedenen Aktionen kann relativ genau geraten werden, woran er interessiert sein könnte. [6] geht an diesem Punkt noch einen Schritt weiter. Im Rahmen eines Versuches wurden die Aktivitäten von fünf Personen einen Monat lang protokolliert. Mit diesen etwa 15.000 Zugriffen wurde ein propabilistisches Modell trainiert, anhand dessen mit überraschender Genauigkeit vorrausgesagt werden kann was der Nutzer tun wird. Mit diesem Wissen kann das System dem Nutzer erstens ein besseres Surfverhalten bieten, und zweitens sich selbst optimieren. Im Rahmen dieses Versuches wurden die Daten jedoch clientseitig gesammelt, was eine hunderprozentige Zuordnung ermöglicht. Dieser Umstand verhindert wohl eine grossflächige Anwendung der Technologie. 4 Anwendung: Kollaboratives Web Mining System Dieses Kapitel basiert, sofern nicht anders angemerkt, auf [5]. Es beschäftigt sich mit dem darin präsentierten Gedanken, dass eine kollaborative Herangehensweise an Such- und Recherchearbeit dazu dienen kann, weitere, ggf. ähnliche Suchvorgänge zu beschleunigen und deren Qualität zu erhöhen. Auf Basis der Konservierung und Bereitstellung bereits erfolgter Suchvorgängen sowie deren Ergebnisse für alle Benutzer des Systems sollen die für Suchtätigkeiten verwendete Zeit verringert und der Nutzen erhöht werden. Es wird insbesondere untersucht, welche Menge an relevanten kollaborativen Daten benötigt wird, um den entstehenden Overhead für das Lesen und Verstehen (browsing) der verwendeten Daten zu kompensieren, und damit darüberhinaus einen positiven Effekt zu erzielen. Weiters wird untersucht, welche zusätzlichen Arten von Kollaborationen im Web Mining auf Userseite identifiziert werden können, und wie sich diese in ein kollaboratives Konzept einfügen lassen. 4.1 4.1.1 Vorbetrachtungen Kollaboratives Information Retrieval und Filtering Kollaboratives Information Retrieval bedeutet das sharing“ von Suchergebnis” sen, oder besser, vollständigen Suchvorgängen unter sämtlichen Benutzern des Systems. Auf Basis der recherchierten Gegenstände kann auf diese Weise eine Verbesserung des Suchperformance (hinsichtlich Relevanz und Ranking der Ergebnisse) erreicht werden. 17 Kollaboratives Filtering meint das gemeinschaftliche Filtern von Informationen (u.a. Relevance-Feedback) auf Basis gemeinsamer Interessen oder ähnlichen Verhaltensweisen. Bekannte Vertreter hierfür sind beispielsweise die Empfehlungssysteme von Amazon oder last.fm. Für das in der besprochenen Arbeit präsentierte System spielt vor allem die Methode des kollaborativen Information Retrievals eine wesentliche Rolle. 4.1.2 Software Agents im Web Software Agents sind selbstständig und automatisiert agierende Softwaresysteme, die beispielsweise zur Indizierung von oder Suche nach Webseiten eingesetzt werden.[10] So erledigen zum Beispiel die sogenannten Spiders und Bots die Indizierung von Webseiten für Suchmaschinen auf Basis bestimmter Kriterien und Heuristiken. Client-orientierte System hingegen suchen - für den Benutzer - in regelmäßigen Intervallen nach Seiten, die den vom User angegebenen Kriterien entsprechen. Solche Kriterien können beispielsweise Suchbegriffe oder auch Beispieldatensätze wie relevante, bereits gefundene Webseiten sein. Eine Spezialform von Agentensystemen stellen so genannte Multi-Agent Systeme dar. Diese kombinieren zur Informationsgewinnung, wie der Name bereits vermuten lässt, mehrere verschiedene Suchagenten. Charakteristisch dabei ist, dass jeder der verwendeten Agenten ein unvollständiges Set an Informationen hält. Über komplexe Interaktionen in dem System erfolgt eine gesteuerte Kooperation der Agenten zum Zweck optimierter Informationsgewinnung bei minimiertem Informationsoverhead. Üblicherweise arbeiten die verschiedenen Agenten außerdem dezentralisiert, d.h. verteilt, und kommunizieren über definierte Protokolle, den sogenannten Agent Communication Languages (ACLs). Diese unterstützen zumeist spezielle Abfrageprotokolle, die zum Informationsaustausch dienen. 4.2 Zwei Hauptprobleme konventioneller Suchsysteme Auf Basis der bereits angestellten Überlegungen lassen sich folgende zwei große Probleme der konventionellen Suchsysteme im Bereich des Web Searching und Web Mining identifizieren. 18 4.2.1 Problem 1: Unzureichende Post-Retrieval Analyse Obwohl sich bereits in verschiedenen praktischen Umgebungen gezeigt hat, wie effektiv eine umfangreiche Analyse des Suchvorganges (inklusive der damit verbundenen Entitäten an Daten) sein kann, gibt es noch wenige Systeme, die mit diesem Mechanismus arbeiten. Der erzielbare Nutzen für den User in Form effektiverer Informationsgewinnung ist für das jeweilige System jedoch mit einem gewissen Aufwand an Verarbeitungsleistung verbunden. Eine Tatsache, die speziell bei Echtzeit-Analyse wesentliche Anforderungen an die technische Umsetzung (sowohl an die softwareseitig eingesetzten Heuristiken, als auch an die Hardware an sich) stellt. Hierbei lässt sich der nachvollziehbare Trend feststellen, derartige Analysen nicht mehr auf Serverseite durchzuführen, sondern sie auf die Clientmaschine auszulagern. Es bleibt dabei jedoch abzuwarten, inwieweit diese Strategie aufgrund ihres sehr verteilten Ansatzes die Umsetzung von Lösungsvorschlägen für das zweite große Problem konventioneller Websuchsysteme erschwert. 4.2.2 Problem 2: Keine kollaborativen Suchmechanismen Die Grundidee hierbei ist, dass für eine erfolgreiche Such-Sitzung weit mehr an Zeit und Überlegungen aufgewendet wird, als lediglich die initiale Suchphrase zu formulieren. Das Speichern von Suchvorgängen und das Teilen dieser innerhalb der gesamten Benutzergruppe kann diesen Aufwand verringern. Lässt das verwendete Suchsystem diese Möglichkeit außer Acht, gehen mit dem Abschluss der zugrundeliegenden Recherche wichtige Informationen verloren. Die Konsequenz daraus ist, dass jeder Benutzer bei der Suche nicht nur auf sich alleine gestellt ist, sondern auch immer wieder von Vorne“ beginnen muss. ” Das Ziel der betrachteten Arbeit war es, diese Probleme im Rahmen der Entwicklung eines Collaborative Spider“ genannten Suchsystems zu lösen. ” Nachfolgend wird der konzeptionelle Rahmen beschrieben, in welchem das entwickelte System agieren soll. Weiters wird die Architektur des Systems hinsichtlich seiner Schwerpunkte erläutert. 4.3 Die Collaborative Spider“ ” Die Collaborative Spider ist ein kollaboratives System für Information Retrieval und -Mining im Web. Es führt umfangreiche Post-Retrieval Analysen durch, speichert deren Ergebnisse und stellt sie sämtlichen Nutzern zur Verfügung. Das System basiert auf einem Multi-Agenten-Ansatz (siehe Absatz 4.1.2), dessen Architektur sich wie in Abbildung 3 dargestellt zusammensetzt. Das Diagramm zeigt, wie die drei Hauptteile des Systems organisiert sind. 19 Abbildung 3: Architektur der Collaborative Spider, aus [5] 4.3.1 User Agent Jeder im System agierender User ist dabei einem eigenen, personalisierten User Agent zugeordnet, der Daten über die Interaktionen des Users mit dem System aufzeichnet. Diese Daten sind: – das generelle Profil des Benutzers (User Profiles), d.h. Metainformationen wie Name, Alter, aber auch Daten, welche die Verwaltung des Benutzers ermöglichen, z.b. Zugehörigkeit zu Gruppen – bereits getätigte Suchaktivitäten (Search Sessions), d.h. gesammelte Suchsessions, von der initialen Suchphrase bis zum bewerteten Ergebnis – Aufgaben, die der User seinem Agent aufträgt (Monitor Tasks), z.b. bestimmte Seiten in regelmäßigen Intervallen nach definierten Themen durchsuchen, und die Ergebnisse für einen späteren Abruf durch den User zu speichern Die Suchfunktionalität des User Agents ist dabei systemintern in Form einer Spider umgesetzt, deren Verhalten (z.b. Suchmethode Breadth-First oder BestFirst) eingeschränkt vom Benutzer konfigurierbar ist. Die Ergebnisse der Suche werden anschließend auf den Client-Rechner geladen und nach einer Post-Retrieval Analyse (durch den Arizona Noun Phraser, AZNP[18]) ggf. über eine Self-Organizing Map (SOM[9]) visualisiert. 20 4.3.2 Collaborator Agent und Scheduler Agent Die bereits erwähnte Gruppenzugehörigkeit ist hier der Ausgangspunkt für den kollaborativen Ansatz. So ist es im System vorgesehen, Benutzer bestimmten organisatorisch oder thematisch abgegrenzten Gruppen zuzuordnern. Für jede dieser Gruppen sind in weiterer Folge eigene Collaborator Agents und Scheduler Agents vorgesehen, die den kollaborativen Austausch zwischen den Gruppen ermöglichen. Der Collaborator Agent ist dabei zuständig für die gemeinschaftliche Verwaltung der User Profiles und der Search Sessions. Er ist außerdem imstande, Zusatzinformationen zu Datenpunkten (z.b. Webseiten, Such-Sessions) zu speichern, die von Usern über einen Tagging-Mechanismus in das System eingebracht werden. Diese Daten stehen anschließend sämtlichen anderen Benutzern ebenfalls zur Verfügung. Der Scheduler Agent ist hingegen dafür zuständig, die Monitoring Tasks der einzelnen User zu ordinieren und zu koordinieren. Hierbei werden seitens des Systems auch Heuristiken zum Load-Balancing der abgefragten Server zum Einsatz gebracht. Das Ergebnis des Scheduler Agents sind, analog zum User-Agent, wiederum Such-Sessions, die vollständig an die jeweiligen User Agents und Collaborator Agents weitergegeben werden. Aus dieser Darstellung lässt sich in weiterer Folge ableiten, dass User Agents und Scheduler Agents gleichermaßen Zugriff auf die Datenquelle (im vorliegenden Fall ist dies das Internet) benötigen, während der Collaborative Agent ausschließlich mit den anderen Agents innerhalb des Systems kommuniziert. Die Kernfunktion des Collaborator Agents ist es, ein Recommender-System (Empfehlungssystem) zur Verfügung zu stellen, dass Usern auf Basis ihrer Suchaktivitäten, Gruppenzugehörigkeiten und anderen verfügbaren Daten1 gewisse Such-Vorgänge bzw. deren Ergebnisse empfiehlt. 4.3.3 Beispielhafter Suchvorgang Um das System nutzen zu können, ist eine Registrierung und Anmeldung durch einen User Agent notwendig. Dabei wird dem Benutzer bereits mindestens eine der vorgegebenen areas of interest zugeordnet. Nach der Aufnahme des restlichen Benutzerprofils stehen bereits sämtliche Suchfunktionen zur Verfügung. Es ist möglich, verschiedene Recherchen (identifiziert durch einen session name) anzulegen und (wahlweise auch für andere) zu speichern. 1 Die in der Arbeit besprochene Version zieht für das Empfehlungssystem ausschließlich die thematischen Zugehörigkeiten der Benutzer in Betracht. 21 Jede dieser Sessions kann verschiedene areas of interest behandeln. Den Startpunkt für die Recherche bildet die Angabe von Ausgangs-Webseiten (als URL) und Suchbegriffen (query terms). Die Suchergebnisse werden hierarchisch strukturiert und dynamisch in der Programmoberfläche angezeigt. Beim Aktivieren einer gefundenen Seite erhält der Benutzer eine Darstellung der in dieser Seite eingebetteten Hyperlinks. Der Benutzer schließt den Suchvorgang (vorläufig) mit der next-Taste ab. Dadurch wird der Noun Phraser aktiviert. Dessen Ergebnis ist eine Liste der häufigsten relevanten Nomen aus den Ergebnisseiten. Die Liste enthält Angaben über die term frequency in den einzelnen Dokumenten, sowie Links zu diesen Dokumenten. Zur weiteren Analyse der Suchergebnisse stehen dem Benutzer Self-Organizing Maps zur Verfügung. Diese stellen die gefundenen Seiten in einer zweidimensionalen Themenlandschaft dar.[9] Der Zugang zu kollaborativ gesammelten Daten erfolgt über das Knowledge Dashboard. In diesem Fenster werden sämtliche freigegebenen Suchvorgänge angezeigt, die den aktuellen areas of interest entsprechen. Der Benutzer hat die Möglichkeit, seiner eigenen Suchsession ausgewählte Start-Seiten und Suchbegriffe hinzuzufügen, oder bereits gespeicherte Suchvorgänge vollständig zu laden, inklusive der gegebenen Feedbacks und gefundenen Suchergebnisse. Eine abgeschlossene Such-Session kann anschließend vollständig gespeichert und mit anderen Usern geteilt werden. Dazu sendet der jeweilige User Agent die Binärdatei mit den Daten des Suchvorganges an den Collaborator Agent, der die Metadaten zur Suche an interessierte User Agents anbietet. Die Suche über Monitor Tasks verläuft ähnlich. Hier werden bestimmte WebSeiten angegeben, welche der Scheduler Agent über verschiedene Spider in regelmäßigen Abständen nach bestimmten Informationen durchsucht. Die Ergebnisse werden anschließend wieder über den Collaborator Agent in Form von Metadaten an die User Agents weitergegeben. 4.3.4 Evaluierung Zweck der Evaluierung war es, den Nutzen des kollaborativen Systemansatzes und der Post-Retrieval Analysen festzustellen, sowie festzuhalten, inwiefern die Menge der verfügbaren Daten Auswirkungen auf die Performance und Suchzeiten hat. Fünfzig Studenten aus facheinschlägigen Studien bekamen die Aufgabe, drei von 22 sechs verfügbaren Themen zu recherchieren. Der Scheduler Agent stand dabei nicht zur Verfügung, d.h. sämtliche Suchvorgänge wurden von den Benutzer direkt vorgenommen. Als Ausgangspunkt für die Recherche hatten die User die Möglichkeit, eigene Start-Seiten und Suchbegriffe beliebig mit denen gespeicherter Suchvorgänge zu kombinieren. Die 50 Testuser wurden in fünf Gruppen (n: 0..4) eingeteilt, wobei n jeweils auch der Anzahl der zur Recherche zur Verfügung stehenden gespeicherten (kollaborativ verwalteten) Suchvorgänge entspricht. Um Referenzwerte für die Performancemessung zu gewinnen wurden die sechs gestellten Themen jeweils von zwei Experten recherchiert. Als Maßzahlen für die Performance wurden Precision- und Recall -Werte errechnet. Weiters wurden die Zeitspannen aufgezeichnet, die von den Testusern zur Recherche aufgewandt wurden. Ergänzend dazu wurden von den Testusern im Anschluss Fragebögen ausgefüllt. 4.3.5 Ergebnisse Die quantitativen Ergebnisse in form von Precision- und Recall-Werten sind in Abbildung 4 dargestellt. Es ist erkennbar, dass die Ergebnisse in Gruppe 0 (die ohne kollaborative Daten getestet wurde) über denen der Gruppe 1 liegen. Der Recall-Wert von Gruppe 2 ist außerdem noch niedriger als der von Gruppe 0, erst ab Gruppe 3 lassen sich eindeutig bessere Werte ablesen. Abbildung 4: Performance der Collaborative Spider, aus [5] 23 Somit wurde die Vermutung bestätigt, dass eine gewisse Menge an kollaborativen Daten notwendig ist, um den Overhead für das Browsen durch diese Daten zu kompensieren. Ergänzend ist zu erwähnen, dass sich die Zeitspannen, die für die einzelnen Aktivitäten innerhalb der Recherche aufgewendet wurden, über alle Gruppen hinweg sehr vergleichbar verhielten, mit Ausnahme von Gruppe 0, welche keinen Zugriff auf kollaborative Daten hatte. Diesbezüglich sei auch festgehalten, dass für die Verwendung der kollaborativen Features verhältnismäßig wenig Zeit aufgewendet wurde (etwa 11% bis 20% der verfügbaren Zeit), der Nutzen jedoch im Ergebnis durchaus wiedererkennbar war. Die Fragestellung, ob die Effizienzsteigerung ab einer gewissen Menge verfügbarer kollaborativer Daten wieder abnimmt, bzw. wo dieser Punkt liegen könnte, konnte in der Arbeit nicht beantwortet werden. 5 Fazit und Ausblick All diese Erkenntnisse zeigen auf, dass die Technologie in vielen Bereichen der Forschung und vor allem der Umsetzung noch in den Kinderschuhen steckt. Es existieren gewaltige zu verarbeitende Datenmengen, jedoch kein automatisches System dass verlässlich damit umgehen kann. Zur richtigen Interpretation und korrekten semantischen Einordnung ist noch immer das Hintergrundwissen und der Erfahrungsschatz eines Menschen notwendig. Da dieser jedoch nicht geeignet ist, repetetive Aufgaben fehlerfrei und für derart gewaltige Datenmengen zu erledigen, wird versucht, ihn zu unterstützen. Daraus ergibt sich der aktuelle Kompromiss, in dem eine möglichst effiziente Zusammenarbeit zwischen Mensch und Maschine angestrebt wird, in der jeder das tut was er am besten kann. Vollkommen autonome Programme sind jedoch nach wie vor Konzepte, deren Realisierung weitere Forschung in diesem Bereich bedingt. Zukünftige Entwicklungen werden sich vermutlich darauf konzentrieren, den Humanaufwand immer weiter zu verringern und zu minimieren. Dabei wird versucht, menschliches Entscheidungsverhalten immer besser nachzuahmen, wobei Methoden aus verschiedensten Bereichen der Informatik, Mathematik und Statistik ihre Anwendung finden. In Verbindung mit der immer weiter fortschreitenden Forschung im Bereich der künstlichen Intelligenz wird es vielleicht bald möglich sein, den Automatisierungsgrad semantischer Software so weit zu erhöhen, dass man von Selbstständigkeit sprechen kann. 24 List of Figures 1 2 3 4 Der Web Mining Prozess . . . . . . . . . . . . Struktur des Semantic Web, aus [17] . . . . . Architektur der Collaborative Spider, aus [5] Performance der Collaborative Spider, aus [5] 25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 11 20 23 References [1] B. Berendt, A. Hotho, G. Stumme. Towards Semantic Web Mining. ISWC (2002), LNCS 2342 (2002) 264-278 [2] B. Berendt, A. Hotho, D. Mladenic, M. van Someren, M. Spiliopoulou, G. Stumme. A roadmap for Web Mining: From Web to Semantic Web. In [5] (2004) 1-22 [3] B. Berendt, A. Hotho, G. Stumme. Semantic Web Mining and the Representation, Analysis, and Evolution of Web Space. Institute of Information Systems, Humboldt University Berlin (2005) [4] S. Brin. Extracting Patterns and Relations from the World Wide Web [5] M. Chau, D. Zeng, H. Chen, M. Huang, D. Hendriawan. Design and evaluation of a multi-agent collaborative Web mining system. Decision Support Systems 35 (2003) 167-183 [6] Z. Chen, F. Lin, H. Liu, Y. Liu, W. Ma, L. Wenyin. User Intention Modeling in Web Applications Using Data Mining. Internet and Web Information Systems 5 (2002) 181–191. Kluwer Academic Publishers Netherlands 2002 [7] R. Cooley, B. Mobasher, J. Srivastava. Web Mining: Information and Pattern Discovery on the World Wide Web. ICTAI (1997) [8] J. Han, K. Chen-Chuan Chang. Data Mining for Web Intelligence. University of Illinois at Urbana- Champaign (2002) [9] T. Honkela, S. Kaski, K. Lagus, T. Kohonen. WEBSOM - Self-Organizing Maps of Document Collections. Helsinki University of Technology, Neural Networks Research Centre (1997) [10] R. Kosala, H. Blockeel. Web Mining Research: A Survey. ACM SIGKDD Explorations Newsletter 2 (1) (2000) 1-15 [11] B. Liu. Web Data Mining. Springer-Verlag Berlin Heidelberg (2007) [12] P. Markellou, I. Mousourouli, S. Spiros, A. Tsakalidis. Using Semantic Web Mining Technologies for personalized E-Learning Expieriences. University of Patras, Computer Engineering (2005) [13] M. Meyer, S. Weingärtner, T. Jahke, O. Lieven. Web Mining und Personalisierung in Echtzeit. Ludwig-Maximilians-Universität München, Heft 5/2001 (2001) [14] B. Mobasher, R. Cooley, J. Srivastava. Automatic Personalization Based on Web Usage Mining [15] M. Spiliopoulou. Web Usage Mining for Web Site Evaluation. Communications of the ACM 43 (8) (2000) 127-134 [16] G. Stumme, B. Berendt. Usage Mining for and on the Semantic Web (2002) [17] G. Stumme, A. Hotho, B. Berendt. Semantic Web Mining - State of the Art and Future Directions. Transactions on Data and Knowledge Engineering (TKDE) 26 (submitted) (2006) [18] University of Arizona, Artifical Intelligence Lab. The Arizona Noun Phraser. http: //ai.arizona.edu/research/multilingual/az.htm (12/2007) 27