Ue6 Web Mining

Transcrição

Ue6 Web Mining
Übungsarbeit
Information Search and Retrieval
Technische Universität Graz
WS 2007
Web Mining
Martin Daum
(Technische Universität Graz, Österreich
[email protected])
Philipp Melab
(Technische Universität Graz, Österreich
[email protected])
Karl Heinz Struggl
(Technische Universität Graz, Österreich
[email protected])
Betreuer
Dipl.-Ing. Dr.techn. Christian GÜTL
Institute for Information Systems and Computer Media (IICM), Austria
[email protected] and [email protected]
Copyright (C) 2007 [Martin Daum, Philipp Melab, Karl Heinz Struggl]. Dieses
Werk kann durch jedermann gemäß den Bestimmungen der Lizenz für Freie Inhalte genutzt werden. Die Lizenzbedingungen können unter http://www.uvm.
nrw.de/opencontent abgerufen oder bei der Geschäftsstelle des Kompetenznetzwerkes Universitätsverbund MultiMedia NRW, Universitätsstraße 11, D58097 Hagen, schriftlich angefordert werden.
1
Zusammenfassung Das Internet ist die gewaltigste Informationsquelle der Neuzeit.
Seine Daten sind jedoch auf unterschiedlichste Weise strukturiert oder folgen überhaupt keiner Struktur. Es existieren vielfältige Ansätze, diesem Problem zu begegnen,
um damit das Internet als Nährboden für Erkenntnisse urbar zu machen. Einer jener
Ansätze wird in der Wissenschaft unter dem Begriff Web Mining zusammengefasst. Er
steht für die Anwendung von Data Mining auf verschiedene Bestandteile des Webs. Die
vorliegende Arbeit wird zunächst bei der geschichtlichen Entwicklung und der Begriffsbildung von Web Mining und seinen Teilbereichen ansetzen. Es wird der Begriff des
Web Mining Prozesses eingeführt und ein Blick auf das Semantic Web Mining gerichtet werden. Anschließend werden zwei benutzerorientierte Forschungsansätze aus dem
Umfeld des Web Mining dargestellt und der Anwendungsfall eines kollaborativen Web
Mining Systems besprochen. Ein Ausblick auf die mögliche zukünftige Entwicklung
dieses Themenkomplexes schließt diese Arbeit ab.
Abstract The Internet is the most enormous source of information of today. Its data,
however, is stored in many different ways and often not structured at all. There are
manifold approaches trying to counteract this problem and to reclaim the internet as
fertile soil for knowledge. One of these approaches, applying Data Mining to several
aspects of the Web, is scientifically referred to as Web Mining. The work at hand will
open wih a short historical and conceptual overview on the subject of Web Mining.
The notion of the Web Mining Process will then be introduced, followed by a view to
Semantic Web Mining. Subsequently, the work will present two user-oriented research
areas in the context of Web Mining. The last section of this paper will then discuss
and review a collaborative Web Mining system as an example of a particular case of
appliction. Final considerations and a prospect for possible future development will
close this work.
Key Words: Semantic Web, Data Mining, Web Mining, Usage Mining, mining
Category: H.3.1, H.3.3, H.3.5
2
Inhaltsverzeichnis
1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Was ist Web Mining . . . . . . . . . . .
2.1 Data Mining . . . . . . . . . . . . . .
2.2 Web Mining . . . . . . . . . . . . . .
2.2.1 Web Structure Mining . . . . . .
2.2.2 Web Content Mining . . . . . . .
2.2.3 Web Usage Mining . . . . . . . .
2.3 Der Web Mining Prozess . . . . . . .
2.4 Semantic Web Mining . . . . . . . . .
2.4.1 Ontology Learning . . . . . . . .
2.4.2 Mapping and Merging Ontologies
2.4.3 Instance Learning . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
6
7
7
8
8
9
10
12
12
12
3 Aktuelle Forschungsbereiche . . . . . . . . . . . . . . . . . .
3.1 Web Usage Mining zur Evaluierung von Webseiten . . . . .
3.1.1 Datenerfassung und Vorverarbeitung . . . . . . . . . .
3.1.2 Analyse und Auswerung . . . . . . . . . . . . . . . . .
3.1.3 Umsetzung und Auswirkungen . . . . . . . . . . . . . .
3.2 Web Mining als Mittel zur automatisierten Personalisierung
3.2.1 Datenerfassung und Vorverarbeitung . . . . . . . . . .
3.2.2 Analyse und Auswertung . . . . . . . . . . . . . . . . .
3.2.3 Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
14
15
15
15
15
16
16
4 Anwendung: Kollaboratives Web Mining System . . .
4.1 Vorbetrachtungen . . . . . . . . . . . . . . . . . . . . .
4.1.1 Kollaboratives Information Retrieval und Filtering
4.1.2 Software Agents im Web . . . . . . . . . . . . . . .
4.2 Zwei Hauptprobleme konventioneller Suchsysteme . . .
4.2.1 Problem 1: Unzureichende Post-Retrieval Analyse .
4.2.2 Problem 2: Keine kollaborativen Suchmechanismen
4.3 Die Collaborative Spider“ . . . . . . . . . . . . . . . .
”
4.3.1 User Agent . . . . . . . . . . . . . . . . . . . . . .
4.3.2 Collaborator Agent und Scheduler Agent . . . . . .
4.3.3 Beispielhafter Suchvorgang . . . . . . . . . . . . . .
4.3.4 Evaluierung . . . . . . . . . . . . . . . . . . . . . .
4.3.5 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
17
17
18
18
19
19
19
20
21
21
22
23
5 Fazit und Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Einleitung
Das Internet wurde durch sein enormes Wachstum in den letzten Jahren zur
wichtigsten öffentlich zugänglichen Informationsquelle. Mittlerweile besteht das
Internet laut [12] aus mehreren Milliarden von Webseiten und über 300 Millionen Benutzern weltweit, und hat bereits erheblichen Einfluss auf deren Leben.
So wurde beispielsweise unser Verhalten bei der Informationssuche durch das
Internet stark verändert.
Mussten früher Bibliotheken händisch durchsucht werden, kann dies mittlerweile durch wenige Mausklicks mit jeder gängigen Suchmaschine erledigt werden.
Das Internet hat jedoch nicht nur Vorteile. Durch den hohen Nutzungsgrad und
die ständig wachsende Anzahl an Webseiten, und den darin enthaltenen Informationen, wird es immer schwieriger, relevante Informationen zu finden. Dadurch
ist es für den Benutzer sehr wichtig, automatische Tools zu benutzen, um die
gewünschten Informationen aufzufinden.
Mittlerweile ist das Auffinden der relevanten Informationen im Internet, sowie die Speicherung und Auswertung von Verhaltensmustern der Benutzer, eine
der größten Herausforderungen in der Internet-Forschung.[7]
In [11] werden einige Eigenschaften des Internets aufgezählt, die erklären, warum
Web Mining so ein faszinierender und gleichzeitig herausfordernder Prozess für
die Wissenschaft ist:
– Die Anzahl an verschiedenen Informationen im Internet ist riesig und wächst
ständig weiter. Auch der Umfang der Information ist enorm und unterschiedlich.
– Daten kommen im World Wide Web in den verschiedensten Typen und Formen vor. Sie können beispielsweise in strukturierten Tabellen, semistrukturierten Webseiten, unstrukturierten Texten oder in Multimedia-Files vorkommen.
– Informationen im Internet sind heterogen. Durch die verschiedenen Autoren
von verschiedenen Webseiten, werden ähnliche Informationen oft in komplett
unterschiedlicher Weise dargestellt.
– Der Großteil aller Informationen im Internet sind über Hyperlinks miteinander verlinkt. Innerhalb einer Seite werden Links dazu verwendet, Informationen zu ordnen und zu strukturieren. Links können auch viel über die
Qualität einer Seite aussagen.
Wird eine Seite oft von anderen verlinkt, so nimmt man an dass die Qualität
der Informationen auf dieser Seite sehr hoch ist.
4
– Informationen im Web sind ungenau. Für diese Ungenauigkeit gibt es zwei
Gründe.
Erstens beinhalten Webseiten mehrere Arten von Informationen, wie Navigation, Werbungen sowie den Hauptinhalt. In den meisten Fällen wird nur
eine Art der Information gewünscht sein, welche vom Rest extrahiert werden
muss.
Der zweite Grund ist, dass es keine Qualitätskontrollen für Informationen im
Internet gibt. Dadurch haben viele Informationen wenig Qualität oder sind
schlichtweg falsch.
– Das Internet bietet viele Services an. Webseiten erlauben es den Benutzern
nützliche Operationen auszuführen.
– Das Internet ist dynamisch. Die Informationen ändern sich ständig. Für viele
Applikationen ist es wichtig, auf Änderungen der Information reagieren zu
können.
– Das Internet ist eine virtuelle Gesellschaft. Es sind nicht nur Daten und
Informationen wichtig, sondern auch Interaktion und Kommunikation.
All diese Eigenschaften zeigen Herausforderungen und Möglichkeiten auf, um
Informationen und Wissen aus dem Internet aufzufinden und zu extrahieren.
In den folgenden Kapiteln wird nun näher auf das Thema Web Mining eingegangen. Kapitel 2 widmet sich dabei einer Herleitung und Abgrenzung der
gängigen Begriffe Data Mining bzw. Web Mining, und den Teilbereichen des
Web Mining sowie einer Erläuterung des Web Mining Prozesses.
Anschließend dazu beschäftigt sich Kapitel 3 mit aktuellen Themen der Forschung mit Fokus auf Web Usage Mining. Der darauf folgende Abschnitt 4 stellt
dann in einer gesamtheitlichen Betrachtung eine auf Content Mining und Usage
Mining basierende, kollaborative Suchanwendung vor.
2
Was ist Web Mining
Das Internet bildet eine riesige Datenquelle für Data Mining. Es beinhaltet eine
enorme und dynamische Kollektion von Webseiten, mit einer Vielzahl an Hyperlinks sowie Benutzungsinformationen.[8]
Laut [16] bedeutet Web Mining ganz allgemein die Anwendung von Data Mining Techniken auf Ressourcen aus dem Internet. Diese Techniken werden auf sie
Struktur, die Inhalte und die Benutzung der Ressourcen angewandt. Wie andere
Data Mining Methoden profitiert auch Web Mining von gegebenen Strukturen
von Daten, wie zum Beispiel Datenbanken, kann aber auch auf semistrukturierten und unstrukturierten Text angewandt werden.
5
Das bedeutet, dass Web Mining ein außerordentlich wertvolles Mittel ist, um
Inhalte, die von Menschen gelesen werden können, in maschinenlesbare Inhalte
zu transformieren.
Bevor der Begriff Web Mining nun näher betrachtet wird, wird zum besseren
Verständnis ein kurzer Einblick ins Thema Data Mining gegeben.
2.1
Data Mining
Data Mining wird in [11] auch als knowledge discovery in databases (KDD) bezeichnet und wird allgemein als Prozess zur Auffindung von nützlichem Wissen
und Varhalten aus verschiedenen Datenquellen definiert. Die Muster müssen
richtig, nützlich und verständlich sein.
Data Mining wird in mehreren einflussreichen Gebieten der Forschung angewandt, einige davon sind:[11]
– Datenbanken
– Künstliche Intelligenz
– Statistik
– Information Retrieval
– Visualisierung
– Machine Learning
Bekannte Anwendungen von Data Mining sind: [11]
– supervised learning
– unsupervised lerning
– association rule mining
– sequential pattern mining
Data Mining wird als iterativer Prozess definiert, welcher in folgenden Schritten abläuft: [11]
– Datenerhebung
In dieser Phase werden die Daten ausgewählt, die im Laufe des Prozesses
verarbeitet werden sollen.
6
– Pre-Processing
Da die Rohdaten für Data Mining normalerweise ungeeignet sind, müssen
diese im ersten Schritte erst verarbeitet werden. Dieser Schritt ist wichtig,
um Ungenauigkeiten zu vermeiden.
– Data Mining
In diesem Schritt werden verschiedene Algorithmen auf die bereits verarbeiteten Daten angewandt. Das Ergebnis sind Muster und Wissen.
– Post-Processing
Nicht alle gefundenen Muster sind relevant. In diesem Schritt werden die
nützlichen Muster für die Applikation herausgefiltert. Verschiedene Evaluierungsund Visualisierungsmethoden werden in diesem Schritt verwendet.
2.2
Web Mining
Das traditionelle Data Mining verwendet hauptsächlich strukturierte Daten,
durch das enorme Wachstum des Internet wird jedoch Web Mining immer wichtiger. Web Mining kann laut [11] nicht direkt als eine Anwendung von Data
Mining gesehen werden. Gründe dafür sind die heterogenen und unstrukturierten Daten im Web. Durch diesen Umstand ist auch darauf zu achten, dass die
gefundenen Relationen und Muster mehrfach vorkommen können.[4]
Wie bereits am Anfang dieses Kapitels erwähnt, wird Web Mining auf Struktur, Inhalte und die Benutzung von Web Ressourcen angewandt. Analog zu diesen Anwendungsgebieten wird Web Mining in die drei Teilgebiete Web Structure
Mining, Web Content Mining und Web Usage Mining eingeteilt.
Die Besonderheiten dieser Teilgebiete werden in den folgenden Kapiteln näher
betrachtet.
2.2.1
Web Structure Mining
Laut [13] werden beim Web Structure Mining Informationen direkt aus der
Struktur von Hyperlinks gewonnen, die auch die Struktur des Internets bilden.
Web Structure Mining basiert somit auf der Topologie von Hyperlinks.
Diese Art von Web Mining wird laut [11] bei vielen Suchmaschinen eingesetzt,
um wichtige Webseiten identifizieren zu können. Dabei wird überprüft, welche
und wieviele Links auf eine Seite zeigen.
Anhand dieser Informationen kann dann die Priorität einer Seite errechnet
werden. Google’s PageRank-Algorithmus basiert beispielsweise auf dieser Idee.
Web Structure Mining kann auch verwendet werden, um die Funktion von einzelnen Webseiten herauszufinden. In [1] werden dabei vier Arten von Webseiten
unterschieden:
7
– Headpages
Headpages sind Einstiegsseiten für Web-Auftritte
– Navigationsseiten
Navigationsseiten enthalten viele Links und kaum Informationen
– Contentseiten
Contentseiten enthalten typischerweise viele Informationen, aber wenig Links
– Look-Up-Seiten
Diese Seiten enthalten viele eingehende Links, wenige ausgehende Links und
keinen wichtigen Inhalt
Web Structure Mining unterscheidet sich stark von traditionellem Data Mining,
da dieses hauptsächlich auf Daten in Tabellen oder Datenbanken angewandt
wird, wo es keine Hyperlink-Strukturen gibt.
2.2.2
Web Content Mining
Beim Web Content Mining werden relevante Informationen direkt aus den Inhalten von Webseiten extrahiert. Es muss dabei beachtet werden, dass es sich
nicht unbedingt um Hypertext, sondern auch um Audio, Video oder Metadaten
handeln kann.[13]
Bei den primären Web-Ressourcen handelt es sich jedoch um HTML- oder
XML-Dokumente. Die Semistrukturiertheit dieser Daten kann Web Mining zu
seinem Vorteil benutzen, denn HTML- und XML-Tags geben nicht nur Layoutinformation, sondern auch logische Strukturen an.[1]
Ein gutes Beispiel für Web Content Mining wäre das automatische Kategorisieren von Webseiten in verschiedene Themengruppen oder das Erkennen von
verschiedenen Trends. Dieses Beispiel ist dem traditionellen Data Mining sehr
ähnlich.
Eine andere Anwendung wäre laut [11] das Auslesen von Informationen aus
Kommentaren oder Foren, um Daten über einen Benutzer zu erhalten. Diese
Aufgabe hat mit traditionellem Data Mining nichts zu tun.
2.2.3
Web Usage Mining
Web Usage Mining beschäftigt sich mit Daten, die während der Benutzung der
Webseite, also der Interaktion mit dem Benutzer, erfasst werden. Es handelt
sich dabei also um die Auffindung von sekundären Daten. Diese werden dabei
unter anderem aus Logfiles, Sessions, Cookies, Keyboardeingaben, Mausklicks,
Formulareingaben und Benutzerprofilen gelesen.[13]
Ein wichtiger Anwendungsfall von Web Usage Mining findet sich in [1]. Es
handelt sich dabei um das Erkennen von Zusammenhängen zwischen Seiten, wo
8
eigentlich keine speziellen Strukturen gegeben sind. Als konkretes Beispiel wäre
hier ein Online-Produktkatalog zu nennen, in dem Produkte nur innerhalb von
Kategorien strukturiert sind.
Mit Hilfe von Web Usage Mining ist es nun möglich, semantische Zusammenhänge zwischen Produkten zu finden. Das wäre der Fall, wenn viele Benutzer die ein Produkt A aufrufen, auch die Artikelseite eines anderen Produktes
B ansehen. In vielen E-Commerce Systemen wird diese Technik verwendet, um
Produkte untereinander zu verlinken oder dem Kunden Empfehlungen zu geben,
wie es der E-Commerce-Riese Amazon sehr erfolgreich vorlebt.
Für den Betreiber einer Webseite kann Web Usage Mining auch dazu verwendet werden, um die Usability und die Strukturen einer Seite zu evaluieren.
So kann man herausfinden, über welche Pfade Benutzer Seiten aufrufen. Dabei
ist es wichtig herauszufinden, ob der Pfad gewünscht ist, oder ob die Struktur
der Seite an dieser Stelle falsch ist.
Aus diesem Grund sollte Web Usage Mining immer zusammen mit der Analyse von Inhalt und Struktur stattfinden, um feststellen zu können, ob die gefundenen Ergebnisse auch sinnvoll sind.[10]
2.3
Der Web Mining Prozess
Der Web Mining Prozess besteht grundlegend aus den gleichen Teilschritten wie
der Data Mining Prozess. Die einzelnen Phasen können sich allerdings stark
vom Data Mining Prozess unterscheiden. In der folgenden Auflistung werden die
Schritte genauer betrachtet:
1. Datenerhebung
In diesem Schritt werden die Datenquellen ausgesucht, aus denen die Informationen bezogen werden können. Im Falle von Web Mining kommen hier
Dokumente in Frage, die im World Wide Web verfügbar sind. Dabei muss
es sich nicht automatisch um Webseiten handeln, sondern es kommen auch
Newsletter, Newsgroup-Text oder Multimedia-Dateien in Frage. [10]
2. Pre-Processing
Bevor die Daten für die Zwecke für Information Retrieval genutzt werden
können, müssen sie vorverarbeitet werden. Für Textdokumente werden dazu
meistens die Teilschritte Stoppworte entfernen, Stemming sowie eine spezielle
Behandlung für Nummern, Aufzählungen und Groß- und Kleinschreibungen
angewandt.
Für Webseiten ist es notwendig, zusätzlich HTML-Tags zu entfernen und
den Hauptinhalt zu identifizieren. Dabei ist darauf zu achten, dass HTMLTags nicht blind entfernt werden sollten, da sie auch einiges über die logische
Struktur einer Seite aussagen, wie zum Beispiel Überschriften. [10]
9
Ein weiterer Vorverarbeitungsschritt, auf den beim Web Mining zu achten
ist, ist das Erkennen von Duplikaten. Dieses Problem kommt beim traditionellen Data Mining nicht vor. In [11] werden mehrere Arten von Kopien
unterschieden. Von einem Duplikat spricht man, wenn eine Seite kopiert wird,
handelt es sich um den ganzen Webauftritt so spricht man von spiegeln.
Diese Seiten werden oft absichtlich benutzt, um die Performance von Seiten
zu erhöhen (zum Beispiel für große Downloads). Einige kopierte Seiten sind
auch Plagiate. Eine einfache Möglichkeit Duplikate zu finden, ist einen HashWert von der Seite zu errechnen und diesen zu vergleichen.
3. Web Mining
In dieser Phase werden Machine Learning und Data Mining Techniken angewandt. Das heißt, verschiedene Algorithmen werden auf die bereits vorverarbeiteten Daten angewandt. Da das Internet ein interaktives Medium ist,
spielt auch der Mensch eine bedeutende Rolle beim Auffinden von Wissen
oder Mustern.[10]
4. Post-Processing
In dieser Phase werden die Daten für die Ausgabe aufbereitet. Mögliche
Teilschritte sind unter anderem Sortieren und Formatierung.
Der Web Mining Prozess ist zur besseren Veranschaulichung in Abbildung 1
dargestellt.
Abbildung 1: Der Web Mining Prozess
2.4
Semantic Web Mining
Laut [3] werden bei Semantic Web Mining die beiden wichtigen Forschungsgebiete Semantic Web und Web Mining miteinander kombiniert. Die Idee hinter
Semantic Web Mining ist es, die Ergebnisse des Web Minings mit Hilfe der semantischen Strukturen des Webs zu verbessern. Web Mining kann auch helfen
um das Semantic Web zu bauen.
Das Semantic Web geht auf eine Vision von Tim Berners-Lee zurück.[17] Ein
Großteil der Daten ist nur vom Menschen selbst interpretierbar, nicht jedoch
10
von Maschinen. Berners-Lees Idee war es nun, die Inhalte durch Information zu
ergänzen, die von Maschinen verarbeitbar sind und die Bedeutung der Inhalte
beschreiben.
Um ein semantisches Netz zu bauen, muss eine Struktur definiert und diese mit Leben gefüllt werden. Die folgenden Punkte zeigen die Schritte um ein
Semantic Web aufzubauen: [17]
1. Eine Syntax für Maschinen-lesbare Statements zur Verfügung zu stellen.
2. Eine allgemeines Vokabular herzustellen.
3. Eine Übereinstimmung mit einer logischen Sprache zu finden.
4. Die Anwendung der Sprache um Schlüsse abzuleiten.
Berners-Lee schlug vor, das semantische Web in verschiedenen Schichten,
auch Layer genannt, aufzubauen. Diese Struktur reflektiert die zuvor genannten
Schritte. Das Modell ist in Abbildung 2 ersichtlich.
Abbildung 2: Struktur des Semantic Web, aus [17]
Damit die Maschine anhand dieser zusätzlichen Daten selbstständig semantische Zusammenhänge herstellen kann, müssen diese jedoch erst zur Verfügung
gestellt werden.
Eine vollständige Automatisierung dieser Aufgabe ist nicht möglich, und
würde gleichzeitig alle Anstrengungen in diesem Gebiet überflüssig machen.
Wäre die Technologie bereits vorhanden, solche Schlüsse völlig automatisch zu
ziehen, so wären auch keine Metadaten zu einzelnen Dokumenten notwendig.
Computer könnten dann auch direkt von den Quelldokumenten ausgehen und
sie verarbeiten.
11
Der Mensch, mit seinem Erfahrungsschatz und Hintergrundwissen, ist und bleibt
also unabdingbar. Es wird jedoch versucht, seine Arbeit möglichst einfach und
effizient zu gestalten.
[1] beschreibt die drei grundlegenden, allesamt semiautomatischen Techniken
um dies zu bewerkstelligen.
2.4.1
Ontology Learning
Ontology Learning vereint verschiedene Techniken um unstrukturierte, semistrukturierte und vollständig strukturierte Daten zu verarbeiten und relevante Informationen zu extrahieren.
Die Ergebnisse werden meist noch von Menschenhand kontrolliert, was aber
zumindest weniger Aufwand bedeutet als das ganze Dokument selbst zu lesen
und die Metadaten zu erstellen.[1]
2.4.2
Mapping and Merging Ontologies
Oft werden Ontologien zu den selben oder ähnlichen Themen von verschiedenen Autoren erstellt, die sich dabei leicht überschneiden können. Redundanz
stellt für die maschinelle Verarbeitung jedoch ein erhebliches Problem dar, da
sie ein Programm meist in eine zwiespältige, nicht selbstständig entscheidbare,
Situation bringt.
Es liegt also wieder am Menschen, diese Metainformationen in Einklang zu
bringen. Da rein manuelles Vorgehen wiederum zeitaufwändig und fehleranfällig
ist, gilt es Hilfestellung zu bieten.
Anhand von semantischen und syntaktischen Techniken wird versucht, das
menschliche Vorgehen in so einem Fall nachzustellen, und so den simplen, repetetiven Teil dieser Arbeit zu übernehmen. Eine Endkontrolle ist jedoch nach wie
vor unabdingbar.[1]
2.4.3
Instance Learning
Auch wenn von nun an beim Erstellen von Dokumenten vom Autor immer die
relevanten Informationen strukturiert mitgeliefert werden würden, bliebe immer
noch das Problem der gewaltigen Menge an Schriftstücken, die bereits ohne diese
im World Wide Web umherschwirren.
Hier kommt Information Extraction als Teilbereich des Human Language
Processing ins Spiel. Darunter versteht man einige verschiedene Methoden, mit
denen automatisch oder semiautomatisch Kerninformationen extrahiert und zur
Verfügung gestellt werden.[1]
12
3
Aktuelle Forschungsbereiche
Es wurden zwei verschiedene Richtungen identifiziert, die die Hauptmotivation
für die Forschung im Bereich Web Mining darstellen. Auf der einen Seite steht
die Optimierung und Kontrolle der eigenen Anwendung. Man betrachtet die
Menge aller Benutzer und versucht das eigene Produkt besser, zugänglicher und
performanter zu gestalten.
Diese Vorgehensweise stellt damit die analytischere und passivere dar. Verbesserung und Kontrolle des eigenen Angebots bilden einen iterativen Prozess.
Die andere Bewegung geht dahin, dass das System dem Besucher entgegen
kommt, sein Verhalten analysiert und versucht dem einzelnen Nutzer einen auf
ihn zugeschnittenen, besseren Service zu bieten.
Da es im Idealfall sehr viele Benutzer gibt muss die Anpassung natürlich
automatisch erfolgen, was eine höhere Herausforderung darstellt.
3.1
Web Usage Mining zur Evaluierung von Webseiten
Wenn Unternehmen oder Organisationen eine Website betreiben und warten,
nehmen sie diesen Aufwand nicht ohne jeden Zweck in Kauf. Sei es nun nur zur
Imagepflege, für den Kundenkontakt oder zur direkten Geschäftsdurchführung,
wie beispielsweise in einem Webshop, so verfolgt die Internetpräsenz immer ein
gewisses Ziel.
Ein Ziel, dessen Einhaltung kontrolliert und bewertet werden muss, um einzuschätzen ob sich die Investition bezahlt macht, oder wo und wie man Optimierungen vornehmen kann. In [15] wird der Evaluierungsprozess in acht Schritte
unterteilt:
1. Formulierung der Fragestellung
2. Definition von Evaluationsregeln
3. Erfassung des Datenbestandes
4. Aufbereitung des Datenbestandes
5. Datenanalyse
6. Auswertung der Muster
7. Umsetzung der Resultate in die Praxis
8. Analyse der Auswirkungen
13
Für keinen dieser Punkte gibt es ein Rezept“, nach dem vorgegangen werden
”
kann. Jeder Schritt muss genau an die Gegenheiten und Zielsetzungen des jeweiligen Unternehmens angepasst werden, damit mit der gewonnenen Information
eine relevante Aussage getroffen werden kann.
3.1.1
Datenerfassung und Vorverarbeitung
Die Problematik bei der Erfassung von Daten über die Nutzung von Webseiten
entsteht aus der zugrundeliegenden Technologie. Das Hypertext Transfer Protocol
liefert keinerlei verlässliche Daten über den Besucher, die über seine IP-Adresse
hinaus gehen. Damit wäre die kleinste Dateneinheit definiert - der Aufruf.
Die Nächstgrößere ist die Sitzung. Eine definitive Aggregation von Aufrufen
zu einer Sitzung erweist sich allerdings schon als äußerst problematisch.
So wie ein Benutzer durchaus mehrere Adressen haben kann, so kann es auch vorkommen, dass mehrere dieselbe verwenden, wie es zum Beispiel innerhalb eines
Netzwerks hinter einem Router der Fall ist. Auch auf zusätzliche Header-Daten,
die vom Browser mitgeliefert werden, wie Sprache, Ort, Zeit, Betriebssystem,
Browserversion und ähnliches, kann man sich nicht verlassen, da sie problemlos
vom Benutzer modifizert oder ganz unterbunden werden können.
Diese Umstände verwässern den Datenbestand stark und machen eine exakte
Analyse praktisch unmöglich.
Grundsätzlich gibt es laut [15] zwei Varianten mit dieser Problematik umzugehen.
Die proaktive Methode setzt Cookies oder ähnliche externe Technologien
ein um Benutzer eindeutig zu identifizieren. Zwar ist dies in den meisten Fällen
möglich, es kann jedoch auch vom Benutzer einfach unterbunden werden. Ausserdem ist diese Vorgehensweise fragwürdig im Bezug auf Rechtslage und Privatsphäre.
Die reaktive Taktik nimmt die Schwächen der Datenerfassung hin und versucht sie im Zuge der Vorverarbeitung auf statistischem Wege auszugleichen.
Hierbei wird die Masse an Daten zu einer Tendenz zusammengefasst die Aufschluss über das allgemeine Benutzerverhalten geben kann. Je nach Problemstellung können dabei jedoch wichtige Informationen im statistischen Rauschen
untergehen.
Letztendlich entscheidet die Zielsetzung der Evaluierung, welche Methoden man
einsetzt. Geht es nur darum die Serverauslastung zu analysieren, oder herauszufinden, an welchen Produkten die Allgemeinheit am meisten interessiert ist,
reicht eine statistische Auswertung der Zugriffe völlig.
14
Um Muster darin zu erkennen sind natürlich die Zusammenhänge zwischen
den Aufrufen wichtig, auf die so nicht eingegangen werden kann.
3.1.2
Analyse und Auswerung
Sind die Daten aufbereitet und so vollständig wie eben möglich, muss begonnen
werden sie zu analysieren und Schlüsse daraus zu ziehen. Mit dem bloßen Auge
ist die erforderliche Datenmenge aber kaum überblickbar, weswegen sich eine
strukturierte Vorgehensweise empfiehlt.
Es gilt Muster zu definieren, die man dann im Strom aus Zugriffen und Sitzungen sucht und quantifiziert. Diese Muster werden meist in einem interdisziplinären Prozess mit der Geschäftsleitung, Webdesignexperten und Psychologen
erarbeitet, da sie sehr zielgerichtet definiert werden müssen.
Ein einfaches Beispiel so eines Verhaltensmusters wäre, wie viel Benutzer erst
eine Werbeeinschaltung gesehen haben und sich daraufhin für das entsprechende Produkt interessiert haben. Daraus lässt sich dann direkt die Effizienz der
Werbeeinschaltung ableiten.
3.1.3
Umsetzung und Auswirkungen
Aus den Ergebnissen der Analyse kann die Geschäftsleitung Schlüsse ziehen und
entsprechende Maßnahmen veranlassen. Hierbei unterscheiden sich prinzipiell
zwei Fälle. Entweder die Datenerhebung war Teil einer einmaligen Entscheidungsfindung, wie beispielsweise welches Produkt stärker beworben werden sollte.
Die andere Variante ist ein iterativer Prozess, der anhand der gewonnenen
Daten laufend kontrolliert und angepasst wird. So kann in kontrollierter Umgebung mit verschiedenen Maßnahmen experimentiert werden.[15]
3.2
Web Mining als Mittel zur automatisierten Personalisierung
Ein weiteres Forschungsgebiet im Bereich des Web Mining ist die automatische
Personalisierung von Inhalten auf Basis des Surfverhaltens des Nutzers.
Ziel ist es, den Benutzer anhand seiner Aktionen zu erkennen, einzuordnen,
automatisiert Konsequenzen zu ziehen und entsprechende Funktionalitäten oder
Zusatzinformationen anzubieten.
Um dies zu bewerkstelligen ist natürlich einiges an Information im Vorhinein
notwendig.
3.2.1
Datenerfassung und Vorverarbeitung
Den grundlegenden Datenbestand stellen wiederum die Protokolldateien des jeweiligen Webservers, und wie auch schon bei der Evaluierung von Webseiten
15
(siehe Abschitt 3.1) stellt die Zustandslosigkeit von HTTP das Kernproblem
dar.
Einzelne Zugriffe müssen wieder Benutzern zugeordnet werden, was u.a. von
Browsercaches und Proxyservern erheblich erschwert wird.
Als Begriff für eine abgeschlossene Aktion eines Benutzers führt [14] den Begriff der Transaction ein. Sie stellt die Reinform der Intention des Anwenders
dar, bereinigt von eventuellen Zusatzzugriffen für beispielsweise Bilder oder Stylesheets und Hilfszugriffen wie beispielsweise einer Navigationsseite.
3.2.2
Analyse und Auswertung
Mit den aus der Vorverarbeitung gewonnenen Daten kann auf verschiedene Weise umgegangen werden.
Die einfachste Methode ist es, URLs zu finden, die auffällig oft gemeinsam vorkommen. Damit entstehen Gruppen von Zugriffen die sich miteinander assoziieren lassen. Aus diesen Itemsets lassen sich wiederum Assoziationsregeln ableiten,
die dazu verwendet werden um Empfehlungen darüber abzugeben, in welchem
Bereich sich der User bewegt.
Eine andere Variante verwendet einen kollaborativen Ansatz, das Transaction
Clustering, indem sie die Transaktionen verschiedener verwandter Benutzerprofile vergleicht und daraus Schlüsse zieht. Die Transaktionen werden in einen
Vektorraum aus Adressen eingeordnet und anhand ihrer Distanz miteinander in
Verbindung gebracht. Ob dabei Mehrfachvorkommen einer URL miteinbezogen
werden sollten, oder rein binär gewichtet werden muss, ist umstritten.
Eine weitere von [14] genannte Methode ist das sogenannte Usage Clustering.
Im Gegensatz zur vorherigen Variante werden hier nicht die Transaktionen
sondern die URLs selbst herangezogen und einander zugeordnet. Es ist sozusagen
die Umkehrung des Transaction Clustering. Nun werden nicht die Transaktionen
in einen Raum aus URLs eingeordnet um ihre Distanz zu messen, sondern sie
spannen den Raum auf, in dem wiederum die einzelnen Adressen nach ihrer
Zugehörigkeit positioniert werden.
So werden auch Zugriffe einander zugeordnet, deren Transaktionen eigentlich
weit voneinander entfernt sind, was wiederum gemeinsame Intentionen unterschiedlicher Benutzer abdeckt.
3.2.3
Umsetzung
Die so gewonnenen Daten können auf verschiedene Weise genutzt werden. [14]
erwähnt die Möglichkeit, dem Benutzer weitere Links direkt anzubieten. Anhand
16
seiner Position im Raum und seiner Distanz zu verschiedenen Aktionen kann
relativ genau geraten werden, woran er interessiert sein könnte.
[6] geht an diesem Punkt noch einen Schritt weiter. Im Rahmen eines Versuches wurden die Aktivitäten von fünf Personen einen Monat lang protokolliert.
Mit diesen etwa 15.000 Zugriffen wurde ein propabilistisches Modell trainiert,
anhand dessen mit überraschender Genauigkeit vorrausgesagt werden kann was
der Nutzer tun wird.
Mit diesem Wissen kann das System dem Nutzer erstens ein besseres Surfverhalten bieten, und zweitens sich selbst optimieren. Im Rahmen dieses Versuches wurden die Daten jedoch clientseitig gesammelt, was eine hunderprozentige
Zuordnung ermöglicht. Dieser Umstand verhindert wohl eine grossflächige Anwendung der Technologie.
4
Anwendung: Kollaboratives Web Mining System
Dieses Kapitel basiert, sofern nicht anders angemerkt, auf [5]. Es beschäftigt
sich mit dem darin präsentierten Gedanken, dass eine kollaborative Herangehensweise an Such- und Recherchearbeit dazu dienen kann, weitere, ggf. ähnliche
Suchvorgänge zu beschleunigen und deren Qualität zu erhöhen.
Auf Basis der Konservierung und Bereitstellung bereits erfolgter Suchvorgängen
sowie deren Ergebnisse für alle Benutzer des Systems sollen die für Suchtätigkeiten verwendete Zeit verringert und der Nutzen erhöht werden.
Es wird insbesondere untersucht, welche Menge an relevanten kollaborativen Daten benötigt wird, um den entstehenden Overhead für das Lesen und Verstehen
(browsing) der verwendeten Daten zu kompensieren, und damit darüberhinaus
einen positiven Effekt zu erzielen.
Weiters wird untersucht, welche zusätzlichen Arten von Kollaborationen im
Web Mining auf Userseite identifiziert werden können, und wie sich diese in ein
kollaboratives Konzept einfügen lassen.
4.1
4.1.1
Vorbetrachtungen
Kollaboratives Information Retrieval und Filtering
Kollaboratives Information Retrieval bedeutet das sharing“ von Suchergebnis”
sen, oder besser, vollständigen Suchvorgängen unter sämtlichen Benutzern des
Systems.
Auf Basis der recherchierten Gegenstände kann auf diese Weise eine Verbesserung des Suchperformance (hinsichtlich Relevanz und Ranking der Ergebnisse)
erreicht werden.
17
Kollaboratives Filtering meint das gemeinschaftliche Filtern von Informationen
(u.a. Relevance-Feedback) auf Basis gemeinsamer Interessen oder ähnlichen Verhaltensweisen. Bekannte Vertreter hierfür sind beispielsweise die Empfehlungssysteme von Amazon oder last.fm.
Für das in der besprochenen Arbeit präsentierte System spielt vor allem die
Methode des kollaborativen Information Retrievals eine wesentliche Rolle.
4.1.2
Software Agents im Web
Software Agents sind selbstständig und automatisiert agierende Softwaresysteme, die beispielsweise zur Indizierung von oder Suche nach Webseiten eingesetzt
werden.[10]
So erledigen zum Beispiel die sogenannten Spiders und Bots die Indizierung von
Webseiten für Suchmaschinen auf Basis bestimmter Kriterien und Heuristiken.
Client-orientierte System hingegen suchen - für den Benutzer - in regelmäßigen Intervallen nach Seiten, die den vom User angegebenen Kriterien entsprechen. Solche Kriterien können beispielsweise Suchbegriffe oder auch Beispieldatensätze wie relevante, bereits gefundene Webseiten sein.
Eine Spezialform von Agentensystemen stellen so genannte Multi-Agent Systeme dar. Diese kombinieren zur Informationsgewinnung, wie der Name bereits
vermuten lässt, mehrere verschiedene Suchagenten.
Charakteristisch dabei ist, dass jeder der verwendeten Agenten ein unvollständiges Set an Informationen hält. Über komplexe Interaktionen in dem System erfolgt eine gesteuerte Kooperation der Agenten zum Zweck optimierter
Informationsgewinnung bei minimiertem Informationsoverhead.
Üblicherweise arbeiten die verschiedenen Agenten außerdem dezentralisiert, d.h.
verteilt, und kommunizieren über definierte Protokolle, den sogenannten Agent
Communication Languages (ACLs). Diese unterstützen zumeist spezielle Abfrageprotokolle, die zum Informationsaustausch dienen.
4.2
Zwei Hauptprobleme konventioneller Suchsysteme
Auf Basis der bereits angestellten Überlegungen lassen sich folgende zwei große
Probleme der konventionellen Suchsysteme im Bereich des Web Searching und
Web Mining identifizieren.
18
4.2.1
Problem 1: Unzureichende Post-Retrieval Analyse
Obwohl sich bereits in verschiedenen praktischen Umgebungen gezeigt hat, wie
effektiv eine umfangreiche Analyse des Suchvorganges (inklusive der damit verbundenen Entitäten an Daten) sein kann, gibt es noch wenige Systeme, die mit
diesem Mechanismus arbeiten.
Der erzielbare Nutzen für den User in Form effektiverer Informationsgewinnung ist für das jeweilige System jedoch mit einem gewissen Aufwand an Verarbeitungsleistung verbunden. Eine Tatsache, die speziell bei Echtzeit-Analyse
wesentliche Anforderungen an die technische Umsetzung (sowohl an die softwareseitig eingesetzten Heuristiken, als auch an die Hardware an sich) stellt.
Hierbei lässt sich der nachvollziehbare Trend feststellen, derartige Analysen
nicht mehr auf Serverseite durchzuführen, sondern sie auf die Clientmaschine
auszulagern. Es bleibt dabei jedoch abzuwarten, inwieweit diese Strategie aufgrund ihres sehr verteilten Ansatzes die Umsetzung von Lösungsvorschlägen für
das zweite große Problem konventioneller Websuchsysteme erschwert.
4.2.2
Problem 2: Keine kollaborativen Suchmechanismen
Die Grundidee hierbei ist, dass für eine erfolgreiche Such-Sitzung weit mehr an
Zeit und Überlegungen aufgewendet wird, als lediglich die initiale Suchphrase
zu formulieren.
Das Speichern von Suchvorgängen und das Teilen dieser innerhalb der gesamten Benutzergruppe kann diesen Aufwand verringern. Lässt das verwendete
Suchsystem diese Möglichkeit außer Acht, gehen mit dem Abschluss der zugrundeliegenden Recherche wichtige Informationen verloren. Die Konsequenz daraus
ist, dass jeder Benutzer bei der Suche nicht nur auf sich alleine gestellt ist, sondern auch immer wieder von Vorne“ beginnen muss.
”
Das Ziel der betrachteten Arbeit war es, diese Probleme im Rahmen der Entwicklung eines Collaborative Spider“ genannten Suchsystems zu lösen.
”
Nachfolgend wird der konzeptionelle Rahmen beschrieben, in welchem das
entwickelte System agieren soll. Weiters wird die Architektur des Systems hinsichtlich seiner Schwerpunkte erläutert.
4.3
Die Collaborative Spider“
”
Die Collaborative Spider ist ein kollaboratives System für Information Retrieval
und -Mining im Web. Es führt umfangreiche Post-Retrieval Analysen durch,
speichert deren Ergebnisse und stellt sie sämtlichen Nutzern zur Verfügung.
Das System basiert auf einem Multi-Agenten-Ansatz (siehe Absatz 4.1.2),
dessen Architektur sich wie in Abbildung 3 dargestellt zusammensetzt.
Das Diagramm zeigt, wie die drei Hauptteile des Systems organisiert sind.
19
Abbildung 3: Architektur der Collaborative Spider, aus [5]
4.3.1
User Agent
Jeder im System agierender User ist dabei einem eigenen, personalisierten User
Agent zugeordnet, der Daten über die Interaktionen des Users mit dem System
aufzeichnet. Diese Daten sind:
– das generelle Profil des Benutzers (User Profiles), d.h. Metainformationen
wie Name, Alter, aber auch Daten, welche die Verwaltung des Benutzers
ermöglichen, z.b. Zugehörigkeit zu Gruppen
– bereits getätigte Suchaktivitäten (Search Sessions), d.h. gesammelte Suchsessions, von der initialen Suchphrase bis zum bewerteten Ergebnis
– Aufgaben, die der User seinem Agent aufträgt (Monitor Tasks), z.b. bestimmte Seiten in regelmäßigen Intervallen nach definierten Themen durchsuchen,
und die Ergebnisse für einen späteren Abruf durch den User zu speichern
Die Suchfunktionalität des User Agents ist dabei systemintern in Form einer
Spider umgesetzt, deren Verhalten (z.b. Suchmethode Breadth-First oder BestFirst) eingeschränkt vom Benutzer konfigurierbar ist.
Die Ergebnisse der Suche werden anschließend auf den Client-Rechner geladen und nach einer Post-Retrieval Analyse (durch den Arizona Noun Phraser,
AZNP[18]) ggf. über eine Self-Organizing Map (SOM[9]) visualisiert.
20
4.3.2
Collaborator Agent und Scheduler Agent
Die bereits erwähnte Gruppenzugehörigkeit ist hier der Ausgangspunkt für den
kollaborativen Ansatz. So ist es im System vorgesehen, Benutzer bestimmten
organisatorisch oder thematisch abgegrenzten Gruppen zuzuordnern.
Für jede dieser Gruppen sind in weiterer Folge eigene Collaborator Agents
und Scheduler Agents vorgesehen, die den kollaborativen Austausch zwischen
den Gruppen ermöglichen.
Der Collaborator Agent ist dabei zuständig für die gemeinschaftliche Verwaltung der User Profiles und der Search Sessions. Er ist außerdem imstande,
Zusatzinformationen zu Datenpunkten (z.b. Webseiten, Such-Sessions) zu speichern, die von Usern über einen Tagging-Mechanismus in das System eingebracht
werden. Diese Daten stehen anschließend sämtlichen anderen Benutzern ebenfalls zur Verfügung.
Der Scheduler Agent ist hingegen dafür zuständig, die Monitoring Tasks der
einzelnen User zu ordinieren und zu koordinieren. Hierbei werden seitens des Systems auch Heuristiken zum Load-Balancing der abgefragten Server zum Einsatz
gebracht.
Das Ergebnis des Scheduler Agents sind, analog zum User-Agent, wiederum
Such-Sessions, die vollständig an die jeweiligen User Agents und Collaborator
Agents weitergegeben werden.
Aus dieser Darstellung lässt sich in weiterer Folge ableiten, dass User Agents
und Scheduler Agents gleichermaßen Zugriff auf die Datenquelle (im vorliegenden Fall ist dies das Internet) benötigen, während der Collaborative Agent ausschließlich mit den anderen Agents innerhalb des Systems kommuniziert.
Die Kernfunktion des Collaborator Agents ist es, ein Recommender-System
(Empfehlungssystem) zur Verfügung zu stellen, dass Usern auf Basis ihrer Suchaktivitäten, Gruppenzugehörigkeiten und anderen verfügbaren Daten1 gewisse
Such-Vorgänge bzw. deren Ergebnisse empfiehlt.
4.3.3
Beispielhafter Suchvorgang
Um das System nutzen zu können, ist eine Registrierung und Anmeldung durch
einen User Agent notwendig. Dabei wird dem Benutzer bereits mindestens eine
der vorgegebenen areas of interest zugeordnet.
Nach der Aufnahme des restlichen Benutzerprofils stehen bereits sämtliche
Suchfunktionen zur Verfügung. Es ist möglich, verschiedene Recherchen (identifiziert durch einen session name) anzulegen und (wahlweise auch für andere) zu
speichern.
1
Die in der Arbeit besprochene Version zieht für das Empfehlungssystem ausschließlich die thematischen Zugehörigkeiten der Benutzer in Betracht.
21
Jede dieser Sessions kann verschiedene areas of interest behandeln. Den Startpunkt für die Recherche bildet die Angabe von Ausgangs-Webseiten (als URL)
und Suchbegriffen (query terms).
Die Suchergebnisse werden hierarchisch strukturiert und dynamisch in der Programmoberfläche angezeigt. Beim Aktivieren einer gefundenen Seite erhält der
Benutzer eine Darstellung der in dieser Seite eingebetteten Hyperlinks.
Der Benutzer schließt den Suchvorgang (vorläufig) mit der next-Taste ab.
Dadurch wird der Noun Phraser aktiviert. Dessen Ergebnis ist eine Liste der
häufigsten relevanten Nomen aus den Ergebnisseiten. Die Liste enthält Angaben
über die term frequency in den einzelnen Dokumenten, sowie Links zu diesen
Dokumenten.
Zur weiteren Analyse der Suchergebnisse stehen dem Benutzer Self-Organizing
Maps zur Verfügung. Diese stellen die gefundenen Seiten in einer zweidimensionalen Themenlandschaft dar.[9]
Der Zugang zu kollaborativ gesammelten Daten erfolgt über das Knowledge
Dashboard. In diesem Fenster werden sämtliche freigegebenen Suchvorgänge angezeigt, die den aktuellen areas of interest entsprechen.
Der Benutzer hat die Möglichkeit, seiner eigenen Suchsession ausgewählte Start-Seiten und Suchbegriffe hinzuzufügen, oder bereits gespeicherte Suchvorgänge vollständig zu laden, inklusive der gegebenen Feedbacks und gefundenen Suchergebnisse.
Eine abgeschlossene Such-Session kann anschließend vollständig gespeichert und
mit anderen Usern geteilt werden. Dazu sendet der jeweilige User Agent die
Binärdatei mit den Daten des Suchvorganges an den Collaborator Agent, der
die Metadaten zur Suche an interessierte User Agents anbietet.
Die Suche über Monitor Tasks verläuft ähnlich. Hier werden bestimmte WebSeiten angegeben, welche der Scheduler Agent über verschiedene Spider in regelmäßigen Abständen nach bestimmten Informationen durchsucht. Die Ergebnisse werden anschließend wieder über den Collaborator Agent in Form von
Metadaten an die User Agents weitergegeben.
4.3.4
Evaluierung
Zweck der Evaluierung war es, den Nutzen des kollaborativen Systemansatzes
und der Post-Retrieval Analysen festzustellen, sowie festzuhalten, inwiefern die
Menge der verfügbaren Daten Auswirkungen auf die Performance und Suchzeiten hat.
Fünfzig Studenten aus facheinschlägigen Studien bekamen die Aufgabe, drei von
22
sechs verfügbaren Themen zu recherchieren. Der Scheduler Agent stand dabei
nicht zur Verfügung, d.h. sämtliche Suchvorgänge wurden von den Benutzer direkt vorgenommen.
Als Ausgangspunkt für die Recherche hatten die User die Möglichkeit, eigene
Start-Seiten und Suchbegriffe beliebig mit denen gespeicherter Suchvorgänge
zu kombinieren. Die 50 Testuser wurden in fünf Gruppen (n: 0..4) eingeteilt,
wobei n jeweils auch der Anzahl der zur Recherche zur Verfügung stehenden
gespeicherten (kollaborativ verwalteten) Suchvorgänge entspricht.
Um Referenzwerte für die Performancemessung zu gewinnen wurden die sechs
gestellten Themen jeweils von zwei Experten recherchiert. Als Maßzahlen für die
Performance wurden Precision- und Recall -Werte errechnet. Weiters wurden die
Zeitspannen aufgezeichnet, die von den Testusern zur Recherche aufgewandt
wurden. Ergänzend dazu wurden von den Testusern im Anschluss Fragebögen
ausgefüllt.
4.3.5
Ergebnisse
Die quantitativen Ergebnisse in form von Precision- und Recall-Werten sind in
Abbildung 4 dargestellt. Es ist erkennbar, dass die Ergebnisse in Gruppe 0 (die
ohne kollaborative Daten getestet wurde) über denen der Gruppe 1 liegen. Der
Recall-Wert von Gruppe 2 ist außerdem noch niedriger als der von Gruppe 0,
erst ab Gruppe 3 lassen sich eindeutig bessere Werte ablesen.
Abbildung 4: Performance der Collaborative Spider, aus [5]
23
Somit wurde die Vermutung bestätigt, dass eine gewisse Menge an kollaborativen Daten notwendig ist, um den Overhead für das Browsen durch diese Daten
zu kompensieren.
Ergänzend ist zu erwähnen, dass sich die Zeitspannen, die für die einzelnen
Aktivitäten innerhalb der Recherche aufgewendet wurden, über alle Gruppen
hinweg sehr vergleichbar verhielten, mit Ausnahme von Gruppe 0, welche keinen
Zugriff auf kollaborative Daten hatte.
Diesbezüglich sei auch festgehalten, dass für die Verwendung der kollaborativen Features verhältnismäßig wenig Zeit aufgewendet wurde (etwa 11% bis 20%
der verfügbaren Zeit), der Nutzen jedoch im Ergebnis durchaus wiedererkennbar
war.
Die Fragestellung, ob die Effizienzsteigerung ab einer gewissen Menge verfügbarer kollaborativer Daten wieder abnimmt, bzw. wo dieser Punkt liegen könnte,
konnte in der Arbeit nicht beantwortet werden.
5
Fazit und Ausblick
All diese Erkenntnisse zeigen auf, dass die Technologie in vielen Bereichen der
Forschung und vor allem der Umsetzung noch in den Kinderschuhen steckt. Es
existieren gewaltige zu verarbeitende Datenmengen, jedoch kein automatisches
System dass verlässlich damit umgehen kann.
Zur richtigen Interpretation und korrekten semantischen Einordnung ist noch
immer das Hintergrundwissen und der Erfahrungsschatz eines Menschen notwendig. Da dieser jedoch nicht geeignet ist, repetetive Aufgaben fehlerfrei und für
derart gewaltige Datenmengen zu erledigen, wird versucht, ihn zu unterstützen.
Daraus ergibt sich der aktuelle Kompromiss, in dem eine möglichst effiziente
Zusammenarbeit zwischen Mensch und Maschine angestrebt wird, in der jeder
das tut was er am besten kann. Vollkommen autonome Programme sind jedoch
nach wie vor Konzepte, deren Realisierung weitere Forschung in diesem Bereich
bedingt.
Zukünftige Entwicklungen werden sich vermutlich darauf konzentrieren, den Humanaufwand immer weiter zu verringern und zu minimieren. Dabei wird versucht, menschliches Entscheidungsverhalten immer besser nachzuahmen, wobei
Methoden aus verschiedensten Bereichen der Informatik, Mathematik und Statistik ihre Anwendung finden.
In Verbindung mit der immer weiter fortschreitenden Forschung im Bereich
der künstlichen Intelligenz wird es vielleicht bald möglich sein, den Automatisierungsgrad semantischer Software so weit zu erhöhen, dass man von Selbstständigkeit sprechen kann.
24
List of Figures
1
2
3
4
Der Web Mining Prozess . . . . . . . . . . . .
Struktur des Semantic Web, aus [17] . . . . .
Architektur der Collaborative Spider, aus [5]
Performance der Collaborative Spider, aus [5]
25
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10
11
20
23
References
[1] B. Berendt, A. Hotho, G. Stumme. Towards Semantic Web Mining. ISWC (2002),
LNCS 2342 (2002) 264-278
[2] B. Berendt, A. Hotho, D. Mladenic, M. van Someren, M. Spiliopoulou, G. Stumme.
A roadmap for Web Mining: From Web to Semantic Web. In [5] (2004) 1-22
[3] B. Berendt, A. Hotho, G. Stumme. Semantic Web Mining and the Representation,
Analysis, and Evolution of Web Space. Institute of Information Systems, Humboldt
University Berlin (2005)
[4] S. Brin. Extracting Patterns and Relations from the World Wide Web
[5] M. Chau, D. Zeng, H. Chen, M. Huang, D. Hendriawan. Design and evaluation
of a multi-agent collaborative Web mining system. Decision Support Systems 35
(2003) 167-183
[6] Z. Chen, F. Lin, H. Liu, Y. Liu, W. Ma, L. Wenyin. User Intention Modeling in
Web Applications Using Data Mining. Internet and Web Information Systems 5
(2002) 181–191. Kluwer Academic Publishers Netherlands 2002
[7] R. Cooley, B. Mobasher, J. Srivastava. Web Mining: Information and Pattern
Discovery on the World Wide Web. ICTAI (1997)
[8] J. Han, K. Chen-Chuan Chang. Data Mining for Web Intelligence. University of
Illinois at Urbana- Champaign (2002)
[9] T. Honkela, S. Kaski, K. Lagus, T. Kohonen. WEBSOM - Self-Organizing Maps
of Document Collections. Helsinki University of Technology, Neural Networks
Research Centre (1997)
[10] R. Kosala, H. Blockeel. Web Mining Research: A Survey. ACM SIGKDD Explorations Newsletter 2 (1) (2000) 1-15
[11] B. Liu. Web Data Mining. Springer-Verlag Berlin Heidelberg (2007)
[12] P. Markellou, I. Mousourouli, S. Spiros, A. Tsakalidis. Using Semantic Web
Mining Technologies for personalized E-Learning Expieriences. University of
Patras, Computer Engineering (2005)
[13] M. Meyer, S. Weingärtner, T. Jahke, O. Lieven. Web Mining und Personalisierung
in Echtzeit. Ludwig-Maximilians-Universität München, Heft 5/2001 (2001)
[14] B. Mobasher, R. Cooley, J. Srivastava. Automatic Personalization Based on Web
Usage Mining
[15] M. Spiliopoulou. Web Usage Mining for Web Site Evaluation. Communications
of the ACM 43 (8) (2000) 127-134
[16] G. Stumme, B. Berendt. Usage Mining for and on the Semantic Web (2002)
[17] G. Stumme, A. Hotho, B. Berendt. Semantic Web Mining - State of the Art
and Future Directions. Transactions on Data and Knowledge Engineering (TKDE)
26
(submitted) (2006)
[18] University of Arizona, Artifical Intelligence Lab. The Arizona Noun Phraser. http:
//ai.arizona.edu/research/multilingual/az.htm (12/2007)
27

Documentos relacionados