Ue6 Web Mining

Transcrição

Ue6 Web Mining

Übungsarbeit
Information Search and Retrieval
Technische Universität Graz
WS 2007
Web Mining
Martin Daum
(Technische Universität Graz, Österreich
[email protected])
Philipp Melab
[email protected])
Karl Heinz Struggl
[email protected])
Betreuer
Dipl.-Ing. Dr.techn. Christian GÜTL
Institute for Information Systems and Computer Media (IICM), Austria
[email protected] and [email protected]
Copyright (C) 2007 [Martin Daum, Philipp Melab, Karl Heinz Struggl]. Dieses
Werk kann durch jedermann gemäß den Bestimmungen der Lizenz für Freie Inhalte genutzt werden. Die Lizenzbedingungen können unter http://www.uvm.
nrw.de/opencontent abgerufen oder bei der Geschäftsstelle des Kompetenznetzwerkes Universitätsverbund MultiMedia NRW, Universitätsstraße 11, D58097 Hagen, schriftlich angefordert werden.
1
Zusammenfassung Das Internet ist die gewaltigste Informationsquelle der Neuzeit.
Seine Daten sind jedoch auf unterschiedlichste Weise strukturiert oder folgen überhaupt keiner Struktur. Es existieren vielfältige Ansätze, diesem Problem zu begegnen,
um damit das Internet als Nährboden für Erkenntnisse urbar zu machen. Einer jener
Ansätze wird in der Wissenschaft unter dem Begriff Web Mining zusammengefasst. Er
steht für die Anwendung von Data Mining auf verschiedene Bestandteile des Webs. Die
vorliegende Arbeit wird zunächst bei der geschichtlichen Entwicklung und der Begriffsbildung von Web Mining und seinen Teilbereichen ansetzen. Es wird der Begriff des
Web Mining Prozesses eingeführt und ein Blick auf das Semantic Web Mining gerichtet werden. Anschließend werden zwei benutzerorientierte Forschungsansätze aus dem
Umfeld des Web Mining dargestellt und der Anwendungsfall eines kollaborativen Web
Mining Systems besprochen. Ein Ausblick auf die mögliche zukünftige Entwicklung
dieses Themenkomplexes schließt diese Arbeit ab.
Abstract The Internet is the most enormous source of information of today. Its data,
however, is stored in many different ways and often not structured at all. There are
manifold approaches trying to counteract this problem and to reclaim the internet as
fertile soil for knowledge. One of these approaches, applying Data Mining to several
aspects of the Web, is scientifically referred to as Web Mining. The work at hand will
open wih a short historical and conceptual overview on the subject of Web Mining.
The notion of the Web Mining Process will then be introduced, followed by a view to
Semantic Web Mining. Subsequently, the work will present two user-oriented research
areas in the context of Web Mining. The last section of this paper will then discuss
and review a collaborative Web Mining system as an example of a particular case of
appliction. Final considerations and a prospect for possible future development will
close this work.
Key Words: Semantic Web, Data Mining, Web Mining, Usage Mining, mining
Category: H.3.1, H.3.3, H.3.5
2
Inhaltsverzeichnis
1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Was ist Web Mining . . . . . . . . . . .
2.1 Data Mining . . . . . . . . . . . . . .
2.2 Web Mining . . . . . . . . . . . . . .
2.2.1 Web Structure Mining . . . . . .
2.2.2 Web Content Mining . . . . . . .
2.2.3 Web Usage Mining . . . . . . . .
2.3 Der Web Mining Prozess . . . . . . .
2.4 Semantic Web Mining . . . . . . . . .
2.4.1 Ontology Learning . . . . . . . .
2.4.2 Mapping and Merging Ontologies
2.4.3 Instance Learning . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
6
7
7
8
8
9
10
12
12
12
3 Aktuelle Forschungsbereiche . . . . . . . . . . . . . . . . . .
3.1 Web Usage Mining zur Evaluierung von Webseiten . . . . .
3.1.1 Datenerfassung und Vorverarbeitung . . . . . . . . . .
3.1.2 Analyse und Auswerung . . . . . . . . . . . . . . . . .
3.1.3 Umsetzung und Auswirkungen . . . . . . . . . . . . . .
3.2 Web Mining als Mittel zur automatisierten Personalisierung
3.2.1 Datenerfassung und Vorverarbeitung . . . . . . . . . .
3.2.2 Analyse und Auswertung . . . . . . . . . . . . . . . . .
3.2.3 Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
14
15
15
15
15
16
16
4 Anwendung: Kollaboratives Web Mining System . . .
4.1 Vorbetrachtungen . . . . . . . . . . . . . . . . . . . . .
4.1.1 Kollaboratives Information Retrieval und Filtering
4.1.2 Software Agents im Web . . . . . . . . . . . . . . .
4.2 Zwei Hauptprobleme konventioneller Suchsysteme . . .
4.2.1 Problem 1: Unzureichende Post-Retrieval Analyse .
4.2.2 Problem 2: Keine kollaborativen Suchmechanismen
4.3 Die Collaborative Spider“ . . . . . . . . . . . . . . . .
”
4.3.1 User Agent . . . . . . . . . . . . . . . . . . . . . .
4.3.2 Collaborator Agent und Scheduler Agent . . . . . .
4.3.3 Beispielhafter Suchvorgang . . . . . . . . . . . . . .
4.3.4 Evaluierung . . . . . . . . . . . . . . . . . . . . . .
4.3.5 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
17
17
18
18
19
19
19
20
21
21
22
23
5 Fazit und Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Einleitung
Das Internet wurde durch sein enormes Wachstum in den letzten Jahren zur
wichtigsten öffentlich zugänglichen Informationsquelle. Mittlerweile besteht das
Internet laut [12] aus mehreren Milliarden von Webseiten und über 300 Millionen Benutzern weltweit, und hat bereits erheblichen Einfluss auf deren Leben.
So wurde beispielsweise unser Verhalten bei der Informationssuche durch das
Internet stark verändert.
Mussten früher Bibliotheken händisch durchsucht werden, kann dies mittlerweile durch wenige Mausklicks mit jeder gängigen Suchmaschine erledigt werden.
Das Internet hat jedoch nicht nur Vorteile. Durch den hohen Nutzungsgrad und
die ständig wachsende Anzahl an Webseiten, und den darin enthaltenen Informationen, wird es immer schwieriger, relevante Informationen zu finden. Dadurch
ist es für den Benutzer sehr wichtig, automatische Tools zu benutzen, um die
gewünschten Informationen aufzufinden.
Mittlerweile ist das Auffinden der relevanten Informationen im Internet, sowie die Speicherung und Auswertung von Verhaltensmustern der Benutzer, eine
der größten Herausforderungen in der Internet-Forschung.[7]
In [11] werden einige Eigenschaften des Internets aufgezählt, die erklären, warum
Web Mining so ein faszinierender und gleichzeitig herausfordernder Prozess für
die Wissenschaft ist:
– Die Anzahl an verschiedenen Informationen im Internet ist riesig und wächst
ständig weiter. Auch der Umfang der Information ist enorm und unterschiedlich.
– Daten kommen im World Wide Web in den verschiedensten Typen und Formen vor. Sie können beispielsweise in strukturierten Tabellen, semistrukturierten Webseiten, unstrukturierten Texten oder in Multimedia-Files vorkommen.
– Informationen im Internet sind heterogen. Durch die verschiedenen Autoren
von verschiedenen Webseiten, werden ähnliche Informationen oft in komplett
unterschiedlicher Weise dargestellt.
– Der Großteil aller Informationen im Internet sind über Hyperlinks miteinander verlinkt. Innerhalb einer Seite werden Links dazu verwendet, Informationen zu ordnen und zu strukturieren. Links können auch viel über die
Qualität einer Seite aussagen.
Wird eine Seite oft von anderen verlinkt, so nimmt man an dass die Qualität
der Informationen auf dieser Seite sehr hoch ist.
4
– Informationen im Web sind ungenau. Für diese Ungenauigkeit gibt es zwei
Gründe.
Erstens beinhalten Webseiten mehrere Arten von Informationen, wie Navigation, Werbungen sowie den Hauptinhalt. In den meisten Fällen wird nur
eine Art der Information gewünscht sein, welche vom Rest extrahiert werden
muss.
Der zweite Grund ist, dass es keine Qualitätskontrollen für Informationen im
Internet gibt. Dadurch haben viele Informationen wenig Qualität oder sind
schlichtweg falsch.
– Das Internet bietet viele Services an. Webseiten erlauben es den Benutzern
nützliche Operationen auszuführen.
– Das Internet ist dynamisch. Die Informationen ändern sich ständig. Für viele
Applikationen ist es wichtig, auf Änderungen der Information reagieren zu
können.
– Das Internet ist eine virtuelle Gesellschaft. Es sind nicht nur Daten und
Informationen wichtig, sondern auch Interaktion und Kommunikation.
All diese Eigenschaften zeigen Herausforderungen und Möglichkeiten auf, um
Informationen und Wissen aus dem Internet aufzufinden und zu extrahieren.
In den folgenden Kapiteln wird nun näher auf das Thema Web Mining eingegangen. Kapitel 2 widmet sich dabei einer Herleitung und Abgrenzung der
gängigen Begriffe Data Mining bzw. Web Mining, und den Teilbereichen des
Web Mining sowie einer Erläuterung des Web Mining Prozesses.
Anschließend dazu beschäftigt sich Kapitel 3 mit aktuellen Themen der Forschung mit Fokus auf Web Usage Mining. Der darauf folgende Abschnitt 4 stellt
dann in einer gesamtheitlichen Betrachtung eine auf Content Mining und Usage
Mining basierende, kollaborative Suchanwendung vor.
2
Was ist Web Mining
Das Internet bildet eine riesige Datenquelle für Data Mining. Es beinhaltet eine
enorme und dynamische Kollektion von Webseiten, mit einer Vielzahl an Hyperlinks sowie Benutzungsinformationen.[8]
Laut [16] bedeutet Web Mining ganz allgemein die Anwendung von Data Mining Techniken auf Ressourcen aus dem Internet. Diese Techniken werden auf sie
Struktur, die Inhalte und die Benutzung der Ressourcen angewandt. Wie andere
Data Mining Methoden profitiert auch Web Mining von gegebenen Strukturen
von Daten, wie zum Beispiel Datenbanken, kann aber auch auf semistrukturierten und unstrukturierten Text angewandt werden.
5
Das bedeutet, dass Web Mining ein außerordentlich wertvolles Mittel ist, um
Inhalte, die von Menschen gelesen werden können, in maschinenlesbare Inhalte
zu transformieren.
Bevor der Begriff Web Mining nun näher betrachtet wird, wird zum besseren
Verständnis ein kurzer Einblick ins Thema Data Mining gegeben.
2.1
Data Mining
Data Mining wird in [11] auch als knowledge discovery in databases (KDD) bezeichnet und wird allgemein als Prozess zur Auffindung von nützlichem Wissen
und Varhalten aus verschiedenen Datenquellen definiert. Die Muster müssen
richtig, nützlich und verständlich sein.
Data Mining wird in mehreren einflussreichen Gebieten der Forschung angewandt, einige davon sind:[11]
– Datenbanken
– Künstliche Intelligenz
– Statistik
– Information Retrieval
– Visualisierung
– Machine Learning
Bekannte Anwendungen von Data Mining sind: [11]
– supervised learning
– unsupervised lerning
– association rule mining
– sequential pattern mining
Data Mining wird als iterativer Prozess definiert, welcher in folgenden Schritten abläuft: [11]
– Datenerhebung
In dieser Phase werden die Daten ausgewählt, die im Laufe des Prozesses
verarbeitet werden sollen.
6
– Pre-Processing
Da die Rohdaten für Data Mining normalerweise ungeeignet sind, müssen
diese im ersten Schritte erst verarbeitet werden. Dieser Schritt ist wichtig,
um Ungenauigkeiten zu vermeiden.
– Data Mining
In diesem Schritt werden verschiedene Algorithmen auf die bereits verarbeiteten Daten angewandt. Das Ergebnis sind Muster und Wissen.
– Post-Processing
Nicht alle gefundenen Muster sind relevant. In diesem Schritt werden die
nützlichen Muster für die Applikation herausgefiltert. Verschiedene Evaluierungsund Visualisierungsmethoden werden in diesem Schritt verwendet.
2.2
Web Mining
Das traditionelle Data Mining verwendet hauptsächlich strukturierte Daten,
durch das enorme Wachstum des Internet wird jedoch Web Mining immer wichtiger. Web Mining kann laut [11] nicht direkt als eine Anwendung von Data
Mining gesehen werden. Gründe dafür sind die heterogenen und unstrukturierten Daten im Web. Durch diesen Umstand ist auch darauf zu achten, dass die
gefundenen Relationen und Muster mehrfach vorkommen können.[4]
Wie bereits am Anfang dieses Kapitels erwähnt, wird Web Mining auf Struktur, Inhalte und die Benutzung von Web Ressourcen angewandt. Analog zu diesen Anwendungsgebieten wird Web Mining in die drei Teilgebiete Web Structure
Mining, Web Content Mining und Web Usage Mining eingeteilt.
Die Besonderheiten dieser Teilgebiete werden in den folgenden Kapiteln näher
betrachtet.
2.2.1
Web Structure Mining
Laut [13] werden beim Web Structure Mining Informationen direkt aus der
Struktur von Hyperlinks gewonnen, die auch die Struktur des Internets bilden.
Web Structure Mining basiert somit auf der Topologie von Hyperlinks.
Diese Art von Web Mining wird laut [11] bei vielen Suchmaschinen eingesetzt,
um wichtige Webseiten identifizieren zu können. Dabei wird überprüft, welche
und wieviele Links auf eine Seite zeigen.
Anhand dieser Informationen kann dann die Priorität einer Seite errechnet
werden. Google’s PageRank-Algorithmus basiert beispielsweise auf dieser Idee.
Web Structure Mining kann auch verwendet werden, um die Funktion von einzelnen Webseiten herauszufinden. In [1] werden dabei vier Arten von Webseiten
unterschieden:
7
– Headpages
Headpages sind Einstiegsseiten für Web-Auftritte
– Navigationsseiten
Navigationsseiten enthalten viele Links und kaum Informationen
– Contentseiten
Contentseiten enthalten typischerweise viele Informationen, aber wenig Links
– Look-Up-Seiten
Diese Seiten enthalten viele eingehende Links, wenige ausgehende Links und
keinen wichtigen Inhalt
Web Structure Mining unterscheidet sich stark von traditionellem Data Mining,
da dieses hauptsächlich auf Daten in Tabellen oder Datenbanken angewandt
wird, wo es keine Hyperlink-Strukturen gibt.
2.2.2
Web Content Mining
Beim Web Content Mining werden relevante Informationen direkt aus den Inhalten von Webseiten extrahiert. Es muss dabei beachtet werden, dass es sich
nicht unbedingt um Hypertext, sondern auch um Audio, Video oder Metadaten
handeln kann.[13]
Bei den primären Web-Ressourcen handelt es sich jedoch um HTML- oder
XML-Dokumente. Die Semistrukturiertheit dieser Daten kann Web Mining zu
seinem Vorteil benutzen, denn HTML- und XML-Tags geben nicht nur Layoutinformation, sondern auch logische Strukturen an.[1]
Ein gutes Beispiel für Web Content Mining wäre das automatische Kategorisieren von Webseiten in verschiedene Themengruppen oder das Erkennen von
verschiedenen Trends. Dieses Beispiel ist dem traditionellen Data Mining sehr
ähnlich.
Eine andere Anwendung wäre laut [11] das Auslesen von Informationen aus
Kommentaren oder Foren, um Daten über einen Benutzer zu erhalten. Diese
Aufgabe hat mit traditionellem Data Mining nichts zu tun.
2.2.3
Web Usage Mining
Web Usage Mining beschäftigt sich mit Daten, die während der Benutzung der
Webseite, also der Interaktion mit dem Benutzer, erfasst werden. Es handelt
sich dabei also um die Auffindung von sekundären Daten. Diese werden dabei
unter anderem aus Logfiles, Sessions, Cookies, Keyboardeingaben, Mausklicks,
Formulareingaben und Benutzerprofilen gelesen.[13]
Ein wichtiger Anwendungsfall von Web Usage Mining findet sich in [1]. Es
handelt sich dabei um das Erkennen von Zusammenhängen zwischen Seiten, wo
8
eigentlich keine speziellen Strukturen gegeben sind. Als konkretes Beispiel wäre
hier ein Online-Produktkatalog zu nennen, in dem Produkte nur innerhalb von
Kategorien strukturiert sind.
Mit Hilfe von Web Usage Mining ist es nun möglich, semantische Zusammenhänge zwischen Produkten zu finden. Das wäre der Fall, wenn viele Benutzer die ein Produkt A aufrufen, auch die Artikelseite eines anderen Produktes
B ansehen. In vielen E-Commerce Systemen wird diese Technik verwendet, um
Produkte untereinander zu verlinken oder dem Kunden Empfehlungen zu geben,
wie es der E-Commerce-Riese Amazon sehr erfolgreich vorlebt.
Für den Betreiber einer Webseite kann Web Usage Mining auch dazu verwendet werden, um die Usability und die Strukturen einer Seite zu evaluieren.
So kann man herausfinden, über welche Pfade Benutzer Seiten aufrufen. Dabei
ist es wichtig herauszufinden, ob der Pfad gewünscht ist, oder ob die Struktur
der Seite an dieser Stelle falsch ist.
Aus diesem Grund sollte Web Usage Mining immer zusammen mit der Analyse von Inhalt und Struktur stattfinden, um feststellen zu können, ob die gefundenen Ergebnisse auch sinnvoll sind.[10]
2.3
Der Web Mining Prozess
Der Web Mining Prozess besteht grundlegend aus den gleichen Teilschritten wie
der Data Mining Prozess. Die einzelnen Phasen können sich allerdings stark
vom Data Mining Prozess unterscheiden. In der folgenden Auflistung werden die
Schritte genauer betrachtet:
1. Datenerhebung
In diesem Schritt werden die Datenquellen ausgesucht, aus denen die Informationen bezogen werden können. Im Falle von Web Mining kommen hier
Dokumente in Frage, die im World Wide Web verfügbar sind. Dabei muss
es sich nicht automatisch um Webseiten handeln, sondern es kommen auch
Newsletter, Newsgroup-Text oder Multimedia-Dateien in Frage. [10]
2. Pre-Processing
Bevor die Daten für die Zwecke für Information Retrieval genutzt werden
können, müssen sie vorverarbeitet werden. Für Textdokumente werden dazu
meistens die Teilschritte Stoppworte entfernen, Stemming sowie eine spezielle
Behandlung für Nummern, Aufzählungen und Groß- und Kleinschreibungen
angewandt.
Für Webseiten ist es notwendig, zusätzlich HTML-Tags zu entfernen und
den Hauptinhalt zu identifizieren. Dabei ist darauf zu achten, dass HTMLTags nicht blind entfernt werden sollten, da sie auch einiges über die logische
Struktur einer Seite aussagen, wie zum Beispiel Überschriften. [10]
9
Ein weiterer Vorverarbeitungsschritt, auf den beim Web Mining zu achten
ist, ist das Erkennen von Duplikaten. Dieses Problem kommt beim traditionellen Data Mining nicht vor. In [11] werden mehrere Arten von Kopien
unterschieden. Von einem Duplikat spricht man, wenn eine Seite kopiert wird,
handelt es sich um den ganzen Webauftritt so spricht man von spiegeln.
Diese Seiten werden oft absichtlich benutzt, um die Performance von Seiten
zu erhöhen (zum Beispiel für große Downloads). Einige kopierte Seiten sind
auch Plagiate. Eine einfache Möglichkeit Duplikate zu finden, ist einen HashWert von der Seite zu errechnen und diesen zu vergleichen.
3. Web Mining
In dieser Phase werden Machine Learning und Data Mining Techniken angewandt. Das heißt, verschiedene Algorithmen werden auf die bereits vorverarbeiteten Daten angewandt. Da das Internet ein interaktives Medium ist,
spielt auch der Mensch eine bedeutende Rolle beim Auffinden von Wissen
oder Mustern.[10]
4. Post-Processing
In dieser Phase werden die Daten für die Ausgabe aufbereitet. Mögliche
Teilschritte sind unter anderem Sortieren und Formatierung.
Der Web Mining Prozess ist zur besseren Veranschaulichung in Abbildung 1
dargestellt.
Abbildung 1: Der Web Mining Prozess
2.4
Semantic Web Mining
Laut [3] werden bei Semantic Web Mining die beiden wichtigen Forschungsgebiete Semantic Web und Web Mining miteinander kombiniert. Die Idee hinter
Semantic Web Mining ist es, die Ergebnisse des Web Minings mit Hilfe der semantischen Strukturen des Webs zu verbessern. Web Mining kann auch helfen
um das Semantic Web zu bauen.
Das Semantic Web geht auf eine Vision von Tim Berners-Lee zurück.[17] Ein
Großteil der Daten ist nur vom Menschen selbst interpretierbar, nicht jedoch
10
von Maschinen. Berners-Lees Idee war es nun, die Inhalte durch Information zu
ergänzen, die von Maschinen verarbeitbar sind und die Bedeutung der Inhalte
beschreiben.
Um ein semantisches Netz zu bauen, muss eine Struktur definiert und diese mit Leben gefüllt werden. Die folgenden Punkte zeigen die Schritte um ein
Semantic Web aufzubauen: [17]
1. Eine Syntax für Maschinen-lesbare Statements zur Verfügung zu stellen.
2. Eine allgemeines Vokabular herzustellen.
3. Eine Übereinstimmung mit einer logischen Sprache zu finden.
4. Die Anwendung der Sprache um Schlüsse abzuleiten.
Berners-Lee schlug vor, das semantische Web in verschiedenen Schichten,
auch Layer genannt, aufzubauen. Diese Struktur reflektiert die zuvor genannten
Schritte. Das Modell ist in Abbildung 2 ersichtlich.
Abbildung 2: Struktur des Semantic Web, aus [17]
Damit die Maschine anhand dieser zusätzlichen Daten selbstständig semantische Zusammenhänge herstellen kann, müssen diese jedoch erst zur Verfügung
gestellt werden.
Eine vollständige Automatisierung dieser Aufgabe ist nicht möglich, und
würde gleichzeitig alle Anstrengungen in diesem Gebiet überflüssig machen.
Wäre die Technologie bereits vorhanden, solche Schlüsse völlig automatisch zu
ziehen, so wären auch keine Metadaten zu einzelnen Dokumenten notwendig.
Computer könnten dann auch direkt von den Quelldokumenten ausgehen und
sie verarbeiten.
11
Der Mensch, mit seinem Erfahrungsschatz und Hintergrundwissen, ist und bleibt
also unabdingbar. Es wird jedoch versucht, seine Arbeit möglichst einfach und
effizient zu gestalten.
[1] beschreibt die drei grundlegenden, allesamt semiautomatischen Techniken
um dies zu bewerkstelligen.
2.4.1
Ontology Learning
Ontology Learning vereint verschiedene Techniken um unstrukturierte, semistrukturierte und vollständig strukturierte Daten zu verarbeiten und relevante Informationen zu extrahieren.
Die Ergebnisse werden meist noch von Menschenhand kontrolliert, was aber
zumindest weniger Aufwand bedeutet als das ganze Dokument selbst zu lesen
und die Metadaten zu erstellen.[1]
2.4.2
Mapping and Merging Ontologies
Oft werden Ontologien zu den selben oder ähnlichen Themen von verschiedenen Autoren erstellt, die sich dabei leicht überschneiden können. Redundanz
stellt für die maschinelle Verarbeitung jedoch ein erhebliches Problem dar, da
sie ein Programm meist in eine zwiespältige, nicht selbstständig entscheidbare,
Situation bringt.
Es liegt also wieder am Menschen, diese Metainformationen in Einklang zu
bringen. Da rein manuelles Vorgehen wiederum zeitaufwändig und fehleranfällig
ist, gilt es Hilfestellung zu bieten.
Anhand von semantischen und syntaktischen Techniken wird versucht, das
menschliche Vorgehen in so einem Fall nachzustellen, und so den simplen, repetetiven Teil dieser Arbeit zu übernehmen. Eine Endkontrolle ist jedoch nach wie
vor unabdingbar.[1]
2.4.3
Instance Learning
Auch wenn von nun an beim Erstellen von Dokumenten vom Autor immer die
relevanten Informationen strukturiert mitgeliefert werden würden, bliebe immer
noch das Problem der gewaltigen Menge an Schriftstücken, die bereits ohne diese
im World Wide Web umherschwirren.
Hier kommt Information Extraction als Teilbereich des Human Language
Processing ins Spiel. Darunter versteht man einige verschiedene Methoden, mit
denen automatisch oder semiautomatisch Kerninformationen extrahiert und zur
Verfügung gestellt werden.[1]
12
3
Aktuelle Forschungsbereiche
Es wurden zwei verschiedene Richtungen identifiziert, die die Hauptmotivation
für die Forschung im Bereich Web Mining darstellen. Auf der einen Seite steht
die Optimierung und Kontrolle der eigenen Anwendung. Man betrachtet die
Menge aller Benutzer und versucht das eigene Produkt besser, zugänglicher und
performanter zu gestalten.
Diese Vorgehensweise stellt damit die analytischere und passivere dar. Verbesserung und Kontrolle des eigenen Angebots bilden einen iterativen Prozess.
Die andere Bewegung geht dahin, dass das System dem Besucher entgegen
kommt, sein Verhalten analysiert und versucht dem einzelnen Nutzer einen auf
ihn zugeschnittenen, besseren Service zu bieten.
Da es im Idealfall sehr viele Benutzer gibt muss die Anpassung natürlich
automatisch erfolgen, was eine höhere Herausforderung darstellt.
3.1
Web Usage Mining zur Evaluierung von Webseiten
Wenn Unternehmen oder Organisationen eine Website betreiben und warten,
nehmen sie diesen Aufwand nicht ohne jeden Zweck in Kauf. Sei es nun nur zur
Imagepflege, für den Kundenkontakt oder zur direkten Geschäftsdurchführung,
wie beispielsweise in einem Webshop, so verfolgt die Internetpräsenz immer ein
gewisses Ziel.
Ein Ziel, dessen Einhaltung kontrolliert und bewertet werden muss, um einzuschätzen ob sich die Investition bezahlt macht, oder wo und wie man Optimierungen vornehmen kann. In [15] wird der Evaluierungsprozess in acht Schritte
unterteilt:
1. Formulierung der Fragestellung
2. Definition von Evaluationsregeln
3. Erfassung des Datenbestandes
4. Aufbereitung des Datenbestandes
5. Datenanalyse
6. Auswertung der Muster
7. Umsetzung der Resultate in die Praxis
8. Analyse der Auswirkungen
13
Für keinen dieser Punkte gibt es ein Rezept“, nach dem vorgegangen werden
”
kann. Jeder Schritt muss genau an die Gegenheiten und Zielsetzungen des jeweiligen Unternehmens angepasst werden, damit mit der gewonnenen Information
eine relevante Aussage getroffen werden kann.
3.1.1
Datenerfassung und Vorverarbeitung
Die Problematik bei der Erfassung von Daten über die Nutzung von Webseiten
entsteht aus der zugrundeliegenden Technologie. Das Hypertext Transfer Protocol
liefert keinerlei verlässliche Daten über den Besucher, die über seine IP-Adresse
hinaus gehen. Damit wäre die kleinste Dateneinheit definiert - der Aufruf.
Die Nächstgrößere ist die Sitzung. Eine definitive Aggregation von Aufrufen
zu einer Sitzung erweist sich allerdings schon als äußerst problematisch.
So wie ein Benutzer durchaus mehrere Adressen haben kann, so kann es auch vorkommen, dass mehrere dieselbe verwenden, wie es zum Beispiel innerhalb eines
Netzwerks hinter einem Router der Fall ist. Auch auf zusätzliche Header-Daten,
die vom Browser mitgeliefert werden, wie Sprache, Ort, Zeit, Betriebssystem,
Browserversion und ähnliches, kann man sich nicht verlassen, da sie problemlos
vom Benutzer modifizert oder ganz unterbunden werden können.
Diese Umstände verwässern den Datenbestand stark und machen eine exakte
Analyse praktisch unmöglich.
Grundsätzlich gibt es laut [15] zwei Varianten mit dieser Problematik umzugehen.
Die proaktive Methode setzt Cookies oder ähnliche externe Technologien
ein um Benutzer eindeutig zu identifizieren. Zwar ist dies in den meisten Fällen
möglich, es kann jedoch auch vom Benutzer einfach unterbunden werden. Ausserdem ist diese Vorgehensweise fragwürdig im Bezug auf Rechtslage und Privatsphäre.
Die reaktive Taktik nimmt die Schwächen der Datenerfassung hin und versucht sie im Zuge der Vorverarbeitung auf statistischem Wege auszugleichen.
Hierbei wird die Masse an Daten zu einer Tendenz zusammengefasst die Aufschluss über das allgemeine Benutzerverhalten geben kann. Je nach Problemstellung können dabei jedoch wichtige Informationen im statistischen Rauschen
untergehen.
Letztendlich entscheidet die Zielsetzung der Evaluierung, welche Methoden man
einsetzt. Geht es nur darum die Serverauslastung zu analysieren, oder herauszufinden, an welchen Produkten die Allgemeinheit am meisten interessiert ist,
reicht eine statistische Auswertung der Zugriffe völlig.
14
Um Muster darin zu erkennen sind natürlich die Zusammenhänge zwischen
den Aufrufen wichtig, auf die so nicht eingegangen werden kann.
3.1.2
Analyse und Auswerung
Sind die Daten aufbereitet und so vollständig wie eben möglich, muss begonnen
werden sie zu analysieren und Schlüsse daraus zu ziehen. Mit dem bloßen Auge
ist die erforderliche Datenmenge aber kaum überblickbar, weswegen sich eine
strukturierte Vorgehensweise empfiehlt.
Es gilt Muster zu definieren, die man dann im Strom aus Zugriffen und Sitzungen sucht und quantifiziert. Diese Muster werden meist in einem interdisziplinären Prozess mit der Geschäftsleitung, Webdesignexperten und Psychologen
erarbeitet, da sie sehr zielgerichtet definiert werden müssen.
Ein einfaches Beispiel so eines Verhaltensmusters wäre, wie viel Benutzer erst
eine Werbeeinschaltung gesehen haben und sich daraufhin für das entsprechende Produkt interessiert haben. Daraus lässt sich dann direkt die Effizienz der
Werbeeinschaltung ableiten.
3.1.3
Umsetzung und Auswirkungen
Aus den Ergebnissen der Analyse kann die Geschäftsleitung Schlüsse ziehen und
entsprechende Maßnahmen veranlassen. Hierbei unterscheiden sich prinzipiell
zwei Fälle. Entweder die Datenerhebung war Teil einer einmaligen Entscheidungsfindung, wie beispielsweise welches Produkt stärker beworben werden sollte.
Die andere Variante ist ein iterativer Prozess, der anhand der gewonnenen
Daten laufend kontrolliert und angepasst wird. So kann in kontrollierter Umgebung mit verschiedenen Maßnahmen experimentiert werden.[15]
3.2
Web Mining als Mittel zur automatisierten Personalisierung
Ein weiteres Forschungsgebiet im Bereich des Web Mining ist die automatische
Personalisierung von Inhalten auf Basis des Surfverhaltens des Nutzers.
Ziel ist es, den Benutzer anhand seiner Aktionen zu erkennen, einzuordnen,
automatisiert Konsequenzen zu ziehen und entsprechende Funktionalitäten oder
Zusatzinformationen anzubieten.
Um dies zu bewerkstelligen ist natürlich einiges an Information im Vorhinein
notwendig.
3.2.1
Datenerfassung und Vorverarbeitung
Den grundlegenden Datenbestand stellen wiederum die Protokolldateien des jeweiligen Webservers, und wie auch schon bei der Evaluierung von Webseiten
15
(siehe Abschitt 3.1) stellt die Zustandslosigkeit von HTTP das Kernproblem
dar.
Einzelne Zugriffe müssen wieder Benutzern zugeordnet werden, was u.a. von
Browsercaches und Proxyservern erheblich erschwert wird.
Als Begriff für eine abgeschlossene Aktion eines Benutzers führt [14] den Begriff der Transaction ein. Sie stellt die Reinform der Intention des Anwenders
dar, bereinigt von eventuellen Zusatzzugriffen für beispielsweise Bilder oder Stylesheets und Hilfszugriffen wie beispielsweise einer Navigationsseite.
3.2.2
Analyse und Auswertung
Mit den aus der Vorverarbeitung gewonnenen Daten kann auf verschiedene Weise umgegangen werden.
Die einfachste Methode ist es, URLs zu finden, die auffällig oft gemeinsam vorkommen. Damit entstehen Gruppen von Zugriffen die sich miteinander assoziieren lassen. Aus diesen Itemsets lassen sich wiederum Assoziationsregeln ableiten,
die dazu verwendet werden um Empfehlungen darüber abzugeben, in welchem
Bereich sich der User bewegt.
Eine andere Variante verwendet einen kollaborativen Ansatz, das Transaction
Clustering, indem sie die Transaktionen verschiedener verwandter Benutzerprofile vergleicht und daraus Schlüsse zieht. Die Transaktionen werden in einen
Vektorraum aus Adressen eingeordnet und anhand ihrer Distanz miteinander in
Verbindung gebracht. Ob dabei Mehrfachvorkommen einer URL miteinbezogen
werden sollten, oder rein binär gewichtet werden muss, ist umstritten.
Eine weitere von [14] genannte Methode ist das sogenannte Usage Clustering.
Im Gegensatz zur vorherigen Variante werden hier nicht die Transaktionen
sondern die URLs selbst herangezogen und einander zugeordnet. Es ist sozusagen
die Umkehrung des Transaction Clustering. Nun werden nicht die Transaktionen
in einen Raum aus URLs eingeordnet um ihre Distanz zu messen, sondern sie
spannen den Raum auf, in dem wiederum die einzelnen Adressen nach ihrer
Zugehörigkeit positioniert werden.
So werden auch Zugriffe einander zugeordnet, deren Transaktionen eigentlich
weit voneinander entfernt sind, was wiederum gemeinsame Intentionen unterschiedlicher Benutzer abdeckt.
3.2.3
Umsetzung
Die so gewonnenen Daten können auf verschiedene Weise genutzt werden. [14]
erwähnt die Möglichkeit, dem Benutzer weitere Links direkt anzubieten. Anhand
16
seiner Position im Raum und seiner Distanz zu verschiedenen Aktionen kann
relativ genau geraten werden, woran er interessiert sein könnte.
[6] geht an diesem Punkt noch einen Schritt weiter. Im Rahmen eines Versuches wurden die Aktivitäten von fünf Personen einen Monat lang protokolliert.
Mit diesen etwa 15.000 Zugriffen wurde ein propabilistisches Modell trainiert,
anhand dessen mit überraschender Genauigkeit vorrausgesagt werden kann was
der Nutzer tun wird.
Mit diesem Wissen kann das System dem Nutzer erstens ein besseres Surfverhalten bieten, und zweitens sich selbst optimieren. Im Rahmen dieses Versuches wurden die Daten jedoch clientseitig gesammelt, was eine hunderprozentige
Zuordnung ermöglicht. Dieser Umstand verhindert wohl eine grossflächige Anwendung der Technologie.
4
Anwendung: Kollaboratives Web Mining System
Dieses Kapitel basiert, sofern nicht anders angemerkt, auf [5]. Es beschäftigt
sich mit dem darin präsentierten Gedanken, dass eine kollaborative Herangehensweise an Such- und Recherchearbeit dazu dienen kann, weitere, ggf. ähnliche
Suchvorgänge zu beschleunigen und deren Qualität zu erhöhen.
Auf Basis der Konservierung und Bereitstellung bereits erfolgter Suchvorgängen
sowie deren Ergebnisse für alle Benutzer des Systems sollen die für Suchtätigkeiten verwendete Zeit verringert und der Nutzen erhöht werden.
Es wird insbesondere untersucht, welche Menge an relevanten kollaborativen Daten benötigt wird, um den entstehenden Overhead für das Lesen und Verstehen
(browsing) der verwendeten Daten zu kompensieren, und damit darüberhinaus
einen positiven Effekt zu erzielen.
Weiters wird untersucht, welche zusätzlichen Arten von Kollaborationen im
Web Mining auf Userseite identifiziert werden können, und wie sich diese in ein
kollaboratives Konzept einfügen lassen.
4.1
4.1.1
Vorbetrachtungen
Kollaboratives Information Retrieval und Filtering
Kollaboratives Information Retrieval bedeutet das sharing“ von Suchergebnis”
sen, oder besser, vollständigen Suchvorgängen unter sämtlichen Benutzern des
Systems.
Auf Basis der recherchierten Gegenstände kann auf diese Weise eine Verbesserung des Suchperformance (hinsichtlich Relevanz und Ranking der Ergebnisse)
erreicht werden.
17
Kollaboratives Filtering meint das gemeinschaftliche Filtern von Informationen
(u.a. Relevance-Feedback) auf Basis gemeinsamer Interessen oder ähnlichen Verhaltensweisen. Bekannte Vertreter hierfür sind beispielsweise die Empfehlungssysteme von Amazon oder last.fm.
Für das in der besprochenen Arbeit präsentierte System spielt vor allem die
Methode des kollaborativen Information Retrievals eine wesentliche Rolle.
4.1.2
Software Agents im Web
Software Agents sind selbstständig und automatisiert agierende Softwaresysteme, die beispielsweise zur Indizierung von oder Suche nach Webseiten eingesetzt
werden.[10]
So erledigen zum Beispiel die sogenannten Spiders und Bots die Indizierung von
Webseiten für Suchmaschinen auf Basis bestimmter Kriterien und Heuristiken.
Client-orientierte System hingegen suchen - für den Benutzer - in regelmäßigen Intervallen nach Seiten, die den vom User angegebenen Kriterien entsprechen. Solche Kriterien können beispielsweise Suchbegriffe oder auch Beispieldatensätze wie relevante, bereits gefundene Webseiten sein.
Eine Spezialform von Agentensystemen stellen so genannte Multi-Agent Systeme dar. Diese kombinieren zur Informationsgewinnung, wie der Name bereits
vermuten lässt, mehrere verschiedene Suchagenten.
Charakteristisch dabei ist, dass jeder der verwendeten Agenten ein unvollständiges Set an Informationen hält. Über komplexe Interaktionen in dem System erfolgt eine gesteuerte Kooperation der Agenten zum Zweck optimierter
Informationsgewinnung bei minimiertem Informationsoverhead.
Üblicherweise arbeiten die verschiedenen Agenten außerdem dezentralisiert, d.h.
verteilt, und kommunizieren über definierte Protokolle, den sogenannten Agent
Communication Languages (ACLs). Diese unterstützen zumeist spezielle Abfrageprotokolle, die zum Informationsaustausch dienen.
4.2
Zwei Hauptprobleme konventioneller Suchsysteme
Auf Basis der bereits angestellten Überlegungen lassen sich folgende zwei große
Probleme der konventionellen Suchsysteme im Bereich des Web Searching und
Web Mining identifizieren.
18
4.2.1
Problem 1: Unzureichende Post-Retrieval Analyse
Obwohl sich bereits in verschiedenen praktischen Umgebungen gezeigt hat, wie
effektiv eine umfangreiche Analyse des Suchvorganges (inklusive der damit verbundenen Entitäten an Daten) sein kann, gibt es noch wenige Systeme, die mit
diesem Mechanismus arbeiten.
Der erzielbare Nutzen für den User in Form effektiverer Informationsgewinnung ist für das jeweilige System jedoch mit einem gewissen Aufwand an Verarbeitungsleistung verbunden. Eine Tatsache, die speziell bei Echtzeit-Analyse
wesentliche Anforderungen an die technische Umsetzung (sowohl an die softwareseitig eingesetzten Heuristiken, als auch an die Hardware an sich) stellt.
Hierbei lässt sich der nachvollziehbare Trend feststellen, derartige Analysen
nicht mehr auf Serverseite durchzuführen, sondern sie auf die Clientmaschine
auszulagern. Es bleibt dabei jedoch abzuwarten, inwieweit diese Strategie aufgrund ihres sehr verteilten Ansatzes die Umsetzung von Lösungsvorschlägen für
das zweite große Problem konventioneller Websuchsysteme erschwert.
4.2.2
Problem 2: Keine kollaborativen Suchmechanismen
Die Grundidee hierbei ist, dass für eine erfolgreiche Such-Sitzung weit mehr an
Zeit und Überlegungen aufgewendet wird, als lediglich die initiale Suchphrase
zu formulieren.
Das Speichern von Suchvorgängen und das Teilen dieser innerhalb der gesamten Benutzergruppe kann diesen Aufwand verringern. Lässt das verwendete
Suchsystem diese Möglichkeit außer Acht, gehen mit dem Abschluss der zugrundeliegenden Recherche wichtige Informationen verloren. Die Konsequenz daraus
ist, dass jeder Benutzer bei der Suche nicht nur auf sich alleine gestellt ist, sondern auch immer wieder von Vorne“ beginnen muss.
”
Das Ziel der betrachteten Arbeit war es, diese Probleme im Rahmen der Entwicklung eines Collaborative Spider“ genannten Suchsystems zu lösen.
”
Nachfolgend wird der konzeptionelle Rahmen beschrieben, in welchem das
entwickelte System agieren soll. Weiters wird die Architektur des Systems hinsichtlich seiner Schwerpunkte erläutert.
4.3
Die Collaborative Spider“
”
Die Collaborative Spider ist ein kollaboratives System für Information Retrieval
und -Mining im Web. Es führt umfangreiche Post-Retrieval Analysen durch,
speichert deren Ergebnisse und stellt sie sämtlichen Nutzern zur Verfügung.
Das System basiert auf einem Multi-Agenten-Ansatz (siehe Absatz 4.1.2),
dessen Architektur sich wie in Abbildung 3 dargestellt zusammensetzt.
Das Diagramm zeigt, wie die drei Hauptteile des Systems organisiert sind.
19
Abbildung 3: Architektur der Collaborative Spider, aus [5]
4.3.1
User Agent
Jeder im System agierender User ist dabei einem eigenen, personalisierten User
Agent zugeordnet, der Daten über die Interaktionen des Users mit dem System
aufzeichnet. Diese Daten sind:
– das generelle Profil des Benutzers (User Profiles), d.h. Metainformationen
wie Name, Alter, aber auch Daten, welche die Verwaltung des Benutzers
ermöglichen, z.b. Zugehörigkeit zu Gruppen
– bereits getätigte Suchaktivitäten (Search Sessions), d.h. gesammelte Suchsessions, von der initialen Suchphrase bis zum bewerteten Ergebnis
– Aufgaben, die der User seinem Agent aufträgt (Monitor Tasks), z.b. bestimmte Seiten in regelmäßigen Intervallen nach definierten Themen durchsuchen,
und die Ergebnisse für einen späteren Abruf durch den User zu speichern
Die Suchfunktionalität des User Agents ist dabei systemintern in Form einer
Spider umgesetzt, deren Verhalten (z.b. Suchmethode Breadth-First oder BestFirst) eingeschränkt vom Benutzer konfigurierbar ist.
Die Ergebnisse der Suche werden anschließend auf den Client-Rechner geladen und nach einer Post-Retrieval Analyse (durch den Arizona Noun Phraser,
AZNP[18]) ggf. über eine Self-Organizing Map (SOM[9]) visualisiert.
20
4.3.2
Collaborator Agent und Scheduler Agent
Die bereits erwähnte Gruppenzugehörigkeit ist hier der Ausgangspunkt für den
kollaborativen Ansatz. So ist es im System vorgesehen, Benutzer bestimmten
organisatorisch oder thematisch abgegrenzten Gruppen zuzuordnern.
Für jede dieser Gruppen sind in weiterer Folge eigene Collaborator Agents
und Scheduler Agents vorgesehen, die den kollaborativen Austausch zwischen
den Gruppen ermöglichen.
Der Collaborator Agent ist dabei zuständig für die gemeinschaftliche Verwaltung der User Profiles und der Search Sessions. Er ist außerdem imstande,
Zusatzinformationen zu Datenpunkten (z.b. Webseiten, Such-Sessions) zu speichern, die von Usern über einen Tagging-Mechanismus in das System eingebracht
werden. Diese Daten stehen anschließend sämtlichen anderen Benutzern ebenfalls zur Verfügung.
Der Scheduler Agent ist hingegen dafür zuständig, die Monitoring Tasks der
einzelnen User zu ordinieren und zu koordinieren. Hierbei werden seitens des Systems auch Heuristiken zum Load-Balancing der abgefragten Server zum Einsatz
gebracht.
Das Ergebnis des Scheduler Agents sind, analog zum User-Agent, wiederum
Such-Sessions, die vollständig an die jeweiligen User Agents und Collaborator
Agents weitergegeben werden.
Aus dieser Darstellung lässt sich in weiterer Folge ableiten, dass User Agents
und Scheduler Agents gleichermaßen Zugriff auf die Datenquelle (im vorliegenden Fall ist dies das Internet) benötigen, während der Collaborative Agent ausschließlich mit den anderen Agents innerhalb des Systems kommuniziert.
Die Kernfunktion des Collaborator Agents ist es, ein Recommender-System
(Empfehlungssystem) zur Verfügung zu stellen, dass Usern auf Basis ihrer Suchaktivitäten, Gruppenzugehörigkeiten und anderen verfügbaren Daten1 gewisse
Such-Vorgänge bzw. deren Ergebnisse empfiehlt.
4.3.3
Beispielhafter Suchvorgang
Um das System nutzen zu können, ist eine Registrierung und Anmeldung durch
einen User Agent notwendig. Dabei wird dem Benutzer bereits mindestens eine
der vorgegebenen areas of interest zugeordnet.
Nach der Aufnahme des restlichen Benutzerprofils stehen bereits sämtliche
Suchfunktionen zur Verfügung. Es ist möglich, verschiedene Recherchen (identifiziert durch einen session name) anzulegen und (wahlweise auch für andere) zu
speichern.
1
Die in der Arbeit besprochene Version zieht für das Empfehlungssystem ausschließlich die thematischen Zugehörigkeiten der Benutzer in Betracht.
21
Jede dieser Sessions kann verschiedene areas of interest behandeln. Den Startpunkt für die Recherche bildet die Angabe von Ausgangs-Webseiten (als URL)
und Suchbegriffen (query terms).
Die Suchergebnisse werden hierarchisch strukturiert und dynamisch in der Programmoberfläche angezeigt. Beim Aktivieren einer gefundenen Seite erhält der
Benutzer eine Darstellung der in dieser Seite eingebetteten Hyperlinks.
Der Benutzer schließt den Suchvorgang (vorläufig) mit der next-Taste ab.
Dadurch wird der Noun Phraser aktiviert. Dessen Ergebnis ist eine Liste der
häufigsten relevanten Nomen aus den Ergebnisseiten. Die Liste enthält Angaben
über die term frequency in den einzelnen Dokumenten, sowie Links zu diesen
Dokumenten.
Zur weiteren Analyse der Suchergebnisse stehen dem Benutzer Self-Organizing
Maps zur Verfügung. Diese stellen die gefundenen Seiten in einer zweidimensionalen Themenlandschaft dar.[9]
Der Zugang zu kollaborativ gesammelten Daten erfolgt über das Knowledge
Dashboard. In diesem Fenster werden sämtliche freigegebenen Suchvorgänge angezeigt, die den aktuellen areas of interest entsprechen.
Der Benutzer hat die Möglichkeit, seiner eigenen Suchsession ausgewählte Start-Seiten und Suchbegriffe hinzuzufügen, oder bereits gespeicherte Suchvorgänge vollständig zu laden, inklusive der gegebenen Feedbacks und gefundenen Suchergebnisse.
Eine abgeschlossene Such-Session kann anschließend vollständig gespeichert und
mit anderen Usern geteilt werden. Dazu sendet der jeweilige User Agent die
Binärdatei mit den Daten des Suchvorganges an den Collaborator Agent, der
die Metadaten zur Suche an interessierte User Agents anbietet.
Die Suche über Monitor Tasks verläuft ähnlich. Hier werden bestimmte WebSeiten angegeben, welche der Scheduler Agent über verschiedene Spider in regelmäßigen Abständen nach bestimmten Informationen durchsucht. Die Ergebnisse werden anschließend wieder über den Collaborator Agent in Form von
Metadaten an die User Agents weitergegeben.
4.3.4
Evaluierung
Zweck der Evaluierung war es, den Nutzen des kollaborativen Systemansatzes
und der Post-Retrieval Analysen festzustellen, sowie festzuhalten, inwiefern die
Menge der verfügbaren Daten Auswirkungen auf die Performance und Suchzeiten hat.
Fünfzig Studenten aus facheinschlägigen Studien bekamen die Aufgabe, drei von
22
sechs verfügbaren Themen zu recherchieren. Der Scheduler Agent stand dabei
nicht zur Verfügung, d.h. sämtliche Suchvorgänge wurden von den Benutzer direkt vorgenommen.
Als Ausgangspunkt für die Recherche hatten die User die Möglichkeit, eigene
Start-Seiten und Suchbegriffe beliebig mit denen gespeicherter Suchvorgänge
zu kombinieren. Die 50 Testuser wurden in fünf Gruppen (n: 0..4) eingeteilt,
wobei n jeweils auch der Anzahl der zur Recherche zur Verfügung stehenden
gespeicherten (kollaborativ verwalteten) Suchvorgänge entspricht.
Um Referenzwerte für die Performancemessung zu gewinnen wurden die sechs
gestellten Themen jeweils von zwei Experten recherchiert. Als Maßzahlen für die
Performance wurden Precision- und Recall -Werte errechnet. Weiters wurden die
Zeitspannen aufgezeichnet, die von den Testusern zur Recherche aufgewandt
wurden. Ergänzend dazu wurden von den Testusern im Anschluss Fragebögen
ausgefüllt.
4.3.5
Ergebnisse
Die quantitativen Ergebnisse in form von Precision- und Recall-Werten sind in
Abbildung 4 dargestellt. Es ist erkennbar, dass die Ergebnisse in Gruppe 0 (die
ohne kollaborative Daten getestet wurde) über denen der Gruppe 1 liegen. Der
Recall-Wert von Gruppe 2 ist außerdem noch niedriger als der von Gruppe 0,
erst ab Gruppe 3 lassen sich eindeutig bessere Werte ablesen.
Abbildung 4: Performance der Collaborative Spider, aus [5]
23
Somit wurde die Vermutung bestätigt, dass eine gewisse Menge an kollaborativen Daten notwendig ist, um den Overhead für das Browsen durch diese Daten
zu kompensieren.
Ergänzend ist zu erwähnen, dass sich die Zeitspannen, die für die einzelnen
Aktivitäten innerhalb der Recherche aufgewendet wurden, über alle Gruppen
hinweg sehr vergleichbar verhielten, mit Ausnahme von Gruppe 0, welche keinen
Zugriff auf kollaborative Daten hatte.
Diesbezüglich sei auch festgehalten, dass für die Verwendung der kollaborativen Features verhältnismäßig wenig Zeit aufgewendet wurde (etwa 11% bis 20%
der verfügbaren Zeit), der Nutzen jedoch im Ergebnis durchaus wiedererkennbar
war.
Die Fragestellung, ob die Effizienzsteigerung ab einer gewissen Menge verfügbarer kollaborativer Daten wieder abnimmt, bzw. wo dieser Punkt liegen könnte,
konnte in der Arbeit nicht beantwortet werden.
5
Fazit und Ausblick
All diese Erkenntnisse zeigen auf, dass die Technologie in vielen Bereichen der
Forschung und vor allem der Umsetzung noch in den Kinderschuhen steckt. Es
existieren gewaltige zu verarbeitende Datenmengen, jedoch kein automatisches
System dass verlässlich damit umgehen kann.
Zur richtigen Interpretation und korrekten semantischen Einordnung ist noch
immer das Hintergrundwissen und der Erfahrungsschatz eines Menschen notwendig. Da dieser jedoch nicht geeignet ist, repetetive Aufgaben fehlerfrei und für
derart gewaltige Datenmengen zu erledigen, wird versucht, ihn zu unterstützen.
Daraus ergibt sich der aktuelle Kompromiss, in dem eine möglichst effiziente
Zusammenarbeit zwischen Mensch und Maschine angestrebt wird, in der jeder
das tut was er am besten kann. Vollkommen autonome Programme sind jedoch
nach wie vor Konzepte, deren Realisierung weitere Forschung in diesem Bereich
bedingt.
Zukünftige Entwicklungen werden sich vermutlich darauf konzentrieren, den Humanaufwand immer weiter zu verringern und zu minimieren. Dabei wird versucht, menschliches Entscheidungsverhalten immer besser nachzuahmen, wobei
Methoden aus verschiedensten Bereichen der Informatik, Mathematik und Statistik ihre Anwendung finden.
In Verbindung mit der immer weiter fortschreitenden Forschung im Bereich
der künstlichen Intelligenz wird es vielleicht bald möglich sein, den Automatisierungsgrad semantischer Software so weit zu erhöhen, dass man von Selbstständigkeit sprechen kann.
24
List of Figures
1
2
3
4
Der Web Mining Prozess . . . . . . . . . . . .
Struktur des Semantic Web, aus [17] . . . . .
Architektur der Collaborative Spider, aus [5]
Performance der Collaborative Spider, aus [5]
25
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10
11
20
23
References
[1] B. Berendt, A. Hotho, G. Stumme. Towards Semantic Web Mining. ISWC (2002),
LNCS 2342 (2002) 264-278
[2] B. Berendt, A. Hotho, D. Mladenic, M. van Someren, M. Spiliopoulou, G. Stumme.
A roadmap for Web Mining: From Web to Semantic Web. In [5] (2004) 1-22
[3] B. Berendt, A. Hotho, G. Stumme. Semantic Web Mining and the Representation,
Analysis, and Evolution of Web Space. Institute of Information Systems, Humboldt
University Berlin (2005)
[4] S. Brin. Extracting Patterns and Relations from the World Wide Web
[5] M. Chau, D. Zeng, H. Chen, M. Huang, D. Hendriawan. Design and evaluation
of a multi-agent collaborative Web mining system. Decision Support Systems 35
(2003) 167-183
[6] Z. Chen, F. Lin, H. Liu, Y. Liu, W. Ma, L. Wenyin. User Intention Modeling in
Web Applications Using Data Mining. Internet and Web Information Systems 5
(2002) 181–191. Kluwer Academic Publishers Netherlands 2002
[7] R. Cooley, B. Mobasher, J. Srivastava. Web Mining: Information and Pattern
Discovery on the World Wide Web. ICTAI (1997)
[8] J. Han, K. Chen-Chuan Chang. Data Mining for Web Intelligence. University of
Illinois at Urbana- Champaign (2002)
[9] T. Honkela, S. Kaski, K. Lagus, T. Kohonen. WEBSOM - Self-Organizing Maps
of Document Collections. Helsinki University of Technology, Neural Networks
Research Centre (1997)
[10] R. Kosala, H. Blockeel. Web Mining Research: A Survey. ACM SIGKDD Explorations Newsletter 2 (1) (2000) 1-15
[11] B. Liu. Web Data Mining. Springer-Verlag Berlin Heidelberg (2007)
[12] P. Markellou, I. Mousourouli, S. Spiros, A. Tsakalidis. Using Semantic Web
Mining Technologies for personalized E-Learning Expieriences. University of
Patras, Computer Engineering (2005)
[13] M. Meyer, S. Weingärtner, T. Jahke, O. Lieven. Web Mining und Personalisierung
in Echtzeit. Ludwig-Maximilians-Universität München, Heft 5/2001 (2001)
[14] B. Mobasher, R. Cooley, J. Srivastava. Automatic Personalization Based on Web
Usage Mining
[15] M. Spiliopoulou. Web Usage Mining for Web Site Evaluation. Communications
of the ACM 43 (8) (2000) 127-134
[16] G. Stumme, B. Berendt. Usage Mining for and on the Semantic Web (2002)
[17] G. Stumme, A. Hotho, B. Berendt. Semantic Web Mining - State of the Art
and Future Directions. Transactions on Data and Knowledge Engineering (TKDE)
26
(submitted) (2006)
[18] University of Arizona, Artifical Intelligence Lab. The Arizona Noun Phraser. http:
//ai.arizona.edu/research/multilingual/az.htm (12/2007)
27

Ue6 Web Mining

Transcrição

Documentos relacionados

Web Mining - Universität Hildesheim

Vita - Universität zu Köln

Legacy Projekt - K+S Aktiengesellschaft

Bergbau / Mining Newsletter 2016

P Eingang Freigelände Nord/West Entrance open

Web Data Mining

Ways of increasing the output of bucket chain excavators by using

Pressemitteilung 21.12.2007

Literatur - SÜDWIND

Data Mining - Persönliche Webseiten der Informatik