Von der Clickstream Analyse zur Linkstream

Transcrição

Von der Clickstream Analyse zur Linkstream
Von der Clickstream Analyse zur Linkstream Analyse.
Clickstream Analyse und ihre Anwendung, Evaluierung von Clickstream Analyse Tools,
Entwicklung eines Konzepts einer Linkstream Analyse für derstandard.at
Bakkalaureatsarbeit im Rahmen des Seminars
0648 Seminar aus Informationswirtschaft SE/PI SS 2005
o. Univ. Prof. Dkfm. Dr. Wolfgang H. Janko
Univ.-Ass. Dr. Michael Hahsler
Abteilung für Informationswirtschaft
WU Wien
Barbara Krumay (Matr.-Nr. 8605492)
Studium Wirtschaftsinformatik an der WU-Wien
Betreuer: Dr. Michael Hahsler
-1-
Inhaltsverzeichnis
Inhaltsverzeichnis...................................................................................................................2
Abbildungsverzeichnis ...........................................................................................................4
Vorwort..................................................................................................................................5
Ziel und Motivation der Arbeit ...........................................................................................5
Dank...................................................................................................................................5
Hinweis auf geschlechterspezifische Benennung.................................................................5
1 Zusammenfassung, Stichworte und Kernpunkte für das Management .............................6
1.1
Zusammenfassung...................................................................................................6
1.2
Abstract ..................................................................................................................6
1.3
Stichworte...............................................................................................................6
1.4
Keywords................................................................................................................6
1.5
Kernpunkte für das Management.............................................................................6
2
Einleitung .......................................................................................................................8
3 Grundlagen Web Mining ................................................................................................9
3.1
Definition................................................................................................................9
3.1.1
Web Content Mining .......................................................................................9
3.1.2
Web Structure Mining ...................................................................................10
3.1.3
Web Usage Mining........................................................................................10
4 Phasen im Web Usage Mining ......................................................................................12
4.1
Data Collection .....................................................................................................12
4.1.1
Logfiles .........................................................................................................12
4.2
Use- Identifizerung ...............................................................................................15
4.2.1
Cookies .........................................................................................................15
4.2.2
Registrierung und Login ................................................................................15
4.2.3
1-Pixel-Bilder................................................................................................16
4.3
Identifizierung von Sessions bwz. Transaktionen ..................................................16
4.3.1
Identifizierung von Sessions ..........................................................................16
4.4
Data Mining Methoden im Web Mining................................................................18
4.4.1
Assoziations- und Sequenzanalyse.................................................................18
4.4.2
Segmentierung ..............................................................................................18
4.4.3
Methoden zur Klassifikation und Prognose im Web Mining ..........................18
5
Clickstream Analyse .....................................................................................................20
5.1
Clickstream...........................................................................................................20
5.2
Definition Clickstream Analyse.............................................................................20
5.2.1
Clickstream Analyse - Web Traffic Analyse ..................................................20
5.2.2
Clickstream Analyse - E-Commerce basierte Analyse ...................................20
5.2.3
Data Webhouse Architecture .........................................................................20
5.3
Clickstream Analyse - Unterschiedliche Ansätze...................................................21
5.3.1
Markov Models .............................................................................................21
5.3.2
PACT ............................................................................................................21
5.3.3
Golden Path Analyzer (GPA) ........................................................................22
5.3.4
Clickstream Tree Model ................................................................................22
5.4
Privacy und Datenschutz .......................................................................................22
5.4.1
Privacy Preferences Project - P3P..................................................................23
6
Evaluierung unterschiedlicher Clickstream Analyse Tools ............................................24
-2-
6.1
Webalizer..............................................................................................................24
6.2
Sawmill.................................................................................................................26
6.3
Clicktracks ............................................................................................................27
6.4
Web Utilization Miner (WUM) .............................................................................28
7 Linkstream Analyse ......................................................................................................29
7.1
Definition..............................................................................................................29
7.2
Bestehende Architektur bei Online Zeitungen .......................................................29
7.3
Exkurs: IVW bzw. ÖWA ......................................................................................30
7.3.1
Allgemein......................................................................................................30
7.3.2
Technologie der IVW bzw. ÖWA-Analyse....................................................31
7.3.3
Implementierung ...........................................................................................32
7.4
Besonderheiten bei derstandard.at .........................................................................32
7.4.1
Livestat .........................................................................................................32
7.4.2
Kritikpunkte an Livestat und Motivation für ein zusätzliches Analyse Tool...34
7.5
Möglicher Lösungsansatz für eine Linkstream Analyse .........................................35
7.5.1
Zusätzliche Daten..........................................................................................35
7.5.2
Methodik der Datenerfassung ........................................................................35
7.5.3
Methodik der Datenauswertung .....................................................................36
7.5.4
Visualisierung ...............................................................................................36
7.5.5
Mögliche Probleme .......................................................................................37
8 Ausblick .......................................................................................................................38
8.1
Clickstream Analyse, Linkstream Analyse und Recommender Systems ................38
9 Literaturverzeichnis ......................................................................................................39
10
Dictionary.................................................................................................................42
-3-
Abbildungsverzeichnis
Abbildung 1: Phasen des Web Usage Mining [Perr04, S. 6]..................................................10
Abbildung 2: Screenshot „The Common Logfile Format“ [W3C95] .....................................13
Abbildung 3: Logfile Einträge des Webservers vio.at ...........................................................13
Abbildung 4: Combined Logfile Format [Apac05]................................................................14
Abbildung 5: Extended Logfile Format [Micr05]..................................................................14
Abbildung 6: IIS Logfile [Micr05]........................................................................................15
Abbildung 7: Zeitorientierte Heurisitk h1 [vgl. BMSW01, S. 3]............................................17
Abbildung 8: Zeitorientierte Heuristik h2 [vgl. BMSW01, S. 3]............................................17
Abbildung 9: Navigationsorientierte Heuristik h-ref [vgl. BMSW01, S. 3] ...........................17
Abbildung 10: Architektur eines Data Webhouse [Saty02] ...................................................21
Abbildung 11: Monatliche Statistik Webalizer (Quelle: VIO.at) ...........................................25
Abbildung 12: Stündliche Statistik Webalizer (Quelle: VIO.at) ............................................25
Abbildung
13:
Visualisierung
von
Session-Pfaden
in
Sawmill
(Quelle:
http://www.sawmill.net/samples) ..................................................................................27
Abbildung 14: Visualisierung der Click-Häufigkeit von benutzten Links in Clicktracks .......28
Abbildung 15: Visualisierung der Pfade in Clicktracks .........................................................28
Abbildung 16: Schematische Darstellung der Web-Infrastruktr von Online-Medien (Quelle:
ixware.at)......................................................................................................................30
Abbildung 17: ÖWA Daten April 2005 (Auszug), [vgl. ÖWA05, Menüpunkt Daten] ...........31
Abbildung 18: Aufbau des SZM-Verfahrens (Quelle: http://www.oewa.at/index.php?id=1041)
.....................................................................................................................................32
Abbildung 19: Schematische Darstellung der Web-Infrastruktr bei derstandard.at (Quelle:
ixware.at)......................................................................................................................33
Abbildung 20: Auswertungszeitraum 24.00 h = 1 Tag Livestat über alle Resorts (Quelle:
Livestat) .......................................................................................................................34
Abbildung 21: Auswertungszeitraum 15 min Livestat über alle Resorts (Quelle: Livestat)....34
-4-
Vorwort
Ziel und Motivation der Arbeit
Die Arbeit wird im Rahmen der IT-Spezialisierung „Informationswirtschaft“ des Studiums
Wirtschaftsinformatik – Bakkalaureat an der WU-Wien erstellt. Die in den bereits
absolvierten Lehrveranstaltungen erarbeiteten Themen können in der Arbeit verwendet und
weiterentwickelt werden. Für das vorliegende Thema besteht ein Anknüpfungspunkt zum
Information Retrieval. Die Arbeit ist gleichzeitig eine Möglichkeit, wissenschaftliches
Arbeiten zu praktizieren und aktuelle Themen aufzubereiten.
Ziel der konkreten Arbeit ist, ein Konzept für ein Linkstream Analyse Tool zu entwickeln, das
in weiterer Folge für derstandard.at programmiert und entwickelt werden kann.
Ausgangspunkt ist die theoretische Basis der Clickstream Analyse und nach Vergleich
unterschiedlicher Clickstream Analyse Tools soll aus den gewonnenen Erkenntnissen das
Konzept für eine Linkstream Analyse entstehen. Dabei soll aber berücksichtigt werden, dass
das Tool auch wieder verwendbar (Reuse von Code) ist.
Die Programmierung und Implementierung des Tools sind nicht Teil der Arbeit.
Dank
Mein besonderer Dank gilt meinem Sohn Clemens, der mir viel mehr Verständnis für mein
Studium entgegengebracht hat, als man es von einem 5-jährigen erwarten kann. Weiters
danke ich Alex, der mir immer mit Rat und Tat zur Verfügung stand und durch sein
fundamentales Informatikwissen so manche fachliche Diskussion in Gang gebracht hat. Und
ich danke meiner Mutter, die viel Zeit dafür verwendet hat, Clemens zu beschäftigen, damit
ihm die Mama nicht ganz so fehlt.
Weiters danke ich Mag. Alexander Mitteräcker von derstandard.at, der mir den praktischen
Nutzen des theoretisch Erarbeiteten vor Augen geführt hat.
Hinweis auf geschlechterspezifische Benennung
Aufgrund der besseren Lesbarkeit wurde immer dann die männliche Form verwendet und
wurden damit beide Geschlechter gemeint, wenn keine konkrete Person damit angesprochen
war.
-5-
1 Zusammenfassung, Stichworte und Kernpunkte für das
Management
1.1 Zusammenfassung
Die vorliegende Arbeit zeigt einen Überblick über den Einsatz des Web Usage Mining und
die verschiedenen Ansätze der Clickstream Analyse. Da existierende Clickstream Analyse
Tools vor allem auf die Bedürfnisse von Webshops eingehen, können diese nur schwerlich an
die Anforderungen von Online-Zeitungen angepasst werden. Die hier vorgestellte Linkstream
Analyse beobachtet nicht nur den Weg des Users durch eine Website, sondern auch die Links,
die dabei verwendet werden. Dies ist vor allem im Online-Zeitungs-Bereich relevant, da zwei
Seiten durch unterschiedliche Links, platziert in verschiedenen Link-Lokationen, verbunden
sein können. Die User können anhand ihrer präferierten Link-Lokation Clustern zugeordnet
und beobachtet werden. Die Analyse des Linkstream hat zum Ziel, dem Sitebetreiber die
Attraktivität verschiedener Link-Lokationen anzuzeigen. Daraus können unterschiedliche
Handlungsweisen abgeleitet werden. Von Umgestaltung der Seite über Banner-Platzierung bis
hin zu personalisierte Links in der bevorzugten Link-Lokation.
1.2 Abstract
This article gives an overview of the usage of Web Usage Mining and the different
approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to
be used in Webshops. Online Newspapers have totally different requirements, which can’t be
satisfied by existing tools. In this paper we introduce a Linkstream Analysis, which fits more
to the needs of Online Newspapers. The Linkstream Analysis gives the possibility to watch a
users behaviour, not only across a website, but also the links he uses too. This is important for
Online Newspapers, since they offer their users different link location to the same destination.
The users can be clustered by their preferred link locations and the Online Newspapers can
react. The reaction can be the positioning of banners near to the preferred link location or
redesign of the whole site or recommendations in this area.
1.3 Stichworte
Web Mining, Web Usage Mining, Clickstream Analyse, Evaluierung von Clickstream Tools,
Linkstream Analyse
1.4 Keywords
Web Mining, Web Usage Mining, Clickstream Analysis, Evaluation of Clickstream Tools,
Linkstream Analysis
1.5 Kernpunkte für das Management
Dieser Beitrag beschreibt, wie Web Usage Mining eingesetzt werden kann. Clickstream
Analyse als Spezialgebiet des Web Usage Mining steht dabei im Vordergrund.
• Vorstellung von Clickstream Analyse und verschiedene Ansätze
• Es werden drei am Markt befindliche Logfile– bzw. Clickstream Analyse Tools
(Webalizer, Sawmill, Clicktracks) kurz evaluiert, WUM als kurz vorgestellt
-6-
•
Die Möglichkeit einer Linkstream Analyse wird unter Berücksichtigung der
besonderen Anforderung von Online Zeitungen als möglicher Lösungsansatz
entworfen.
-7-
2 Einleitung
Im Jahr 2005 ist es für ein großes Unternehmen kaum noch möglich, ohne Webauftritt
existieren zu können. Ob Unternehmenswebsite, Produktkataloge, Online Shop – in allen
Branchen wurde das „Netz“ als Marketinginstrument entdeckt. Doch der Webauftritt allein
verschafft dem Unternehmen heutzutage keinen strategischen Vorteil mehr. Viel wichtiger ist,
wie dieser Webauftritt beim Kunden ankommt.
Web Usage Mining ist eine Möglichkeit, um zu analysieren, wie die User sich auf der Seite
bewegen. Anhand von ausgeklügelten Heuristiken können die Websites dem Userverhalten
angepasst werden. Die Clickstream Analyse bietet vor allem die Möglichkeit zu ermitteln, wie
sich die User über die Website bewegen. Dadurch können wertvolle Informationen für die
Websitegestaltung und die Platzierung von Werbung, Produkten etc. gewonnen werden.
Die vorliegende Arbeit soll Auskunft geben, wie eine Clickstream Analyse durchgeführt
werden kann, welche Voraussetzungen dafür notwendig sind und wie diese abgewandelt
werden kann, um eine den Anforderungen einer Online-Zeitung entsprechende Linkstream
Analyse entwickeln zu können.
-8-
3 Grundlagen Web Mining
3.1 Definition
“Web mining can be broadly defined as the discovery and analysis of useful information from
the World Wide Web“ [CMSr97, S 1]
„Web mining is the use of date mining techniques to automatically discover and extract
information from Web documents and services“[KoBl00, S. 2]
Wird beim herkömmlichen Data Mining vor allem auf ein meist strukturiertes oder zumindest
wohlbekanntes Data Warehouse zugegriffen, so liegen die Daten für Web Mining im
unstrukturierten, unüberschaubaren Internet vor. Grob kann man die im Internet auftretenden
Daten einteilen in
Content: die tatsächlichen Daten in Webseiten (meist Text und Grafiken, aber auch Video,
Musik ...)
• Struktur: Daten, die die Organisation des Content beschreiben
• Usage: Daten, die die Verwendungsmuster von Webseiten repräsentieren
• User Profile: Daten, die demographische Information enthalten
All diese Daten liegen in unterschiedlichen Datenquellen vor, serverseitig (z.B. HTML-Files,
Server Logfiles, Proxy Logfiles ...) und clientseitig (Remote Agents, Modified Browsers).
Aus den gegebenen Daten und den unterschiedlichen Zielrichtungen haben sich drei
Forschungsgebiete des Web Mining entwickelt:
• Web Content Mining
• Web Structure Mining
• Web Usage Mining
3.1.1 Web Content Mining
Web Content Mining befasst sich mit der Analyse der im Web vorhandenen Daten. Hierbei
wird in der gängigen Literatur zwischen
Information Retrieval View
Database Approach (DB-View)
unterschieden, wobei Agenten Teile oder den gesamten Web Mining Prozess übernhemen
können (Agent Based Approach). [siehe CoMS97, S. 2 f und KoBl00, S. 4ff]
“The goal of Web content mining from the IR view is mainly to assist or to improve the
information finding or filtering the information to the users usually based on either inferred or
solicited user profiles, while the goal of Web content mining from the DB view mainly tries to
model the data on the Web and to integrate them so that more sophisticated queries other than
the keywords base search could be performed” [KoBl00, S.4]
Allgemein kann man sagen, dass der IR-View und auch der Agent Based Approach sich mit
den unstrukturierten oder semi-strukturierten Daten im Web beschäftigt, also mit Hypertextund Textdokumenten, während der DB-View von semi-strukturierten Daten und
datenbankgestützten Webseiten ausgeht.
Der Agent Based Approach unterscheidet
• Intelligente Suchagenten
• Informations-Filterung und Kategorisierung
• Personalisierte Webagenten
Mehr zum Web Content Mining siehe auch [CoMS97].
-9-
3.1.2 Web Structure Mining
Das Web Structure Mining beschäftigt sich mit den Hyperlinks, die das World Wide Web
ausmachen. Inspiriert ist dieses Forschungsfeld durch Untersuchungen zum Thema soziales
Netzwerk und Zitationsanalyse. So können mittels Web Structure Mining anhand der
hinführenden und wegführenden Links spezielle Seiten kategorisiert werden (z.B. Hubs,
Authorities). Web Structure Mining hat insofern hohe Bedeutung, da sich Googles Page Rank
Verfahren darauf begründet [KoBl00].
3.1.3 Web Usage Mining
3.1.3.1 Definition
„Mit Web Usage Mining bezeichnet man die Analyse des Nutzungsverhaltens von Websites.“
[Rahm02, S. 1]
Die Kernfragen des Web Usage Mining sind dabei, wie sich der User auf der Webseite
verhält, welche Inhalte ihn zu welchem Handeln anregen. Das Verhalten der User kann aus
Logfiles mit Hilfe von statistischen und Data Mining Methoden analysiert werden. Die
folgende Abbildung zeigt eine Darstellung der Phasen des Web Usage Mining:
Abbildung 1: Phasen des Web Usage Mining [Perr04, S. 6]
Häufiger kann in der Literatur aber auch folgende Phaseneinteilung gefunden werden:
Preprocessing
Pattern Discovery
Pattern Analysis
Im Vergleich kann man sagen, dass bei Perry [Perr04] die Phase Data Collection ebenfalls
berücksichtigt wurde und die Phasen Pattern Discovery und Pattern Analysis in der Phase
Data Analysis zusammengefasst sind.
Da für die Clickstream Analyse die Phase „Data Collection“ eine wichtige Rolle spielt,
werden die Phasen hier anhand der Einteilung von Perry kurz erläutert
3.1.3.2 Data Collection
“In order to be able to mine any information, an accurate and reliable method of recording
data is required. … The basis of any statistical analysis is a reliable source of data, as
representative of real use as possible, without introducing any bias or significant overhead;
….” [Perr04, S. 7]
- 10 -
Webseiten werden über das http Protokoll abgerufen und jeder Abruf oder Hit (siehe Kapitel
10) wird in einem Logfile (siehe Kapitel 4.1.1) gespeichert. Allerdings kann man aufgrund
von Hits keinerlei Aussage über die Usage – also die Verwendung – einer Seite treffen, da
Hits die über den Webserver abgerufenen Dokumente wiedergeben (z.B. Grafiken, Frames
...). Für die Usage sind Page Views die aussagekräftigen Daten, das ist die Anzahl von
komplett ausgelieferten Seiten..
Abgesehen von den serverseitigen Logfiles ist es aber möglich, dass Usage Informationen auf
Client-Seite gespeichert werden. Dafür sind eigene Agenten oder modifzierte Browser
notwendig.
Eine weitere Möglichkeit, Daten über das Verhalten von Usern auf einer Website zu sammeln
ist das sogenannte „Packet Sniffing“. Dabei werden Datenpakete, die zwischen Server und
Client hin und her geschickt werden „mitgesnifft“. Diese Daten können zur Analyse
herangezogen werden (in der Praxis nicht sehr relevant, wird vorwiegend in Testumgebungen
eingesetzt).
3.1.3.3 Preprocessing
Ziel des Preprocessing ist die Aufbereitung der Daten, das heißt all jene Einträge in Logfiles,
die für die Analyse keine Aussagekraft haben werden entfernt, fehlende Daten aus anderen
Logfiles werden hinzugefügt, User und Sessions werden identifiziert. Am Ende des
Preprocessing sollen die Daten in der Form vorliegen, dass sie so genau wie möglich die
Aktivitäten der User wiedergeben. Die dabei entstehenden Probleme ergeben sich vor allem
aus Caching-Mechnismen und Proxy-Servern.
3.1.3.4 Data Analysis
Im Pattern Discovery wird versucht, mit Hilfe von statistischen und Data Mining Methoden,
Muster (Pattern) zu erkennen. Die Data Mining Methoden, die im Web Mining Anwendung
finden werden im Kapitel 4.4 genauer erläutert. In der Phase der Pattern Analysis wird
versucht, die gefundenen Muster zu analysieren.
- 11 -
4 Phasen im Web Usage Mining
4.1 Data Collection
4.1.1 Logfiles
Wie bereits in Kapitel 3.1.3 Web Usage Mining erörtert, werden Logfiles herangezogen, um
darin Pattern zu finden und zu analysieren. Die meisten Logfiles werden als ASCII Zeichen in
einem File ohne Formatierung gespeichert, um Analyse Tools zur Verfügung zu stehen. Von
Webservern werden unterschiedliche Logfiles (error-log, access-log ...) in unterschiedlichen
Formaten (CLF, DLF …) geschrieben. Für die Analyse wird meist das access-log
herangezogen, in dem der Zugriff der User protokolliert wird.
4.1.1.1 Definition
“W3C httpd can log all the incoming requests to an access log file. It also has an error log
where internal server errors are logged. All log files are generated using the common log file
format that several WWW servers use.” [W3C95]
Logfileeinträge werden immer dann Mal geschrieben, wenn eine Seite von einem Webserver
abgerufen wird.
4.1.1.2 CLF
Das Common Logfile Format (CLF) kann von den meisten Webservern geschrieben und
daher auch von den meisten Analyse Tools bearbeitet werden. Das CLF hat eine fixe Form
und genaue Vorgaben, was in welche Felder geschrieben werden darf. Werden Felder nicht
belegt, so wird das Zeichen „-„ eingefügt, zwischen den Feldern ist ein Leerzeichen oder
Tabulator gesetzt, die Zeile endet mit einem Linefeed (LF). Folgender Screenshot zeigt den
fixen Aufbau des CLF:
- 12 -
Abbildung 2: Screenshot „The Common Logfile Format“ [W3C95]
Gespeichert werden Namen oder die IP-Adresse, von der der User zugreift, den Remote
Logname des Users (identD nach RFC931 – wird nur selten verwendet), seinen Usernamen,
falls er sich über htaccess authentifiziert hat, Datum und Uhrzeit des Zugriffs inkl. Zeitzone,
den Request – also die Anfrage, die der User im Browser über einen Link oder direkt in der
Address-Zeile eingetragen hat, den http Status-Code und die Größe des übertragenen
Dokuments in Bytes.
Die nächste Abbildung zeigt einen Auszug aus einem Logfile des Webserver der Autorin, die
Zeilennummer wurden für die bessere Verständlichkeit hinzugefügt.
1 194.152.96.130 - - [27/Apr/2005:18:13:27 +0200] "GET / HTTP/1.1" 200 7749
2 194.152.96.130 - - [27/Apr/2005:18:13:27 +0200] "GET /vio.css HTTP/1.1" 200 1338
3 194.152.96.130 - - [27/Apr/2005:18:13:27 +0200] "GET /img/favicon.ico HTTP/1.1" 200
318
4 194.152.96.130 - - [27/Apr/2005:18:13:27 +0200] "GET /img/spacer.gif HTTP/1.1" 200 43
5 194.152.96.130 - - [27/Apr/2005:18:13:27 +0200] "GET /img/draht.gif HTTP/1.1" 200
36438
6 194.152.96.130 - - [27/Apr/2005:18:13:27 +0200] "GET /img/vio-logo.gif HTTP/1.1" 200
8343
7 194.152.96.130 - - [27/Apr/2005:18:14:43 +0200] "GET /index.php?page=4 HTTP/1.1"
200 7056
8 194.152.96.130 - - [27/Apr/2005:18:14:43 +0200] "GET /img/vio_fingers.gif HTTP/1.1"
200 26810
Abbildung 3: Logfile Einträge des Webservers vio.at
- 13 -
Man kann erkennen,
• dass in diesem Fall die Felder Remote Logname und Username nicht verwendet
wurden
• dass viele Logfileeinträge keinerlei Relevanz für Web Usage Mining enthalten (Zeilen
2, 3, 4, 5, 6, 8), die daher im Preprocessing entfernt werden können.
• dass die Zeilen 1 und 7 zeigen, welche Requests der User an den Webserver geschickt
hat.
Wenn die Felder Username und Remote Logname nicht gesetzt sind ist es sehr schwierig,
Sessions und User zu identifizieren. Ist der User aus Zeile 1 der gleiche User wie der aus
Zeile 7, hat er sich lediglich durch einen Link in der Seite bewegt oder ist ein anderer User
von der gleichen IP-Adresse direkt bei Zeile 7 eingestiegen?
4.1.1.3 Combined Logfile Format (DLF)
Das Combined Logfile Format entspricht weitgehend dem CLF, enhält aber zwei weitere
zusätzliche Felder, die für die Bildung von Sessions und Clickstream Analysen sehr
entscheidend sind. Das DLF ist ebenfalls fix vorgegeben, nicht belegte Felder müssen mit _
gekennzeichnet werden. Diese zusätzlichen Felder sind
Referrer (Seite, von der der User auf die soeben aufgerufenen Seite gelangt ist) und
User Agent (Browser).
Die folgende Abbildung zeigt einen Auszug aus einem Combined Logfile Format, welches
den Referrer (http://www.example.com/start.html) und den User Agent (Mozilla/4.08[en] ...)
enthält.
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326
"http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"
Abbildung 4: Combined Logfile Format [Apac05]
4.1.1.4 eCLF
Das in Kapitle 4.1.1.2 CLF vorgestellte Common Logfile Format ist starr und daher limitiert,
so dass vom W3C im Jahr 1996 ein Extended Common Logfile Format definiert wurde.
Dieses Logfile-Format bietet dem Administrator die Möglichkeit, die zu speichernde
Loginformation im Rahmen des HTTP-Protokolls zu konfigurieren. Das eCLF kann sowohl
directives (Richtlinien) wie auch Logfileeinträge enthalten. [siehe W3C96]
#Software: Internet Information Services 6.0
#Version: 1.0
#Date: 2001-05-02 17:42:15
#Fields: time c-ip cs-method cs-uri-stem sc-status cs-version
17:42:15 172.16.255.255 GET /default.htm 200 HTTP/1.0
Abbildung 5: Extended Logfile Format [Micr05]
4.1.1.5 Proprietäre Logfiles am Beispiel des IIS Logfile Format
Einige Webserverhersteller verwenden proprietäre Logfile-Formate. Als Beispiel soll hier das
Logfile des IIS (Internet Information Server) von Microsoft vorgestellt werden.
Der IIS kann – abhängig von der Version – jedoch auch Logfiles in gängigen LogfileFormaten speichern (z.B. CLF, DLF, eCLF). Ein Logfile-Eintrag besteht aus 15
- 14 -
vorgegebenen Feldern, die teilweise mit dem CLF ident sind und durch Beistriche getrennt
werden.
“In addition, IIS format includes detailed items, such as the elapsed time, number of bytes
sent, action (for example, a download carried out by a GET command), and target file.”
[Micr05]
Die definierten Felder sind:
• IP-Adresse des Clients
• Benutzername
• Datum
• Uhrzeit
• Dienst (W3SVC z.B. für WWW-Server, MSFTPSVC für FTP-Server ...)
• Computername (NetBIOS-Name)
• IP-Adresse des Servers
• Verarbeitungszeit
• Erhaltene Bytes
• Gesendete Bytes
• Service-Statuscode
• Windows-Statuscode
• Name der Opteration (GET, POST)
• Ziel der Operation
• Parameter
192.168.114.201, -, 03/20/01, 7:55:20, W3SVC2, SALES1, 172.21.13.45, 4502, 163, 3223,
200, 0, GET, /DeptLogo.gif, -,
172.16.255.255, anonymous, 03/20/01, 23:58:11, MSFTPSVC, SALES1, 172.16.255.255,
60, 275, 0, 0, 0, PASS, /Intro.htm, -,
Abbildung 6: IIS Logfile [Micr05]
4.2 Use- Identifizerung
Wie im Kapitel 4.1.1 erwähnt, kann aus Logfiles kaum eine Session- oder Useridentifizierung
erfolgen. Daher gibt es unterschiedliche Möglichkeiten, um die Usersessions erkennen zu
können
4.2.1 Cookies
Cookies (siehe Kapitel 10) werden vom Server ausgegeben und beim Client (meist ein
Browser) des User gespeichert. Mit jedem Aufruf werden die im Cookie hinterlegten Daten
an den Server zurück übergeben. Wenn diese Cookies persistent sind, also auch nach dem
Schließen des Clients gespeichert bleiben, so können User erkannt werden, die immer wieder
auf die Seite zurückkehren. In den Cookies können aber auch Daten gespeichert werden
können, daher werden sie häufigt eignesetzt, um einem wiederkehrenden User ein
nochmaliges Login zu ersparen.
4.2.2 Registrierung und Login
Durch Registrierung von Usern (Username/Password) kann mehr Information über den
einzelnen User gesammelt werden. Dies bezieht sich nicht nur auf Web Usage Mining, es
können auch demographische Daten erhoben werden. Das Login und die damit verbundene
- 15 -
Session sind unanbhängig von Browser und Computer – der User kann immer eindeutig
identifiziert werden. Allerdings können User dadurch auch abgeschreckt werden, da sie
entweder keine Lust zur Registrierung haben oder vor Nachverfolgbarkeit Angst haben.
4.2.3 1-Pixel-Bilder
1-Pixel-Bilder werden vor allem von großen Unternehmen verwendet, die eine verläßliche,
standardisierte Logfileauswertung benötigen. Auf jeder Seite wird ein 1-Pixel großes Bild
platziert und mit Daten – zum Beispiel im Namen – versehen. Der Abruf dieser Bilder in einer
Seite löst einen Logfile-Eintrag aus. Dies ist auch die von der ÖWA für Online Medien
vorgegebene Technologie (siehe Kapitel 7.3).
4.3 Identifizierung von Sessions bwz. Transaktionen
Um die vorliegenden Daten in Hinblick auf Web Usage Mining und Clickstream Analyse
analysieren zu können, müssen Sessions und Transaktionen eindeutig identifiziert werden.
“Some authors propose dividing or joining the session into meaningful clusters, i.e.
transaction.” [Grca03, S. 2]
4.3.1 Identifizierung von Sessions
„Session Identification is carried out using the assumption that if a certain predefined period
of time between to accesses is exceeded, a new session starts at that point.“ [Grca03, S.2]
User und damit ihre Sessions können anhand von Cookies, Login und 1-Pixel-Bildern erkannt
werden (siehe Kapitel 4.2). Für die Zuordnung von Sessions zu einem User gibt es spezielle
Lösungsansätze.
Da eine Session ein Set von Aktivitäten des Users auf einer Website ist, hängt die Art des
“sessionizing” von der nachfolgenden Analyse ab. Für Marketing-Analysen reicht meist das
Zählen der von einem User besuchten Seiten und die Verweildauer aus, für Analysen, die das
Navigieren des Users auf der Website zum Ergebnis haben sollen ist die Reihenfolge ein
wichtiges Kriterium. [vgl. BMSW01, S. 2]
“A sessionizing heuristic partitions the user activity log into a set of “constructed sessions”
therby deciding which activities of the same user belong together. A “real session” on the
other hand, contains the activities, that the user performed together accourding to a reference
modell, ...” [BMSW01, S. 2]
4.3.1.1 Zeitorientierte Heuristiken
Zeitorientierte Heuristiken gehen von einer maximalen Session-Zeit aus (z.B. 30 Minuten),
die “Real Sessions” in “Constructed Sessions” teilt (einige Autoren setzen “Constructed
Sessions” mit Transaktionen gleich). Die Verweildauer auf einer Website ist abhängig von
Content und Struktur sowie Zweck einer Website. So kann es auch dazu kommen, dass eine
“Constructed Session” durch den Ablauf einer gewissen Zeitspanne vor dem nächsten
Request beendet wird und dieser Request zum ersten einer neuen Session wird. Zwei dieser
zeitorientierten Heuristiken sollen hier kurz vorgestellt werden.
Zeitorientierte Heuristik h1
θ = Maximale Dauer einer Session
t0 = timestamp des ersten URL-Requests in einer “Constructed Session”
Ein Request gehört dann zur Session wenn
t – t0 ≤ θ
- 16 -
Das heißt in Konsequenz daraus beginnt eine neue “Constructed Session” wenn
t ≥ t0 + θ
Abbildung 7: Zeitorientierte Heurisitk h1 [vgl. BMSW01, S. 3]
Zeitorientierte Heuristik h2
δ = Maximale Verweildauer auf einer Website
t’ = Timestamp eines URL-Requests der zuletzt einer “Constructed Session” zugeordnet
wurde
Der nächste Request mit dem Timestamp t’’ gehört dann zur gleichen Session wenn
t’ – t’’ ≤ δ
Ansonsten wird dieser Request zum ersten einer neuen “Constructed Session”.
Abbildung 8: Zeitorientierte Heuristik h2 [vgl. BMSW01, S. 3]
4.3.1.2 Navigationsorientierte Heuristiken
Navigationsorientierte Heuristiken basieren darauf, das User eher Links verwenden, um
zwischen Seiten zu navigieren als URLs einzutippen. Daher kann der Referrer für diese
Heuristik herangezogen werden. Referrer, die auf keine vorhergehende Seite verweisen sind
der Beginn einer neuen Session.
Navigationsorientierte Heuristik h-ref (Referrer-based)
p, q = aufeinanderfolgende Page Requests mit einem Timestamp tp und tq
∆ = definierter Zeitrahmen für Verzögerung (Delay)
S = “Constrcuted Session”
p∈S
q wird zur Session S hinzugefügt
wenn der Referrer für q in der Session S bereits aufgerufen wurde oder
wenn der Referrer undefiniert ist und (tq – tp) ≤ ∆
Abbildung 9: Navigationsorientierte Heuristik h-ref [vgl. BMSW01, S. 3]
- 17 -
4.4 Data Mining Methoden im Web Mining
Data Mining Methoden, die im Web Mining Einsatz finden:
• Assoziations- und Sequenzanalyse
• Segmentierung
• Klassifikation und Prognose
• Kausale Netze
[vgl. HiMW02, S. 20 ff]
4.4.1 Assoziations- und Sequenzanalyse
“Die Assoziationsanalyse bildet Regeln, die Beziehungen zwischen Elementen aus einer
Transaktionsmenge wiedergeben ... Gesucht werden Elemente, die verstärkt gemeinsam
innerhalb von Transaktionen auftreten.” [HiMW02, S. 20]
In Bezug auf Web Usage Mining heißt das, dass Seiten identifiziert werden, die in einer
Sessions gemeinsam aufgerufen werden. Grundlage sind immer Sessions oder Tranksaktionen
mit bestimmten Attributen (z.B. Transaktionszeitpunkt, Useridentifikation). Für jeden User
wird eine Sequenz zeitlich angeordneter Tranksaktionen gebildet, häufige Sequenzen werden
gesucht.
“Eine Sequenz <a,b,c> mit dem Support von x% bedeutet, daß x% aller betrachteteten
Sequenzen in zeitlich aufeinanderfolgenden Transaktionen die Elemente a, b und c enthalten”
[HiMW02, S. 21]
“Mit Hilfe der Sequenzanalyse lassen sich im Netz typische Bewegungspfade der Besucher,
das so gennante Clickstream Behavior, analysieren.” [HiMW02, S. 21].
Pfade, auf denen sich die User häufig bewegen, können so analyisert werden.
4.4.2 Segmentierung
User lassen sich anhand ihrer Eigenschaften in verschiedene Segmente einteilen. Dies kann
mittels Clusteranalyse oder Self Organizing Maps (SOMs) geschehen. Aus der heterogenen
Usermasse sollen homogene Teilmengen gebildet werden, die Teilmengen sollen möglichst
voneinander abgegrenzt sein. Die Segmentierung kann nach unterschiedlichen Kriterien –
abhängig von der Zielsetzung der Analyse – erfolgen.
4.4.3 Methoden zur Klassifikation und Prognose im Web Mining
Dazu eigenen sich besonders Eintscheidungsbäume, künstliche neuronale Netze und die
logistische Regression
4.4.3.1 Entscheidungsbäume
Entscheidungsbäume dienen der Zuordnung eines Objekts zu einer oder mehreren Klassen
anhand
dessen
Merkmalsausprägung.
Im
Verfahren
wird
versucht,
jene
Merkmalskombinationen zu finden, die eine möglichst gute Zuordnung der Objekte zu den
einzelnen Klassen zulassen. Die Teilmengen werden Schritt für Schritt kleiner, abhängig von
dem Merkmal, das zum Zeitpunkt am besten zur Klassifikation geeignet ist. Dadurch entsteht
ein sich verzeigender Baum. Aus den Verzweigungskriterien werden Regeln gebildet und
dadurch können nicht zugeordnete Objekte den Teilmengen zugeordnet werden.
- 18 -
4.4.3.2 Künstliche Neuronale Netze
Künstliche Neuronale Netze bestehen aus Schichten miteinander verbundener Neuronen. In
der Eingabeschicht (Input Layer) werden Signale aufgenommen und an die verborgenen
Schichten weitergegeben (Hidden Layer). Dort findet die eigentliche Verarbeitung statt. Über
den Output Layer werden diese verarbeiteten Daten ausgegeben.
Anhand von Trainingsdaten “lernt” das Neuronale Netz. Das einzelnen Neuronen werden
gewichtet und so lange wird so lange justiert, bis die bekannten Inputdaten den gewünschten
Output ergeben. Werden dem Netz unbekannte Input-Daten übergeben, behandelt es diese auf
die “gelernte” Weise und produziert Output den Vorgaben entsprechende. Neuronale Netze
werden vor allem zur Analyse nichtlinearer Datenstrukturen herangezogen.
4.4.3.3 Regressionsanalyse
“Die Regressionsanalyse ist ein vielseitig einsetzbares und weithin anerkanntes statistisches
Verfahren, das sich sowohl zur Wikungsabschätzung von Einflussgrößen als auch zur
Prognose eignet.” [Mathias Meyer in HiMW02, S. 195]
Die Regressionsanalyse ermöglicht es, Scoring Modelle zu entwerfen, z.B Scoring zur
Zielgruppenbestimmung und Entscheidungsunterstützung beim gezielten Marketingeinsatz.
Allerdings unterliegt der Einsatz der Regressionsanalyse im Web Mining bestimmten
Einschränkungen. [vgl. HiMW02, S. 195 ff]
- 19 -
5 Clickstream Analyse
5.1 Clickstream
„A clickstream is a sequential series of pageview requests, made from a single user.“
[EiVa00, S. 9]
Der Unterschied zwischen Clickstream und navigationsorientierte Heuristiken wie in Kapitel
4.3.1.2 besprochen liegt vor allem darin, dass navigationsorientierte Heuristiken „Constructed
Sessions“ in den Vordergrund stellen, Clickstreams sozusagen den Weg durch die Seite in
einer „Real Session“ abbilden. Man könnte auch sagen, dass eine „Constructed Session“ der
Teil eines Clickstream ist.
Beim Clickstream oder den „Real Sessions“ treten ähnliche aber auch zusätzliche Probleme
auf, z.B. die Identifizierung des Verlassens einer Website, Erkennen von Back-Button und
Reloads, der Startpunkt eines Clickstream.
5.2 Definition Clickstream Analyse
“Clickstream analysis is a special type of web usage mining which provides information
essential to understanding users’ behavior.” [Bray03, Kap. 4.4]
“Clickstream data analysis describes the analysis of the streams of requests (clicks) users
generate as they move from page to page within a web site.” [Saty02]
Aus den in den Logfiles gespeicherten Daten kann mittels Clickstream Analyse festgestellt
werden, wie der User sich durch die Seiten bewegt, woher er gekommen ist und wie lange er
auf welcher Seite geblieben ist. Die Analyse gibt Antwort auf viele Fragen, z.B: was sind die
populärsten Seiten, welche sind die unpopulärsten, welche Pfade verwendet der User auf einer
Seite, wie lange bleiben Besucher, die über ein Banner auf meine Seite gekommen sind, wie
oft kommen User wieder und viele mehr. [vgl. Saty02]
Clickstream Analysen werden vor allem im Bereich von Webshops eingesetzt.
5.2.1 Clickstream Analyse - Web Traffic Analyse
Die Web Traffic Analyse konzentriert sich auf die Frage, wie User sich durch eine Website
bewegen. Sie misst die PageViews, wieviel der Seite ausgeliefert wurde wenn ein User den
Stop-Butten clickt und wie lange der User gewartet hatte, bevor er den Stop-Butten gedrückt
hat. Auch die Performance einer Webseite kann gemessen werden. All dieser Messungen
werden auf dem Server-Level einer Webseite durchgeführt. [vgl. Saty02]
5.2.2 Clickstream Analyse - E-Commerce basierte Analyse
Die E-Commerce basierte Analyse verwendet Clickstream-Daten um herauszufinden, wie
effektiv die Website als Marketinginstrument eingesetzt werden kann. Die User werden
aufgrund Ihres Verhaltens quantifiziert solange sie sich auf der Webseite befinden. Ein
typischer Anwendungsbereich sind Webshops, um herauszufinden, welche Produkte ein User
betrachtet, in den Einkaufskorb legt und eventuell wieder herausnimmt. [vgl. Saty02]
5.2.3 Data Webhouse Architecture
Clickstream Analysen können am besten mittels Data Webhouse durchgeführt werden. Dabei
wird der erzeugte Clickstream in einem Data Webhouse hinterlegt, das als Grundlage für den
Data Mining Process dient.
- 20 -
Abbildung 10: Architektur eines Data Webhouse [Saty02]
5.3 Clickstream Analyse - Unterschiedliche Ansätze
In der Literatur findet man unterschiedliche Ansätze, wie Clickstream Analysen realisiert
werden können. Die wichtigsten sollen hier kurz erwähnt werden. Die vorgestellten Modelle
zielen vor allem auf Personalisierung und Recommender Systeme ab.
5.3.1 Markov Models
“Hidden Markov Models oder meist kurz HMMs sind stochastische Modelle, die sich durch
zwei Zufallsprozesse beschreiben lassen. Der erste Zufallsprozess entspricht dabei einer
Markow-Kette, die durch Zustaende und Übergangswahrscheinlichkeiten gekennzeichnet ist.
Die Zustaende der Kette sind von aussen jedoch nicht direkt sichtbar (sie sind versteckt,
'
'
hidden'
'
). Stattdessen erzeugt ein zweiter Zufallsprozess zu jedem Zeitpunkt beobachtbare
Ausgangssymbole gemaess einer zustandsabhaengigen Wahrscheinlichkeitsverteilung. Die
Aufgabe besteht haeufig darin, aus der Sequenz der Ausgabesymbole auf die Sequenz der
versteckten Zustaende zu schliessen.” [Comp05]
Unter einer Markov Kette versteht man einen speziellen stochastischen Prozess mit folgender
speziellen Eigenschaft: “Kennt man erst einmal die Gegenwart des Prozesses, dann lassen
sich Prognosen über die Zukunft des Prozesses nicht durch zusätzliche Kenntnisse seiner
Vergangenheit verbessern” [Wiki05]
Markov Models werden im Web Usage Mining verwendet, um das Verhalten des Users zu
modellieren und den nächsten Click des Users vorhersagen zu könen. Abhängig vom Level
(z.B. first-order Markov model, Kth-order Markov model) werden mehr oder weniger Schritte
in der Vergangenheit herangezogen, um den nächsten Schritt vorherzusagen.
Markov Models können im Web Usage Mining aber auch verwendet werden, um Sessions in
unterschiedliche Kategorien zu klassifizieren. Mehr Informationen dazu in [DeKa05].
5.3.2 PACT
Bei diesem in [JiZM04] vorgestellten Modell handelt es sich um die Miteinbeziehung des
Semantic Web in den Web Usage Mining Prozess. Transaktionen (oder Sessions) werden
geclustered und als multidimensionale Vektoren aus Page Views abgebildet. Diese Vektoren
werden geclustert. Jeder Cluster repräsentiert ein Set an Usern mit gleichen
Navigationsverhalten. Darüber hinaus ist jeder Cluster mit einem einzigen Punkt verbunden,
- 21 -
der ein aggregiertes Profile aller User in diesem Cluster repräsentiert. Ein neuer User wird mit
diesem aggregierten Profil verglichen und je nach Übereinstimmungsgrad werden
Empfehlungen (Recommendations) angezeigt. [vgl. Bray03, Kapitel 4.4]
5.3.3 Golden Path Analyzer (GPA)
Der Golden Path Analyzer analysiert Clickstreams von Usern, die versuchen den selben Task
zu erfüllen bzw. die selbe Zielseite einer Website zu erreichen. Der GPA findet den besten
Pfad, der vom User genommen werden kann - den goldenen Pfad – und verwendet ihn als
“Seed” für Clickstream Clusters. Andere User werden zu einem Cluster hinzugefügt, wenn ihr
Clickstream eine Supersequence des goldenen Pfades ist. Der Vorteil dieser Methode ist,
• dass die Cluster leicht verstanden werden können,
• dass wenige Cluster ausreichen,
• dass sie zu unterschiedlichen Strategien der User passen und
• gemeinsam alle Clickstreams abdecken.
[vgl. AlKe03, S. 349 f]
5.3.4 Clickstream Tree Model
Das Clickstream Tree Model wird in [GüÖz05] vorgestellt. Es beruht auf der Vorgabe, dass
sowohl die Sequenz – also die Reihenfolge in der ein User die Seiten besucht – als auch die
Verweildauer eines Users auf einer Seite wichtige Informationen für angeschlossenene
Recommender Systeme sind. Die Neuheit dieses Ansatzes liegt in der Art und Weise, wie
Cluster erzeugt und Übereinstimmungen berechnet werden
Dieser spezielle Ansatz kann zuerst die User Sessions anhand ihrer Ähnlichkeit. Wird ein
neuer Request von einem User abgesetzt, so wird ein Set an Empfehlungen mit Vorschlägen
zu drei weiteren Seiten, die der User noch nicht besucht hat, abgesetzt. Dafür wird die am
besten passende Usersession verwendet. Für die ersten zwei Requests einer neuer Usersession
werden alle Cluster herangezogen, um den besten Match zu finden. Danach werden die top-N
Clusters, die die höchste N-Übereinstimmung haben Ausgegeben.. [vgl. GüÖz05]
5.4 Privacy und Datenschutz
Die Sammlung von userbezogenen Daten im Internet ist immer wieder Diskussionsstoff in
den Medien. In Österreich ist Datenschutz bereits seit 1978 gesetzlich geregelt. Das
österreichische Datenschutzgesetz und die entsprechenden Novellen bestimmen, welche
Daten wie gesammelt, aufbewahrt und verwendet werden dürfen. So heißt es zum Beispiel in
§1, Abs. 1 „Jedermann hat, insbesondere auch im Hinblick auf die Achtung seines Privat- und
Familienlebens, Anspruch auf Geheimhaltung der ihn betreffenden personenbezogenen
Daten, soweit ein schutzwürdiges Interesse daran besteht“ [DSG00]
Daraus lässt sich schließen, dass jede Art von Daten, die einen User persönlich betreffen,
schutzwürdig sind.
Im §4 DSG werden verschiedene Begriffe definiert , z. B. in $4 Z1 sind „”Daten”
(”personenbezogene Daten”): Angaben über Betroffene (Z 3), deren Identität bestimmt oder
bestimmbar ist; ”nur indirekt personenbezogen” sind Daten für einen Auftraggeber (Z 4),
Dienstleister (Z 5) oder Empfänger einer Übermittlung (Z 12) dann, wenn der Personenbezug
der Daten derart ist, daß dieser Auftraggeber, Dienstleister oder Übermittlungsempfänger die
Identität des Betroffenen mit rechtlich zulässigen Mitteln nicht bestimmen kann; [DSG00]
Und in Z2
- 22 -
”sensible Daten” (”besonders schutzwürdige Daten”): Daten natürlicher Personen über ihre
rassische und ethnische Herkunft, politische Meinung, Gewerkschaftszugehörigkeit, religiöse
oder philosophische Überzeugung, Gesundheit oder ihr Sexualleben;“ [DSG00]
Im $ 6 Abschnitt 1 wird weiter definiert, wie Daten verwendet werden dürfen. Als Ausnahme
kennt der Gesetzgeber die $$ 46 und 47 DSG, die die Verwendung von Daten zur
wissenschaftlichen Forschung und Statistiken regeln. Der für Clickstream Analysen
relevanteste Teil ist dabei $ 46 Abs. 1
„Für Zwecke wissenschaftlicher oder statistischer Untersuchungen, die keine
personenbezogenen Ergebnisse zum Ziel haben, darf der Auftraggeber der Untersuchung alle
Daten verwenden, die
1. öffentlich zugänglich sind oder
2. der Auftraggeber für andere Untersuchungen oder auch andere Zwecke zulässigerweise
ermittelt hat oder
3. für den Auftraggeber nur indirekt personenbezogen sind.
Andere Daten dürfen nur unter den Voraussetzungen des Abs. 2 Z 1 bis 3 verwendet werden.“
[DSG00]
Nach dieser Definition kann man schließen, dass reine Logfile-Daten keine Daten sind, die
dem Datenschutz unterliegen. Aus Logfile-Daten ist die Identität eines Users nur schwer
bestimmbar. Vor allem der in § 46 erwähnte Passus „die keine personenbezogenen Ergebnisse
zum Ziel haben“ unterstützt die Meinung, dass Logfile-Daten keine personenbezogenen Daten
sind.
Anders sieht es bei Daten aus, die durch Registrierung oder Eingabe von persönlichen
Informationen erlangt werden. Diese können durchaus Daten im Sinne des DSG sein. Für
diesen Zweck ist es üblich, den User ein entsprechendes Formular im Internet ausfüllen zu
lassen, das die Unternehmen hinsichtlich datenschutzrechtlicher Ansprüche schützen soll.
Hier sollte aus Sicht des Users vor allem darauf geachtet werden, dass diese Daten vom
Website-Betreiber nicht weitergegeben werden.
Unter Privacy versteht man die Privatsphäre eines Menschen. Während im allgemeinen damit
ein „In-Ruhe-gelassen-werden“ verstanden wird, geht Privacy im Internet weiter. Einige
Autoren meinen, dass Privacy das Recht zu bestimmen, welche Daten über sich von anderen
gebraucht werden aber auch welche Daten auf den User einwirken dürfen, ist. Die meisten
Website-Betreiber legen offen, welche Daten sie über Ihre User speichern. Diese
Informationen finden sich in der Privacy Policy einer Website.
Unter diesem Aspekt sind auch Cookies zu sehen, da dadurch der wiederkehrende User
erkannt werden kann. Aus Sicht des Users ist es daher ratsam, Cookies nicht automatisch
sondern nur auf Nachfrage zuzulassen.
5.4.1 Privacy Preferences Project - P3P
„The Platform for Privacy Preferences Project (P3P), developed by the World Wide Web
Consortium, is emerging as an industry standard providing a simple, automated way for users
to gain more control over the use of personal information on Web sites they visit.” [W3C02]
P3P ist ein standardisiertes Set an Fragen, das alle wichtigen Aspekte der Privacy Policy
abfrägt. Dadurch sollen die User davor geschützt werden, dass beim Besuch einer Webseite
ihre Daten anders als erwünscht verwendet werden. Websites mit P3P stellen Privacy
Information zu Verfügung, P3P-fähige Browser können diese Abrufen und mit den vom User
konfigurierten Policies vergleichen. Der Browser gibt nur jene Informationen preis, die vom
User konfiguriert wurden. [vgl. W3C02]
- 23 -
6 Evaluierung
Tools
unterschiedlicher
Clickstream
Analyse
Aufgrund des aktuellen Themas und der Möglichkeiten des Einsatzes sind am Markt eine
reihe unterschiedliche Clickstream Analyse Tools verfügbar. Diese sollen hier kurz vorgestellt
werden.. Im Internet findet man zahlreiche Clickstream Analyse Tools, die als Services bei
dem anbietenden Unternehmen laufen. Dies hat zur Folge, dass dem Service-Betreiber die
Logfiles übergeben werden müssen. Für diese Evaluierung wurden ausschließlich Tools
herangezogen, die vom Sitebetreiber betrieben werden können.
6.1 Webalizer
“The Webalizer is a fast, free web server log file analysis program. It produces highly
detailed, easily configurable usage reports in HTML format, for viewing with a standard web
browser.” [Weba05]
Der Webalizer ist ein einfach zu konfigurierendes und zu installierendes Tool. Er kann
sowohl Logfiles im Common Logfile Format als auch Combined Logfile Format auswerten,
zusätzlich auch noch wu-ftpd xferlog FTP und squid-Logfiles.
Die Installation erfolgt nach den Unix-üblichen Installationsroutinen. Nach der Installation
muß Webalizer gestartet werden. Für den Import der Logfiles hat sich in der Praxis am
praktikabelsten erwiesen, die periodische Verarbeitung mittels Shellscript und Eintrag im
Crontab zu steuern.
Webalizer ist in seiner ursprünglichen Form nur für Unix-Systeme verfügbar, da er in Perl
programmiert wurde, kann er auch auf Windows portiert werden.
Die Konfiguration kann über ein Konfigurations-File oder beim Starten des Webalizer auf der
Kommandozeile vorgenommen werden.
Webalizer erzeugt die Auswertungen in Form von HTML-Seiten, die in einem
vorkonfiguriertem Directory abgelegt werden und über einen Browser abgerufen werden
können. Die Visualisierung erfolgt sowohl in Listenform (siehe Abbildung 11) als auch in
grafischer Form (siehe Abbildung 12).
Der Webalizer erzeugt monatliche, tägliche und stündliche Statstiken sowie Statistiken über
abgerufene URLs, Top-Einstiegsseiten, Top-Ausstiegsseiten, Sites (von denen aus zugegriffen
wurde) und Länder anhand der Top-Level-Domains.
Der Webalizer in seiner Ursprungsform kann nicht als Clickstream Analyse Tool bezeichnet
werden. Der Webalizer nimmt weder Clustering noch Patternmatching vor und gibt keine
Auskunft über das Verhalten von Usern auf einer Website. Einziger Output sind Häufungen.
Der Webalizer ist für alle Unix-Plattformen sowie MaxOSX und BeOS etc. Erhältlich, nicht
jedoch für Windows. Die letzte aktuelle Version ist 2.01-10.
- 24 -
Abbildung 11: Monatliche Statistik Webalizer (Quelle: VIO.at)
Abbildung 12: Stündliche Statistik Webalizer (Quelle: VIO.at)
- 25 -
6.2 Sawmill
Sawmill ist ein kommerzielles Tool, das rund 600 Logfile-Formate verarbeiten kann. Neben
den üblichen CLF, DLF, eCLF auch Router-Logfiles (z.B. Cisco) und andere.
Sawmill vertreibt Produkte für unterschiedliche Zielgruppen (ISP, Unternehmen,
Privatanwender mit einer Homepage).
Es ist für alle gängigen Plattformen erhältlich. Die Installation erfolgt mittels Installer oder
bei Unix-System durch Entpacken und Starten des Executables, dieses kann wahlweise auch
im CGI-BIN-Directory abgelegt werden. Sawmill benötigt eine kommerzielle Datenbank.
Es besitzt ein webbasiertes Userinterface, über das auch die Konfiguration erfolgt. Sämtliche
Outputs können über das graphische Interface abgerufen werden.
Die Auswertungen werden in folgende Kategorien eingeteilt
• Date and time – Einfache Zählung von Page Views in einem bestimmten Zeitraum
• Content
• Visitor demographics – Statistiken über Hostnames, Domains, Geographische
Zuordnung, authentifizierte User
• Visitor systems – Statistiken über die von den Usern verwendeten Systeme (Browser,
OS ...)
• Referrers – Auswertung der Referrers
• Other – Worms, Spiders …
• Sessions – Entry / Exit Pages, Pfad durch eine Page, Session Pfade, Session Pages,
Session User, Individuelle Sessions
• Log detail – Einblick in die Ursprungs-Logfiles
In Zusammenhang mit Clickstream Analyse und Web Usage Mining ist vor allem die
Kategorie Sessions interessant.
„Sawmill computes session information by tracking the page, date/time, and visitor id (which
is usually the hostname (client IP)) for each page view. When a session view is requested, it
processes all of these page views at the time of the request” [Sawm05, Kapitel How Sawmill
calculates sessions]
Beim Abrufen einer Session Statistik werden alle Pageviews zu diesem Zeitpunkt abgerufen,
die Pageviews werden anhand der Client IP in initiale Sessions gruppiert, dabei wird
angenommen, dass ein User zu einer Session gehört. Die Hits werden nach dem Datum
sortiert und daraus ergibt sich ein Click-by-Click Eintrag. Die Sessions werden in bestimmten
Intervallen gesplittet (Standardwert 30 Minuten, konfigurierbar). Sessions, die länger als 2
Stunden dauern werden verworfen, da man dahinter Sessions unterschiedlicher User über
einen Proxy vermutet. Anhand von konfigurierbaren Filtern können weitere Sessions
verworfen werden (z.B. interne User)
[vgl. Sawm05, Kpaitel How Sawmill calculates sessions]
Die aktuelle Version ist 7.1.5.
- 26 -
Folgende Darstellung zeigt die graphische Aufbereitung der Session Pfade:
Abbildung 13: Visualisierung von Session-Pfaden in Sawmill (Quelle: http://www.sawmill.net/samples)
6.3 Clicktracks
Clicktracks ist ein kommerzielles Tool, das in unterschiedlichen Varianten vorliegt: Analyzer,
Optimizer, Pro, Pro + JDC, ISP. Die Versionen Analyzer, Optimizer und Pro können auch als
gehostetes Service bezogen werden. Hier wird die Version Optimizer vorgestellt, die auch als
Testversion downgeloadet werden kann.
Clicktracks verwendet gängige Logfile-Formate (CLF, DLF, IIS ...)
Die Software ist lediglich für Windows-Systeme verfügbar, diese muss am Client-Rechner
installiert werden. Dies Installation ist eine Standard-Windows-Installation, Logfile können
händisch oder automatisch in vordefinierten Abständen geholt und eingespielt werden.
Sämtliche Outputs können über die Client-Software abgerufen werden.
Clicktrack bietet neben einfachen Auswertungen wie statistische Häufungen auch die
Möglichkeit, Kampagnen zu verfolgen, Zugriffe von Robots auszuwerten und EmailTracking.
Userdaten können nach bestimmten Kriterien geclustered und zur Visualisierung eingefärbt
werden.
- 27 -
Clicktracks visualisiert auch die Click-Häufigkeit bei Links, wobei diese bei gleichen Links
auf einer Seite geteilt dargestellt wird, eine echte Zuordnung kann nicht stattfinden. Die
folgende Abbildung zeigt die Visualisierung der Häufigkeit von benutzten Links (Basis sind
Logfiles der Website der Autorin):
Abbildung 14: Visualisierung der Click-Häufigkeit von benutzten Links in Clicktracks
Clicktracks bietet auch eine Pfadanalyse, die abhängig von den Userclustern durchgeführt
wird. Hier sieht man den Pfad, den die präferierte Usergruppe (Blaues Männchen) von der
abgefragen Seite gegangen sein (hin- und wegführende Links):
Abbildung 15: Visualisierung der Pfade in Clicktracks
Die aktuelle Version ist 5.5.7
6.4 Web Utilization Miner (WUM)
Der Web Utilization Miner ist ein Analyse Tool beruhend auf einem Methodenset, das die
Navigation eines Users auf einer Webseite beobachtet.
WUM besteht aus den zwei Modulen “Aggregation Service” und MINT-Processor. Im
Aggregation Service werden die Daten entsprechend aufbereitet, der MINT-Processor
vollführt den eigentlichen Mining-Prozess. Die bereinigten und aggregierten Daten können
über die Query-Sprache MINT abgefragt werden. Diese Sprache ist so konzipiert, dass genau
jene Patterns abgefragt werden, die die gesuchten Charakteristika aufweisen. Die Interaktion
durch den Experten mittels Query-Sprache und die Möglichkeit in die Analyse einzugreifen
ist eine Besonderheit. Mehr Informationen zu WUM finden man in [SpFa99]
- 28 -
7 Linkstream Analyse
7.1 Definition
Die Linkstream Analyse zeigt, über welche Links sich User durch eine Website bewegen,
wobei eine Seite mehrere Links auf eine andere Seite aufweisen kann. In der Linkstream
Analyse werden Ansätze des Web Structure Mining und der Clickstream Analyse verbunden.
7.2 Bestehende Architektur bei Online Zeitungen
In Österreich und auch in anderen europäischen Ländern ist es üblich, dass die Auflagenstärke
eines Online-Mediums durch eine unabhängige Instanz festgestellt wird. In Österreich und
Deutschland sind das dieÖWA bzw. IVW. Diese bedienen sich der 1-Pixel-Methode (siehe
Kapitel 4.2.3) und propietären Systemen, (SMZ-Box), um die Auflagenstärke eines OnlineMediums zu messen. Durch die von der ÖWA erzeugten Auswertungen ist es den Medien
jedoch nicht möglich, Auskunft über das Verhalten Ihrer User zu erlagen, lediglich
Häufungen werden ermittelt.
Allen Online-Medien ist gemeinsam, dass die erfolgreichsten (das sind in Österreich orf.at.,
a1.net, derstandard.at etc.) sich verschiedener Technologien bedienen müssen, um für ihre
User Informationen in entsprechender Performance zur Verfügung stellen zu können. Dazu
gehört die Verteilung der Webseiten auf unterschiedliche Server, eine ausgeklügeltes LoadBalancing sowie entsprechende Datensicherung. Das Zusammenspiel dieser Anforderungen
führt zusätzliche Probleme für Datensammlung und -auswertung im Web Usage Mining.
Folgende Abbildung zeigt schematisch die Infrastruktur von Online-Medien.
- 29 -
Abbildung 16: Schematische Darstellung der Web-Infrastruktr von Online-Medien (Quelle: ixware.at)
7.3 Exkurs: IVW bzw. ÖWA
7.3.1 Allgemein
Die IVW (Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V.)
wurde 1949 in Deutschland mit dem Zweck gegründet, „zur Förderung der Wahrheit und
Klarheit der Werbung und damit zur Sicherung eines echten Leistungswettbewerbs
vergleichbare und objektiv ermittelte Unterlagen über die Verbreitung von Werbeträgern zu
beschaffen und bereitzustellen“. [IVW05, Link Organisation].
Urspünglich stand die Auflagenkontrolle von Printmedien im Vordergrund, im Lauf der Zeit
wurde der Tätigkeitsbereich auch auf andere Werbemedien bis hin zu Online-Medien
ausgedehnt. Im April 2004 hatte der Verein 1.766 Mitgleider. [vgl. IVW05, Link
Organisation].
Das österreichische Pendant dazu ist die ÖWA, die im Jahr 1998 unter dem Dach der ÖKA
(Österreichische Auflagenkontrolle) gegründet wurde und seit 2001 ein eigenständiger Verein
ist. Mitglieder des Vereins – also vor allem Online-Newspapers, Medienhäuser,
Medienagenturen und Onlineanbieter – unterwerfen sich den vorgegebenen Messkritierien
und können so miteinander verglichen werden. Ein enger Zusammenhang zwischen ÖWA
und IVW besteht insofern, dass die ÖWA sich auf die technologische Lösung des IVW stützt
– auch mit dem Hintergedanken, die beiden Länder vergleichbar zu machen.
„Ziele der ÖWA sind die Förderung des Online-Marktes und insbesondere die Erhebung
vergleichbarer und objektiver Daten zur Beurteilung der Leistungsfähigkeit von Online- 30 -
Angeboten. .... Die Struktur des Mediums Internet ermöglicht - im Gegensatz zu klassischen
Medien - eine unmittelbare Nutzungsmessung. Logfileprotokolle, in denen die Abrufe
einzelner Seiten eines Angebotes dokumentiert werden, lassen auf die Attraktivität und die
Nutzung der Inhalte schließen.“ [ÖWA05, Link Organisation]
Da dies anhand der üblichen Logfile-Auswertungen kaum möglich ist, hat die ÖWA
Standards definiert.
Die von der ÖWA erzeugten Daten spielen eine wichtige Rolle bei der Entscheidung von
Firmen, die Online Werbung in Form von Banners etc. schalten wollen. Anhand der Daten
können die Entscheidungsträger feststellen, welches Medium die meisten User in welchen
Ressorts hat und die Werbung zielgruppenorientiert platzieren. Die folgende Grafik zeigt
einen Auszug aus den von der ÖWA erzeugten Daten vom April 2005:
Abbildung 17: ÖWA Daten April 2005 (Auszug), [vgl. ÖWA05, Menüpunkt Daten]
7.3.2 Technologie der IVW bzw. ÖWA-Analyse
„Das Skalierbare Zentrale Messverfahren ist ein serverzentriertes standardisiertes Verfahren
zur Erhebung objektiv vergleichbarer Zugriffsdaten für Online-Angebote. .... Das SZMSystem basiert ursprünglich auf dem Prinzip der Logfile-Auswertung“ [ÖWA05, Menüpunkt
Messsystem]
Der Vorteil dieses Systems liegt darin, dass nicht der Abruf von Einzelfragmenten einer Seite
(Z.B. Frames, Stylesheets, Grafiken ...) protokolliert und gezählt wird, sondern auf jeder Page
– also die Seite, die der User ausgeliefert bekommt – wird ein Zähltag verwendet und
protokolliert.
„Der Zähltag verweist auf eine unsichtbare Grafik, die auf den einzelnen Seiten der Angebote
implementiert wird.“ [ÖWA05, Menüpunkt Messsystem]
Da der Pixel nicht im Zwischenspeicher abgelegt wird, sind zuverlässige Messungen trotz
Cache und Proxies möglich und pro Nutzer wird maximal eine Page Impression gezählt.
Weiters können dem Zähltag zusätzliche Informationen hinzugefügt werden, z.B. Ressorts.
Diese Ressorts werden von der ÖWA vorgegeben. Die Auswertung ist im Vergleich zur
herkömmlichen Logfileauswertung weniger ressourcenaufwändig.
Mit Hilfe von sogenannten SZM-Boxen – das sind Server, die Anfragen beim Aufruf eines
ÖWA-Pixels auf einer Mitgliedsseite beantworten und in Echtzeit verarbeiten – werden
- 31 -
sämtliche Aufrufe in Logfiles protokolliert. Der Collector sammelt von allen angeschlossenen
Boxen in bestimmten Zeitintervallen die Daten und verdichtet sie in entsprechend definierten
Zeitintervallen, die Ursprungslogfiles auf den Boxen werden verworfen. Die verdichteten
Daten werden von der ÖWA verarbeitet und interpretiert.
Die folgende Abbildung zeigt, wie der infrastrukturelle Aufbau des SZM-Verfahrens aussieht:
Abbildung 18: Aufbau des SZM-Verfahrens (Quelle: http://www.oewa.at/index.php?id=1041)
7.3.3 Implementierung
Die Implementierung des ÖWA-Pixel setzt die Mitgliedschaft beim ÖWA voraus. Dem
Mitglied wird eine SMZ-Box zur Verfügung gestellt, die im Netz des Sitebetreibers integriert
wird. ÖWA stellt dem Sitebetreiber ein in Javascript eingebettetes Pixel zur Verfügung, das
konfiguriert und in die Seiten eingebaut werden muß. Dabei sind die ÖWA-Vorgaben (“Eine
Pageimpression je Nutzeraktion”) zu berücksichtigen.
7.4 Besonderheiten bei derstandard.at
Die österreichische Online-Zeitung derstandard.at hat sich die vom Verein ÖWA angewandte
Technologie (1-Pixel-Methode) kombiniert mit permanenten Cookies zu Nutze gemacht, um
so die Auswertung von Logfiles in Kombination mit Unique User Ids durchführen zu können.
Im Folgenden soll das bestehende System Livestat kurz vorgestellt werden.
7.4.1 Livestat
Für Livestat wird ein eigener Pixel verwendet. Auf den einzelnen Webservern selbst werden
keine Logfiles mehr geschrieben, neben den contentauslieferenden Servern steht ein weiterer
Server (die sogenannte Livestat-Box), auf dem diese 1-Pixel-Grafiken entsprechend mit
Ressortnamen versehen liegen. In jeder Seite, die vom User aufgerufen wird, wird eine 1Pixel-Grafik eingebunden, von der Livestat-Box geholt und auf der Livestat-Box wird das
entsprechende Logfileeintrag geschrieben (Timestamp, Cookievalue, Ressort). Gleichzeitig
werden diese Daten auch permanent in eine Datenbank am Server Livestat geschrieben (siehe
Abbildung 19). Die Daten in der Datenbank sind daher zeitaktuell und können sofort die
gewünschten Auswertungen liefern, wobei die Auswertung derzeit keinerlei Clickstream
Analyse enthält, sondern auch hier lediglich die Häufung angibt. Die Daten in der Datenbank
- 32 -
werden in regelmäßigen Abständen verdichtet und archiviert, die Logfiles auf der LivestatBox werden regelmäßig gelöscht. Im Unterschied zur ÖWA-Auswertung wird von
derstandard.at intern feiner granuliert, um noch besseren Überblick über die einzelnen SubRessorts zu erhalten.
Folgende Darstellung zeigt schematisch den Aufbau der von der Website-Auslieferung und –
auswertung betroffenen Server.
Abbildung 19: Schematische Darstellung der Web-Infrastruktr bei derstandard.at (Quelle: ixware.at)
Der aktuelle Stand der Auswertung erlaubt eine Analyse der Unique User anhand eines
permanenten Cookies, sowohl für die gesamte Seite als auch für einzelne Ressorts und SubRessorts. Diese Auswertung beginnt zu einem bestimmten Zeitpunkt h und startet sozusagen
mit dem ersten User. Kehrt dieser User innerhalb einer Zeitspanne wieder in dieses Ressort
zurück, so wird er nicht nochmal gezählt. Die Auswertung erfolgt anhand einfacher SelectStatements auf der Datenbank. User, die keine permanenten Cookies erlauben, werden nur
gezählt und statistisch berichtigt. User die ihre Cookies löschen, bevor sie wiederkehren,
werden als neue User gezählt. Jeder neue User wird hinzugefügt, dadurch ergibt sich am Ende
des Tages für den Zeitraum Tag (00:00 h bis 23:59) folgendes Bild:
- 33 -
Abbildung 20: Auswertungszeitraum 24.00 h = 1 Tag Livestat über alle Resorts (Quelle: Livestat)
Werden diese Auswertungen auf eine geringere Zeitspanne heruntergebrochen (hier 15
Minuten), so ergeben die einzelnen Zeitintervalle in einer Grafik die Anzahl der Unique User
je Zeitintervall über den gesamten Tag.
Abbildung 21: Auswertungszeitraum 15 min Livestat über alle Resorts (Quelle: Livestat)
Aus dieser Grafik geht hervor, dass die meisten Unique User in der Zeit von 12:00 – 13:00 h
die Website von derstandard.at besuchen.
7.4.2 Kritikpunkte an Livestat und Motivation für ein zusätzliches
Analyse Tool
Wie bereits im vorhergehenden Kapitel erwähnt, bietet Livestat keinerlei Auswertung über
das Verhalten der User auf der Website. Die von Livestat im momentanen Zustand
- 34 -
gesammelten Daten sind auch
nicht ausreichend, um eine Clickstream Analyse
durchzuführen, da im Pixel kein Referrer enthalten ist.
Für derstandard.at ist eine einfache Clickstream Analyse jedoch nur von geringer Bedeutung,
die Information, welcher User zu welcher Seite surft hat vor allem in Online-Shops und
Webauftritten von Firmen seine Berechtigung.
Bei derstandard.at interessiert vor allem, wie sich die User durch die Seite navigieren, das
heißt, über welche Links sie von einer Seite zur nächsten gelangen. Dazu muß man wissen,
dass derstandard.at auf vielen Seiten mehrere Navigationsmgölichkeiten anbietet (Navigation,
Shortcuts, Link im Content). Diese können auch noch unterschiedlichen Lokationen auf einer
Seite zugeordnet werden (Navigation = oben, Shortcuts = links/rechts, Links im Content =
zentral unten). Diese Bereiche sind von großer Bedeutung, da die Lokationen auch mit
entsprechenden Werbebannern versehen sind. Als Zusatznutzen kann eine Linkstream
Analyse die Sitegestaltung beeinflussen. Darüberhinaus können weiterführende Links in Form
von Recommendations an der richtigen Stelle angebracht werden. Eine Personalisierung ist
ebenfalls denkbar, wenn die User anhand ihrer präferierten Navigationsmuster geclustered
werden können. Weiters kann ermittelt werden, ob Seiten zu “Sackgassen” für bestimmte
Usergruppen werden, weil sie nicht die gewünschte Form der Navigation anbieten.
Die evaluierten Tools bieten die gesonderte Auswertung von Links nicht, obwohl z.B.
Clicktracks Links anhand Ihrer Click-Häufigkeit hervorhebt. Da diese Berechnung aber nur
aus dem Referrer entsteht, können keine Unterschiede zwischen zwei Links die von einer
Seite auf die selbe andere Seite führen, errechnet werden.
7.5 Möglicher Lösungsansatz für eine Linkstream Analyse
Unter Beibehaltung des aktuellen Systems Livestat und unter Verwendung der vorhandenen
Infrastruktur soll hier ein Lösungsansatz für eine Linkstream Analyse vorgestellt werden, die
aber auch für andere Online-Zeitungen von Interesse sein kann.
7.5.1 Zusätzliche Daten
Wie bereits erwähnt müssen die Logfile-Daten ergänzt werden, um einen Link eindeutig zu
identifizieren. Jedem Link muß eine eindeutige ID mitgegeben werden, die in Logfile und
Datenbank gespeichert wird. Anhand dieser ID kann festgestellt werden, welcher Link wie oft
geklickt wurde, auch wenn 1 .. n Links auf die gleiche Seite verweisen. Anhand der bisher
nicht verwendeten aber im Logfile vorhandenen Referrer kann eine Kette – also ein
Linkstream – erkannt werden.
Der Link wird anhand seiner Lokation klassifiziert (oben, unten, links, rechts), diese
Klassifizierung wird in die ID hineincodiert, um die Auswertung zu beschleunigen. Zusätzlich
erhält jeder Link eine fortlaufende Nummer.
7.5.2 Methodik der Datenerfassung
Die Link-IDs müssen so übergeben werden, dass sie in einem Logfile aufscheinen und
ausgewertet werden können. Diese Link-ID kann jedem Link als GET-Attribute-Value-Pair
hinzugefügt werden, z.B. in Form von <a href=”?ulid=1_111111111”> wobei ulid das Atribut
ist und der Value vor dem Underscore den Bereich angibt, die 9 Ziffern danach die Unique
Link ID.
Von der Zielseite wird dieser Value mittels Javascript ausgelesen, der Value des LinkstreamPixel wird umgeschrieben und der Pixel wird aufgerufen. Dadurch wandern die gewünschten
Daten in Logfile und Datenbank und können analysiert werden.
- 35 -
7.5.3 Methodik der Datenauswertung
Die Auswertung erfolgt in klassischen Web Usage Mining-Schritten, wobei keine
Datenbereinigung mehr stattfinden muß. Die Daten werden geclustered und Links werden
statistisch ausgewertet.
7.5.3.1 Clustering
Die User werden anhand ihres Click-Verhaltens nach den Lokation klassifiziert. Eine
mögliche Variante ist:
Nav-User: User die überwiegend die Navigation verwenden
Shortcut-user: User die überwiegende die Shortcuts verwenden, weitere Klassifizierung in
links/rechts möglich
Content-User: User, die überwiegend Links im und am Ende des Contents vewenden
Jeder der klassifizierten Gruppen kann in Subgruppen anhand der Häufigkeit der verwendeten
Navigation unterteilt werden (zu 80 % verwendet, 50 % ...). Ein wiederkehrender User kann
in diese Klassifizierung eingeordnet werden.
7.5.3.2 Statistische Auswertung der Links
Die Statistische Auswertung der Links ist eine Zählung der Link-Clicks. Diese gibt im
Einzelnen Auskunft über die “Beliebtheit” eines Links, kumuliert können Aussagen über die
Beliebtheit einer “Lokation” getroffen werden.
7.5.3.3 Userverhalten allgemein
Die Methode ist auch sehr gut geeignet, um allgemeines Userverhalten zu analysieren. So
können die Verweildauer, die Top-Entry und -Exit-Pages analyisert werden. Bringt man diese
in Zusammenhang mit der User-Clusterung, können wertvolle Erkenntnisse gewonnen
werden, z.B. Content-User navigieren über die Navigation, wenn kein Link im Content
vorhanden ist.
7.5.4 Visualisierung
Für Auswertung und Analyse ist genügend Literatur vorhanden, um darauf aufbauen zu
könne. Literatur zur Visualisierung fehlt großteils.
Es sollen hier nur einige
Visualisierungsmöglichkeiten aufgezählt werden. Auf tabellarische Darstellung von Zahlen
soll hier nicht eingegangen werden.
Eine mögliche Visualisierung für die statistische Auswertung der Links ist eine Art
“Wärmebild” zu erzeugen, das häufig benutzte Links rot, mittelhäufig benutzte gelb und
wenig oder nicht benutzte blau bzw. Schwarz darstellt.
Dafür könnte man von jeder Seite eine farblose Darstellung erstellen, in der die Links
entsprechend der Häufung eingefärbt werden. Eine analoge Darstellungsform ist die Angabe
von “Höhenlinien”, wie sie auf Landkarten üblich ist.
Zusätzlich müssen alle Links, die zu dieser Seite geführt haben, anklickbar dargestellt werden.
In einem zusätzlichen Fenster können in Netzform die Links, die von und zur Seite führen,
dargestellt werden, wobei die aktuelle Seite immer im Mittelpunkt steht. Von den direkt
angrenzenden Seiten können aus Visualisierungsgründen nur noch die “Hauptschlagadern”
gezeigt werden (z.B. die am häufigsten verwendeten Links). Die Visualisierung der LinkKategorien erfolgt analog dazu.
Beide Visualisierungen – und natürlich auch die Auswertungen – müssen kumuliert über alle
Ressorts und Subressorts möglich sein.
- 36 -
Die Visualisierung der User-Cluster kann durch die Gegenüberstellung der User-Cluster zu
den Ressorts erfolgen, z.B. Shortcut-User sind überwiegend im Bereich Sport und Kultur
angesiedelt. Anhand der Ressort-Struktur könnte man hier die einzelnen Präferenzen der User
abbilden.
Historische Vergleiche, z.B. nach Anpassung der Navigation sind ebenso möglich.
7.5.5 Mögliche Probleme
Die vorgestellte Methode ist nur ein Denkmodell, das noch einige Schwachstellen enthält.
Auf diese soll kurz eingegangen werden.
7.5.5.1 Back-Button, URL-Eingabe
User-Interaktionen, die keinen oder einen von Browserversion abhängigen Eintrag im Logfile
hervorrufen (z.B. Back-Button, URL-Eingabe in der URL-Zeile) sind wie in allen anderen
vorgestellten Web Usage Mining Methoden ein Problem. Auf eine Path-Completion soll aber
bei der Linkstream Analyse verzichtet werden.
7.5.5.2 Historische Links, die nicht mehr verwendet werden
Eine historische Vergleichbarkeit der Daten ist nur dann möglich, wenn sämtliche Links
immer bestehen bleiben. Dies ist aber bei Online-Zeitungen nicht gegeben, vor allem ContentLinks verändern sich mit jedem Artikel. Dem kann man durch Clustering der Links und
Vererbung der Link-ID entgegenwirken. Für zeitaktuelle Auswertungen stellt sich dieses
Problem nicht.
- 37 -
8 Ausblick
Das Forschungsfeld des Web Usage Mining ist zwar bereits sehr breit gestreut, dennoch
steckt die Anwendung in der Praxis noch in den Kinderschuhen.
8.1 Clickstream Analyse, Linkstream Analyse und Recommender
Systems
Die Clickstream Analyse in unterschiedlichen Ausprägungen ist eine der am weitest
verbreiteten Web Usage Mining Methoden. Dies liegt vor allem an der relativ einfachen Basis
– den Logfiles, die jeder Webserver schreibt. Allerdings decken die derzeit am Markt
befindlichen Analysetools nicht annähernd die Erfordernisse der Website-Betreiber ab. Die
meisten Tools sind auf Webshops zugeschnitten. Online-Zeitungen können darauf nicht
bauen.
Die hier vorgestellte Linkstream Analyse ist ein Versuch, Web Usage Mining für OnlineZeitungen zugänglich zu machen. Dafür müssen die besonderen Bedürfnisse der WebsiteBetreiber berücksichtigt werden. Die Wünsche beschränken sich nicht ausschließlich auf ein
„welchen Weg nimmt der User“ sondern beziehen auch das „über welche Links“ mit ein.
Die Auswertung dieser gesammelten Daten kann zu unterschiedlichen Zwecken dienen.
Sowohl interne (Umgestaltung der Navigation ...) als auch externe, businesskritische (z.B.
Platzierung von Werbebannern) bis hin zu Personalisierung.
Versuchen Recommender Systeme auf Basis von Clickstream Analysen vor allem die
nächsten Schritte vorherzusehen, so kann ein Recommender System auf Basis einer
Linkstream Analyse, wie wir sie hier vorgestellt haben, dem User einen Link in der für ihn
wichtigsten Link-Lokation zur Verfügung stellen und so den Ausstieg aus der Seite
verhindern.
- 38 -
9 Literaturverzeichnis
[Apac05]
The
Apache
Software
Foundation:
http://httpd.apache.org/docs/logs.html, Abruf am 2005-04-05
Log
Files,
[AlKe03]
Ali, Kamal; Kechpel, Steven P.: Golden Path Analyzer: Using Divide-andConquer to Cluster Web Clickstreams, in KDD-2003 Proceedings of the Ninth
CM SIGKDD Internation Conference on Knowledge Discovery and Data
Mining, Washington, DC, USA, 2003, S. 349 - 359
[BaSi05]
Batista, Paulo; Silva, M´ario J.: Mining Web Access Logs of an On-line
Newspaper,
http://xldb.fc.ul.pt/data/Publications_attach/rpec02.pdf; Datum
unbekannt, Abruf am 2005-04-23
[BMSW01] Berendt, Bettina; Mobasher, Bamshad; Spiliopoulou, Myra; Wiltshire, Jim:
Measuring the Accuracy of Sessionizers for Web Usage Analysis, April2001,
http://maya.cs.depaul.edu/~mobasher/papers/wm-siam01.pdf, Abruf am 200504-17
[Bray03]
Braynov, Sviatoslav: Personalization and Customization Technologies, 2003,
http://www.cs.buffalo.edu/~sbraynov/seninar2003/papers/Personalization.pdf,
Abruf am 2005-05-17
[BuSi01]
Bucklin, Randolph E., Sismeiro, Catarina: A Model of Web Site Browsing
Behavior
Estimated
on
Clickstream
Data,
http://ecommerce.mit.edu/papers/ERF/ERF129.pdf, June 2001, Abruf am 200504-26
[Ceno03]
Cenovsky, Lukas: Web Usage Mining on is.muni.cz, http://eprints.pascalnetwork.org/archive/00000741/01/MihaGrcar-WebUsageMining.pdf, Abruf am
2005-04-15
[CoBS99] Cooley, Robert; Mobasher, Bamshad, Srivastava, Jaideep: Data Preparation for
Mining
World
Wide
Web
Browsing
Patterns
http://maya.cs.depaul.edu/~classes/ect584/papers/cms-kais.pdf, 1999, Abruf am
2005-04-24
[Comp05] ComputerBase
–
Lexikon:
Verborgenes
Markov
Modell,
http://www.computerbase.de/lexikon/Hidden_Markov_Model, Abruaf am 200505-17
[CoMS97] Cooley, R; Mobasher, Bamshad; Srivastava J.: Web Mining: Information and
Pattern
Discovery
on
the
World
Wide
Web,
http://maya.cs.depaul.edu/~mobasher/papers/webminer-tai97.pdf, 1997, Abruf
am 2005-03-10
[DeKa00] Deshpande, Mukund; Karypis, George: Selective Markov Models for Predicting
Web-Page
Accesses,
30.
Oktober
2000,
http://wwwusers.cs.umn.edu/~karypis/publications/Papers/PDF/select.pdf, Abruf am 200505-17
[DGLP97] Dunn, Melissa; Gwertzmann, James; Layman, Andrew, Partove, Hadi: Privacy
and Profiling on the Web, http://www.w3.org/TR/NOTE-Web-privacy.html,
1997, Abruf am 2005-04-20
[DSG00]
[EiVa00]
Bundesgesetz über den Schutz personenbezogener Daten (Datenschutzgesetz
2000 - DSG 2000 , http://www.dsk.gv.at/, Abruf am 2005-05-12
Eirinaki, Magdalini; Vazirgiannis, Michalis: Web Mining for Web
- 39 -
[FaLN05]
[Grca03]
[GüÖs05]
[HaNe02]:
[HiMW02]
[HiMW02]
[IVW05]
[JiZM04]
[KoAD04]
[KoBl00]
[Micr05]
[MLSL04]
[MoCS00]
[ÖWA05]
[Perr04]
Personalization, Athens University of Economics and Business, http://www.dbnet.aueb.gr/magda/papers/TOIT-webmining_survey.pdf, 2000, Abruf am 200504-20
Fathofer, Helmut; Laga, Dr. Gerhard; Nemec, Mag. Kurt: Rechtliche Probleme
im Internet – Werbung im Internet, http://www.laga.at/Doks/SeminarWerbung.pdf, Abruf am 2005-05-12
Grcar, Miha: User Profiling: Web Usage Mining, http://eprints.pascalnetwork.org/archive/00000741/01/MihaGrcar-WebUsageMining.pdf,
2003,
Abruf am 2005-04-25
Gündüz, Sule; Öszu, M.Tamer: Recommendation Models for User Accesses to
Web
Pages
(Invited
Paper),
http://db.uwaterloo.ca/~ddbms/publications/web/icann_ozsu.pdf,
Datum
unbekannt, Abruf am 2005-04-23
Hansen, Hans Robert; Neumann, Gustaf: Wirtschaftsinformatik I, 8. Auflage,
Lucius & Lucius, Stuttgart 2002
Hippner, Hajo; Merzenich, Melani; Wilde, Klaus D. (Hrsg.): Handbuch Web
Mining im Marketing - Konzepte, Systeme, Fallstudien, 1. Auflage, Vieweg
Verlag, Wiesbaden, 2002
Hippner, Hajo, Merzenich, Melanie; Wilde, Klaus D. (Hrsg): Handbuch Web
Mining im Marketing: Konzuepte, System, Fallstudien, Vieweg, Wiesbaden, 1.
Aufl., 2002
IVW, http://www.ivw.de/, 2005, Abruf am 2005-04-26
Jin, Xin; Zhou, Yanzan; Mobasher, Bamshad: A Unified Approach to
Personalization Based on Probabilistic Latent Semantic Models of Web Usage
and Content, 2004 http://maya.cs.depaul.edu/~mobasher/papers/swp04.pdf,
Abruf am 2005-05-17
Koutri, Martha; Avouris, Nikolaos; Daskalaki, Sophia: A survey on web usage
mining techniques for web-based adaptive hypermedia systems
http://www.ee.upatras.gr/hci/papers/v13_Koutri_Avouris_Daskalaki_2004.pdf,
2004, Abruf am 2005-04-26
Kosale, Raymond; Blockeel, Hendrik: Web Mining Research: A Survey,
http://maya.cs.depaul.edu/~classes/ect584/papers/kosala.pdf, July 2000, Abruf
am 2005-03-10
Microsoft:
IIS
Log
File
Formats,
http://msdn.microsoft.com/library/default.asp?url=/library/enus/iissdk/html/d577e14f-1ebd-4d24-a0d0-10989098db2d.asp, Abruf am 200504-25
Montgomery Alan L.; Li, Shibo; Srinivasan, Kannan and Liechty, John
C.:Modeling: Online Browsing and Path Analysis Using Clickstream Data,
http://www.andrew.cmu.edu/user/alm3/papers/purchase%20conversion.pdf, 3.
Review 2004, Abruf am 2005-04-23
Mobasher, Bamshad; Cooley, Robert; Srivastava, Jaideep: Automatic
Personalization
Based
on
Web
Usage
Mining,
2000,
http://maya.cs.depaul.edu/~mobasher/personalization/, Abruf am 2005-05-17
ÖWA, http://www.oewa.at/, 2005, Abruf am 2005-04-26
Perry, Andrew: Extraction of Useable Structures from Click Stream Data,
http://www- 40 -
[Rahm02]
[Saat03]
[Saty02]
[Sawm05]
[Silv02]
[SpFa99]
[ThHu05]
[Utzs04]
[W3C04]
[W3C95]
[W3C96]
[Weba05]
[Wiki05]
users.cs.york.ac.uk/~kimble/teaching/students/Andrew_Perry/Structures_from_C
lick_Stream_Data.pdf, März 2004, Abruf am 2005-04-26
Rahm,
Erhart:
Web
Usage
Mining,
http://mordor.prakinf.tuilmenau.de/papers/dbspektrum/dbs-02-75.pdf, 2002, Abruf am 2005-04-12
Saathoff,
Carsten:
Web
Usage
Mining,
http://www.dikoproject.de/dokumente/ausarbeitungen/saathoffc.pdf, 2003, Abruf am 2005-04-17
Satyan: Clickstream analysis: a potential information mine, 16. August 2002,
http://www.ciol.com/content/search/showArticle.asp?arid=37744, Abruf am
2005-05-17
Sawmill:
Documentation,
2005,
http://www.thesawmill.co.uk/docs/SawmillDocumentation.pdf, Abruf am 200505-17
Silverston, Len: Universal Data Models for Clickstream Analysis,
http://www.dmreview.com/article_sub.cfm?articleId=4479, 2002, Abruf am
2005-04-27
http://www.informatik.uni-siegen.de/~galeas/papers/web_usage_mining/WUM__A_Web_Utilization_Miner_(Spiliopoulou1999a).pdf
Theusinger, Christiane; Huber, Klaus-Peter :Analyzing the footsteps of your
customers
A
case
study
by
ASK|net
and
SAS
Institute
GmbH
http://ai.stanford.edu/~ronnyk/WEBKDD2000/papers/theusinger.pdf,
Datum
unbekannt, Abruf am 2005-04-23
Utzschneider, Rob: B2B Clickstream Analysis: Tracking the Potential,
http://www.teradata.com/t/page/116284/, 2004, Abruf am 2005-04-23
W3C: Platform for Privacy Preferences (P3P) Project, http://www.w3c.org/p3p,
2004, Abruf am 2005-04-20
W3C:
Logging
Control
In
W3C
httpd,
http://www.w3.org/Daemon/User/Config/Logging.html, 1995, Abruf am 200504-25
W3C: Extended Logfile Format, http://www.w3.org/TR/WD-logfile.html, Abruf
am 2005-04-25
The Webalizer, http://www.mrunix.net/webalizer/, Abruf am 2005-04-30
Wikipedia: Markow-Kette, http://de.wikipedia.org/wiki/Markow-Kette, Abruf
am 2005-05-17
- 41 -
10 Dictionary
Cookies
Heuristik
Hits
Packet Sniffing
Page Impression
Proxy
Session
Visits
Website
“bezeichnet Informationen, die ein Webserver zu einem Browser sendet,
um dem zustandslosen HTTP-Protokoll die Möglichkeit zu geben,
Information zwischen Aufrufen zu speichern” [www.wikipedia.org]
„Als Heuristik bezeichnet man eine Strategie, die das Streben nach
Erkenntnis und das Finden von Wegen zum Ziel planvoll gestaltet”
[www.wikipedia.org]
Abruf eines Files von einem Webserver
Abhören und mitloggen von Datenströmen im Ethernet
“Eine PageImpression stellt den Sichtkontakt eines Nutzers mit einer
Seite eines Online-Angebotes dar.” [www.oewa.at]
“Bezeichnung für einen Netzwerkdienst, der stellvertretend für einen
Klienten Netzwerkverbindungen aufbaut. Ein HTTP-Proxy zB besorgt
sich auf Anforderung HTML-Seiten stellvertretend für ein
Anzeigeprogramm. Durch dieses Prinzip kann Zwischenspeicherung und
Datenflußkontrolle
realisiert
werden.”
[gd.tuwien.ac.at/study/glossar/glossar/gloss-p.htm]
Siehe Visit
“Ein Visit definiert den Besuch eines Nutzers bei einem OnlineAngebot. Er stellt einen zusammenhängenden Nutzungsvorgang dar, bei
dem zumindest eine Seite eines Online-Angebotes (PageImpression)
abgerufen wird. Ein Visit umfasst daher eine oder mehrere
PageImpressions.” [www.oewa.at]
“Mit Website (auch: Webpräsenz, Internetpräsenz, oder Internetauftritt,
englisch: site = Ort, Standort, Platz, Stelle – nicht etwa Seite!) wird ein
ganzes Projekt im World Wide Web bezeichnet, das meist aus mehreren
Dokumenten (Dateien, Ressourcen) besteht, die durch eine einheitliche
Navigation (das Hypertext-Verfahren) zusammengefasst und verknüpft
werden.” [www.wikipedia.org]
- 42 -