3. Web Log Mining
Transcrição
3. Web Log Mining
Hochschule Wismar Fachbereich Wirtschaft Diplomarbeit Web Log Mining - Analyse der Eignung von Data Mining-Verfahren zur Auswertung von internetbasierten Nutzungsdaten und Unterstützung von unternehmerischen Entscheidungen bei der Optimierung von Internetangeboten Diplomarbeit zur Erlangung des Grades eines Diplom-Wirtschaftsinformatiker (FH) der Hochschule Wismar eingereicht von: Norman Wahnschaff geboren am 18. März 1979 in Magdeburg Studiengang Wirtschaftsinformatik, WI 1998 Betreuer Prof. Dr. rer. nat. Jürgen Cleve weitere Gutachter Prof. Dr. oec. Erhard Alde Schwerin, d. 21. Januar 2003 II Kurzreferat In dieser Arbeit wird die Anwendbarkeit von Data Mining-Verfahren zur Untersuchung des Verhaltens der Besucher von Webpräsenzen, anhand ihrer internetbasierten Nutzungsdaten, analysiert und auf ihre unterstützende Wirkung auf betriebswirtschaftliche Entscheidungen im Kontext der Optimierung der Webpräsenz geprüft. Die Auswertung dieser Daten wird unter dem Einsatz von Data Mining-Konzepten vorgenommen. Diese Konzepte werden theoretisch fundiert und auf ihre Übertragbarkeit auf praktische Problemfälle geprüft. In diesem Rahmen werden Softwareprodukte vorgestellt, die die Auswertung der Besuchernutzungsdaten unterstützen. Die Analyseergebnisse sollen die Grundlage für eine Optimierung des Internetangebotes in wirtschaftlicher und ergonomischer Hinsicht bilden. III IV Inhaltsverzeichnis 1. Einleitung 1.1. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Inhaltsübersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Knowledge Discovery in Databases und Data Mining 2.1. Begriffsdefinitionen und -abgrenzung . . . . . . . . 2.2. KDD-Prozess . . . . . . . . . . . . . . . . . . . . . 2.2.1. Datenselektion . . . . . . . . . . . . . . . . 2.2.2. Datenvorbereitung . . . . . . . . . . . . . . 2.2.3. Datentransformation . . . . . . . . . . . . . 2.2.4. Data Mining . . . . . . . . . . . . . . . . . . 2.2.5. Evaluation und Interpretation . . . . . . . . 1 1 2 . . . . . . . 5 5 6 6 7 9 10 11 3. Web Log Mining 3.1. Begriffsdefinitionen und -abgrenzung . . . . . . . . . . . . . . . . . . . . . . . 3.2. Datenschutz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 17 4. Datenkomponenten 4.1. Server-Logdateien . . . . . . . . . . . 4.1.1. Access-Logdatei . . . . . . . . 4.1.2. Error-Logdatei . . . . . . . . . 4.1.3. Referrer-Logdatei . . . . . . . 4.1.4. Agent-Logdatei . . . . . . . . . 4.1.5. Extended Logfile-Format . . . 4.2. Cookies . . . . . . . . . . . . . . . . . 4.2.1. Aufbau . . . . . . . . . . . . . 4.2.2. Anwendungen . . . . . . . . . 4.3. Technische Probleme . . . . . . . . . 4.3.1. Caching . . . . . . . . . . . . . 4.3.2. Proxy-Server . . . . . . . . . . 4.3.3. Dynamische Internetadressen 4.4. Messgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 19 21 23 23 24 24 25 25 26 28 28 29 30 30 5. Prozess des Web Log Mining 5.1. Datengenerierung . . . . . . . . . . . . . . . . . . 5.2. Datenselektion . . . . . . . . . . . . . . . . . . . . 5.3. Transaktionsidentikation und Datentransformation 5.3.1. Transaktionsidentikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 33 34 37 37 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V Inhaltsverzeichnis 5.3.2. Datentransformation . . . . . . . . . . . 5.4. Data Mining . . . . . . . . . . . . . . . . . . . . 5.4.1. Aufgaben des Data Mining . . . . . . . 5.4.2. Verfahren des Data Mining . . . . . . . 5.4.2.1. Clusteranalyse . . . . . . . . . 5.4.2.2. Neuronale Netze . . . . . . . . 5.4.2.3. Entscheidungsbauminduktion 5.4.2.4. Assoziationsanalyse . . . . . . 5.4.2.5. Pfad- und Sequenzanalyse . . 5.4.2.6. Deskriptive Statistik . . . . . . 5.5. Evaluation und Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 44 44 45 46 48 51 52 54 56 57 6. Vorstellen von Data Mining-Programmen im Kontext des Web Log Mining 6.1. Websuxess 4.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. XAffinity 3.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3. KnowledgeStudio 3.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 59 61 62 7. Web Log Mining der PLANET internet commerce GmbH-Homepage 7.1. Datengenerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2. Datenselektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3. Transaktionsidentifikation und Datentransformation . . . . . . . . . 7.3.1. Transaktionsidentifikation . . . . . . . . . . . . . . . . . . . 7.3.2. Datentransformation . . . . . . . . . . . . . . . . . . . . . . 7.4. Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.1. Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.2. Entscheidungsbauminduktion . . . . . . . . . . . . . . . . . 7.4.3. Neuronale Netze . . . . . . . . . . . . . . . . . . . . . . . . 7.4.4. Assoziationsanalyse . . . . . . . . . . . . . . . . . . . . . . 7.4.5. Pfadanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.6. Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . 7.5. Evaluation und Interpretation . . . . . . . . . . . . . . . . . . . . . 7.5.1. Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . 7.5.2. Entscheidungsbauminduktion . . . . . . . . . . . . . . . . . 7.5.3. Neuronale Netze . . . . . . . . . . . . . . . . . . . . . . . . 7.5.4. Assoziationsanalyse . . . . . . . . . . . . . . . . . . . . . . 7.5.5. Pfadanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5.6. Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . 7.6. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 66 67 68 68 69 76 76 77 82 83 84 86 87 88 88 93 94 97 100 102 8. Fazit und Ausblick 105 A. Thesen 111 VI Tabellenverzeichnis 3.1. Vergleich der KDD-Definition mit der Web Log Mining-Definition . . . . . . . . 3.2. Web Log Mining-Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 16 4.1. Wichtige Statuscodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Überblick der Logdatei-Informationen . . . . . . . . . . . . . . . . . . . . . . . 22 25 5.1. Logdateieintrag eines Seitenabrufs . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Logdateieintrag eines Seitenabrufs mit eingebetteten Elementen . . . . . . . 5.3. Logdateieinträge mit unterschiedlichen Übertragungsmethoden . . . . . . . . 5.4. Fehlerhafter Ressourcenabruf . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5. Verfälschende Elemente in Logdateien . . . . . . . . . . . . . . . . . . . . . . 5.6. Aufspaltung zusammengesetzter in einzelne Attribute . . . . . . . . . . . . . 5.7. Transaktionsidentifikation mittels Vergleich von Internetadresse und Agentfeld 5.8. Transaktionen mittels Vergleich von Internetadresse und Agentfeld . . . . . . 5.9. Exemplarische Logdatei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.10.Transaktionsidentifikation mit einem Zeitfenster . . . . . . . . . . . . . . . . . 5.11.Datenmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.12.Kodierung des Transaktionsfeldes . . . . . . . . . . . . . . . . . . . . . . . . 5.13.Ermittlung der Referenzdauer . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.14.Diskretisierung der Verweildauer . . . . . . . . . . . . . . . . . . . . . . . . . 34 35 35 36 36 37 38 38 40 41 42 42 43 43 7.1. Bereiche der PLANET GmbH-Homepage . . . . . . . . . . . . . . . . . . . . 7.2. Umfang der PLANET GmbH-Logdateien . . . . . . . . . . . . . . . . . . . . . 7.3. Doppelte Logdateieinträge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4. Unangereicherte Transaktionsdaten . . . . . . . . . . . . . . . . . . . . . . . 7.5. Angereicherte Transaktionsdaten . . . . . . . . . . . . . . . . . . . . . . . . . 7.6. Zusätzliche Attribute mit Hilfe von Identifizierungsmechanismen . . . . . . . . 7.7. Datenbasis für die Assoziationsanalyse . . . . . . . . . . . . . . . . . . . . . 7.8. Ergebnisse der Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 7.9. Verteilung der Ausprägungen des Attributs „Besucherverhalten“ . . . . . . . . 7.10.Ausprägungsverteilung in Trainings- und Validierungsmenge (Verhältnis 50/50) 7.11.Vorhersageergebnisse der Entscheidungsbauminduktion (Verhältnis 50/50) . 7.12.Ausprägungsverteilung in Trainings- und Validierungsmenge (Verhältnis 70/30) 7.13.Vorhersageergebnisse der Entscheidungsbauminduktion (Verhältnis 70/30) . 7.14.Vorhersageergebnisse der Neuronalen Netze . . . . . . . . . . . . . . . . . . 7.15.Häufigste Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.16.Häufigste Pfade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.17.Traffic nach Wochentagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 67 68 70 74 75 76 77 78 80 81 81 82 83 84 85 86 VII Tabellenverzeichnis 7.18.Die beliebtesten Ressourcen . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.19.Vorhergesagte und tatsächliche Gruppenverteilung mit der Entscheidungsbaumvorhersage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.20.Vorhergesagte und tatsächliche Gruppenverteilung mit Neuronalen Netzen . 7.21.Interessante Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . 7.22.Dokumente, die die Besucher zum Anklicken des Kontaktformulars animiert haben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VIII 87 93 94 94 99 Abbildungsverzeichnis 2.1. KDD-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.1. Taxonomie des Web Log Mining . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.1. 4.2. 4.3. 4.4. 4.5. 4.6. 4.7. Konzept der serverseitigen Protokollaufzeichnung . . . . . Ausschnitt einer typischen Logdatei im CLF-Format . . . . Ausschnitt einer typischen Logdatei im ELF-Format . . . . Ausschnitt einer Logdatei im ELF-Format mit Kennungsfeld Caching-Mechanismus . . . . . . . . . . . . . . . . . . . . . Funktionsweise eines Proxy-Servers . . . . . . . . . . . . . Hierarchie der Messgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 24 28 29 29 31 5.1. Web Log Mining-Prozess . . . . . . . . . . . . . . . . . . . . 5.2. Data Mining-Ziele und Data Mining-Aufgaben . . . . . . . . . 5.3. Data Mining-Aufgaben und Data Mining-Verfahren . . . . . . 5.4. Clusteranalyse von Besuchern . . . . . . . . . . . . . . . . . 5.5. Schema eines Neurons . . . . . . . . . . . . . . . . . . . . . 5.6. Darstellung eines Neuronalen Netzes . . . . . . . . . . . . . 5.7. Neuronales Netz für die Vorhersage des Besucherverhaltens 5.8. Ergebnisnetz für die Vorhersage des Besucherverhaltens . . 5.9. Exemplarischer Entscheidungsbaum . . . . . . . . . . . . . . 5.10.Navigationspfad einer Transaktion . . . . . . . . . . . . . . . 5.11.Beispielchart von täglichen Page Views . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 44 46 47 48 49 50 50 52 55 57 6.1. 6.2. 6.3. 6.4. Oberfläche von Websuxess 4.0 . . . . . . . . . . . . . . . . . Oberfläche von XAffinity 3.0 . . . . . . . . . . . . . . . . . . . Segmentansicht einer Datenmenge mit KnowledgeStudio 3.0 Entscheidungsbaum des KnowledgeStudios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 62 63 64 7.1. 7.2. 7.3. 7.4. 7.5. 7.6. 7.7. Homepage der PLANET internet commerce GmbH . . . . . . . . . Traffic nach Stunden . . . . . . . . . . . . . . . . . . . . . . . . . . Beziehungen zwischen HTML-Dokumenten . . . . . . . . . . . . . Beziehungen zwischen HTML-Dokumenten . . . . . . . . . . . . . Beziehungen zwischen HTML-Dokumenten . . . . . . . . . . . . . Häufigste Klickpfade . . . . . . . . . . . . . . . . . . . . . . . . . . Aufrufmöglichkeit des Kontaktformulars aus einem Produktbereich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 86 95 95 96 98 99 IX Abbildungsverzeichnis X Abkürzungsverzeichnis Abb. Abs. AG AOL Art. ASCII Bd. BDSG Bit bzw. ca. CD CERN CGI CHAID CART CLF CMS CSS CSV d.h. DIN DNS DSL e.V. E-Commerce ELF E-Mail GIF GmbH GMT Hrsg. HTML HTTP HTTPS i.a. ICANN Abbildung Absatz Aktiengesellschaft America Online Artikel American Standard Code for Information Interchange Band Bundesdatenschutzgesetz Binary Digit beziehungsweise circa Compact Disc Conseil Europeén pour la Recherche Nucléaire Common Gateway Interface Chi-Squared Automatic Interaction Detection Classification and Regression Trees Common Logfile Content-Management-System Cascading Stylesheets Comma Separated Values das heißt Deutsches Institut für Normung Domain Name System Digital Subscriber Line eingetragener Verein Electronic Commerce Extended Logfile Electronic Mail Graphic Interchange Format Gesellschaft mit beschränkter Haftung Greenwich Meridian Time Herausgeber Hypertext Markup Language Hypertext Transfer Protocol Hypertext Transfer Protocol Secure im allgemeinen The Internet Corporation for Assigned Names and Numbers XI Abbildungsverzeichnis i.d.R. ID ID3 IIS IP ISP IuK IuKDG IVW Jg. JPG KB KDD KI LAN MB Min. NCSA Nr. o.V. ODBC PDF PNG ROI RFC S. SQL SSL Tab. TDDSG TDG u.a. u.U. u. überarb. URL VD vgl. W3C WI Win WWW z.B. z.T. XII in der Regel Identifer Interactive Dichotomiser 3 Internet Information Server Internet Protocoll Internet Service Provider Information und Kommunikation Informations- und Kommunikationsdienstegesetz Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V. Jahrgang Joint Photographic Expert Group Kilobyte Knowledge Discovery in Databases Künstliche Intelligenz Local Area Network Megabyte Minuten National Center for Supercomputing Applications Nummer ohne Verfasser Open Database Conncetivity Portable Document Format Portable Network Graphic Return on Investment Request for Comment Seite Structured Query Language Secure Sockets Layer Tabelle Teledienstdatenschutzgesetz Teledienstgesetz unter anderem unter Umständen und überarbeitete Uniform Resource Locator Verweildauer vergleiche World Wide Web Consortium Wirtschaftsinformatik Windows World Wide Web zum Beispiel zum Teil 1. Einleitung 1.1. Motivation Das Internet hat sich in den letzten Jahren zu einem bedeutenden Medium für die Abwicklung geschäftlicher Prozesse entwickelt. Da die Webpräsenz eines Unternehmens immer häufiger den ersten Kontakt zwischen einem potentiellen Kunden und dem Unternehmen herstellt, hat sie stark an Bedeutung gewonnen. Gerade in einem so stark umkämpften Markt wie dem Internet, ist es von immenser Bedeutung sich Wettbewerbsvorteile gegenüber der Konkurrenz zu verschaffen, denn der Kunde ist nur einen Mausklick von dem nächsten Angebot entfernt. Unternehmungen, die über eigene Webpräsenzen verfügen, sammeln automatisch Nutzungsdaten in sogenannten Logdateien über die virtuellen Besuche ihrer (potentiellen) Kunden. Die hierbei anfallenden Daten werden aber häufig nur unzureichend verwertet. Da sich die Nutzungsdaten aus wirtschaftlichem Hintergrund auf das Verhalten von Marktpartnern beziehen, sind sie zur Unterstützung wirtschaftlicher Entscheidungen von großer Bedeutung. Das Management muss wissen, wer die Website besucht und, was noch wichtiger ist, wer etwas kauft bzw. warum nichts gekauft wird. Websites werden heute als Investition gesehen und müssen ihre Notwendigkeit, wie jede andere Marketinginvestition, begründen. Je mehr man darüber weiß, wie viele Kunden die Website besuchen, wer sie sind und für welche Bereiche sie sich interessieren, desto mehr wird die Website davon profitieren. Werden diese Informationen zur Optimierung der Website genutzt und mit anderen gängigen Marketingaktivitäten verbunden, kann der gesamte Internetauftritt stark verbessert werden. Einen Ansatzpunkt, um diese Nutzungsdaten effektiv verwenden zu können, liefern dabei die Konzepte des Knowledge Discovery in Databases und Data Mining. Vor dem internetbasierten Hintergrund der Datenanalyse wird dieser Sachverhalt als Web Log Mining bezeichnet. Diese Arbeit beschäftigt sich mit der Untersuchung von Data Mining-Verfahren zur Auswertung von internetbasierten Nutzungsdaten (Logdateien) und deren Nutzen zur Unterstützung unternehmerischer Entscheidungen im Kontext der Optimierung von Internetangeboten. In diesem Rahmen werden zunächst die konzeptionellen Grundlagen für die Datenanalyse untersucht. Darauf aufbauend wird geprüft, ob diese Konzepte wirksam auf das Gebiet des 1 Kapitel 1. Einleitung Web Log Mining anwendbar sind. In diesem Zusammenhang werden Softwareprodukte vorgestellt, die bei der Lösung der Analyseprobleme Anwendung finden. Abschließend wird die Übertragbarkeit dieser Konzepte auf praktische Problemstellungen und deren Nutzen zur Unterstützung unternehmerischer Entscheidungen bezüglich der Verbesserung des Internetangebotes analysiert. Die Untersuchungsergebnisse sollen die Grundlage für eine Optimierung von Internetangeboten in wirtschaftlicher und ergonomischer Hinsicht bilden. 1.2. Inhaltsübersicht Zunächst werden die konzeptionellen Grundlagen für die Datenanalyse untersucht. In diesem Rahmen wird im zweiten Kapitel, Knowledge Discovery in Databases und Data Mining, ein inhaltlicher Bezugsrahmen, mit der Definition von Knowledge Discovery in Databases und Data Mining, für das Web Log Mining geschaffen. Auf dieser Basis erfolgt im dritten Kapitel, Web Log Mining, die Definition und prozessorientierte Darstellung des Web Log Mining. Dabei werden auch die rechtlichen Rahmenbedingungen betrachtet. Im vierten Kapitel, Datenkomponenten, wird auf die Datenkomponenten, die die Datenbasis des Web Log Mining bilden, eingegangen. In diesem Zusammenhang werden technische Probleme aufgezeigt und die Messgrößen vorgestellt. Im Rahmen des fünften Kapitels, Prozess des Web Log Mining, erfolgt die detaillierte Definition und prozessorientierte Darstellung der einzelnen Phasen des Web Log Mining. Hierbei werden Data Mining-Verfahren dargestellt, die im weiteren Verlauf der Arbeit Anwendung finden. Im sechsten Kapitel, Vorstellen von Data Mining-Programmen im Kontext des Web Log Mining, werden Data Mining-Produkte vorgestellt, die im Rahmen dieser Arbeit eingesetzt werden. Der praxisorientierte Teil der Arbeit folgt in Kapitel sieben, Web Log Mining der PLANET internet commerce GmbH-Homepage. Dabei wird das in Kapitel drei und fünf theoretisch fundierte Web Log Mining-Konzept auf seine praktische Anwendbarkeit geprüft. In diesem Zusammenhang wird die in Kapitel sechs vorgestellte Data Mining-Software, mit den internetbasierten Nutzungsdaten der Internetpräsenz der Planet internet commerce GmbH, eingesetzt. Am Ende des siebten Kapitels erfolgt eine Zusammenfassung der Analyseergebnisse und eine Beurteilung der praktischen Bedeutung dieser Resultate. Das achte Kapitel, Fazit und Ausblick, gibt eine abschließende Zusammenfassung der Untersuchungsergebnisse der Arbeit. Es erfolgt eine Bewertung des Web Log Mining-Konzeptes und deren Nutzen zur Unterstützung unternehmerischer Entscheidungen bezüglich der Ver- 2 1.2. Inhaltsübersicht besserung des Internetangebotes. Dabei werden auch Möglichkeiten aufgezeigt, wie die Analyseergebnisse des Web Log Mining bei zukünftigen Projekten Anwendung finden können. Anhang A, Thesen, rundet die Arbeit, mit abschließenden Feststellungen bezüglich zur Analyse der Eignung von Data Mining-Verfahren zur Auswertung von internetbasierten Nutzungsdaten und Unterstützung von unternehmerischen Entscheidungen bei der Optimierung von Internetangeboten, ab. 3 Kapitel 1. Einleitung 4 2. Knowledge Discovery in Databases und Data Mining 2.1. Begriffsdefinitionen und -abgrenzung Die Anzahl und Größe der weltweit routinemäßig anfallenden Datensammlungen und Datenbanken nimmt ständig zu. Es wird geschätzt, dass sich die weltweit vorhandene Datenmenge alle 20 Monate verdoppelt - bei Datenbanken ist die Rate wahrscheinlich noch höher1 . Viele dieser Datenbanken speichern riesige Datenmengen mit Tausenden oder Millionen von Datensätzen. Die Daten werden ursprünglich meist für andere Zwecke als die Verwendung in Data Mining-Systemen erfasst und routinemäßig archiviert. Sie resultieren aus verschiedenen Erfassungsprozessen, und oft ist der Grund für ihre Speicherung, die ausreichend zur Verfügung stehende, preisgünstige Speicherkapazität. Ausgangspunkt für die Entwicklung der Konzepte des Data Mining und des Knowledge Discovery in Databases (KDD) ist diese Informationsflut. Wie oft bei jungen Forschungsrichtungen, ist das Begriffsverständnis zu Beginn recht uneinheitlich. Während sich in der englischsprachigen Literatur bspw. eine deutliche Abgrenzung der Begriffe Knowledge Discovery in Databases und Data Mining findet, werden beide aufgrund einer inhaltlichen Deckungsgleichheit im Deutschen oft synonym gebraucht2 . Im Folgenden soll versucht werden beide Begriffe voneinander zu differenzieren und zu definieren. Der Begriff Data Mining wurde vorwiegend von Statistikern, Datenanalysten und der Management-Informationssystem-Gemeinde, KDD von den Vertretern für Künstliche Intelligenz und dem Maschinellen Lernen verwendet3 . Fayyad schlug 1996 eine heute weithin anerkannte Definition vor, in der die beiden Begriffe getrennt wurden4 : „Knowledge Discovery in databases is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.“ 1 2 3 4 [MENA00] S. 63 ff. [WIED01] S. 19 Vgl. [KÜPP99] S. 23 [FAYY96] S. 6 und S. 9 5 Kapitel 2. Knowledge Discovery in Databases und Data Mining „Data Mining is a step in the KDD-Process consisting of particular data mining algorithms that, under some acceptable computational efficiency limitations, produce a particular enumeration of patterns.“ Knowledge Discovery in Databases ist eine interdisziplinäre Forschungsrichtung, zu deren Entstehung und Entwicklung insbesondere die Forschungsgebiete Maschinelles Lernen, Datenbanksysteme und Statistische Datenanalyse beigetragen haben5 . Dieser in der Literatur auch als „Knowledge Extraction“ oder „Data Analysis“ bezeichnete Prozess ist darauf ausgerichtet, in umfangreichen Datenbeständen implizit vorhandenes Wissen zu entdecken und explizit zu machen. Der Prozessbegriff beinhaltet mehrere iterative Schritte wie Datenvorverarbeitung, Mustererkennung und Evaluation, die notwendig sind, um verwertbare Ergebnisse zu erhalten, was im nächsten Abschnitt noch einmal verdeutlicht wird. KDD bezeichnet also den gesamten Prozess der Wissensentdeckung in großen Datenbeständen, während Data Mining die Anwendung verschiedener Algorithmen zur Musterextraktion zum Inhalt hat. Die gefundenen Muster müssen für einen möglichst großen Teil der Daten Geltung haben und bislang unbekannte, potentiell nützliche und leicht verständliche Zusammenhänge in den Daten zum Ausdruck bringen. Aus den ermittelten Beziehungsmustern wird schließlich durch Interpretation und Evaluation explizites Wissen abgeleitet6 . 2.2. KDD-Prozess Im Vorfeld des KDD-Prozesses wird relevantes und bereits vorhandenes Wissen über den gewünschten Anwendungsbereich gesammelt sowie die Zielsetzung der Anwendung festgelegt. Die Analyse von Rahmenbedingungen bildet einen weiteren Bestandteil der Vorbereitung. Diese lassen sich mit Hilfe eines Lösungsszenarios herauskristallisieren. Dabei wird festgestellt, welche Optionen der KDD-Prozess beinhalten kann und welche aus finanziellen, organisatorischen oder politischen Gründen nicht in Frage kommen7 . Die Abbildung 2.1 zeigt die Schritte, die bei dem KDD-Prozess iterativ durchlaufen werden. Im Folgenden werden die einzelnen Phasen des KDD-Prozesses erläutert. 2.2.1. Datenselektion In der ersten Phase des KDD- Prozesses sind die Daten, die für die vom Anwender angeforderte Analyse benötigt werden oder geeignet erscheinen, zu bestimmen und aus den gegebenen Datenquellen zu extrahieren. Neben dem Basisdatenbestand können auch externe 5 6 7 6 [DÜSI98] S. 291 f., [BENS01a] S. 61 f. [KIMM00] S. 12 [DAST00] S. 1 2.2. KDD-Prozess Abbildung 2.1.: KDD-Prozess, Vgl. [FAYY96] S. 10 Daten für die Analyse herangezogen werden. So bieten bspw. Adressbroker8 Informationen an, mit denen Kunden oder Interessenten zusätzlich qualifiziert werden können. In der Phase der Datenselektion wird geprüft, welche Daten notwendig und verfügbar sind, um das gesetzte Ziel zu erreichen. Können die selektierten Daten aufgrund technischer oder rechtlicher Restriktionen nicht in einen Zieldatenbestand überführt werden, ist die Datenselektion erneut vorzunehmen9 . Technische Restriktionen, die die Überführung in einen Zieldatenbestand verhindern, sind z.B. Kapazitäts- und Datentypbeschränkungen des Zielsystems oder fehlende Zugriffsrechte des Anwenders. Eine Möglichkeit diese Probleme zu umgehen, ist die Beschränkung der Auswahl auf eine repräsentative Teildatenmenge des Gesamtdatenbestands. Jedoch können in diesem Zusammenhang verfälschte Analyseergenisse hervorgerufen werden. Bei der Verarbeitung personenbezogener Daten sind in Deutschland die rechtlichen Bestimmungen10 des Bundesdatenschutzgesetzes zu beachten. 2.2.2. Datenvorbereitung Da die Zieldaten aus den Datenquellen lediglich extrahiert wurden, ist im Rahmen der Datenvorbereitung die Datenqualität des Zieldatenbestands festzustellen und, sofern notwendig, 8 9 10 Einen umfangreichen Überblick bietet [MENA00] S. 314 ff. [BENS01a] S. 74 Vgl. Abschnitt 3.2 7 Kapitel 2. Knowledge Discovery in Databases und Data Mining durch den Einsatz geeigneter Verfahren zu steigern11 . Aufgrund technischer oder menschlicher Fehler können die Daten operativer Systeme fehlerhafte Elemente enthalten. In der Praxis wird damit gerechnet, das ein bis fünf Prozent der Felder des Datenbestands falsche Angaben aufweisen12 . Die Kenntnis der Schwächen der Analysedaten ist elementar für die Qualität der Untersuchungsergebnisse. Die Anwender der Analysewerkzeuge müssen auf die Zuverlässigkeit und Korrektheit der Daten vertrauen können. Fehlerhafte Daten verfälschen möglicherweise die Resultate, ohne dass der Anwender von diesen Mängeln Kenntnis erlangt, und fehlende Informationen verhindern eventuell die Berechnung wichtiger Kennzahlen. Die zunehmende Durchführung (teil-) automatisierter Datenanalysen hat eine erhöhte Anfälligkeit gegenüber Datenmängeln zur Folge, der durch geeignete Mechanismen zur Erkennung und Beseitigung solcher Schwächen zu begegnen ist13 . Eine häufige, leicht zu identifizierende Fehlerart besteht in fehlenden Werten. Zur Behandlung von fehlenden Werten stehen unterschiedliche Techniken zur Verfügung. Gängige Ersetzungsstrategien für numerische Attributausprägungen sind das Einsetzen eines Nullwertes, eines Mittel-, Maximaloder Minimalwertes oder des Medians von Attributwerten innerhalb der Grundgesamtheit, einer repräsentativen Teilmenge oder einer Klasse. Bei nichtnumerischen Attributausprägungen kann es dagegen sinnvoll sein, die häufigste Attributausprägung einzusetzen14 . Eine weitere Möglichkeit Attribute zu ersetzen, ist die nachträgliche manuelle Erhebung der fehlenden Daten, das kann aber zu einem unverhältnismäßig hohen Aufwand führen. Eine weitere potentielle Fehlerart wird durch Ausreißer15 hervorgerufen. Dabei handelt es sich um Wertausprägungen, die deutlich vom Niveau der übrigen Werte abweichen. Bei diesen Ausprägungen kann es sich um korrekt erfasste Daten handeln, die damit Eingang in die Analyse finden oder aber um falsche Angaben, die nicht berücksichtigt werden dürfen und daher aus dem Datenbestand zu löschen sind. Die Erkenntnisse, die der Nutzer eines DataMining-Systems in dieser Phase über den Datenbestand gewinnt, können Hinweise auf die Verbesserung der Datenqualität der operativen Systeme geben16 . Mithilfe von geeigneten Dienstprogrammen17 ist es möglich, ein grundlegendes Verständnis dieser Daten zu erlangen und eventuell schon neues Wissen zu ermitteln. 11 12 13 14 15 16 17 8 [BENS01a] S. 74 [GROB99]S. 8 [KNOB00] S. 90 f. [BENS01a] S. 75 Umfassendere Informationen bietet [RUNK00] S. 17 ff. [GROB99] S. 8 [MENA00] S. 188 f. stellt in diesem Zusammenhang die leistungsstarken Editoren UltraEdit-32 und Data Junction vor. 2.2. KDD-Prozess 2.2.3. Datentransformation Die im Unternehmen verfügbaren Rohdatenbestände erweisen sich häufig in ihrer Ursprungsform nicht für Data-Mining-Analysen geeignet oder als fehlerhaft. In der Phase der Datentransformation wird der analyserelevante Zieldatenbestand in ein Datenbankschema transformiert, das von dem verwendeten Data-Mining-System verarbeitet werden kann. Dabei werden neue Attribute oder Datensätze generiert bzw. vorhandene Attribute transformiert. Dieser Schritt ist notwendig, da Analyseverfahren spezifische Anforderungen an die Datenstruktur der Eingangsdaten stellen. Ziel der Transformation ist insbesondere die Gewährleistung invarianter Datendarstellungsformen (z.B. durch Übersetzung textueller Informationen in eindeutige Schlüssel oder Kodierungen) sowie die Einschränkung von Wertebereichen zur Verringerung der Anzahl zu betrachtender Ausprägungen (Dimensionsreduktion). Letzteres kann durch Verallgemeinerung von Attributwerten auf eine höhere Aggregationsstufe, z.B. durch Nutzung von Taxonomien oder durch Bildung von Wertintervallen geschehen, wodurch sich die Granularität der Daten ändert18 . Die Transformation der Attribute wird unter Verwendung von Kodierungsverfahren durchgeführt. Dabei können neue Attribute durch Anwendung logischer oder mathematischer Operatoren auf eines oder mehrere Attribute des Zieldatenbestandes erzeugt werden. Gängige Kodierungsverfahren sind z.B. Normalisierung, Binärkodierung oder Diskretisierung, die nachfolgend kurz erläutert werden sollen: • Die Binärkodierung erzeugt aus Attributen mit einer bestimmten Anzahl Merkmalsausprägungen eine Menge binärer Attribute. Jeder Merkmalsausprägung wird ein binäres Merkmal zugeordnet, das den Wert 1 annimmt, wenn die Ausprägung in einem einzelnen Datensatz vorkommt und sonst den Wert 0 besitzt19 . Dieses Verfahren kann z.B. das Attribut Kaufverhalten mit den Ausprägungen Käufer und Nichtkäufer so kodiert, das alle Käufer den Wert 1 annehmen und alle Nichtkäufer den Wert 0. Auf diese Weise kann ein qualitatives Attribut in mehrere binärkodierte Attribute überführt werden. Das Binärkodierungsverfahren bereitet qualitative Attribute für Algorithmen vor, die quantitative Eingabefolgen erfordern. Bei der Anwendung der Binärkodierung ist zu beachten, dass die Performanz der Mustererkennung durch die steigende Attributanzahl beeinträchtigt werden kann20 . • Die Normalisierung ist ein Kodierungsverfahren, bei der sämtliche Merkmalsausprägungen eines Attributs auf die Werte einer stetigen, numerischen Skala (z.B. [0;1]) transformiert werden. Dabei werden alle Werte durch den ermittelten Maximalwert dividiert oder mit dem Minimalwert subtrahiert und mit dem Bereich zwischen Maximal18 19 20 Vgl. [KNOB00] S. 91 ff. Vgl. [GRIM98] S. 114 Vgl. [BENS01a] S. 78 9 Kapitel 2. Knowledge Discovery in Databases und Data Mining und Minimalwert dividiert. Eine andere Normalisierungstechnik bestünde darin, den statistischen Mittelwert und die Standardabweichung der Attributwerte zu berechnen, den Mittelwert von jedem Wert zu subtrahieren und das Ergebnis durch die Standardabweichung zu dividieren. Das Verfahren der Normalisierung kann dann angewendet werden, wenn Minimum und Maximum eines Attributes gegeben sind21 . Die Normalisierung kann z.B. zur Kodierung des Alters eingesetzt werden. Der Minimalwert hierbei sind 0 Jahre und der Maximalwert bspw. 100 Jahre. Ein Alter von 40 Jahren würden dann, auf einer Skala von 0 bis 1, mit 0,4 kodiert werden. • Das Kodierungsverfahren Diskretisierung wird angewendet, um den Wertebereich von quantitativen Attributausprägungen in endlich viele Teilmengen zusammenzufassen. Die Diskretisierung kann z.B. bei der Verallgemeinerung des Alters sinnvoll sein, da auf diese Weise die Altersinformationen zu Altersgruppen zusammengefasst werden können und so eine Reduzierung der Attributausprägungen erreicht wird22 . Die bisher dargestellten Aktivitäten der Datenselektion, Datenvorbereitung und Datentransformation verbrauchen einen erheblichen Teil der Gesamtressourcen des KDD-Prozesses. In der Praxis kann nach Expertenschätzungen die Datenvorbereitung ca. 80 Prozent der Zeit und Kosten des gesamten KDD-Prozesses beanspruchen23 . 2.2.4. Data Mining Liegen geeignete Datenbestände in befriedigender Qualität vor, können die Analysen durchgeführt werden. In dieser Phase erfolgt die Verfahrensauswahl und deren Einsatz zur Identifikation von Mustern auf der Basis des vorbereiteten Datenbestandes. In einem ersten Schritt wird zunächst entschieden, welche grundlegende Data Mining-Operation24 (z.B. Klassifizierung oder Segmentierung ) eingesetzt werden soll. Daran schließt sich die Auswahl eines geeigneten Data Mining-Verfahrens25 (z.B. Clusteranalyse oder Neuronale Netze) an. Nach der Auswahl eines für die konkrete Problemstellung geeigneten Verfahrens muss diese konfiguriert werden. Diese Parametrisierung bezieht sich auf die Vorgabe bestimmter methodenspezifischer Werte, wie z.B. die Festlegung minimaler relativer Häufigkeiten zur Realisierung eines Interessantheitsfilters, die Auswahl der bei der Musterbildung oder -beschreibung zu berücksichtigenden Attribute oder die Einstellung von Gewichtungsfaktoren für einzelne Eingabevariablen26 . Wenn eine zufriedenstellende Konfiguration gefunden wurde, kann mit der Suche nach interessanten Mustern in den Daten begonnen werden. 21 22 23 24 25 26 [WITT01] S. 56, [PYLE99] S. 251 ff. [SCHM00a] S. 19 f., [BÖHM00] S. 1 ff. [ALPR00a] S. 38 f. Vgl. Abschnitt 5.4.1 Vgl. Abschnitt 5.4.2 [KNOB00] S. 97 ff. 10 2.2. KDD-Prozess 2.2.5. Evaluation und Interpretation In dieser Phase des KDD-Prozesses werden die entdeckten Muster und Beziehungen bewertet und interpretiert. Diese Muster sollen den Anforderungen der Gültigkeit, Neuartigkeit, Nützlichkeit und Verständlichkeit genügen, um neues Wissen zu repräsentieren und einer Interpretation zugänglich zu sein. Letztere ist Voraussetzung für die Umsetzung der gewonnenen Erkenntnisse im Rahmen konkreter Handlungsmaßnahmen. Bei Weitem nicht alle der aufgedeckten Muster erfüllen jedoch diese Kriterien. Die Analyseverfahren fördern vielmehr eine Vielzahl von Regelmäßigkeiten zutage, die irrelevant, trivial, bedeutungslos, bereits bekannt waren, aus denen dem Unternehmen kein ökonomischer Nutzen erwachsen kann oder die unverständlich und nicht nachvollziehbar sind. Die Bewertung von Mustern kann anhand des Kriteriums der Interessantheit vollzogen werden. Im Folgenden werden Dimensionen der Interessantheit dargestellt27 : • Die Validität eines Musters ist ein objektives Maß dafür, mit welcher Sicherheit ein Muster auch in Bezug auf neue Daten gültig ist. • Das Kriterium der Neuartigkeit erfasst, inwieweit ein Muster das bisherige Wissen ergänzt oder im Widerspruch zu diesem steht. • Die Verständlichkeit misst, wie gut eine Aussage von einem Anwender verstanden werden kann. • Das Kriterium der Nützlichkeit eines Musters erfasst die praktische Anwendbarkeit für den Anwender. Die korrekte Interpretation von Data-Mining-Ergebnissen erfordert ein hohes Maß an Domänenkenntnissen. Die Interpretation soll dazu dienen, das Domänenwissen des Anwenders effektiv zu verändern. Im Idealfall sollte ein Team von Experten aus unterschiedlichen Bereichen gebildet werden, um sicherzustellen, dass die Bewertung korrekt ist und die gewonnenen Informationen der bestmöglichen Nutzung zugeführt werden. Die Interpretationsphase lässt sich durch geeignete Präsentationswerkzeuge sowie durch die Verfügbarkeit zusätzlicher Informationen über die Anwendungsdomäne unterstützen. Typischerweise erfolgt in dieser Phase ein Rücksprung in eine der vorherigen Phasen. So ist meist eine Anpassung der Parameter notwendig oder die Auswahl einer anderen Data Mining-Technik erforderlich. Es kann auch nötig sein, zu der Datenselektionsphase zurückzukehren, wenn festgestellt wird, dass sich die gewünschten Ergebnisse nicht mit der genutzten Datenbasis erreichen lassen28 . 27 28 Vgl. [KÜPP99] S. 88 ff., [KNOB00] S. 99 ff., [BENS01a] S. 88 f. Vgl. [KNOB00] S. 99 11 Kapitel 2. Knowledge Discovery in Databases und Data Mining 12 3. Web Log Mining 3.1. Begriffsdefinitionen und -abgrenzung Ansätze des Data Mining, die das Internet als Datenquelle für die Mustererkennung heranziehen, werden unter dem Themengebiet des Web Mining zusammengefasst. In Abhängigkeit von der inhalts- oder nutzungsorientierten Analyse des World Wide Web (WWW) lassen sich die Teilgebiete des Web Content Mining und des Web Usage Mining voneinander abgrenzen1 . Web Content Mining befasst sich mit der Analyse von den im WWW befindlichen Daten. Dazu gehören textuelle und multimediale Informationen jeglichen Formats und auch die Verbindungen (Links) zu den Nachbarseiten. Diese Richtung des Web Mining trägt nicht dazu bei, Informationen über Online-Kunden zu gewinnen und soll daher hier nicht näher betrachtet werden. Web Usage Mining dagegen beschäftigt sich mit dem Verhalten von Internet-Nutzern. Bei dieser Ausprägungsform des Web Mining werden Data Mining-Methoden auf die Protokolldateien2 des Webservers angewandt, um Aufschlüsse über Verhaltensmuster und Interessen der Online-Kunden zu erhalten3 . Eine Ausprägungsform des Web Usage Mining, bei der sich die Analyse ausschließlich auf die Protokolldateien des Web-Servers beschränkt, wird als Web Log Mining bezeichnet. Sofern neben den Protokolldateien noch weitere Datenbestände in den Mustererkennungsprozess einfließen, wird diese Ausprägung als Integrated Web Usage Mining bezeichnet. Die Taxonomie des Web Log Mining wird in der Abbildung 3.1 dargestellt. 1 2 3 Vgl. [BENS99a] S. 426, [COOL97] S. 1 f. Vgl. Abschnitt 4.1 Vgl. [HIPP02] S. 89 f. 13 Kapitel 3. Web Log Mining Abbildung 3.1.: Taxonomie des Web Log Mining, [BENS99a] S. 427, [COOL97] S. 1 Die Definitionsgrundlage des Web Log Mining bilden die in den Abschnitten 2.1 und 2.2 dargestellten Definitionen des Data Mining und des KDD-Prozesses. Die sprachliche Ähnlichkeit der Begriffe Data Mining und Web Log Mining legt eine definitorische Ableitung des Web Log Mining aus den Begriffsinhalten nahe. Bensberg definiert das Web Log Mining, auf Basis des im Abschnitt 2.2 dargestellten KDD-Prozess, als einen4 : „... informationstechnologisch und methodisch integrierten Prozess, der durch Anwendung von Methoden auf Protokolldaten Muster entdeckt und anwenderorientiert aufbereitet.“ Für die Definition des Web Log Mining modifiziert Bensberg5 das Modell des KDD-Prozesses. Die Tabelle 3.1 zeigt zusammenfassend die Phasen des KDD-Prozesses nach Fayyad6 und das modifizierte Modell nach Bensberg. Tabelle 3.1.: Vergleich der KDD-Definition mit der Web Log Mining-Definition 4 5 6 Vgl. [BENS01a] S. 132 [BENS01a] S. 70 f. und S. 133 ff. [FAYY96] S.10 14 3.1. Begriffsdefinitionen und -abgrenzung Als erste Abänderung des KDD-Prozesses nach Fayyad führt Bensberg die Phase der Datengenerierung ein, in dieser Phase erfolgt die Aufzeichnung der Protokolldaten. Durch die Integration dieser Phase als Teil des Web Log Mining-Prozesses wird sichergestellt, das die internetbasierte Anwendung in den Prozess der Datenanalyse eingegliedert wird und so ein kontinuierlicher Entwicklungsprozess sichergestellt werden kann7 . Weiterhin führt Bensberg die Phasen Datenvorbereitung und Datentransformation zu der Phase zusammen. Diese Zusammenführung begründet er damit, das eine eindeutige Differenzierung zwischen der Datenvorbereitung und der Datentransformation nicht immer sinnvoll oder möglich ist. So ist unter dem Begriff der Transformation im engeren Sinne die Schemakonversion der Daten zu verstehen. Da dieser Vorgang automatisch erfolgen kann, ist keine Benutzerinteraktion notwendig8 . Unter Transformation kann aber auch die Änderung der Datenbankstruktur und der Datenbankinhalte verstanden werden. Diese Aktivitäten sind, nach Bensberg, Gegenstand der Datenvorbereitung, so das die Zusammenfassung beider Phasen möglich ist. Die letzte Modifikation die Bensberg durchführt, betrifft die Phase der Evaluation und Interpretation. Diese Phase gliedert er in drei einzelne Teilprozesse: Evaluation, Präsentation und Interpretation. Bensberg legt besonderen Wert auf die Organisation der entdeckten Hypothesen, sodass er die Phase der Evaluation explizit in den Web Log Mining-Prozess eingliedert. Der Präsentation der Ergebnisse der Mustererkennung widmet er eine eigene Phase, um die Wichtigkeit dieser Aktivität im Wissensentdeckungsprozess hervorzuheben, denn nur durch eine geeignete Visualisierung der Ergebnisse der Mustererkennung bzw. des Web Log Mining-Prozesses wird eine effektive Wissensveränderung des Anwenders gewährleistet9 . Die meisten Analyseprogramme bieten bereits umfassende und skalierbare Präsentationsbzw. Visualisierungsmöglichkeiten, die eine effektive Evaluation und Interpretation der Analyseergebnisse, mit entsprechendem Domänenwissen seitens des Anwenders oder geeigneter Experten, ermöglicht. Da die Visualisierungsergebnisse der Analyseprogramme meist automatisch generiert werden, wird Bensbergs Aufspaltung der Evaluations- und Interpretationsphase nach Fayyad für nicht notwendig erachtet. Weiterhin wird Bensbergs Phase der Datenvorbereitung und Datentransformation nachfolgend Transaktionsidentifikation und Datentransformation genannt, weil im Kontext des Web Log Mining die Datenvorbereitung vorrangig im Zeichen der Identifikation von Transaktionen steht. Im weiteren Verlauf der Arbeit wird dem in Tabelle 3.2 dargestellten Web Log Mining-Prozess gefolgt. 7 8 9 Vgl. [BENS01a] S. 132 [BENS01a] S. 71 [BENS01a] S. 70 f. 15 Kapitel 3. Web Log Mining Tabelle 3.2.: Web Log Mining-Definition Mit Hilfe von Web Log Mining lässt sich das Verhalten der Online-Besucher detailliert dokumentieren und analysieren. Auch können die Ergebnisse des Web Log Mining zur optimalen Konfiguration des Internetauftrittes sowie zur optimalen Werbeplatzierung genutzt werden. Beispielsweise sollte die Seitenstruktur an häufigen Bewegungspfaden ausgerichtet sein, um die Navigation zu erleichtern. Außerdem bietet es sich an, wichtige Seiteninhalte (Werbung, Produktinformationen) auf diesen Pfaden zu platzieren. Für die Strategische Planung spielen die Ergebnisse des Web Log Mining auch eine wichtige Rolle. Beispielsweise können strategische Partnerschaften mit anderen Websites, Bannerschaltungen und Einträge in Suchmaschinen hinsichtlich ihrer Effizienz bewertet werden, da sich detailliert feststellen lässt, über welche externen Links die meisten Besucher auf die Website gelangten. Die Einsatzmöglichkeiten für das Web Log Mining werden nachfolgend aufgezeigt10 : Dokumentation: • Dokumentation des Nutzerverhaltens • Erstellung von umfangreichen skalierbaren Statistiken Erfolgskontrolle: • Erfolgskontrolle der Website • Werbeerfolgskontrolle Layout-Planung: • Verbesserung der Websitestruktur • Gruppierung der Websiteinhalte und Struktur für unterschiedliche Nutzergruppen • Optimale Werbe- und Produktplatzierung 10 Vgl. [HIPP02] S. 101 16 3.2. Datenschutz Personalisierung: • Personalisierte Seiteninhalte • Zielgruppenspezifische Marketingkampagnen Verkaufsmuster entdecken: • Warenkorbanalyse • Cross Selling-Angebote Da im Rahmen des Web Log Mining-Prozesses personenbezogene Daten verarbeitet und analysiert werden, sind auch datenschutzrechtliche Aspekte dieses Prozesses zu betrachten. 3.2. Datenschutz Die Nutzung personenbezogener Daten durch privatwirtschaftliche Unternehmen unterliegt dem Gültigkeitsbereich des Bundesdatenschutzgesetzes (BDSG). Das Internet birgt viele Risiken, die das Recht auf informelle Selbstbestimmung beschneiden. Deshalb hat der bundesdeutsche Gesetzgeber in Form des Informations- und Kommunikationsdienste-Gesetzes (IuKDG) bereichsspezifische Datenschutzvorschriften für die Anbieter und Nutzer von Telediensten11 erlassen, die die bestehenden Rechtsvorschriften des BDSG ergänzen. Da diese Dienste im Rahmen internetbasierter Marktsysteme realisiert werden, sind die Datenschutzvorschriften des IuKDG zur Prüfung der datenschutzrechtlichen Zulässigkeit der Logdatei-Speicherung und Analyse anzuwenden12 . Im Artikel 2 des IuKDG, dem Gesetz über den Datenschutz bei Telediensten (Teledienstdatenschutzgesetz; TDDSG), werden folgende Grundsätze definiert13 : • Keine Verarbeitung personenbezogener Daten ohne Notwendigkeit dazu • Zweckbindung der Verarbeitung an die Erbringung von IuK-Diensten • Transparente Darstellung der Datenverwendung • Technische Sicherung der Nutzeranonymität 11 12 13 Im Artikel 1 des IuKDG, dem Gesetz über die Nutzung von Telediensten (Teledienstgesetz; TDG), §2 Abs. 1 werden „... Angebote von Waren und Dienstleistungen in elektronisch abrufbaren Datenbanken mit interaktivem Zugriff und unmittelbarer Bestellmöglichkeit“ als Teledienst ausgewiesen. Vgl. [BENS01a] S. 53 [SCHW00] S. 16 f. 17 Kapitel 3. Web Log Mining • Kontrolle durch eine unabhängige Instanz Die Verwendung personenbezogener Daten zu Marketingzwecken oder für die Gestaltung von Websites ist ausschließlich mit Einwilligung des Nutzers zulässig (§3 Abs. 1 TDDSG). Verarbeitungsschritte, wie z.B. das Speichern, Ändern, Übermitteln und Nutzen der Daten für andere Zwecke, sind laut §3 Abs. 2 TDDSG nur dann zulässig, wenn eine Rechtsvorschrift dies erlaubt oder die Einwilligung des Nutzers vorliegt. Um Nutzungsdaten in Logdateien verwenden zu dürfen, ist darauf zu achten, dass die Daten anonymisiert vorliegen und keinen Personenbezug aufweisen. Andernfalls wären diese Nutzungsdaten sofort nach Ende der Nutzung wieder zu löschen, es sei denn, sie werden für Abrechnungszwecke benötigt. Zur technischen Wartung und Weiterentwicklung der Website sind Logdateien mit anonymen Einträgen in den meisten Fällen ausreichend. Fehler, die bei der Nutzung auftreten oder benötigte Übertragungskapazitäten in einem bestimmten Zeitraum, lassen sich auch unabhängig von der Zuordnung zu individuellen Nutzern erfassen. Die darauf basierenden Anpassungsmaßnahmen betreffen nur selten einzelne Nutzer, sondern eher allgemeine Veränderungen der technischen Gestaltung einer Website. Im Marketingbereich ist hingegen die Verbindung erhobener Nutzungsdaten mit vorliegenden Bestandsdaten von Kunden von hohem Interesse. Gelingt die Verbindung von objektiven Verhaltensdaten und demographischen Daten entstehen detaillierte Persönlichkeitsprofile, die es erlauben, Kunden individuell anzusprechen und zu betreuen. Die Erstellung von Persönlichkeitsprofilen ist nach dem Gesetz nur bei Verwendung von Pseudonymen erlaubt; eine Zusammenführung personenbezogener Daten ist unzulässig (§ 4 Abs. 4 TDDSG)14 . Die gesetzlichen Vorschriften kommen vor allem immer dann zum tragen, wenn Softwareprodukte aus anderen Ländern eingesetzt werden. In diesem Zusammenhang muss geprüft werden, ob diese Produkte mit den deutschen Gesetzesvorgaben konform sind. 14 [SCHW00] S. 17 f. 18 4. Datenkomponenten Jeder Besuch auf einer Website erzeugt einen Datensatz, in dem sämtliche Vorgänge der Sitzung aufgezeichnet werden. So wird eine beträchtliche Menge an Besucher- bzw. Kundendaten erfasst und entweder in Server-Logdateien oder in einer anderen Art Datenbank gespeichert. Da der Kontakt zwischen dem Unternehmen und den bestehenden bzw. potentiellen Kunden immer häufiger über die Website stattfindet, kann eine umfassende Analyse dieser webbasierten Daten zu einem wichtigen Unternehmensprozess werden. Das Unternehmen wird vor allem wissen wollen, wer seine Website besucht, was ihn dorthin zieht und wie er dorthin gelangt ist. Die Grundsteine für die Datenanalyse liegen in den Online-Daten. Genauer gesagt, in den verschiedenen Komponenten, die für die Erzeugung der ServerLogdateien und anderer webbasierter Datenbanken verwendet werden. In den folgenden Abschnitten sollen die für den Web Log Mining-Prozess relevanten Datenkomponenten aufgezeigt werden1 . 4.1. Server-Logdateien WWW-Server haben die Aufgabe, auf Anfrage von WWW-Clients Dateien (z.B. HTML-Dokumente) zur Anzeige zur Verfügung zu stellen. Um die Zugriffe auf die bereitgestellten Dateien nachvollziehbar zu machen, führt der WWW-Server Logbücher über die Anfragen von Clients. Diese Logbücher heißen Server-Logdateien. Die Einträge in diesen, von dem WWW-Server erstellten, in der Regel ASCII-Textdateien, sind durch Kommata, Leerzeichen oder Tabstops getrennt. Als Logdatei werden Dateien bezeichnet, in denen eingetretene Ereignisse automatisch protokolliert werden. Dem Betreiber eines WWW-Servers liegen damit Protokolle vor, die die Beanspruchung einer Website und von Websiteteilbereichen objektiv abbilden. Der Aufruf einer Internet-Seite basiert auf dem Übertragungsverfahren Hypertext Transfer Protocol (HTTP). Dabei gibt der Nutzer auf der Client-Seite in einem Internet-Browser die Adresse (URL2 ) eines gewünschten Dokumentes an. Der Browser veranlasst die Herstel1 2 [MENA00] S. 266 f. Das URL-Format (Uniform Resource Locator) macht eine eindeutige Bezeichnung aller Dokumente im Internet möglich, es beschreibt die Adresse eines Dokuments oder Objekts, das von einem WWW-Client gelesen werden kann. 19 Kapitel 4. Datenkomponenten lung einer Verbindung zu demjenigen Web-Server, auf dem das Dokument vorliegt und sendet eine Anfrage zur Übertragung. Der Server sendet das Dokument bzw. dessen Inhalte an die Adresse des Nutzers und protokolliert die Übertragung in der Logdatei3 . Ein WWW-Server erstellt in der Regel mindestens zwei Logdateien: für die Protokollierung der Zugriffe (Access-Logdatei) und für die Fehlerprotokollierung (Error-Logdatei). Die meisten Server unterstützen darüber hinaus zwei weitere Typen von Logdateien. Zum einen ist das die Referrer-Logdatei für die Protokollierung der Herkunftsadressen und zum anderen die Agent-Logdatei die protokolliert mit welchem Browser bzw. Betriebssystem auf die Website zugegriffen wurde. Die Abbildung 4.1 soll diesen Sachverhalt verdeutlichen. Abbildung 4.1.: Konzept der serverseitigen Protokollaufzeichnung, [BENS01a] S. 40 Logdateien treten in einer Vielzahl von Formaten auf, die sich nach Art und Reihenfolge der enthaltenen Angaben unterscheiden. Trotz unterschiedlicher technischer Ansätze der Webserverprodukte wird das ehemals von der NCSA (National Center for Supercomputing Applications) entworfene Common Logfile-Format (CLF-Format) eingesetzt, das sich als Standard für Protokolldaten etabliert hat. Die meisten WWW-Server unterstützten neben proprietären auch dieses Format4 . Einen Ausschnitt einer typischen Logdatei im CLF-Format wird in der Abbildung 4.2 dargestellt. Im Folgenden sollen die unterschiedlichen Logdateiarten aufgezeigt und erläutert werden. Abbildung 4.2.: Ausschnitt einer typischen Logdatei im CLF-Format 3 4 [SCHW00] S. 8 f. Vgl. [MENA00] S.268 20 4.1. Server-Logdateien 4.1.1. Access-Logdatei Eine der wichtigsten Informationsquellen, aus denen Daten über die Online-Besucher gewonnen werden können, ist die Access-Logdatei5 , die auch als Transfer-Logdatei bezeichnet wird. Hier werden sämtliche Transaktionen zwischen dem Server und dem Browser aufgezeichnet. Eine Access-Logdatei im Common Logfile-Format enthält sieben Datenfelder. Ein typischer Eintrag einer Access-Logdatei wird nachfolgend gezeigt. Das Hostfeld ist das erste Feld des Common Log Formats. In der Regel ist das der Server, der eine Anfrage an die Website stellt und als Wert entweder eine DNS-Adresse6 (z.B. planet.de) oder eine IP-Adresse (z.B. 208.48.21.10) beinhaltet. Aus dem Hostfeld ist die Top Level-Domain (Länderkennung: z.B. de oder Organisationstyp: z.B. edu) des anfragenden Servers ersichtlich. Da Internetadressen eindeutig vergeben werden, kann dieses Feld als Identifikationskriterium für Besucher der Website herangezogen werden. In der Praxis ist dieses Identifikationskriterium aber mit Vorsicht zu genießen, denn die Identifizierung eines Anwenders anhand seiner Internetadresse ist nicht immer eindeutig. Die meisten Anwender wählen sich über einen Internet Service Provider (ISP; z.B. T-Online oder AOL) in das Internet ein, d.h. jedes Mal, wenn sich der Anwender einwählt, bekommt er eine neue (dynamische) Internetadresse zugewiesen. Außerdem gibt es Fimennetzwerke, die sich über einen Proxy-Server7 mit dem Internet verbinden und sich dabei mehrere Personen einen Zugang teilen. Das zweite Feld im Common Log Format ist das Identifikationsfeld. In diesem Feld wird die Benutzerkennung des Anwenders protokolliert, mit der die Anmeldung am lokalen Netzwerk erfolgt. Diese Kennung kann von dem WWW-Server jedoch nur dann aufgezeichnet werden, wenn auf dem Rechnersystem des Besuchers der hierfür erforderliche Identifikationsdienst aktiviert ist. Die Anwendung ist aber mit hohen Leistungseinbußen verbunden, so das die Verfügbarkeit dieses Feldes in der Praxis kaum vorkommt8 . Das dritte Feld ist das Authuserfeld. Dieses enthält den authentifizierten Benutzernamen, den ein Besucher benötigt, um Zugriff auf ein geschütztes Verzeichnis zu erhalten, das nur mit Passwort zugänglich ist. Dieses Attribut besitzt nur dann einen Wert, wenn eine Zugriffsberechtigung für den Aufruf eines Dokuments erforderlich ist. Als viertes Feld folgt der Zeitstempel. Dieses Feld gibt das Datum und die Uhrzeit des Zugriffes sowie die Zeitzone des anfragenden Servers an. Das Format für das Datum lau5 6 7 8 Vgl. [MENA00] S. 268 ff., [BROD00] S. 61 f. Das DNS (Domain Name System) ist ein verteilter Namensdienst des Internets, der symbolische Adressen auf numerische Adressen (IP-Adressen) abbildetet. Vgl. Abschnitt 4.3.2 Vgl. [BENS01a] S. 42 21 Kapitel 4. Datenkomponenten tet TT/MMM/JJJJ (im Beispiel: 29/Apr/2002) und für die Uhrzeit HH:MM:SS (im Beispiel: 10:25:52). Der letzte Eintrag des Zeitstempelfeldes zeigt die Abweichung der lokalen Serverzeit von der Greenwich Meridian Time (GMT). Das fünfte Feld ist das Transaktionsfeld. Es enthält meistens den GET-Befehl. Er meldet dem Server, auf welches Dokument der ihn ansprechende WWW-Client zugreifen möchte (im Beispiel: /index_e.html). Es gibt zwei weitere Zugriffsmethoden: der POST- und der HEAD-Befehl. Der POST-Befehl wird ausgeführt, wenn Daten vom Client zum Server übertragen werden, bspw. wenn in Formularen der Versenden-Button gedrückt wird. Der zweite, weniger gebräuchliche Befehl ist der HEAD-Befehl. Er arbeitet wie der GET-Befehl, mit dem Unterschied, dass der Server nur den <HEAD>-Abschnitt des angeforderten HTMLDokuments zurückgibt. Der letzte Bereich des Transaktionsfeldes ist der Name und die Versionsnummer des HTTP-Protokolls. Das Statuscodefeld ist das sechste Feld im Common Log Format. Es beschreibt, mit welchem Resultat die Transaktion verlaufen ist. In der Regel ist dies der Statuscode 200, was bedeutet, dass der Server die durch den Client angeforderte Seite erfolgreich übertragen hat. Es gibt mehrere Klassen des Statuscode, von denen die wichtigsten in Tabelle 4.1 aufgelistet werden9 . Tabelle 4.1.: Wichtige Statuscodes Das siebte und letzte Feld ist das Transfervolumenfeld. Es zeigt die Gesamtzahl der während der Transaktion vom Server zum Client übertragenen Bytes an (im Beispiel: 1170 Bytes). 9 Eine genauere Beschreibung der einzelnen Statuscodes bietet [o.V.01c] S. 1. 22 4.1. Server-Logdateien 4.1.2. Error-Logdatei Die Error-Logdatei zeichnet Meldungen auf, die der Fehleranalyse und Administration des WWW-Servers dienen. Dabei werden die aufgetretenen Fehler genauer protokolliert als in der Access-Logdatei. Die folgenden Meldungen können erfasst werden: • administrative Meldungen (z.B. beim Start eines WWW-Servers) • Fehlermeldungen (z.B. bei Anforderung nicht vorhandener Ressourcen) Der folgende Error-Logdatei-Eintrag zeigt einen Zugriffsfehler, der durch die Anforderung einer auf dem Server nicht existierenden Ressource verursacht wurde. In diesem Beispiel wird das HTML-Dokument index_e.html nicht gefunden. Werden solche Fehlermeldungen öfter protokolliert, kann davon ausgegangen werden, dass sich in der Navigation ein nicht-referenzierender Link befindet. 4.1.3. Referrer-Logdatei Die Referrer-Logdatei enthält die URL, von der die Anfrage an die Website stammt. Diese Logdatei erfasst den Ort im Internet von dem aus ein Online-Besucher zu der Website weitergeleitet wurde. Dies kann ein Link von einer anderen Seite oder das Ergebnis einer Suchmaschine sein. Diese Logdatei kann auch aussagen, welche Suchbegriffe benutzt wurden, um das Online-Angebot zu finden. Ein Eintrag der Referrer-Logdatei kann wie folgt aussehen: Im Beispiel wurde im Webverzeichnis Yahoo nach den Begriffen „web“ und „mining“ gesucht. Dies ist eine sehr aufschlussreiche Information, die großen Einfluss auf den Entwurf von strategischen Marketingkampagnen haben kann. Die Aufzeichnung der URL des Referenten stellt den Zusammenhang zwischen Einzelinteraktionen her und ermöglicht die Ermittlung des Navigationspfades eines Besuchers10 . 10 [MENA00] S. 273 23 Kapitel 4. Datenkomponenten 4.1.4. Agent-Logdatei Im Agent-Log stehen Angaben zur Software-Ausstattung des WWW-Clients, darunter Typ und Version von Browser und Betriebssystem. Aus diesen Angaben ergibt sich ein Bild der technischen Ausstattung der Nutzer11 . Die Website sollte dementsprechend so gestaltet sein, dass der überwiegende Teil der Nutzer die Seite ohne Darstellungsprobleme aufrufen kann. Mögliche Einträge einer Agent-Logdatei werden nachfolgend aufgezeigt: MSIE ist die Abkürzung des Internet Explorers von Microsoft, dahinter wird die entsprechende Browserversion protokolliert. Weiterhin werden die verwendeten Betriebssysteme gespeichert (z.B. Windows NT). Der WWW-Server speichert aber auch Anfragen von „nichtmenschlichen“ Besuchern, wie die Zugriffe von Suchmaschinen-Robotern12 (z.B. Googlebot). 4.1.5. Extended Logfile-Format Die meisten Webserver können so konfiguriert werden, das die Access-, Referrer- und Agentdaten in einer Logdatei gespeichert werden. Dabei werden die Informationen der Referrerund Agent-Logdatei an die Access -Logdatei angehängt. Dieses Format wird als Extended oder Combined Logfile-Format bezeichnet. Ein Ausschnitt einer Logdatei im Extended Logfile-Format (ELF-Format) wird in Abbildung 4.3 gezeigt. Abbildung 4.3.: Ausschnitt einer typischen Logdatei im ELF-Format Abschließend sollen noch einmal alle Informationen, die aus den Feldern der Logdateien gewonnen werden können, tabellarisch aufgezeigt werden (Tabelle 4.2). Dabei ist die Ex11 12 [SCHW00] S. 10 Roboter, auch Crawler oder Spider genannt, sind Programme von Suchmaschinen die selbstständig nach Dokumenten und Objekten im Internet suchen und für die Suchmaschinen indizieren. 24 4.2. Cookies traktion von mehreren Informationen aus einem Feld möglich13 . Bei der Darstellung wurde auf die Einordnung der Error-Logdatei verzichtet, da diese Informationen nur für administrative Zwecke (Websitewartung) relevant sind. Außerdem enthält das Statusfeld der AccessLogdatei ausreichende Informationen über den Verlauf einer Transaktion. Tabelle 4.2.: Überblick der Logdatei-Informationen 4.2. Cookies Cookies sind kleine Textdateien, die von Servern auf der Festplatte das Besuchers erzeugt werden können, wenn dessen Browser auf eine Seite zugreift. Jedes Mal, wenn ein OnlineBesucher zu der Website zurückkehrt, kann der Server, der den Cookie erzeugt hat, prüfen und lesen, was zuvor in die Datei geschrieben wurde, z.B. welche Seiten also bei der letzten Anwendersitzung aufgerufen wurden. Jeder Besuch eines Kunden auf einer Website ist eigentlich ein einzelner, von vorherigen Besuchen losgelöster Vorgang. Cookies sind eine Möglichkeit, um diese voneinander unabhängigen Besuche miteinander in Beziehung zu setzen und so eine realitätsnahe Verkaufssituation zu schaffen14 . Sehr viele Internetseiten setzen Cookies. Damit der Client-Rechner vor einer zu großen Cookieflut geschützt werden kann, können Restriktionen auf der Client-Seite gesetzt werden. Die meisten WWW-Clients stellen entsprechende Konfigurationsoptionen zur Verfügung. 4.2.1. Aufbau Der Aufbau eines typischen15 Cookies soll anhand folgenden Beispiels erklärt werden: 13 14 15 In Abschnitt 5.2 wird genauer auf zusammengesetzte Felder eingegangen. Vgl. [MENA00] S. 280 ff. In dem Beispiel wird ein Netscape-Cookie gezeigt. Die Cookiedateien von anderen Browsern, wie dem Internet Explorer von Microsoft, sind ähnlich aufgebaut. 25 Kapitel 4. Datenkomponenten Dieser Cookie enthält sieben Felder. Das erste Feld speichert den Hostnamen des Cookies (im Beispiel: planet.de). Bei der Voreinstellung ist dies meist der Server, der den Cookie erzeugt und an den Besucher geschickt hat. Nur der Server, der den Cookie speicherte, kann ihn auch lesen. Dies bedeutet, dass planet.de nicht die gespeicherten Cookies von z.B. google.de oder yahoo.de lesen kann. Das folgende Feld zeigt an, ob der Cookie von allen Rechnern (TRUE) der Domain gelesen werden darf oder nur von einem (FALSE), d.h. das bei einem Eintrag „planet.de TRUE“ jeder Rechner der Domain planet auf den Cookie zugreifen darf, also auch die Rechner wall.planet oder test.planet. Bei einem Eintrag „wall.planet.de FALSE“ darf nur von der Domain wall.planet.de auf den Cookie zugegriffen werden, test.planet.de hat keine Berechtigung. Als nächstes folgt ein variabler Pfad (im Beispiel: /), von dem aus von jeder Seite der Website (planet.de) auf diesen Cookie zugegriffen werden kann. Dabei ist der Zugriff auf den Cookie auf diejenigen beschränkt, die ihn erzeugt haben. Cookies ohne eingestellten Pfad werden nur temporär gespeichert, und wenn der Anwender den Browser schließt, gelöscht. Die Verschlüsselung eines Cookies zeigt das nächste Feld. Ist dieser Parameter auf TRUE gesetzt, wird die Information nur dann übertragen, wenn eine sichere Verbindung zwischen Client und Server vorliegt, d.h. wenn HTTPS (Hypertext Transmission Protocol Secure) oder SSL (Secure Sockets Layer) verwendet wird. Als nächstes folgt das Datum, an dem der Cookie verfällt. Es wird in Sekunden seit dem 1. Januar 1970, 0.00 Uhr GMT dargestellt (im Beispiel: 1054806622 Sekunden). Der Standardwert ist 0, d.h. der Cookie wird nicht auf der Festplatte des Besuchers gespeichert. Das nächste Feld identifiziert den Cookie (im Beispiel: PLANET_Cookie). Der Cookiename darf weder Kommata, noch Semikola oder Leerzeichen enthalten. Der neueste Cookie ersetzt den älteren Cookie mit derselben Domain, demselben Pfad und demselben Namen. Als letztes wird der Wert des Cookies gespeichert. In diesem Feld hinterlegt der Versender des Cookies seine Informationen. Der Wert darf weder Kommata, noch Semikola oder Leerzeichen enthalten. Hier kann zum Beispiel die Anzahl der Besuche auf der Seite, aber auch Benutzer-ID, Name oder Adresse des Besuchers gespeichert werden. 4.2.2. Anwendungen In den Cookies können kurze Informationen von einem Kontakt mit einem WWW-Server bis zum nächsten Kontakt mit demselben Server zwischengespeichert werden16 . Die Verwen16 Vgl. [OEBB00] S. 1 26 4.2. Cookies dungsmöglichkeiten sind sehr variabel: • Cookies wurden unter anderem für Warenkorb-Applikationen entwickelt. Mit einem Warenkorb hat der Käufer die Möglichkeit, während eines Einkaufs in einem Supermarkt (Website) mehrere Produkte gleichzeitig zu kaufen und diese beim Verlassen des Ladens an der Kasse (per Formular) zu bezahlen. Bei diesem Vorgang werden wichtige Informationen festgehalten, zum Beispiel welche Produkte der Kunde besonders mag und welche Zahlungsart er verwendet. • Weiterhin werden Cookies zur Personalisierung von Websites eingesetzt. Da der WWW-Server durch die Cookies auf dem Rechner des Besuchers Informationen speichern kann, besteht auch die Möglichkeit, Buch darüber zu führen, wie oft und wann der Besucher das letzte Mal den jeweiligen Server besucht hat. Auch können persönliche Vorlieben, zum Beispiel ob in einer Online-Buchhandlung eher nach Fachbüchern zum Thema Computer oder Kochen gesucht wird, erfasst und ausgewertet werden. Beim nächsten Besuch dieses Nutzers auf der Website, wird er auf Neuerscheinungen in dem bevorzugten Bereich hingewiesen. • Ein wichtiges Einsatzgebiet für Cookies ist die Besucheridentifikation. Viele ISP arbeiten mit dynamischen Internetadressen. Das bedeutet, dass der Besucher bei jeder Internet-Verbindung eine neue anonyme Identität erhält. Der Server weiß, an welche Adresse er die angeforderten Daten schicken soll, weiß aber nicht wirklich, welche Person sich hinter dieser Internetadresse verbirgt. Mit Hilfe eines Cookies, der eine eindeutige Benutzerkennung enthält und mit einer langen Lebensdauer versehen ist, wird der Nutzer auch beim nächsten Besuch eindeutig identifiziert, obwohl er eine andere Internetadresse erhalten hat. Zur Besucheridentifikation bietet z.B. der Apache-Webserver ein entsprechendes Modul17 an. Dabei identifiziert der Server jeden neuen Besucher und gibt ihm eine eindeutige Kennung, die in Form eines Cookies auf dem Client-Rechner gespeichert wird. Diese Kennung setzt sich aus der Internetadresse des Client-Rechners, der Systemzeit und der Server-Prozess-ID zusammen. Der Server kann so konfiguriert werden, das er die Logdatei um ein weiteres Feld, das diese eindeutige Kennung beinhaltet, ergänzt. In der Abbildung 4.4 wird eine Logdatei im ELF-Format und diesem zusätzlichen Kennungsfeld des Apache-Webservers gezeigt. 17 Der Apache-Webserver setzt zur Besucheridentifikation das Modul mod_usertrack ein. Nähere Informationen werden im WWW unter http://httpd.apache.org/docs/mod/mod_usertrack.html gegeben. 27 Kapitel 4. Datenkomponenten Abbildung 4.4.: Ausschnitt einer Logdatei im ELF-Format mit Kennungsfeld 4.3. Technische Probleme Bedingt durch die einfache Konzeption von Logdateien und der Architektur des Internets entstehen technische Probleme, welche die Qualität und Quantität des Datenbestandes beeinflussen18 . Eine Beurteilung von Informationen, die auf den Logdateien basieren, sollte die nachfolgenden Fehlerquellen berücksichtigen. 4.3.1. Caching Caches sind Speicher, die Daten temporär zwischenlagern, um den Zugriff bei einer erneuten Anforderung zu beschleunigen. Im Internet-Verkehr wird so die Auslastung der Verbindungen reduziert. Dazu werden aus dem Internet abgerufene Webseiten und Grafiken entweder lokal durch den WWW-Client oder auf einem speziellen Computer auf dem Weg zwischen WWW-Client und WWW-Server (Proxy-Cache) abgespeichert. Erfolgt ein weiterer Zugriff auf dieselbe Seite (entweder mit demselben WWW-Client oder durch einen anderen den Proxy-Server19 nutzenden Besucher), wird diese nicht ein weiteres Mal vom WWWServer angefordert, wo diese Anforderung protokolliert werden könnte, sondern aus dem Zwischenspeicher geladen. Die Folge ist, dass nicht mehr alle Seitenkontakte in den Logdateien verzeichnet werden. Die ausgewiesene Nutzung des Online-Angebotes ist potentiell niedriger als die tatsächliche. Die Abbildung 4.5 stellt diesen Sachverhalt dar. Ohne zusätzliche Maßnahmen führt eine Logdatei-Analyse zu verzerrten Ergebnissen. Das Verfahren der Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V. (IVW)20 zur Reichweitenmessung von Online-Medien nutzt das Prinzip der Teildynami18 19 20 Vgl. [SCHW00] S. 12, [BROD00] S. 65 ff. Vgl. Abschnitt 4.3.2 Das Zählverfahren der IVW hat sich im deutschen Markt für Online-Werbung als Standard etabliert. Dabei wird in jede HTML-Seite eine ein Pixel große, unsichtbare Grafik eingefügt, die bei jedem Seitenzugriff neu 28 4.3. Technische Probleme Abbildung 4.5.: Caching-Mechanismus, [SCHW00] S. 13 sierung von Webseiten. Dies hat den Effekt, dass mindestens ein Element jeder Webseite nicht von Caches gespeichert wird, so dass der Abruf einer Ressource vom WWW-Server aufgezeichnet werden kann21 . 4.3.2. Proxy-Server Proxy-Server werden häufig als zentrale Schnittstelle zwischen dem Intranet einer Organisation und dem Internet eingesetzt22 . Zum einen haben sie die Funktion eines großen Caches, um die Netzwerklast und damit die Kosten der Internetanbindung einer Organisationseinheit zu reduzieren. Die resultierenden Probleme wurden im vorangegangenen Abschnitt dargestellt. Zum anderen verbirgt ein Proxy-Server häufig ein gesamtes Netzwerk hinter seiner eigenen Internetadresse. Dieser Zusammenhang wird in Abbildung 4.6 gezeigt. Abbildung 4.6.: Funktionsweise eines Proxy-Servers 21 22 geladen und nicht in einem Cache zwischengespeichert wird. Durch die geringe Größe der Grafik von nur 43 Byte entsteht nur eine geringe Mehrbelastung der Übertragungswege. Ein Eintrag in die Logdatei erfolgt bei jedem Aufruf der Grafik. Ausführlichere Informationen werden im WWW unter http://www.ivw.de gegeben. Vgl. [SCHW00] S. 13 Vgl. [POHL99] S. 10 29 Kapitel 4. Datenkomponenten In der Server-Logdatei erscheint stets die Adresse des Proxy-Servers, obwohl der Zugriff tatsächlich von verschiedenen Computern hinter diesem Proxy-Server erfolgte. Die Folge sind eine zu geringe Besucherzahl, eine zu große Zahl an Seitenabrufen pro Besucher in der Log-Analyse sowie eine verzerrte Verhaltensdarstellung. Um dieses Problem zu umgehen, bedarf es einer anderen Art der Identifizierung eines Besuchers als dessen Internetadresse. Ein möglicher Lösungsansatz wäre der Einsatz von Cookies23 . Das sind kleine Dateien, welche vom Browser auf der Festplatte gespeichert und später vom Server wieder ausgewertet werden können. Nachteil dieser Vorgehensweise ist jedoch, dass viele Internetnutzer dem Einsatz von Cookies kritisch gegenüberstehen, denn dieser Ansatz schränkt die Anonymität von Nutzern in hohem Maße ein. Deshalb verfügen Browser über eine Option, die die Speicherung von Cookies unterbinden kann. Die Wirksamkeit der Cookies hängt damit von der Kooperationsbereitschaft des Besuchers ab24 . 4.3.3. Dynamische Internetadressen Eine weitere Quelle des Identifizierungsproblems stellt die dynamische Vergabe von Internetadressen zahlreicher ISP dar. Da die Reservierung jeder einzelnen Internetadresse bei der zuständigen Vergabestelle mit Kosten verbunden ist, gleichzeitig aber nie alle bei einem ISP registrierten Kunden zum selben Zeitpunkt das Internet nutzen, halten die Provider in der Regel nur eine relativ kleine Anzahl von Internetadressen bereit. Nur für die Dauer einer Einwahlverbindung wird dem Kunden dann eine jeweils gerade ungenutzte Adresse aus diesem Pool zugewiesen. Zur Korrektur der Messfehler können entweder auch hier Cookies eingesetzt werden oder der Besucher wird gezwungen, sich vor jeder Nutzung eines OnlineAngebotes am jeweiligen Webserver durch Eingabe eines Nutzernamens und Kennwortes anzumelden. Letzteres Verfahren ermöglicht zwar eine exakte Zuordnung der Nutzung zu einer Person, allerdings hält er auch zahlreiche Anwender davon ab, das Angebot überhaupt in Anspruch zu nehmen25 . 4.4. Messgrößen Der Erfolg einer Internet-Präsenz wird oft an der Anzahl von Zugriffen auf die Website gemessen. Sowohl im Vergleich der Nutzungsintensität verschiedener Websites als auch zur unternehmensinternen Bewertung der Website-Aktivität ist es notwendig, sich auf eindeutig definierte Messgrößen zu einigen. Dabei ist zwischen objektiv messbaren und betriebswirtschaftlich interessanten Größen zu unterscheiden. Ein Unternehmen ist daran interessiert, 23 24 25 Vgl. Abschnitt 4.2.2 Vgl. [SCHW00] S. 14; Weitere Verfahren zur Besucheridentifikation werden in Abschnitt 5.3.1 vorgestellt. Vgl. [POHL99] S. 10 30 4.4. Messgrößen aussagekräftige Zahlen wie die Anzahl der Nutzer festzustellen, verfügt aber in seinen Logdateien nur über eine Aufzeichnung abgerufener Dateien26 . Den Zusammenhang zwischen beiden Größen verdeutlicht eine hierarchische Gliederung der Website-Aktivität, die folgende Kenngrößen definiert27 : • User (Besucher, Kunde) • Visit (Session, Transaktion, Besuch) • Page View (Page Impression, Sichtkontakt mit einer Seite) • Hit (abgerufene Ressource) User der Website sind Personen oder Maschinen (z.B. Suchmaschinen-Roboter), die sich die Seiten im Internet angesehen haben. Ein Visit ist ein zeitlich zusammenhängender Nutzungsvorgang eines Users. Handelt es sich dabei um einen wiederkehrenden Nutzer, so verursacht dieser im Zeitablauf mehrere Visits. Jeder Visit besteht wiederum aus einem oder mehreren Page Views. Ein Page View wird gezählt, wenn ein Benutzer einen Sichtkontakt mit einer Seite hat, wobei sich diese Seite physikalisch aus mehreren Dateien und Objekten zusammensetzen kann, die als eigenständige Dateien auf dem Server vorliegen, z. B. der Seitentext, Bilder oder Videodateien. Ein Page View kann sich also aus mehreren Hits zusammensetzen. Jeder Aufruf einer einzelnen Datei wird als Hit bezeichnet und in einem Eintrag der Logdatei protokolliert, so dass die Darstellung einer Seite im Browser mehrere Hits verursachen kann. In der Abbildung 4.7 wird der Zusammenhang der definierten Größen grafisch verdeutlicht. Abbildung 4.7.: Hierarchie der Messgrößen 26 27 [SCHW00] S. 11 Vgl. [KRAF00] S. 23 f., S. 27 und S. 36 31 Kapitel 4. Datenkomponenten 32 5. Prozess des Web Log Mining In den nachfolgenden Abschnitten sollen die einzelnen Phasen des Web Log Mining-Prozesses erläutert werden. Die Voraussetzungen für diese Gliederung wurden in Abschnitt 3.1 geschaffen. Die Abbildung 5.1 verdeutlicht noch einmal die Struktur des Web Log MiningProzesses. Abbildung 5.1.: Web Log Mining-Prozess, Aufbauend auf [BENS01a] S. 133 5.1. Datengenerierung Diese Phase umfasst die Aufzeichnung der Logdateien durch den WWW-Server. In den Logdateien werden sämtliche Aktivitäten der Besucher der Website protokolliert. Wie der Inhalt oder das Schema der Protokollierung aussieht, ist von der Konfiguration des WWWServers abhängig. Einen Überblick der Möglichkeiten des Informationsgewinns aus den Log- 33 Kapitel 5. Prozess des Web Log Mining dateien wird in Abschnitt 4.1 gegeben. Der Konfigurationsaufwand ist von dem eingesetzten WWW-Server abhängig. Bei diesen Produkten handelt es sich in erster Linie um den OpenSource-Server Apache1 , den Internet Information Server von Microsoft (IIS), Netscapes iPlanet sowie Software von NCSA und CERN2 . Wegen der Typvielfalt, der sich auf dem Markt befindlichen WWW-Server, wird auf eine konkrete Konfigurationsbeschreibung verzichtet3 . Grundsätzlich ist die Phase der Datengenerierung nicht auf einen WWW-Server begrenzt. In Abhängigkeit von der situativen Forschungsbestrebung können auch die Logdateien mehrerer WWW-Server simultan aufgezeichnet und in den Prozess des Web Log Mining einbezogen werden. Hierbei ist zu beachten, das eine einheitliche Datenbasis geschaffen wird. Dazu müssen die beteiligten WWW-Server gleichermaßen konfiguriert werden4 . 5.2. Datenselektion Die in der Phase Datengenerierung aufgezeichneten Logdateien bilden die Grundlage für die Phase der Datenselektion. In dieser Phase werden die für die Analyse relevanten Daten in einen Zieldatenbestand überführt. Alle für die Analyse uninteressanten Einträge werden aus den aufgezeichneten Logdateien gefiltert. Interessant sind nur diejenigen Elemente, die vom Benutzer explizit angefordert werden, nicht aber diejenigen, die automatisch vom ClientBrowser des Benutzers mitgeladen werden. Der WWW-Server erkennt hier keinen Unterschied. Dieser Sachverhalt soll anhand der Tabelle 5.1 und Tabelle 5.2 erläutert werden. Der Aufruf einer Webseite könnte in der Logdatei5 folgendermaßen protokolliert worden sein: Tabelle 5.1.: Logdateieintrag eines Seitenabrufs Jeder Seitenabruf wird aber in Form von mehreren Hits aufgezeichnet, die abhängig von der Anzahl der in das HTML-Dokument eingebetteten Elemente sind. Eine HTML-Seite wird in der Regel aus verschiedenen Elementen konstruiert. Das können zum Beispiel das eigentliche HTML-Dokument, Bilddateien, Videodateien, Dateien zur Formatierung der HTML-Seite oder Skripte sein. Das obige Beispiel könnte also in Wirklichkeit so aussehen: 1 2 3 4 5 Der Apache-Server ist mit ca. 60 Prozent, vor dem IIS mit 30 Prozent, der weltweite Marktführer. Im WWW unter http://www.netcraft.com/survey/ werden aktuelle Statistiken zu den Marktanteilen der einzelnen WWW-Server veröffentlicht. Einen Überblick für konkrete Konfigurationen liefert [MENA00] S. 274 ff. Vgl. [BENS01a] S. 133 ff. Die Auszüge der Logdateien in Kapitel 5 sind aus Verständnisgründen vereinfacht dargestellt wurden. 34 5.2. Datenselektion Tabelle 5.2.: Logdateieintrag eines Seitenabrufs mit eingebetteten Elementen Die Tabelle 5.2 zeigt die Logdateieinträge, die bei dem Abruf des HTML-Dokuments seite1.html protokolliert werden. Da die eingebetteten Elemente bild1.gif und bild2.jpg nicht explizit von dem Benutzer angefordert wurden, können diese im Rahmen der Selektionsphase herausgefiltert werden. Eine Identifikation dieser Einträge ist anhand der Datenendungen möglich (z.B. jpg, gif oder png). Das hat den positiven Nebeneffekt, das das zu analysierende Datenvolumen oft erheblich reduziert wird und das wiederum steigert die Geschwindigkeit der folgenden Phasen. Navigationsseiten, wie zum Beispiel Frames, enthalten keine explizit aufgerufenen Inhalte und werden ebenfalls nicht in die Auswertung einbezogen. Abhängig vom Analyseziel sind nur die Einträge von Bedeutung, die einen Ressourcenabruf darstellen. Daher sind diejenigen Logdateieinträge auszuschließen, die einen Datenfluss vom Client-Browser zum WWW-Server beinhalten. Ein entsprechendes Beispiel wird nachfolgend dargestellt. Tabelle 5.3.: Logdateieinträge mit unterschiedlichen Übertragungsmethoden Die Tabelle 5.3 zeigt den Abruf des HTML-Dokuments seite1.html mittels der GET-Methode und die anschließende Rückübertragung an den WWW-Server mittels der POST-Methode. Die Rückübertragung eines Dokuments an den WWW-Server erfolgt bspw. wenn in Formularen der Versenden-Button gedrückt wird. Der dritte Eintrag zeigt den Aufruf des HTMLDokuments seite2.html mit der HEAD-Methode. Die Benutzung der HEAD-Methode zum Abruf von HTML-Dokumenten geschieht meist zu administrativen Zwecken6 , denn hierbei wird nur <HEAD>-Teil des angefragten Dokuments, ohne den eigentlichen Inhalt darzustellen, zurückgegeben. Da diese Einträge keine Aussagen über das Informationsverhalten des Besuchers zulassen, sind sie herauszufiltern. Weiterhin ist sicherzustellen, das zielgruppenfremde Einträge herausgefiltert werden. So werden in der Logdatei auch Zugriffe von nichtmenschlichen Besuchern wie Suchmaschinen dokumentiert. Diese sind anhand des 6 Auch einige Suchmaschinen-Roboter nutzen diese Methode zur Indizierung von Dokumenten. 35 Kapitel 5. Prozess des Web Log Mining Host- bzw. Agentfeldes zu identifizieren und herauszufiltern. Darüber hinaus müssen Einträge identifiziert werden die im Zuge von Wartungs- oder Entwicklungsarbeiten entstanden sind. Solche Zugriffe können anhand des Hostfelds entdeckt werden, wenn keine dynamische IP-Adressenzuweisung vorliegt. Andernfalls ist eine Identifikation über das Identifikationsfeld oder das Authuserfeld möglich. Diese werden immer dann protokolliert, wenn ein Zugriff auf einen geschützten Bereich des Servers erfolgt und eine Authenifizierung nötig ist. Für die Zwecke der Marketingforschung, besitzen fehlerhafte Ressourcenabrufe keine Bedeutung. Diese erlauben Aussagen darüber, welche Anforderungen des Besuchers aufgrund technischer Störungen nicht bearbeitet werden konnten und sind deshalb nur für administrative Zwecke interessant. Fehlerhafte Ressourcenabrufe werden an dem Wert des Statusfeldes7 erkannt. Ein Beispiel einer fehlerhaft aufgerufenen Ressource wird in Tabelle 5.4 dargestellt. Tabelle 5.4.: Fehlerhafter Ressourcenabruf In dem Beispiel werden die HTML-Dokumente seite1.html, seite2.html und seite3.html angefordert. Die Ressourcen seite1.html und seite2.html werden erfolgreich abgerufen. Das ist an dem Wert des Statusfeldes (200) erkennbar. Das HTML-Dokument seite3.html kann nicht gefunden werden, was im Statusfeld mit dem Wert 404 protokolliert wird. Diese Einträge beinhalten keine erfolgreichen Ressourcenabrufe und werden in die Analyse nicht einbezogen und müssen herausgefiltert werden8 . Die Tabelle 5.5 zeigt zusammenfassend mögliche Elemente, die die Einträge der Logdateien verfälschen können sowie deren Handhabung9 . Tabelle 5.5.: Verfälschende Elemente in Logdateien 7 8 9 Ein Überblick wird in Tabelle 4.1 gegeben. Vgl. [BENS01a] S. 134 f. Vgl. [HIPP02] S. 96 36 5.3. Transaktionsidentikation und Datentransformation Die Auswahl der für die Analyse relevanten Attribute der Logdatei ist von dem Analyseziel des Anwenders abhängig. Interessiert sich der Anwender beispielsweise für die geographische Herkunft der Besucher, sind technische Informationen über Browsertyp oder Betriebssystem irrelevant. Für die nachfolgenden Phasen kann es wichtig sein, Informationen aus den zusammengesetzten Attributen der Logdatei zu extrahieren. Sofern das Hostfeld in Form einer DNSAdresse vorliegt, kann daraus die Top Level-Domain und die Second Level-Damain10 herausgefiltert werden. Weitere zusammengesetzte Attribute sind der Zeitstempel, das Transaktionsfeld, das Referrerfeld und das Agentfeld. Wie diese Attribute aufgespalten werden können, zeigt Tabelle 5.6. Tabelle 5.6.: Aufspaltung zusammengesetzter in einzelne Attribute 5.3. Transaktionsidentikation und Datentransformation 5.3.1. Transaktionsidentikation Im nächsten Schritt sind die analyserelevanten Daten der Datenbasis vom Anwender zu selektieren und zu Transaktionen zusammenzufassen. Die Ableitung von Transaktionen ist erforderlich, da der Gegenstand des Web Log Mining in der Analyse des Nutzungsverhaltens einzelner Anwender besteht. Eine Transaktion umfasst dabei alle Interaktionen eines Besuchers mit der Webpräsenz, die sich in einem zeitlichen Zusammenhang befinden. In Analogie zur Realwelt bildet eine Transaktion das virtuelle Äquivalent eines Kundenbesuchs ab11 . Auf der technischen Ebene erweist sich die Ableitung von Transaktionen als problematisch, da das HTTP-Protokoll ein zustandsloses Übertragungsprotokoll ist. Das bedeutet, dass es zwischen den Zugriffen auf Ressourcen des Webservers keinen Zusammenhang gibt. Somit steht jeder Zugriff gleichberechtigt neben dem anderen und es ist keine triviale Identifikation von Benutzersitzungen möglich. 10 11 Die Second Level-Domain ist der Abschnitt der Internetadresse, der vor der Top Level-Domain steht. Bei der Internetadresse wi.hs-wismar.de lautet die Second Level-Damain hs-wismar. Vgl. [BENS99b] S. 5 f. 37 Kapitel 5. Prozess des Web Log Mining Ein mögliches Verfahren, Transaktionen zu unterscheiden, ist die Attribute Internetadresse und Agentfeld als Kriterien heranzuziehen, d.h. wenn verschiedene Logdateieinträge die gleichen Internetadressen und die gleichen Agentdaten beinhalten, ist davon auszugehen, das es sich hierbei um eine Transaktion handelt. In Tabelle 5.7 wird dieser Sachverhalt verdeutlicht. Tabelle 5.7.: Transaktionsidentifikation mittels Vergleich von Internetadresse und Agentfeld Aus der in Tabelle 5.7 dargestellten Logdateieinträge lassen sich zwei Transaktionen unterscheiden. Die HTML-Dokumente seite1.html, seite2.html, seite3.html werden von der gleichen Internetadresse (208.48.21.10) mit den selben Agentdaten (Agent1) abgerufen und gehören somit zu der ersten Transaktion. Die Dokumente seite4.html und seite5.html werden ebenfalls von der gleichen Internetadresse (194.59.16.19) mit den selben Agentdaten (Agent2) abgerufen, wodurch die zweite Transaktion unterschieden werden kann (Tabelle 5.8). Tabelle 5.8.: Transaktionen mittels Vergleich von Internetadresse und Agentfeld In der Praxis ist eine Differenzierung nach diesen Kriterien nur eingeschränkt möglich. Häufig treten technische Probleme auf, die eine Transaktionsidentifikation mit dieser Technik unmöglich machen12 . Dieses Verfahren wird durch dynamische Adressen-Vergabe vieler ISP und durch die Verwendung von Proxy-Servern verfälscht. Durch die dynamische AdressenVergabe werden verschiedene Benutzer als ein Benutzer identifiziert. Bei der Verwendung von Proxy-Servern werden ebenfalls verschiedene Benutzer unter einer Internetadresse protokolliert und somit nicht richtig erkannt. Aus diesem Grund stehen weitere technische und heuristische Verfahren zur Verfügung, die einzelne Transaktionen identifizieren können. 12 Vgl. Abschnitt 4.3 38 5.3. Transaktionsidentikation und Datentransformation Technische Verfahren ermöglichen durch zusätzliche Logdateieinträge die Identifikation einzelner Transaktionen. Technische Verfahren sind zum Beispiel Cookies, Benutzerregistrierung, URL-Rewriting oder Hidden Form Fields. Eine Möglichkeit, um unabhängig von der IP-Adresse festzustellen, ob sich hinter zwei verschiedenen Kontakten derselbe anonyme Nutzer verbirgt, besteht in der Verwendung von Cookies. Cookies sind Textdateien, die auf den Rechner des Besuchers einer Website geschrieben werden, um diesen bei nachfolgenden Transaktionen zu identifizieren. In diesem Fall erhalten Logdateien ein zusätzliches Feld, in dem eine nutzerspezifische Kennung festgehalten wird13 . Cookies können entweder für die Dauer einer Transaktion oder persistent, zur Wiedererkennung des Nutzers bei erneuten Besuchen, vergeben werden. Allerdings besteht für den Nutzer immer die Möglichkeit, die Verwendung von Cookies auf dem eigenen Rechner durch eine entsprechende Browserkonfiguration zu unterbinden bzw. die Cookies manuell zu löschen. Selbst Cookies identifizieren lediglich einen bestimmten Rechner. Wird dieser Rechner von mehreren Personen genutzt (z.B. Internetcafè), kann die Zuordnung von Zugriffen zu einzelnen Transaktionen bzw. Personen nicht mehr gewährleistet werden. Erst auf Basis einer eindeutigen Nutzeridentifikation, die einen Nutzer auch bei wiederholten Besuchen wiedererkennt, kann nach transaktionsübergreifenden Verhaltensmustern gesucht werden. Bei der Benutzerregistrierung muss sich der Besucher, um mit der Website interagieren zu können, registrieren lassen. In diesem Rahmen bekommt er ein entsprechendes Login und Passwort zugewiesen, mit dem er sich in Zukunft authentifizieren muss. Auf diesem Wege wird die Zusammenfassung der Logdateieinträge zu Transaktionen erzwungen. Allerdings ist die Akzeptanz dieses Verfahrens bei den Anwendern nicht sehr hoch anzusiedeln. Eine weitere Möglichkeit Besucher zu identifizieren ist das URL-Rewriting. Die Verwendung von URL-Rewriting setzt die Möglichkeit zur Generierung dynamischer HTML-Seiten voraus, da jede Seite, die vom WWW-Server an den Client versendet wird, eindeutige benutzerspezifische Informationen beinhaltet. Bei diesem Mechanismus wird zunächst beim ersten Zugriff eines Besuchers eine eindeutige Kennung erzeugt. Fordert der Besucher eine Ressource von dem WWW-Server an, integriert der Server die Identifizierungsnummer des Besuchers in die URL der angeforderten Seite. Ist einem Nutzer des Online-Angebotes z.B. die Kennung 142q78 zugeteilt, wird der URL der Parameter sessionid mit dem Wert 142q78 angehängt (z.B. http://www.planet.de/shop.html?sessionid=142q78). URL-Rewriting ist eine Methode, die sich vor allem dann anbietet, wenn der Client-Browser Cookies nicht unterstützt oder der Benutzer Cookies deaktiviert hat. Ein Nachteil dieser Methode, ohne spezielle Mechanismen14 ist die Sichtbarkeit der Identifizierungsnummer. Die Identifizierungsnummer lässt 13 14 Vgl. Abschnitt 4.2.2 Dabei werden temporär begrenzte Session-IDs eingesetzt, d.h. wenn über einen definierten Zeitraum hinweg keine Aktion von dem Besucher auf der Website durchgeführt wurde, verfällt die entsprechende Session-ID. 39 Kapitel 5. Prozess des Web Log Mining sich somit leicht manipulieren, so dass es möglich ist, dass ein Benutzer eine Seite mit der Kennnummer eines anderen Benutzers aufruft15 . Eine Form der Benutzeridentifikation ohne Login und Passwort bieten die sogenannten Hidden Form Fields (versteckte Formularfelder). Hierzu muss jedes HTML-Dokument, das an den Client gesandt wird, als Formular definiert werden. Diese spezielle HTML-Seite enthält ein auf Clientseite nicht sichtbares, verstecktes Feld. In diesem Feld wird z.B. eine spezifische Besucherkennung übertragen. Das Prinzip ist ähnlich dem URL-Rewriting, jedoch wird die Besucherkennung hier nur einmal in den HTML-Quelltext kodiert, während sie bei Verwendung von URL-Rewriting für jeden einzelnen Hyperlink vorliegt16 . Heuristische Verfahren verwenden ausschließlich die Attribute der Protokolldatei und Domänenwissen über die Website, um Ressourcenabrufe von Besuchern zu Transaktionen zusammenfassen zu können. Grundsätzlich differenzieren sich die verwendeten Verfahren durch ihre Nutzung der verfügbaren Attribute zur Transaktionsableitung. Anhand der Tabelle 5.9 soll die Vorgehensweise heuristischer Verfahren verdeutlicht werden. Tabelle 5.9.: Exemplarische Logdatei Im dargestellten Beispiel erfolgen viele Ressourcenabrufe über einen Proxy-Server (proxy. planet.de) mit dem gleichen Browser- und Betriebssystemtypen (Agent2). Die Möglichkeit einer Identifizierung der Transaktionen anhand der Internetadresse oder dem Agentfeld ist also nicht gegeben, da die Einträge in der Logdatei gleich sind. In diesem Zusammenhang ist davon auszugehen, dass ein Besucher beim Abrufen der Seiten nicht den Browser oder das Betriebssystem wechselt. Da diese beiden Attribute zur Ermittlung von Transaktionen nur bedingt anwendbar sind, wird die Zeitkomponente für die Identifikation hinzugezogen. Das Standardverfahren zur Identifizierung von Transaktionen anhand der Zeitkomponente ist ein Zeitfensterverfahren. Sind zwei Zugriffe länger als das gegebene Zeitfenster voneinander entfernt, werden sie verschiedenen Transaktionen zugeordnet. Liegen für eine Website bereits identifizierte Transaktionen vor (eventuell mittels anfänglich gesetztem Zeitfenster oder durch Beschränkung auf die unkritischen Transaktionen), kann die Verteilung der 15 16 Vgl. [RENN99] S. 2 f. Vgl. [SCHO] S. 1 40 5.3. Transaktionsidentikation und Datentransformation Transaktions-Dauern geschätzt werden und daraus ein für die Website spezifisches Zeitintervall bestimmt werden. Als Zeitfenster wird in der Praxis häufig ein Intervall von 30 Minuten gewählt17 . Erfolgt die Transaktionsabgrenzung auf Basis des Agentfeldes, des Hostfeldes und mit einem Zeitfenster von 30 Minuten, so werden auf Grundlage der in Tabelle 5.9 gezeigten Logdateieinträge die in Tabelle 5.10 dargestellten Transaktionen abgeleitet. Tabelle 5.10.: Transaktionsidentifikation mit einem Zeitfenster Wie dem Beispiel entnehmbar ist, wurde zunächst eine Differenzierung anhand des Agentfeldes und des Hostfeldes vorgenommen. So können zwei Transaktionen identifiziert werden. Die Unterscheidung zwischen der zweiten und dritten Transaktion wurde anhand eines Zeitfensters von 30 Minuten getroffen. Im Gegensatz zu den technischen Verfahren muss der Anwender bei den heuristischen Verfahren Domänenwissen in den Transaktionsableitungsprozess einbringen18 (z.B. zur Schätzung der kritischen Referenzdauer). Damit übt er aber auch erheblichen Einfluss auf die Ergebnisse aus. Um eine verzerrungsfreie Transaktionsableitung zu gewährleisten, ist in der Praxis die Datengrundlage dahingehend zu prüfen, ob zumindest eine Teilmenge der Transaktionen durch Anwendung technischer Verfahren abgeleitet werden kann. In diesem Fall steht eine valide Datengrundlage zur Verfügung, auf deren Basis die Schätzung der kritischen Referenzdauer erfolgen kann. Ein großer Nachteil heuristischer Verfahren besteht darin, dass potentiell falsch abgegrenzte Transaktionen erzeugt werden, die in den Mustererkennungsprozess einfließen. Dies ist der Fall, wenn mehrere Besucher zeitnah mit identischen Browser- und Betriebssystemtypen (Agentdaten) über einen Proxy-Server auf eine Website zugreifen. Zur Zeit findet eine Marktbereinigung unter den ISP und im Browsermarkt statt, was zur Folge hat, das weniger unterschiedliche Internetadressen und Browserdaten in den Logdateien protokolliert werden und dadurch eine Differenzierung der Transaktionen erschwert wird. In einer solchen Situation führen heuristische Verfahren mehrere Nutzer zu einer Transaktion zusammen. Weiterhin sollte beachtet werden, dass für die Transaktionsableitung je nach Umfang der Protokolldaten ein erheblicher Rechenaufwand nötig ist. Das Ergebnis der Transaktionsableitung, die Transaktionsdaten, bilden die Basis für die Datentransformationsphase. 17 18 Vgl. [BROG00] S. 94, [COOL99] S. 13 Vgl. [BENS01a] S. 142 f. 41 Kapitel 5. Prozess des Web Log Mining 5.3.2. Datentransformation Für die Mustererkennung müssen die Transaktionsdaten inhaltlich aufbereitet werden. Die Aktivitäten dieser Phase hängen maßgeblich davon ab, welche Data Mining-Verfahren Anwendung finden sollen. Während Verfahren wie Assoziationsanalyse und Sequenzanalyse Transaktionsdaten meist direkt verarbeiten können, verlangen Verfahren wie Clusteranalyse, Entscheidungsbauminduktion oder Neuronale Netze meist ein Datenmodell, bei dem die Daten in Form einer Datenmatrix strukturiert sind. In einer Datenmatrix werden die einzelnen Beobachtungen zeilenweise gespeichert. Die Spalten einer Datenmatrix bilden die Attribute ab. Das Datenmaterial liegt zum jetzigen Zeitpunkt noch nicht als Datenmatrix vor und muss deshalb transformiert werden. Die Tabelle 5.11 zeigt so eine Datenmatrix19 . Tabelle 5.11.: Datenmatrix Eine Möglichkeit die Ressourcenabrufe zu kodieren ist das Binärkodierungs-Verfahren20 . Hierbei werden sämtliche HTML-Dokumente der Website erfasst. Für jede abgeleitete Transaktion wird ein Vektor ermittelt, der abbildet, ob ein Dokument abgerufen wurde. Die Tabelle 5.12 zeigt das Resultat dieser Kodierung auf Grundlage der in Tabelle 5.11 gezeigten Transaktionen. Tabelle 5.12.: Kodierung des Transaktionsfeldes Die Logdaten zeichnen sich durch eine hohe Quantität, aber auch durch eine sehr geringe Qualität aus. Eine Analyse dieser Daten würde zu wenig aussagekräftigen Ergebnissen führen. Aus diesem Grund werden auf Basis der vom WWW-Server erstellten Logdaten weitere Attribute generiert. Das können z.B. die Referenzdauer, Verweildauer, Ausstiegseite, abgerufene Seiten usw. sein. Die Anreicherung der Logdaten soll anhand des Attributs Referenzdauer erläutert werden. Die Referenzdauer ist die Zeit, die ein Benutzer auf einer 19 20 [BENS01a] S. 143 Vgl. Abschnitt 2.2.3 42 5.3. Transaktionsidentikation und Datentransformation Seite verbringt, um den Inhalt zu betrachten (Zeit pro Page View). Sie wird als Differenz aus zwei aufeinanderfolgenden Seitenaufrufen innerhalb einer Transaktion berechnet. Dabei ist zu beachten, dass für den letzten Logdateieintrag einer Transaktion keine Referenzdauer berechnet werden kann, weil der Nachfolger fehlt. Diese fehlenden Werte können aber im Rahmen einer Ersetzungsstrategie, z.B. durch die mittlere Referenzdauer21 , ergänzt werden. Auf Grundlage der einzelnen Werte für die Referenzdauer kann durch Aufsummierung die Verweildauer einer Transaktion berechnet werden. Die Tabelle 5.13 stellt diese berechneten Referenzdauern dar. Tabelle 5.13.: Ermittlung der Referenzdauer Weiterhin kann es für einzelne Analyseverfahren erforderlich sein, bestimmte Attribute zu diskretisieren, d.h. der Attributwert wird in endlich viele Teilmengen zerlegt. Das zu diskretisierende Attribut wird dann durch Attribute für jede Teilmenge der Zerlegung ersetzt22 . Die Diskretisierung soll anhand des Attributs Verweildauer (Summe der Referenzdauer einer Transaktion) in Verbindung mit der Binärkodierung exemplarisch in Tabelle 5.14 gezeigt werden. Tabelle 5.14.: Diskretisierung der Verweildauer Die Verweildauer eines Besuchers ist eine kontinuierliche Variable mit vielen Merkmalsausprägungen, nun gilt es eine geeignete Diskretisierung zu finden. Als Beispiel für eine Intervallbildung könnten die Intervalle „Kurze Verweildauer“ (0 < VD < 5 Minuten) und „Lange Verweildauer“ (VD >= 5 Minuten) gebildet werden. Das quantitative Attribut Verweildauer wird dann durch diese Intervalle ersetzt. Mit dem Binärkodierungs-Verfahren werden dann die neuen Attribute kodiert. 21 22 Vgl. [BENS01a] S. 144 Vgl. [SCHM00a] S. 18 43 Kapitel 5. Prozess des Web Log Mining 5.4. Data Mining Auf der Grundlage der transformierten Transaktionsdaten erfolgt in der Phase des Data Mining die Mustererkennung. Im Rahmen dieses Abschnitts sollen Data Mining-Aufgaben und Verfahren im Kontext des Web Log Mining betrachtet werden. Die Aufgabe des Data Mining ist die automatische und nichttriviale Suche nach Wissen in großen Datenbeständen. Darauf aufbauend können folgende Ziele definiert werden: die Vorhersage und die Beschreibung23 . Bei der Vorhersage wird versucht, auf Grund der Transaktionsdaten unbekannte und zukünftige Ereignisse vorauszusagen. Die Beschreibung versucht, Daten(-gruppen) zu beschreiben und sie, u.U. mit Hilfe von geeigneten Visualisierungsmethoden, gut interpretierbar darzustellen. Die Unterscheidung zwischen beschreibenden und vorhersagenden Modellen ist allerdings nicht sehr ausgeprägt, da vorhersagende Modelle einerseits einen beschreibenden Charakter haben, andererseits beschreibende Modelle ebenfalls zur Vorhersage genutzt werden können. 5.4.1. Aufgaben des Data Mining Die Aufgaben des Data Mining werden in der Literatur nicht einheitlich beschrieben24 . Für das Spezialgebiet Web Log Mining lassen sich insbesondere die Aufgaben Segmentierung, Klassifikation, Abhängigkeitsentdeckung und Abweichungsentdeckung differenzieren, welche nachfolgend erläutert werden sollen25 . Abbildung 5.2.: Data Mining-Ziele und Data Mining-Aufgaben, Vgl. [KIMM00] S. 17 Die Aufgabe der Segmentierung ist die Unterteilung der Daten in sinnvolle und interessante Klassen (Segmente). Auf der Basis von Distanzmaßen soll dabei innerhalb eines Segments 23 24 25 [FAYY96] S. 12 [KÜPP99] S. 77 Vgl. [ALPR00b] S. 9 ff., [KIMM00] S. 15 ff., [NEEB99] S. 33 ff., [RUNK00] S. 64 ff. 44 5.4. Data Mining eine höchstmögliche Homogenität, zwischen den Segmenten eine größtmögliche Heterogenität erreicht werden. Der Grad der Homogenität und die Anzahl der Segmente kann vom Benutzer über Parameter bestimmt werden. Die Segmentierung wird häufig zur Einteilung von Kunden in Zielgruppen verwendet, um eine möglichst zielgruppenorientierte MarketingAktivität zu realisieren. Dazu werden die Kundendaten und Transaktionen über einen gewissen Zeitraum analysiert, wobei ähnliche Verhaltensmuster identifiziert werden. Bei der Klassifikation liegen gegebene oder durch Segmentierung ermittelte Klassen vor, die durch Regeln oder Funktionen beschrieben werden. Ergebnis ist einerseits die Ursachenforschung von Ereignissen und anderseits die Prognosefähigkeit durch eine Abhängigkeitsbeschreibung. Regeln sind häufig einfacher zu verstehen. Dafür ergeben Funktionen meistens genauere Beschreibungen oder Prognosen. Der Unterschied zwischen der Klassifikation und der Segmentierung liegt darin, dass bei der Klassifizierung vordefinierte Klassen verwendet werden, während bei der Segmentierung diese erst generiert werden. Aus diesem Grund können mit der Klassifikation auch keine Klassen entdeckt werden, die zuvor noch unbekannt oder nicht definiert wurden. Ziel der Abhängigkeitsentdeckung ist es, ein Modell für aussagekräftige Abhängigkeiten von Variablen zu finden. Dieses beschreibt dann einerseits auf einer strukturellen Ebene, welche Variablen lokal voneinander abhängig sind, und andererseits auf einer quantitativen Ebene, welche numerischen Werte der Stärke dieser Abhängigkeiten zugeordnet sind. Die Abhängigkeiten werden in Form von Assoziationsregeln dargestellt. Die Abweichungserkennung beschäftigt sich mit Objekten, die sich keinem Muster eindeutig zuordnen lassen. Bei diesen Ausreißern kann es sich um fehlerfreie, interessante Merkmalsausprägungen handeln oder aber um fehlerhafte Daten, die keine realen Sachverhalte beschreiben. Die Zielsetzung der Abweichungsanalyse besteht darin, die Ursachen für die untypischen Merkmalsausprägungen des Ausreißers aufzudecken. Auch signifikante Änderungen in Bezug auf vorher definierte oder gemessene Werte sollen erkannt werden. 5.4.2. Verfahren des Data Mining In diesem Abschnitt sollen Data Mining-Verfahren aufgezeigt und erläutert werden, die im Kontext des Web Log Mining Anwendung finden können. In der Abbildung 5.3 werden die im Abschnitt 5.4.1 erläuterten Data Mining-Aufgaben den nachfolgenden Verfahren zugeordnet26 . 26 Vgl. [KIMM00] S. 17, [BENS01b] S. 30, [ALPR00b] S. 13 45 Kapitel 5. Prozess des Web Log Mining Abbildung 5.3.: Data Mining-Aufgaben und Data Mining-Verfahren, Vgl. [KIMM00] S. 17 Die Abbildung 5.3 erhebt keinen Anspruch auf Vollständigkeit. Einige dieser Verfahren können für mehr als eine der hier aufgeführten Data Mining-Aufgaben verwendet werden, wobei zur Lösung eines Problems oft eine Kombination von mehreren Verfahren verwendet wird. Im Rahmen der folgenden Betrachtungen werden die Verfahren Clusteranalyse, Entscheidungsbauminduktion, Assoziationsanalyse, Pfad- und Sequenzanalyse, Neuronale Netze und deskriptive Statistik vorgestellt. 5.4.2.1. Clusteranalyse Mit Hilfe der Clusteranalyse sollen Elemente einer Eingabemenge gruppiert werden, indem Daten mit ähnlichen Eigenschaften in einer Gruppe zusammengefasst werden. Die Gruppenbildung erfolgt unter der Bedingung, dass die Wahrscheinlichkeit für das Vorhandensein der tatsächlichen Struktur in den Daten maximiert wird27 . Auch die Gruppen (Cluster), die gebildet werden, sind (im Gegensatz zur Klassifikation) noch nicht definiert. Bei diesem Mustererkennungsverfahren wird die Distanz genutzt, um innerhalb der Daten und Datensätze Strukturen zu erkennen. Für die Clusteranalyse lassen sich zwei Schritte differenzieren28 . In dem ersten Schritt erfolgt die Auswahl und Anwendung eines Distanzmaßes29 zur Bestimmung der Ähnlichkeit von verschiedenen Objekten. Im zweiten Schritt werden die Objekte auf der Basis ihrer Ähnlichkeitswerte durch einen Fusionierungsalgorithmus zusammengefasst. Im Rahmen der Marketingforschung wird Clusteranalyse eingesetzt, um Konsumenten mit gleichen bzw. ähnlichen Eigenschaften zu Gruppen zusammenzufassen. Die resultierende Clusterbildung liefert dabei die Informationsgrundlage für eine zielgruppenspezifische Marktbearbeitung. Die Clusteranalyse wird auch zum Identifizieren von Ausreißern eingesetzt. Dabei werden z.B. Fehler oder Probleme erkannt, die vorher noch nicht aufgetreten sind oder bekannt waren. 27 28 29 Vgl. [GROB99] S. 11, [RUNK00] S. 72 Vgl. [BACK00] S. 262 Einen Überblick liefert [GRIM98] S. 115 ff. 46 5.4. Data Mining Die Abbildung 5.4 zeigt ein mögliches Ergebnis einer Clusteranalyse mit den Attributen Verweildauer und Uhrzeit. Die identifizierten Transaktionsgruppen repräsentieren Kundensegmente und können die Grundlage für eine segmentspezifische Marktanalyse bilden. Abbildung 5.4.: Clusteranalyse von Besuchern Bei der Modellierung von Clustern ist darauf zu achten, dass diese möglichst homogen sind und eine minimale Anzahl von Clustern erreicht wird und damit eine maximale Genauigkeit. Die nützliche oder relevante Anzahl der Cluster sollte der Anwender definieren, da er am besten mit der Problemstellung vertraut ist. Eine Clusteranalyse einer Menge von WWWSeiten zu einer kleineren Anzahl homogener Cluster ist von Interesse, wenn eine größere Website in kleinere Teil-Websites gegliedert werden soll. Das Ziel ist hierbei die anschließende Klassifikation von Benutzern nach den Zugriffen auf die Teilbereiche der Website. Die Ausgangsmenge der Website besteht in diesem Fall aus den Seiten der in Frage stehenden Website. Die meisten Websites besitzen bereits eine natürliche Gliederung, so zum Beispiel eine Gliederung der Unterseiten nach bestimmten inhaltlichen Aspekten, was die Einteilung wesentlich erleichtern kann. Eine zweite Möglichkeit besteht in einem Rückgriff auf das durch die URL der Ressourcen gegebene hierarchische Gliederungsschema der Website. Werden für jede Ebene dieser Hierarchie alle Seiten zu einem Cluster zusammengefasst, deren URL auf die obere Ebene verweisen, liefert dies eine hierarchische Klassifikation der Seiten. Eine weitere Möglichkeit WWW-Seiten zu clustern ist, die Generierung geeigneter Daten in Form von Eigenschaften von WWW-Seiten. Die Textgrundlage für die Generierung kann dabei von der betreffenden Seite selbst stammen oder aus Seiten, die auf die entsprechende Seite verweisen, extrahiert werden30 . Diese Möglichkeit fällt aber mehr in den Definitionsbereich des Web Content Mining und wird im Rahmen des Web Log Mining nicht näher betrachtet. 30 Vgl. [SCHM00b] S. 12 ff. 47 Kapitel 5. Prozess des Web Log Mining 5.4.2.2. Neuronale Netze Neuronale Netze sind aus dem Wunsch heraus entstanden, das menschliche Gehirn mitsamt seiner Lernfähigkeit nachzubilden. In Analogie zu einem Neuron im Gehirn ist das Grundelement eines Neuronalen Netzes ein Verarbeitungselement, das mehrere gewichtete Eingänge, eine Transfer- oder Aktivierungsfunktion und einen Ausgang besitzt. Die schematische Darstellung eines Neurons ist in Abbildung 5.5 zu sehen. Abbildung 5.5.: Schema eines Neurons, Vgl. [LUST02] S. 310 Die Lernfähigkeit besteht in der Anpassung der einzelnen Kantengewichte zwischen den einzelnen Neuronen. Dabei wird die Informationsverarbeitung in zwei Schritten durchgeführt. Im ersten Schritt werden die Eingabewerte (e1 , e2 , ..., en ) mit den Faktoren (g1 , g2 , ..., gn ) individuell gewichtet und aufsummiert (Kombinationsfunktion). Im zweiten Schritt geht das im ersten Schritt ermittelte Ergebnis in die Transferfunktion ein, um den Ausgabewert zu berechnen. Die einzelnen Neuronen werden zu einem neuronalen Netz verbunden, das über eine Eingabeschicht mit Eingabedaten versorgt wird und über eine Ausgabeschicht Ergebnisse liefert. Darüber hinaus verfügen die meisten neuronalen Netze über eine oder mehrere verborgene Verarbeitungsschichten31 . Die Abbildung 5.6 zeigt eine schematische Darstellung eines neuronalen Netzes. Bevor ein neuronales Netz eingesetzt werden kann, muss es im Rahmen der Lernphase mit Trainingsdaten konfiguriert werden. Dabei ist zwischen überwachtem und unüberwachtem Lernen zu unterscheiden. Überwachtes Lernen wird meist dazu verwendet, um Anwendungen zur Klassifizierung und Vorhersage zu realisieren. Dazu werden in einer Lernphase mit Hilfe von Trainingsdaten die Verknüpfungen zwischen den Verarbeitungseinheiten angepasst, so dass bei einem vorgegebenen Eingangssignal ein Soll-Ausgabemuster eintritt. Ein solches Netz zu trainieren ist ein Prozess, in dem das Netz gleichzeitig Mengen von Ein- und Ausgabewerten zum Test bereit gestellt bekommt. Das Netz trainiert sich, indem es jedes Eingabe-Muster aufnimmt, ein 31 Vgl. [BENS01a] S. 122 48 5.4. Data Mining Abbildung 5.6.: Darstellung eines Neuronalen Netzes, Vgl. [BENS01a] S. 123 Ausgabe-Muster erzeugt und diesen Ausgabewert mit dem Soll-Ausgabewert vergleicht. Unterscheidet sich der Ist-Ausgabewert des Netzes vom Soll-Ausgabewert, korrigiert das Netz die Stärke (Gewichte) seiner internen Verbindungen, um die Differenz zwischen Ist- und SollAusgabewert auszugleichen. Passt der Ist-Ausgabewert jedoch zum Soll-Ausgabewert, hat das Netz das Muster erlernt und führt keine Korrektur durch. Dieser Vorgang wird solange weitergeführt, bis die Eingabe/Ausgabe-Muster korrekt sind oder eine akzeptable Fehlerrate erreicht wurde. Diese Lernregel durch Fehlerrückrechnung wird Backpropagation-Lernregel genannt32 . Nach der Lernphase kann das trainierte neuronale Netz auf neue Daten angewandt werden. Dieses Lernverfahren ist das z.Z. am häufigsten verwendete33 . Beim unüberwachten Lernen soll das Netz eigenständig Klassifikationskriterien für die Eingangsmuster finden. Das Netz versucht Gemeinsamkeiten der präsentierten Eingangsmuster durch einen Ähnlichkeitsvergleich zu entdecken und seine Gewichtsstruktur danach auszurichten. Somit bilden die Neuronen selbständig Musterklassen und werden zu Musterdetektoren34 . Anhand dieser gefundenen Muster werden z.B. Kunden, im Rahmen der Clusteranalyse, in Zielgruppen segmentiert. Solche unüberwacht lernenden Netze werden Kohonen-Netze oder Self-Organizing Maps genannt. Im Folgenden wird ein einfaches (überwacht lernendes) neuronales Netz vorgestellt35 . Für die Eingabeschicht werden wird ein Datensatz mit den Attributen Verweildauer und Seitenabrufe eines Besuchers gewählt. Das neuronale Netz soll voraussagen, ob der Besucher ein Kunde wird. Dafür ist eine abhängige Variable (Zielattribut) festzulegen, die die Klassenzugehörigkeit der Transaktionen angibt. Als Zielattribut wird in diesem Beispiel „Kunde“, mit 32 33 34 35 Vgl. [MENA00] S. 126 ff. Vgl. [BENS01a] S. 123 Vgl. [KÜPP99] S. 53 f., [NEEB99] S. 122 Aufbauend auf [BERS00] S. 174 f. 49 Kapitel 5. Prozess des Web Log Mining Abbildung 5.7.: Neuronales Netz für die Vorhersage des Besucherverhaltens den Ausprägungen „Ja“ oder „Nein“, gewählt. Üblicherweise akzeptieren Neuronale Netze als Eingabewerte numerische Werte in den Intervallen [-1;+1] oder [0;1]. Die Eingabewerte bilden in diesem Beispiel für die Verweildauer 650 Sekunden und für die Seitenabrufe 9 abgerufene Ressourcen. Nach deren Normalisierung36 folgen die Werte 0,65 und 0,9 (Abbildung 5.8). Danach werden normalisierten Eingangswerte mit ihren Gewichten multipliziert und zu einem Ergebnis addiert. Es folgt (0,65∗0,7)+(0,9∗0,3)=0,725. Abbildung 5.8.: Ergebnisnetz für die Vorhersage des Besucherverhaltens Um eine Aussage über das Navigationsverhalten des Besuchers treffen zu können, wurde das vorliegende Netz so trainiert, dass ein Wert von 0 einen Besucher indiziert, der kein Kunde wird und ein Wert von 1 einen Kunden identifiziert, der Schwellwert liegt bei 0,5. Der Ergebniswert von 0,725 liegt über dem Schwellwert, somit wird vermutet, dass der Besucher ein Kunde wird. Neuronale Netze stellen einen interessanten Ansatz bei der Gestaltung adaptiver Websites dar. So könnte ein neuronales Netz etwa aus den bisherigen Bewegungen eines Besuchers versuchen, seine künftigen Bewegungen abzuleiten und entsprechende Links anbieten. Dieser Ansatz wurde aber noch nicht weiterverfolgt37 . Neuronale Netze werden in Bereichen eingesetzt, wo eine Vorhersage und eine Suche nach zusammengehörigen Mustern nötig 36 37 Als Maximum wurde für die Verweildauer 1000 und für die Seitenabrufe 10 angenommen. Vgl. [SCHM00c] S. 24 50 5.4. Data Mining ist. Beispiele für erfolgreiche Applikationen liegen in den Bereichen Evaluierung des Pfändungsrisikos, Produktionskontrolle, Handschrift- und Zeichenerkennung38 und Kreditkartenbetrug. Der Nachteil der neuronalen Netze besteht allerdings bei sehr großen Datenmengen in einer sehr langen Rechenzeit. Für den Anwender präsentieren sich Neuronale Netze als schwer interpretierbare Black Box-Systeme und sind deshalb für die Generierung verständlicher Hypothesen nur bedingt geeignet39 . 5.4.2.3. Entscheidungsbauminduktion Die Entscheidungsbauminduktion kann eingesetzt werden, um charakteristische, diskriminierende Merkmale für Transaktionsklassen zu identifizieren und die Klassenzugehörigkeit von Transaktionen zu bestimmen. Zu diesem Zweck ist ein ein Zielattribut festzulegen, das die Klassenzugehörigkeit der Transaktionen angibt40 . Entscheidungsbäume helfen, auf einzelne Datensätze auch in größeren Datenbanken effizient zuzugreifen, d.h. die Zugriffszeiten sind unabhängig von der Größe der Datenbank konstant, da aus der Datenbank nur noch die Daten geladen werden, die für die Beantwortung der vorliegenden Bereichsabfrage benötigt werden41 . Die Erstellung des Baumes erfolgt anhand der vorhandenen, historischen Daten. Basierend auf der meist schon vorhandenen Einteilung der Daten in Klassen werden weitere Untergruppen gebildet. Mathematisch gesehen ist ein Entscheidungsbaum ein gerichteter Graph mit Knoten und Kanten. Die Knoten stellen die unterschiedlichen Attribute dar, die Kanten ihre möglichen Werte. Der Ursprungsknoten eines Entscheidungsbaumes heißt Wurzelknoten. Der Wurzelknoten stellt das Attribut dar, das den Datensatz bezüglich eines Informationskriteriums am besten klassifiziert. Dieses Informationskriterium ist die eigentliche Basis der Klassifikation, denn es stellt ein Maß für den Informationsgewinn bei einer Verzweigung bezüglich des Zielattributes dar. Ausgehend von diesem Wurzelknoten teilt sich der Baum in weitere Zweige, die ihrerseits die entscheidenen Teilmengen nach diesem Informationskriterium am besten klassifizieren. Knoten, die sich nicht weiter aufspalten lassen, heißen Blätter. Das Ziel ist, die Blätter des Baumes so homogen wie möglich zu gestalten, d.h. die Daten sollten bezüglich des ausgewählten Merkmals relativ gleiche Werte annehmen42 . In Abbildung 5.9 wird ein stark vereinfachtes Beispiel eines Entscheidungsbaumes dargestellt. Als Zielattribut wurde gewählt, ob ein Besucher etwas kauft oder nicht. Es wird ein Entscheidungsbaum gesucht, der anhand der Merkmale Referrer und der Verweildauer möglichst gut prognostiziert, ob ein Besucher etwas auf der Website kauft oder nicht. Mit Hilfe 38 39 40 41 42 Ein renommiertes Unternehmen in diesem Bereich ist die PLANET AG (http://www.planet.de). Vgl. [BENS01a] S. 125 [BENS01a] S. 154 [GROB99] S. 9 f. [DIED99] S. 63 f. 51 Kapitel 5. Prozess des Web Log Mining Abbildung 5.9.: Exemplarischer Entscheidungsbaum von Wenn-Dann-Abfragen können dann die geltenden Regeln innerhalb des Datensatzes abgefragt werden. Aus dem Entscheidungsbaum lassen sich direkt die generierten Regeln ablesen. Für das dargestellte Beispiel aus Abbildung 5.9 lässt sich z.B. folgende Regel ablesen: Wenn Referrer = Bannerwerbung und Verweildauer > 120 Sekunden dann Käufer Insbesondere in den tieferen Verzweigungen des Baumes wird der Einfluss von zufälligen Elementen (fehlende Werte, Ausreißer in den Daten) größer, was zu einer Übermodellierung des Entscheidungsbaumes führen kann. Zur Umgehung des Problems bieten sich entsprechende Pruning-Verfahren43 an, die nur eine bestimmte maximale Tiefe der Bäume zulassen oder eine Mindestanzahl der Objekte pro Knoten definieren. 5.4.2.4. Assoziationsanalyse Das Ziel der Assoziationsanalyse ist die Entdeckung von Abhängigkeiten zwischen Teilmengen von Daten44 . Die Vorgabe eines Zielattributs, wie bei der Entscheidungsbauminduktion, ist nicht notwendig, vielmehr wird die Suche auf statistisch auffällige Muster beschränkt45 . Ausgangspunkt ist eine Menge von Objekten, die durch binäre Attribute beschrieben werden (liegt vor/liegt nicht vor). Die Objekte werden durch die Menge der vorliegenden Attribute beschrieben. Dabei werden Regeln folgender Form gesucht: Besitzt ein Objekt die Attribute 43 44 45 Das sind Beschneidungstechniken, die diejenigen Teilbäume entfernen, die nur eine geringe Bedeutung für das Klassifikationsergebnis besitzen. [SCHM00a] S. 2 Vgl. [KÜPP99] S. 65 52 5.4. Data Mining A, dann besitzt es auch die Attribute B (A ⇒ B). Die algorithmische Umsetzung der Analyseverfahren zur Aufdeckung von Assoziationen basiert auf der Häufigkeitsbetrachtung von Attributkombinationen. Dazu werden die Maße Konfidenz und Support definiert. Die Konfidenz einer Assoziationsregel A ⇒ B gibt an, wie oft bei Zutreffen von A auch tatsächlich B zutrifft. Konfidenz (Attribut A ⇒ Attribut B) = Anzahl der Objekte die Attribut A und Attribut B enthalten Anzahl der Objekte die Attribut A enthalten Ein Anwendungsbeispiel könnte lauten: In 50 Prozent aller Fälle, bei denen ein Besucher über ein Werbebanner bei yahoo.de auf die Website gelangte und die Website vorher drei mal besucht hat, dann kauft er das Produkt A. Die Objekte sind hier Transaktionen von Besuchern einer Website, die drei Attribute besitzen: • der Referrer (über ein Werbebanner bei yahoo.de) • die Anzahl der Besuche (Visits) • die abgerufene Seite (der Kauf des Produkts A) Der Support einer Attributmenge gibt an, wie häufig die Attribute gemeinsam innerhalb des gesamten Datenbestandes vorkommen. Support (Attribut A, Attribut B) = Anzahl der Objekte die Attribut A und Attribut B enthalten Anzahl aller Objekte Das Anwendungsbeispiel um den Support erweitert, lautet: In 50 Prozent aller Fälle, bei denen ein Besucher über ein Werbebanner bei yahoo.de auf die Website gelangte und die Website vorher drei mal besucht hat, dann kauft er das Produkt A, dies kommt bei insgesamt 5 Prozent aller Transaktionen vor. Durch die Vorgabe einer Mindest-Konfidenz und einem Mindest-Support kann gesteuert werden, ab wann eine Assoziation als interessant anzusehen ist. Wenn keine Vorgaben gemacht werden, können in einer umfangreichen Datenbasis fast beliebig viele Assoziationen auftreten. Um die Regelmenge der Assoziationsanalyse zu begrenzen, kann ein zeitorientiertes Kosumentenverhaltensmodell eingesetzt werden, das die Dauer der Referenzdauer berücksichtigt46 . Dieses Konzept selektiert nur diejenigen Protokolleinträge, deren Referenzdauer einen bestimmten Zeitraum überschreitet. Auf diese Weise werden nur die Abrufe von HTMLDokumenten für die Assoziationsanalyse berücksichtigt, die von den Besuchern ausreichend lang genug betrachtet wurden. 46 Vgl. [COOL99] S. 21 f. 53 Kapitel 5. Prozess des Web Log Mining Eine Standardanwendung von Assoziationsregeln im Web Log Mining ist die Beschreibung von Zugriffsmustern. Die Regel produktA.html ⇒ produktB.html0,04; 0,5 besagt, dass 50 Prozent aller Besucher, die die Seite produktA.html aufrufen, auch die Seite produktB.html besuchen, dies kommt in 4 Prozent aller Transaktionen vor. Diese statistische Hypothese kann vom Anwender nur sinnvoll interpretiert werden, wenn entsprechendes Domänenwissen über die Inhalte der assoziierten Dokumente vorhanden ist. Sofern dieses Wissen nicht vorhanden ist, können technische Verfahren eingesetzt werden, die das notwendige Wissen über die Inhalte der referenzierten Dokumente bereitstellen. Die Bereitstellung dieses Wissens kann im Anschluss an die Mustererkennung erfolgen, indem die Metadaten47 der entsprechenden HTML-Dokumente ausgelesen werden48 . Auf Basis der Ergebnisse der Assoziationsanalyse können Webdesigner die HTML-Seiten anpassen oder ihre Anordnung optimieren. Eine Verknüpfung entdeckter Seitenkombinationen durch entsprechende Verweise kann dazu beitragen, die Benutzerfreundlichkeit der Website zu verbessern. Die Assoziationsanalyse eignet sich, um diejenigen Seiten der Webpräsenz zu identifizieren, die am häufigsten gemeinsam aufgerufen werden, jedoch können Assoziationsregeln keine Aussage über die Reihenfolge der Aufrufe liefern. Damit Aussagen über die Reihenfolge der Aufrufe getroffen werden können, wird die Pfad- und Sequenzanalyse eingesetzt49 . 5.4.2.5. Pfad- und Sequenzanalyse Für die Untersuchung von Navigationsreihenfolgen lassen sich zwei Analyseverfahren differenzieren: die Pfadanalyse und die Sequenzanalyse. Die Pfadanalyse erlaubt, auf der Basis der abgeleiteten Transaktionen, die Identifikation der am häufigsten verwendeten Navigationspfade (Klickpfade). Zu diesem Zweck wird für jede Transaktion die Menge der Teilpfade ermittelt, auf denen Seiten erstmalig referenziert werden50 . Ein Beispiel eines Navigationspfades einer Transaktion für eine gegebene Webpräsenz wird in der Abbildung 5.10 grafisch dargestellt. 47 48 49 50 Metadaten sind standardisierte Informationen, die ein HTML-Dokument formal und inhaltlich beschreiben. [BENS01a] S. 146 f. [BENS99a] S. 11 [BENS99a] S. 11 54 5.4. Data Mining Abbildung 5.10.: Navigationspfad einer Transaktion Die in der Abbildung 5.10 dargestellten Transaktion besucht ein Nutzer die HTML-Dokumente in der Reihenfolge: index.html → produkte.html → produktA.html → produkte.html → produktB.html → produkte.html → index.html → support.html Auf der Basis dieses Navigationspfads werden diejenigen Pfade ermittelt, auf denen neue Seiten abgerufen werden. Diese vorwärtsgerichteten Pfade lauten für das dargestellte Beispiel folgender Maßen: index.html → produkte.html → produktA.html index.html → produkte.html → produktB.html index.html → support.html Wird dieser Prozess für alle Transaktionen durchgeführt, können die am häufigsten besuchten Teilpfade ermittelt werden. Die Ergebnisse der Pfadanalyse sind für einen Webmaster sehr interessant, denn so erfährt er, über welche Wege die Besucher zu bestimmten Dokumenten oder Bildern gelangt sind. Ein Designer könnte den Ergebnissen entnehmen, wie der Besucher durch die Website navigierte und ob es Pfade oder Punkte gibt, über die viele Besucher die Website verlassen51 . Sowohl die Assoziations- als auch die Pfadanalyse betrachten die Abhängigkeiten zwischen den Attributen lediglich auf der Ebene einzelner Transaktionen. Für das Web Log Mining sind jedoch auch Aussagen von Interesse, die sich auf alle Transaktionen eines Kunden beziehen 51 Vgl. [MENA00] S. 82 55 Kapitel 5. Prozess des Web Log Mining und zeitliche Abhängigkeiten aufdecken. Im Zuge dieser Fragestellung sind intertransaktionale Muster zu generieren, während bei der Assoziations- und Pfadanalyse lediglich intratransaktionale Muster gefunden werden können. Mit der Sequenzanalyse ist es möglich, die zeitliche Abfolge der Transaktionen zu berücksichtigen. Mit ihrer Hilfe lassen sich typische Bewegungspfade der Besucher auf der Website analysieren. Unter der Voraussetzung einer transaktionsübergreifenden Nutzeridentifikation kann auch die Abfolge verschiedener Besuche eines Nutzers analysiert werden52 . Ein möglicher Ansatz könnte das Setzen von persistenten Cookies sein53 . In diesem Fall können zusätzlich Aussagen über die zeitliche Entwicklung des Besucherverhaltens getroffen werden. So lässt sich beispielsweise ermitteln, nach welcher Anzahl von Besuchen durchschnittlich eine Bestellung erfolgt oder in welchem zeitlichen Abstand Wiederholungskäufe getätigt werden. Es können also Aussagen folgender Art abgeleitet werden: 10 Prozent der Kunden, die auf der Seite produktA.html eine Online-Bestellung durchführen, plazieren innerhalb von 15 Tagen auch eine OnlineBestellung auf der Seite produktB.html. Zentrale Voraussetzung für die Durchführung von Sequenzanalysen ist die transaktionsübergreifende Identifikation eines Benutzers. Da aus Leistungs- und Sicherheitsgründen viele Internetzugänge mit Proxy-Servern ausgestattet sind, ist die Benutzeridentifikation allerdings problematisch. Selbst wenn die Internetadresse des Benutzers protokolliert wird, ist dies keine Garantie dafür, dass auch wirklich derselbe Benutzer den Client-Browser bedient hat. Für sequenzanalytische Fragestellungen bietet sich daher der Einsatz technischer Maßnahmen (z.B. Registierungsformulare) an, um die Authentifizierung des Benutzers zu erzwingen54 . 5.4.2.6. Deskriptive Statistik Die am weit verbreitetste Analysemethode im Kontext des Web Log Mining stellen klassische statistische Verfahren dar. Zahlreiche Analyseprogramme nutzen die deskriptive Statistik zur Auswertung von Server-Logdateien. Deskriptive Statistik, auch beschreibende Statistik genannt, stellt Verfahren zur Verfügung, die das ungeordnet vorliegende Datenmaterial nach Maßgabe definierter Kategorien ordnet, grafisch oder tabellarisch darstellt und die Gesamtheit der Dateninformation in einfachen Kennwerten etwa dem arithmetischen Mittel, Minima oder Maxima verdichtet55 . Website-Analyseprogramme importieren die Server-Logdateien in eine integrierte Datenbank, die die Daten wiederum in zusammenfassende Berichte oder Graphen umwandeln. Diese Daten können dann noch feiner skaliert werden, bis sie den differenzierten Anforderungen des Anwenders genügen. So könnte es den Marketingmanager interessieren, wie effektiv Werbekampagnen waren. Werbefachleute und Kooperationspart52 53 54 55 [BENS99a] S. 12 Vgl. Abschnitt 4.2 und 5.3.1 [BENS99a] S. 12 Vgl. [RAUH00] S. 2 56 5.5. Evaluation und Interpretation ner möchten wissen, wie oft über ein Werbebanner zur Zielseite durchgeklickt wurde. Die meisten dieser Analysetools liefern Statistiken wie die: • beliebtesten Seiten • Frequentation der Website • Ein- und Ausstiegsseiten der Besucher • durchschnittliche Verweildauer • häufigsten Suchbegriffe • Neugewinn von Besuchern pro Monat • Herkunft der Besucher • technische Ausstattung usw. Die Abbildung 5.11 zeigt eine typische Ansicht eines Website-Analyseprogramms. Hier wird die Anzahl der Page Views einer Website in Abhängigkeit der Tageszeit grafisch dargestellt. Abbildung 5.11.: Beispielchart von täglichen Page Views Website-Analyseprogramme stellen den Verkehr der Website nach verschiedenen Kriterien grafisch dar und liefern umfangreiche skalierbare Gesamtansichten. Die Ausgabe dieser Berichte kann in verschiedenster Weise erfolgen, als Standard hat sich das Generieren von HTML-Berichten etabliert, es werden aber auch verschiedene andere Dateiformate wie z.B. für Adobe Acrobat, Microsoft Excel oder Word unterstützt. 5.5. Evaluation und Interpretation Im Rahmen der Evaluation ist festzustellen, welche Bedeutung die Analyseergebnisse in Bezug auf das Domänenwissen des Anwenders besitzen56 . Im Zuge der Evaluation ist für 56 Vgl. Abschnitt 2.2.5 57 Kapitel 5. Prozess des Web Log Mining die entdeckten Muster festzustellen, ob es sich um einen bereits bekannten Zusammenhang handelt, oder ob ein neuer Zusammenhang entdeckt wurde. Die Analyse einer Website bezieht Mitarbeiter aus verschiedenen Abteilungen wie IT, Marketing, Vertrieb, Einkauf usw. mit ein. In jedem Fall werden sämtliche Personen, die für das Design und die Pflege der Website verantwortlich sind, an dem Prozess beteiligt sein. Ist die Datenanalyse abgeschlossen, sollten die erzielten Ergebnisse mit allen Beteiligten besprochen und analysiert werden. Experten, die auf bestimmte Bereiche im Unternehmen spezialisiert sind, sollten von den Ergebnissen der Analyse unterrichtet werden, um die Richtigkeit und Eignung der Ergebnisse für die Erreichung der geschäftlichen Ziele zu bestätigen57 . Aus managementorientierter Perspektive wird mit dem Abschluss des Web Log Mining-Prozesses die informatorische Grundlage für die Ausgestaltung internetbasierter Marketinginstrumente hergestellt. Bei der Interpretation sind daher auch immer Effekte zu beachten, die aus der Umgestaltung der Website resultieren, wie zum Beispiel Aktionen, die die Website in ihrer Struktur oder ihrem Inhalt verbessern oder verändern. 57 Vgl. [MENA00] S. 207 f. 58 6. Vorstellen von Data Mining-Programmen im Kontext des Web Log Mining In diesem Kapitel soll ein kurzer Überblick über die Software gegeben werden, die im Rahmen des Web Log Mining-Prozesses in Kapitel 7 Anwendung findet. In diesem Zusammenhang werden drei kommerzielle Programme und ihre Data Mining Funktionalitäten vorgestellt1 . 6.1. Websuxess 4.0 Der Markt für Logdatei-Analyseprogramme mit klassischen deskriptiven Auswertungsfunktionen ist sehr groß. Der Marktführer im deutschsprachigen Raum ist Websuxess 4.0 von Exody2 . Dieses Programm implementiert zahlreiche deskriptive Analysefunktionen und die Pfadanalyse. Ein großer Vorteil dieses Programms ist seine IVW-Konformität3 . Damit ein schneller Einstieg in die Handhabung des Programms gewährleistet ist, bietet Websuxess eine umfangreiche deutschsprachige Hilfe, sowie Tutorials für unterschiedliche Anwendergruppen. Weiterhin wird Anfängern ein Assistent zur Seite gestellt, der die wichtigsten Programmfunktionalitäten leicht verständlich erklärt. Eine praktische Funktion ist, bestimmte HTML-Seiten zu Gruppen zusammenzufassen, um bspw. nur bestimmte Bereiche der Website zu analysieren. Auch bietet Websuxess Filterfunktionen die es erlauben, uninteressante oder nichtrelevante Einträge der Logdatei4 auszuschließen. Die Bedienoberfläche (Abbildung 6.1) von Websuxess ist übersichtlich aufgebaut. Auf der 1 2 3 4 In diesem Rahmen wurde auch das kostenlose Programm WEKA 3.2 (http://www.cs.waikato.ac.nz/∼ml/) getestet. Dieses Analyseprogramm wurde an der Universität von Waikato in Neuseeland entwickelt. Es stellt Verfahren zur Segmentierung, Klassifizierung und Abhängigkeitsentdeckung zur Verfügung. WEKA erfüllte die Anforderungen in puncto Qualität und Quantität bei der Verarbeitung großer und komplexer Datenmengen nicht (sehr langsame Verarbeitung, viele Abstürze). Auch die grafische Aufbereitung der Analyseergebnisse ist nicht bzw. nur sehr eingeschränkt vorhanden. Aus diesen Gründen kann WEKA für das Web Log Mining nur sehr begrenzt eingesetzt werden und wird deshalb in dieser Arbeit nicht genauer vorgestellt. http://www.exody.de Vgl. Abschnitt 4.3.1 Vgl. Abschnitt 5.2 59 Kapitel 6. Vorstellen von Data Mining-Programmen im Kontext des Web Log Mining Abbildung 6.1.: Oberfläche von Websuxess 4.0 linken Seite des Bildschirms findet man die unterschiedlichen Analysefunktionen des Programms: • Bei der Zusammenfassung wird ein Überblick über das analysierte Datenmaterial gegeben. Hier werden Werte wie die durchschnittliche Verweildauer, die Anzahl der Besucher oder abgerufene Seiten präsentiert. • Die Zeitberichte geben an, wann die Besucher auf der Website waren. Es ist möglich die Berichte geordnet nach Stunden, Wochentagen, Wochen, Monaten usw. auszugeben. • Die Statistik der Seitenabrufe zeigt an, wie viele Nutzer auf die einzelnen Seiten, Verzeichnisse oder selbst definierten Gruppen zugegriffen haben, bzw. wie lange sie auf diesen Seiten waren. • Top- und Second-Level-Domains der Besucher, zeigt die Besucherstatistik. Außerdem werden Roboter, Suchmaschinen und autorisierte Benutzer identifiziert. • Die Navigationsstatistik präsentiert Einstiegs- und Ausstiegsseiten der Besucher. Eine wichtige weitere Funktion ist die Pfadanalyse5 , bei der die häufigsten Navigationspfade der Besucher analysiert werden. 5 Vgl. Abschnitt 5.4.2.5 60 6.2. XAffinity 3.0 • Die Kampagnenanalyse liefert einen Überblick der Seiten, über die die Besucher auf die Website gelangt sind (Referrer). Weiterhin werden die genutzten Suchmaschinen und Suchbegriffe der Nutzer dargestellt. • Die Browserberichte liefern umfangreiche Informationen über die eingesetzte Browser und Betriebssystemsoftware der Besucher. Außerdem werden die technischen Fähigkeiten (z.B. Cookies) der Browser erkannt. Auf der rechten Bildschirmseite befindet sich der Arbeitsbereich. Hier werden die Analyseergebnisse in vielfältiger Form grafisch und textuell gezeigt. Dabei können die Ergebnisse nach unterschiedlichen Kriterien sortiert werden. Außerdem sind analysierte URLs mit Hyperlinks hinterlegt, sodass per Mausklick gleich auf die entsprechende Seite im Internet gelangt werden kann. Damit die unterschiedlichen Analyseergebnisse spezifisch und übersichtlich dargestellt werden können, bietet Websuxess unterschiedliche Darstellungsmöglichkeiten (Balken-, 3D-, Tortendiagramme, usw.) der Analyseergebnisse. Die Ergebnisse können als HTML-Bericht, ASCII- oder CSV-Datei exportiert werden. 6.2. XAffinity 3.0 XAffinity von der amerikanischen Firma Exclusive Ore6 ist ein Programm, das in erster Linie für Warenkorbanalysen entwickelt wurde. Um eine Analyse mit XAffinity durchführen zu können, wird zunächst ein neues Projekt angelegt. Dabei wird über ODBC7 oder OLE DB8 eine Verbindung zu einer Datenbank aufgebaut. XAffinity unterstützt die Datenbanksysteme Microsoft SQL Server 6.5, Microsoft SQL Server 7.0, Microsoft Access, Oracle 8i, RedBrick Warehouse und WhiteCross. In der geöffnenten Datenbank werden von XAffinity spezielle Tabellen angelegt, in denen die Analyseergebnisse gespeichert werden. Wenn die zu analysierenden Daten nicht in den obengenannten Formaten vorliegen, besteht die Möglichkeit, die gewünschten Daten zu importieren. Diese Importmöglichkeit ist aber nur bei Nutzung der Microsoft Access-Datenbank gegeben. Dabei werden ausschließlich CSV-Dateien unterstützt. Bevor die Analyse gestartet werden kann, werden die entsprechenden Parameter (z.B. Konfidenz oder Support) definiert. Danach kann eine Analysemethode gewählt werden. Da XAffinity für Warenkorbanalysen entwickelt wurde, werden lediglich die Assoziations- und Sequenzanalyse unterstützt. Nach der Analyse werden die gefundenen Regeln wahlweise in tabellarischer oder grafischer Form (Abbildung 6.2) ausgegeben. Die grafische Darstellung der Assoziationsergebnisse 6 7 8 http://www.xore.com ODBC (Open Database Connectivity) ist eine Datenbankschnittstelle, die eine Verbindung zwischen unterschiedlichen Datenbanksystemen herstellen kann. OLE DB ist, ähnlich wie ODBC, eine Datenbankschnittstelle von Microsoft. 61 Kapitel 6. Vorstellen von Data Mining-Programmen im Kontext des Web Log Mining Abbildung 6.2.: Oberfläche von XAffinity 3.0 kann die Suche nach interessanten Regeln unterstützen. Bei dem angezeigten Diagramm sind die Ordinaten und die dargestellten Objekte frei wählbar. Weiterhin können interessante Abschnitte des Diagramms vergrößert und genauer bearbeitet werden. Die Analyseergebnisse können als Regeln in natürlicher Sprache oder als Tabelle exportiert werden. Dabei werden das HTML-Format oder Textformate unterstützt. Zur Integration der Data MiningFunktionen in eigene Applikationen stellt XAffinity eine ActiveX-Schnittstelle zur Verfügung. 6.3. KnowledgeStudio 3.0 Das KnowledgeStudio von der kanadischen Firma Angoss9 ist sehr übersichtlich aufgebaut. Eine schnelle Einarbeitung in das KnowledgeStudio wird dadurch begünstigt, das das Programm vollständig (bis auf Teile des Tutorials) in deutscher Sprache ausgeliefert wird. Weiterhin findet man sich aufgund des fensterbasierten Aufbaus des Programms schnell zurecht. Für eine effektive Einarbeitung steht ein sehr umfangreiches Tutorial mit zahlreichen Abbildungen und ausführlichen Erklärungen zur Verfügung. Die Arbeitsoberfläche des KnowledgeStudios ist so aufgebaut, das man auf der linken Bildschirmseite ein Fenster mit der baumartigen Struktur des aktuellen Projektes vorfindet. Das Hauptarbeitsfenster befindet sich auf der rechten Bildschirmseite. Hier werden die Analysen, Datensichtungen und Ein9 http://www.angoss.com 62 6.3. KnowledgeStudio 3.0 Abbildung 6.3.: Segmentansicht einer Datenmenge mit KnowledgeStudio 3.0 stellungen vorgenommen. Zahlreiche externe Formate wie z.B. SAS, SPSS, Lotus, GAUSS, Excel, CSV-Dateien oder Verbindungen über ODBC und OLE DB können in das KnowledgeStudio importiert werden. Nach dem Import der Daten wird vom KnowledgeStudio eine Übersicht der Daten generiert. Dabei wird eine Tabelle aller Attribute mit entsprechenden Minimas, Maximas, fehlender Werte usw. angezeigt. Um sich weiter mit den Daten vertraut machen zu können, bietet das Programm u.a. eine grafische Segmentansicht. Diese visualisiert die Datenmenge nach einem zugewiesenen Segmentattribut (Abbildung 6.3). Bereits dadurch ist es möglich, interessante Zusammenhänge in den Daten zu identifizieren. Die herausragendste Technik des KnowledgeStudios ist die Entscheidungsbauminduktion. Die generierten Entscheidungsbäume können schrittweise analysiert werden, d.h. der Anwender kann einzelne Blätter des Baumes genauer untersuchen, ohne das er den gesamten Baum betrachten muss. Das fördert die Übersichtlichkeit und das Verständnis des zugrunde liegenden Modells (Abbildung 6.4). Die Entscheidungsbäume können in unterschiedlichen grafischen Formen (z.B. zwei- oder dreidimensionale Darstellung, unterschiedliche Diagrammarten mit Farbkodierung) dargestellt werden. Als weiteres Analyseverfahren bietet das KnowledgeStudio die Clusteranalyse. Die gefundenen Cluster werden in Form eines Entscheidungsbaums präsentiert, was die Lesbarkeit der Ergebnisse stark erhöht. Eine weitere Möglichkeit, die Clusterergebnisse zu visualisieren, bietet die oben erläuterte Segmentansicht. Weiterhin können Vorhersagemodelle mit neuronalen Netzen oder der Entscheidungsbauminduktion generiert werden. Auch hierbei erfolgt 63 Kapitel 6. Vorstellen von Data Mining-Programmen im Kontext des Web Log Mining Abbildung 6.4.: Entscheidungsbaum des KnowledgeStudios die Ausgabe der Prognoseergebnisse als Entscheidungsbaum. Die Regeln, die die Analyseverfahren identifiziert haben, können textuell in natürlicher Sprache ausgegeben oder z.B. als SAS-, Excel- oder CSV-Format exportiert werden. Zur Integration der Data MiningFunktionen in eigene Anwendungen stellt Angoss eine ActiveX-Schnittstelle zur Verfügung. 64 7. Der Prozess des Web Log Mining Anhand der Internetpräsenz der PLANET internet commerce GmbH In diesem Kapitel soll der Prozess des Web Log Mining, einschließlich der in Abschnitt 5.4.2 erläuterten Data Mining-Verfahren, anhand der Internetpräsenz der PLANET internet commerce GmbH1 (Abbildung 7.1) auf seine praktische Anwendbarkeit untersucht werden. Außerdem wird geprüft, inwieweit die vorgestellten Data Mining-Verfahren zur Unterstützung unternehmerischer Entscheidungen im Kontext der Optimierung des Internetangebotes eingesetzt werden können. Abbildung 7.1.: Homepage der PLANET internet commerce GmbH Die Internetpräsenz der PLANET internet commerce GmbH dient in erster Linie zur eigenen 1 http://www.planet-ic.de 65 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage Imagepflege. Dabei werden die Firma, Referenzprojekte, Kompetenzen und Knowhow präsentiert. In diesem Rahmen werden die vertriebenen Produkte vorgestellt bzw. eine OnlineDemonstration eines CMS2 , des s.g. Satellite XL, angeboten. Weiterhin dient die Homepage als eine Art Kommunikationsplattform mit den PLANET GmbH-Kunden, der Presse und Partnern. In diesem Zusammenhang werden PLANET interne Veranstaltungsinformationen und aktuelle Informationen zur Verfügung gestellt. Im Downloadbereich können sich Besucher fachliche Informationen zum Thema Internettechnologien bzw. Vorträge oder Präsentationen von vergangenen Veranstaltungen herunterladen. Die Homepage stellt auch einen Distributionskanal für die angebotene Produktpalette dar. Dabei handelt es sich aber nur um ausschließlich zeitlich begrenzte Verkaufsaktionen. Bei auftretenden Personalbedarf können über die Homepage, im Form von Stellenausschreibungen, neue Mitarbeiter akquiriert werden. Die Homepage umfasst 7 Bereiche mit ca. 130 Dokumenten. Eine detaillierte Beschreibung der einzelnen Websitebereiche wird in Tabelle 7.1 gegeben. Tabelle 7.1.: Bereiche der PLANET GmbH-Homepage 7.1. Datengenerierung Für die Analyse der Homepage der PLANET GmbH wurden die Logdateien von Februar 2002 bis einschließlich September 2002 herangezogen. Die Logdaten umfassen insgesamt 73 Megabyte (MB) und beinhalten ca. 386000 Einträge. Die Logdateien wurden von einem Apache-Webserver generiert und liegen im Extended Log File-Format (ELF-Format3 ) vor. Ein genauerer Überblick des Umfangs der Protokolldateien wird in Tabelle 7.2 gegeben4 . 2 3 4 Content-Management-System Vgl. Abschnitt 4.1.5 Die verwendeten Logdaten liegen der CD unter \skripte\log.txt bei. 66 7.2. Datenselektion Tabelle 7.2.: Umfang der PLANET GmbH-Logdateien Cookies oder ähnliche Mechanismen werden auf der Homepage nicht eingesetzt. Auch in rechtlicher Beziehung erfüllt der Datenbestand die bundesdeutschen Bestimmungen, denn die Protokolldaten werden nicht mit Kundenprofilen oder ähnlichen Daten verknüpft5 . 7.2. Datenselektion In dieser Phase des Web Log Mining-Prozesses werden alle für die Analyse nicht relevanten Einträge aus den Logdateien entfernt6 . Dies waren in dem vorliegenden Datenbestand vor allem zielgruppenfremde und nicht explizit vom Besucher angeforderte Elemente. Weiterhin wurden alle mit der HEAD-Methode angefragten Seiten, sowie fehlerhaft abgerufenen Ressourcen7 und Besuche von nichtmenschlichen Nutzern, sogenannte Roboter, Spider oder Crawler, herausgefiltert. Zielgruppenfremde Einträge wurden durch interne Abrufe und durch Testdateien verursacht. Als nicht vom Besucher explizit angeforderte Ressourcen wurden in erster Linie Dateien mit den Endungen gif, jpg und css8 identifiziert. Für die Filterung der Logdateieinträge von nichtmenschlichen Nutzern, wurde zunächst eine Liste9 mit aktuellen Robotern, Spidern oder Crawlern erstellt10 und auf dieser Basis die Logdatei gefiltert. Auch 5 Vgl. Abschnitt 3.2 Die umfangreichen Filter- und Transformationsoperationen der ersten Phasen des Web Log Mining-Prozesses wurden mit unterschiedlichen PERL-Skripten vorgenommen. Die verwendeten Skripte wurden in dem Verzeichnis \skripte\ auf der mitgelieferten CD hinterlegt. Auf die Syntax der Skripte soll im Rahmen dieser Arbeit nicht genauer eingegangen werden. Die Filteroperationen der Datenselektionsphase wurden mit den PERL-Skripten \skripte\grep.pl und grep2.pl vorgenommen. 7 Hierbei handelt es sich auch um die Zugriffe von Viren oder Trojanern, die z.B. versuchen Programme auf dem WWW-Server auszuführen. Der Trojaner Code Red versucht bspw. die Datei cmd.exe auf IIS-Servern (Windows-Betriebssysteme) zu starten. Dabei prüft er nicht, welches Betriebssystem bzw. welchen WWWServer das angegriffene System verwendet. Die PLANET-GmbH nutzt den Apache-Server und ein LinuxSystem, weshalb diese Aufrufe in den Logdaten als fehlerhaft abgerufene Ressourcen protokolliert werden. 8 CSS (Cascading Stylesheets) ist eine HTML-Ergänzungssprache, mit der HTML-Elemente formatiert werden können. 9 Die vollständige Liste der Spider und aller anderen gefilteren Objekte liegt auf der CD unter \skripte\ spiderGrep.txt vor. 10 Umfangreiche Listen stellen [o.V.01b] und [o.V.02a] zur Verfügung. 6 67 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage alle aufeinanderfolgenden doppelten Ressourcenabrufe innerhalb einer Transaktion wurden herausgefiltert. Dieser Sachverhalt wird in Tabelle 7.3 gezeigt. Tabelle 7.3.: Doppelte Logdateieinträge Diese Ressourcenabrufe können immer dann entstehen, wenn ein Besucher den AktualisierenKnopf im Browser drückt. Die doppelten Einträge sind für die Analyse uninteressant, sodass jeweils einer dieser Abrufe gelöscht wurde. Der Umfang der Logdateien hat sich dabei von anfänglich 385858 auf 30983 Einträge verringert, was einer Abnahme des Datenbestandes um fast 92 Prozent entspricht. Die Ursache für die starke Verringerung der Datenmenge liegt im Aufbau der Homepage. Jedes Mal, wenn der Nutzer eine HTML-Seite abruft, werden mindestens (abhängig von der jeweiligen Seite) 16 weitere Ressourcen dazugeladen, wobei es sich dabei um überwiegend Grafiken der Navigations- und Gestaltungselemente handelt. Durch diese Gestaltungsweise wird die Anzahl der Logdateieinträge stark erhöht. Da es sich bei diesen Elementen um nicht explizit abgerufene Ressourcen handelt, werden sie im Rahmen dieser Phase herausgefiltert. Die starke Verringerung des Datenbestandes hat sich sehr positiv auf die Performanz der nachfolgenden Phasen ausgewirkt. 7.3. Transaktionsidentifikation und Datentransformation 7.3.1. Transaktionsidentifikation Bei diesem Schritt wird versucht, Ressourcenabrufe von Besuchern, die in einem zeitlichen Zusammenhang stehen, zu Transaktionen zusammenzufassen. Dadurch soll ein Kundenbesuch simuliert werden, um eine möglichst reale Verkaufssituation zu schaffen. Aufgrund der technischen Rahmenbedingungen gestaltet sich die Schaffung dieser Situation sehr schwierig. Auf der Homepage der PLANET GmbH werden derzeit keine technischen Mechanismen (z.B. Cookies) eingesetzt, um Transaktionen abzuleiten. Deshalb ist es nötig, heuristische Verfahren zu Transaktionsidentifizierung heranzuziehen. In diesem Zusammenhang wurde das Zeitfensterverfahren angewandt11 . Dabei wird das Hostfeld, das Agentfeld und ein Zeitfenster zur Transaktionsableitung genutzt., d.h. immer dann, wenn bei Zugriffen Hostfeld und 11 Vgl. Abschnitt 5.3.1 68 7.3. Transaktionsidentifikation und Datentransformation Agentfeld gleich sind und zwei Ressourcenabrufe nicht länger als das gegebene Zeitfenster voneinander entfernt sind, werden diese Einträge einer Transaktion zugeordnet. Als Dauer des Fensters werden, in Anlehnung an Cooley12 , 30 Minuten gewählt. Aufgrund dieses Verfahrens konnten 13518 Transaktionen in dem Datenbestand identifiziert werden13 . 7.3.2. Datentransformation Für die Anwendung von Data Mining-Methoden müssen die Transaktionsdaten inhaltlich und strukturell aufbereitet und ergänzt werden. In dieser Phase wurde insbesondere darauf geachtet, das der Datenbestand inhaltlich erweitert wird, um möglichst aussagekräftige Analyseergebnisse zu erzielen. Je nach eingesetztem Analyseprogramm können Assoziationsund Sequenzanalyse die Transaktionsdaten meist direkt verarbeiten oder müssen durch das Binärkodierungs-Verfahren in eine andere Form gebracht werden. Für die Entscheidungsbauminduktion, Clusteranalyse oder Neuronale Netze eignet sich der Datenbestand in nicht erweiterter Form nur sehr eingeschränkt, denn die Transaktionsdaten sind zu diesem Zeitpunkt zu wenig differenziert, um daraus aussagekräftige Muster identifizieren zu können. Weiterhin ist es für den Einsatz dieser drei Analysemethoden nötig, die Transaktionsdaten in eine Datenmatrix zu überführen. In Tabelle 7.4 wird der Transaktionsdatenbestand in der Rohform gezeigt. 12 13 [COOL99] Für die Transaktionsidentifikation wurde das PERL-Skript \skripte\trans.pl eingesetzt. 69 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage Tabelle 7.4.: Unangereicherte Transaktionsdaten (ohne Identifikations- und Authuserfeld) Im Folgenden werden die Rohdaten unter Zuhilfenahme von Domänenwissen mit weiteren Daten angereichert und in eine Datenmatrix überführt. Zunächst wird identifiziert, welche Daten für die Analyse uninteressant sind. Da die Identifikations- und Authuserfelder in der Praxis sehr selten mit einem Wert belegt sind, werden sie bei der Analyse vernachlässigt. Weiterhin ist für die Analyse des Nutzerverhaltens nicht relevant, wie groß die abgerufenen Ressourcen sind (Transfervolumenfeld) oder ob sie fehlerfrei abgerufen wurden14 . Auch uninteressant für die Analyse des Nutzerverhaltens ist, ob eine Ressource mit der GET- oder POST-Methode aufgerufen bzw. welches HTTP-Protokoll verwendet wurde. Für international agierende Unternehmen ist es interessant, zu welcher Zeit Menschen aus anderen Ländern die Website besuchen. Da viele Staaten in unterschiedlichen Zeitzonen liegen, kann die Abweichung von der lokalen Serverzeit in die Analyse bzw. in die Berechnung der entsprechenden Besucherzeiten einbezogen werden. Die PLANET-GmbH ist ein relativ regional agierendes Unternehmen, sodass diese Überlegung nicht in die Analyse einfließt. Unter Ausschluss dieser Daten wird nachfolgend erläutert, welche Informationen aus den einzelnen Feldern gewonnen werden können. 14 Alle fehlerhaften Abrufe des Statuscodefeldes werden bereits in der Phase der Datenselektion bereinigt. 70 7.3. Transaktionsidentifikation und Datentransformation Aus dem Hostfeld können zwei Informationen extrahiert werden: die Top- und die SecondLevel-Domain des anfragenden Besuchers. Die Top-Level-Domain gibt an, welche Länderkennung der Besucher aufweist bzw. von welcher Organisationform die Anfrage kam. Viele Transaktionen beinhalten Top-Level-Domains aus denen nicht ersichtlich ist, aus welchem Land der Besucher kam, das sind z.B. Domainendungen wie net, com, org, edu oder IPAdressen. Für die Identifikation des Herkunftslandes, auch in diesen speziellen Fällen, wird das Programm GeoIP15 von der Firma Maxmind16 eingesetzt. GeoIP ermittelt dabei, mit Hilfe interner und externer (im WWW) Datenbanken, das Herkunftsland des Besuchers. Außerdem wandelt GeoIP die gefundene Top-Level-Domain in den entsprechenden Ländernamen um (de wird zu Germany usw.). Insgesamt können aus der Top-Level-Domain die Attribute „Herkunft“ und „Land“ extrahiert werden. Die Differenzierung dieser Attribute ist deshalb nötig, weil die „Herkunft“ neben den Länderkennungen (z.B. de oder at) auch Informationen über die Organisationsform17 (z.B. net oder org) des Besuchers beinhaltet. Im Kontext des Navigationsverhaltens der Besucher und den geographischen Gegebenheiten wurden die Top-Level-Domains geclustert. So wurden bspw. alle nichtdeutschsprachigen Nachbarländer zu einer Gruppe zusammengefasst. Das Attribut „Land“ gibt ausschließlich das Herkunftsland (z.B. Germany oder Austria) des Besuchers an. Aus der Second-Level-Domain können nähere Informationen über den Organisationstyp des anfragenden Nutzers ermittelt werden. Mit Organisationstyp ist hierbei, im Gegensatz zur Top-Level-Domain, gemeint, ob sich der Besucher von einer großen Organisation, von einer Bildungseinrichtung oder privat in das Internat eingewählt hat. Dabei werden die Namen von Internet Service Providern bzw. ihre spezifischen Kennungen aus der Second-Level-Domain extrahiert, z.B. kann aus pD9554D88.dip.t-dialin.net ermittelt werden, das der ISP, über den sich der Besucher in das Internet eingewählt hat, T-Online mit seiner Kennung „t-dialin“ war. Weiterhin kann festgestellt werden, ob sich ein Nutzer von einer Universität aus mit dem Internet verbunden hat. Solche oder ähnliche Bildungseinrichtungen haben meist entsprechende Kennungen in ihren Second-Level-Domains, z.B. proxy2.uni-leipzig.de mit „uni“ für die Universität Leipzig oder nawi.sf.hs-wismar.de mit „hs“ für die Hochschule Wismar. Für die Gruppierung der Daten wird angenommen, das bei großen und mittelständischen Unternehmen bzw. Organisationen (z.B. green.dresdnerbank.de) keine ISP-Kennungen wie „tdailin“ oder „aol“ in der Second-Level-Domain vorkommen. Aus diesem Grund wurde eine Liste von regionalen und überregionalen ISP erstellt. Die Liste umfasst ca. 290 ISP, die 15 16 17 Das Programm ist auf der CD im Verzeichnis \skripte\GeoIPJava-1.1.0\ hinterlegt. http://www.maxmind.com Diese speziellen Top-Level-Domains stammen aus den Anfängen des WWW. So steht die Top-Level-Domain org für eine nichtkommerzielle Organisation, das Pendant dazu ist com, net steht für Netzwerke aller Art, edu weißt Bildungseinrichtungen aus, mil steht für das US-Militär und gov für Regierungsinstitutionen. Dazugekommen sind neue Endungen wie z.B. biz für Showbiz oder info für Informationsseiten aller Art und weitere sind von der ICANN (The Internet Corporation for Assigned Names and Numbers; http://www.icann.org) geplant. Diese Organisationsstrukturen werden aber von vielen Organisationen zweckentfremdet, sodass nicht immer eine eindeutige Zuordnung anhand der Top-Level-Domain möglich ist. 71 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage deutschland- oder weltweit operieren. Als Grundlage für die ISP-Liste diente das Providerverzeichnis von Heise Online18 . Weiterhin wurde im Internet nach weiteren ISP recherchiert und als Stichprobe, der vorliegende Logdatenbestand von zwei vollständigen Monaten nach weiteren Providern durchsucht19 . Auf Basis der Provieder-Liste wurden alle Besucher, die einen ISP in ihrer Second-Level-Domain aufweisen, der Gruppe „Privater Besucher oder kleine Organisation“ zugeordnet. Die Gruppe „Bildungseinrichtung“ wird anhand der spezifischen Kennung in der Second-Level-Domain (uni, fh, tu usw.) oder der Top-Level-Domain (edu oder ac20 ) gebildet. Alle verbleibenden Transaktionen wurden der Gruppe „Große Organisation und Unbekannte“ zugeordnet. Insgesamt wurden auf Basis des Hostfelds drei neue Attribute gebildet: „Organisationstyp“, „Herkunft“ und „Land“. Aus dem Zeitstempel der Logdateieinträge können drei Informationen entnommen werden: Uhrzeit, Datum und Zeitzone des anfragenden Servers. Aus der Uhrzeit wurden nur die Stundenangaben extrahiert, da eine feinere Gruppierung (Minuten und Sekunden) zu viele und zu spezielle Analyseergebnisse liefern würde. Aus dem Datum wurden die Attribute Tag, Wochentag und Monat gebildet. Die Zeitzone des anfragenden Servers ist für die Analyse des Besucherverhaltens nicht relevant und wird deshalb nicht in die Analyse einbezogen. Insgesamt konnten aus dem Zeitstempelfeld die Attribute „Stunde“, „Tag“, „Wochentag“ und „Monat“ gewonnen werden. Das Transaktionsfeld ist eines der wichtigsten Felder im Web Log Mining. Es gibt Auskunft über die abgerufenen Ressourcen der Besucher. Die Logdaten wurden über einen Zeitraum von Februar 2002 bis einschließlich September 2002 generiert. In dieser Zeit wurde die Website aktualisiert, es wurden Dokumente hinzugefügt und gelöscht. Aufgrund dieses Sachverhalts wurden die einzelnen Dokumente der Internetpräsenz zu Gruppen zusammengefasst. Die Gruppierung orientiert sich dabei an der Hierarchie der Website, bspw. wurden alle Dokumente des Bereiches Web-Agentur der Gruppe „Agentur“ zugeordnet. Weiterhin wurden die speziellen Bereiche „Aktion“ (spezielle Verkaufsaktionen), „Kontakt“ (wichtiger Teilbereich von Profil) und „Satdemo“ (Dateien der Online-Demonstration des Programms Satellite XL) angelegt. Durch diese globalere Betrachtung der Website werden Fluktuationen der einzelnen Dokumente ausgeglichen. Mit Hilfe eines erweiterten Binärkodierungs-Verfahren21 wurde für jede Transaktion ein Vektor berechnet, der die Häufigkeiten der abgerufenen Dokumente auf die entsprechenden Bereiche abbildet. Die Transaktionsidentifizierung schafft die Voraussetzung für die Bestimmung von Ein- und Ausstiegsseiten der einzelnen Besucher. Darauf aufbauend werden die Attribute Einstiegs18 19 20 21 [UNGE02] Die vollständige ISP-Liste liegt der CD unter \skripte\provider.txt bei. Großbritannien und einige weitere Staaten nutzen ein eigenes Top-Level-System. So steht ac.uk für „academic“, „United Kingdom“ oder co.uk für „commercial“. Das Binärkodierungs-Verfahren wurde so erweitert, das nicht nur erfasst wird, ob ein Dokument abgerufen wurde, sondern auch wie oft. 72 7.3. Transaktionsidentifikation und Datentransformation und Ausstiegsseite bzw. Einstiegs- und Ausstiegsbereich definiert. Für die Messung der wirtschaftlichen Bedeutung eines Besuchers für die Firma wurde das Attribut „Besucherverhalten“ erzeugt. Das „Besucherverhalten“ wird durch die Gruppen „Kunde“, „Interessierter Nutzer“ und „Just Browsing“ definiert. Die Gruppe „Kunde“ umfasst alle Besucher die Produkte kaufen, d.h. sie füllen Bestellformulare aus und schicken sie ab. Die PLANET GmbH vertreibt, bis auf wenige Verkaufsaktionen, nicht direkt Produkte über seine Homepage. Deshalb wurde die Gruppe „Kunde“ um die Besucher, die Kontaktformulare abschicken oder sich für die Satellite XL-Demo registrieren, erweitert. Die „Interessierten Nutzer“ sind Besucher, die sich Produktblätter und Preislisten ansehen oder Bestell- bzw. Kontaktformulare anklicken, aber nicht abschicken. Die Gruppe „Just Browsing“ umfasst alle Besucher, die den anderen Gruppen nicht zugeordnet werden können. Aus dem Transaktionsfeld können insgesamt die Attribute „Einstiegsseite“, „Einstiegsbereich“, „Ausstiegsseite“, „Ausstiegsbereich“, „Besucherverhalten“ und die Abrufhäufigkeiten der einzelnen Bereiche extrahiert werden. Das Referrerfeld gibt an, über welche URL die Besucher auf die Homepage gelangt sind. Da im vorliegenden Datenmaterial sehr viele unterschiedliche Referrer auftraten, wurden sie strukturiert und zu Gruppen zusammengefasst. Ist das Referrerfeld leer, wurde die URL „von Hand“ in den Browser eingegeben und der Gruppe „Kein Referrer“ zugeordnet. Viele Kunden der PLANET internet commerce GmbH haben im Impressum ihrer Homepage einen Link auf die Website der PLANET GmbH. Diese Referrer wurden in der Gruppe „PLANET Kunde“ zusammengefasst. Kamen die Nutzer über eine Presseanzeige, wurden sie der Gruppe „Presse und PR“ zugeordnet. Viele der Besucher fanden die Homepage mit Suchmaschinen. Für die Identifikation der Suchmaschinen wurde eine Liste erarbeitet, die ca. 130 aktuelle Suchmaschinen umfasst22 . Die 15 häufigsten (deutschlandweit) genutzten Suchmaschinen23 werden bei der Gruppierung differenziert, alle anderen wurden der Gruppe „Andere Suchmaschine“ zugeordnet. Wenn der Referrer eine Suchmaschine ist, können aus dem Referrerfeld zusätzlich die Suchbegriffe extrahiert werden, durch die der Besucher die Website fand. Benutzten die Besucher mehrere Suchbegriffe für eine Suchanfrage, wurde jeder einzelne Suchbegriff separat ausgewertet24 . Durch diese Informationen können zwei neue Attribute definiert werden: „Referrer“ und „Suchbegriff“. Das Agentfeld gibt Auskunft zur Softwareausstattung des Besuchers. Aus diesem Feld können Informationen über eingesetzte Betriebssysteme und Browser gewonnen werden. 22 23 24 Die vollständige Suchmaschinen-Liste liegt auf der CD unter \skripte\suchmaschinen.txt vor. Aktuelle Statistiken bietet [o.V.02c]. Folgendes Beispiel soll dieses Vorgehen verdeutlichen: Wurden bei zwei Besuchen die Suchanfragen „planet+dsl“ und „dsl+highspeed+zugang“ verwendet, werden beide Suchanfragen dem Suchbegriff „dsl“ zugeordnet, weil dieser am häufigsten in dieser Datenmenge vorkommt. Dieser Mechanismus verhindert, das das Attribut „Suchbegriffe“ zu differenzierte Ausprägungen enthält. Ein Nachteil besteht aber auch darin, das Suchbegriffe aus dem Zusammenhang gerissen werden. 73 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage Schwierig gestaltet sich dabei die Identifizierung einiger Windows-Betriebssysteme, da die offizielle Bezeichnung von den Einträgen der Logdatei abweichen. So wird bspw. Windows XP in den Logdateien als Windows NT 5.1 protokolliert25 . Aus dem Agentfeld können die Attribute „Betriebssystem“ und „Browser“ generiert werden. Weiterhin wurden die Attribute „Verweildauer“ und „Seitenabrufe“ berechnet. Die „Verweildauer“ gibt die Zeit (Sekunden) an, wie lange sich ein Besucher auf der Homepage der PLANET internet commerce GmbH aufgehalten hat. Da für die Berechnung der „Verweildauer“ die Referenzdauer (Zeit pro Page View) des letzten Ressourcenabrufs fehlt, wurde im Rahmen einer Ersetzungsstrategie der fehlende Wert durch die mittlere Referenzdauer ersetzt26 . Für die PLANET GmbH-Homepage wurde eine durchschnittliche Referenzdauer von 45 Sekunden ermittelt. Das Attribut „Seitenabrufe“ beinhaltet die Anzahl der abgerufenen Dokumente eines Besuches. Die Tabelle 7.5 zeigt eine Datenmatrix, die auf Basis der unangereicherten Transaktionsdaten aus Tabelle 7.4 gebildet wurde. Tabelle 7.5.: Angereicherte Transaktionsdaten Die Extraktion der bisherigen Attribute ist vom Einsatz von Mechanismen zur transaktionsübergreifenden Identifikation eines Benutzers unabhängig, d.h. diese Attribute können auch ohne z.B. Cookies erkannt werden. Die Verwendung von transaktionsübergreifenden Identifizierungsmechanismen schafft die Voraussetzung für die Gewinnung weiterer Informatio25 26 Eine Liste aller in dieser Phase differenzierter Betriebssysteme, liegt auf der CD unter \skripte\ betriebssysteme.txt vor. Vgl. Abschnitt 5.3.1 74 7.3. Transaktionsidentifikation und Datentransformation nen über das Nutzerverhalten der vergangenen Besuche. Im Folgenden werden Attribute gezeigt, die durch den Einsatz von Identifizierungsmechanismen generiert werden können. Der „Besucherstatus“ gibt an, welches Besucherverhalten der Nutzer in der Vergangenheit aufgewiesen hat, d.h. wenn der Besucher in der Vergangenheit als Kunde gewonnen werden konnte, wird er zukünftig als „Kunde“ geführt, auch wenn sein gegenwärtiges Verhalten der Gruppe „Just Browsing“ oder „Interessierter Nutzer“ entspricht. Das Attribut „Besuche“ speichert die Anzahl der Visits eines Besuchers. In diesem Zuge kann auch die verstrichene Zeit seit dem letzten Besuch (z.B. in Stunden) berechnet werden. Die Attribute „Gesamte Verweildauer“ und „Gesamte Seitenabrufe“ speichern die Dauer (z.B. in Minuten) aller vorherigen Visits bzw. die Anzahl aller vorherigen Seitenabrufe. Entsprechend dazu werden auch die durchschnittlichen Werte dieser Attribute berechnet. Weiterhin können die Attribute mit den Abrufhäufigkeiten der einzelnen Homepagebereiche („Startseite“, „Agentur“, usw.) so erweitert werden, das sie auch die abgerufenen Dokumente der vergangenen Besuche protokollieren. Die Tabelle 7.6 zeigt Attribute, die mit Hilfe von transaktionsübergreifenden Identifizierungsmechanismen, zusätzlich zu dem in Tabelle 7.5 gezeigten Datensatz extrahiert werden können27 . Auf die erweiterte und transformierte Datenbasis können die Verfahren Entscheidungsbauminduktion, Clusteranalyse und Neuronale Netze angewandt werden. Tabelle 7.6.: Zusätzliche Attribute mit Hilfe von Identifizierungsmechanismen Auf der Homepage der PLANET GmbH werden derzeit keine transaktionsübergreifenden Identifizierungsmechanismen eingesetzt, weshalb die in Tabelle 7.6 gezeigten Attribute nicht identifiziert werden können. Das Durchführen der Sequenzanalyse28 ist ohne den Einsatz dieser Identifizierungsmechanismen auch nicht möglich. Die Daten die in die Analyse der PLANET GmbH-Homepage einfließen, beruhen in Form und Umfang auf der in Tabelle 7.5 gezeigten Datenbasis. Die Formatierung der Daten, die in die Assoziationsanalyse Eingang finden, hängt von dem eingesetzten Analyseprogramm ab. Viele Analyseprogramme können die Transaktionsdaten ohne weitere Transformationen analysieren, andere Programme verlangen eine Transforma27 28 Für die Datentransformation wurde das PERL-Skript \skripte\auswertung.pl eingesetzt. Vgl. Abschnitt 5.4.2.5 75 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage tion der Daten mit der Binärkodierung. Ein Beispiel einer exemplarischen Datenbasis (ohne Binärkodierung) für die Assoziationsanalyse wird in Tabelle 7.7 gegeben. Tabelle 7.7.: Datenbasis für die Assoziationsanalyse Für deskriptive Analyseverfahren der Logdaten mit klassischen29 Website-Analyseprogrammen ist keine Datentransformation nötig. Diese Programme sind für die Analyse von Logdateien hoch spezialisiert und nehmen alle erforderlichen Transformationen selbst vor. 7.4. Data Mining In diesem Abschnitt erfolgt auf Basis der transformierten Logdaten die Mustererkennung mit ausgewählten Data Mining-Verfahren. Dabei werden die in Kapitel 6 vorgestellten Analyseprogramme eingesetzt30 Im Rahmen dieses Abschnitts werden nur die Ergebnisse der Analysen vorgestellt, die Interpretation der Analyseergebnisse erfolgt im Abschnitt 7.5. 7.4.1. Clusteranalyse Mit Hilfe der Clusteranalyse sollen Elemente einer Eingabemenge nach ihrer Ähnlichkeit gruppiert werden. Die Clusteranalyse erfolgte mit dem KnowledgeStudio von Angoss. Die Besucher31 der PLANET-Homepage wurden anhand ihres Navigationsverhaltens segmentiert. Das Navigationsverhalten umfasst dabei alle Attribute, die mit dem Abruf von Ressourcen, bzw. dessen zeitlichen Rahmen, in Verbindung stehen. Die technische Ausstattung oder Herkunft der Besucher ist hierbei nicht relevant. Als Eingangswerte in die Clusteranalyse wurden die Attribute „Startseite“, „Startbereich“, „Ausstiegsseite", „Ausstiegsbereich“, „Seitenabrufe“, „Verweildauer“, „Besucherverhalten“, „Uhrzeit“, „Wochentag“, „Tag“, „Monat“ und 29 30 31 Neben deskriptiver Statistik und Pfadanalyse werden i.A. keine weiteren Data Mining-Verfahren zur Analyse eingesetzt. Die genauen Eingabeparameter für die einzelnen Verfahren werden in den entsprechenden Abschnitten aufgezeigt. Alle Parameter die als Standardeinstellungen der jeweiligen Programme übernommen wurden, werden nicht explizit erläutert. Für die Clusterung der Besucher wurde der gesamte Logdatenbestand herangezogen. 76 7.4. Data Mining die Abrufhäufigkeiten der einzelnen Websitebereiche ausgewählt. Zur Clusterung dieser Datenmenge32 wurde der K-Means-Algorithmus eingesetzt, dabei wird zunächst die Anzahl (k) der Cluster vorgegeben. Die Anzahl der Cluster wird anfangs meist zufällig gewählt. In einem zweiten Schritt werden die Datensätze demjenigen Cluster zugeordnet, zu dem die größte Ähnlichkeit besteht. Problematisch ist die Bestimmung der optimalen Anzahl der Cluster, dafür müssen mehrere Tests durchgeführt und deren Ergebnisse verglichen werden. Eine aussagekräftige Segmentierung des Navigationsverhaltens wurde mit drei Clustern erreicht. Das Resultat der Analyse war die Identifizierung zweier unterschiedlicher Navigationsweisen innerhalb der Gruppe „Interessierter Nutzer“. Tabelle 7.8.: Ergebnisse der Clusteranalyse Wie aus der Abbildung 7.8 deutlich wird, weisen die „Interessierten Nutzer“ zwei unterschiedliche Navigationsweisen auf. Sie werden sehr eindeutig auf den Cluster 1 und Cluster 3 verteilt. Diese neu entdeckten Gruppen wurden als „Interessierter Nutzer“ (Cluster 3) und „Interessierter Kurzbesucher“ (Cluster 1) definiert. Die „Interessierten Kurzbesucher“ unterscheiden sich vor allem von den „Interessierter Nutzern“ durch Anzahl und Art der abgerufenen Dokumente, denn diese Gruppe ruft ausschließlich nur ein PDF-Dokument ab. Eine genauere Definition der einzelnen Gruppen wird im Rahmen der Entscheidungsbauminduktion vorgenommen. 7.4.2. Entscheidungsbauminduktion Die Entscheidungsbauminduktion wird eingesetzt, um Gruppen zu beschreiben oder ihr Verhalten in der Zukunft vorherzusagen. Die Einteilung dieser Gruppen kann entweder durch den Anwender oder durch Clusterverfahren vorgenommen werden. Vor dem in erster Linie betriebswirtschaftlichen Hintergrund der Optimierung der PLANET GmbH-Website, wird das „Besucherverhalten“ als Zielattribut für die Entscheidungsbauminduktion herangezogen. Basierend auf den Ergebnissen der Clusteranalyse aus Abschnitt 7.4.1 wurden die Ausprägungen „Kunde“, „Interessierter Nutzer“, „Interessierter Kurzbesucher“ und „Just Browsing“ des Zielattributs generiert. Die genaue Verteilung dieser Ausprägungen wird in Tabelle 7.9 gezeigt. 32 Die für die Clusteranalyse verwendete Datenmatrix und das entsprechende KnowledgeStudio-Projekt, liegen der CD unter \knowledgestudio\clusteranalyse\ bei. 77 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage Tabelle 7.9.: Verteilung der Ausprägungen des Attributs „Besucherverhalten“ Als Eingangswerte in die Entscheidungsbauminduktion wurde der gesamte Datenbestand sowie die Attribute „Startseite“, „Startbereich“, „Uhrzeit“, „Wochentag“, „Tag“, „Monat“, „Referrer“, „Suchbegriff“, „Organisationstyp“, „Herkunft“, „Land“, „Betriebssystem“, „Browser“, „Ausstiegsseite“, „Ausstiegsbereich“, „Seitenabrufe“, „Verweildauer“ und die Abrufhäufigkeiten der einzelnen Websitebereiche gewählt. Mit Hilfe der Entscheidungsbauminduktion33 des Knowledge Studios wurden entsprechende Besucherprofile erstellt. Die einzelnen Gruppen werden nachfolgend profiliert34 . Die typischen „Kunden“: • kommen über die Startseite auf die Website, • rufen durchschnittlich 12 Seiten auf, • bleiben durchschnittlich 545 Sekunden auf der Website, • bevorzugen die Wochentage Dienstag, Mittwoch, Donnerstag und Freitag zu den Zeiten 7-16 und 17-23 Uhr, • benutzen die Betriebssysteme Windows 2000, Windows 98 oder Windows NT mit den Browsern Internet Explorer 5 oder 6, • kommen aus Deutschland und ihre Top-Level-Domain ist de oder net, • haben sich nicht über Bildungseinrichtungen in das WWW eingewählt, • sind nicht über Suchmaschinen oder Presse und PR-Aktionen auf die Website gelangt, sondern über Websites der Kunden von PLANET oder ohne Referrer und • verlassen die Homepage über die Bereiche Profil, nach Absenden eines Formulars oder der Satellite XL-Demo. 33 34 Für die Analyse wurde der s.g. KnowledgeSEEKER-Algorithmus eingesetzt, welcher die Verfahren ID3, CHAID und CART implementiert. Eine detailliertere Beschreibung bieten [MENA00] S. 150 f. und [o.V.02b] S.7. Als Genauigkeitsmaß wurde „Adjusted - P-value Bonferroni Adjustment Measure“ gewählt. Die für die Entscheidungsbauminduktion verwendete Datenmatrix und das entsprechende KnowledgeStudio-Projekt, liegen der CD unter \knowledgestudio\entscheidungsbaum\tree\ bei. Bei diesen Profilen handelt es sich um die typischen Ausprägungen der einzelnen Gruppen. Dabei werden nicht alle Objekte (Besucher) einer Gruppe berücksichtigt. 78 7.4. Data Mining Die typischen „Interessierten Nutzer“: • kommen über die Startseite auf die Website, • benutzen die Betriebssysteme Windows 2000, Windows 98 oder Windows NT mit den Browsern Internet Explorer 5 oder 6, • kommen aus Deutschland und ihre Top-Level-Domain ist de oder net, • bleiben durchschnittlich 293 Sekunden auf der Website, • rufen durchschnittlich 8 Seiten auf, • bevorzugen die Wochentage Montag, Dienstag, Mittwoch, Donnerstag und Freitag zu der Zeit 8-16 Uhr, • kommen ohne Referrer, über Websites der Kunden von PLANET oder Suchmaschinen (Google) auf die Website, • benutzten den Suchbegriff Planet und • verlassen die Homepage über die Bereiche Kontakt, Profil oder Connect. Die typischen „Interessierten Kurzbesucher“: • kommen über die PDF-Dokumente auf die Website, • benutzen die Betriebssysteme Windows 2000, Windows 98 oder Windows NT mit den Browsern Internet Explorer 5 oder 6, • kommen aus Deutschland oder dem deutschsprachigen Ausland und ihre Top-LevelDomain ist de oder net, • bleiben ca. 45 Sekunden35 auf der Website, • rufen nur eine Seite auf, • bevorzugen die Wochentage Montag, Dienstag, Mittwoch, Donnerstag und Freitag zu der Zeit 8-18 Uhr, • kommen über eine Suchmaschine (Google) oder ohne Referrer auf die Website, • benutzten die Suchbegriffe DSL, Taedose, Definition, Internet, Firewall, Internetsicherheit oder LAN und 35 Da nur eine Ressource aufgerufen wurde, kann die Referenzdauer nicht direkt berechnet werden. Im Rahmen einer Ersetzungsstrategie wurde die durchschnittliche Referenzdauer (45 Sekunden) als Wert herangezogen. 79 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage • verlassen die Homepage über die aktuelle PDF-Seite. Die Gruppe „Just Browsing“: • Alle anderen Besucher die nicht den oberen Gruppen angehören. Neben der Beschreibung von Gruppen, kann mit Hilfe der Entscheidungsbauminduktion das Verhalten künftiger Besucher prognostiziert werden. Das Vorhersagemodell36 soll dabei die Besucher, die die Website betreten, den Ausprägungen „Kunde“, „Interessierter Nutzer“, „Interessierter Kurzbesucher“ und „Just Browsing“ zuordnen, d.h. das Verhalten der Besucher soll nach ihrem Betreten der Homepage möglichst gut vorhergesagt werden. Für die Erstellung des Modells wurden die Attribute zu Grunde gelegt, die beim Betreten einer Website identifiziert werden können: „Startseite“, „Startbereich“, „Uhrzeit“, „Wochentag“, „Tag“, „Monat“, „Referrer“, „Suchbegriff“, „Organisationstyp“, „Herkunft“, „Land“, „Betriebssystem“ und „Browser“. Die auf dieser Grundlage erstellte Datenmenge wurde zu gleichen Teilen (50 Prozent des Datensatzes werden als Trainings- und 50 Prozent als Validierungsmenge genutzt.) zufällig in Trainings- und Validierungsmenge gegliedert. Dabei wurde darauf geachtet, das alle Attribute eine relativ ähnliche Ausprägungsverteilung in beiden Datenmengen aufweisen. Die Zusammensetzung des Zielattributs „Besucherverhalten“ in der Trainings- und Validierungsmenge wird in Tabelle 7.10 gezeigt. Tabelle 7.10.: Ausprägungsverteilung in Trainings- und Validierungsmenge (Verhältnis 50/50) Auf Basis dieser Datenmengen wurde ein Vorhersagemodell zunächst mit der Trainingsdatenmenge trainiert und seine Ergebnisse mit Hilfe der Validierungsdatenmenge auf seine Gültigkeit geprüft. Die Vorhersageergebnisse der Entscheidungsbauminduktion werden in Tabelle 7.11 aufgezeigt37 . 36 37 Zunächst erfolgte die automatische Erstellung des Entscheidungsbaumes mit den Parametern: „AutoaufbauStopgröße“ = 30 und „Auto-Aufbau maximale Baumtiefe“ = 40. Der Algorithmus und das Genauigkeitsmaß wurden, wie oben beschieben, übernommen. Zur Entscheidungsbaumvorhersage mit dem KnowledgeStudio wurde das „KnowledgeTREE Decision Tree“-Modell und die Einstellung „Versteckte und sichtbare Verzweigungen beim Votieren verwenden“ gewählt. Die für die Entscheidungsbaumvorhersage verwendeten Trainings- und Validierungsdaten und das entsprechende KnowledgeStudio-Projekt, liegen der CD unter \knowledgestudio\entscheidungsbaum\tree_ vorhersage\ bei. 80 7.4. Data Mining Tabelle 7.11.: Vorhersageergebnisse der Entscheidungsbauminduktion (Verhältnis 50/50) Dieses Vorhersagemodell prognostizierte das Verhalten der Besucher zu 88,7 Prozent richtig, 11,3 Prozent wurden falsch vorhergesagt. Die Gruppe „Kunde“ konnte in keinem Fall richtig vorhergesagt werden. Die „Interessierten Nutzer“ wurden zwar zu 81,9 Prozent richtig prognostiziert, allerdings konnten von insgesamt 772 „Interessierten Nutzern“ nur 122 richtig vorhergesagt werden, das entspricht nur 15,8 Prozent des gesamten Gruppenumfangs. Die Gruppen „Interessierter Kurzbesucher“ und „Just Browsing“ wurden mit 93,2 und 87 Prozent sehr gut vorhergesagt. In weiteren Durchläufen für die Entscheidungsbaumvorhersage wurden auch die Verhältnisse 70/30 und 90/10 für die Trainings- und Validierungsmenge getestet. Die besseren Ergebnisse lieferten die Prognosen mit dem Verhältnis 70/30. Allerdings wichen die Vorhersageergebnisse mit dem Verhältnis von 90/10 nur minimal von diesen Prognosewerten ab. Die Zusammensetzung des Zielattributs „Besucherverhalten“ in der Trainings- und Validierungsmenge, mit dem Verhältnis 70/30, wird in Tabelle 7.12 gezeigt. Tabelle 7.12.: Ausprägungsverteilung in Trainings- und Validierungsmenge (Verhältnis 70/30) Das Prognosemodell wurde mit 70 Prozent des Datenbestandes trainiert und mit 30 Prozent der Daten auf seine Gültigkeit geprüft. In der nachfolgenden Tabelle (Tabelle 7.13) werden die Vorhersageergebnisse der Entscheidungsbauminduktion auf Basis des Verhältnisses 70/30 vorgestellt. 81 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage Tabelle 7.13.: Vorhersageergebnisse der Entscheidungsbauminduktion (Verhältnis 70/30) Dieses Modell prognostizierte das Verhalten der Besucher zu 89 Prozent richtig, 11 Prozent wurden falsch vorhergesagt. Das sind um 0,3 Prozent bessere Vorhersagen, als die Ergebnisse mit dem 50/50 Verhältnis. Die Gruppe „Kunde“ konnte auch hier nicht vorhergesagt werden. Die „Interessierten Nutzer“ wurden mit 86,9 Prozent, um 5 Prozent besser prognostiziert als bei dem ersten Vorhersagemodell. Allerdings konnten von insgesamt 449 „Interessierten Nutzern“ nur 73 richtig vorhergesagt werden, das entspricht nur 16,26 Prozent des gesamten Gruppenumfangs, ist aber um 0,46 Prozent besser als das Prognosemodell auf Basis des 50/50 Verhältnisses. Die Gruppen „Interessierter Kurzbesucher“ und „Just Browsing“ wurden mit 92,2 und 87,4 Prozent ähnlich gut vorhergesagt. Die Ergebnisse des Prognosemodells auf Basis des 70/30 Verhältnisses waren insgesamt minimal besser als die Vorhersageergebnisse des 50/50 Modells. 7.4.3. Neuronale Netze Ähnlich der Entscheidungsbauminduktion kann ein neuronales Netz Vorhersagen über das Gruppenverhalten in der Zukunft treffen. Für diese Analyse setzt das KnowledgeStudio unüberwacht lernende neuronale Netze (Backpropagation-Netze)38 ein. Unüberwacht lernende neuronale Netze müssen zunächst trainiert werden39 . Die Eingangswerte des BackpropagationNetzes sind, wie bei der Entscheidungsbaumvorhersage, die Attribute „Startseite“, „Startbereich“, „Uhrzeit“, „Wochentag“, „Tag“, „Monat“, „Referrer“, „Suchbegriff“, „Organisationstyp“, „Herkunft“, „Land“, „Betriebssystem“ und „Browser“. Das Zielattribut ist analog das „Besucherverhalten“. Für Training und Validierung40 des Modells werden die gleichen Datenmengen41 wie bei der Entscheidungsbauminduktion herangezogen. Die Tabelle 7.14 zeigt die 38 Für die Erstellung der Vorhersagemodelle mit Neuronalen Netzen wurden die s.g. Multi-Layer Perceptrons des KnowledgeStudios eingesetzt. Um einem Übertrainieren (Overfit) des Modells vorzubeugen, wurde eine Test(validierungs)menge von 20 Prozent des Umfangs der Trainingsdaten gewählt. Die Anzahl der Iterationen wurde auf 2000 begrenzt. Das Neuronale Netz wurde mit diesen Parametern und einer „Anzahl versteckter Neuronen“ von 10, 11, 12, 13 und 14 fünf mal trainiert. Die für das Backpropagation-Netz verwendeten Trainings- und Validierungsdaten und das entsprechende KnowledgeStudio-Projekt, liegen der CD unter \knowledgestudio\neuronale_netze\ bei. 39 Vgl. Abschnitt 5.4.2.2 40 Die Neuronalen Netze wurden mit den gleichen drei Datenmengenverhältnissen wie bei Entscheidungsbaumvorhersage trainiert und validiert. Dabei zeichnete sich der selbe Trend ab: die Analysen mit dem Verhältnis 70/30 ergaben ist besten Ergebnisse. Aus diesem Grund werden nur die besten Vorhersageergebnisse vorgestellt. 41 Vgl. Tabelle 7.12 82 7.4. Data Mining Vorhersageergebnisse des Backpropagation-Netzes. Tabelle 7.14.: Vorhersageergebnisse der Neuronalen Netze Das Prognosemodell des Backpropagation-Netzes zeigt ähnliche Ergebnisse wie die Entscheidungsbaumvorhersage. Es konnten 89,1 Prozent der Besucher richtig eingeordnet werden, 10,9 Prozent wurden falsch prognostiziert. Die Gruppe „Kunde“ wurde in keinem Fall richtig vorhergesagt und die Gruppen „Interessierter Kurzbesucher“ und „Just Browsing“ wurden mit 94 und 88 Prozent, analog zu der Entscheidungsbaumvorhersage, sehr gut prognostiziert. Lediglich die Vorhersageergebnisse der Gruppe „Interessierter Nutzer“ weichen mit 70,6 Prozent, um 16,3 Prozent von den Ergebnissen der Entscheidungsbaumvorhersage ab, allerdings konnten mit 89 „Interessierten Nutzern“ 16 mehr prognostiziert werden, was 19,82 Prozent aller „Interessierten Nutzer“ entspricht. 7.4.4. Assoziationsanalyse Das Ziel der Assoziationsanalyse ist die Entdeckung von interessanten Zusammenhängen zwischen Teilmengen von Daten. Für dieses Analyseverfahren wurde Xaffinity von Exclusive Ore eingesetzt. Xaffinity kann, ohne zusätzliche Transformationen, direkt auf die Transaktionsdaten angewandt werden42 . Im Rahmen der Analyse der PLANET GmbH-Logdaten wird versucht, interessante und aussagekräftige Zusammenhänge zwischen den einzelnen abgerufenen Dokumenten der Homepage zu identifizieren. Für die Bestimmung des optimalen Mindest-Supports wurden mehrere Testläufe durchgeführt. Wenn der Mindest-Support zu hoch gewählt wird, werden relativ triviale Regeln generiert und eventuell interessante Regeln nicht berechnet. Wird ein zu geringer Mindest-Support angesetzt, werden sehr viele Regeln generiert und es kommt zu einer Informationsüberlastung des Anwenders. Für den MindestSupport für die Assoziationsanalyse der PLANET GmbH-Logdaten wurden 0,5 Prozent gewählt, was 67 Besuchern entspricht. Um möglichst hochzusammenhängende Assoziationsregeln zu erhalten, ist eine hohe Mindest-Konfidenz zu gewählen. Es ist aber auch interessant zu untersuchen, warum bestimmte Seiten, die bei der Konzeptionierung der Homepage strukturell zusammengefasst wurden, nicht zusammen aufgerufen werden. Für diese Untersuchungen ist eine niedrigere Mindest-Konfidenz zu wählen. Nachteilig bei der Wahl einer 42 Vgl. Tabelle 7.7 83 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage zu niedrigen Mindest-Konfidenz, ist der große Umfang der generierten Regeln und der damit verbundenen Informationsüberlastung. Für die Anaylse der PLANET GmbH-Homepage wurde eine Mindest-Konfidenz von 30 Prozent gewählt. Tabelle 7.15.: Häufigste Assoziationsregeln Xaffinity generierte mit diesen Parametern 167 Assoziationsregeln. Ein Ausschnitt mit den 15 häufigsten Regeln wird in Tabelle 7.15 gezeigt43 . Die erste Regel sagt aus, das 81,75 Prozent aller Besucher, die die Seite /profil/index.html aufrufen, auch die Seite /index.html besuchen, dies kommt in 6,75 Prozent aller Transaktionen vor. Der Lift44 beträgt 1,73 und somit kann die Regel als uninteressant eingestuft werden. Für die Beurteilung der Interessantheit einer Regel bietet der Liftwert zwar einen gewissen Anhaltspunkt, allerdings ist auch sehr viel Domänenwissen (bezüglich der Dokumenteninhalte und der Homepagestruktur) nötig, um interessante Regeln identifizieren zu können. Die Ergebnisse der Assoziationsanalyse sind zu umfangreich, um in diesem Rahmen auf alle einzugehen. Spezielle und interessante Ergebnisse werden im Rahmen der Evaluationsund Interpretationsphase in Abschnitt 7.5 vorgestellt. 7.4.5. Pfadanalyse Im Gegensatz zur der Assoziationsanalyse können mit der Pfadanalyse nicht nur Zusammenhänge zwischen Dokumenten ermittelt werden, sondern auch die Reihenfolge in der 43 44 Die vollständigen Analyseergebnisse der Assoziationsanalyse, sowie die Eingangsdaten und das XaffinityProjekt liegen der CD unter \xaffinity\ergabnisse.csv, assoziation.csv und assoziation.mdb bei. Xaffinity generiert den Lift, damit der Anwender die Stärke bzw. Interessantheit einer Regel beurteilen kann. Im Allgemeinen sind extreme Liftwerte (Werte unter 1 oder besonders hohe Werte) ein Indikator für eine interessante Regel. Vgl. [o.V.00] S. 3 84 7.4. Data Mining sie aufgerufen wurden, untersucht werden. Dabei werden die häufigsten Klickpfade der Besucher identifiziert. Die Navigationsreihenfolgen der PLANET GmbH-Besucher wurden mit Websuxess von Exody analysiert. Die Logdaten müssen für die Pfadanalyse mit Websuxess nicht in ein besonderes Format transformiert werden. Die 15 häufigsten Navigationsreihenfolgen werden in Tabelle 7.16 dargestellt45 . Tabelle 7.16.: Häufigste Pfade Aus den Analyseergebnissen ist ersichtlich, das keine Navigationspfade signifikant oft beschritten wurden. Für die Darstellung der Ergebnisse wurden nur die besten 15 Navigationsreihenfolgen ausgewählt, weil alle weiteren Pfade einen zu kleinen Support aufwiesen, um aussagekräftige Interpretationen zuzulassen46 . Dabei wurde auf die Darstellung von Pfaden, die nur einen Ressourcenabruf umfassen47 , verzichtet, da diese Pfade keine Zusammenhänge zwischen verschiedenen Ressourcen erkennen lassen. Eine spezielle Analyse zur Identifikation von Transaktionen, die nur einen Ressourcenabruf umfassen, wird im Rahmen der deskriptiven Statistik gezeigt. Die mit der Pfadanalyse ermittelten Navigationsreihenfolgen werden jeweils nur von unter einem Prozent aller Besucher benutzt. Ausgangspunkt jedes Navigationspfades ist die Startseite der Homepage, und keiner der Pfade enthält mehr als drei abgerufene HTML-Dokumente. 45 46 47 Für die nachträgliche Berechnung des Supports wurde die von Websuxess ermittelte Besucheranzahl von 9991 zu Grunde gelegt. Die Abweichung von der in Abschnitt 7.3.1 ermittelten Besucheranzahl von 13518 resultiert aus der unterschiedlichen Berechnung einer Transaktion. Websuxess nutzt zwar auch die Zeitfenstermethode, allerdings wird nur die Internetadresse und ein frei definierbares Zeitfenster zur Identifikation einer Transaktion herangezogen. Das Agentfeld wird nicht verwendet, was zur Auswirkung hat, das Logeinträge die gleiche Internetadressen aber unterschiedliche Agenteinträge aufweisen, trotzdem zu einer Transaktion zusammengefasst werden. Das führt zur Identifikation von weniger Besuchern. Die vollständigen Ergebnisse der Pfadanalyse liegen auf der CD, im Verzeichnis \websuxess\websuxess_ bericht\navigation0s1.html, vor. Dabei handelt es sich um Besuche, bei denen nur ein Dokument abgerufen wurde. 85 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage 7.4.6. Deskriptive Statistik Die klassische statistische Untersuchung der Planet Internet Commerce GmbH-Homepage wurde mit Websuxess durchgeführt. Dabei können die Analysen nicht zielgruppenspezifisch, wie bei der Entscheidungsbauminduktion sondern nur global für alle Besucher, durchgeführt werden. Bei dieser klassischen Analyseform werden vor allem Minima, Maxima und Durchschnittswerte der in Abschnitt 6.1 vorgestellten Programmfunktionen generiert und dargestellt. Zunächst wurde eine Zusammenfassung mit folgenden Kennzahlen48 generiert. 9991 Nutzer besuchten die Webpräsenz und haben dabei 31276 Seiten aufgerufen. Diese Aufrufe führten insgesamt zu einem transferierten Datenvolumen (Traffic) von 4,27 Gigabyte. Täglich konnten durchschnittlich 54,32 Besuche verzeichnet werden, die durchschnittlich 63 Sekunden dauerten und bei denen 2,4 weitere Seiten aufgerufen wurden. Pro Seite verweilte der Besucher durchschnittlich 26 Sekunden. Im Folgenden werden typische Ausschnitte der Analyseergebnisse von Websuxess gezeigt. Tabelle 7.17.: Traffic nach Wochentagen Die Tabelle 7.17 zeigt die Auswertung des Traffics nach den Wochentagen. Deutlich wird, dass sich die Anfragen im Zeitablauf ungleichmäßig verteilen. An den Wochenenden wird der geringste und an den Montagen der meiste Traffic verzeichnet. Abbildung 7.2.: Traffic nach Stunden 48 Wie schon bei der Pfadanalyse erklärt, können einige Werte, von den in den vergangenen Abschnitten ermittelten Ergebnissen, abweichen. 86 7.5. Evaluation und Interpretation Die Abbildung 7.2 stellt den Traffic der Planet Internet Commerce-Homepage geordnet nach Stunden und Page Views dar. Dabei sind die wenigsten Besuche zwischen 23 und 5 Uhr morgens zu verzeichnen. Von 5 bis 10 Uhr steigt der Traffic kontinuierlich an. Diese Kennzahl erreicht von 11 bis 12 Uhr ihr Maximum. Danach fällt der Traffic, bis auf die kleinen Spitzen um 14 und 19 Uhr, wieder kontinuierlich ab. Tabelle 7.18.: Die beliebtesten Ressourcen In der Tabelle 7.18 werden die 15 beliebtesten Ressourcen der Homepage gezeigt. Die am häufigsten frequentierte Ressource ist die Startseite (index.html). Sie ist auch sehr oft die Einstiegsseite zur Homepage, aber auch häufig die Ausstiegsseite. Außerdem ist die Startseite bei vielen Transaktionen das einzige Dokument, das aufgerufen wird. Das größte Transfervolumen wurde durch das PDF-Dokument 2_breitbandtechnologien.pdf verursacht. Die Analyseergebnisse mit Websuxess sind zu umfangreich49 , um sie in diesem Rahmen aussagekräftig darzustellen. Auf spezielle und interessante Ergebnisse wird im Rahmen der Evaluations- und Interpretationsphase in Abschnitt 7.5 eingegangen. 7.5. Evaluation und Interpretation In dieser Phase sollen die Ergebnisse des Data Mining bewertet und interpretiert werden. Die Evaluation einzelner Analyseergebnisse wurde bereits indirekt in der Data Mining-Phase vorgenommen, indem nur bestimmte Ergebnisse vorgestellt bzw. bestimmte Parameter für 49 Die vollständigen Analyseergebnisse mit Websuxess liegen als HTML-Bericht auf der CD, im Verzeichnis \websuxess\websuxess_bericht\index.html, vor. 87 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage die Analyseprogramme benutzt wurden. Zwischen dem Generieren von interessanten Ergebnissen und dem Anpassen der Eingabeparameter für die Programme besteht eine ständige Wechselbeziehung. Die Data Mining-Ergebnisse der PLANET GmbH-Logdaten sollen im Folgenden vorgestellt und auf ihren ökonomischen Nutzen geprüft werden. 7.5.1. Clusteranalyse Die Clusteranalyse soll Gruppenstrukturen in großen Datenmengen entdecken. Im Rahmen des Web Log Mining bietet dieses Verfahren die Möglichkeit, wertvolle Informationen über das Navigationsverhalten der Besucher zu sammeln bzw. die Besucher anhand ihres Navigationsverhaltens zu gruppieren. Die entdeckten Gruppen spiegeln ähnliche Verhaltensweisen wieder, strukturieren die Besucher jedoch nicht direkt nach ökonomischen Gesichtspunkten. Für die betriebswirtschaftliche Betrachtung der Besucher empfiehlt sich daher eine Gruppierung nach den abgerufenen Ressourcen. So stellen Nutzer die eine Bestellung aufgeben, z.B. durch den Aufruf der Ressource „bestellung.pl“, einen hohen betriebswirtschaftlichen Nutzen dar und werden der Gruppe „Kunde“ zugeordnet. Besucher, die sich Produktseiten ansehen aber nichts bestellen, werden z.B. als „Interessierte Nutzer“ zusammengefasst. Alle anderen Nutzer haben, zumindest für den direkten Vertrieb von Produkten, keine ökonomische Bedeutung und werden der Gruppe „Just Browsing“ zugeordnet. Die Clusteranalyse kann als Ergänzung zu dieser Einteilung eingesetzt werden, um bisher nicht betrachtete bzw. entdeckte Gruppen in die weiteren Analysen einzubeziehen. So wurde für die PLANET GmbH-Homepage die Gruppe „Interessierte Kurzbesucher“ entdeckt, die sich ausschließlich PDF-Produktblätter ansehen. Diese vier Gruppen wurden durch das Attribut „Besucherverhalten“ zusammengefasst. Im Rahmen des Web Log Mining kann die Clusteranalyse als Unterstützung zur Generierung betriebswirtschaftlich relevanter Besuchergruppen dienen. 7.5.2. Entscheidungsbauminduktion Für eine möglichst wirkungsvolle und gezielte Ansprache (Werbung, spezielle Aktionen) der zuvor definierten Gruppen werden mit Hilfe der Entscheidungsbauminduktion entsprechende Gruppenprofile erstellt. Für die PLANET GmbH-Homepage wurde zur Beurteilung des ökonomischen Nutzens eines Besuchers das Zielattribut „Besucherverhalten“ definiert. Damit die Gruppenprofile möglichst detailliert erstellt werden können, fließen alle verfügbaren Informationen in die Entscheidungsbauminduktion ein. In Abschnitt 7.5.2 wurden die Profile der einzelnen Gruppen vorgestellt. Aus diesen Profilen können ökonomisch relevante und gruppenspezifische Informationen extrahiert werden. Die für die PLANET GmbH-Homepage erstellten Gruppenprofile werden nachfolgend analysiert und die Ergebnisse vorgestellt. Im 88 7.5. Evaluation und Interpretation Rahmen dieser Auswertung wird jedoch nur auf die Ergebnisse eingegangen, die betriebswirtschaftlich interessant sind oder zur Verbesserung der Website beitragen können. Die Gruppe „Just Browsing“ wurde als vertriebstechnisch unbedeutend eingestuft und wird nicht genauer betrachtet. Die typischen „Kunden“ besuchen die Website teilweise zu anderen Zeiten als die anderen Gruppen. Mit Hilfe der deskriptiven Statistik wurde ein Besuchermaximum für den Montag ermittelt50 . Dieses Ergebnis wird vor allem durch die Gruppen „Interessierter Nutzer“, „Interessierter Kurzbesucher“ und „Just Browsing“ beeinflusst. Die typischen „Kunden“ (ca. 82 Prozent) besuchen die Website aber vorrangig an den Tagen Dienstag, Mittwoch, Donnerstag und Freitag, nicht am Montag. Weiterhin besuchen die „Kunden“, im Gegensatz zu den anderen Gruppen51 , die Website nicht nur tagsüber (7-16 Uhr, ca. 64 Prozent), sondern auch abends (17-23 Uhr, ca. 29 Prozent). Mit diesen Informationen können gezielte Aktionen oder entsprechende Werbung zu den Zeiten geschaltet werden, an denen die meisten potentiellen Kunden die Homepage besuchen. So wäre bspw. denkbar, das Werbeplätze auf anderen Websites von Dienstag bis Freitag in der Zeit von 7-16 oder 17 bis 23 Uhr gemietet werden, um die Wahrscheinlichkeit, viele Kunden zu gewinnen, zu maximieren. Eine andere Möglichkeit die potentiellen Kunden gezielter anzusprechen, ist der Einsatz von AdServern52 auf der eigenen Homepage. Mit Hilfe eines Ad-Servers ist es möglich, zu den entsprechenden Zeiten spezielle Aktionen auf der Website anzubieten, um den Besucher zum Kauf eines Produktes zu animieren. So können zum Beispiel, an den Wochentagen Dienstag, Mittwoch, Donnerstag und Freitag in der Zeit von 7-16 oder 17-23 Uhr, potentielle Kunden durch Schnupperangebote oder vergünstigte Konditionen angesprochen werden. Die PLANET GmbH hat bereits in der Vergangenheit Werbung auf anderen Websites eingesetzt, Sponsoring-Aktionen durchgeführt und sich in regionalen und überregionalen Providerverzeichnissen eingetragen. Mit Hilfe der Entscheidungsbauminduktion ist es möglich, die Effizienz solcher Marketinginstrumente zu kontrollieren. Aus den Kundenprofilen ist ersichtlich, das die typischen „Kunden“ nicht über solche Aktionen (Referrer: Presse und PR) auf die Homepage gelangt sind53 . Was darauf schliessen lässt, das diese Instrumente nicht effektiv waren, um direkt Kunden zu gewinnen. Es ist aber nicht auszuschliessen, das mit den Marketingaktionen indirekt Kunden gewonnen werden konnten. Mit dem Einsatz von transaktionsübergreifenden Identifikationsmechanismen (z.B. Cookies) könnten die Folgebesuche eines Nutzers dokumentiert und so festgestellt werden, ob durch diese Marketinginstrumente indirekt (zu einem späteren Zeitpunkt) ein Kunde akquiriert werden konnte. Durch 50 51 52 53 Vgl. Tabelle 7.17 Vgl. Abbildung 7.2 Ad-Server sind spezielle Server, die parametergesteuert dynamische Inhalte und Werbung auf der entsprechenden Homepage anzeigen. Diese Parameter können z.B. Uhrzeit und Datum aber auch die TopLevel-Domain oder der verwendete Browser des Besuchers sein. Ein leistungsstarker Ad-Server ist das Opensource-Produkt phpAdsNew (http://www.phpadsnew.com). Insgesamt konnten in 8 Monaten von 72 „Kunden“ nur 2 direkt durch diese Aktionen gewonnen werden. 89 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage die Identifikationsmechanismen ist es möglich, die Effektivität von Online-Marketingkampagnen besser beurteilen zu können und in diesem Zuge den Return on Investment (ROI) zu bestimmen. Über 22 Prozent der Gruppe „Kunde“ gelangen über die Websites von Kunden der PLANET GmbH auf die Homepage der PLANET GmbH. Damit diese Möglichkeit, potentielle Kunden zu gewinnen, weiter ausgeschöpft werden kann, könnten alle Kunden-Websites zukünftig mit einem Impressum mit dem Verweis auf die PLANET GmbH-Homepage produziert bzw. bestehende Kunden-Websites damit nachgerüstet werden. Aus den Kundenprofilen ist ersichtlich, das viele „Kunden“ die Website nach dem Abschicken eines Formulars verlassen (ca. 18 Prozent). Im Rahmen einer Cross-Selling-Strategie könnten hier weitere Produkte angeboten bzw. andere Produkt(-bereiche) vorgestellt werden. Viele der typischen „Interessierten Nutzer“ kommen über die Suchmaschine Google auf die Homepage der PLANET GmbH (ca. 25 Prozent). Sie benutzten dabei häufig den Suchbegriff „Planet“54 (ca. 30 Prozent der Besucher die über Google kommen), was darauf hindeuten kann, das die Firma PLANET GmbH gezielt gesucht wurde. Mit diesen Informationen ist es möglich, die Homepage so zu optimieren, das sie durch möglichst viele „Interessierte Nutzer“ gefunden wird. Um das zu erreichen, müssen die Metadaten der Homepage optimiert werden. Suchmaschinen orientieren sich bei der Katalogisierung und Indizierung der Websites in erster Linie55 an den Metadaten der einzelnen Seiten. Metadaten sind Informationen, die die Dokumente einer Website beschreiben. Dabei handelt es sich um bestimmte Befehle, die in die (HTML-)Dokumente integriert werden, wie z.B. „keywords“ in dem Schlagworte gespeichert werden oder „description“ in dem der Inhalt des Dokuments kurz beschrieben wird56 . Wenn der Suchbegriff „Planet“ in die „keywords“ der Metadaten der PLANET GmbH-Homepage aufgenommen wird, steigt die Wahrscheinlichkeit, das mehr potentielle „Interessierte Nutzer“ die Homepage über Suchmaschinen finden. Viele der „Interessierten Nutzer“ finden die Internetpräsenz der PLANET GmbH mit der Suchmaschine Google. Deshalb bietet es sich an, die Homepage in erster Linie für diese Suchmaschine zu optimieren bzw. Werbeplätze bei Google57 zu mieten, um die Chance der Besuche durch potentielle „Interessierte Nutzer“ zu erhöhen. Mehr als 17 Prozent der „Interessierten Nutzer“ gelangen über die Websites von Kunden der 54 55 56 57 Wie in Abschnitt 7.3.2 erläutert wurde, schließt der Suchbegriff „Planet“ auch Suchanfragen wie „planet+internet+commerce+dsl„ oder „internetzugang+planet“ ein. Die Katalogisierung und Indizierung ist von den einzelnen Suchmaschinen abhängig. Viele Suchmaschinen ziehen dabei, neben den Metadaten, auch die Inhalte der Website, wie z.B. den Text, heran. Folgendes Beispiel zeigt die Syntax von HTML-Metadaten: <meta name=“keywords“ content=“e-commerce, cms, dsl“>, <meta name=“description“ content=“PLANET internet commerce, Technologien, Loesungen und Kompetenzen“>. Bei Google kann man z.B. s.g. AdWords (http://www.google.com/ads/) mieten, d.h. abhängig von dem Suchbegriff des WWW-Nutzers wird Werbung neben den Suchergebnissen eingeblendet. 90 7.5. Evaluation und Interpretation PLANET GmbH auf die Homepage der PLANET GmbH. Wie schon bei den „Kunden“ bietet es sich auch für die potentiellen „Interessierten Nutzer“ an, das Impressum mit dem Verweis auf die PLANET GmbH-Homepage in die Kunden-Websites zu integrieren. Die „Interessierten Kurzbesucher“ rufen nur ein PDF-Dokument58 ab und verlassen die Seite dann gleich wieder ohne weitere Ressourcen zu betrachten. Viele der „Interessierten Kurzbesucher“ finden die PLANET GmbH-Homepage durch Suchmaschinen (über 77 Prozent). Für die „Interessierten Kurzbesucher“ wird angenommen, das es sich hierbei vorrangig um Personen handelt, für die in erster Linie die Beschaffung von Informationen und nicht der Kauf von Produkten bzw. Dienstleistungen im Vordergrund steht. Diese Annahme wird auch durch die Wahl der Suchbegriffe dieser Besucher (nicht „Planet“, sondern z.B. „Definition“) gestützt. Auf der PLANET GmbH-Homepage werden viele PDF-Dokumente zum Download angeboten. Das PDF-Format hat neben seinen darstellerischen und portabilitäts Vorzügen auch einen psychologischen Vorteil. Viele WWW-Nutzer verbinden mit PDF-Dokumenten inhaltliche Qualität. Suchmaschinen bieten entspechende Einstellungen an, die die Suche explizit auf PDF-Dokumente begrenzen. Durch die PDF-Dokumente gewinnt die PLANET GmbH-Homepage viele Besucher, die aber vertriebstechnisch relativ uninteressant sind. Das liegt vor allem daran, dass die „Interessierten Kurzbesucher“ nur ein PDF-Dokument aufrufen und dann die Homepage verlassen. Sie stellen somit keinen direkten betriebswirtschaftlichen Nutzen für die Firma dar. Es sollte mittels entsprechender Instrumente versucht werden, die „Interessierten Kurzbesucher“ als „Interessierten Nutzer“ oder besser als „Kunden“ zu gewinnen. Die Voraussetzung dafür muss aber in den PDF-Dokumenten selbst geschaffen werden. Denn immer, wenn ein WWW-Nutzer ein PDF-Dokument der PLANETGmbH in den Suchergebnissen der Suchmaschine findet und dieses aufruft, wird nur das PDF-Dokument geladen, aber nicht die Navigation der Homepage. Dem Besucher wird somit keine Möglichkeit gegeben, auf der Homepage zu navigieren. Auf den PDF-Dokumenten könnten z.B. Links auf die Homepage der PLANET GmbH angeboten bzw. durch entsprechende Werbebotschaften der Besucher zum Weiterklicken animiert werden. Weiterhin ist es auch möglich, durch die Integration bestimmter Befehle in die PDF-Dokumente, die Navigationselemente der Homepage nachzuladen. Eine andere Möglichkeit betriebswirtschaftlichen Nutzen aus den „Interessierten Kurzbesuchern“ zu ziehen, ist alle PDF-Dokumente zu schützen, die keine Produktinformationen enthalten. Damit soll verhindert werden, das jeder WWW-Nutzer diese fachlichen Informationen abrufen kann, ohne das die Firma einen Nutzen davon hat. So könnte der Besucher dazu gezwungen werden, z.B. seine E-Mail-Adresse zu hinterlassen, um das PDF-Dokument betrachten oder herunterladen zu dürfen. Mit den so gewonnenen Kundendaten können Interessen (Inhalt des abgerufenden PDF-Dokuments) und Adresse (z.B. E-Mail) des Besuchers 58 Bei diesen Dokumenten handelt es sich um Produktblätter, aber vor allem auch um Vorträge oder andere fachliche Dokumente, die auf der Homepage zum kostenlosen Download angeboten werden. 91 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage festgestellt werden, welche die Basis für Mail-Kampagnen oder Newsletter-Aktionen bilden können. Nachteilig bei dieser Vorgehensweise ist, dass die Akzeptanz, persönliche Daten im Internet zu hinterlassen, nicht bei jedem Besucher gegeben ist. Wie oben bei den „Interessierten Nutzern“ erklärt, könnte auch für die „Interessierten Kurzbesucher“ durch eine Optimierung der Metadaten mit den entsprechenden Suchbegriffen ein höheres Besucheraufkommen erzielt werden. Grundsätzlich können auch Optimierungsmechanismen eingesetzt werden, die den ökonomischen Nutzen jeder Gruppe steigern können. Durch den Einsatz von transaktionsübergreifenden Identifizierungsmethoden, wie z.B. Cookies, bekommt jeder Besucher eine eindeutige Kennung (Besucher-ID) zugewiesen und kann bei seinen nachfolgenden Besuchen auf der Homepage wiedererkannt werden. Dadurch wird ermöglicht, dass die Dokumente oder Websitebereiche, die der Besucher bei seinen vergangenen Besuchen aufgerufen hat, zu speichern und so seine Interessen zu identifizieren. Mit diesen Besucherdaten kann z.B. die Startseite der Homepage, mit den besucherspezifischen (personalisierten) Produktbereichen und entsprechender Werbung oder Aktionen, dynamisch generiert werden. Wie hier gezeigt, können mit Hilfe der Entscheidungsbauminduktion Zielgruppenprofile erstellt und zielgruppenspezifisch Aktionen und Instrumente auf die einzelnen Gruppen angewandt werden. Diese Möglichkeit schafft die Voraussetzung für differenzierte Marketingund Vertriebsstrategien, um den betriebswirtschaftlichen Nutzen der einzelnen Gruppen zu maximieren. Neben der Erstellung von Profilen können mit Hilfe der Entscheidungsbauminduktion auch Prognosen gestellt werden. In diesem Rahmen wurde versucht, das Besucherverhalten auf der PLANET GmbH-Homepage vorherzusagen. Die Ergebnisse der Entscheidungsbaumvorhersage wurden in Abschnitt 7.5.2 vorgestellt. Die besten Vorhersageergebnisse lieferten die Modelle mit einem Verhältnis von Trainings- und Validierungsmenge von 70 zu 30 Prozent. Insgesamt konnte das Verhalten von 89 Prozent der Besucher richtig prognostiziert werden. Jedoch konnten die betriebswirtschaftlich interessanteren Gruppen „Kunde“ und „Interessierter Nutzer“ gar nicht bzw. nur relativ schlecht vorhergesagt werden. Als Ursache für die schlechten Prognoseergebnisse bei den „Kunden“ wird angenommen, das zu wenige Datensätze für ein effektives Training der Vorhersagemodelle zur Verfügung standen. Die „Interessierten Nutzer“ konnten zwar mit einer Wahrscheinlichkeit von fast 87 Prozent richtig vorhergesagt werden, jedoch wurden von 449 „Interessierten Nutzern“ in der Validierungsmenge nur 73 vom Vorhersagemodell richtig eingestuft. Die anderen 376 „Interessierten Nutzer“ wurden auf falsche Gruppen verteilt. Die nachfolgende Tabelle zeigt, wie die einzelnen Gruppen, die durch das Prognosemodell vorhergesagt bzw. auf die falschen Gruppen verteilt wurden. 92 7.5. Evaluation und Interpretation Tabelle 7.19.: Vorhergesagte und tatsächliche Gruppenverteilung mit der Entscheidungsbaumvorhersage Aus der Tabelle 7.19 ist ersichtlich, das viele „Interessierte Nutzer“ und „Kunden“ der Gruppe „Just Browsing“ zugeordnet wurden. Es wird angenommen, das sich diese Datensätze zu sehr gleichen, um von dem Prognosemodell richtig differenziert werden zu können. Damit eine Verbesserung der Vorhersageergebnisse erreicht werden kann, muss die Datenbasis noch stärker ausgeweitet werden. Eine Erweiterung der Datenbasis kann jedoch nur dann erreicht werden, wenn transaktionsübergreifende Mechanismen, wie z.B. Cookies, auf der Homepage eingesetzt werden. Durch den Einsatz dieser Mechanismen können neue Attribute generiert werden59 , die die Datenbasis für die Vorhersagemodelle erweitern und die Voraussetzung für bessere Prognoseergebnisse schaffen können. Die ohne den Einsatz von transaktionsübergreifenden Mechanismen generierten PLANET GmbH-Logdaten sind für den praktischen Einsatz der Entscheidungsbaumvorhersagemodelle nicht ausreichend, um aussagekräfige Ergebnisse zu erhalten, jedoch kann ihr Potential für die Vorhersage durch den Einsatz geeigneter Mechanismen gesteigert werden. 7.5.3. Neuronale Netze Wie mit der Entscheidungsbaumvorhersage wurde mit Hilfe von Neuronalen Netzen versucht, das Verhalten der Besucher der PLANET GmbH-Homepage vorherzusagen. Die Prognoseergebnisse fielen hierbei ähnlich aus. Wie schon bei der Entscheidungsbaumvorhersage wurden die besten Vorhersageergebnisse mit einem Trainings- und Validierungsmengenverhältnis von 70 zu 30 Prozent erreicht. Analog dazu konnten die betriebswirtschaftlich interessanteren Gruppen „Kunde“ und „Interessierter Nutzer“ gar nicht bzw. relativ schlecht prognostiziert werden. Die Tabelle 7.20 zeigt, wie die einzelnen Gruppen durch das Neuronale Netz vorhergesagt bzw. auf die falschen Gruppen verteilt wurde. 59 Vgl. Abschnitt 7.3.2 93 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage Tabelle 7.20.: Vorhergesagte und tatsächliche Gruppenverteilung mit Neuronalen Netzen Auch bei den Gruppenverteilungen ähneln sich Ergebnisse beider Prognosemodelle. Eine Verbesserung der Ergebnisse kann auch bei den Neuronalen Netzen durch eine Erweiterung der Datenbasis erreicht werden. Die vorliegenden Ergebnisse zeigen, dass die Vorhersagemodelle mit Neuronalen Netzen auf Basis von nicht erweiterten Logdaten für den praktischen Einsatz unzureichend sind. 7.5.4. Assoziationsanalyse Mit Hilfe der Assoziationsanalyse wurden die Logdaten der PLANET GmbH-Homepage auf interessante und aussagekräftige Zusammenhänge zwischen den einzelnen abgerufenen Dokumenten untersucht. Als Parameter für die Generierung der Assoziationsregeln wurde eine Mindest-Konfidenz von 30 Prozent und ein Mindest-Support von 0,5 Prozent gewählt. Insgesamt konnten mit diesen Parametern 167 Regeln entdeckt werden. Die für die Optimierung der PLANET GmbH-Homepage interessantesten Assoziationsregeln werden in Tabelle 7.21 dargestellt. Tabelle 7.21.: Interessante Assoziationsregeln Die erste Regel /agentur/kompetenz.html ⇒ /referenzen/index.html0,0092; 0,6906 besagt, das 69 Prozent aller Besucher, die die Seite /agentur/kompetenz.html aufgerufen haben, auch die Seite /referenzen/index.html betrachten, dies kam in 0,92 Prozent aller Transaktionen vor. Dieser Zusammenhang wird in Abbildung 7.3 dargestellt. Im Zuge der Websiteoptimierung könnte, aufgrund des bestehenden Zusammenhangs (Konfidenz: 69,06 Prozent), die Kompetenz-Seite der Webagentur (/agentur/kompetenz.html) mit 94 7.5. Evaluation und Interpretation Abbildung 7.3.: Beziehungen zwischen HTML-Dokumenten dem Referenzenbereich (/referenzen/index.html) in Verbindung gebracht werden. Die Möglichkeit der Zusammenlegung beider Dokumente ist aufgrund der unterschiedlichen Inhalte nicht gegeben. Es könnte jedoch ein entsprechender Verweis (Link) von der KompetenzSeite auf den Referenzenbereich gesetzt werden, damit die vorhandenen Kompetenzen der Webagentur zusätzlich durch erfolgreiche Referenzprojekte unterstrichen werden. Die anderen Bereiche der Homepage beinhalten keine expliziten Kompetenz-Seiten, aber auch hier könnten Verweise auf bereichsspezifische Referenzprojekte angeboten werden, um das vorhandene Knowhow und dessen erfolgreiche praktische Anwendung zu präsentieren. Abbildung 7.4.: Beziehungen zwischen HTML-Dokumenten Die zweite Regel /agentur/technologie.html ⇒ /agentur/kompetenz.html0,0087; 0,6982 zeigt, dass die HTML-Dokumente /agentur/technologie.html und /agentur/kompetenz.html häufig in Zusammenhang (Konfidenz: 69,82 Prozent) aufgerufen werden (Abbildung 7.4). Da es sich hierbei um themenverwandte Dokumente handelt, könnte über eine Zusammenlegung beider Inhalte nachgedacht werden, was in einem größeren Rahmen eine gewisse Vereinfachung der Websitestruktur zur Folge hätte. Aus der dritten Regel /connect/housing.html ⇒ /connect/konditionen.html0,0064; 0,3346 lässt sich entnehmen, dass die Dokumente /connect/housing.html und /connect/konditionen.html 95 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage Abbildung 7.5.: Beziehungen zwischen HTML-Dokumenten nicht häufig in Zusammenhang aufgerufen wurden (Konfidenz: 33,46 Prozent). Auf der Seite housing.html wird zur inhaltlichen Weiterführung ein Verweis auf die Seite konditionen.html angeboten. Von der Seite konditionen.html führt ein Link zu der Seite pakete.html, auf der die vertriebenen Webhosting-Produkte vorgestellt werden (Abbildung 7.5). Da der Verweis von housing.html zu den vertriebenen Produkten bzw. Dienstleistungen im Bereich Webhosting offensichtlich nur selten genutzt wird, aber die erfolgreiche Präsentation der Produkte ökonomisch imense Bedeutung hat, muss die Struktur dieser Dokumente verbessert werden, um mehr Besuchern die Produktübersicht zugänglich zu machen. Die vierte Regel /connect/konditionen.html ⇒ /connect/pakete.html0,005; 0,7444 zeigt, dass die Dokumente konditionen.html und pakete.html häufig zusammen aufgerufen werden, d.h. wenn der Besucher ersteinmal die Seite konditionen.html angeklickt hat, ist die Wahrscheinlichkeit groß (Konfidenz: 74,44 Prozent), das auch die Seite pakete.html, mit der Produktübersicht, aufgerufen wird. Auf Basis der Informationen, die der dritten und vierten Assoziationsregel entnommen werden können, erfolgt eine Verbesserung der Struktur dieser Dokumente. Der Verweis von der Seite housing.html auf konditionen.html ist sehr unscheinbar, was dazu beigetragen haben könnte, dass dieser Link relativ selten angeklickt wurde. Eine Verbesserungsmöglichkeit wäre, diesen Verweis hervorzuheben und die Dokumente konditionen.html und pakete.html zusammenzuführen. Eine andere Optimierung bestünde darin, konditionen.html ersatzlos zu streichen, dafür aber die Seite housing.html inhaltlich zu erweitern und den Verweis auf die Seite pakete.html hervorzuheben. Durch die Optimierungen könnte eine Erhöhung der Besucherzahlen auf der Webhosting-Produktseite und somit eine Steigerung der Wahrscheinlichkeit eines Kaufes erreicht werden. Die Wahl der optimalen Eingabeparameter für die Generierung der Assoziationsregeln erweisst sich als sehr schwierig, denn werden die Mindest-Konfidenz und der Mindest-Support 96 7.5. Evaluation und Interpretation zu klein gewählt, werden schon bei relativ kleinen Websites, wie der PLANET GmbH-Homepage, unüberschaubar viele Assoziationsregeln generiert und somit wird eine effektive Evaluation und Interpretation unmöglich gemacht60 . Die Assoziationsanalyse kann im Rahmen des Web Log Mining sehr gut dazu eingesetzt werden, um die Struktur einer Homepage zu optimieren. So können häufig in Zusammenhang aufgerufene Ressourcen mit Verweisen verbunden, gruppiert oder inhaltlich zusammengeführt werden, was eine Vereinfachung der Websitestruktur nach sich zieht. Websites, die in größerem Umfang Produkte oder Dienstleistungen anbieten, können im Rahmen einer Cross-Selling-Strategie ihre Produktsortimente mit Hilfe der Assoziationsanalyse optimieren. 7.5.5. Pfadanalyse Die häufigsten Navigationsreihenfolgen der Besucher auf der PLANET GmbH-Homepage wurden mit der Pfadanalyse von Websuxess 4.0 identifiziert und in Abschnitt 7.4.5 vorgestellt (Tabelle 7.16). Als die beiden häufigsten Navigationsreihenfolgen konnten die Pfade /index.html → /kontakt/index.html (90 Besucher) und /index.html → /profil/index.html (50 Besucher) identifiziert werden. Einen weiteren interessanten Aspekt zeigt die fünf häufigste Regel /index.html → /profil/index.html → /kontakt/index.html (28 Besucher). Die Abbildung 7.6 stellt den Zusammenhang, der zwischen diesen Navigationsreihenfolgen besteht dar. Diese Regeln lassen den Trend erkennen, dass die Besucher der PLANET GmbH-Homepage häufig zuerst Informationen über die Firma sammeln und sich vielleicht erst bei späteren Besuchen die vertriebenen Produkte ansehen. Eine weitere Ursache für diesen Trend könnte die mangelnde Akzeptanz der Besucher sein, Kontakt zur Firma über das Internet herzustellen (per E-Mail) und sich stattdessen zunächst die Telefonnummer aus dem Kontaktbereich beschaffen, um den zuständigen Mitarbeiter persönlich zu sprechen. Keiner der Klickpfade wurde signifikant oft beschritten. Der relativ geringe Support der einzelnen Navigationsreihenfolgen resultiert aus dem eingeschränkten Funktionsumfang der Pfadanalyse von Websuxess 4.0. Denn Websuxess generiert nur vollständige Navigationspfade, so dass es immer unwahrscheinlicher wird gleiche Klickpfade zu erhalten, je mehr Dokumente der Besucher aufruft. Teilpfade können mit Websuxess 4.0 nicht generiert werden61 . Websuxess bietet jedoch die Möglichkeit, alle Verweise, die von einem Dokument oder zu 60 61 Wird bspw. eine Mindest-Konfidenz von 5 Prozent und ein Mindest-Support von 0,1 Prozent gewählt, werden 1603 Regeln generiert. Wenn keine Mindest-Konfidenz und kein Mindest-Support vorgegeben werden, werden bereits über 8500 Regeln erzeugt. Je mehr Dokumente die Navigationspfade umfassen, desto unwahrscheinlicher ist eine Übereinstimmung mit anderen Pfaden. Die vom Anwender gesteuerte Generierung von interessanten Teilpfaden, ist mit Websuxess 4.0 nicht möglich. So wäre bspw. interessant, über welche (Teil-)Pfade die Besucher zu bestimmten Produkten gelangt sind und ob sie direkt oder über Umwege dorthin gelangten. 97 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage Abbildung 7.6.: Häufigste Klickpfade einem bestimmten Dokument verfolgt wurden, darzustellen. So wurde untersucht, von welchen Dokumenten aus die Besucher die Seite /kontakt/formular.html aufgerufen haben. Eine genaue Analyse der Dokumente die die Besucher zu dem Kontaktformular geführt haben, ist deshalb sehr interessant, weil von (fast) jeder Produktseite der PLANET GmbH-Homepage die Möglichkeit zur Kontaktaufnahme per E-Mail (Abbildung 7.7)62 mit der Firma gegeben ist. Somit kann z.B. identifiziert werden, von welcher Produktseite aus die meisten Aufrufe des Kontaktformulars kamen. Die zehn Dokumente, die die meisten Besucher zu dem Kontaktformular geführt haben, werden in Tabelle 7.22 gezeigt. 62 Die Verweise führen zum Aufruf des Kontaktformulars /kontakt/formular.html. 98 7.5. Evaluation und Interpretation Abbildung 7.7.: Aufrufmöglichkeit des Kontaktformulars aus einem Produktbereich Tabelle 7.22.: Dokumente, die die Besucher zum Anklicken des Kontaktformulars animiert haben Die meisten Besucher, die das Kontaktformular aufgerufen haben, sind über die Startseite des Kontaktbereiches /kontakt/index.html dorthin gelangt (27 Prozent). Das Kontaktformular diente bei 10 Prozent seiner Aufrufe als Einstiegsseite für den Besucher. Der Produktbereich Content-Management-Systeme (CMS) hat von allen Produkt- bzw. Diestleistungsbereichen die meisten Besucher zum Aufrufen des Kontaktformulars animiert (24 Prozent). 8 Prozent der Besucher kamen aus dem Bereich Connect (/connect/pakete.html). Wie bereits bei der Interpretation der Assoziationsregeln63 erläutert wurde, spielt das Dokument /connect/pakete.html (Webhosting-Produktseite) eine wichtige Rolle für die Gewinnung von potentiellen „Kunden“ bzw. „Interessierten Nutzern“ in dem Connect-Produktbereich. Es sollte versucht werden, dieses Dokument mehr Besuchern zugänglich zu machen, um den wirtschaftlichen Nutzen der Webhosting-Produktseite zu maximieren64 . Der für die PLANET GmbH wichtige Bereich CMS wird unter allen Produktbereichen am effektivsten von den Besuchern genutzt, der zweite wichtige Bereich E-Commerce dagegen kaum. Damit auch dieser Produktbereich effektiver genutzt wird, müssen die Produkte aus diesem Bereich besser präsentiert werden, das könnte z.B. durch entsprechende Hinweise auf der Startseite geschehen. Das Aufrufen des Kontaktformulars ist kein Indikator dafür, das es auch wirklich an die PLANET GmbH abgesandt wurde, es spiegelt lediglich das Interesse des Besuchers wieder, 63 64 Vgl. Abschnitt 7.5.4 Konkrete Vorschläge wurden im vorherigen Abschnitt 7.5.4 gemacht. 99 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage mehr Informationen über ein Produkt zu erhalten und einen Kontakt, telefonisch oder per EMail, zur Firma herzustellen. Von den 97 Aufrufen des Kontaktformulars wurde nur in 11 Fällen das Formular auch abgeschickt, das entspricht einer Quote von ca. 11 Prozent65 . Auch hier ist der Trend zu erkennen, dass die Akzeptanz der Besucher im Internet persönliche Daten zu hinterlassen sehr begrenzt ist. Daraus folgend, könnte in den Kopf des Kontaktformulars bzw. direkt in die Produktbereiche die Telefonnummer eines Ansprechpartners bei der PLANET GmbH integriert werden, um den Anreiz zur Kontaktaufnahme mit der Firma zu fördern. Für die wenigen Produktseiten, die noch keinen direkten Verweis auf das Kontaktformular besitzen, empfiehlt es sich, diese mit entsprechenden Verweisen nachzurüsten. Das könnte die Motivation zu einer Kontaktaufnahme erhöhen und ist vor allem für zukünftige Analysen der Website sehr hilfreich, um die Produkte zu identifizieren, die am meisten Interesse bei den Besuchern hervorrufen. Für die Optimierung einer Internetpräsenz ist die Pfadanalyse ein wichtiges Instrument. Mit dieser Analysemethode lässt sich die Struktur und somit die Benutzerfreundlichkeit einer Website verbessern. So können z.B. die Pfade zu bestimmten Ressourcen optimiert werden, damit die Besucher direkt und nicht über Umwege zu den wichtigen Bereichen der Website gelangen. Auch kann die Pfadanalyse die Voraussetzung für eine effektive Platzierung von Produktinformationen oder Werbung schaffen. In diesem Fall werden auf besonders häufig frequentierten Navigationspfaden die entsprechenden Botschaften platziert. 7.5.6. Deskriptive Statistik Die Ergebnisse der klassischen Websiteanalyse sind ebenso wie die Besucheranalysen mit der Assoziations- und Pfadanalyse nur vor einem globalen Hintergrund zu betrachten, eine Untersuchung von einzelnen Gruppen, wie bei der Entscheidungsbauminduktion oder den Neuronalen Netzen, ist (mit den hier eingesetzten Programmen) nicht möglich. Dadurch können nur Interpretationen und Maßnahmen getroffen werden, die alle Besucher der Website betreffen, gruppenspezifische Instrumente können nicht direkt eingesetzt werden. Bei der Interpretation der „Kunden“-Profile (Abschnitt 7.5.2) wurde ein entsprechendes Beispiel gezeigt. Aus den Ergebnissen mit Websuxuess 4.0 konnte ein Besuchermaximum für den Montag ermittelt werden. Eine gruppenspezifische Betrachtung dieses Ergebnisses (Entscheidungsbauminduktion) zeigte jedoch, das die meisten „Kunden“ nicht am Montag die PLANET GmbH-Homepage besuchen. Beim Web Log Mining mit Websuxess 4.0 wurden die beliebtesten Dokumente der PLANET GmbH-Homepage ermittelt (Tabelle 7.18). Aus der Tabelle geht hervor, das die Startseite der Homepage (/index.html) mit 6618 Abrufen das am häufigsten besuchte Dokument ist. 65 Aus welchen Produktbereichen heraus die meisten Kontaktformulare an die Firma gesandt wurden, ist mit der Pfadanalyse (von Websuxess 4.0) nicht zu identifizieren. 100 7.5. Evaluation und Interpretation Die zweitbeliebteste Ressource ist ein PDF-Dokument (/2_breitbandtechnologien.pdf) mit 1694 Abrufen. Dabei handelt es sich um einen Vortrag eines Firmenmitarbeiters zum sehr aktuellen Thema Breitbandtechnologien (DSL, Wireless LAN, usw.). Für 1262 Besucher war der Vortrag die Einstiegsseite zur Homepage. Das am dritthäufigsten besuchte Dokument ist die Startseite des Bereiches Profil (/profil/index.html) mit 1107 Abrufen. Websuxess 4.0 bietet Gruppierungsfunktionen mit denen Dokumente zu Gruppen zusammengefasst und seperat ausgewertet werden können. So wurden alle Dokumente aus dem Bereich Pressemitteilungen (/profil/pm) und Pressespiegel (/profil/ps) zu der Gruppe „Presse“ zusammengefasst. Einzelne Pressemitteilungen wurden in der Statistik „Die beliebtesten Ressourcen“ (Tabelle 7.18) aufgrund der relativ wenigen Abrufe nicht erfasst. Nach einer erneuten Auswertung der Daten liegt die Gruppe „Presse“ an Platz drei der beliebtesten Ressourcen mit insgesamt 1276 Abrufen nach der Startseite und dem PDF-Vortrag. Für 501 Besucher war eine Pressemitteilung die Einstiegsseite zur Homepage. Diese Zahlen belegen, das aktuelle Meldungen/Themen bei den WWW-Nutzern sehr beliebt sind und ein Ausbau bzw. eine ständige Aktualisierung, je nach Marketingstrategie, als Kundenservice oder zur Gewinnung von neuen Besuchern eingesetzt werden kann. In diesem Zusammenhang wurden die Ergebnisse mit Hilfe der Entscheidungsbauminduktion genauer geprüft. Die Dokumente aus dem Bereich „Presse“ und der PDF-Vortrag wurden zwar 1276 bzw. 1694 Mal abgerufen und animierten 501 bzw. 1262 WWW-Nutzer zum Betreten der Homepage, jedoch sind die so gewonnenen Besucher betriebswirtschaftlich relativ uninteressant. Ein „Kunde“ und 26 „Interessierte Nutzer“ konnten durch den Pressebereich gewonnen werden, die verbleibenden 477 Besucher gehören der Gruppe „Just Browsing“ an. Durch den PDF-Vortrag konnten 33 „Interessierte Nutzer“ akquiriert werden, alle anderen sind „Interessierte Kurzbesucher“. Eine Strategie zur effektiveren Nutzung der „Interessierten Kurzbesucher“ wurde in Abschnitt 7.5.2 vorgeschlagen. Eine Aufstockung der Personalkapazitäten für die Ausweitung des Pressebereiches ist, nach diesen neuen Ergebnissen, als nicht mehr notwendig anzusehen. Das Beispiel zeigt, das den klassischen Website-Analyseprogrammen, bei der gezielten Untersuchung bestimmter Ergebnisse, die nötige Funktionalität fehlt, um dem Anwender die erforderlichen Informationen für aussagekräftige Interpretationen zu liefern. Für 6112 Besucher war die Startseite der Homepage die Einstiegsseite zur Webpräsenz. Von diesen Besuchern verließen 66 Prozent (4031) die Homepage dann gleich wieder, ohne weitere Ressourcen aufzurufen. Das kann darauf hinweisen, das die Besucher etwas Anderes oder Neues erwartet haben bzw. das die Inhalte der Startseite nicht ansprechend sind66 . Bei diesen WWW-Nutzern handelt es sich in erster Linie um Besucher, die die Ho66 Für die weitere Analyse dieses Sachverhaltes wurde, aufgrund der funktionellen Grenzen von Websuxess 4.0, auch die Entscheidungsbauminduktion eingesetzt. Der Anstoß zu dieser Untersuchung ist auf die Analyseergebnisse von Websuxess 4.0 zurückzuführen (Tabelle 7.18). 101 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage mepage der PLANET GmbH über Suchmaschinen gefunden (1702) und wahrscheinlich eine andere Website erwartet haben. Diese Annahme wird durch die verwendeten Suchbegriffe der Besucher gestützt. 1204 dieser Kurzbesucher verwendeten den Suchbegriff „planet“ und 327 „planets“. Für die Besucher, die keinen Referrer aufweisen67 (1112), wird angenommen, das es sich dabei um Mitbewerber der PLANET GmbH handelt, die regelmäßig die Website inspizieren oder um WWW-Nutzer die die Website, auf der Suche nach Neuigkeiten oder Aktionen, besuchen. Eine Möglichkeit die Kurzbesucher, die ohne Referrer auf die Website gelangen, zum längeren verweilen zu animieren, könnte eine häufigere Inhaltsänderung der Homepage-Startseite sein. In diesem Zuge könnte z.B. die Rubrik Pressemitteilungen auf der Startseite um weitere Einträge erweitert werden, ohne dass die Aktualität (und die damit verbundenen Kosten), dieser Einträge in den Vordergrund zu stellen. Weiterhin könnte ein dynamisches Anordnen68 der Startseitenelemente integriert werden, um eine Aktualisierung der Website zu suggerieren. Mit Hilfe von Programmen, die die klassische deskriptive Statistik zur Analyse von Websites einsetzen, können schnell und effektiv übersichtliche Gesamtansichten des WebsiteTraffics erstellt werden. Jedoch stoßen klassische Website-Analyseprogramme bei der Untersuchung von Internetpräsenzen, wie an den Beispielen der Pressemitteilungen und des Besuchermaximums gezeigt, schnell an ihre Grenzen. Die Festlegung einer Strategie zur Optimierung der Website kann so, aufgrund der beschränkten Sichtweise und somit potentiell falscher Interpretationen der Ergebnisse, zu uneffektiven Kampagnen und hohen Kosten führen. Jedoch können die übersichtlichen und umfangreichen Statistiken von klassischen Website-Analyseprogrammen wichtige Hinweise für genauere Analysen einzelner Sachverhalte, mit den hier vorgestellten Data Mining-Verfahren, liefern und tragen somit zu einer gezielteren Untersuchung und Optimierung der Website bei. 7.6. Zusammenfassung Die Ergebnisse der Evaluations- und Interpretationsphase bilden die Basis für umfangreiche Optimierungsaktivitäten der Internetpräsenz der PLANET GmbH. Die Website kann global für alle Besucher mit den Ergebnissen der Assoziationsanalyse, der Pfadanalyse und der deskriptiven Statistik optimiert werden aber auch zielgruppenspezifisch auf Grundlage der Ergebnisse von Entscheidungsbauminduktion bzw. Vorhersage und den Neuronalen Netzen. Die Assoziations- und Pfadanalyse und die Methoden der deskriptiven Statistik liefern in er67 Dabei handelt es sich um Besucher die die URL der PLANET GmbH-Homepage per Hand in den Browser eingaben oder die die Homepage mit einem Lesezeichen (Bookmark) gespeichert haben. 68 Dabei müssen nicht die Inhalte geändert werden, sondern nur deren Position auf der Seite. Bei dem Besucher könnte so der Eindruck erweckt werden, das die Seite neu gestaltet bzw. neue Inhalte eingetragen wurden und so sein Interesse erhöhen. 102 7.6. Zusammenfassung ster Linie Ansätze zur strukturellen und ergonomischen Verbessung der Internetpräsenz. So können Wege zu wichtigen Bereichen oder Produkten optimiert und häufig zusammen aufgerufene Ressourcen neu gruppiert werden. Die Umsetzung der Analyseergebnisse dieser drei Data Mining-Verfahren würde eine Steigerung der Anwenderfreundlichkeit der Website nach sich ziehen. Da die Optimierungsempfehlungen nur die Integration von neuen Verweisen und die Zusammenlegung bzw. Verbesserung von bereits bestehenden Inhalten umfasst, ist der Umsetzungsaufwand, im Vergleich zu einer Neugestaltung, als überschaubar einzustufen. Die Ergebnisse dieser Arbeit tragen zur Erstellung eines Relaunch-Konzeptes69 der Webpräsenz der PLANET GmbH bei. Im Zuge der Neugestaltung der Website können strukturelle Änderungen, ohne großen Aufwand zu erzeugen, optimal einfließen. Als Konsequenz einiger Analyseergebnisse wird die (Teil-)Dynamisierung der Startseite der Internetpräsenz empfohlen. So wird bspw. im Rahmen der Interpretation der Zielgruppenprofile, die gruppenspezifische Präsentation von Inhalten oder Marketing- bzw. Vertriebsstrategien auf der Startseite favorisiert. Auch wird als Folge der hohen Ausstiegsrate auf der Startseite eine Verbesserung bzw. Erweiterung des inhaltlichen Angebots dieses Dokuments vorgeschlagen. Diese Empfehlungen können jedoch nur dann effektiv umgesetzt werden, wenn entsprechende Instrumente eingesetzt werden. Ad-Server und Content-ManagementSysteme bieten die nötigen Funktionalitäten und das Potential, um die Startseite bzw. Website, auf Basis der Web Log Mining-Ergebnisse, erfolgreich zu optimieren. Für den Einsatz auf der PLANET GmbH-Homepage empfehlen sich die Open Source-Produkte phpAdsNew70 als Ad-Server und OpenCms 571 als Content-Management-System. Durch phpAdsNew können parametergesteuert Inhalte eines Dokuments dynamisch generiert werden. So können z.B. verstärkt am Abend am Dienstag, Mittwoch, Donnerstag und Freitag, mit entsprechenden Angeboten auf der Startseite, um Kunden geworben werden, was in gewissem Maße zu einer Personalisierung der Seite beitragen würde. Das CMS OpenCms 5 erleichtert die Aktualisierung der Inhalte einer Seite erheblich, da mit einem speziellen Editor jedes Dokument geändert werden kann, ohne das der Anwender Kenntnisse von der HTML-Programmierung besitzen muss. Weiterhin bietet OpenCms 5 die technischen Voraussetzungen für eine Dynamisierung und Personalisierung von Inhalten. In diesem Zusammenhang können bspw. die fünf neusten Meldungen aus dem Bereich Presse dynamisch in die Startseite integriert werden. Der Einfügungsaufwand dieser Systeme wird dadurch reduziert, weil in der Firma bereits Basis-Knowhow auf diesen Gebieten vorhanden ist und Forschungsarbeiten zu diesem Thema angefertigt wurden bzw. werden. Der Einsatz von Prognosesystemen auf der Website ist zur Zeit nicht zu empfehlen. Die Vorhersageergebnisse mit der Entscheidungsbaumvorhersage bzw. den Neuronalen Net69 70 71 Die Internetpräsenz der PLANET GmbH erhält in absehbarer Zeit, sowohl gestalterisch als auch inhaltlich, ein neues Erscheinungsbild. http://www.phpadsnew.com http://www.opencms.org 103 Kapitel 7. Web Log Mining der PLANET internet commerce GmbH-Homepage zen waren nicht ausreichend, um einen effektiven praktischen Einsatz zu garantieren. Da es sich hierbei um ein sehr neues Forschungsgebiet handelt und noch keine entsprechenden Softwareprodukte für den Internetbereich verfügbar sind, müsste eine firmeneigene Lösung geschaffen werden. Der Einsatz von transaktionsübergreifenden Identifizierungsmechanismen kann die Ergebnisse von Prognosesystemen entscheidend verbessern. Jedoch muss, um die Marktreife solcher Prognosesysteme zu erreichen, die Forschung auf diesem Gebiet, mit den entsprechenden Personalkapazitäten, verstärkt werden. Die Basis dazu wurde mit dieser Arbeit geschaffen. Transaktionsübergreifende Identifizierungsmechanismen schaffen aber auch die Voraussetzung für den Einsatz der Sequenzanalyse und somit einer weiteren Möglichkeit die Website zu optimieren. Auch können durch den Einsatz dieser Mechanismen detaillierte Zielgruppenprofile erstellt werden, was eine noch genauere und somit effizientere Planung von Marketing- und Vertriebsstrategien möglich macht. Problematisch für zukünftige Analysen der PLANET GmbH-Homepage in diesem hier gezeigten Umfang, sind die hohen Anschaffungs- bzw. Lizenzkosten der eingesetzten Data Mining-Produkte. ... Eine zukünftige Analyse müsste aus wirtschaftlichen Gründen durch einen externen Anbieter durchgeführt werden, denn die hohen Kosten für Personal und Software-Lizenzen würden den Nutzen für diese relativ kleine Website übersteigen. Der Nutzen dieser Arbeit für die PLANET GmbH kann, neben der Optimierung und Relaunch der eigenen Internetpräsenz, die Schaffung einer Basis für die Etablierung eines neuen Tätigkeitsfeldes sein. Dieses Tätigkeitsfeld kann als Website-Optimierung zusammengefasst werden. Dabei werden bestehende Internetpräsenzen optimiert bzw. im Rahmen einer Cross-Selling-Strategie, auf Basis der Optimierungen, eine neue Internetpräsenz erstellt. 104 8. Fazit und Ausblick Wie hier gezeigt wurde, stoßen klassische Web Log Mining-Programme bei der Analyse von Internetpräsenzen immer häufiger an ihre Grenzen. Eine differenzierte Betrachtung, z.B. unter ökonomischen Aspekten, der Besucher ist nicht bzw. nur sehr eingeschränkt möglich. Klassische Web Log Mining-Programme untersuchen die Homepage-Besucher nur global, die gezielte Analyse von speziellen Besuchergruppen sind nur sehr begrenzt möglich, die Erstellung von Besucherprofilen, Verhaltensprognosen oder Assoziationsregeln sind derzeit nicht möglich. Zur Erstellung von allgemeinen Gesamtansichten des Website-Traffics sind diese Programme allerdings gut geeignet. Zudem bieten klassische Website-Analyseprogramme eine gute Performanz und sind, was Übersichtlichkeit der Ergebnisse und Anwenderfreundlichkeit betrifft, sehr ausgereift, so das umfangreiche Berichte schnell und unkompliziert erstellt werden können. mit cookies wird alles besser asso für shops vorhersage 105 Kapitel 8. Fazit und Ausblick 106 Literaturverzeichnis [ALPR00a] Alpar, Paul; Grob, Heinz Lothar; Weimann , Peter; Winter, Robert: Anwendungsorientierte Wirtschaftsinformatik - Eine Einführung in die strategische Planung, Entwicklung und Nutzung von Informations- und Kommunikationssystemen, 2. überarbeitete Auflage, Braunschweig/Wiesbaden, 2000 [ALPR00b] Alpar, Paul: Data Mining im praktischen Einsatz - Verfahren und Anwendungsfälle für Marketing, Vertrieb, Controlling und Kundenunterstützung, Hrsg.: Niederreichholz, Joachim, Braunschweig/Wiesbaden, 2000 [BACK00] Backhaus, Klaus: Multivariate Analysemethoden - Eine anwendungsorientierte Einführung, Berlin/Heidelberg, 2000 [BENS01a] Bensberg, Frank: Web Log Mining als Instrument der Marketingforschung: Ein systemgestaltender Ansatz für internetbasierte Märkte, Wiesbaden, 2001 [BENS01b] Bensberg, Frank: Data Mining /Knowledge Discovery in Databases (KDD), 2001, im WWW unter http://www.wi.uni-muenster.de/aw/lehre/archiv/DMKDD.pdf (01.10.2002) [BENS99a] Bensberg, Frank; Weiß, Thorsten: Web Log Mining als Analyseinstrument des World Wide Web, in Wirtschaftsinformatik, 41. Jg., Heft 5, 1999, S. 426-432 [BENS99b] Bensberg, Frank; cHL-Anwendungen, Bieletzke, 1999, im Stefan: WWW Web unter Log Mining bei http://www.wi.uni- muenster.de/aw/publikationen/CALCAT16.pdf (01.10.2002) [BERS00] Berson, Alex; Smith, Stephen; Thearling, Kurt: Building Data Mining Applications for CRM, New York, 2000 [BÖHM00] Böhm, Klemens: Data Warehousing and Mining, 2000, im WWW unter http://www-dbs.inf.ethz.ch/ boehm/DD/dwm0102/quantAspects.pdf (01.10.2002) [BROD00] Broder, Alan J.: Data Mining, the Internet, and Privacy, in: Web Usage Analysis and User Profiling, Hrsg.: Masand, Brij, Spiliopoulou, Myra, Berlin/Heidelberg, 2000, S. 56-73 107 Literaturverzeichnis [BROG00] Broges, Jose; Levene, Mark: Data Mining of Navigation Patterns, in: Web Usage Analysis and User Profiling, Hrsg.: Masand, Brij; Spiliopoulou, Myra, Berlin/Heidelberg, 2000, S. 92-111 [COOL97] Cooley, Robert; Mobasher, Bamshad; Srivastava, Jaideep: Web Mi- ning - Information and Pattern Discovery on the World Wide Web (A Survey Paper), in: Proceedings of the 9th IEEE International Confe- rence on Tools with Artificial Intelligence (ICTAI’97), 1997, im WWW unter http://www.cs.umn.edu/research/websift/papers/tai97.ps (01.10.2002) [COOL99] Cooley, Preparation nal of Robert; for Mobasher, Mining Knowledge and World Bamshad; Wide Information Web Srivastava, Browsing Systems, Jaideep: Patterns, 1999, im Data in: Jour- WWW unter http://www.cs.umn.edu/research/websift/papers/kais99.ps (01.10.2002) [DAST00] Dastani, Parsis: Data Mining Lösung in 10 Stufen, 2000, im WWW unter http://www.database-marketing.de/miningstufen.htm (01.10.2002) [DIED99] Diedrich, Holger: Theorie und betriebswirtschaftliche Einsatzmöglichkeiten von neueren IT-basierten Verfahren des „Knowledge Discovery“, Diplomarbeit, Universität Hamburg, 1999 [DÜSI98] Düsing, Roland: Knowledge Discovery in Databases und Data Mining; in: Analytische Informationssysteme, Springer-Verlag, Berlin, 1998, S. 291-299 [FAYY96] Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic; Uthurusamy, Ramasamy: Advances in Knowledge Discovery and Data, Mining, Melo Park, California, 1996 [GRIM98] Grimmer, Udo; Mucha, Hans-Joachim: Skalierung als alternative Datentransformation und deren Auswirkungen auf die Leistungsfähigkeit von Supervised Lerning Algorithmen, in: Data Mining: Theoretische Aspekte und Anwendungen, Hrsg.: Nakhaeizadeh, Gholamreza, Heidelberg, 1998, S. 109-141 [GROB99] Grob, beitsbericht Heinz Nr. Lothar; 8, Bensberg, Münster 1999, Frank: Das im WWW Data-Mining-Konzept, unter Ar- http://www.wi.uni- muenster.de/aw/publikationen/CGC8.pdf (01.10.2002) [HIPP02] Hippner, Hajo; Merzenich, Melanie; Wilde, Klaus D.: E-CRM - mit Informationstechnologien Kundenpotenziale nutzen, Hrsg.: Schögel, Markus; Schmidt, Inga, Düsseldorf, 2002, S. 87-104 [KIMM00] Kimmerle, Joachim: Data Mining im Pharma-Großhandel, Diplomarbeit, Universität Stuttgart, 2000 108 Literaturverzeichnis [KNOB00] Knobloch, Bernd: Der Data-Mining-Ansatz zur Analyse betriebswirtschaftlicher Daten, Bamberger Beiträge zur Wirtschaftsinformatik Nr. 58, Bamberg, 2000 [KRAF00] Kraft, Marckus; Hartung, Stefan: Shop Suxess 4 Enterprise Edition Handbuch, Eschborn, 2000 [KÜPP99] Küppers, Bertram: Data Mining in der Praxis - Ein Ansatz zur Nutzung der Potentiale von Data Mining im betrieblichen Umfeld, Frankfurt am Main, 1999 [LUST02] Lusti, Markus: Data Warehousing und Data Mining - Eine Einführung in entscheidungsunterstützende Systeme, Berlin/Heidelberg, 2002 [MENA00] Mena, Jesus: Data Mining und E-Commerce: Wie Sie Ihre Online-Kunden besser kennen lernen und gezielter ansprechen, Düsseldorf, 2000 [NEEB99] Neeb, Hans-Peter: Einsatzmöglichkeiten von ausgewählten Data Mining Verfahren im Bereich Financial Services, Diplomarbeit Universität Karlsruhe, 1999 [OEBB00] Oebbeke, Alfons: Cookies im Internet, 2000, im WWW unter http://www. glossar.de/glossar/1frame.htm?http%3A//www.glossar.de/glossar/z_cookies.htm (01.10.2002) [o.V.00] o.V.: XAffinity Whitepaper - Association and Sequencing Keys to successful Market Basket, 2000, im WWW unter http://www.xore.com (01.10.2002) [o.V.01a] o.V.: Glossar, 2001, im WWW unter http://medweb.uni-muenster.de/institute/imib/ lehre/skripte/biomathe/bio/glossar.html (01.10.2002) [o.V.01b] o.V.: Spider List, 2001, im WWW unter http://www.spiderhunter.com/spiderlist/ (01.10.2002) [o.V.01c] o.V.: SELFHTML: Diverse technische Ergänzungen - HTTP-Statuscodes, 2001, im WWW unter http://selfhtml.teamone.de/diverses/httpstatuscodes.htm (13.12.2002) [o.V.02a] o.V.: Search Engine Spider IP Addresses, 2002, im WWW unter http://www. searchengineworld.com/spiders/spider_ips.htm (01.10.2002) [o.V.02b] o.V.: KnowledgeSTUDIO Whitepaper Version 4, 2002 [o.V.02c] o.V.: European Search Engine Ratings, 2002, im WWW unter http:// searchenginewatch.com/reports/mmxi-europe.html (13.12.2002) [PENZ00] Penzes, verseitige Adriana; Ungerer, Anwendungen, 2000, Steffen: im Servlets WWW unter und andere ser- http://www.aifb.uni- karlsruhe.de/CoM/teaching/seminars/computational-finance/servlets.pdf (01.10.2002) 109 Literaturverzeichnis [POHL99] Pohle, Carsten: Methoden der Werbeerfolgsplanung und -kontrolle im World Wide Web: Theorie und Praxis, 1999, im WWW unter http://miro.wiwi.hu-berlin.de/∼cpohle/ (01.10.2002) [PYLE99] Pyle, Dorian: Data Preparation for Data Mining, San Francisco, 1999 [RAUH00] Rauh, Reinhold: Deskriptive Statistik und Inferenzstatistik, 2000, im WWW unter http://cognition.iig.uni-freiburg.de/teaching/veranstaltungen/ws00/uebung1/ FolienSitz6.PDF (01.10.2002) [RENN99] Rennekamp, Thorsten: Session-Tracking, 1999 [RUNK00] Runkler, Thomas A.: Information Mining - Methoden, Algorithmen und Anwendungen intelligenter Datenanalyse, Braunschweig/Wiesbaden, 2000 [SCHO] Scholz, Michael: Technologien zur Realisierung von transaktions-resistenten Speicherungen bei Electronic Commerce-Systemen, im WWW unter http://www. competence-site.de/ecommerceshop.nsf/GrundlagenView [SCHW00] Schwickert, Axel C.; Wendt, Peter: Web Site Monitoring - Teil 2: Datenquellen, Web-Logfile-Analyse, Logfile-Analyzer, in: Arbeitspapiere WI, Nr. 7/2000, Hrsg.: Lehrstuhl für Allg. BWL und Wirtschaftsinformatik, Johannes Gutenberg-Universität: Mainz 2000, im WWW unter http://wi.uni-giessen.de/gi/dl/det/Schwickert/1167/apap_ wi_2000_07.pdf (01.10.2002) [SCHM00a] Schmidt-Thieme, Lars: Web Mining, 2000, im WWW unter http://viror.wiwi.unikarlsruhe.de/webmining.ws00/script/pdf/webmining-4.pdf (01.10.2002) [SCHM00b] Schmidt-Thieme, Lars: Web Mining, 2000, im WWW unter http://viror.wiwi.unikarlsruhe.de/webmining.ws00/script/pdf/webmining-7.pdf (01.10.2002) [SCHM00c] Schmidt-Thieme, Lars: Web Mining, 2000 [UNGE02] Ungerer, Bert: Internet-Provider, 2002, im WWW unter http://www.heise.de/ix/ provider/ (01.10.2002) [WIED01] Wiedmann, Klaus-Peter: Neuronale Netze im Marketing Management: Praxisorientierte Einführung in modernes Data-Mining, Hrsg.: Buckler, Frank, Wiesbaden, 2001 [WITT01] Witten, Ian H.; Eibe, Frank: Data Mining - Praktische Werkzeuge und Techniken für das maschinelle Lernen, München/Wien, 2001 [W3C] W3C: Logging Control In W3C httpd , im WWW unter http://www.w3.org/Daemon/ User/Config/Logging.html#common-logfile-format (01.10.2002) 110 A. Thesen 1. Prothese 2. Prothese 3. Prothese 111