Nutzungsbezogene Analyse von Web-Sites mit

Transcrição

Nutzungsbezogene Analyse von Web-Sites mit
Nutzungsbezogene Analyse von Web-Sites mit
induktiven statistischen Methoden in der Praxis
Prof. Dr. Frank Dellmann
Wirtschaftsmathematik und Statistik
Fachhochschule Münster
Corrensstr. 25
D-48149 Münster
[email protected]
1. Problemstellung
Im Zuge der rasanten Entwicklung des Internet und der Erkenntnis der sich daraus ergebenden
wirtschaftlichen Möglichkeiten haben in den letzten Jahren immer mehr Unternehmen einen
an ihre Kunden gerichteten Auftritt im Internet realisiert. Hierbei werden Ziele wie der
verbesserte Einsatz von Marketing-Instrumenten und die Intensivierung der Kundenbeziehung
verfolgt. Somit ist aber auch eine Wirkungsmessung des Einsatzes der Marketing-Instrumente
im Internet erforderlich. Während die Controlling-Methoden zur Steuerung eines
Unternehmens für die traditionellen Kommunikations- und Vertriebskanäle immer
differenzierter wurden, sind häufig über den Internet-Auftritt keine oder nur sehr wenige
Informationen vorhanden. Da das Internet immer mehr Gewicht in der Kommunikation mit
den Kunden bekommt, besteht seitens der Unternehmen die Anforderung, Methoden zur
Analyse der Nutzeraktivitäten auf der Unternehmens-Web-Site zur Verfügung zu haben.
Die Daten der Nutzeraktivitäten auf einer Web-Site werden in Log Files des Web Servers
oder des Application Servers aufgezeichnet. Einige Unternehmen erstellen aus den Log Files
deskriptive Statistiken zu bestimmten Kennzahlen wie Visits, Pageviews oder Verweildauer
und vergleichen diese für einen bestimmten Zeitraum zu einer Referenzperiode.
In der Literatur wird mit Web Usage Mining die nutzungsbezogene Analyse der Daten, die
während der Benutzung einer Web-Site anfallen, bezeichnet.1 Damit versteht man unter Web
Usage Mining die Anwendung von Data Mining-Algorithmen auf diese Log Files.2 Diese
zielen auf das Erkennen von Mustern und Zusammenhängen, die in den Daten verdeckt
vorliegen, (Assoziationsanalyse, Sequenzanalyse, Pfadanalyse, Warenkorbanalyse,
Clusteranalyse etc.) und münden letztlich in der Erstellung von Erklärungs- und
Prognosemodellen (Regressionsanalyse, Diskriminanzanalyse, Entscheidungsbaumanalyse,
Zeitreihenanalyse, Neuronale Netze etc.).
Hier soll die statistische Analyse der Daten einer Web-Site etwas weiter gefasst werden,
indem sie auf die Methoden der induktiven Statistik (Konfidenzintervalle, Parametertests,
Anpassungstests, Unabhängigkeitstests, Varianzanalyse) ausgeweitet wird. Damit können
beispielsweise signifikante Änderungen einer bestimmten Kennzahl zu einer Referenzperiode
oder einer Referenz-Domain aufgezeigt werden.
In diesem Beitrag wird ein Ansatz geschildert werden, der in einem Praxisprojekt zur Analyse
der Log Files der Web-Sites des Volkswagen-Konzerns mittels induktiver statistischer
Methoden angewendet wird. Das Unternehmen stellte die Anforderung zur Erstellung eines
1
2
Vgl. Cooley et al. (1997), S. 1.
Zu Data Mining-Algorithmen siehe Berry/Linoff (2000).
Informations- und Analysesystems, das über die Erstellung deskriptiver Statistiken hinausgeht
und eine Interpretation der Ergebnisse liefert, auf deren Basis konkrete
Handlungsempfehlungen abgeleitet werden können. Zukünftig soll dieses System in ein
konzernweites Customer Relationship Management-System münden, in das die Kunden- und
Absatzdaten aus den traditionellen Kanälen integriert sind.3
Mit der Erstellung eines solchen Systems wurde die BBDO Interactive GmbH beauftragt, die
auch die Internet-Auftritte von Volkswagen erstellt hat. Mit dieser Agentur wurde der Ansatz
entwickelt, der im nächsten Kapitel vorgestellt wird. Im dritten Kapitel wird die Anwendung
des Ansatzes zur Analyse der Web-Sites von Volkswagen beschrieben. Das vierte Kapitel gibt
einen Ausblick auf weitere Arbeiten.
2. Ansatz zur statistischen Analyse von Web-Sites
Der Ansatz zur statistischen Analyse von Web-Sites mittels induktiver Methoden zielt auf die
Erzielung von Erkenntnissen über den Erfolg einer Web-Site. Dies umfasst die Interpretation
der in den Logfile Reports aufgeführten Kennzahlen im Zeit- oder Domainvergleich und die
Ableitung konkreter Handlungsempfehlungen. Zum einen sollen signifikante Unterschiede
von Kennzahlen im Zeit- oder Domainvergleich aufgedeckt werden. Zum anderen sollen die
Auswirkungen des Einsatzes bestimmter Marketing-Instrumente auf die Aktivitäten auf der
Web-Site analysiert werden. Dazu wird folgende Vorgehensweise gewählt:
1. Problemformulierung
2. Datenerhebung in Web Server Logfile und Application Server Logfiles
3. Data Preprocessing
4. Darstellung der Daten
5. Ausreißeranalyse
6. Signifikanztests (ggfs. Anpassungstests zur Überprüfung von Verteilungsannahmen)
7. Ergebnisinterpretation und Ableitung von Handlungsempfehlungen
8. Reporting
2.1. Problemformulierung
In der Phase der Problemformulierung wird das Untersuchungsziel konkretisiert. Hierzu
gehören die Festlegung der Untersuchungszeiträume (Monate, Wochen etc.), der
Basisperiodizität der Daten (Tage, Stunden etc.), der Referenzdomains und der betrachteten
Kennzahlen (Visits, Pageviews, Pageviews pro Visit, Verweildauer pro Visit, Clicks,
Einsprung- und Exit-Adresse etc.) sowie der darauf berechneten Lage-, Streuungs- und ggfs.
Schiefeparameter. Wenn der Einfluß spezifischer Marketing-Instrumente untersucht werden
soll, müssen dafür die entsprechenden Hypothesen zur Durchführung der Signifikanztests
formuliert und das Signifikanzniveau festgelegt werden. Ferner kann ein externer Kalender
angelegt werden, in dem relevante Termine wie z. B. Messen, Kampagnen oder Events
geführt werden, um Analysen für deren Auswirkung auf die Web-Site durchzuführen.
2.2. Datenerhebung
Die Aktionen der Nutzer einer Web-Site werden in dem Web Server Logfile protokolliert.
Dieser Logfile enthält, je nach Logfile-Format teils unterschiedliche, Informationen über die
Zugriffe auf die Web-Site wie die IP-Adresse des Nutzers, die Zugriffszeit, die URL der
3
Zu Customer Relationship Management siehe z. B. Gosney/Boehm (2000).
aufgerufenen Seite, den Statuscode (erfolgreicher Zugriff oder Fehler), die Anzahl
übertragener Bytes etc. In jeder Zeile eines Logfile wird ein Zugriff auf die Web-Site
protokolliert. Diese Informationen sollen für jede Session bzw. Nutzer aufbereitet werden.
Mit der Datenerhebung im Web-Server Logfile sind aber einige Probleme verbunden:4
-
Protokollierung irrelevanter Informationen: Non-Pages wie automatisch geladene
Grafiken und fehlerhafte Aufrufe erzeugen einen eigenen Protokolleintrag.
-
Unvollständigkeit der protokollierten Aktivitäten infolge Aufrufe aus Caches.
-
Ungenügende User- bzw. Session-Spezifikation: Proxy-Server, Anonymisierung,
dynamische IP-Adressen, Administratoren, Robots and Spiders.
-
Unzureichende Informationen über Aktionen des Nutzers auf dynamischen Seiten. Hierzu
muß auf die Logfiles des jeweiligen Application Servers zurückgegriffen werden.
Bei der Verwendung von Daten aus dem Web Server Logfile und dem Application Server
Logfile ist die Zusammenführung gleicher Sessions entscheidend.
2.3. Data Preprocessing
Einige der beschriebenen Probleme lassen sich im Preprocessing-Schritt beheben. So werden
Einträge von Non-Pages und Einträge mit einem Status Code, der einen Fehler anzeigt,
eliminiert.
Zugriffe von Suchmaschinen können anhand des verwendeten Browsertyps identifiziert und
entfernt werden.5 Die Zugriffe der Administratoren können anhand der i. d. R. bekannten IPAdresse eliminiert werden.
Zur User- und Session-Spezifikation werden auch Heuristiken eingesetzt. So kann ein User
durch die gleiche IP-Adresse, den gleichen Browser-Typ und das gleiche Betriebssystem
identifiziert werden. Zur Session-Spezifikation werden häufig Timeout-Intervalle von 30
Minuten gewählt. Der Navigationspfad eines Benutzers kann bei Aufrufen einzelner Seiten
aus dem Cache durch einen Vergleich mit der Site-Struktur rekonstruiert werden.6
Des weiteren existieren verschiedene Mechanismen zur Session-Spezifikation:7
-
Cookies: Im Browser des Nutzers wird ein Cookie gesetzt, das bei jedem Request mit
übertragen wird, so dass das Tracking einer Session möglich ist.
-
URL Rewriting: Anhängen einer Session ID als zusätzlicher Parameter bei jeder
aufgerufenen URL, so dass bei jedem Request die Session ID mit protokolliert wird.
-
Java Applets: Übertragung spezieller Java Applets zum Nutzer, die neben einer Session
ID auch weitere nutzerspezifische Informationen übermitteln können. Hierbei ist die
explizite Einwilligung des Nutzers erforderlich.
2.4. Darstellung der Daten
Die auf diese Weise vorbereiteten Daten werden dann in Form deskriptiver Statistiken
dargestellt. Für die in der Problemformulierung definierten Kennzahlen werden für den
Berichtszeitraum Häufigkeitsverteilungen erstellt, die mit den Verteilungen der
Referenzperiode und der Referenzdomain verglichen werden können. Die Darstellung erfolgt
in tabellarischer und geeigneter grafischer Form. Ferner werden die in der
4
Vgl. Cooley et al. (1999), Srivastava et al. (2000).
Vgl. Stout (1997), S. 44.
6
Vgl. Wu et al. (1998) und Cooley et al. (1999).
7
Vgl. Cooley et al. (1999), Srivastava et al. (2000).
5
Problemformulierung definierten Parameter (arithmetisches Mittel, Median, Varianz,
Quartilsabstand, Schiefe etc.) berechnet.
2.5. Ausreißeranalyse
Auf Basis der Datendarstellung sind die Daten auf Ausreißer zu untersuchen. Häufig lassen
sich Ausreißer schon in der grafischen Darstellung erkennen.8 Zudem können zur
Identifizierung von Ausreißern z. B. die Ausreißerregel von Tukey oder die Tests von Grubbs
und Beck angewendet werden.9
Ist ein Ausreißer als solcher erkannt, sollte untersucht werden, ob es inhaltliche Gründe für
die Abweichung vorliegen. So kann eine besonders hohe Zahl von Visits an einem Tag durch
eine Kampagne verursacht worden sein. Umgekehrt kann eine sehr niedrige Zahl von Visits
durch Serverprobleme bedingt sein.
Eine Datenbereinigung durch Elimination von Extremwerten sollte aufgrund der vielfältigen
Einflußgrößen und der im Preprocessing-Schritt vorgenommenen Fehlerbereinigung nur sehr
selten notwendig sein. Vielmehr können in diesem Schritt besondere Auffälligkeiten entdeckt
werden. Zur Nivellierung oder Ausschaltung des Einflusses extremer Daten auf die
Berechnung der Parameter können robuste Parameter verwendet werden.10
2.6. Signifikanztests
Signifikanztests werden angewendet, um festzustellen, ob beobachtete Unterschiede im Zeitoder Domainvergleich signifikant sind oder in Zufallsschwankungen begründet liegen.
Hierbei werden die in der Phase der Problemformulierung aufgestellten Hypothesen auf ihre
Gültigkeit überprüft. Alternativ ist es auch möglich, für alle Kennzahlen Tests auf
Unterschiede zur Referenzperiode oder zur Referenzdomain durchzuführen.
Da hier, zumindest bei großen Web-Sites mit entsprechend hohem Traffic, von genügend
großen Stichprobenumfängen ausgegangen werden kann, kann die für viele Tests
erforderliche Voraussetzung der Normalverteilung als approximativ gültig angesehen werden.
Für Lageunterschiede kommt somit der approximative Zweistichproben-Gauß-Test zur
Anwendung. Wenn Unterschiede zwischen den Varianzen festgestellt werden sollen, kann der
Zweistichproben-F-Test eingesetzt werden. Für den Test auf unterschiedliche Anteile ist auch
die entsprechend standardisierte Differenz der Anteile als Prüfgröße approximativ
standardnormalverteilt.
Bei kleinen Stichprobenumfängen müssen die dafür entwickelten Signifikanztests angewendet
werden. Unter Umständen müssen hierzu das Vorliegen der Verteilungsannahmen durch
entsprechende Anpassungstests überprüft werden.11
2.7. Ergebnisinterpretation und Ableitung von Handlungsempfehlungen
Die Ergebnisse der Signifikanztests müssen für das Management einfach verständlich
aufbereitet und hinsichtlich ihrer Bedeutung interpretiert werden. Insbesondere werden hier
die Auswirkungen der in dem externen Kalender erfassten Ereignisse beschrieben. Ferner
können auch mögliche Ursachen aufgezeigt werden, aus denen sich dann unter Umständen
Handlungsempfehlungen ableiten lassen. Hierzu ist ein Verständnis der zugrundeliegenden
Marketing-Instrumente und deren Wirkungsweisen erforderlich.
8
Zur explorativen Datenanalyse siehe Tukey (1977).
Vgl. Tukey (1977), S. 43f. und Grubbs/Beck (1972).
10
Siehe Huber (1981), Hampel et al. (1986).
11
Siehe Lehmann (1986).
9
Unter Umständen stoßen gerade nicht signifikante Unterschiede auf Verständnis- oder sogar
Akzeptanzprobleme. Diese können in der Phase der Problemformulierung durch
entsprechende Hinweise und einem gemeinsamen Festlegen des Signifikanzniveaus mit dem
Management vermieden werden.
2.8. Reporting
Hier können grundsätzlich statische und dynamische Reports unterschieden werden.
Dynamische Reports ermöglichen dem Anwender, die Ergebnisse unter verschiedenen
Gesichtspunkten zu betrachten, eigene Ansichten zu definieren und so die Ergebnisse nach
zusätzlichen Kriterien zu analysieren. Als Ausgabeformate kommen sowohl die üblichen
Tabellenkalkulations- und Präsentationssoftware-Formate als auch HTML zum OnlineReporting in Frage. Ferner ist auch ein periodisches Reporting per email denkbar.
3. Anwendung bei Volkswagen
Im folgenden soll die Anwendung des im vorherigen Kapitel beschriebenen Ansatzes bei
Volkswagen dargestellt werden. Der Volkswagen-Konzern stellt sein Angebot auf insgesamt
26 unterschiedlichen Domains dar, die sowohl den Unternehmens-Gesamtauftritt als auch die
Auftritte einzelner Marken umfassen. Das Hosting der Web-Sites wird von BBDO Interactive
durchgeführt, so dass die Logfiles auch dort zur Verfügung stehen. Insgesamt fallen ca. 1 GB
Daten täglich in den Logfiles allein für die statischen Seiten an. Für die dynamischen Seiten
wird das Content Management-System Vignette Story Server verwendet. Die Logfiles des
CMS-Servers umfassen zwischen 3 und 7 GB täglich. Die mit diesem immensen
Datenvolumen verbundenen Schwierigkeiten sollen hier nicht weiter betrachtet werden.
Vielmehr soll der methodische Ansatz zur statistischen Analyse dieser Daten im Vordergrund
stehen.
3.1. Problemformulierung
Seitens des Auftraggebers Volkswagen bestand die Anforderung, über die zuvor zur
Verfügung gestellten deskriptiven Statistiken hinausgehend, die Ergebnisse zu interpretieren
und Erkenntnisse aus den Daten zu ziehen, aus denen Handlungsempfehlungen abgeleitet
werden können. Es soll also ein Informations- und Analyse-System erstellt werden, welches
den Erfolg der Web-Site ausweist und auf dessen Basis der Einsatz der MarketingInstrumente gesteuert werden kann. Aufgrund der Komplexität des zu erstellenden Systems
wurde eine dreiphasige Vorgehensweise gewählt.
In der ersten Phase wird unter Einsatz eines Statistik-Software-Pakets ein Analysesystem
erstellt, welches in standardisierter Form deskriptive Statistiken für fest definierte Kennzahlen
erstellt und diese mit Hilfe induktiver Methoden auf signifikante Unterschiede im Zeit- und
Domainvergleich untersucht. Diese Phase wird in den folgenden Abschnitten weiter
behandelt.
In der zweiten Phase soll dieses System unter Einsatz von Data Mining-Methoden
(Clusteranalyse, Sequenzanalyse) zur Definition unterschiedlicher Nutzergruppen und zur
Analyse von Mustern auf Zielgruppen- und Kategorie-Ebene12 erweitert werden. Auf dieser
Basis könnten dann Nutzer den unterschiedlichen Gruppen zugeordnet und personalisierte
Angebote auf der Web-Site eingestellt werden.
12
Kategorien sind Fahrzeugtypen oder andere inhaltliche Gruppen wie z. B. Technikkompetenz oder
Gebrauchtwagen.
Mittelfristig soll dieses System in der dritten Phase zu einem konzernweiten Customer
Relationship Management-System ausgebaut werden, in das die Kunden- und Absatzdaten
aus den traditionellen Vertriebskanälen mit einbezogen sind
Kern des Internet-Auftritts von Volkswagen ist der Car-Configurator, der eine individuelle
Konfiguration eines Fahrzeugs durch den Nutzer ermöglicht. Diese Konfiguration kann zu
einem VW-Vertriebshändler in der Region des Nutzers mit dem Wunsch einer
Terminvereinbarung oder Kontaktaufnahme geschickt werden. Volkswagen verfolgt das Ziel,
die Anzahl der versendeten Konfigurationen und somit den Absatz zu erhöhen.
Als Untersuchungszeiträume wurden Monate, Quartale und Jahre festgelegt. Zusätzlich soll
auch eine freie Zeiteingabe möglich sein. Die Daten sollen auf Tagesbasis zur Verfügung
stehen.
Für die Auswertung der Web Server Logfiles wurden die folgenden Kennzahlen festgelegt:
-
Visits
-
Pageviews (bei statischen Seiten)
-
Downloads (Dateitypen, Dateinamen)
-
Pageviews je Visit
-
Durchschnittliche Verweildauer je Visit
-
Pageviews je Domain
-
Pageviews je Browser
-
Pageviews je Operating System
-
Zugriffsverlauf/Uhrzeit
-
Zugriffsverlauf/Tagesvergleich
-
Einsprung-Adresse
-
Exit-Adresse
-
Transfervolumen (Bytes)
-
Registrierungen je Kategorie
-
Mailresponse je Kategorie
-
Visits je Händler
-
Conversion Rate für definierte Pfade (z. B. Homepage → Carline → Car Configurator
→ Mailversand)
Bei den dynamischen Abrufen sollen die folgenden Variablen erfasst werden:
Elemente
Abrufe einzelner Elemente (z. B. Textbausteine, Video, Bild)
Module
Abrufe mehrerer zu Modulen zusammengefasster Elemente
Seiten
Abrufe mehrerer zu Seiten zusammengefasster Module
Kategorie
Abrufe von Kategorien (z. B. Passat, Technikkompetenz)
Modulabrufe je Kategorie
Für den Car-Configurator sollen einige spezifische Kennzahlen ausgewertet werden:
-
Visits je Carline
-
Pageviews je Carline
-
Abgeschlossene Konfigurationen
-
Versandte Konfigurationen
-
Abgeschlossene Konfigurationen je Händler
-
Versandte Konfigurationen je Händler
-
Finanzierung je Konfiguration
Für die Verteilungen der Variablen sollen in den deskriptiven Statistiken die üblichen Lageund Streuungsparameter (arithmetisches Mittel, Median, Standardabweichung,
durchschnittliche Abweichung vom Median, Quartilsabstand etc.) berechnet werden.
Zur Feststellung von signifikanten Abweichungen im Zeit- und Domainvergleich werden
Hypothesen für Tests auf Lageunterschiede (unterschiedliche Erwartungswerte) zwischen den
jeweiligen Stichproben formuliert. Als Signifikanzniveau wird α = 0,01 festgelegt.
Zudem wird ein externer Kalender angelegt, in dem Termine von nicht-web-basierten Events
wie Messen, klassische Werbekampagnen oder Pressekonferenzen und web-basierten
Kampagnen (Banner etc.) zur Wirkungsanalyse auf die Web-Site eingetragen werden. Die
Hypothesen hierfür werden analog zum vorherigen Absatz formuliert.
3.2. Datenerhebung
Die Daten werden beim Web Server im Apache Combined Logfile Format protokolliert. Die
dynamischen Nutzeraktivitäten werden vom Vignette Story Server durch eine speziell dafür
entwickelte Software (NetGenesis) protokolliert.
3.3. Data Preprocessing
Irrelevante Einträge wie Non-Pages und fehlerhafte Abrufe sowie die aufgrund bestimmter
Browsertypen, IP-Adressen und Zugriffsmuster identifizierbaren Einträge von Robots,
Spiders und Administratoren werden eliminiert. Zur Session-Spezifikation werden Cookies
eingesetzt und der Mechanismus des URL Rewriting eingesetzt.
Einige Non-Pages hingegen werden erfasst, da hierunter Downloads im Rahmen von webbasierten Kampagnen fallen.
3.4. Darstellung der Daten
Die deskriptiven Statistiken für die in 3.1. beschriebenen Kennzahlen werden mit Hilfe eines
Statistik-Software-Pakets aus den aufbereiteten Daten generiert. Der Output wird über eine
Excel-Schnittstelle zur Darstellung im Reporting13 übergeben.
3.5. Ausreißeranalyse
Die Verteilungen der einzelnen Kennzahlen werden standardmäßig mit der Regel von Tukey
und den Tests von Grubbs und Beck14 auf Ausreißer untersucht. Wird ein Wert als Ausreißer
entdeckt, erfolgt eine Warnmeldung an den Anwender, der dann eine Ursachenanalyse
vornimmt. In der Regel führt dies zu einem entsprechenden Hinweis im Rahmen der
Ergebnisinterpretation.
13
14
Siehe 3.8.
Vgl. Tukey (1977), S. 43f. und Grubbs/Beck (1972).
3.6. Signifikanztests
Die Signifikanztests werden standardmäßig von einem Statistik-Software-Paket für die in 3.1.
formulierten Hypothesen durchgeführt. Aufgrund der sehr großen Stichprobenumfänge wird
der approximative Zweistichproben-Gauß-Test angewendet.
Für kleine Stichprobenumfänge wird, unter der Voraussetzung des Vorliegens einer
Normalverteilung, bei gleichen Varianzen der Zweistichproben-t-Test und bei
unterschiedlichen Varianzen der Welch-Test eingesetzt.
Die Voraussetzung wird durch den χ2-Anpassungstest überprüft. Wenn keine
Normalverteilung vorliegt, kann der Zeichentest zur Überprüfung von unterschiedlichen
Medianen in beiden Stichproben angewendet werden.
3.7. Ergebnisinterpretation und Ableitung von Handlungsempfehlungen
Aufgrund der Fülle der Ergebnisse wird die Interpretation auf folgende Fälle beschränkt:
-
Durch Signifikanztests aufgedeckte signifikante Unterschiede
-
Auswirkungen von im externen Kalender mitgeführten Events
-
Identifizierte Ausreißer
Daraus werden gemeinsam mit dem Marketing-Berater von BBDO Interactive mögliche
Handlungsempfehlungen erarbeitet und für das Management formuliert.
3.8. Reporting
Aufgrund unterschiedlicher Anwenderzielgruppen sind für bestimmte Teilbereiche jeweils
eigene Reports erforderlich. Zusätzlich ist aber auch eine Gesamtbetrachtung für die
Marketing- und Produktabteilungen bei VW erforderlich. Der Zugang zu den Reports wird
über ein Berechtigungsmodell ermöglicht. Alle Auswertungen sind über das Internet
passwort-geschützt abrufbar. Alle Daten und Grafiken sind deshalb in HTML abrufbar. Die
Analysen sind über die Web-Schnittstelle konfigurierbar, so dass individuelle Auswertungen
vorgenommen werden können.
Damit die Auswertungen in Präsentationen oder andere Systeme übernommen werden
können, sind die Daten im MS Excel-Format verfügbar.
Außerdem werden Reports mit den wesentlichen Ergebnissen und den Interpretationen sowie
daraus abgeleiteten Handlungsempfehlungen per email monatlich an einen definierten
Anwenderkreis versandt.
4. Ausblick
Das hier beschriebene, für einen Auftraggeber entwickelte System soll zu einem
Standardpaket umgebaut werden, um es weiteren Kunden von BBDO Interactive anzubieten.
Zum Zeitpunkt der Beendigung dieses Artikels war die erste Phase noch nicht abgeschlossen,
weshalb hier das methodische Vorgehen, aber noch keine Ergebnisse beschrieben werden
konnten. Mit der zweiten Phase, in der das System um Cluster- und Sequenzanalytische
Methoden erweitert werden soll, wird im Herbst 2001 begonnen. Der Ausbau zu einem CRMSystem in der dritten Phase ist für Mitte 2002 geplant. Als weitere Herausforderung wird die
Verknüpfung mit dem Controlling-System gesehen.
Literatur
– Berry/Linoff (2000): Berry, M. J. A.; Linoff, G. S.: Mastering Data Mining. The Art and
Science of Customer Relationship Management. Wiley, New York, 2000.
–
Cooley et al. (1997): Cooley, R.; Mobasher, B.; Srivastan, J.: Web Mining: Information
and Pattern Discovery on the World Wide Web.
http://maya.cs.depaul.edu/~mobasher/papers/webminer-tai97.ps.
– Cooley et al. (1999): Cooley, R.; Mobasher, B.; Srivastan, J.: Data Preparation for Mining
World Wide Web Browsing Patterns. In: Knowledge and Information Systems, Vol. 1,
No. 1, 1999, S. 5-32.
–
Gosney/Boehm (2000): Gosney, J. W.; Boehm, T. P.: Customer Relationship
Management Essentials. Prima Publishing, Roseville, CA, 2000.
– Grubbs/Beck (1972): Grubbs, F. E.; Beck, G.: Extension of sample sizes and percentage
points for significance tests of outlying observations. In: Technometrics, Vol. 14, 1972, S.
847-854.
–
Hampel et al. (1986): Hampel, F. R.; Ronchetti, E. M.; Rousseeuw, P. J.; Stakel, W. A.:
Robust Statistics. The Approach Based on Influence Functions. Wiley, New York, 1986.
– Huber (1981): Huber, P. J.: Robust Statistics. Wiley, New York, 1981.
– (Kosala/Blockeel (2000): Kosala, R.; Blockeel, H.: Web Mining Research: A Survey. In:
SIGKDD Explorations, Vol. 2, No. 1, 2000, S. 1-15.)
– Lehmann (1986): Lehmann, E. L.: Testing Statistical Hypotheses. 2. Aufl., Wiley, New
York, 1986.
– Srivastava et al. (2000): Srivastava, J.; Cooley, R.; Deshpande, M.; Tan, P.-N.: Web
Usage Mining: Discovery and Applications of Usage patterns from Web Data. In:
SIGKDD Explorations, Vol. 1, No. 2, 2000, S. 12-23.
–
Stout (1997): Stout, R.: Web Site Stats: Tracking Hits and Analyzing Traffic. Osborne,
Berkeley, 1997.
– Tukey (1977): Tukey, J. W.: Exploratory Data Analysis. Addison-Wesley, Reading,
Massachusetts, 1977.
– Wu et al. (1998): Wu, K.-L. ; Yu, P. S.; Ballman, A.: SpeedTracer: A Web Usage Mining
and Analysis Tool. In: IBM Systems Journal, Vol. 37, 1998, Issue 1, S. 89-105.