Nutzungsbezogene Analyse von Web-Sites mit
Transcrição
Nutzungsbezogene Analyse von Web-Sites mit
Nutzungsbezogene Analyse von Web-Sites mit induktiven statistischen Methoden in der Praxis Prof. Dr. Frank Dellmann Wirtschaftsmathematik und Statistik Fachhochschule Münster Corrensstr. 25 D-48149 Münster [email protected] 1. Problemstellung Im Zuge der rasanten Entwicklung des Internet und der Erkenntnis der sich daraus ergebenden wirtschaftlichen Möglichkeiten haben in den letzten Jahren immer mehr Unternehmen einen an ihre Kunden gerichteten Auftritt im Internet realisiert. Hierbei werden Ziele wie der verbesserte Einsatz von Marketing-Instrumenten und die Intensivierung der Kundenbeziehung verfolgt. Somit ist aber auch eine Wirkungsmessung des Einsatzes der Marketing-Instrumente im Internet erforderlich. Während die Controlling-Methoden zur Steuerung eines Unternehmens für die traditionellen Kommunikations- und Vertriebskanäle immer differenzierter wurden, sind häufig über den Internet-Auftritt keine oder nur sehr wenige Informationen vorhanden. Da das Internet immer mehr Gewicht in der Kommunikation mit den Kunden bekommt, besteht seitens der Unternehmen die Anforderung, Methoden zur Analyse der Nutzeraktivitäten auf der Unternehmens-Web-Site zur Verfügung zu haben. Die Daten der Nutzeraktivitäten auf einer Web-Site werden in Log Files des Web Servers oder des Application Servers aufgezeichnet. Einige Unternehmen erstellen aus den Log Files deskriptive Statistiken zu bestimmten Kennzahlen wie Visits, Pageviews oder Verweildauer und vergleichen diese für einen bestimmten Zeitraum zu einer Referenzperiode. In der Literatur wird mit Web Usage Mining die nutzungsbezogene Analyse der Daten, die während der Benutzung einer Web-Site anfallen, bezeichnet.1 Damit versteht man unter Web Usage Mining die Anwendung von Data Mining-Algorithmen auf diese Log Files.2 Diese zielen auf das Erkennen von Mustern und Zusammenhängen, die in den Daten verdeckt vorliegen, (Assoziationsanalyse, Sequenzanalyse, Pfadanalyse, Warenkorbanalyse, Clusteranalyse etc.) und münden letztlich in der Erstellung von Erklärungs- und Prognosemodellen (Regressionsanalyse, Diskriminanzanalyse, Entscheidungsbaumanalyse, Zeitreihenanalyse, Neuronale Netze etc.). Hier soll die statistische Analyse der Daten einer Web-Site etwas weiter gefasst werden, indem sie auf die Methoden der induktiven Statistik (Konfidenzintervalle, Parametertests, Anpassungstests, Unabhängigkeitstests, Varianzanalyse) ausgeweitet wird. Damit können beispielsweise signifikante Änderungen einer bestimmten Kennzahl zu einer Referenzperiode oder einer Referenz-Domain aufgezeigt werden. In diesem Beitrag wird ein Ansatz geschildert werden, der in einem Praxisprojekt zur Analyse der Log Files der Web-Sites des Volkswagen-Konzerns mittels induktiver statistischer Methoden angewendet wird. Das Unternehmen stellte die Anforderung zur Erstellung eines 1 2 Vgl. Cooley et al. (1997), S. 1. Zu Data Mining-Algorithmen siehe Berry/Linoff (2000). Informations- und Analysesystems, das über die Erstellung deskriptiver Statistiken hinausgeht und eine Interpretation der Ergebnisse liefert, auf deren Basis konkrete Handlungsempfehlungen abgeleitet werden können. Zukünftig soll dieses System in ein konzernweites Customer Relationship Management-System münden, in das die Kunden- und Absatzdaten aus den traditionellen Kanälen integriert sind.3 Mit der Erstellung eines solchen Systems wurde die BBDO Interactive GmbH beauftragt, die auch die Internet-Auftritte von Volkswagen erstellt hat. Mit dieser Agentur wurde der Ansatz entwickelt, der im nächsten Kapitel vorgestellt wird. Im dritten Kapitel wird die Anwendung des Ansatzes zur Analyse der Web-Sites von Volkswagen beschrieben. Das vierte Kapitel gibt einen Ausblick auf weitere Arbeiten. 2. Ansatz zur statistischen Analyse von Web-Sites Der Ansatz zur statistischen Analyse von Web-Sites mittels induktiver Methoden zielt auf die Erzielung von Erkenntnissen über den Erfolg einer Web-Site. Dies umfasst die Interpretation der in den Logfile Reports aufgeführten Kennzahlen im Zeit- oder Domainvergleich und die Ableitung konkreter Handlungsempfehlungen. Zum einen sollen signifikante Unterschiede von Kennzahlen im Zeit- oder Domainvergleich aufgedeckt werden. Zum anderen sollen die Auswirkungen des Einsatzes bestimmter Marketing-Instrumente auf die Aktivitäten auf der Web-Site analysiert werden. Dazu wird folgende Vorgehensweise gewählt: 1. Problemformulierung 2. Datenerhebung in Web Server Logfile und Application Server Logfiles 3. Data Preprocessing 4. Darstellung der Daten 5. Ausreißeranalyse 6. Signifikanztests (ggfs. Anpassungstests zur Überprüfung von Verteilungsannahmen) 7. Ergebnisinterpretation und Ableitung von Handlungsempfehlungen 8. Reporting 2.1. Problemformulierung In der Phase der Problemformulierung wird das Untersuchungsziel konkretisiert. Hierzu gehören die Festlegung der Untersuchungszeiträume (Monate, Wochen etc.), der Basisperiodizität der Daten (Tage, Stunden etc.), der Referenzdomains und der betrachteten Kennzahlen (Visits, Pageviews, Pageviews pro Visit, Verweildauer pro Visit, Clicks, Einsprung- und Exit-Adresse etc.) sowie der darauf berechneten Lage-, Streuungs- und ggfs. Schiefeparameter. Wenn der Einfluß spezifischer Marketing-Instrumente untersucht werden soll, müssen dafür die entsprechenden Hypothesen zur Durchführung der Signifikanztests formuliert und das Signifikanzniveau festgelegt werden. Ferner kann ein externer Kalender angelegt werden, in dem relevante Termine wie z. B. Messen, Kampagnen oder Events geführt werden, um Analysen für deren Auswirkung auf die Web-Site durchzuführen. 2.2. Datenerhebung Die Aktionen der Nutzer einer Web-Site werden in dem Web Server Logfile protokolliert. Dieser Logfile enthält, je nach Logfile-Format teils unterschiedliche, Informationen über die Zugriffe auf die Web-Site wie die IP-Adresse des Nutzers, die Zugriffszeit, die URL der 3 Zu Customer Relationship Management siehe z. B. Gosney/Boehm (2000). aufgerufenen Seite, den Statuscode (erfolgreicher Zugriff oder Fehler), die Anzahl übertragener Bytes etc. In jeder Zeile eines Logfile wird ein Zugriff auf die Web-Site protokolliert. Diese Informationen sollen für jede Session bzw. Nutzer aufbereitet werden. Mit der Datenerhebung im Web-Server Logfile sind aber einige Probleme verbunden:4 - Protokollierung irrelevanter Informationen: Non-Pages wie automatisch geladene Grafiken und fehlerhafte Aufrufe erzeugen einen eigenen Protokolleintrag. - Unvollständigkeit der protokollierten Aktivitäten infolge Aufrufe aus Caches. - Ungenügende User- bzw. Session-Spezifikation: Proxy-Server, Anonymisierung, dynamische IP-Adressen, Administratoren, Robots and Spiders. - Unzureichende Informationen über Aktionen des Nutzers auf dynamischen Seiten. Hierzu muß auf die Logfiles des jeweiligen Application Servers zurückgegriffen werden. Bei der Verwendung von Daten aus dem Web Server Logfile und dem Application Server Logfile ist die Zusammenführung gleicher Sessions entscheidend. 2.3. Data Preprocessing Einige der beschriebenen Probleme lassen sich im Preprocessing-Schritt beheben. So werden Einträge von Non-Pages und Einträge mit einem Status Code, der einen Fehler anzeigt, eliminiert. Zugriffe von Suchmaschinen können anhand des verwendeten Browsertyps identifiziert und entfernt werden.5 Die Zugriffe der Administratoren können anhand der i. d. R. bekannten IPAdresse eliminiert werden. Zur User- und Session-Spezifikation werden auch Heuristiken eingesetzt. So kann ein User durch die gleiche IP-Adresse, den gleichen Browser-Typ und das gleiche Betriebssystem identifiziert werden. Zur Session-Spezifikation werden häufig Timeout-Intervalle von 30 Minuten gewählt. Der Navigationspfad eines Benutzers kann bei Aufrufen einzelner Seiten aus dem Cache durch einen Vergleich mit der Site-Struktur rekonstruiert werden.6 Des weiteren existieren verschiedene Mechanismen zur Session-Spezifikation:7 - Cookies: Im Browser des Nutzers wird ein Cookie gesetzt, das bei jedem Request mit übertragen wird, so dass das Tracking einer Session möglich ist. - URL Rewriting: Anhängen einer Session ID als zusätzlicher Parameter bei jeder aufgerufenen URL, so dass bei jedem Request die Session ID mit protokolliert wird. - Java Applets: Übertragung spezieller Java Applets zum Nutzer, die neben einer Session ID auch weitere nutzerspezifische Informationen übermitteln können. Hierbei ist die explizite Einwilligung des Nutzers erforderlich. 2.4. Darstellung der Daten Die auf diese Weise vorbereiteten Daten werden dann in Form deskriptiver Statistiken dargestellt. Für die in der Problemformulierung definierten Kennzahlen werden für den Berichtszeitraum Häufigkeitsverteilungen erstellt, die mit den Verteilungen der Referenzperiode und der Referenzdomain verglichen werden können. Die Darstellung erfolgt in tabellarischer und geeigneter grafischer Form. Ferner werden die in der 4 Vgl. Cooley et al. (1999), Srivastava et al. (2000). Vgl. Stout (1997), S. 44. 6 Vgl. Wu et al. (1998) und Cooley et al. (1999). 7 Vgl. Cooley et al. (1999), Srivastava et al. (2000). 5 Problemformulierung definierten Parameter (arithmetisches Mittel, Median, Varianz, Quartilsabstand, Schiefe etc.) berechnet. 2.5. Ausreißeranalyse Auf Basis der Datendarstellung sind die Daten auf Ausreißer zu untersuchen. Häufig lassen sich Ausreißer schon in der grafischen Darstellung erkennen.8 Zudem können zur Identifizierung von Ausreißern z. B. die Ausreißerregel von Tukey oder die Tests von Grubbs und Beck angewendet werden.9 Ist ein Ausreißer als solcher erkannt, sollte untersucht werden, ob es inhaltliche Gründe für die Abweichung vorliegen. So kann eine besonders hohe Zahl von Visits an einem Tag durch eine Kampagne verursacht worden sein. Umgekehrt kann eine sehr niedrige Zahl von Visits durch Serverprobleme bedingt sein. Eine Datenbereinigung durch Elimination von Extremwerten sollte aufgrund der vielfältigen Einflußgrößen und der im Preprocessing-Schritt vorgenommenen Fehlerbereinigung nur sehr selten notwendig sein. Vielmehr können in diesem Schritt besondere Auffälligkeiten entdeckt werden. Zur Nivellierung oder Ausschaltung des Einflusses extremer Daten auf die Berechnung der Parameter können robuste Parameter verwendet werden.10 2.6. Signifikanztests Signifikanztests werden angewendet, um festzustellen, ob beobachtete Unterschiede im Zeitoder Domainvergleich signifikant sind oder in Zufallsschwankungen begründet liegen. Hierbei werden die in der Phase der Problemformulierung aufgestellten Hypothesen auf ihre Gültigkeit überprüft. Alternativ ist es auch möglich, für alle Kennzahlen Tests auf Unterschiede zur Referenzperiode oder zur Referenzdomain durchzuführen. Da hier, zumindest bei großen Web-Sites mit entsprechend hohem Traffic, von genügend großen Stichprobenumfängen ausgegangen werden kann, kann die für viele Tests erforderliche Voraussetzung der Normalverteilung als approximativ gültig angesehen werden. Für Lageunterschiede kommt somit der approximative Zweistichproben-Gauß-Test zur Anwendung. Wenn Unterschiede zwischen den Varianzen festgestellt werden sollen, kann der Zweistichproben-F-Test eingesetzt werden. Für den Test auf unterschiedliche Anteile ist auch die entsprechend standardisierte Differenz der Anteile als Prüfgröße approximativ standardnormalverteilt. Bei kleinen Stichprobenumfängen müssen die dafür entwickelten Signifikanztests angewendet werden. Unter Umständen müssen hierzu das Vorliegen der Verteilungsannahmen durch entsprechende Anpassungstests überprüft werden.11 2.7. Ergebnisinterpretation und Ableitung von Handlungsempfehlungen Die Ergebnisse der Signifikanztests müssen für das Management einfach verständlich aufbereitet und hinsichtlich ihrer Bedeutung interpretiert werden. Insbesondere werden hier die Auswirkungen der in dem externen Kalender erfassten Ereignisse beschrieben. Ferner können auch mögliche Ursachen aufgezeigt werden, aus denen sich dann unter Umständen Handlungsempfehlungen ableiten lassen. Hierzu ist ein Verständnis der zugrundeliegenden Marketing-Instrumente und deren Wirkungsweisen erforderlich. 8 Zur explorativen Datenanalyse siehe Tukey (1977). Vgl. Tukey (1977), S. 43f. und Grubbs/Beck (1972). 10 Siehe Huber (1981), Hampel et al. (1986). 11 Siehe Lehmann (1986). 9 Unter Umständen stoßen gerade nicht signifikante Unterschiede auf Verständnis- oder sogar Akzeptanzprobleme. Diese können in der Phase der Problemformulierung durch entsprechende Hinweise und einem gemeinsamen Festlegen des Signifikanzniveaus mit dem Management vermieden werden. 2.8. Reporting Hier können grundsätzlich statische und dynamische Reports unterschieden werden. Dynamische Reports ermöglichen dem Anwender, die Ergebnisse unter verschiedenen Gesichtspunkten zu betrachten, eigene Ansichten zu definieren und so die Ergebnisse nach zusätzlichen Kriterien zu analysieren. Als Ausgabeformate kommen sowohl die üblichen Tabellenkalkulations- und Präsentationssoftware-Formate als auch HTML zum OnlineReporting in Frage. Ferner ist auch ein periodisches Reporting per email denkbar. 3. Anwendung bei Volkswagen Im folgenden soll die Anwendung des im vorherigen Kapitel beschriebenen Ansatzes bei Volkswagen dargestellt werden. Der Volkswagen-Konzern stellt sein Angebot auf insgesamt 26 unterschiedlichen Domains dar, die sowohl den Unternehmens-Gesamtauftritt als auch die Auftritte einzelner Marken umfassen. Das Hosting der Web-Sites wird von BBDO Interactive durchgeführt, so dass die Logfiles auch dort zur Verfügung stehen. Insgesamt fallen ca. 1 GB Daten täglich in den Logfiles allein für die statischen Seiten an. Für die dynamischen Seiten wird das Content Management-System Vignette Story Server verwendet. Die Logfiles des CMS-Servers umfassen zwischen 3 und 7 GB täglich. Die mit diesem immensen Datenvolumen verbundenen Schwierigkeiten sollen hier nicht weiter betrachtet werden. Vielmehr soll der methodische Ansatz zur statistischen Analyse dieser Daten im Vordergrund stehen. 3.1. Problemformulierung Seitens des Auftraggebers Volkswagen bestand die Anforderung, über die zuvor zur Verfügung gestellten deskriptiven Statistiken hinausgehend, die Ergebnisse zu interpretieren und Erkenntnisse aus den Daten zu ziehen, aus denen Handlungsempfehlungen abgeleitet werden können. Es soll also ein Informations- und Analyse-System erstellt werden, welches den Erfolg der Web-Site ausweist und auf dessen Basis der Einsatz der MarketingInstrumente gesteuert werden kann. Aufgrund der Komplexität des zu erstellenden Systems wurde eine dreiphasige Vorgehensweise gewählt. In der ersten Phase wird unter Einsatz eines Statistik-Software-Pakets ein Analysesystem erstellt, welches in standardisierter Form deskriptive Statistiken für fest definierte Kennzahlen erstellt und diese mit Hilfe induktiver Methoden auf signifikante Unterschiede im Zeit- und Domainvergleich untersucht. Diese Phase wird in den folgenden Abschnitten weiter behandelt. In der zweiten Phase soll dieses System unter Einsatz von Data Mining-Methoden (Clusteranalyse, Sequenzanalyse) zur Definition unterschiedlicher Nutzergruppen und zur Analyse von Mustern auf Zielgruppen- und Kategorie-Ebene12 erweitert werden. Auf dieser Basis könnten dann Nutzer den unterschiedlichen Gruppen zugeordnet und personalisierte Angebote auf der Web-Site eingestellt werden. 12 Kategorien sind Fahrzeugtypen oder andere inhaltliche Gruppen wie z. B. Technikkompetenz oder Gebrauchtwagen. Mittelfristig soll dieses System in der dritten Phase zu einem konzernweiten Customer Relationship Management-System ausgebaut werden, in das die Kunden- und Absatzdaten aus den traditionellen Vertriebskanälen mit einbezogen sind Kern des Internet-Auftritts von Volkswagen ist der Car-Configurator, der eine individuelle Konfiguration eines Fahrzeugs durch den Nutzer ermöglicht. Diese Konfiguration kann zu einem VW-Vertriebshändler in der Region des Nutzers mit dem Wunsch einer Terminvereinbarung oder Kontaktaufnahme geschickt werden. Volkswagen verfolgt das Ziel, die Anzahl der versendeten Konfigurationen und somit den Absatz zu erhöhen. Als Untersuchungszeiträume wurden Monate, Quartale und Jahre festgelegt. Zusätzlich soll auch eine freie Zeiteingabe möglich sein. Die Daten sollen auf Tagesbasis zur Verfügung stehen. Für die Auswertung der Web Server Logfiles wurden die folgenden Kennzahlen festgelegt: - Visits - Pageviews (bei statischen Seiten) - Downloads (Dateitypen, Dateinamen) - Pageviews je Visit - Durchschnittliche Verweildauer je Visit - Pageviews je Domain - Pageviews je Browser - Pageviews je Operating System - Zugriffsverlauf/Uhrzeit - Zugriffsverlauf/Tagesvergleich - Einsprung-Adresse - Exit-Adresse - Transfervolumen (Bytes) - Registrierungen je Kategorie - Mailresponse je Kategorie - Visits je Händler - Conversion Rate für definierte Pfade (z. B. Homepage → Carline → Car Configurator → Mailversand) Bei den dynamischen Abrufen sollen die folgenden Variablen erfasst werden: Elemente Abrufe einzelner Elemente (z. B. Textbausteine, Video, Bild) Module Abrufe mehrerer zu Modulen zusammengefasster Elemente Seiten Abrufe mehrerer zu Seiten zusammengefasster Module Kategorie Abrufe von Kategorien (z. B. Passat, Technikkompetenz) Modulabrufe je Kategorie Für den Car-Configurator sollen einige spezifische Kennzahlen ausgewertet werden: - Visits je Carline - Pageviews je Carline - Abgeschlossene Konfigurationen - Versandte Konfigurationen - Abgeschlossene Konfigurationen je Händler - Versandte Konfigurationen je Händler - Finanzierung je Konfiguration Für die Verteilungen der Variablen sollen in den deskriptiven Statistiken die üblichen Lageund Streuungsparameter (arithmetisches Mittel, Median, Standardabweichung, durchschnittliche Abweichung vom Median, Quartilsabstand etc.) berechnet werden. Zur Feststellung von signifikanten Abweichungen im Zeit- und Domainvergleich werden Hypothesen für Tests auf Lageunterschiede (unterschiedliche Erwartungswerte) zwischen den jeweiligen Stichproben formuliert. Als Signifikanzniveau wird α = 0,01 festgelegt. Zudem wird ein externer Kalender angelegt, in dem Termine von nicht-web-basierten Events wie Messen, klassische Werbekampagnen oder Pressekonferenzen und web-basierten Kampagnen (Banner etc.) zur Wirkungsanalyse auf die Web-Site eingetragen werden. Die Hypothesen hierfür werden analog zum vorherigen Absatz formuliert. 3.2. Datenerhebung Die Daten werden beim Web Server im Apache Combined Logfile Format protokolliert. Die dynamischen Nutzeraktivitäten werden vom Vignette Story Server durch eine speziell dafür entwickelte Software (NetGenesis) protokolliert. 3.3. Data Preprocessing Irrelevante Einträge wie Non-Pages und fehlerhafte Abrufe sowie die aufgrund bestimmter Browsertypen, IP-Adressen und Zugriffsmuster identifizierbaren Einträge von Robots, Spiders und Administratoren werden eliminiert. Zur Session-Spezifikation werden Cookies eingesetzt und der Mechanismus des URL Rewriting eingesetzt. Einige Non-Pages hingegen werden erfasst, da hierunter Downloads im Rahmen von webbasierten Kampagnen fallen. 3.4. Darstellung der Daten Die deskriptiven Statistiken für die in 3.1. beschriebenen Kennzahlen werden mit Hilfe eines Statistik-Software-Pakets aus den aufbereiteten Daten generiert. Der Output wird über eine Excel-Schnittstelle zur Darstellung im Reporting13 übergeben. 3.5. Ausreißeranalyse Die Verteilungen der einzelnen Kennzahlen werden standardmäßig mit der Regel von Tukey und den Tests von Grubbs und Beck14 auf Ausreißer untersucht. Wird ein Wert als Ausreißer entdeckt, erfolgt eine Warnmeldung an den Anwender, der dann eine Ursachenanalyse vornimmt. In der Regel führt dies zu einem entsprechenden Hinweis im Rahmen der Ergebnisinterpretation. 13 14 Siehe 3.8. Vgl. Tukey (1977), S. 43f. und Grubbs/Beck (1972). 3.6. Signifikanztests Die Signifikanztests werden standardmäßig von einem Statistik-Software-Paket für die in 3.1. formulierten Hypothesen durchgeführt. Aufgrund der sehr großen Stichprobenumfänge wird der approximative Zweistichproben-Gauß-Test angewendet. Für kleine Stichprobenumfänge wird, unter der Voraussetzung des Vorliegens einer Normalverteilung, bei gleichen Varianzen der Zweistichproben-t-Test und bei unterschiedlichen Varianzen der Welch-Test eingesetzt. Die Voraussetzung wird durch den χ2-Anpassungstest überprüft. Wenn keine Normalverteilung vorliegt, kann der Zeichentest zur Überprüfung von unterschiedlichen Medianen in beiden Stichproben angewendet werden. 3.7. Ergebnisinterpretation und Ableitung von Handlungsempfehlungen Aufgrund der Fülle der Ergebnisse wird die Interpretation auf folgende Fälle beschränkt: - Durch Signifikanztests aufgedeckte signifikante Unterschiede - Auswirkungen von im externen Kalender mitgeführten Events - Identifizierte Ausreißer Daraus werden gemeinsam mit dem Marketing-Berater von BBDO Interactive mögliche Handlungsempfehlungen erarbeitet und für das Management formuliert. 3.8. Reporting Aufgrund unterschiedlicher Anwenderzielgruppen sind für bestimmte Teilbereiche jeweils eigene Reports erforderlich. Zusätzlich ist aber auch eine Gesamtbetrachtung für die Marketing- und Produktabteilungen bei VW erforderlich. Der Zugang zu den Reports wird über ein Berechtigungsmodell ermöglicht. Alle Auswertungen sind über das Internet passwort-geschützt abrufbar. Alle Daten und Grafiken sind deshalb in HTML abrufbar. Die Analysen sind über die Web-Schnittstelle konfigurierbar, so dass individuelle Auswertungen vorgenommen werden können. Damit die Auswertungen in Präsentationen oder andere Systeme übernommen werden können, sind die Daten im MS Excel-Format verfügbar. Außerdem werden Reports mit den wesentlichen Ergebnissen und den Interpretationen sowie daraus abgeleiteten Handlungsempfehlungen per email monatlich an einen definierten Anwenderkreis versandt. 4. Ausblick Das hier beschriebene, für einen Auftraggeber entwickelte System soll zu einem Standardpaket umgebaut werden, um es weiteren Kunden von BBDO Interactive anzubieten. Zum Zeitpunkt der Beendigung dieses Artikels war die erste Phase noch nicht abgeschlossen, weshalb hier das methodische Vorgehen, aber noch keine Ergebnisse beschrieben werden konnten. Mit der zweiten Phase, in der das System um Cluster- und Sequenzanalytische Methoden erweitert werden soll, wird im Herbst 2001 begonnen. Der Ausbau zu einem CRMSystem in der dritten Phase ist für Mitte 2002 geplant. Als weitere Herausforderung wird die Verknüpfung mit dem Controlling-System gesehen. Literatur – Berry/Linoff (2000): Berry, M. J. A.; Linoff, G. S.: Mastering Data Mining. The Art and Science of Customer Relationship Management. Wiley, New York, 2000. – Cooley et al. (1997): Cooley, R.; Mobasher, B.; Srivastan, J.: Web Mining: Information and Pattern Discovery on the World Wide Web. http://maya.cs.depaul.edu/~mobasher/papers/webminer-tai97.ps. – Cooley et al. (1999): Cooley, R.; Mobasher, B.; Srivastan, J.: Data Preparation for Mining World Wide Web Browsing Patterns. In: Knowledge and Information Systems, Vol. 1, No. 1, 1999, S. 5-32. – Gosney/Boehm (2000): Gosney, J. W.; Boehm, T. P.: Customer Relationship Management Essentials. Prima Publishing, Roseville, CA, 2000. – Grubbs/Beck (1972): Grubbs, F. E.; Beck, G.: Extension of sample sizes and percentage points for significance tests of outlying observations. In: Technometrics, Vol. 14, 1972, S. 847-854. – Hampel et al. (1986): Hampel, F. R.; Ronchetti, E. M.; Rousseeuw, P. J.; Stakel, W. A.: Robust Statistics. The Approach Based on Influence Functions. Wiley, New York, 1986. – Huber (1981): Huber, P. J.: Robust Statistics. Wiley, New York, 1981. – (Kosala/Blockeel (2000): Kosala, R.; Blockeel, H.: Web Mining Research: A Survey. In: SIGKDD Explorations, Vol. 2, No. 1, 2000, S. 1-15.) – Lehmann (1986): Lehmann, E. L.: Testing Statistical Hypotheses. 2. Aufl., Wiley, New York, 1986. – Srivastava et al. (2000): Srivastava, J.; Cooley, R.; Deshpande, M.; Tan, P.-N.: Web Usage Mining: Discovery and Applications of Usage patterns from Web Data. In: SIGKDD Explorations, Vol. 1, No. 2, 2000, S. 12-23. – Stout (1997): Stout, R.: Web Site Stats: Tracking Hits and Analyzing Traffic. Osborne, Berkeley, 1997. – Tukey (1977): Tukey, J. W.: Exploratory Data Analysis. Addison-Wesley, Reading, Massachusetts, 1977. – Wu et al. (1998): Wu, K.-L. ; Yu, P. S.; Ballman, A.: SpeedTracer: A Web Usage Mining and Analysis Tool. In: IBM Systems Journal, Vol. 37, 1998, Issue 1, S. 89-105.