Web Usage Mining und die damit verbundenen
Transcrição
Web Usage Mining und die damit verbundenen
Bakkalaureatsarbeit Web Usage Mining und die damit verbundenen Konflikte mit Benutzerinteressen und dem österreichischen Rechtsrahmen Web Usage Mining and its conflicts with the interests of users and the Austrian law Abteilung für Informationswirtschaft, SS 2005 Lukas Helm Matr. Nr.: 0251677 Telefon: +43 6991 171 48 46 E-Mail: [email protected] Wirtschaftsuniversität Wien Augasse 2-6 A-1090 Wien, AUSTRIA -1- Web Usage Mining und die damit verbundenen Konflikte mit Benutzerinteressen und dem österreichischen Rechtsrahmen Web Usage Mining and its conflicts with the interests of users and the Austrian law Stichworte: Web Usage Mining, Personalisierung, Datenschutz, österreichisches Datenschutzgesetz, Anonymität, Benutzerinteressen, Platform of Privacy Preferences (P3P) Keywords: Web Usage Mining, personalization, privacy, Austrian Data Protection Act, anonymity, user’s interests, Platform of Privacy Preferences (P3P) Zusammenfassung Im Rahmen der vorliegenden Bakkalaureatsarbeit wird zu Beginn das Web Mining allgemein und im Folgenden das Web Usage Mining im Speziellen beleuchtet. Dabei wird auf die einzelnen Schritte und die Techniken eingegangen und besonderes Augenmerk wird auf die Arten von Daten und deren Erhebung gelegt. Außerdem werden die Anwendungsmöglichkeiten des Web Usage Mining dargestellt. Danach werden die rechtlichen Rahmenbedingungen in Österreich und die Interessen der Benutzer untersucht. Speziell geht es dabei um österreichische und europäische Rechtsvorschriften sowie Benutzerbefragungen, die Relevanz für das Web Usage Mining besitzen. Schließlich wird analysiert, welche Konsequenzen sich aus dem Rechtsrahmen und den Benutzerinteressen für das Web Usage Mining ergeben. Auch Perspektiven werden aufgezeigt, wobei besonders auf die „Platform of Privacy Preferences“ eingegangen wird. Abstract This paper is dealing with the topic Web Mining and puts a detailed focus on Web Usage Mining. The different steps of the Web Usage Mining process as well as the variable types of data and their types of survey are analysed. Furthermore, the applications of Web Usage Mining are described. The judicial conditions of Austria and the preferences of users are presented. Special importance gain the Austrian and European judicial standards as well as user’s opinion polls which are relevant for Web Usage Mining. Finally, an analysis shows how the judicial conditions and the user preferences influence Web Usage Mining, finishing with a prospect and an introduction to the “Platform of Privacy Preferences”. -2- Kernpunkte für das Management Web Usage Mining ist eine Technik im Internet, die Betreibern von Onlinediensten viele Möglichkeiten bietet, ihre Sites effizienter zu gestalten. Die Analyse von Nutzungsdaten bietet eine Reihe von Erkenntnissen, um den Webauftritt besser zu gestalten. • Die Struktur einer Site kann den Nutzerinteressen mit Hilfe von explizit oder implizit gewonnenen Informationen besser angepasst werden. • Maßnahmen zur Personalisierung einer Site können getroffen werden. Das kann positive Effekte auf die Kundenbindung haben. • Die gewonnenen Daten können als wichtige Ergänzung zu den übrigen Marketingdaten dienen. • Die Zusammenarbeit mit Kunden ist nicht immer einfach, da Schutzinteressen im Bezug auf deren persönliche Daten bestehen. In Zukunft könnte die P3P-Plattform des W3C dem Abhilfe schaffen. -3- Inhaltsverzeichnis INHALTSVERZEICHNIS................................................................................................................................... 4 1 EINFÜHRUNG............................................................................................................................................ 6 1.1 DATA MINING 6 1.2 WEB MINING 1.2.1 Web Content Mining 1.2.2 Web Structure Mining 1.2.3 Web Usage Mining 2 WEB USAGE MINING .............................................................................................................................. 8 2.1 3 4 6 7 7 7 WEB USAGE MINING PROZESS 8 2.2 PREPROCESSING 2.2.1 Webdaten 2.2.2 Data Cleaning 2.2.3 Transaction Identification 2.2.4 Zusätzliche Datenquellen (Integrated Web Usage Mining) 2.2.5 Data Integration 9 9 11 11 12 13 2.3 PATTERN DISCOVERY 2.3.1 Pfadanalyse 2.3.2 Assoziationsregeln 2.3.3 Sequenzielle Muster 2.3.4 Clustering, Klassifikation 14 14 14 14 14 2.4 15 PATTERN ANALYSIS 2.5 NUTZEN DES WEB USAGE MINING 2.5.1 Personalisierung 2.5.2 Systemverbesserung 2.5.3 Site-Modifizierung 2.5.4 Business Intelligence 15 15 16 16 16 2.6 16 BEISPIEL: WEB SITE INFORMATION FILTER SYSTEM (WEBSIFT) ÖSTERREICHISCHER UND EUROPÄISCHER RECHTSRAHMEN ............................................. 18 3.1 DEFINITION DES INFORMATIONSBEGRIFFS 18 3.2 SCHUTZ DER PRIVATSPHÄRE 18 3.3 EUROPARECHTLICHER RAHMEN 3.3.1 Artikel 8 Europäische Menschenrechtskonvention (EMRK) 3.3.2 Europäische Datenschutzrichtlinie 19 19 19 3.4 DATENSCHUTZRECHT 3.4.1 Definitionen 3.4.2 Datenverwendung 3.4.3 Informationspflichten 3.4.4 Rechte des Betroffenen 3.4.5 Datenschutzorgane, Anwendbarkeit des Rechts 19 20 20 21 21 22 USERINTERESSEN ................................................................................................................................. 23 4.1 ANONYMITÄT IM INTERNET 23 4.2 STUDIEN 4.2.1 Persönliche Informationen 24 24 -4- 4.2.2 4.2.3 4.2.4 4.3 5 Persönliche Daten im gewerblichen Kontext Cookies Sicherheit im Bezug auf Personalisierung ZUSAMMENFASSUNG 24 24 24 25 ANALYSE.................................................................................................................................................. 26 5.1 KONFLIKTE MIT DEM RECHTSRAHMEN 5.1.1 Web Usage Mining und personenbezogene Daten 26 26 5.2 KONFLIKTE MIT USERINTERESSEN 5.2.1 Persönliche Informationen 5.2.2 Cookies 27 27 28 5.3 PERSPEKTIVEN 5.3.1 Platform of Privacy Prferences (P3P) 28 28 6 RESÜMEE ................................................................................................................................................. 31 7 QUELLENVERZEICHNIS...................................................................................................................... 32 -5- 1 Einführung Web Mining ist definitionsgemäß die Anwendung von Data Mining Techniken, um nützliche Informationen aus dem Internet zu gewinnen und zu analysieren. [KoBl00] 1.1 Data Mining „Als Data Mining […] bezeichnet man die softwaregestützte Ermittlung bisher unbekannter Zusammenhänge, Muster und Trends aus dem Datenbestand sehr großer Datenbanken beziehungsweise des Data Warehouse“ [HaNe01, S.474] Die meisten Verfahren des Data Mining kommen aus der klassischen Statistik, allerdings werden mittlerweile auch Techniken verwendet, die künstliche Intelligenz zu Hilfe nehmen. So kann etwa die Analyse von Verkaufszahlen mit Hilfe von Data Mining Techniken zu Erkenntnissen über das Benutzerverhalten oder neue Trends verhelfen. Oft ist solches Wissen mit herkömmlichen Abfragesprachen nicht herleitbar, da entweder Benutzerwissen über die Daten fehlt oder die Datenmengen zu groß sind. Im Zeitalter des Electronic Commerce werden viele Daten über die Kunden gesammelt, die wertvolle Hinweise für eine erfolgreiche Kundenbeziehung enthalten können. [vgl. HaNe01] 1.2 Web Mining Web Mining versucht, die Analysemethoden des Data Mining auf die im Internet vorhandenen Daten anzuwenden. Im Internet bestehen unterschiedliche Datenkategorien: [vgl. SCDT00] • • • Inhalt (Content): Content sind die tatsächlichen, informationshaltigen Daten in Websites und bestehen meist aus Text und Grafiken. Struktur (Structure): Die Struktur von Websites beschreibt die logischen Zusammenhänge zwischen Dokumenten sowie deren Organisation. Diese Zusammenhänge können mittels der im Web gebräuchlichen Hyperlinks untersucht werden. Nutzung (Usage / User Profile): Usage beschreibt das Nutzerverhalten von Usern der Website, während User Profile demografische Informationen über diese enthält. Je nachdem, welche Daten verarbeitet und analysiert werden sollen, ergeben sich aus den Datenkategorien drei verschiedene Richtungen des Web Mining: Abb. 1: Einteilung des Web Mining -6- 1.2.1 Web Content Mining Web Content Mining beschäftigt sich mit dem Auffinden relevanter Informationen und Dokumente im Web. Die fehlende Struktur im Internet macht das Auffinden von Informationen allerdings schwierig. Suchmaschinen erleichtern zwar den Prozess des Suchens, können aber weder strukturierte Information anbieten noch Dokumente interpretieren. Dieser Zustand gibt Forschern den Anstoß, neue Methoden zur Auffindung von Information im Internet zu entwickeln. [vgl. CoMS97] 1.2.1.1 Agents Agents können miteinander interagieren und funktionieren unabhängig von jeder menschlichen Kontrolle. Es werden drei Kategorien von Web Agents unterschieden: • • • Intelligent Search Agents (ISA): ISAs sollen gefundene Informationen organisieren und interpretieren können. Sie sollen selbständig über die Struktur von noch unbekannten Informationsquellen dazulernen können. Information Filtering/Categorization: Auf Grundlage von Linkstrukturen und dem Inhalt von Dokumenten werden Gruppenhierarchien erstellt und so die vorhandene Information strukturiert. Personlized Web Agents: Diese Agents filtern Information auf Grundlage der Präferenzen eines Users, die sie dann mit anderen Benutzern vergleichen. 1.2.1.2 Database Approach Hier sollen semi-strukturierte Daten im Internet strukturierter organisiert werden, um dann mittels Datenbankabfragesprachen einfach darauf zugreifen zu können. Data Mining Techniken können zur Analyse angewandt werden. 1.2.2 Web Structure Mining Forschungsgegenstand ist im Bereich des Web Structure Mining die Linkstruktur innerhalb des gesamten Internets. Aus der Linkstruktur sollen dann Erkenntnisse über den Inhalt gewonnen werden. Mit diesen Informationen erhofft man sich, effizienteres Web Mining betreiben zu können. Es wird außerdem versucht, Websites zu Typen zusammenzufassen. Die Effizienz von Suchmaschinen kann entscheidend verbessert werden. Ein Beispiel für Web Structure Mining ist das PageRank Verfahren. [Schn04] Dabei wird analysiert, wie viele Links auf welche Site verweisen. Ist diese Zahl hoch, wird von einer größeren Relevanz der Website ausgegangen. Praktische Anwendung findet dieses Verfahren bei der Suchmaschine Google. 1.2.3 Web Usage Mining Beim Web Usage Mining geht es darum, Daten über das Verhalten von Benutzern einer Website zu gewinnen und zu analysieren. Eine genauere Beschreibung folgt in Kapitel 4. -7- 2 Web Usage Mining „Web usage mining is the automatic discovery of user access patterns from web servers.“ [CoMS97] “Web usage mining focuses on techniques that could predict user behaviour while the user interacts with the Web.” [KoBl00] Wie schon in den obigen Definitionen erwähnt, versucht das Web Usage Mining, Benutzerverhalten im Web unter Anwendung von Data Mining Techniken zu analysieren und so auf zukünftige Verhaltensweisen zu schließen. Dabei werden bei der Interaktion sekundäre Daten gewonnen. Die Daten können dabei entweder auf Ebene des Servers, eines Proxys oder direkt beim Webbrowser gesammelt werden. Durch die Sammlung und Auswertung von solchen Transaktionsdaten wird die Personalisierung von Websites ermöglicht. So können beispielsweise persönlich abgestimmte Werbebotschaften übermittelt werden. Durch die Anwendung dieser Techniken kann auch der Erfolg einer Seite besser gemessen und die Marketingstrategie effizienter abgestimmt werden. 2.1 Web Usage Mining Prozess Der Prozess des Web Usage Mining kann grob in drei Phasen eingeteilt werden: • • • Preprocessing Pattern Discovery Pattern Analysis Abb. 2: Architektur des Web Usage Mining [CoMS97] Wie in Abb.2 dargestellt, ergeben sich speziell im Bereich des Preprocessing diverse Subprozesse. Auf den Prozess des Web Usage Mining und die verwendeten Techniken soll im folgenden Abschnitt genauer eingegangen werden. -8- 2.2 Preprocessing Die Phase des Preprocessing soll für die Analyse notwendige Daten erfassen und in eine geeignete Abstraktionsebene bringen. Dabei muss entschieden werden, welche Art der Daten gesammelt wird und wie diese am besten für eine Analyse gespeichert und aufgearbeitet werden können. 2.2.1 Webdaten Je nachdem, welche Daten verwendet werden, kann zwischen Web Log Mining und Integrated Web Usage Mining unterschieden werden. Wenn sich die Analyse der Verhaltensdaten auf Logfiles beschränkt, spricht man von Web Log Mining. Werden dabei noch zusätzliche Datenquellen herangezogen, handelt es sich um Integrated Web Usage Mining. Abb. 3: Unterteilung des Web Usage Mining Daten können auf unterschiedlichen Ebenen gesammelt werden. Im Folgenden werden die Datenkategorien für das Web Log Mining genauer beschrieben. [vgl. HiMW02, S.9ff] 2.2.1.1 Logfiles Ein Webserver erzeugt während der Interaktion mit einem Benutzer die so genannten Logfiles. In diese Logfiles werden sämtliche Anfragen der unterschiedlichen Benutzer automatisch vom Server eingetragen, ohne dass es für den Nutzer wahrnehmbar ist. [O.A.a] So können die eingegangenen Anfragen sehr einfach ermittelt werden. Es wird beispielsweise gespeichert, von welcher IP-Adresse aus welche Inhalte angefragt wurden, welcher Webbrowser dafür benutzt wurde oder welche Fehler dabei auftraten. Unterschieden wird hier zwischen Access Logfiles und Error Logfiles. Das Acces Logfile protokolliert Zugriffe während das Error Logfile Zugriffsfehler protokolliert. Jedes Element einer Seite wird mitprotokolliert. Ein Logfileeintrag ist also nicht eine ganze Internetseite, sondern es wird beispielsweise für jedes Bild, das zum Seitenaufbau notwendig ist, ein eigener Logfileeintrag erstellt. Es existieren unter Anderem folgende Logfile-Formate: • • • • • Common Logfile Format Combined Logfile Format NCSA Common Format W3C Extended Format Microsoft IIS Format -9- Das Common Logfile Format (CLF) ist das älteste und einfachste Logfile-Format und wird von allen Webservern unterstützt. [vgl. Brue o.J.] Ein Logfile im Combined Logfile Format könnte beispielsweise so aussehen: 213.14.56.64 - - [16/Jun/2005:10:30:07 +0100] “GET /homepage/pages/ HTTP/1.1” 200 3829 “http://www.beispiel.com/” “Mozilla/4.08 [de] C-DT (WinNT; I)” Die Erklärung der einzelnen Elemente befindet sich in Tabelle 1. Eintrag 213.14.56.64 -- [16/Jun/2005:10:30:07 +0100] “GET /homepage/bild.gif HTTP/1.1” 200 3829 “http://www.beispiel.com/” “Mozilla/4.08 [de] C-DT (WinNT; I)” Beschreibung IP-Adresse des Anfragenden Wenn der Benutzer auf dem System eingeloggt ist, sieht man hier den Usernamen Datum:Uhrzeit [+|-]Zeitverschiebung Anforderung einer Datei Statusnummer (200 = erfolgreiche Abfrage Menge der gesendeten Byte Internetseite, von der die Anforderung kommt Browser, Betriebssystem des Benutzers Tabelle 1: Elemente eines Logfiles [vgl. ErLe04] Logfiles sind die am häufigsten verwendete Datenquelle für das Web Usage Mining, da sie günstig und einfach zu erheben sind. 2.2.1.2 Cookies Cookies sind Dateien, die der Webserver auf dem Rechner des Benutzers anlegt. Meistens ist dies eine Textdatei, die den Besucher bei nachfolgenden Transaktionen identifiziert. Cookies können temporär für die Dauer eines Aufenthalts oder dauerhaft vergeben werden, sie bleiben also auch nach Beenden der Internetverbindung auf dem Benutzerrechner gespeichert. Im Sinne des Web Usage Mining ist diese „persistente“ Abspeicherung vorteilhaft, da die Nutzer beim nächsten Besuch wiedererkannt werden können. Allerdings ist die Vergabe von Cookies vom guten Willen des Users abhängig, da er diese in den Einstellungen des Webbrowsers leicht blockieren kann. Cookies haben den Vorteil, dass sie eine vom Benutzer völlig unbemerkte Identifizierung ermöglichen. Sie wurden allerdings auch schon von Websites missbraucht, weshalb einige User Cookies nicht zulassen oder diese löschen. 2.2.1.3 Weitere Datenquellen Eine Reihe weiterer Datenquellen kommen für das Web Usage Mining in Frage: [vgl. HiMW02, S.9ff] • Server Monitor / Server Plug-In Server Monitore werden als Server Plug-Ins realisiert und sind dadurch in der Lage, alle serverseitigen Ereignisse aufzuzeichnen. Der Vorteil besteht darin, dass die Daten sofort in ein Data Warehouse übertragen und ausgewertet werden können. - 10 - • • • • Network Monitor / Packet Sniffer Der Network Monitor, auch Packet Sniffer genannt, sammelt die TCP/IP Pakete, die zwischen Benutzer und Webserver verschickt werden. Auch er schickt die Daten direkt an die Datenbank weiter. Dynamische Seitenprogrammierung Für die Analyse von Userverhalten auf dynamisch generierten Websites sind Tools notwendig, die die übergebenen Parameter aus der URL auslesen können. Reverse Proxy Monitor Der Kommunikationsstrom zwischen Client und Webserver wird gefiltert, zusätzliche Informationen wie beispielsweise CGI-Parameter können erhoben werden. Application Monitor Application Server liefern die Inhalte in komplexen Websites und können dadurch detailliert Auskunft über die abgerufenen Seiten liefern. Besonders interessant sind etwa der Kauf von Produkten, die Betrachtung der Werbung oder das Einfügen von Waren in den Warenkorb. 2.2.2 Data Cleaning Data Cleaning beschäftigt sich damit, Fehler und Inkonsistenzen in Daten zu entdecken und zu entfernen, um die Datenqualität zu verbessern. Grund für solche Inkonsistenzen können fehlende oder fehlerhafte Daten sein. Je größer ein System ist, desto wichtiger wird das Data Cleaning um Datenredundanz zu vermeiden. [RaDo o.J.] Im Bereich Web Usage Mining bedeutet das, dass irrelevante Logfile-Einträge gelöscht werden müssen. Erkannt werden irrelevante Einträge an der URL, beispielsweise können Bilder als irrelevant erachtet werden. Wichtig ist, dass die Logfile-Einträge zu Seiten integriert werden. Jedes Element, aus dem eine Seite besteht, wird als eigener Logfile-Eintrag festgehalten. Diese vielen Einträge müssen zu Hits zusammengefasst werden, um eine sinnvolle Weiterverarbeitung zu ermöglichen. Zusätzlich sollen nur solche Einträge erfasst werden, die eine erfolgreiche Übertragung aufweisen. Schwieriger ist es, wichtige Zugriffe zu erheben, die nicht erfasst wurden. Caches und Proxy Server können das Bild der Benutzerinteraktionen verzerren. Eine Seite, die nur einmal im Logfile aufscheint, könnte mehrmals von mehreren Usern abgerufen worden sein. Es existieren verschiedene Vorschläge zur Lösung dieser Probleme, die allerdings alle mit Schwierigkeiten zu kämpfen haben. [vgl. Pitk97] 2.2.3 Transaction Identification Bevor der Mining-Prozess stattfinden kann, werden logische Einheiten gebildet, die eine Transaktion oder User-Session abbilden. Eine Session beinhaltet alle Seitenaufrufe eines Benutzers während eines einzelnen Seitenaufenthalts. 2.2.3.1 Identifikation von Sessions Die vollständigen Bewegungspfade von Benutzern sollen im Rahmen der Identifikation von User-Sessions nachvollzogen werden. Die einzelnen Seitenaufrufe werden vom Server im Logfile zunächst als unabhängige Vorgänge abgespeichert. Unter einer Session versteht man eine Abfolge von Seitenaufrufen, die von einem einzelnen Benutzer während eines Besuchs gemacht wurden. [CoMS97] Im Vorfeld ist es möglich, Session-IDs zu vergeben, um den Bewegungspfad zu rekonstruieren und trotzdem die Anonymität zu wahren. - 11 - Schwierig ist es, festzustellen, wann ein Benutzer die Website verlassen hat. Oft werden hier Timeouts von 30 Minuten verwendet. [SCDT00] 2.2.3.2 Identifikation von Benutzern Identifikation von Benutzern ist für das Web Usage Mining von großer Bedeutung. Nutzer sollen bei einem neuen Besuch der Website wieder erkannt werden können. Dadurch kann das Benutzerverhalten über einen längeren Zeitraum und über mehrere Besuche hinweg untersucht werden. Die eindeutige Identifikation von Benutzern stellt im Rahmen des Web Usage Mining allerdings eine schwierige Aufgabe dar. Ein Ansatz ist die Identifikation eines Benutzers anhand seiner IP-Adresse. Diese ist aber oft nicht eindeutig. Das liegt daran, dass Internet Service Provider häufig den Benutzern die IP-Adressen dynamisch zuordnen. Zusätzlich können sich hinter einer Adresse mehrere Rechner verbergen, wenn ein lokales Netzwerk eine gemeinsame Firewall nutzt und somit nach außen hin mit einer einzigen Adresse aufscheint. Dieses Problem versucht man zu lösen, indem man die IP-Adresse mit dem verwendeten Browser verknüpft. Doch selbst dann kann nicht von einer eindeutigen Identifizierung gesprochen werden. [HiMW02] Die Verwendung von Cookies ermöglicht die Identifikation eines bestimmten Rechners. Probleme ergeben sich hier, wenn Benutzer Cookies am Browser deaktivieren oder mehrere Nutzer von einem Rechner auf die Website zugreifen. Eine andere Möglichkeit, einen User eindeutig zu identifizieren, ist eine Registrierung. 2.2.4 Zusätzliche Datenquellen (Integrated Web Usage Mining) Die eindeutige Identifikation von einzelnen Benutzern ist nur aufgrund der IP-Adresse sehr schwierig (siehe Kap. 3.2.3.2), würde für das Web Usage Mining aber einen großen Mehrwert darstellen. Abb. 4: Mögliche Datenquellen [HiMW02, S.15] Auch demografische Daten und andere persönliche Informationen können für Web Usage Miner von großem Wert sein. - 12 - 2.2.4.1 Registrierung Durch eine Registrierung gibt der Kunde persönliche Daten preis, um Zugang zu einer Website zu erhalten. Der Hauptzweck für das Web Usage Mining ist die eindeutige Identifizierbarkeit eines Benutzers. Es wird dadurch ermöglicht zu analysieren, welcher Benutzer sich wann wie lange womit beschäftigt hat. Außerdem hat der Anbieter die Möglichkeit, durch die Abfrage persönlicher Informationen etwas über den Besucher in Erfahrung zu bringen. Dabei können sowohl soziodemografische Daten (Name, Adresse, Alter etc.) als internetspezifische Details (Email-Adresse etc.) von Nutzen sein. Es liegt im Interesse des Anbieters, dass der Nutzer die Möglichkeit hat, seine verlorenen Zugangsdaten wieder zu bekommen. Gibt es keine derartigen Mechanismen, kann dies zu Verlust des Kunden oder zu einer Verfälschung der Statistiken bei Neuanmeldung führen. Bei einer Registrierung bietet sich gleichzeitig die Möglichkeit, Interessensschwerpunkte der Nutzer in Erfahrung zu bringen. Durch die Erfassung der Präferenzen der einzelnen User kann eine erste Personalisierung der Site erfolgen. In Verbindung mit der Registrierung erfolgt meist die Bildung eines Benutzerprofils. Darunter versteht man die Summe an Attributen, die einem Benutzer zugeordnet wird. Man unterscheidet zwischen expliziter und impliziter Profilgenerierung. • • Explizite Profilgenerierung: Profile werden auf Grundlage der vom Benutzer angegebenen Daten und Präferenzen erzeugt. Implizite Profilgenerierung: Die Präferenzen und Interessen des Users werden durch Analysen seines Nutzungsverhaltens ermittelt. Die Anpassung der Inhalte auf den Benutzer wird durch die Profilbildung ermöglicht. Es gibt unterschiedliche Spielarten der Personalisierung. Es reicht von der Auswahl der angezeigten Seiteninhalte durch den Benutzer bis hin zum Collaborative Filtering, wo die Inhalte fast zur Gänze implizit aufgrund des Benutzerverhaltens erzeugt werden. [HiMW02] 2.2.4.2 Weitere Quellen Eine weitere Möglichkeit, Zusatzinformationen zu beziehen, sind Online-Umfragen. Diese können per Email oder mit Hilfe von HTML-Fragebögen durchgeführt werden. Sie bieten vielfältige Möglichkeiten, relevante Informationen über die Nutzer einer Website zu erheben. Als weitere Datenquelle kommt vor allem die Kundendatenbank des Unternehmens in Frage. Hier sind die für eine Geschäftsbeziehung notwendigen Daten gespeichert. Besonders relevant sind jene Aufzeichnungen, die Transaktionen betreffen. Aus der Kundendatenbank lassen sich Daten für das Benutzerprofil ableiten. Externe Daten können ebenfalls herangezogen werden. So können beispielsweise allgemeine Daten, die durch Umfragen erhoben wurden, einbezogen werden. Vorsicht ist aber geboten, da die Daten nicht unbedingt für die Website repräsentativ sein müssen. 2.2.5 Data Integration Sobald die Datengewinnung abgeschlossen ist, müssen die erhobenen Daten in einer Datenbasis integriert werden. Dabei ist darauf zu achten, dass die Daten in die für die Weiterverarbeitung notwendige Abstraktionsebene gebracht werden. Die Hauptaufgabe liegt darin, mehrere Datenquellen zu einer gesamten Datenbasis zusammenzufügen. Für den Anwender muss die Datenbasis homogen sein. Das Ziel ist also eine homogene Sichtweise auf Daten aus unterschiedlichen Quellen. Derzeit gibt es für dieses Problem keine vollkommene Lösung, obwohl sich die Forschung schon länger damit - 13 - beschäftigt. Die meisten Probleme sind auf die semantische Heterogenität der Daten zurückzuführen. [ZiDi04] 2.3 Pattern Discovery Im Rahmen de Pattern Discovery sollen Muster im Benutzerverhalten herausgefiltert werden. Es sind jene Muster von Bedeutung, die wiederkehrend auftreten. Es existieren unterschiedliche Methoden zur Gewinnung von Mustern: 2.3.1 Pfadanalyse Die meist besuchten Pfade einer Website werden bei der Pfadanalyse untersucht. Man kann dadurch auf die wichtigsten Strukturen und Dokumente einer Seite schließen. Es ist etwa möglich, die durchschnittliche Anzahl der pro Besuch aufgerufenen Seiten oder die häufigste Startseite zu ermitteln. [CoMS97] Die gewonnenen Pfade können mit Hilfe eines Pfaddiagramms dargestellt werden (Abb.4). Die aufgerufenen Seiten werden als Knoten dargestellt, die Bewegungen der Benutzer als Kanten. [vgl. Gron05] Abb. 5: Beispiel Pfaddiagramm 2.3.2 Assoziationsregeln Assoziationsregeln suchen nach Zusammenhängen in Datenbanken. Im Fall eines Supermarktes könnte beispielsweise erhoben werden, dass Bier und Chips oft gemeinsam gekauft werden. [ScBi04] Im Rahmen des Web Usage Mining zeigen Assoziationsregeln an, welche Webseiten besonders häufig innerhalb einer Session gemeinsam aufgerufen wurden. Besonders wichtig ist, herauszufiltern, welche Webseiten das Anwählen von anderen implizieren. Das kann bei einer Neustrukturierung und Organisation einer Website hilfreich sein. [vgl. SCDT00] 2.3.3 Sequenzielle Muster Sequenzielle Muster (engl.: sequential patterns) fügen eine zeitliche Komponente hinzu. Es werden Mengen von zusammengehörigen und zeitlich geordneten Sequenzen von Transaktionen gesucht. Das könnte so aussehen: Viele Besucher, die die Seiten A.html und B.html besucht haben, haben später auch die Seiten C.html und D.html besucht. Dadurch können dem Benutzer Seiten empfohlen werden, die für ihn wahrscheinlich relevant sind. [vgl. AgSr95] 2.3.4 Clustering, Klassifikation Mit Hilfe von Klassifikationsregeln werden hier Benutzerprofile gebildet. Nutzer, die ähnliche Browsinggewohnheiten haben, werden zu Gruppen zusammengefasst. Aufgrund der Zugehörigkeit zu einer solchen Gruppe können dem Benutzer dann Empfehlungen angezeigt werden. Sollte der Benutzer nicht bei jedem Besuch wieder erkannt werden können, ist nur eine kurzfristige Gruppenzuordnung möglich. [vgl. SCDT00] - 14 - 2.4 Pattern Analysis Den letzten Schritt im Rahmen des Web Usage Mining stellt die Analyse der gewonnenen Muster (engl.: pattern analysis) dar. Hauptsächlich geht es darum, uninteressante Muster herauszufiltern und die interessanten zu visualisieren. Dabei könnten etwa folgende Ergebnisse herauskommen: Die Anzahl der Abrufe per Dokument, der letzte Abruf eines Dokuments, wer besucht welche Dokumente oder die Häufigkeit der Benützung eines Hyperlinks. 2.5 Nutzen des Web Usage Mining Die Erkenntnisse des Web Usage Mining können den Betreibern in vielerlei Hinsicht Nutzen bringen. Im folgenden Kapitel werden die unterschiedlichen Verbesserungen, die durch das Web Usage Mining erzielt werden können, aufgezeigt. 2.5.1 Personalisierung Die Möglichkeit, das Nutzerverhalten bis hin zu den einzelnen Mausklicks zurückzuverfolgen, erlaubt es dem Verkäufer, seine Produktbotschaft für jeden einzelnen Kunden persönlich zu gestalten. Personalisierung ist die wohl wichtigste Anwendung des Web Usage Mining. Personalisierung ist allerdings nicht nur für das E-Commerce sondern für jede Webapplikation anwendbar. Personalisierung ist definiert als jede Aktion, die die Interaktion mit dem Web für jeden User oder für jedes Set von Usern individuell zuschneidet. [CoMS00] Man unterscheidet zwischen drei großen Kategorien: Manual Decision Rule Systems, Collaborative Filtering Systems und Content-Based Filtering Agents. • • • Manual Decision Rule Systems basieren auf Präferenzen der Nutzer und statischen Profilen, die bei der Registrierung gesammelt wurden. Collaborative Filtering Systems führen Personalisierung aufgrund von Ähnlichkeiten zwischen Nutzern durch. Aufgrund des eigenen Verhaltens und des Verhaltens der anderen User werden Inhalte angezeigt, die wahrscheinlich die Präferenzen des speziellen Nutzers treffen. Content Based Filtering Agents versuchen, die Präferenz eines Nutzers durch den Vergleich der explizit oder implizit gewonnenen Userdaten mit den Produkteigenschaften zu ermitteln. Die Aufgaben für das Web Usage Mining liegen hier etwa im Finden von Assoziationsregeln, sequentiellen Mustern oder Clustern. Personalisierung kann in unterschiedlichster Form auftreten. Beispielsweise könnten spezielle Links oder Produkte empfohlen werden, zugeschnittene Werbebotschaften, aber auch Text und Grafik für den einzelnen User angeboten werden. Das kann bis zu einem komplett unterschiedlichen Aussehen einer Website für jeden User führen. [CoMS00] Oft wird das Clustering (siehe Kap. 3.3.4) für die Personalisierung eingesetzt. Nutzer, die ein ähnliches Navigationsverhalten aufweisen, werden zu Gruppen zusammengefasst. Neue Besucher können dann rasch aufgrund des Browsingverhaltens einem Cluster zugeordnet werden. Gruppen oder Benutzerprofile können als Vektoren dargestellt werden, um mittels Vektoroperationen passende Profile zu finden. Die Zuordnung zu solchen Gruppen liefert die Grundlage für die abgegebenen Empfehlungen. Wenn Nutzer beispielsweise durch eine Registrierung bekannt sind, wird die Empfehlung vom längerfristigen Nutzerverhalten abgeleitet. Ist der Nutzer anonym, kann nur das kurzfristige Verhalten herangezogen werden. - 15 - Der WebPersonalizer ist ein System, das die Personalisierung unterstützt. Er bietet dem Nutzer eine Reihe empfohlener Links an, während dieser durch die Website navigiert. [vgl. CoMS00] 2.5.2 Systemverbesserung Bei vielen Applikationen ist die Geschwindigkeit ein entscheidendes Erfolgskriterium. Web Usage Mining liefert entscheidende Informationen, um Systemverbesserungen durchführen zu können. Verhalten von Nutzern im Web wird analysiert, also kann der Verkehr der Benutzer besser verstanden werden. So können effizientere Architekturen für den Datenverkehr konstruiert werden. Auch Anwendungen für die Sicherheit im Internet können verbessert werden Sogar die Generierung von Dynamischen Webseiten auf Vorrat kann durch das Web Usage Mining verwirklicht werden. [SCDT00] 2.5.3 Site-Modifizierung Für viele Websites ist deren Attraktivität ausschlaggebend für den Erfolg. Die detaillierte Darstellung des Nutzerverhaltens, die das Web Usage Mining liefert, hilft den Designern, ihre Websites den Bedürfnissen der Benutzer anzupassen. Schlussendlich wird die automatische Restrukturierung durch die gefundenen Muster ermöglicht. [SCDT00] 2.5.4 Business Intelligence Web Usage Mining liefert auch wichtige Daten für das Marketing für Firmen, die im Internet tätig sind. Vier verschiedene Schritte im Lebenszyklus einer Kundenbeziehung können unterstützt werden. [BüMu98] • • • Customer Attraction: Potentielle Kunden sollen ausgewählt und gebunden werden. Gemeinsame Charakteristiken der bereits bestehenden Kunden sollen gefunden werden um diese in profitable und nicht profitable Gruppen einteilen zu können. Daraus werden Marketingregeln abgeleitet, die dann auf die neuen User angewandt werden. So können potentiellen Kunden dynamische Seiteninhalte präsentiert werden. Customer Retention: Hier wird versucht, den Kunden möglichst gut an sich zu binden. Im Internet ist das besonders schwierig, da keine räumlichen Barrieren zwischen den Anbietern bestehen. Aufgrund des Nutzerverhaltens können personalisierte Angebote erstellt werden, die zur Kundenbindung beitragen. Spezielle Angebote sollen angezeigt werden, um das Interesse des Kunden aufrecht zu erhalten. Cross Sales: Durch Cross Sales wird versucht, weitere Produkte zu verkaufen. Das Kaufverhalten kann analysiert werden und andere Produkte können empfohlen werden. Durch Web Usage Mining gewonnene Daten zusätzlich zu den sonstigen Marketingdaten großen Nutzen bringen. 2.6 Beispiel: Web Site Information Filter System (WebSIFT) WebSIFT ist ein System zur automatischen Durchführung von Web Usage Mining. Der Web Usage Mining Prozess wird hier, wie bereits beschrieben, in die Teilbereiche Preprocessing, Pattern Discovery und Pattern Analysis zerlegt (siehe Abb. 6). Der Dateninput besteht aus den Logfiles, den HTML-Files und optionalen Zusatzdaten wie Registrierungsdaten. In der Phase des Preprocessing werden die gesammelten Daten zu einzelnen Sessions zusammengefasst. Man geht davon aus, dass das die beste Methode ist, um das Navigationsverhalten der Benutzer zu beobachten. - 16 - Regeln und Muster werden bei der Mustersuche mit Hilfe bekannter Data Mining Verfahren herausgefiltert. Auch allgemeine Statistiken über die Nutzung einer Website wie Hits pro Seite werden errechnet. Schlussendlich werden die gefundenen Muster in Analysetools eingespeist. Dazu wird eine SQL-Datenbank und die Programmiersprache JAVA verwendet. Bisher ist nur die Generierung und Filterung von häufig vorkommenden Gruppen von Elementen, Assoziationsregeln und generellen Statistiken komplett automatisiert möglich. [CoTS99] Abb. 6: Web Usage Mining Prozess bei WebSIFT [CoTS99] - 17 - 3 Österreichischer und Europäischer Rechtsrahmen 3.1 Definition des Informationsbegriffs Der Begriff Information spielt rechtlich gesehen in unterschiedlicher Weise eine Rolle. Es hat sich bisher allerdings keine einheitliche Definition innerhalb des Rechts durchgesetzt. Darüber hinaus ist das „Informationsrecht“ kein eigenes Rechtsgebiet sondern eine Querschnittsmaterie. Die Regelungen sind teils im öffentlichen, teils im privaten Recht angesiedelt. Im Allgemeinen beschäftigt sich das Informationsrecht mit: • • • • Verfügungsrechten an Information (Schutz des Urhebers) Schutz gegen Information (unerwünschte Werbenachrichten, beeinträchtigende Veröffentlichungen) Ansprüche auf Information (Gewährung von Auskunft) Haftung für Information (unrichtige Mitteilungen) Ein charakteristischer Gegensatz liegt darin, dass einerseits ein großes Bedürfnis nach umfassender Information besteht, andererseits bestimmte Informationen geschützt werden müssen. So hat jedermann ein Grundrecht auf Schutz des Privat- und Familienlebens sowie ein Grundrecht auf Datenschutz. [vgl. HoKW04] 3.2 Schutz der Privatsphäre Im Zuge des Schutzes der Privatsphäre sollen sowohl die Intimsphäre als auch private Informationen und Informationsbeziehungen geschützt werden. „In einer von der Achtung der Freiheit geprägten Gesellschaft […] braucht der Bürger ohne triftigen Grund niemandem Einblick zu gewähren, welchem Zeitvertreib er nachgeht, welche Bücher er kauft, welche Zeitungen er abonniert, was er isst und trinkt und wo er die Nacht verbringt. Auch wenn solche Vorgänge und Umstände nicht eigentlich geheim gehalten und einem durch die Umstände beschränkten Personenkreis ohne weiteres bekannt werden, ist es doch Sache des Betroffenen, ob und was er darüber welchen anderen wissen lässt.“ [VfSl91] Das Grundrecht auf Datenschutz gewährt, dass jedermann einen Anspruch auf Geheimhaltung der ihn betreffenden personenbezogenen Daten hat. Der Schutzbereich des Datenschutzgesetzes 2000 (DSG 2000) umfasst die unberechtigte Übermittlung und Veröffentlichung, aber auch die Ermittlung von Daten. Es werden sowohl natürliche als auch juristische Personen geschützt, und dementsprechend auch sowohl Daten des Privat- und Familienlebens und Wirtschaftsdaten. Jedes Individuum hat das Recht auf Auskunft, Richtigstellung und Löschung der ihn betreffenden Daten. Allerdings ist ein Personenbezug der Daten notwendig, das heißt die Daten müssen auf ein bestimmtes Individuum zurückverfolgbar sein. Voraussetzung für dieses Grundrecht ist ein schutzwürdiges Interesse an der Geheimhaltung der Daten. Daten, die jedermann unschwer einsehen kann, sind nicht mehr geheim zu halten. Die Art der Daten ist für die Schutzwürdigkeit von großer Bedeutung. Geschäfts- und Betriebsgeheimnisse sind ebenso schutzwürdig wie Daten über die „rassische und ethnische Herkunft, politische Meinung, Gewerkschaftszugehörigkeit, religiöse oder philosophische Überzeugung, Gesundheit oder Sexualleben“ [DSG2000 §4 Z2] von Individuen. Eingriffe sind bei Vorliegen eines schutzwürdigen Geheimhaltungsinteresses dann zulässig, wenn die Verwendung der Daten im lebenswichtigen Interesse des Betroffenen steht - 18 - oder wenn ein überwiegend berechtigtes Interesse anderer im Rahmen der Verhältnismäßigkeit vorliegt. Ferner bedarf es einer gesetzlichen Grundlage. Das Rechtssystem ist im Datenschutzrecht traditionell zweigeteilt: Verletzungen des Grundrechts sind vor der Datenschutzkommission durchzusetzen, sofern sie von einem Organ mit hoheitlichen Befugnissen begangen wurden, im privaten Bereich vor Gericht. [HoKW04] 3.3 Europarechtlicher Rahmen 3.3.1 Artikel 8 Europäische Menschenrechtskonvention (EMRK) Prinzipiell gibt es auf europäischer Ebene nur wenige Bestimmungen, die sich mit den Grundrechten im Bereich Datenschutz beschäftigen. Insbesondere ist Artikel 8 der EMRK zu nennen: „Artikel 8 - Recht auf Achtung des Privat- und Familienlebens (1) Jedermann hat Anspruch auf Achtung seines Privat- und Familienlebens, seiner Wohnung und seines Briefverkehrs. (2) Der Eingriff einer öffentlichen Behörde in die Ausübung dieses Rechts ist nur statthaft, insoweit dieser Eingriff gesetzlich vorgesehen ist und eine Maßnahme darstellt, die in einer demokratischen Gesellschaft für die nationale Sicherheit, die öffentliche Ruhe und Ordnung, das wirtschaftliche Wohl des Landes, die Verteidigung der Ordnung und zur Verhinderung von strafbaren Handlungen, zum Schutz der Gesundheit und der Moral oder zum Schutz der Rechte und Freiheiten anderer notwendig ist.“ [EMRK98] Die Schutzstandards der EMRK sind die Mindeststandards des Grundrechtschutzes in der gesamten europäischen Union. 3.3.2 Europäische Datenschutzrichtlinie Die europäische Datenschutzrichtlinie soll den freien Verkehr personenbezogener Daten innerhalb der Gemeinschaft gewährleisten und gleichzeitig einen möglichst hohen Schutz bei der Verarbeitung dieser Daten sicherstellen. Die Richtlinie selbst soll nur Daten natürlicher Personen schützen, in Österreich wurden aber auch Daten juristischer Personen sowie Personengemeinschaften einbezogen. Für die Rechtmäßigkeit einer Datenverarbeitung ist die Qualität der Daten und die Zulässigkeit der Verarbeitung ausschlaggebend. Für sensible Datenkategorien gilt ein grundsätzliches Verarbeitungsverbot. Zusätzlich bestehen Informations- und Meldepflichten, um ein Höchstmaß an Transparenz und Publizität zu garantieren. Damit soll die individuelle und institutionelle Kontrolle der Verarbeitung gewährleistet werden. Zur Minimierung von Risiken bestehen Regeln zur technischen und organisatorischen Sicherheit bei der Verarbeitung. [vgl. DsRl02] 3.4 Datenschutzrecht Da die Öffentlichkeit sich zunehmend der Gefahr der unkontrollierten Weitergabe von persönlichen Daten bewusst wird, müssen Schutzmechanismen entwickelt werden, um das zu verhindern. Infolge dessen wurde das Datenschutzgesetz 1978 ausgearbeitet. Da dieses nur unzureichenden Schutz bot, wurde es im Jahr 2000 zum DSG 2000 weiterentwickelt. Dieses Gesetz gewährt ein informationelles Selbstbestimmungsrecht des Einzelnen. - 19 - 3.4.1 Definitionen In diesem Abschnitt sollen einige Begriffe geklärt werden, die zum Verständnis der rechtlichen Situation notwendig sind. [vgl. HoKW04] 3.4.1.1 Daten Daten („personenbezogene Daten“) sind Angaben über Betroffene, deren Identität bestimmt oder bestimmbar ist. Betroffene können sowohl natürliche als auch juristische Personen sein, also werden auch Wirtschaftsdaten geschützt. Nicht nur Tatsachenaussagen, sondern auch Werturteile fallen in den Schutzbereich. Sensible Daten (Daten über ethnische Herkunft, politische Meinung,…) nehmen eine besondere Stellung mit erhöhtem Schutz ein. Das DSG 2000 umfasst nur die elektronisch gestützte Verarbeitung von Daten, während das Grundrecht auf Datenschutz unabhängig davon Schutz bietet. 3.4.1.2 Auftraggeber, Dienstleister Der Auftraggeber hat die zentrale Verantwortung für die gesetzeskonforme Verwendung von Daten und ist primärer Ansprechpartner für den Betroffenen. Er hat folgende Pflichten: • • • • Er ist verantwortlich für die Zulässigkeit der Verwendung von Daten Er muss Vorkehrungen zur Datensicherheit treffen Er ist registrierungspflichtig Er muss Personen, über die er Daten gespeichert hat, Auskunft darüber geben und ihnen die Möglichkeit zur Richtigstellung und Löschung bieten Grundsätzlich ist derjenige Auftraggeber, der die Entscheidung zur Datenverarbeitung getroffen hat. Dienstleister sind vor allem Hilfsorgane zur technischen Unterstützung wie zum Beispiel der elektronische Transport von Daten. 3.4.1.3 Datenhandhabung Unter Verwendung von Daten versteht man jegliche Art der Handhabung von Daten wie etwa das Ermitteln, Erfassen oder Speichern. Das Entscheidende an einer Datenanwendung ist, dass sie teils oder voll automatisiert ist. Die Übermittlung von Daten an Dritte unterliegt besonders strengen Auflagen. 3.4.2 Datenverwendung Im DSG 2000 werden bestimmte allgemeine Grundsätze zur Datenverwendung aufgezeigt. Folgende Grundsätze müssen eingehalten werden: • • • Treu und Glauben: Hier wird insbesondere eine umfassende Information für den Betroffenen verlangt, damit dieser seine Rechte wahren kann. Zweckbindung: Dieser Grundsatz verlangt, dass der Zweck der Datenverarbeitung eindeutig bestimmt sein muss. Eine Weiterverwendung, die nicht dem ursprünglich definierten Zweck entspricht, ist unzulässig. Weiters dürfen die Daten nicht über den Umfang hinausgehen, der zum Erreichen des Zwecks notwendig ist. Auch zeitlich darf die Speicherung nicht unbegrenzt erfolgen. Ermittlung von Daten auf Vorrat ist somit unzulässig. Richtigkeit und Aktualität: Richtigkeit ist im Hinblick auf den Zweck der Datenverarbeitung erforderlich. - 20 - Zulässig ist eine Datenverarbeitung dann, wenn • • • eine Berechtigung des Auftraggebers besteht, schutzwürdige Geheimhaltungsinteressen der Betroffenen gewahrt sind und der Empfänger dem Übermittelnden seine rechtliche Befugnis glaubhaft machen kann. Für nicht sensible Daten gelten allgemeine Regeln, für sensible Daten existiert eine Liste der zulässigen Verwendungsfälle. Die Verwendung nicht sensibler Daten ist dann zulässig, wenn eine Zustimmung des Betroffenen vorliegt. Allerdings muss diese Zustimmung in Kenntnis der Sachlage für den konkreten Fall erfolgen, der Betroffene muss also wissen, welche Daten von wem zu welchem Zweck verwendet werden. Eine Zustimmung bezieht sich also immer nur auf einen gewissen Zweck. Für eine anderwärtige Verwendung ist eine neuerliche Zustimmung notwendig. Das setzt voraus, dass der Zweck eine gewisse Bestimmtheit aufweist. Eine Verwendung für Werbezwecke ist beispielsweise nicht bestimmt genug. Die Verwendung sensibler Daten ist nur in bestimmten Fällen zulässig, beispielsweise wenn sie der Betroffene selbst veröffentlicht hat oder die Daten nur indirekt personenbezogen verwendet werden. 3.4.3 Informationspflichten Jeder Auftraggeber hat vor Inbetriebnahme seiner Datenanwendung Meldung an die Datenschutzkommission zu erstatten. Danach wird die Anwendung im Datenverarbeitungsregister (DVR) eingetragen und erhält eine DVR-Nummer. Jedermann kann Einsicht in das DVR nehmen. Unmittelbar nach Meldung kann der Betrieb aufgenommen werden. Bei der Verarbeitung von sensiblen Daten ist eine Prüfung durch die Datenschutzkommission (DSK) abzuwarten. Der Auftraggeber einer meldepflichtigen Datenanwendung hat die Betroffenen zu informieren über: • Zweck der Datenanwendung • Seinen Namen und Adresse 3.4.4 Rechte des Betroffenen Dem Betroffenen werden einige Rechte eingeräumt, um die Handhabung seiner persönlichen Daten beeinflussen und unterbinden zu können. [vgl. HoKW04] 3.4.4.1 Auskunft Der Betroffene hat das Recht, binnen acht Wochen nach der Anfrage über die von ihm verarbeiteten Daten und weitere wichtige Umstände informiert zu werden. Ein mal pro Jahr hat diese Information kostenlos zu erfolgen. 3.4.4.2 Richtigstellung und Löschung Der Auftraggeber hat von sich aus unrichtige Daten richtigzustellen. Sollten Daten für den Zweck der Datenverarbeitung nicht mehr benötigt werden, sind sie ebenfalls zu löschen. Liegt ein Antrag des Betroffenen zur Löschung oder Richtigstellung vor, ist ihm innerhalb von acht Wochen zu entsprechen. - 21 - 3.4.4.3 Widerspruch Jeder Betroffene kann die Verwendung seiner Daten durch den Auftraggeber binnen acht Wochen unterbinden. Der Auftraggeber muss die Daten löschen und Übermittlungen unterlassen. 3.4.5 Datenschutzorgane, Anwendbarkeit des Rechts Im privaten Bereich sind die ordentlichen Gerichte, im öffentlichen die DSK zuständig. Die Rechtsanwendung erfolgt in Europa nach dem Sitzstaatsprinzip. Danach kommt das Recht des Landes zur Anwendung, in dem das Unternehmen seinen Sitz hat und die Datenverarbeitung stattfindet. Unternehmen soll so die Belastung durch die Anwendung unterschiedlicher Rechtsnormen erspart werden. - 22 - 4 Userinteressen Es liegt im Interesse jedes einzelnen Nutzers des Internet, seine persönlichen Daten zu schützen. Man will sein Onlineverhalten und seine persönlichen Vorlieben nicht jedem beliebigen Kommunikationspartner offen legen. Man will sich vor den Gefahren, die potentiell im Internet lauern, möglichst effizient schützen. Auch dieses Bedürfnis der Benutzer steht dem Informationsbedarf der Betreiber von Web Usage Mining gegenüber. 4.1 Anonymität im Internet Das Recht auf Anonymität sollte eigentlich selbstverständlich sein, weshalb sich viele Benutzer bei Aktivitäten im Internet anonym fühlen. Diese Anonymität ist jedoch trügerisch. Menschen wähnen sich in einer vertrauten Umgebung sicher. Durch das Internet wird jedoch das eigene Wohnzimmer zu einem nicht unbedingt sicheren Ort. [O.A.b] Wünschenswert wäre es, eine sichere und unbemerkte Bewegung im Internet zu ermöglichen wird. Die Realität sieht jedoch anders aus. Anonymes Surfen ist kaum möglich, die meisten Seitenaufrufe sind zurückverfolgbar. So wird beispielsweise beim Webserver ständig die IP-Adresse mitgeloggt wenn diese nicht verschleiert wird. Eine solche Verschleierung ist beispielsweise mit Hilfe eines Proxy-Servers möglich. Das Senden der IPAdresse ist notwendig, damit die Nachricht überhaupt erst empfangen werden kann. Zusätzlich werden für die Inanspruchnahme von vielen Diensten im Internet persönliche Daten verlangt. Eine unüberlegte Preisgabe kann auch gefährlich sein, da der Datenschutzmissbrauch durchaus verbreitet ist. Ein Beispiel ist die Weitergabe von EmailListen an Spammer. So kann es passieren, dass man durch die Preisgabe seiner Email-Adresse hunderte von Werbemails unbekannten Ursprungs erhält. [Sevi03] Nun stellt sich die Frage, ob Anonymität im Internet überhaupt in großem Ausmaß notwendig ist. Dagegen spricht etwa, dass jemand, der nichts zu verbergen hat, auch nicht anonym sein muss. Außerdem muss es möglich sein, Betreibern von illegalen Diensten im Internet (Kinderpornografie, Rassismus, etc.) auf die Spur zu kommen. Datenschutz soll möglichst eingeschränkt den Täterschutz unterstützen. Für Anonymität spricht, dass wie im echten Leben eine Privatsphäre gewährleistet sein muss. Man soll vor einer Rundumüberwachung geschützt werden und selbst entscheiden können, wem man seine Identität preisgibt. Die IP-Adresse selbst, die vom Webserver gespeichert wird, sagt noch nichts über die Identität des Nutzers aus. Ermittelbar ist die Identität allerdings beim Internet Service Provider (ISP). Dynamisch vergebene IP-Adressen garantieren einen höheren Grad an Anonymität, da der Nutzer nicht wiedererkannt werden kann. ISPs müssen die gespeicherten Daten im Falle einer Straftat herausgeben, Anonymität ist also hier nicht immer gewährleistet. Eine weitere Gefährdung der Anonymität stellen Cookies dar. Sie dienen der Wiedererkennung von Benutzern und können miteinander kombiniert sehr genaue Informationen über einen Benutzer enthalten. [Sevi03] Der Erkennung von IP-Adressen kann mit Proxy-Servern entgegengewirkt werden, Cookies können beim Webbrowser deaktiviert werden. Dennoch ist eine komplette Anonymität im Internet derzeit nicht realisierbar. - 23 - 4.2 Studien Es wurden bereits einige Studien und Befragungen von Benutzern zum Thema Sicherheit im Internet durchgeführt. Im folgenden Abschnitt werden einige Ergebnisse präsentiert. [vgl. TeKo04] 4.2.1 Persönliche Informationen Bei der Preisgabe von persönlichen Informationen wie Name und Adresse sind Nutzer des Internet relativ heikel. Bei den meisten Befragungen sind zwischen 70 und 85 Prozent der Befragten bei der Preisgabe solcher Informationen beunruhigt. Bei der Freigabe von Kreditkarteninformationen liegt die Zahl durchwegs sogar über 80 Prozent. Der Prozentsatz jener, die die Anführung von persönlichen Informationen schon verweigert haben, liegt bei 80, allerdings haben 70 Prozent der Befragten bereits persönliche Information preisgegeben. Die Hälfte der befragten Nutzer glauben, dass Websites, die Informationen mit anderen Sites teilen, in die Privatsphäre eindringen. Ein Viertel der Befragungsteilnehmer würden keine persönlichen Informationen weitergeben, etwa 30 Prozent haben bereits falsche Informationen bei einer Registrierung angegeben. Man sieht also, dass sich die Befragten sehr wohl Sorgen über die Verwendung ihrer persönlichen Daten machen. 4.2.2 Persönliche Daten im gewerblichen Kontext Persönliche Daten sind oft für das Marketing von Bedeutung. Allerdings wünschen sich 90 Prozent der Befragten, vor einer diesbezüglichen Verwendung um Erlaubnis gefragt zu werden. Außerdem machen sich 86 Prozent der Teilnehmer Sorgen um ihre Daten beim Online-Banking. Ungefähr 65 Prozent derer, die nicht online einkaufen, tun dies aufgrund von Bedenken über die Sicherheit ihrer Daten, 30 Prozent würden mehr kaufen, hätten sie nicht derartige Bedenken. 90 Prozent der Befragten fürchten, dass ihre Daten für andere Zwecke als dem anfänglich bestimmten verwendet werden. Die Anzahl an Personen, die Betrug im Zusammenhang mit Kreditkarten erlebt haben oder selbst beim Onlinekauf schon einmal betrogen haben, ist verschwindend klein. Auch hier sieht man, dass Nutzer von kommerziellen Onlineangeboten dem Internet nicht voll vertrauen. 4.2.3 Cookies Aus den Umfragen geht hervor, dass 62 Prozent der Befragten Cookies generell akzeptieren. Der Prozentsatz derer, die Cookies ablehnen, variiert sehr stark zwischen den unterschiedlichen Umfragen. Die Spanne reicht von drei bis 25 Prozent. Die Hälfte aller Befragten gab an, Cookies regelmäßig zu löschen. 4.2.4 Sicherheit im Bezug auf Personalisierung Etwa 60 Prozent der Internetnutzer sehen Personalisierung als gute Errungenschaft an. Im Folgenden wird gezeigt, welcher Anteil der Befragten bereit ist, welche Daten im Gegenzug für Personalisierung preiszugeben (in Klammern befinden sich die Prozentsätze bei Teilung der Information mit anderen Websites): • • • • • Name: 88% Ausbildung: 88% Alter: 86% (41%) Hobbys: 83% (48%) Einkommen: 59% (13%) - 24 - • • Kreditkartennummer: 13% (1%) Gekaufte Produkte: (48%) Die Mehrzahl der Befragten, nämlich 73 Prozent, fanden es nützlich, dass die Seiten sich Basisinformationen wie Name oder Adresse merken können, während die Hälfte der Befragten das Speichern von weiteren Informationen wie der Präferenzen nützlich fanden. 35 Prozent der Befragten fühlten sich durch Werbebanner in ihrer Privatsphäre bedroht. 4.3 Zusammenfassung Die jüngst aufgetauchten Gefahren des Internet fördern nicht unbedingt das Vertrauen der Benutzer. Beispielsweise wird die Freigabe der eigenen Email-Adresse immer problematischer, da die Versendung unerwünschter Werbemails bereits ein riesiges Ausmaß annimmt. Ein anderes Beispiel sind die so genannten Dialer. Dialer sind Programme, die vom Nutzer unbemerkt teure Mehrwertnummern anrufen. Diese Problematik ist immens gestiegen, so dass laut Umfragen bereits jeder fünfte Internetnutzer damit konfrontiert wurde. In Österreich wurde bereits mit einem Gesetz reagiert, das solche Dialer verbietet. Eine andere Gefahr, die das Vertrauen beeinträchtigt, sind Viren und Würmer, die meist per Email verschickt werden. Diesem Zustand kann nur sehr schwer begegnet werden, da ständig neue, gefährlichere Würmer oder Viren auftauchen. All diese Tatsachen erschweren es, das Vertrauen der Internetnutzer zu gewinnen. Wollen einzelne Firmen volles Vertrauen genießen, so muss sich das Internet als Ganzes wandeln. - 25 - 5 Analyse Im folgenden Abschnitt wird untersucht, welche Konsequenzen durch den Rechtsrahmen und die Benutzerinteressen für das Web Usage Mining entstehen. Betreiber von Web Usage Mining haben besonders hohen Informationsbedarf, um möglichst korrekt auf das Benutzerverhalten schließen zu können. Die Benutzer selbst sind allerdings daran interessiert, möglichst wenige Informationen preisgeben zu müssen. Es ist also notwendig, einen Kompromiss zwischen beiden Gegensätzen zu finden. Web Usage Miner müssen versuchen, das Vertrauen der User zu gewinnen und sich innerhalb des rechtlich relevanten Rahmens zu bewegen. Sicherlich ist das nicht immer einfach, wie im nächsten Abschnitt beschrieben wird. 5.1 Konflikte mit dem Rechtsrahmen Durch die oben dargestellten rechtlichen Rahmenbedingungen auf österreichischer und europäischer Ebene sind die Methoden des Web Usage Mining einigen Einschränkungen unterworfen. Besonders eingeschränkt wird die Gewinnung von zusätzlichen Informationen (siehe Kap. 4.2.5) durch den Schutz personenbezogener Daten (siehe Kap. 5.2). 5.1.1 Web Usage Mining und personenbezogene Daten Personenbezogene Daten können für das Web Usage Mining von großer Bedeutung sein. Demografische Informationen oder Präferenzen eines Nutzers erlauben interessante Analysen und weitergehende Schlussfolgerungen als die reine Analyse von Bewegungspfaden im Internet. Folglich haben Web Usage Miner ein besonderes Interesse daran, auch personenbezogene Daten zu gewinnen. Hier ergeben sich allerdings einige Konflikte mit dem österreichischen Rechtsrahmen. Die österreichische Verfassung gewährt jedermann ein Grundrecht auf Datenschutz. Jeder Staatsbürger kann selbst entscheiden, wen er was über sich wissen lässt. Der Web Usage Miner muss also Strategien entwickeln, um das Vertrauen des Benutzers zu gewinnen und ihn so dazu zu bewegen, seine Daten freizugeben. Die selbständige Ermittlung der Daten ist ebenfalls ohne Einwilligung des Betroffenen nicht zulässig. Nur solche Daten, die für jedermann frei einsehbar sind, dürfen ermittelt werden. Diese Daten nutzen den Betreibern von Websites allerdings nicht viel. Eingriffe sind nur bei Bestehen eines überwiegend berechtigten Interesses anderer gestattet, was hier ebenfalls nicht gegeben ist. 5.1.1.1 Bestimmbarkeit der Identität Daten gelten nur dann als personenbezogen, wenn die Identität des Betroffenen bestimmt oder bestimmbar ist. Sollte dies nicht der Fall sein, dürfen die Daten zur Verarbeitung genutzt werden. Fraglich ist, wie für das Web Usage Mining relevante zusätzliche Daten ohne Personenbezug erhoben werden können. Wenn ein User beispielsweise Daten über sich angibt, ohne dabei seine Identität preiszugeben, so ist seine Identität zwar nicht bestimmt aber bestimmbar. Der Grund dafür ist, dass ISPs speichern müssen, welche IP-Adresse zu welchem Zeitpunkt welchem Individuum zugeordnet war. So kann die Identität eines Benutzers erhoben werden. Ohne Zuordnung haben diese Daten keinen Sinn. 5.1.1.2 Zweckbindung Ein relativ großes Hindernis für das Web Usage Mining ist der Grundsatz der Zweckbindung im DSG2000. Demnach dürfen erhobene Daten nur für den anfänglich bestimmten Zweck benutzt werden. Dieser Zweck muss allerdings auch ausreichend definiert sein, die Definition „Verwendung für das Web Usage Mining“ reicht wahrscheinlich nicht aus. Das macht es - 26 - schwierig, einen ausreichend definierten Zweck zu finden. Auch vom Umfang her dürfen die Daten nicht über das hinausgehen, was zur Erreichung des Zwecks notwendig und verhältnismäßig ist. Auch zeitlich ist die Speicherung von Daten nicht unbegrenzt erlaubt. Personenbezogene Daten dürfen nur solange gespeichert werden, wie sie zur Erfüllung des definierten Zwecks notwendig sind. Eine Speicherung auf Vorrat für einen allfälligen Bedarf ist somit unzulässig. Im Rahmen des Web Usage Mining ist es aber durchaus sinnvoll, Daten zu speichern, ohne sie auf einen bestimmten Zweck zu beziehen. Auch die längerfristige Speicherung für spätere Analysen ist wichtig. Die Einbeziehung von zusätzlichen Daten ist für das Web Usage Mining durch die rechtlichen Bestimmungen in Österreich nur eingeschränkt nutzbar. Eine Möglichkeit, das zu umgehen, ist der Aufbau von Geschäftsbeziehungen zu den Benutzern. Hier dürfen Daten über einen längeren Zeitraum hinweg gespeichert werden. Es besteht allerdings die Beschränkung, dass nur solche Daten gespeichert werden dürfen, die für die Geschäftsbeziehung notwendig sind. Andererseits kann auch auf die Einbeziehung von Zusatzinformation verzichtet und versucht werden, das Web Usage Mining so anonym wie möglich zu gestalten. 5.1.1.3 Pflichten des Web Usage Miners Durch die Erhebung von personenbezogenen Daten kommen auf den Betreiber der Website einige Pflichten zu, da er rechtlich gesehen als Auftraggeber gilt. Das bedeutet einiges an zusätzlichem Aufwand, schließlich ist er für die Zulässigkeit der Datenverarbeitung zuständig. Außerdem ist er registrierungspflichtig und muss Betroffene über ihre Rechte informieren. Selbigen hat er auch die Möglichkeit zur Richtigstellung und Löschung der sie betreffenden Daten zu bieten. Es ist zu überlegen, ob die Einbeziehung von Zusatzinformationen einen solchen Mehraufwand rechtfertigt. 5.1.1.4 Anonymisierung / Pseudonymisierung Eine Lösung für dieses Problem ist, die Anonymität der Nutzer zu wahren. Sicherlich gibt es Dienste im Internet, bei denen Anonymität nicht möglich ist, allerdings sollte man dort, wo es möglich ist, die Anonymität beibehalten. Eine andere Möglichkeit ist die Pseudonymisierung. Hier treten die Benutzer nicht mit ihrem eigentlichen Namen auf, sondern unter einem Pseudonym. Hiermit könnten sogar Dienste mit einer Personalisierung verwirklicht werden. 5.2 Konflikte mit Userinteressen Das Bedürfnis nach Anonymität im Internet ist hoch (siehe Kap. 5.1). Das steht im krassen Gegensatz zu den Informationsbedürfnissen der Betreiber von Web Usage Mining. Allerdings können User nicht verhindern, dass ihre beschrittenen Pfade im Web erfasst werden. Die IPAdresse ist nämlich die Grundlage für die Datenübertragung und das Mitloggen ist damit unerlässlich. Sehr wohl kann der Nutzer aber über die Preisgabe von persönlichen Daten entscheiden. Außerdem kann er dem Web Usage Miner das Mining erleichtern, indem er beispielsweise Cookies zulässt. Im folgenden Abschnitt werden die Konsequenzen, die sich aus den Benutzerbefragungen ergeben, diskutiert. 5.2.1 Persönliche Informationen Nutzer des Internet geben ihre persönlichen Informationen nicht ohne Weiteres bekannt (siehe Kap. 5.2). Das muss dem Web Usage Miner klar sein und es ist zu überlegen, wie man hier - 27 - eine Kooperation erzielen könnte. Wichtig ist, das Vertrauen des Benutzers zu gewinnen. Der vertrauensvolle Umgang mit den persönlichen Daten ist ein Schritt in diese Richtung. Ein großes Problem ist auch, dass Nutzer oft dazu neigen, falsche Informationen anzugeben. Das kann Ergebnisse der Analyse verfälschen und so beispielsweise zu einer inkorrekten Modifikation einer Website führen. Es müssen also Anreize geschaffen werden, die den User dazu verleiten, seine korrekten Informationen preiszugeben. Eine Möglichkeit ist das Anbieten von personalisierten Websites. Viele User halten Personalisierung für gut und sind auch bereit, im Gegenzug dafür persönliche Informationen offen zu legen. Will ein Betreiber einer Website nun Web Usage Mining betreiben, ist es sinnvoll, den Nutzern möglichst viel an Leistung und Personalisierung zu bieten, dann werden sie auch bereit sein, im Gegenzug dafür zu kooperieren. User wünschen sich weiters, bei einer Verwendung ihrer Daten für das Marketing, vorher um Erlaubnis gefragt zu werden. Das ist im Internet technisch leicht machbar, allerdings stellt sich die Frage, ob sich dann viele Individuen dazu bereit erklären würden. Man kann versuchen, das zu umgehen, indem man beispielsweise für alle, die sich dazu bereit erklären, ein Gewinnspiel oder Ähnliches anbietet. Erhobene Daten dürfen nur zu einem anfangs bestimmten Zweck verwendet werden. Viele User machen sich allerdings Sorgen, dass dem nicht so ist. Wichtig ist, dass Benutzer genau über den Sinn der Datenerhebung aufgeklärt werden und diese auch nicht darüber hinaus genutzt werden. Auch das trägt zur Bildung von Vertrauen bei. 5.2.2 Cookies Cookies sind ein sehr effizientes Mittel, um Nutzer bei einem Besuch der Website wieder zu erkennen (siehe Kap. 3.2.1.2). Auch hier kann es zu Problemen kommen, da viele User Cookies gar nicht aktivieren oder sie periodisch löschen. Dadurch wird ein gutes Instrument für das Web Usage Mining in der Nutzung eingeschränkt. Cookies sind relativ einfach am Webbrowser deaktivierbar. Sind sie deaktiviert, müssen wesentlich aufwändigere und ungenauere Methoden zur Wiedererkennung angewandt werden. 5.3 Perspektiven Um in Zukunft noch besseres Web Usage Mining zu ermöglichen ist es notwendig, dass die rechtlichen Beschränkungen etwas gelockert werden. Beispielsweise könnte die Zweckbindung, die ja ein großes Hindernis darstellt, etwas großzügiger aufgefasst werden. Wenn ein Benutzer seine Daten freiwillig dem Web Usage Miner überlässt, sollte dieser dann auch damit arbeiten dürfen. Gute Aufklärung des Nutzers darüber, was mit den Daten passiert, ist hier unumgänglich. Um das Vertrauen der User zu gewinnen, müssen seine persönlichen Ansprüche an die Sicherheit erfüllt werden. Die elektronische Festlegung und Prüfung dieser Präferenzen ist momentan nicht möglich. Ein Ansatz, der dieses Problem in Zukunft lösen könnte, ist die Platform of Privacy Prferences des World Wide Web Consortium (W3C). 5.3.1 Platform of Privacy Prferences (P3P) Im April 2000 stellte das W3C diesen Standard für mehr Transparenz im Online-Datenschutz vor. P3P beschäftigt sich speziell mit Websites, die die Preisgabe von persönlicher Information verlangen. Ein persönlicher Terminkalender oder Onlineshopping machen die Angabe dieser Daten unerlässlich. Hier setzt P3P an. [Lang02] Die Idee ist, dass der Betreiber, der die Daten erhebt, ein XML-File mit seinen Datenhandhabungspraktiken auf seiner Website zur Verfügung stellt. Hier ist beispielsweise der Empfänger oder der Verwendungszweck enthalten. Man kann sich das als standardisierten - 28 - Satz von Multiple-Choice Fragen vorstellen, die alle wichtigen Bereiche der Sicherheitspolitik einer Website abdecken. Das File zeigt also ein genaues Abbild, wie die Daten gehandhabt werden. Der User kann an einem P3P-fähigen Browser seine Sicherheitspräferenzen eingeben. Der Browser liest schließlich das XML-File und vergleicht es mit den Präferenzen des Benutzers. Außerdem können User übersichtlich und verständlich Einsicht in die Praktiken nehmen. [W3Ca] Abb. 7: HTTP-Transaktion mit P3P [W3Cb] 5.3.1.1 Komponenten In der P3P-Spezifikation werden aufeinander aufbauend mehrere Komponenten beschrieben [vgl. Lang02]: • • • • • Datenarten: Es wird eine umfangreiche Menge von Datenarten spezifiziert, die Websites erheben können (Name, Adresse, IP-Adresse,…). Praktiken-Vokabular: Es existiert ein sehr weit reichendes Vokabular zur Beschreibung der von der Website angewandten Praktiken in der Datenverarbeitung. Anbieter können anzeigen, welche Daten sie wann, zu welchem Zweck und für wen erheben. XML: P3P definiert einen XML-Syntax, mit dem das Vokabular auf die Datenarten angewendet werden kann. Das Ziel ist das maschinelle Auslesen und Verarbeiten der Datenschutzpraktiken. Protokoll: Die in XML verfassten Praktiken werden mittels eines Protokolls mit Webinhalten verknüpft und via HTTP übertragen. Präferenzsprache (APPEL – A Privacy Preferences Exchange Language): Nutzer können mit Hilfe von APPEL Datenschutzpraktiken als „akzeptabel“, „bedingt akzeptabel“ oder „nicht akzeptabel“ einstufen. Durch Standardisierung sind die Präferenzen für mehrere Anbieter nutzbar. - 29 - P3P wurde über einen Zeitraum von mehr als drei Jahren von einer von Tim Berners-Lee geleiteten Arbeitsgruppe mit bis zu 50 Teilnehmern konzipiert. 5.3.1.2 Praxis P3P soll sowohl für Nutzer als auch für Anbieter attraktiv sein, also wurde ein umfassendes Vokabular entwickelt. Das Kommunikationsprotokoll wurde bewusst einfach gehalten, um die Downloadraten nicht unnötig zu verlangsamen. P3P kann in fast jeden Web Server integriert werden, was eine rasche Verbreitung der Technologie gewährleisten soll. Auch Benutzer sollen nicht unnötig gestört werden, lediglich ein unauffälliger Indikator soll die aktivierte P3P-Unterstützung anzeigen. Nur beim Aufruf von Websites, die den Anforderungen nicht genügen, können auf Wunsch des Benutzers weitere Informationen eingeblendet werden. P3P kann nicht prüfen, ob die Website die angegebenen Praktiken auch einhält. Dafür ist die Rechtsordnung des jeweiligen Staates zuständig. [Lang02] 5.3.1.3 Ausblick Einige Firmen haben bereits ihre Datenschutzpraktiken im P3P-Format veröffentlicht. Es ist allerdings notwendig, dass noch viele weitere Websites das tun. Auch sind Browser, die P3PDaten lesen können, noch nicht verbreitet. Ist das der Fall, wird sich zeigen, ob durch P3P eine signifikante Verbesserung des Datenschutzes geboten wird. - 30 - 6 Resümee Das Web Usage Mining stellt zweifelsfrei eine sehr gute Möglichkeit dar, Websites effizienter zu gestalten. Die gewonnenen Erkenntnisse können bewirken, dass Sites besser an die Bedürfnisse ihrer Nutzer angepasst werden können. Das kann bis zu einer Personalisierung der Site führen. Betreiber können dabei so weit gehen, dass die Seite für jeden Kunden komplett andere Inhalte bietet. Dadurch erhofft man sich positive Effekte, vor allem im Bereich Kundenbindung. Wenn der Kunde mit der Site zufrieden ist und diese gut auf seine Bedürfnisse angepasst wird, dann wird der Lock-in-Effekt groß sein und der Kunde wird einen Wechsel zu einem anderen Anbieter gut überdenken. Leider liegen einem uneingeschränkten Web Usage Mining diverse Stolpersteine im Weg. Der Staat muss natürlich die Privatsphäre seiner Bürger schützen, und deshalb sind gesetzliche Maßnahmen zum Datenschutz unbedingt erforderlich. Für das Web Usage Mining bringt das allerdings einen bedeutenden Mehraufwand mit sich. Regeln wie die Zweckbindung schränken die Verwendbarkeit von erhobenen, personenbezogenen Daten erheblich ein. Die Betreiber müssen nun überdenken, ob eine derart eingeschränkte Einbeziehung von personenbezogenen Daten für sie überhaupt Sinn macht. Wenn ja, ist eine besonders umsichtige und vorsichtige Handhabung der Daten notwendig, um nicht mit dem Gesetz in Konflikt zu geraten. Auch die Nutzer machen es den Betreibern von Web Usage Mining oft nicht leicht. Durch die Deaktivierung von Cookies geht ein wichtiges Mittel zur Wiedererkennung verloren. Auch geben sie ihre Daten nicht ohne Weiteres preis, da das Vertrauen zu den Betreibern oft fehlt oder ungenügend vorhanden ist. Wichtig ist hier, das Vertrauen der User durch sorgfältiges Umgehen mit den Daten zu gewinnen und den Benutzern Gegenleistungen für die Daten anzubieten. Das Anbieten von Personalisierung ist oft ein wirksames Mittel, um von Nutzern Daten zu erhalten. Die P3P-Initiative des W3C könnte in Zukunft eine gute Lösung für solche Probleme bieten. Vorraussetzung ist allerdings, dass P3P weite Verbreitung findet. Viele Websites müssen das System einsetzen, damit es auch für den Benutzer interessant wird. Auch hier ist wichtig, dass sich die Betreiber wirklich an die von ihnen angegebenen Datenverarbeitungspraktiken halten. Ist das nicht der Fall, wird P3P keine große Akzeptanz finden und eine Zukunftshoffnung des Web Usage Mining würde ihre Wirkung verfehlen. - 31 - 7 Quellenverzeichnis [AgSr95] Agrawal, Rakesh; Srikant, Ramakrishnan: Mining Sequential Patterns. IBM Research Division, 1995. [Baue04] Bauer, Michael: Web Mining unter besonderer Berücksichtigung der Gewinnung persönlicher Daten für das E-Marketing. Diplomarbeit, Wirtschaftsuniversität Wien, 2004. [Brue o.J.] Bruehlmann-Lesinska, Thomas: Webserver Logfiles. http://www.webmeister.ch/server/webserver/logfiles/default.htm, letzter Abruf am 16.4.2005. [BüMu98] Büchner, Alex G.; Mulvenna, Maurice D.: Discovering Internet Marketing Intelligence through Online Analytical Web Usage Mining. 1998. http://www.infj.ulst.ac.uk/~cbgv24/PDF/SIGMOD98.pdf, letzter Abruf am 17.5.2005. [CoMS00] Cooley, Robert; Mobasher, Bamshad; Srivastava, Jaideep: Automatic Personalization Based on Web Usage Mining. Communications of the ACM, August 2000. [CoMS97] Cooley, R.; Mobasher, B.; Srivatava, J.: Web Mining: Information and Pattern Discovery on the World Wide Web. University of Minnesota, 1997. [CoTS99] Cooley, Robert; Tan, Pang-Ning; Srivastava, Jaideep: WebSIFT – The Web Site Information Filter System. University of Minnesota, 1999. [Culn99] Culnan, Mary J.: Georgetown Internet Privacy Policy Survey: Report to the Federal Trade Commission. Georgetown University, June 1999. [DSG00] Bundesgesetz über den Schutz personenbezogener Daten (Datenschutzgesetz 2000 - DSG 2000). [DsRl02] Europäisches Parlament / Rat: Datenschutzrichtlinie 2002 (Richtlinie 2002/58/EG), 12. 6. 2002. [EMRK98] Europäische Menschenrechtskonvention: Artikel 8, Recht auf Achtung des Privat- und Familienlebens. [ErLe04] Ernst, Michael; Lehmann, Brigitte: Logfiles. FH Furtwangen, Dezember 2004. http://www.heindl.de/KI2004/Logfiles/Logfiles.pdf, letzter Abruf am 16.4.2005. [Geib00] Geib, Malte: Potenziale des Web Mining zur Deckung des Informationsbedarfes für das Customer Relationship Management im elektronischen Konsumgüterhandel. Diplomarbeit, Westfälische WilhelmsUniversität Münster 2000. [GeSc01] Gentsch, Peter; Schinzer, Heiko: Web-Personalisierung und Web-Mining für eCRM, 12 Software-Lösungen im Vergleich. Business Application Research Center, 2001. [Gron05] Groner, M.: Pfadanalyse. Uni Bern, 2005. http://visor.unibe.ch/SS01/statistik3/Pfadanalyse.pdf, letzter Abruf am 4.5.2005. - 32 - [HaNe01] Hansen, Hans Robert; Neumann, Gustaf: Wirtschaftsinformatik I, 8. Auflage. Lucius & Lucius, Stuttgart 2001. [HiMW02] Hippner, Hajo; Merzenich, Melanie; Wilde, Klaus D.: Handbuch Web Mining im Marketing (Konzepte, Systeme, Fallstudien). Vieweg 2002. [HoKW04] Holoubek, Michael; Kassai, Klaus; Wiebe, Andreas: Rechtliche Grundlagen der Informationswirtschaft. Springer-Verlag/Wien 2004. [KoBl00] Kosala, Raymond; Blockeel, Hendrik: Web Mining Research: A Survey, University Leuven, 2000. [Lang02] Langheinrich, Marc: P3P – ein neuer Standard für Datenschutz im Internet. ETH Zürich, Institut für Informationssysteme 2002. http://www.vs.inf.ethz.ch/res/papers/p3p-digma.pdf, letzter Abruf am 13.5.2005. [MJHS97] Mobasher, Bamshad; Jain, Namit; Han, EuiHong (Sam); Srivastava, Jaideep: Web Mining - Pattern Discovery from World Wide Web Transactions. Department of Computer Science, University of Minnesota, März 1997. http://maya.cs.depaul.edu/~mobasher/papers/webminer-tr96.pdf, letzter Abruf am 4.5.2005. [O.A.a] o.V.: Wikipedia: Logfile. http://de.wikipedia.org/wiki/Logfile, letzter Abruf am 16.4.2005. [O.A.b] o.V.: Netplanet: Anonymität im Internet. http://www.netplanet.org/sicherheit/anonym.shtml, letzter Abruf am 6.5.2005. [Pitk97] Pitkow, James: In Search of Reliable Usage Data on the WWW. Xerox Palo Alto Research Center, 6. internationale WWW-Konferenz, 1997. [RaDo o.J.] Rahm, Erhard; Do, Hong Hai: Data Cleaning – Problems and Current Approaches. Universität Leipzig, o.J. www.lania.mx/~jalba/tesis/Data%20Cleaning_Problems%20and%20Current% 20Approaches.pdf, letzter Abruf am 19.4.2005. [ScBi04] Scheffer, Tobias; Bickel, Steffen: Assoziationsregeln. Humboldt-Universität zu Berlin, Institut für Informatik, Lehrstuhl für Wissensmanagement, 2004. http://www.informatik.huberlin.de/Forschung_Lehre/wm/mldm2004/Assoziationsregeln.pdf, letzter Abruf am 4.5.2005. [SCDT00] Srivastava, Jaideep; Cooley, Robert; Deshpande, Mukund; Tan, Pang-Ning: Web Usage Mining – Discovery and Applications of Usage Patterns from Web Data. Department of Computer Science and Engineering, University of Minnesota, Jänner 2000. [Schn04] Schneider, René: Visualisierung von Web Structure Mining. Universität Hildesheim 2004. www.uni-hildesheim.de/~rschneid/VisualWebMining.pdf, letzter Abruf am 19.4.2005. [Sevi03] Sevinc, Semih: Anonymität im Internet. Seminar Sicherheit im Internet, Universität Dortmund, WS 02/03. http://lrb.cs.unidortmund.de/~hildebra/Seminare/Presentations/sii/anonymitaet.pdf, letzte Abruf am 6.5.2005. - 33 - [TeKo04] Teltzrow, Maximilian; Kobsa, Alfred: Impacts of User Privacy Preferences on Personalized Systems – a Comparative Study. [VfSl91] Verfassungsgerichtshof in VfSlg 12.689/1991. [W3Ca] World Wide Web Consortium: Platform of Privacy Preferences Project (P3P). http://www.w3.org/P3P/, letzter Abruf am 13.5.2005. [W3Cb] World Wide Web Consortium: P3P 1.0 – A New Standard in Online Privacy. http://www.w3.org/P3P/brochure.html, letzter Abruf am 16.5.2005. [ZiDi04] Ziegler, Patrick; Dittrich, Klaus R.: Three Decades of Data Integration – All Problems Solved? Database Technology Research Group, Department of Informatics, University of Zürich 2004. http://www.ifi.unizh.ch/stff/pziegler/papers/ZieglerWCC2004.pdf, letzter Abruf am 20.5.2005. - 34 -