Web Usage Mining und die damit verbundenen

Transcrição

Web Usage Mining und die damit verbundenen
Bakkalaureatsarbeit
Web Usage Mining und die damit verbundenen Konflikte mit
Benutzerinteressen und dem österreichischen Rechtsrahmen
Web Usage Mining and its conflicts with the interests of users and
the Austrian law
Abteilung für Informationswirtschaft, SS 2005
Lukas Helm
Matr. Nr.: 0251677
Telefon: +43 6991 171 48 46
E-Mail: [email protected]
Wirtschaftsuniversität Wien
Augasse 2-6
A-1090 Wien, AUSTRIA
-1-
Web Usage Mining und die damit verbundenen Konflikte mit
Benutzerinteressen und dem österreichischen Rechtsrahmen
Web Usage Mining and its conflicts with the interests of users and the
Austrian law
Stichworte: Web Usage Mining, Personalisierung, Datenschutz, österreichisches
Datenschutzgesetz, Anonymität, Benutzerinteressen, Platform of Privacy Preferences (P3P)
Keywords: Web Usage Mining, personalization, privacy, Austrian Data Protection Act,
anonymity, user’s interests, Platform of Privacy Preferences (P3P)
Zusammenfassung
Im Rahmen der vorliegenden Bakkalaureatsarbeit wird zu Beginn das Web Mining allgemein
und im Folgenden das Web Usage Mining im Speziellen beleuchtet. Dabei wird auf die
einzelnen Schritte und die Techniken eingegangen und besonderes Augenmerk wird auf die
Arten von Daten und deren Erhebung gelegt. Außerdem werden die
Anwendungsmöglichkeiten des Web Usage Mining dargestellt.
Danach werden die rechtlichen Rahmenbedingungen in Österreich und die Interessen der
Benutzer untersucht. Speziell geht es dabei um österreichische und europäische
Rechtsvorschriften sowie Benutzerbefragungen, die Relevanz für das Web Usage Mining
besitzen.
Schließlich wird analysiert, welche Konsequenzen sich aus dem Rechtsrahmen und den
Benutzerinteressen für das Web Usage Mining ergeben. Auch Perspektiven werden
aufgezeigt, wobei besonders auf die „Platform of Privacy Preferences“ eingegangen wird.
Abstract
This paper is dealing with the topic Web Mining and puts a detailed focus on Web Usage
Mining. The different steps of the Web Usage Mining process as well as the variable types of
data and their types of survey are analysed. Furthermore, the applications of Web Usage
Mining are described.
The judicial conditions of Austria and the preferences of users are presented. Special
importance gain the Austrian and European judicial standards as well as user’s opinion polls
which are relevant for Web Usage Mining.
Finally, an analysis shows how the judicial conditions and the user preferences influence Web
Usage Mining, finishing with a prospect and an introduction to the “Platform of Privacy
Preferences”.
-2-
Kernpunkte für das Management
Web Usage Mining ist eine Technik im Internet, die Betreibern von Onlinediensten viele
Möglichkeiten bietet, ihre Sites effizienter zu gestalten. Die Analyse von Nutzungsdaten
bietet eine Reihe von Erkenntnissen, um den Webauftritt besser zu gestalten.
•
Die Struktur einer Site kann den Nutzerinteressen mit Hilfe von explizit oder implizit
gewonnenen Informationen besser angepasst werden.
•
Maßnahmen zur Personalisierung einer Site können getroffen werden. Das kann
positive Effekte auf die Kundenbindung haben.
•
Die gewonnenen Daten können als wichtige Ergänzung zu den übrigen
Marketingdaten dienen.
•
Die Zusammenarbeit mit Kunden ist nicht immer einfach, da Schutzinteressen im
Bezug auf deren persönliche Daten bestehen. In Zukunft könnte die P3P-Plattform des
W3C dem Abhilfe schaffen.
-3-
Inhaltsverzeichnis
INHALTSVERZEICHNIS................................................................................................................................... 4
1
EINFÜHRUNG............................................................................................................................................ 6
1.1
DATA MINING
6
1.2 WEB MINING
1.2.1
Web Content Mining
1.2.2
Web Structure Mining
1.2.3
Web Usage Mining
2
WEB USAGE MINING .............................................................................................................................. 8
2.1
3
4
6
7
7
7
WEB USAGE MINING PROZESS
8
2.2 PREPROCESSING
2.2.1
Webdaten
2.2.2
Data Cleaning
2.2.3
Transaction Identification
2.2.4
Zusätzliche Datenquellen (Integrated Web Usage Mining)
2.2.5
Data Integration
9
9
11
11
12
13
2.3 PATTERN DISCOVERY
2.3.1
Pfadanalyse
2.3.2
Assoziationsregeln
2.3.3
Sequenzielle Muster
2.3.4
Clustering, Klassifikation
14
14
14
14
14
2.4
15
PATTERN ANALYSIS
2.5 NUTZEN DES WEB USAGE MINING
2.5.1
Personalisierung
2.5.2
Systemverbesserung
2.5.3
Site-Modifizierung
2.5.4
Business Intelligence
15
15
16
16
16
2.6
16
BEISPIEL: WEB SITE INFORMATION FILTER SYSTEM (WEBSIFT)
ÖSTERREICHISCHER UND EUROPÄISCHER RECHTSRAHMEN ............................................. 18
3.1
DEFINITION DES INFORMATIONSBEGRIFFS
18
3.2
SCHUTZ DER PRIVATSPHÄRE
18
3.3 EUROPARECHTLICHER RAHMEN
3.3.1
Artikel 8 Europäische Menschenrechtskonvention (EMRK)
3.3.2
Europäische Datenschutzrichtlinie
19
19
19
3.4 DATENSCHUTZRECHT
3.4.1
Definitionen
3.4.2
Datenverwendung
3.4.3
Informationspflichten
3.4.4
Rechte des Betroffenen
3.4.5
Datenschutzorgane, Anwendbarkeit des Rechts
19
20
20
21
21
22
USERINTERESSEN ................................................................................................................................. 23
4.1
ANONYMITÄT IM INTERNET
23
4.2 STUDIEN
4.2.1
Persönliche Informationen
24
24
-4-
4.2.2
4.2.3
4.2.4
4.3
5
Persönliche Daten im gewerblichen Kontext
Cookies
Sicherheit im Bezug auf Personalisierung
ZUSAMMENFASSUNG
24
24
24
25
ANALYSE.................................................................................................................................................. 26
5.1 KONFLIKTE MIT DEM RECHTSRAHMEN
5.1.1
Web Usage Mining und personenbezogene Daten
26
26
5.2 KONFLIKTE MIT USERINTERESSEN
5.2.1
Persönliche Informationen
5.2.2
Cookies
27
27
28
5.3 PERSPEKTIVEN
5.3.1
Platform of Privacy Prferences (P3P)
28
28
6
RESÜMEE ................................................................................................................................................. 31
7
QUELLENVERZEICHNIS...................................................................................................................... 32
-5-
1 Einführung
Web Mining ist definitionsgemäß die Anwendung von Data Mining Techniken, um nützliche
Informationen aus dem Internet zu gewinnen und zu analysieren. [KoBl00]
1.1 Data Mining
„Als Data Mining […] bezeichnet man die softwaregestützte Ermittlung bisher unbekannter
Zusammenhänge, Muster und Trends aus dem Datenbestand sehr großer Datenbanken
beziehungsweise des Data Warehouse“ [HaNe01, S.474]
Die meisten Verfahren des Data Mining kommen aus der klassischen Statistik, allerdings
werden mittlerweile auch Techniken verwendet, die künstliche Intelligenz zu Hilfe nehmen.
So kann etwa die Analyse von Verkaufszahlen mit Hilfe von Data Mining Techniken zu
Erkenntnissen über das Benutzerverhalten oder neue Trends verhelfen. Oft ist solches Wissen
mit herkömmlichen Abfragesprachen nicht herleitbar, da entweder Benutzerwissen über die
Daten fehlt oder die Datenmengen zu groß sind. Im Zeitalter des Electronic Commerce
werden viele Daten über die Kunden gesammelt, die wertvolle Hinweise für eine erfolgreiche
Kundenbeziehung enthalten können. [vgl. HaNe01]
1.2 Web Mining
Web Mining versucht, die Analysemethoden des Data Mining auf die im Internet
vorhandenen Daten anzuwenden. Im Internet bestehen unterschiedliche Datenkategorien:
[vgl. SCDT00]
•
•
•
Inhalt (Content): Content sind die tatsächlichen, informationshaltigen Daten in
Websites und bestehen meist aus Text und Grafiken.
Struktur (Structure): Die Struktur von Websites beschreibt die logischen
Zusammenhänge zwischen Dokumenten sowie deren Organisation. Diese
Zusammenhänge können mittels der im Web gebräuchlichen Hyperlinks untersucht
werden.
Nutzung (Usage / User Profile): Usage beschreibt das Nutzerverhalten von Usern der
Website, während User Profile demografische Informationen über diese enthält.
Je nachdem, welche Daten verarbeitet und analysiert werden sollen, ergeben sich aus den
Datenkategorien drei verschiedene Richtungen des Web Mining:
Abb. 1: Einteilung des Web Mining
-6-
1.2.1 Web Content Mining
Web Content Mining beschäftigt sich mit dem Auffinden relevanter Informationen und
Dokumente im Web. Die fehlende Struktur im Internet macht das Auffinden von
Informationen allerdings schwierig. Suchmaschinen erleichtern zwar den Prozess des
Suchens, können aber weder strukturierte Information anbieten noch Dokumente
interpretieren. Dieser Zustand gibt Forschern den Anstoß, neue Methoden zur Auffindung von
Information im Internet zu entwickeln. [vgl. CoMS97]
1.2.1.1 Agents
Agents können miteinander interagieren und funktionieren unabhängig von jeder
menschlichen Kontrolle. Es werden drei Kategorien von Web Agents unterschieden:
•
•
•
Intelligent Search Agents (ISA): ISAs sollen gefundene Informationen organisieren
und interpretieren können. Sie sollen selbständig über die Struktur von noch
unbekannten Informationsquellen dazulernen können.
Information Filtering/Categorization: Auf Grundlage von Linkstrukturen und dem
Inhalt von Dokumenten werden Gruppenhierarchien erstellt und so die vorhandene
Information strukturiert.
Personlized Web Agents: Diese Agents filtern Information auf Grundlage der
Präferenzen eines Users, die sie dann mit anderen Benutzern vergleichen.
1.2.1.2 Database Approach
Hier sollen semi-strukturierte Daten im Internet strukturierter organisiert werden, um dann
mittels Datenbankabfragesprachen einfach darauf zugreifen zu können. Data Mining
Techniken können zur Analyse angewandt werden.
1.2.2 Web Structure Mining
Forschungsgegenstand ist im Bereich des Web Structure Mining die Linkstruktur innerhalb
des gesamten Internets. Aus der Linkstruktur sollen dann Erkenntnisse über den Inhalt
gewonnen werden. Mit diesen Informationen erhofft man sich, effizienteres Web Mining
betreiben zu können.
Es wird außerdem versucht, Websites zu Typen zusammenzufassen. Die Effizienz von
Suchmaschinen kann entscheidend verbessert werden. Ein Beispiel für Web Structure Mining
ist das PageRank Verfahren. [Schn04] Dabei wird analysiert, wie viele Links auf welche Site
verweisen. Ist diese Zahl hoch, wird von einer größeren Relevanz der Website ausgegangen.
Praktische Anwendung findet dieses Verfahren bei der Suchmaschine Google.
1.2.3 Web Usage Mining
Beim Web Usage Mining geht es darum, Daten über das Verhalten von Benutzern einer
Website zu gewinnen und zu analysieren. Eine genauere Beschreibung folgt in Kapitel 4.
-7-
2 Web Usage Mining
„Web usage mining is the automatic discovery of user access patterns from web servers.“
[CoMS97]
“Web usage mining focuses on techniques that could predict user behaviour while the user
interacts with the Web.” [KoBl00]
Wie schon in den obigen Definitionen erwähnt, versucht das Web Usage Mining,
Benutzerverhalten im Web unter Anwendung von Data Mining Techniken zu analysieren und
so auf zukünftige Verhaltensweisen zu schließen. Dabei werden bei der Interaktion sekundäre
Daten gewonnen. Die Daten können dabei entweder auf Ebene des Servers, eines Proxys oder
direkt beim Webbrowser gesammelt werden. Durch die Sammlung und Auswertung von
solchen Transaktionsdaten wird die Personalisierung von Websites ermöglicht. So können
beispielsweise persönlich abgestimmte Werbebotschaften übermittelt werden.
Durch die Anwendung dieser Techniken kann auch der Erfolg einer Seite besser gemessen
und die Marketingstrategie effizienter abgestimmt werden.
2.1 Web Usage Mining Prozess
Der Prozess des Web Usage Mining kann grob in drei Phasen eingeteilt werden:
•
•
•
Preprocessing
Pattern Discovery
Pattern Analysis
Abb. 2: Architektur des Web Usage Mining [CoMS97]
Wie in Abb.2 dargestellt, ergeben sich speziell im Bereich des Preprocessing diverse
Subprozesse. Auf den Prozess des Web Usage Mining und die verwendeten Techniken soll im
folgenden Abschnitt genauer eingegangen werden.
-8-
2.2 Preprocessing
Die Phase des Preprocessing soll für die Analyse notwendige Daten erfassen und in eine
geeignete Abstraktionsebene bringen. Dabei muss entschieden werden, welche Art der Daten
gesammelt wird und wie diese am besten für eine Analyse gespeichert und aufgearbeitet
werden können.
2.2.1 Webdaten
Je nachdem, welche Daten verwendet werden, kann zwischen Web Log Mining und
Integrated Web Usage Mining unterschieden werden. Wenn sich die Analyse der
Verhaltensdaten auf Logfiles beschränkt, spricht man von Web Log Mining. Werden dabei
noch zusätzliche Datenquellen herangezogen, handelt es sich um Integrated Web Usage
Mining.
Abb. 3: Unterteilung des Web Usage Mining
Daten können auf unterschiedlichen Ebenen gesammelt werden. Im Folgenden werden die
Datenkategorien für das Web Log Mining genauer beschrieben. [vgl. HiMW02, S.9ff]
2.2.1.1 Logfiles
Ein Webserver erzeugt während der Interaktion mit einem Benutzer die so genannten
Logfiles. In diese Logfiles werden sämtliche Anfragen der unterschiedlichen Benutzer
automatisch vom Server eingetragen, ohne dass es für den Nutzer wahrnehmbar ist. [O.A.a]
So können die eingegangenen Anfragen sehr einfach ermittelt werden. Es wird beispielsweise
gespeichert, von welcher IP-Adresse aus welche Inhalte angefragt wurden, welcher
Webbrowser dafür benutzt wurde oder welche Fehler dabei auftraten.
Unterschieden wird hier zwischen Access Logfiles und Error Logfiles. Das Acces Logfile
protokolliert Zugriffe während das Error Logfile Zugriffsfehler protokolliert. Jedes Element
einer Seite wird mitprotokolliert. Ein Logfileeintrag ist also nicht eine ganze Internetseite,
sondern es wird beispielsweise für jedes Bild, das zum Seitenaufbau notwendig ist, ein
eigener Logfileeintrag erstellt.
Es existieren unter Anderem folgende Logfile-Formate:
•
•
•
•
•
Common Logfile Format
Combined Logfile Format
NCSA Common Format
W3C Extended Format
Microsoft IIS Format
-9-
Das Common Logfile Format (CLF) ist das älteste und einfachste Logfile-Format und wird
von allen Webservern unterstützt. [vgl. Brue o.J.]
Ein Logfile im Combined Logfile Format könnte beispielsweise so aussehen:
213.14.56.64 - - [16/Jun/2005:10:30:07 +0100] “GET /homepage/pages/ HTTP/1.1” 200 3829
“http://www.beispiel.com/” “Mozilla/4.08 [de] C-DT (WinNT; I)”
Die Erklärung der einzelnen Elemente befindet sich in Tabelle 1.
Eintrag
213.14.56.64
--
[16/Jun/2005:10:30:07 +0100]
“GET /homepage/bild.gif HTTP/1.1”
200
3829
“http://www.beispiel.com/”
“Mozilla/4.08 [de] C-DT (WinNT; I)”
Beschreibung
IP-Adresse des Anfragenden
Wenn der Benutzer auf dem System
eingeloggt ist, sieht man hier den
Usernamen
Datum:Uhrzeit [+|-]Zeitverschiebung
Anforderung einer Datei
Statusnummer (200 = erfolgreiche
Abfrage
Menge der gesendeten Byte
Internetseite, von der die Anforderung
kommt
Browser, Betriebssystem des Benutzers
Tabelle 1: Elemente eines Logfiles [vgl. ErLe04]
Logfiles sind die am häufigsten verwendete Datenquelle für das Web Usage Mining, da sie
günstig und einfach zu erheben sind.
2.2.1.2 Cookies
Cookies sind Dateien, die der Webserver auf dem Rechner des Benutzers anlegt. Meistens ist
dies eine Textdatei, die den Besucher bei nachfolgenden Transaktionen identifiziert. Cookies
können temporär für die Dauer eines Aufenthalts oder dauerhaft vergeben werden, sie bleiben
also auch nach Beenden der Internetverbindung auf dem Benutzerrechner gespeichert. Im
Sinne des Web Usage Mining ist diese „persistente“ Abspeicherung vorteilhaft, da die Nutzer
beim nächsten Besuch wiedererkannt werden können. Allerdings ist die Vergabe von Cookies
vom guten Willen des Users abhängig, da er diese in den Einstellungen des Webbrowsers
leicht blockieren kann.
Cookies haben den Vorteil, dass sie eine vom Benutzer völlig unbemerkte Identifizierung
ermöglichen. Sie wurden allerdings auch schon von Websites missbraucht, weshalb einige
User Cookies nicht zulassen oder diese löschen.
2.2.1.3 Weitere Datenquellen
Eine Reihe weiterer Datenquellen kommen für das Web Usage Mining in Frage:
[vgl. HiMW02, S.9ff]
•
Server Monitor / Server Plug-In
Server Monitore werden als Server Plug-Ins realisiert und sind dadurch in der Lage,
alle serverseitigen Ereignisse aufzuzeichnen. Der Vorteil besteht darin, dass die Daten
sofort in ein Data Warehouse übertragen und ausgewertet werden können.
- 10 -
•
•
•
•
Network Monitor / Packet Sniffer
Der Network Monitor, auch Packet Sniffer genannt, sammelt die TCP/IP Pakete, die
zwischen Benutzer und Webserver verschickt werden. Auch er schickt die Daten
direkt an die Datenbank weiter.
Dynamische Seitenprogrammierung
Für die Analyse von Userverhalten auf dynamisch generierten Websites sind Tools
notwendig, die die übergebenen Parameter aus der URL auslesen können.
Reverse Proxy Monitor
Der Kommunikationsstrom zwischen Client und Webserver wird gefiltert, zusätzliche
Informationen wie beispielsweise CGI-Parameter können erhoben werden.
Application Monitor
Application Server liefern die Inhalte in komplexen Websites und können dadurch
detailliert Auskunft über die abgerufenen Seiten liefern. Besonders interessant sind
etwa der Kauf von Produkten, die Betrachtung der Werbung oder das Einfügen von
Waren in den Warenkorb.
2.2.2 Data Cleaning
Data Cleaning beschäftigt sich damit, Fehler und Inkonsistenzen in Daten zu entdecken und
zu entfernen, um die Datenqualität zu verbessern. Grund für solche Inkonsistenzen können
fehlende oder fehlerhafte Daten sein. Je größer ein System ist, desto wichtiger wird das Data
Cleaning um Datenredundanz zu vermeiden. [RaDo o.J.]
Im Bereich Web Usage Mining bedeutet das, dass irrelevante Logfile-Einträge gelöscht
werden müssen. Erkannt werden irrelevante Einträge an der URL, beispielsweise können
Bilder als irrelevant erachtet werden. Wichtig ist, dass die Logfile-Einträge zu Seiten
integriert werden. Jedes Element, aus dem eine Seite besteht, wird als eigener Logfile-Eintrag
festgehalten. Diese vielen Einträge müssen zu Hits zusammengefasst werden, um eine
sinnvolle Weiterverarbeitung zu ermöglichen. Zusätzlich sollen nur solche Einträge erfasst
werden, die eine erfolgreiche Übertragung aufweisen.
Schwieriger ist es, wichtige Zugriffe zu erheben, die nicht erfasst wurden. Caches und
Proxy Server können das Bild der Benutzerinteraktionen verzerren. Eine Seite, die nur einmal
im Logfile aufscheint, könnte mehrmals von mehreren Usern abgerufen worden sein. Es
existieren verschiedene Vorschläge zur Lösung dieser Probleme, die allerdings alle mit
Schwierigkeiten zu kämpfen haben. [vgl. Pitk97]
2.2.3 Transaction Identification
Bevor der Mining-Prozess stattfinden kann, werden logische Einheiten gebildet, die eine
Transaktion oder User-Session abbilden. Eine Session beinhaltet alle Seitenaufrufe eines
Benutzers während eines einzelnen Seitenaufenthalts.
2.2.3.1 Identifikation von Sessions
Die vollständigen Bewegungspfade von Benutzern sollen im Rahmen der Identifikation von
User-Sessions nachvollzogen werden. Die einzelnen Seitenaufrufe werden vom Server im
Logfile zunächst als unabhängige Vorgänge abgespeichert. Unter einer Session versteht man
eine Abfolge von Seitenaufrufen, die von einem einzelnen Benutzer während eines Besuchs
gemacht wurden. [CoMS97] Im Vorfeld ist es möglich, Session-IDs zu vergeben, um den
Bewegungspfad zu rekonstruieren und trotzdem die Anonymität zu wahren.
- 11 -
Schwierig ist es, festzustellen, wann ein Benutzer die Website verlassen hat. Oft werden
hier Timeouts von 30 Minuten verwendet. [SCDT00]
2.2.3.2 Identifikation von Benutzern
Identifikation von Benutzern ist für das Web Usage Mining von großer Bedeutung. Nutzer
sollen bei einem neuen Besuch der Website wieder erkannt werden können. Dadurch kann das
Benutzerverhalten über einen längeren Zeitraum und über mehrere Besuche hinweg
untersucht werden.
Die eindeutige Identifikation von Benutzern stellt im Rahmen des Web Usage Mining
allerdings eine schwierige Aufgabe dar. Ein Ansatz ist die Identifikation eines Benutzers
anhand seiner IP-Adresse. Diese ist aber oft nicht eindeutig. Das liegt daran, dass Internet
Service Provider häufig den Benutzern die IP-Adressen dynamisch zuordnen. Zusätzlich
können sich hinter einer Adresse mehrere Rechner verbergen, wenn ein lokales Netzwerk eine
gemeinsame Firewall nutzt und somit nach außen hin mit einer einzigen Adresse aufscheint.
Dieses Problem versucht man zu lösen, indem man die IP-Adresse mit dem verwendeten
Browser verknüpft. Doch selbst dann kann nicht von einer eindeutigen Identifizierung
gesprochen werden. [HiMW02]
Die Verwendung von Cookies ermöglicht die Identifikation eines bestimmten Rechners.
Probleme ergeben sich hier, wenn Benutzer Cookies am Browser deaktivieren oder mehrere
Nutzer von einem Rechner auf die Website zugreifen. Eine andere Möglichkeit, einen User
eindeutig zu identifizieren, ist eine Registrierung.
2.2.4 Zusätzliche Datenquellen (Integrated Web Usage Mining)
Die eindeutige Identifikation von einzelnen Benutzern ist nur aufgrund der IP-Adresse sehr
schwierig (siehe Kap. 3.2.3.2), würde für das Web Usage Mining aber einen großen Mehrwert
darstellen.
Abb. 4: Mögliche Datenquellen [HiMW02, S.15]
Auch demografische Daten und andere persönliche Informationen können für Web Usage
Miner von großem Wert sein.
- 12 -
2.2.4.1 Registrierung
Durch eine Registrierung gibt der Kunde persönliche Daten preis, um Zugang zu einer
Website zu erhalten. Der Hauptzweck für das Web Usage Mining ist die eindeutige
Identifizierbarkeit eines Benutzers. Es wird dadurch ermöglicht zu analysieren, welcher
Benutzer sich wann wie lange womit beschäftigt hat. Außerdem hat der Anbieter die
Möglichkeit, durch die Abfrage persönlicher Informationen etwas über den Besucher in
Erfahrung zu bringen. Dabei können sowohl soziodemografische Daten (Name, Adresse,
Alter etc.) als internetspezifische Details (Email-Adresse etc.) von Nutzen sein.
Es liegt im Interesse des Anbieters, dass der Nutzer die Möglichkeit hat, seine verlorenen
Zugangsdaten wieder zu bekommen. Gibt es keine derartigen Mechanismen, kann dies zu
Verlust des Kunden oder zu einer Verfälschung der Statistiken bei Neuanmeldung führen.
Bei einer Registrierung bietet sich gleichzeitig die Möglichkeit, Interessensschwerpunkte
der Nutzer in Erfahrung zu bringen. Durch die Erfassung der Präferenzen der einzelnen User
kann eine erste Personalisierung der Site erfolgen.
In Verbindung mit der Registrierung erfolgt meist die Bildung eines Benutzerprofils.
Darunter versteht man die Summe an Attributen, die einem Benutzer zugeordnet wird. Man
unterscheidet zwischen expliziter und impliziter Profilgenerierung.
•
•
Explizite Profilgenerierung: Profile werden auf Grundlage der vom Benutzer
angegebenen Daten und Präferenzen erzeugt.
Implizite Profilgenerierung: Die Präferenzen und Interessen des Users werden durch
Analysen seines Nutzungsverhaltens ermittelt.
Die Anpassung der Inhalte auf den Benutzer wird durch die Profilbildung ermöglicht. Es
gibt unterschiedliche Spielarten der Personalisierung. Es reicht von der Auswahl der
angezeigten Seiteninhalte durch den Benutzer bis hin zum Collaborative Filtering, wo die
Inhalte fast zur Gänze implizit aufgrund des Benutzerverhaltens erzeugt werden. [HiMW02]
2.2.4.2 Weitere Quellen
Eine weitere Möglichkeit, Zusatzinformationen zu beziehen, sind Online-Umfragen. Diese
können per Email oder mit Hilfe von HTML-Fragebögen durchgeführt werden. Sie bieten
vielfältige Möglichkeiten, relevante Informationen über die Nutzer einer Website zu erheben.
Als weitere Datenquelle kommt vor allem die Kundendatenbank des Unternehmens in Frage.
Hier sind die für eine Geschäftsbeziehung notwendigen Daten gespeichert. Besonders
relevant sind jene Aufzeichnungen, die Transaktionen betreffen. Aus der Kundendatenbank
lassen sich Daten für das Benutzerprofil ableiten. Externe Daten können ebenfalls
herangezogen werden. So können beispielsweise allgemeine Daten, die durch Umfragen
erhoben wurden, einbezogen werden. Vorsicht ist aber geboten, da die Daten nicht unbedingt
für die Website repräsentativ sein müssen.
2.2.5 Data Integration
Sobald die Datengewinnung abgeschlossen ist, müssen die erhobenen Daten in einer
Datenbasis integriert werden. Dabei ist darauf zu achten, dass die Daten in die für die
Weiterverarbeitung notwendige Abstraktionsebene gebracht werden.
Die Hauptaufgabe liegt darin, mehrere Datenquellen zu einer gesamten Datenbasis
zusammenzufügen. Für den Anwender muss die Datenbasis homogen sein. Das Ziel ist also
eine homogene Sichtweise auf Daten aus unterschiedlichen Quellen. Derzeit gibt es für dieses
Problem keine vollkommene Lösung, obwohl sich die Forschung schon länger damit
- 13 -
beschäftigt. Die meisten Probleme sind auf die semantische Heterogenität der Daten
zurückzuführen. [ZiDi04]
2.3 Pattern Discovery
Im Rahmen de Pattern Discovery sollen Muster im Benutzerverhalten herausgefiltert werden.
Es sind jene Muster von Bedeutung, die wiederkehrend auftreten. Es existieren
unterschiedliche Methoden zur Gewinnung von Mustern:
2.3.1 Pfadanalyse
Die meist besuchten Pfade einer Website werden bei der Pfadanalyse untersucht. Man kann
dadurch auf die wichtigsten Strukturen und Dokumente einer Seite schließen. Es ist etwa
möglich, die durchschnittliche Anzahl der pro Besuch aufgerufenen Seiten oder die häufigste
Startseite zu ermitteln. [CoMS97]
Die gewonnenen Pfade können mit Hilfe eines Pfaddiagramms dargestellt werden (Abb.4).
Die aufgerufenen Seiten werden als Knoten dargestellt, die Bewegungen der Benutzer als
Kanten. [vgl. Gron05]
Abb. 5: Beispiel Pfaddiagramm
2.3.2 Assoziationsregeln
Assoziationsregeln suchen nach Zusammenhängen in Datenbanken. Im Fall eines
Supermarktes könnte beispielsweise erhoben werden, dass Bier und Chips oft gemeinsam
gekauft werden. [ScBi04]
Im Rahmen des Web Usage Mining zeigen Assoziationsregeln an, welche Webseiten
besonders häufig innerhalb einer Session gemeinsam aufgerufen wurden. Besonders wichtig
ist, herauszufiltern, welche Webseiten das Anwählen von anderen implizieren. Das kann bei
einer Neustrukturierung und Organisation einer Website hilfreich sein. [vgl. SCDT00]
2.3.3 Sequenzielle Muster
Sequenzielle Muster (engl.: sequential patterns) fügen eine zeitliche Komponente hinzu. Es
werden Mengen von zusammengehörigen und zeitlich geordneten Sequenzen von
Transaktionen gesucht. Das könnte so aussehen: Viele Besucher, die die Seiten A.html und
B.html besucht haben, haben später auch die Seiten C.html und D.html besucht. Dadurch
können dem Benutzer Seiten empfohlen werden, die für ihn wahrscheinlich relevant sind.
[vgl. AgSr95]
2.3.4 Clustering, Klassifikation
Mit Hilfe von Klassifikationsregeln werden hier Benutzerprofile gebildet. Nutzer, die
ähnliche Browsinggewohnheiten haben, werden zu Gruppen zusammengefasst. Aufgrund der
Zugehörigkeit zu einer solchen Gruppe können dem Benutzer dann Empfehlungen angezeigt
werden. Sollte der Benutzer nicht bei jedem Besuch wieder erkannt werden können, ist nur
eine kurzfristige Gruppenzuordnung möglich. [vgl. SCDT00]
- 14 -
2.4 Pattern Analysis
Den letzten Schritt im Rahmen des Web Usage Mining stellt die Analyse der gewonnenen
Muster (engl.: pattern analysis) dar. Hauptsächlich geht es darum, uninteressante Muster
herauszufiltern und die interessanten zu visualisieren. Dabei könnten etwa folgende
Ergebnisse herauskommen: Die Anzahl der Abrufe per Dokument, der letzte Abruf eines
Dokuments, wer besucht welche Dokumente oder die Häufigkeit der Benützung eines
Hyperlinks.
2.5 Nutzen des Web Usage Mining
Die Erkenntnisse des Web Usage Mining können den Betreibern in vielerlei Hinsicht Nutzen
bringen. Im folgenden Kapitel werden die unterschiedlichen Verbesserungen, die durch das
Web Usage Mining erzielt werden können, aufgezeigt.
2.5.1 Personalisierung
Die Möglichkeit, das Nutzerverhalten bis hin zu den einzelnen Mausklicks
zurückzuverfolgen, erlaubt es dem Verkäufer, seine Produktbotschaft für jeden einzelnen
Kunden persönlich zu gestalten. Personalisierung ist die wohl wichtigste Anwendung des
Web Usage Mining. Personalisierung ist allerdings nicht nur für das E-Commerce sondern für
jede Webapplikation anwendbar. Personalisierung ist definiert als jede Aktion, die die
Interaktion mit dem Web für jeden User oder für jedes Set von Usern individuell zuschneidet.
[CoMS00]
Man unterscheidet zwischen drei großen Kategorien: Manual Decision Rule Systems,
Collaborative Filtering Systems und Content-Based Filtering Agents.
•
•
•
Manual Decision Rule Systems basieren auf Präferenzen der Nutzer und statischen
Profilen, die bei der Registrierung gesammelt wurden.
Collaborative Filtering Systems führen Personalisierung aufgrund von
Ähnlichkeiten zwischen Nutzern durch. Aufgrund des eigenen Verhaltens und des
Verhaltens der anderen User werden Inhalte angezeigt, die wahrscheinlich die
Präferenzen des speziellen Nutzers treffen.
Content Based Filtering Agents versuchen, die Präferenz eines Nutzers durch den
Vergleich der explizit oder implizit gewonnenen Userdaten mit den
Produkteigenschaften zu ermitteln.
Die Aufgaben für das Web Usage Mining liegen hier etwa im Finden von Assoziationsregeln,
sequentiellen Mustern oder Clustern. Personalisierung kann in unterschiedlichster Form
auftreten. Beispielsweise könnten spezielle Links oder Produkte empfohlen werden,
zugeschnittene Werbebotschaften, aber auch Text und Grafik für den einzelnen User
angeboten werden. Das kann bis zu einem komplett unterschiedlichen Aussehen einer
Website für jeden User führen. [CoMS00]
Oft wird das Clustering (siehe Kap. 3.3.4) für die Personalisierung eingesetzt. Nutzer, die
ein ähnliches Navigationsverhalten aufweisen, werden zu Gruppen zusammengefasst. Neue
Besucher können dann rasch aufgrund des Browsingverhaltens einem Cluster zugeordnet
werden. Gruppen oder Benutzerprofile können als Vektoren dargestellt werden, um mittels
Vektoroperationen passende Profile zu finden.
Die Zuordnung zu solchen Gruppen liefert die Grundlage für die abgegebenen
Empfehlungen. Wenn Nutzer beispielsweise durch eine Registrierung bekannt sind, wird die
Empfehlung vom längerfristigen Nutzerverhalten abgeleitet. Ist der Nutzer anonym, kann nur
das kurzfristige Verhalten herangezogen werden.
- 15 -
Der WebPersonalizer ist ein System, das die Personalisierung unterstützt. Er bietet dem
Nutzer eine Reihe empfohlener Links an, während dieser durch die Website navigiert.
[vgl. CoMS00]
2.5.2 Systemverbesserung
Bei vielen Applikationen ist die Geschwindigkeit ein entscheidendes Erfolgskriterium. Web
Usage Mining liefert entscheidende Informationen, um Systemverbesserungen durchführen zu
können. Verhalten von Nutzern im Web wird analysiert, also kann der Verkehr der Benutzer
besser verstanden werden. So können effizientere Architekturen für den Datenverkehr
konstruiert werden. Auch Anwendungen für die Sicherheit im Internet können verbessert
werden Sogar die Generierung von Dynamischen Webseiten auf Vorrat kann durch das Web
Usage Mining verwirklicht werden. [SCDT00]
2.5.3 Site-Modifizierung
Für viele Websites ist deren Attraktivität ausschlaggebend für den Erfolg. Die detaillierte
Darstellung des Nutzerverhaltens, die das Web Usage Mining liefert, hilft den Designern, ihre
Websites den Bedürfnissen der Benutzer anzupassen. Schlussendlich wird die automatische
Restrukturierung durch die gefundenen Muster ermöglicht. [SCDT00]
2.5.4 Business Intelligence
Web Usage Mining liefert auch wichtige Daten für das Marketing für Firmen, die im Internet
tätig sind. Vier verschiedene Schritte im Lebenszyklus einer Kundenbeziehung können
unterstützt werden. [BüMu98]
•
•
•
Customer Attraction: Potentielle Kunden sollen ausgewählt und gebunden werden.
Gemeinsame Charakteristiken der bereits bestehenden Kunden sollen gefunden
werden um diese in profitable und nicht profitable Gruppen einteilen zu können.
Daraus werden Marketingregeln abgeleitet, die dann auf die neuen User angewandt
werden. So können potentiellen Kunden dynamische Seiteninhalte präsentiert werden.
Customer Retention: Hier wird versucht, den Kunden möglichst gut an sich zu
binden. Im Internet ist das besonders schwierig, da keine räumlichen Barrieren
zwischen den Anbietern bestehen. Aufgrund des Nutzerverhaltens können
personalisierte Angebote erstellt werden, die zur Kundenbindung beitragen. Spezielle
Angebote sollen angezeigt werden, um das Interesse des Kunden aufrecht zu erhalten.
Cross Sales: Durch Cross Sales wird versucht, weitere Produkte zu verkaufen. Das
Kaufverhalten kann analysiert werden und andere Produkte können empfohlen
werden.
Durch Web Usage Mining gewonnene Daten zusätzlich zu den sonstigen Marketingdaten
großen Nutzen bringen.
2.6 Beispiel: Web Site Information Filter System (WebSIFT)
WebSIFT ist ein System zur automatischen Durchführung von Web Usage Mining. Der Web
Usage Mining Prozess wird hier, wie bereits beschrieben, in die Teilbereiche Preprocessing,
Pattern Discovery und Pattern Analysis zerlegt (siehe Abb. 6). Der Dateninput besteht aus den
Logfiles, den HTML-Files und optionalen Zusatzdaten wie Registrierungsdaten. In der Phase
des Preprocessing werden die gesammelten Daten zu einzelnen Sessions zusammengefasst.
Man geht davon aus, dass das die beste Methode ist, um das Navigationsverhalten der
Benutzer zu beobachten.
- 16 -
Regeln und Muster werden bei der Mustersuche mit Hilfe bekannter Data Mining
Verfahren herausgefiltert. Auch allgemeine Statistiken über die Nutzung einer Website wie
Hits pro Seite werden errechnet. Schlussendlich werden die gefundenen Muster in
Analysetools eingespeist. Dazu wird eine SQL-Datenbank und die Programmiersprache
JAVA verwendet. Bisher ist nur die Generierung und Filterung von häufig vorkommenden
Gruppen von Elementen, Assoziationsregeln und generellen Statistiken komplett
automatisiert möglich. [CoTS99]
Abb. 6: Web Usage Mining Prozess bei WebSIFT [CoTS99]
- 17 -
3 Österreichischer und Europäischer Rechtsrahmen
3.1 Definition des Informationsbegriffs
Der Begriff Information spielt rechtlich gesehen in unterschiedlicher Weise eine Rolle. Es hat
sich bisher allerdings keine einheitliche Definition innerhalb des Rechts durchgesetzt.
Darüber hinaus ist das „Informationsrecht“ kein eigenes Rechtsgebiet sondern eine
Querschnittsmaterie. Die Regelungen sind teils im öffentlichen, teils im privaten Recht
angesiedelt. Im Allgemeinen beschäftigt sich das Informationsrecht mit:
•
•
•
•
Verfügungsrechten an Information (Schutz des Urhebers)
Schutz gegen Information (unerwünschte Werbenachrichten, beeinträchtigende
Veröffentlichungen)
Ansprüche auf Information (Gewährung von Auskunft)
Haftung für Information (unrichtige Mitteilungen)
Ein charakteristischer Gegensatz liegt darin, dass einerseits ein großes Bedürfnis nach
umfassender Information besteht, andererseits bestimmte Informationen geschützt werden
müssen. So hat jedermann ein Grundrecht auf Schutz des Privat- und Familienlebens sowie
ein Grundrecht auf Datenschutz. [vgl. HoKW04]
3.2 Schutz der Privatsphäre
Im Zuge des Schutzes der Privatsphäre sollen sowohl die Intimsphäre als auch private
Informationen und Informationsbeziehungen geschützt werden.
„In einer von der Achtung der Freiheit geprägten Gesellschaft […] braucht der Bürger ohne
triftigen Grund niemandem Einblick zu gewähren, welchem Zeitvertreib er nachgeht, welche
Bücher er kauft, welche Zeitungen er abonniert, was er isst und trinkt und wo er die Nacht
verbringt. Auch wenn solche Vorgänge und Umstände nicht eigentlich geheim gehalten und
einem durch die Umstände beschränkten Personenkreis ohne weiteres bekannt werden, ist es
doch Sache des Betroffenen, ob und was er darüber welchen anderen wissen lässt.“ [VfSl91]
Das Grundrecht auf Datenschutz gewährt, dass jedermann einen Anspruch auf Geheimhaltung
der ihn betreffenden personenbezogenen Daten hat. Der Schutzbereich des
Datenschutzgesetzes 2000 (DSG 2000) umfasst die unberechtigte Übermittlung und
Veröffentlichung, aber auch die Ermittlung von Daten. Es werden sowohl natürliche als auch
juristische Personen geschützt, und dementsprechend auch sowohl Daten des Privat- und
Familienlebens und Wirtschaftsdaten. Jedes Individuum hat das Recht auf Auskunft,
Richtigstellung und Löschung der ihn betreffenden Daten. Allerdings ist ein Personenbezug
der Daten notwendig, das heißt die Daten müssen auf ein bestimmtes Individuum
zurückverfolgbar sein.
Voraussetzung für dieses Grundrecht ist ein schutzwürdiges Interesse an der
Geheimhaltung der Daten. Daten, die jedermann unschwer einsehen kann, sind nicht mehr
geheim zu halten. Die Art der Daten ist für die Schutzwürdigkeit von großer Bedeutung.
Geschäfts- und Betriebsgeheimnisse sind ebenso schutzwürdig wie Daten über die „rassische
und ethnische Herkunft, politische Meinung, Gewerkschaftszugehörigkeit, religiöse oder
philosophische Überzeugung, Gesundheit oder Sexualleben“ [DSG2000 §4 Z2] von
Individuen.
Eingriffe sind bei Vorliegen eines schutzwürdigen Geheimhaltungsinteresses dann
zulässig, wenn die Verwendung der Daten im lebenswichtigen Interesse des Betroffenen steht
- 18 -
oder wenn ein überwiegend berechtigtes Interesse anderer im Rahmen der
Verhältnismäßigkeit vorliegt. Ferner bedarf es einer gesetzlichen Grundlage.
Das Rechtssystem ist im Datenschutzrecht traditionell zweigeteilt: Verletzungen des
Grundrechts sind vor der Datenschutzkommission durchzusetzen, sofern sie von einem Organ
mit hoheitlichen Befugnissen begangen wurden, im privaten Bereich vor Gericht. [HoKW04]
3.3 Europarechtlicher Rahmen
3.3.1 Artikel 8 Europäische Menschenrechtskonvention (EMRK)
Prinzipiell gibt es auf europäischer Ebene nur wenige Bestimmungen, die sich mit den
Grundrechten im Bereich Datenschutz beschäftigen. Insbesondere ist Artikel 8 der EMRK zu
nennen:
„Artikel 8 - Recht auf Achtung des Privat- und Familienlebens
(1) Jedermann hat Anspruch auf Achtung seines Privat- und Familienlebens, seiner
Wohnung und seines Briefverkehrs.
(2) Der Eingriff einer öffentlichen Behörde in die Ausübung dieses Rechts ist nur statthaft,
insoweit dieser Eingriff gesetzlich vorgesehen ist und eine Maßnahme darstellt, die in
einer demokratischen Gesellschaft für die nationale Sicherheit, die öffentliche Ruhe und
Ordnung, das wirtschaftliche Wohl des Landes, die Verteidigung der Ordnung und zur
Verhinderung von strafbaren Handlungen, zum Schutz der Gesundheit und der Moral
oder zum Schutz der Rechte und Freiheiten anderer notwendig ist.“ [EMRK98]
Die Schutzstandards der EMRK sind die Mindeststandards des Grundrechtschutzes in der
gesamten europäischen Union.
3.3.2 Europäische Datenschutzrichtlinie
Die europäische Datenschutzrichtlinie soll den freien Verkehr personenbezogener Daten
innerhalb der Gemeinschaft gewährleisten und gleichzeitig einen möglichst hohen Schutz bei
der Verarbeitung dieser Daten sicherstellen. Die Richtlinie selbst soll nur Daten natürlicher
Personen schützen, in Österreich wurden aber auch Daten juristischer Personen sowie
Personengemeinschaften einbezogen.
Für die Rechtmäßigkeit einer Datenverarbeitung ist die Qualität der Daten und die
Zulässigkeit der Verarbeitung ausschlaggebend. Für sensible Datenkategorien gilt ein
grundsätzliches Verarbeitungsverbot. Zusätzlich bestehen Informations- und Meldepflichten,
um ein Höchstmaß an Transparenz und Publizität zu garantieren. Damit soll die individuelle
und institutionelle Kontrolle der Verarbeitung gewährleistet werden. Zur Minimierung von
Risiken bestehen Regeln zur technischen und organisatorischen Sicherheit bei der
Verarbeitung. [vgl. DsRl02]
3.4 Datenschutzrecht
Da die Öffentlichkeit sich zunehmend der Gefahr der unkontrollierten Weitergabe von
persönlichen Daten bewusst wird, müssen Schutzmechanismen entwickelt werden, um das zu
verhindern. Infolge dessen wurde das Datenschutzgesetz 1978 ausgearbeitet. Da dieses nur
unzureichenden Schutz bot, wurde es im Jahr 2000 zum DSG 2000 weiterentwickelt. Dieses
Gesetz gewährt ein informationelles Selbstbestimmungsrecht des Einzelnen.
- 19 -
3.4.1 Definitionen
In diesem Abschnitt sollen einige Begriffe geklärt werden, die zum Verständnis der
rechtlichen Situation notwendig sind. [vgl. HoKW04]
3.4.1.1 Daten
Daten („personenbezogene Daten“) sind Angaben über Betroffene, deren Identität bestimmt
oder bestimmbar ist. Betroffene können sowohl natürliche als auch juristische Personen sein,
also werden auch Wirtschaftsdaten geschützt. Nicht nur Tatsachenaussagen, sondern auch
Werturteile fallen in den Schutzbereich.
Sensible Daten (Daten über ethnische Herkunft, politische Meinung,…) nehmen eine
besondere Stellung mit erhöhtem Schutz ein. Das DSG 2000 umfasst nur die elektronisch
gestützte Verarbeitung von Daten, während das Grundrecht auf Datenschutz unabhängig
davon Schutz bietet.
3.4.1.2 Auftraggeber, Dienstleister
Der Auftraggeber hat die zentrale Verantwortung für die gesetzeskonforme Verwendung von
Daten und ist primärer Ansprechpartner für den Betroffenen. Er hat folgende Pflichten:
•
•
•
•
Er ist verantwortlich für die Zulässigkeit der Verwendung von Daten
Er muss Vorkehrungen zur Datensicherheit treffen
Er ist registrierungspflichtig
Er muss Personen, über die er Daten gespeichert hat, Auskunft darüber geben und
ihnen die Möglichkeit zur Richtigstellung und Löschung bieten
Grundsätzlich ist derjenige Auftraggeber, der die Entscheidung zur Datenverarbeitung
getroffen hat.
Dienstleister sind vor allem Hilfsorgane zur technischen Unterstützung wie zum Beispiel
der elektronische Transport von Daten.
3.4.1.3 Datenhandhabung
Unter Verwendung von Daten versteht man jegliche Art der Handhabung von Daten wie etwa
das Ermitteln, Erfassen oder Speichern. Das Entscheidende an einer Datenanwendung ist,
dass sie teils oder voll automatisiert ist. Die Übermittlung von Daten an Dritte unterliegt
besonders strengen Auflagen.
3.4.2 Datenverwendung
Im DSG 2000 werden bestimmte allgemeine Grundsätze zur Datenverwendung aufgezeigt.
Folgende Grundsätze müssen eingehalten werden:
•
•
•
Treu und Glauben: Hier wird insbesondere eine umfassende Information für den
Betroffenen verlangt, damit dieser seine Rechte wahren kann.
Zweckbindung: Dieser Grundsatz verlangt, dass der Zweck der Datenverarbeitung
eindeutig bestimmt sein muss. Eine Weiterverwendung, die nicht dem ursprünglich
definierten Zweck entspricht, ist unzulässig. Weiters dürfen die Daten nicht über den
Umfang hinausgehen, der zum Erreichen des Zwecks notwendig ist. Auch zeitlich darf
die Speicherung nicht unbegrenzt erfolgen. Ermittlung von Daten auf Vorrat ist somit
unzulässig.
Richtigkeit und Aktualität: Richtigkeit ist im Hinblick auf den Zweck der
Datenverarbeitung erforderlich.
- 20 -
Zulässig ist eine Datenverarbeitung dann, wenn
•
•
•
eine Berechtigung des Auftraggebers besteht,
schutzwürdige Geheimhaltungsinteressen der Betroffenen gewahrt sind und
der Empfänger dem Übermittelnden seine rechtliche Befugnis glaubhaft machen kann.
Für nicht sensible Daten gelten allgemeine Regeln, für sensible Daten existiert eine Liste der
zulässigen Verwendungsfälle.
Die Verwendung nicht sensibler Daten ist dann zulässig, wenn eine Zustimmung des
Betroffenen vorliegt. Allerdings muss diese Zustimmung in Kenntnis der Sachlage für den
konkreten Fall erfolgen, der Betroffene muss also wissen, welche Daten von wem zu
welchem Zweck verwendet werden. Eine Zustimmung bezieht sich also immer nur auf einen
gewissen Zweck. Für eine anderwärtige Verwendung ist eine neuerliche Zustimmung
notwendig. Das setzt voraus, dass der Zweck eine gewisse Bestimmtheit aufweist. Eine
Verwendung für Werbezwecke ist beispielsweise nicht bestimmt genug.
Die Verwendung sensibler Daten ist nur in bestimmten Fällen zulässig, beispielsweise
wenn sie der Betroffene selbst veröffentlicht hat oder die Daten nur indirekt personenbezogen
verwendet werden.
3.4.3 Informationspflichten
Jeder Auftraggeber hat vor Inbetriebnahme seiner Datenanwendung Meldung an die
Datenschutzkommission
zu
erstatten.
Danach
wird
die
Anwendung
im
Datenverarbeitungsregister (DVR) eingetragen und erhält eine DVR-Nummer. Jedermann
kann Einsicht in das DVR nehmen. Unmittelbar nach Meldung kann der Betrieb
aufgenommen werden. Bei der Verarbeitung von sensiblen Daten ist eine Prüfung durch die
Datenschutzkommission (DSK) abzuwarten.
Der Auftraggeber einer meldepflichtigen Datenanwendung hat die Betroffenen zu
informieren über:
• Zweck der Datenanwendung
• Seinen Namen und Adresse
3.4.4 Rechte des Betroffenen
Dem Betroffenen werden einige Rechte eingeräumt, um die Handhabung seiner persönlichen
Daten beeinflussen und unterbinden zu können. [vgl. HoKW04]
3.4.4.1 Auskunft
Der Betroffene hat das Recht, binnen acht Wochen nach der Anfrage über die von ihm
verarbeiteten Daten und weitere wichtige Umstände informiert zu werden. Ein mal pro Jahr
hat diese Information kostenlos zu erfolgen.
3.4.4.2 Richtigstellung und Löschung
Der Auftraggeber hat von sich aus unrichtige Daten richtigzustellen. Sollten Daten für den
Zweck der Datenverarbeitung nicht mehr benötigt werden, sind sie ebenfalls zu löschen. Liegt
ein Antrag des Betroffenen zur Löschung oder Richtigstellung vor, ist ihm innerhalb von acht
Wochen zu entsprechen.
- 21 -
3.4.4.3 Widerspruch
Jeder Betroffene kann die Verwendung seiner Daten durch den Auftraggeber binnen acht
Wochen unterbinden. Der Auftraggeber muss die Daten löschen und Übermittlungen
unterlassen.
3.4.5 Datenschutzorgane, Anwendbarkeit des Rechts
Im privaten Bereich sind die ordentlichen Gerichte, im öffentlichen die DSK zuständig. Die
Rechtsanwendung erfolgt in Europa nach dem Sitzstaatsprinzip. Danach kommt das Recht des
Landes zur Anwendung, in dem das Unternehmen seinen Sitz hat und die Datenverarbeitung
stattfindet. Unternehmen soll so die Belastung durch die Anwendung unterschiedlicher
Rechtsnormen erspart werden.
- 22 -
4 Userinteressen
Es liegt im Interesse jedes einzelnen Nutzers des Internet, seine persönlichen Daten zu
schützen. Man will sein Onlineverhalten und seine persönlichen Vorlieben nicht jedem
beliebigen Kommunikationspartner offen legen. Man will sich vor den Gefahren, die
potentiell im Internet lauern, möglichst effizient schützen. Auch dieses Bedürfnis der
Benutzer steht dem Informationsbedarf der Betreiber von Web Usage Mining gegenüber.
4.1 Anonymität im Internet
Das Recht auf Anonymität sollte eigentlich selbstverständlich sein, weshalb sich viele
Benutzer bei Aktivitäten im Internet anonym fühlen. Diese Anonymität ist jedoch trügerisch.
Menschen wähnen sich in einer vertrauten Umgebung sicher. Durch das Internet wird jedoch
das eigene Wohnzimmer zu einem nicht unbedingt sicheren Ort. [O.A.b]
Wünschenswert wäre es, eine sichere und unbemerkte Bewegung im Internet zu
ermöglichen wird. Die Realität sieht jedoch anders aus. Anonymes Surfen ist kaum möglich,
die meisten Seitenaufrufe sind zurückverfolgbar. So wird beispielsweise beim Webserver
ständig die IP-Adresse mitgeloggt wenn diese nicht verschleiert wird. Eine solche
Verschleierung ist beispielsweise mit Hilfe eines Proxy-Servers möglich. Das Senden der IPAdresse ist notwendig, damit die Nachricht überhaupt erst empfangen werden kann.
Zusätzlich werden für die Inanspruchnahme von vielen Diensten im Internet persönliche
Daten verlangt. Eine unüberlegte Preisgabe kann auch gefährlich sein, da der
Datenschutzmissbrauch durchaus verbreitet ist. Ein Beispiel ist die Weitergabe von EmailListen an Spammer. So kann es passieren, dass man durch die Preisgabe seiner Email-Adresse
hunderte von Werbemails unbekannten Ursprungs erhält. [Sevi03]
Nun stellt sich die Frage, ob Anonymität im Internet überhaupt in großem Ausmaß
notwendig ist. Dagegen spricht etwa, dass jemand, der nichts zu verbergen hat, auch nicht
anonym sein muss. Außerdem muss es möglich sein, Betreibern von illegalen Diensten im
Internet (Kinderpornografie, Rassismus, etc.) auf die Spur zu kommen. Datenschutz soll
möglichst eingeschränkt den Täterschutz unterstützen. Für Anonymität spricht, dass wie im
echten Leben eine Privatsphäre gewährleistet sein muss. Man soll vor einer
Rundumüberwachung geschützt werden und selbst entscheiden können, wem man seine
Identität preisgibt.
Die IP-Adresse selbst, die vom Webserver gespeichert wird, sagt noch nichts über die
Identität des Nutzers aus. Ermittelbar ist die Identität allerdings beim Internet Service
Provider (ISP). Dynamisch vergebene IP-Adressen garantieren einen höheren Grad an
Anonymität, da der Nutzer nicht wiedererkannt werden kann. ISPs müssen die gespeicherten
Daten im Falle einer Straftat herausgeben, Anonymität ist also hier nicht immer gewährleistet.
Eine weitere Gefährdung der Anonymität stellen Cookies dar. Sie dienen der
Wiedererkennung von Benutzern und können miteinander kombiniert sehr genaue
Informationen über einen Benutzer enthalten. [Sevi03]
Der Erkennung von IP-Adressen kann mit Proxy-Servern entgegengewirkt werden,
Cookies können beim Webbrowser deaktiviert werden. Dennoch ist eine komplette
Anonymität im Internet derzeit nicht realisierbar.
- 23 -
4.2 Studien
Es wurden bereits einige Studien und Befragungen von Benutzern zum Thema Sicherheit im
Internet durchgeführt. Im folgenden Abschnitt werden einige Ergebnisse präsentiert. [vgl.
TeKo04]
4.2.1 Persönliche Informationen
Bei der Preisgabe von persönlichen Informationen wie Name und Adresse sind Nutzer des
Internet relativ heikel. Bei den meisten Befragungen sind zwischen 70 und 85 Prozent der
Befragten bei der Preisgabe solcher Informationen beunruhigt. Bei der Freigabe von
Kreditkarteninformationen liegt die Zahl durchwegs sogar über 80 Prozent. Der Prozentsatz
jener, die die Anführung von persönlichen Informationen schon verweigert haben, liegt bei
80, allerdings haben 70 Prozent der Befragten bereits persönliche Information preisgegeben.
Die Hälfte der befragten Nutzer glauben, dass Websites, die Informationen mit anderen Sites
teilen, in die Privatsphäre eindringen. Ein Viertel der Befragungsteilnehmer würden keine
persönlichen Informationen weitergeben, etwa 30 Prozent haben bereits falsche Informationen
bei einer Registrierung angegeben. Man sieht also, dass sich die Befragten sehr wohl Sorgen
über die Verwendung ihrer persönlichen Daten machen.
4.2.2 Persönliche Daten im gewerblichen Kontext
Persönliche Daten sind oft für das Marketing von Bedeutung. Allerdings wünschen sich 90
Prozent der Befragten, vor einer diesbezüglichen Verwendung um Erlaubnis gefragt zu
werden. Außerdem machen sich 86 Prozent der Teilnehmer Sorgen um ihre Daten beim
Online-Banking. Ungefähr 65 Prozent derer, die nicht online einkaufen, tun dies aufgrund von
Bedenken über die Sicherheit ihrer Daten, 30 Prozent würden mehr kaufen, hätten sie nicht
derartige Bedenken. 90 Prozent der Befragten fürchten, dass ihre Daten für andere Zwecke als
dem anfänglich bestimmten verwendet werden. Die Anzahl an Personen, die Betrug im
Zusammenhang mit Kreditkarten erlebt haben oder selbst beim Onlinekauf schon einmal
betrogen haben, ist verschwindend klein. Auch hier sieht man, dass Nutzer von
kommerziellen Onlineangeboten dem Internet nicht voll vertrauen.
4.2.3 Cookies
Aus den Umfragen geht hervor, dass 62 Prozent der Befragten Cookies generell akzeptieren.
Der Prozentsatz derer, die Cookies ablehnen, variiert sehr stark zwischen den
unterschiedlichen Umfragen. Die Spanne reicht von drei bis 25 Prozent. Die Hälfte aller
Befragten gab an, Cookies regelmäßig zu löschen.
4.2.4 Sicherheit im Bezug auf Personalisierung
Etwa 60 Prozent der Internetnutzer sehen Personalisierung als gute Errungenschaft an. Im
Folgenden wird gezeigt, welcher Anteil der Befragten bereit ist, welche Daten im Gegenzug
für Personalisierung preiszugeben (in Klammern befinden sich die Prozentsätze bei Teilung
der Information mit anderen Websites):
•
•
•
•
•
Name: 88%
Ausbildung: 88%
Alter: 86% (41%)
Hobbys: 83% (48%)
Einkommen: 59% (13%)
- 24 -
•
•
Kreditkartennummer: 13% (1%)
Gekaufte Produkte: (48%)
Die Mehrzahl der Befragten, nämlich 73 Prozent, fanden es nützlich, dass die Seiten sich
Basisinformationen wie Name oder Adresse merken können, während die Hälfte der
Befragten das Speichern von weiteren Informationen wie der Präferenzen nützlich fanden. 35
Prozent der Befragten fühlten sich durch Werbebanner in ihrer Privatsphäre bedroht.
4.3 Zusammenfassung
Die jüngst aufgetauchten Gefahren des Internet fördern nicht unbedingt das Vertrauen der
Benutzer. Beispielsweise wird die Freigabe der eigenen Email-Adresse immer
problematischer, da die Versendung unerwünschter Werbemails bereits ein riesiges Ausmaß
annimmt. Ein anderes Beispiel sind die so genannten Dialer. Dialer sind Programme, die vom
Nutzer unbemerkt teure Mehrwertnummern anrufen. Diese Problematik ist immens gestiegen,
so dass laut Umfragen bereits jeder fünfte Internetnutzer damit konfrontiert wurde. In
Österreich wurde bereits mit einem Gesetz reagiert, das solche Dialer verbietet.
Eine andere Gefahr, die das Vertrauen beeinträchtigt, sind Viren und Würmer, die meist
per Email verschickt werden. Diesem Zustand kann nur sehr schwer begegnet werden, da
ständig neue, gefährlichere Würmer oder Viren auftauchen.
All diese Tatsachen erschweren es, das Vertrauen der Internetnutzer zu gewinnen. Wollen
einzelne Firmen volles Vertrauen genießen, so muss sich das Internet als Ganzes wandeln.
- 25 -
5 Analyse
Im folgenden Abschnitt wird untersucht, welche Konsequenzen durch den Rechtsrahmen und
die Benutzerinteressen für das Web Usage Mining entstehen. Betreiber von Web Usage
Mining haben besonders hohen Informationsbedarf, um möglichst korrekt auf das
Benutzerverhalten schließen zu können. Die Benutzer selbst sind allerdings daran interessiert,
möglichst wenige Informationen preisgeben zu müssen. Es ist also notwendig, einen
Kompromiss zwischen beiden Gegensätzen zu finden. Web Usage Miner müssen versuchen,
das Vertrauen der User zu gewinnen und sich innerhalb des rechtlich relevanten Rahmens zu
bewegen. Sicherlich ist das nicht immer einfach, wie im nächsten Abschnitt beschrieben wird.
5.1 Konflikte mit dem Rechtsrahmen
Durch die oben dargestellten rechtlichen Rahmenbedingungen auf österreichischer und
europäischer Ebene sind die Methoden des Web Usage Mining einigen Einschränkungen
unterworfen. Besonders eingeschränkt wird die Gewinnung von zusätzlichen Informationen
(siehe Kap. 4.2.5) durch den Schutz personenbezogener Daten (siehe Kap. 5.2).
5.1.1 Web Usage Mining und personenbezogene Daten
Personenbezogene Daten können für das Web Usage Mining von großer Bedeutung sein.
Demografische Informationen oder Präferenzen eines Nutzers erlauben interessante Analysen
und weitergehende Schlussfolgerungen als die reine Analyse von Bewegungspfaden im
Internet. Folglich haben Web Usage Miner ein besonderes Interesse daran, auch
personenbezogene Daten zu gewinnen. Hier ergeben sich allerdings einige Konflikte mit dem
österreichischen Rechtsrahmen.
Die österreichische Verfassung gewährt jedermann ein Grundrecht auf Datenschutz. Jeder
Staatsbürger kann selbst entscheiden, wen er was über sich wissen lässt. Der Web Usage
Miner muss also Strategien entwickeln, um das Vertrauen des Benutzers zu gewinnen und ihn
so dazu zu bewegen, seine Daten freizugeben. Die selbständige Ermittlung der Daten ist
ebenfalls ohne Einwilligung des Betroffenen nicht zulässig. Nur solche Daten, die für
jedermann frei einsehbar sind, dürfen ermittelt werden. Diese Daten nutzen den Betreibern
von Websites allerdings nicht viel. Eingriffe sind nur bei Bestehen eines überwiegend
berechtigten Interesses anderer gestattet, was hier ebenfalls nicht gegeben ist.
5.1.1.1 Bestimmbarkeit der Identität
Daten gelten nur dann als personenbezogen, wenn die Identität des Betroffenen bestimmt oder
bestimmbar ist. Sollte dies nicht der Fall sein, dürfen die Daten zur Verarbeitung genutzt
werden. Fraglich ist, wie für das Web Usage Mining relevante zusätzliche Daten ohne
Personenbezug erhoben werden können. Wenn ein User beispielsweise Daten über sich
angibt, ohne dabei seine Identität preiszugeben, so ist seine Identität zwar nicht bestimmt aber
bestimmbar. Der Grund dafür ist, dass ISPs speichern müssen, welche IP-Adresse zu
welchem Zeitpunkt welchem Individuum zugeordnet war. So kann die Identität eines
Benutzers erhoben werden. Ohne Zuordnung haben diese Daten keinen Sinn.
5.1.1.2 Zweckbindung
Ein relativ großes Hindernis für das Web Usage Mining ist der Grundsatz der Zweckbindung
im DSG2000. Demnach dürfen erhobene Daten nur für den anfänglich bestimmten Zweck
benutzt werden. Dieser Zweck muss allerdings auch ausreichend definiert sein, die Definition
„Verwendung für das Web Usage Mining“ reicht wahrscheinlich nicht aus. Das macht es
- 26 -
schwierig, einen ausreichend definierten Zweck zu finden. Auch vom Umfang her dürfen die
Daten nicht über das hinausgehen, was zur Erreichung des Zwecks notwendig und
verhältnismäßig ist. Auch zeitlich ist die Speicherung von Daten nicht unbegrenzt erlaubt.
Personenbezogene Daten dürfen nur solange gespeichert werden, wie sie zur Erfüllung des
definierten Zwecks notwendig sind. Eine Speicherung auf Vorrat für einen allfälligen Bedarf
ist somit unzulässig.
Im Rahmen des Web Usage Mining ist es aber durchaus sinnvoll, Daten zu speichern, ohne
sie auf einen bestimmten Zweck zu beziehen. Auch die längerfristige Speicherung für spätere
Analysen ist wichtig.
Die Einbeziehung von zusätzlichen Daten ist für das Web Usage Mining durch die
rechtlichen Bestimmungen in Österreich nur eingeschränkt nutzbar. Eine Möglichkeit, das zu
umgehen, ist der Aufbau von Geschäftsbeziehungen zu den Benutzern. Hier dürfen Daten
über einen längeren Zeitraum hinweg gespeichert werden. Es besteht allerdings die
Beschränkung, dass nur solche Daten gespeichert werden dürfen, die für die
Geschäftsbeziehung notwendig sind.
Andererseits kann auch auf die Einbeziehung von Zusatzinformation verzichtet und
versucht werden, das Web Usage Mining so anonym wie möglich zu gestalten.
5.1.1.3 Pflichten des Web Usage Miners
Durch die Erhebung von personenbezogenen Daten kommen auf den Betreiber der Website
einige Pflichten zu, da er rechtlich gesehen als Auftraggeber gilt. Das bedeutet einiges an
zusätzlichem Aufwand, schließlich ist er für die Zulässigkeit der Datenverarbeitung
zuständig. Außerdem ist er registrierungspflichtig und muss Betroffene über ihre Rechte
informieren. Selbigen hat er auch die Möglichkeit zur Richtigstellung und Löschung der sie
betreffenden Daten zu bieten. Es ist zu überlegen, ob die Einbeziehung von
Zusatzinformationen einen solchen Mehraufwand rechtfertigt.
5.1.1.4 Anonymisierung / Pseudonymisierung
Eine Lösung für dieses Problem ist, die Anonymität der Nutzer zu wahren. Sicherlich gibt es
Dienste im Internet, bei denen Anonymität nicht möglich ist, allerdings sollte man dort, wo es
möglich ist, die Anonymität beibehalten. Eine andere Möglichkeit ist die Pseudonymisierung.
Hier treten die Benutzer nicht mit ihrem eigentlichen Namen auf, sondern unter einem
Pseudonym. Hiermit könnten sogar Dienste mit einer Personalisierung verwirklicht werden.
5.2 Konflikte mit Userinteressen
Das Bedürfnis nach Anonymität im Internet ist hoch (siehe Kap. 5.1). Das steht im krassen
Gegensatz zu den Informationsbedürfnissen der Betreiber von Web Usage Mining. Allerdings
können User nicht verhindern, dass ihre beschrittenen Pfade im Web erfasst werden. Die IPAdresse ist nämlich die Grundlage für die Datenübertragung und das Mitloggen ist damit
unerlässlich. Sehr wohl kann der Nutzer aber über die Preisgabe von persönlichen Daten
entscheiden. Außerdem kann er dem Web Usage Miner das Mining erleichtern, indem er
beispielsweise Cookies zulässt. Im folgenden Abschnitt werden die Konsequenzen, die sich
aus den Benutzerbefragungen ergeben, diskutiert.
5.2.1 Persönliche Informationen
Nutzer des Internet geben ihre persönlichen Informationen nicht ohne Weiteres bekannt (siehe
Kap. 5.2). Das muss dem Web Usage Miner klar sein und es ist zu überlegen, wie man hier
- 27 -
eine Kooperation erzielen könnte. Wichtig ist, das Vertrauen des Benutzers zu gewinnen. Der
vertrauensvolle Umgang mit den persönlichen Daten ist ein Schritt in diese Richtung.
Ein großes Problem ist auch, dass Nutzer oft dazu neigen, falsche Informationen
anzugeben. Das kann Ergebnisse der Analyse verfälschen und so beispielsweise zu einer
inkorrekten Modifikation einer Website führen. Es müssen also Anreize geschaffen werden,
die den User dazu verleiten, seine korrekten Informationen preiszugeben.
Eine Möglichkeit ist das Anbieten von personalisierten Websites. Viele User halten
Personalisierung für gut und sind auch bereit, im Gegenzug dafür persönliche Informationen
offen zu legen. Will ein Betreiber einer Website nun Web Usage Mining betreiben, ist es
sinnvoll, den Nutzern möglichst viel an Leistung und Personalisierung zu bieten, dann werden
sie auch bereit sein, im Gegenzug dafür zu kooperieren.
User wünschen sich weiters, bei einer Verwendung ihrer Daten für das Marketing, vorher
um Erlaubnis gefragt zu werden. Das ist im Internet technisch leicht machbar, allerdings stellt
sich die Frage, ob sich dann viele Individuen dazu bereit erklären würden. Man kann
versuchen, das zu umgehen, indem man beispielsweise für alle, die sich dazu bereit erklären,
ein Gewinnspiel oder Ähnliches anbietet.
Erhobene Daten dürfen nur zu einem anfangs bestimmten Zweck verwendet werden. Viele
User machen sich allerdings Sorgen, dass dem nicht so ist. Wichtig ist, dass Benutzer genau
über den Sinn der Datenerhebung aufgeklärt werden und diese auch nicht darüber hinaus
genutzt werden. Auch das trägt zur Bildung von Vertrauen bei.
5.2.2 Cookies
Cookies sind ein sehr effizientes Mittel, um Nutzer bei einem Besuch der Website wieder zu
erkennen (siehe Kap. 3.2.1.2). Auch hier kann es zu Problemen kommen, da viele User
Cookies gar nicht aktivieren oder sie periodisch löschen. Dadurch wird ein gutes Instrument
für das Web Usage Mining in der Nutzung eingeschränkt. Cookies sind relativ einfach am
Webbrowser deaktivierbar. Sind sie deaktiviert, müssen wesentlich aufwändigere und
ungenauere Methoden zur Wiedererkennung angewandt werden.
5.3 Perspektiven
Um in Zukunft noch besseres Web Usage Mining zu ermöglichen ist es notwendig, dass die
rechtlichen Beschränkungen etwas gelockert werden. Beispielsweise könnte die
Zweckbindung, die ja ein großes Hindernis darstellt, etwas großzügiger aufgefasst werden.
Wenn ein Benutzer seine Daten freiwillig dem Web Usage Miner überlässt, sollte dieser dann
auch damit arbeiten dürfen. Gute Aufklärung des Nutzers darüber, was mit den Daten
passiert, ist hier unumgänglich.
Um das Vertrauen der User zu gewinnen, müssen seine persönlichen Ansprüche an die
Sicherheit erfüllt werden. Die elektronische Festlegung und Prüfung dieser Präferenzen ist
momentan nicht möglich. Ein Ansatz, der dieses Problem in Zukunft lösen könnte, ist die
Platform of Privacy Prferences des World Wide Web Consortium (W3C).
5.3.1 Platform of Privacy Prferences (P3P)
Im April 2000 stellte das W3C diesen Standard für mehr Transparenz im Online-Datenschutz
vor. P3P beschäftigt sich speziell mit Websites, die die Preisgabe von persönlicher
Information verlangen. Ein persönlicher Terminkalender oder Onlineshopping machen die
Angabe dieser Daten unerlässlich. Hier setzt P3P an. [Lang02]
Die Idee ist, dass der Betreiber, der die Daten erhebt, ein XML-File mit seinen
Datenhandhabungspraktiken auf seiner Website zur Verfügung stellt. Hier ist beispielsweise
der Empfänger oder der Verwendungszweck enthalten. Man kann sich das als standardisierten
- 28 -
Satz von Multiple-Choice Fragen vorstellen, die alle wichtigen Bereiche der
Sicherheitspolitik einer Website abdecken. Das File zeigt also ein genaues Abbild, wie die
Daten gehandhabt werden. Der User kann an einem P3P-fähigen Browser seine
Sicherheitspräferenzen eingeben. Der Browser liest schließlich das XML-File und vergleicht
es mit den Präferenzen des Benutzers. Außerdem können User übersichtlich und verständlich
Einsicht in die Praktiken nehmen. [W3Ca]
Abb. 7: HTTP-Transaktion mit P3P [W3Cb]
5.3.1.1 Komponenten
In der P3P-Spezifikation werden aufeinander aufbauend mehrere Komponenten beschrieben
[vgl. Lang02]:
•
•
•
•
•
Datenarten: Es wird eine umfangreiche Menge von Datenarten spezifiziert, die
Websites erheben können (Name, Adresse, IP-Adresse,…).
Praktiken-Vokabular: Es existiert ein sehr weit reichendes Vokabular zur
Beschreibung der von der Website angewandten Praktiken in der Datenverarbeitung.
Anbieter können anzeigen, welche Daten sie wann, zu welchem Zweck und für wen
erheben.
XML: P3P definiert einen XML-Syntax, mit dem das Vokabular auf die Datenarten
angewendet werden kann. Das Ziel ist das maschinelle Auslesen und Verarbeiten der
Datenschutzpraktiken.
Protokoll: Die in XML verfassten Praktiken werden mittels eines Protokolls mit
Webinhalten verknüpft und via HTTP übertragen.
Präferenzsprache (APPEL – A Privacy Preferences Exchange Language): Nutzer
können mit Hilfe von APPEL Datenschutzpraktiken als „akzeptabel“, „bedingt
akzeptabel“ oder „nicht akzeptabel“ einstufen. Durch Standardisierung sind die
Präferenzen für mehrere Anbieter nutzbar.
- 29 -
P3P wurde über einen Zeitraum von mehr als drei Jahren von einer von Tim Berners-Lee
geleiteten Arbeitsgruppe mit bis zu 50 Teilnehmern konzipiert.
5.3.1.2 Praxis
P3P soll sowohl für Nutzer als auch für Anbieter attraktiv sein, also wurde ein umfassendes
Vokabular entwickelt. Das Kommunikationsprotokoll wurde bewusst einfach gehalten, um
die Downloadraten nicht unnötig zu verlangsamen. P3P kann in fast jeden Web Server
integriert werden, was eine rasche Verbreitung der Technologie gewährleisten soll. Auch
Benutzer sollen nicht unnötig gestört werden, lediglich ein unauffälliger Indikator soll die
aktivierte P3P-Unterstützung anzeigen. Nur beim Aufruf von Websites, die den
Anforderungen nicht genügen, können auf Wunsch des Benutzers weitere Informationen
eingeblendet werden.
P3P kann nicht prüfen, ob die Website die angegebenen Praktiken auch einhält. Dafür ist
die Rechtsordnung des jeweiligen Staates zuständig. [Lang02]
5.3.1.3 Ausblick
Einige Firmen haben bereits ihre Datenschutzpraktiken im P3P-Format veröffentlicht. Es ist
allerdings notwendig, dass noch viele weitere Websites das tun. Auch sind Browser, die P3PDaten lesen können, noch nicht verbreitet. Ist das der Fall, wird sich zeigen, ob durch P3P
eine signifikante Verbesserung des Datenschutzes geboten wird.
- 30 -
6 Resümee
Das Web Usage Mining stellt zweifelsfrei eine sehr gute Möglichkeit dar, Websites
effizienter zu gestalten. Die gewonnenen Erkenntnisse können bewirken, dass Sites besser an
die Bedürfnisse ihrer Nutzer angepasst werden können. Das kann bis zu einer
Personalisierung der Site führen. Betreiber können dabei so weit gehen, dass die Seite für
jeden Kunden komplett andere Inhalte bietet. Dadurch erhofft man sich positive Effekte, vor
allem im Bereich Kundenbindung. Wenn der Kunde mit der Site zufrieden ist und diese gut
auf seine Bedürfnisse angepasst wird, dann wird der Lock-in-Effekt groß sein und der Kunde
wird einen Wechsel zu einem anderen Anbieter gut überdenken.
Leider liegen einem uneingeschränkten Web Usage Mining diverse Stolpersteine im Weg.
Der Staat muss natürlich die Privatsphäre seiner Bürger schützen, und deshalb sind
gesetzliche Maßnahmen zum Datenschutz unbedingt erforderlich. Für das Web Usage Mining
bringt das allerdings einen bedeutenden Mehraufwand mit sich. Regeln wie die
Zweckbindung schränken die Verwendbarkeit von erhobenen, personenbezogenen Daten
erheblich ein. Die Betreiber müssen nun überdenken, ob eine derart eingeschränkte
Einbeziehung von personenbezogenen Daten für sie überhaupt Sinn macht. Wenn ja, ist eine
besonders umsichtige und vorsichtige Handhabung der Daten notwendig, um nicht mit dem
Gesetz in Konflikt zu geraten.
Auch die Nutzer machen es den Betreibern von Web Usage Mining oft nicht leicht. Durch
die Deaktivierung von Cookies geht ein wichtiges Mittel zur Wiedererkennung verloren.
Auch geben sie ihre Daten nicht ohne Weiteres preis, da das Vertrauen zu den Betreibern oft
fehlt oder ungenügend vorhanden ist. Wichtig ist hier, das Vertrauen der User durch
sorgfältiges Umgehen mit den Daten zu gewinnen und den Benutzern Gegenleistungen für die
Daten anzubieten. Das Anbieten von Personalisierung ist oft ein wirksames Mittel, um von
Nutzern Daten zu erhalten.
Die P3P-Initiative des W3C könnte in Zukunft eine gute Lösung für solche Probleme
bieten. Vorraussetzung ist allerdings, dass P3P weite Verbreitung findet. Viele Websites
müssen das System einsetzen, damit es auch für den Benutzer interessant wird. Auch hier ist
wichtig, dass sich die Betreiber wirklich an die von ihnen angegebenen
Datenverarbeitungspraktiken halten. Ist das nicht der Fall, wird P3P keine große Akzeptanz
finden und eine Zukunftshoffnung des Web Usage Mining würde ihre Wirkung verfehlen.
- 31 -
7 Quellenverzeichnis
[AgSr95]
Agrawal, Rakesh; Srikant, Ramakrishnan: Mining Sequential Patterns. IBM
Research Division, 1995.
[Baue04]
Bauer, Michael: Web Mining unter besonderer Berücksichtigung der
Gewinnung persönlicher Daten für das E-Marketing. Diplomarbeit,
Wirtschaftsuniversität Wien, 2004.
[Brue o.J.]
Bruehlmann-Lesinska, Thomas: Webserver Logfiles.
http://www.webmeister.ch/server/webserver/logfiles/default.htm, letzter Abruf
am 16.4.2005.
[BüMu98]
Büchner, Alex G.; Mulvenna, Maurice D.: Discovering Internet Marketing
Intelligence through Online Analytical Web Usage Mining. 1998.
http://www.infj.ulst.ac.uk/~cbgv24/PDF/SIGMOD98.pdf, letzter Abruf am
17.5.2005.
[CoMS00]
Cooley, Robert; Mobasher, Bamshad; Srivastava, Jaideep: Automatic
Personalization Based on Web Usage Mining. Communications of the ACM,
August 2000.
[CoMS97]
Cooley, R.; Mobasher, B.; Srivatava, J.: Web Mining: Information and Pattern
Discovery on the World Wide Web. University of Minnesota, 1997.
[CoTS99]
Cooley, Robert; Tan, Pang-Ning; Srivastava, Jaideep: WebSIFT – The Web
Site Information Filter System. University of Minnesota, 1999.
[Culn99]
Culnan, Mary J.: Georgetown Internet Privacy Policy Survey: Report to the
Federal Trade Commission. Georgetown University, June 1999.
[DSG00]
Bundesgesetz über den Schutz personenbezogener Daten (Datenschutzgesetz
2000 - DSG 2000).
[DsRl02]
Europäisches Parlament / Rat: Datenschutzrichtlinie 2002 (Richtlinie
2002/58/EG), 12. 6. 2002.
[EMRK98]
Europäische Menschenrechtskonvention: Artikel 8, Recht auf Achtung des
Privat- und Familienlebens.
[ErLe04]
Ernst, Michael; Lehmann, Brigitte: Logfiles. FH Furtwangen, Dezember 2004.
http://www.heindl.de/KI2004/Logfiles/Logfiles.pdf, letzter Abruf am
16.4.2005.
[Geib00]
Geib, Malte: Potenziale des Web Mining zur Deckung des
Informationsbedarfes für das Customer Relationship Management im
elektronischen Konsumgüterhandel. Diplomarbeit, Westfälische WilhelmsUniversität Münster 2000.
[GeSc01]
Gentsch, Peter; Schinzer, Heiko: Web-Personalisierung und Web-Mining für
eCRM, 12 Software-Lösungen im Vergleich. Business Application Research
Center, 2001.
[Gron05]
Groner, M.: Pfadanalyse. Uni Bern, 2005.
http://visor.unibe.ch/SS01/statistik3/Pfadanalyse.pdf, letzter Abruf am
4.5.2005.
- 32 -
[HaNe01]
Hansen, Hans Robert; Neumann, Gustaf: Wirtschaftsinformatik I, 8. Auflage.
Lucius & Lucius, Stuttgart 2001.
[HiMW02]
Hippner, Hajo; Merzenich, Melanie; Wilde, Klaus D.: Handbuch Web Mining
im Marketing (Konzepte, Systeme, Fallstudien). Vieweg 2002.
[HoKW04]
Holoubek, Michael; Kassai, Klaus; Wiebe, Andreas: Rechtliche Grundlagen
der Informationswirtschaft. Springer-Verlag/Wien 2004.
[KoBl00]
Kosala, Raymond; Blockeel, Hendrik: Web Mining Research: A Survey,
University Leuven, 2000.
[Lang02]
Langheinrich, Marc: P3P – ein neuer Standard für Datenschutz im Internet.
ETH Zürich, Institut für Informationssysteme 2002.
http://www.vs.inf.ethz.ch/res/papers/p3p-digma.pdf, letzter Abruf am
13.5.2005.
[MJHS97]
Mobasher, Bamshad; Jain, Namit; Han, EuiHong (Sam); Srivastava, Jaideep:
Web Mining - Pattern Discovery from World Wide Web Transactions.
Department of Computer Science, University of Minnesota, März 1997.
http://maya.cs.depaul.edu/~mobasher/papers/webminer-tr96.pdf, letzter Abruf
am 4.5.2005.
[O.A.a]
o.V.: Wikipedia: Logfile. http://de.wikipedia.org/wiki/Logfile, letzter Abruf
am 16.4.2005.
[O.A.b]
o.V.: Netplanet: Anonymität im Internet.
http://www.netplanet.org/sicherheit/anonym.shtml, letzter Abruf am 6.5.2005.
[Pitk97]
Pitkow, James: In Search of Reliable Usage Data on the WWW. Xerox Palo
Alto Research Center, 6. internationale WWW-Konferenz, 1997.
[RaDo o.J.]
Rahm, Erhard; Do, Hong Hai: Data Cleaning – Problems and Current
Approaches. Universität Leipzig, o.J.
www.lania.mx/~jalba/tesis/Data%20Cleaning_Problems%20and%20Current%
20Approaches.pdf, letzter Abruf am 19.4.2005.
[ScBi04]
Scheffer, Tobias; Bickel, Steffen: Assoziationsregeln. Humboldt-Universität zu
Berlin, Institut für Informatik, Lehrstuhl für Wissensmanagement, 2004.
http://www.informatik.huberlin.de/Forschung_Lehre/wm/mldm2004/Assoziationsregeln.pdf, letzter
Abruf am 4.5.2005.
[SCDT00]
Srivastava, Jaideep; Cooley, Robert; Deshpande, Mukund; Tan, Pang-Ning:
Web Usage Mining – Discovery and Applications of Usage Patterns from Web
Data. Department of Computer Science and Engineering, University of
Minnesota, Jänner 2000.
[Schn04]
Schneider, René: Visualisierung von Web Structure Mining. Universität
Hildesheim 2004. www.uni-hildesheim.de/~rschneid/VisualWebMining.pdf,
letzter Abruf am 19.4.2005.
[Sevi03]
Sevinc, Semih: Anonymität im Internet. Seminar Sicherheit im Internet,
Universität Dortmund, WS 02/03. http://lrb.cs.unidortmund.de/~hildebra/Seminare/Presentations/sii/anonymitaet.pdf, letzte
Abruf am 6.5.2005.
- 33 -
[TeKo04]
Teltzrow, Maximilian; Kobsa, Alfred: Impacts of User Privacy Preferences on
Personalized Systems – a Comparative Study.
[VfSl91]
Verfassungsgerichtshof in VfSlg 12.689/1991.
[W3Ca]
World Wide Web Consortium: Platform of Privacy Preferences Project (P3P).
http://www.w3.org/P3P/, letzter Abruf am 13.5.2005.
[W3Cb]
World Wide Web Consortium: P3P 1.0 – A New Standard in Online Privacy.
http://www.w3.org/P3P/brochure.html, letzter Abruf am 16.5.2005.
[ZiDi04]
Ziegler, Patrick; Dittrich, Klaus R.: Three Decades of Data Integration – All
Problems Solved? Database Technology Research Group, Department of
Informatics, University of Zürich 2004.
http://www.ifi.unizh.ch/stff/pziegler/papers/ZieglerWCC2004.pdf, letzter
Abruf am 20.5.2005.
- 34 -

Documentos relacionados