Web Mining - Universität Hildesheim

Transcrição

Web Mining - Universität Hildesheim
Thomas Mandl
Informationswissenschaft
Universität Hildesheim
[email protected]
Web Mining
Definitionen
ˆ
Web Mining
ˆ
Unterschiede zu
ˆ
Information Retrieval
ˆ
Information Extraction
Übung
ˆ
Data Mining
ˆ
Machine Learning
Wintersemester 2006/2007
Universität Hildesheim
2
Web Mining
ˆ
Erkennung von Wissen
aus einer Sammlung
von Web-Daten,
die so nicht auf
einer einzelnen Seite
vorliegen
Data Mining
Primärer
DomänenNT)
C (Windows
t ll
ExchangeS(Windows NT)
Backup
DomänenNT)
C (Windows
t ll
Kommunikations
Server
(Unix)
File-Server
(Novell
N t
)
ˆ
Internet
„... Any algorithm that enumerates patterns from, or fits
models to, data is a data mining algorithm“
Router
Switch
IP
IP
(U. Fayyad 1997, in Heft 1 der Zeitschrift Data Mining
and Knowledge Discovery)
Switch
Firewall
Router
Standleitung
Router
Switch
Server für
Personalverwaltun
(Windows NT)
15 ClientNT)
C (Windows
t
75 ClientNT)
C (Windows
t
Liegenschaft
Bonn
Liegenschaft
Berlin
40 ClientNT)
C (Windows
t
Maschinelles Lernen: Definitionen
ˆ
Anpassung des Verhaltens (Output) an die Umwelt
(Input)
3
4
Web Mining
Data Mining
ˆ
„... enumerates patterns ... models ...“
ˆ
Data Mining befasst sich mit Mustern und Modellen über
Daten
ˆ
d.h. Data Mining extrahiert Wissen, das nicht explizit in
der Datenbasis gespeichert ist und abgefragt werden kann
ˆ
sondern dieses Wissen ergibt sich aus einer
Gesamtschau auf sehr viele Daten
ˆ
Data Mining fasst viele Wissenseinheiten zu neuem
Wissen zusammen
Web Structure
Mining
Web Content
Mining
5
•
•
•
•
Web Usage
Mining
Log-Dateien von Web-Servern
Verhaltensdaten von Benutzern
Häufigkeiten von Zugriffen
Typische Pfade
• Analyse der Verlinkung
zwischen Seiten und Sites
• Analyse von Inhalten
• Text Mining
• Community Erkennung
Walther, Ralf (2001): Web Mining. In: Informatik Spektrum 24 (1). S. 16-18.
6
1
Web-Usage Mining
Log-File Format
Besucher IP
Zugriffsdatum
und -uhrzeit
Zugegrifffene
Web-Seite
Übertragenes
Datenvolumen
Visitor1.org - - [01/Jan/2001:00:10:00 +0200] "GET H.html HTTP/1.1" 200 1000
Visitor1.org - - [01/Jan/2001:00:10:30 +0200] "GET G.html HTTP/1.1" 200 1000
Visitor2.org - - [02/Jan/2001:00:10:00 +0200] "GET H.html HTTP/1.1" 200 1000
Visitor2.org - - [02/Jan/2001:00:10:30 +0200] "GET G.html HTTP/1.1" 200 1000
Visitor2.org - - [02/Jan/2001:00:11:00 +0200] "GET X.html HTTP/1.1" 200 1000
Visitor2.org - - [02/Jan/2001:00:11:30 +0200] "GET G.html HTTP/1.1" 200 1000
HTTP Befehl
HTTP
Versionsnummer
Return Code
Einfache Analysen in EXCEL möglich (Pivot-Tabellen)
7
The Web Utilization Miner (WUM)
ˆ
System zum Web Usage Mining
ˆ
Open Source, JAVA
ˆ
ˆ
ˆ
8
Ablauf der Web Log Analyse mit WUM
Anlegen
Anlegen Mining
Mining Base
Base (Projekt)
(Projekt)
Create
Create Mining
Mining Base
Base
Log-Dateien
Log-Dateien einlesen
einlesen
Import
Import Log
Log File
File
Windows, Linux
Installation:
Benutzersitzungen
Benutzersitzungen festlegen
festlegen
Create
Create Visitor‘s
Visitor‘s Sessions
Sessions
ˆ
Download
ˆ
In Datei WUM.v70\bin\wumgui.bat zwei Pfade editieren
ˆ
Starten ...
Einzelpfade
Einzelpfade verknüpfen
verknüpfen
Create
Create Aggregated
Aggregated Log
Log
http://hypknowsys.sourceforge.net/wiki/The_Web_Utilizat
ion_Miner_WUM
Einzelne
Einzelne Pfade
Pfade betrachten
betrachten
Draw
Draw Visitor‘s
Visitor‘s Sessions
Sessions
Alle
Alle Pfade
Pfade betrachten
betrachten
Draw
Draw Aggregated
Aggregated Log
Log
Abfragesprache
Abfragesprache für
für Pfade
Pfade
MINT
MINT Ad-hoc
Ad-hoc
Summary,
Summary, Report
Report
9
10
WUM GUI
WUM Report
11
12
2
MINT
MINT
ˆ
Abfragesprache für Pfade
ˆ
In Datei WUM.v70\bin\wumgui.bat Java-options editieren
ˆ
Java mehr Speicher zuweisen
ˆ Xms256m
ˆ Xmx1g
13
14
ClickTracks.com
ClickTracks.com
15
16
Crawler
heute
ˆ
Web Structure Mining
ˆ
ˆ
Analyse von einfachen Link-Strukturen mit einem Crawler
http://www.cs.cmu.edu/~rcm/websphinx/
Web Content Mining
ˆ
z
sammeln Seiten im Web
z
Häufig auch bezeichnet als:
Robot, Spider, Wanderer, Walker
z
Crawlers are programs (software agents) that
traverse the Web sending new or updated
pages to a main server where they are
indexed.
Anwendungsbeispiel: WebXact
ˆ
Analyse der Qualität
(Baeza-Yates/Ribeiro-Neto 2000, S.373)
17
18
3
Vorgehensweise
Vorgehensweise
ˆcrawling
frontier
ˆUnbesuchte
Seiten, die als Links aus anderen Seiten
extrahiert wurden
z
(a) Seite downloaden
z
(b) Seite parsen u. alle verlinkten URLs extrahieren
z
(c) Für alle noch nicht gesehenen URLs
wiederhole (a)-(c)
zBreadth-First-Ansatz
zVerfolgung
(schichtenweise)
aller Links der Ausgangsseite
z...
zDepth-First-Ansatz:
zVerfolgung
(Broder/Najork/Wiener 2003, S.679)
zVerfolgung
des ersten Links der Ausgangsseite
des ersten Links der nächsten Seite
19
Dynamik
ˆ
Crawler beobachten, wie häufig sich Seiten ändern
ˆ
Die Frequenz der Besuch wird der
Änderungsfrequenz angepasst
ˆ
Best first Strategie
ˆ
20
Analyse der Link Struktur
PageRank als „Wegweiser“ für das Crawling
21
22
23
24
Label folgen
4