Web Mining - Universität Hildesheim

Transcrição

Thomas Mandl
Informationswissenschaft
Universität Hildesheim
[email protected]
Web Mining
Definitionen

Web Mining

Unterschiede zu

Information Retrieval

Information Extraction
Übung

Data Mining

Machine Learning
Wintersemester 2006/2007
Universität Hildesheim
2
Web Mining

Erkennung von Wissen
aus einer Sammlung
von Web-Daten,
die so nicht auf
einer einzelnen Seite
vorliegen
Data Mining
Primärer
DomänenNT)
C (Windows
t ll
ExchangeS(Windows NT)
Backup
DomänenNT)
C (Windows
t ll
Kommunikations
Server
(Unix)
File-Server
(Novell
N t
)

Internet
„... Any algorithm that enumerates patterns from, or fits
models to, data is a data mining algorithm“
Router
Switch
IP
IP
(U. Fayyad 1997, in Heft 1 der Zeitschrift Data Mining
and Knowledge Discovery)
Switch
Firewall
Router
Standleitung
Router
Switch
Server für
Personalverwaltun
(Windows NT)
15 ClientNT)
C (Windows
t
75 ClientNT)
C (Windows
t
Liegenschaft
Bonn
Liegenschaft
Berlin
40 ClientNT)
C (Windows
t
Maschinelles Lernen: Definitionen

Anpassung des Verhaltens (Output) an die Umwelt
(Input)
3
4
Web Mining
Data Mining

„... enumerates patterns ... models ...“

Data Mining befasst sich mit Mustern und Modellen über
Daten

d.h. Data Mining extrahiert Wissen, das nicht explizit in
der Datenbasis gespeichert ist und abgefragt werden kann

sondern dieses Wissen ergibt sich aus einer
Gesamtschau auf sehr viele Daten

Data Mining fasst viele Wissenseinheiten zu neuem
Wissen zusammen
Web Structure
Mining
Web Content
Mining
5
•
•
•
•
Web Usage
Mining
Log-Dateien von Web-Servern
Verhaltensdaten von Benutzern
Häufigkeiten von Zugriffen
Typische Pfade
• Analyse der Verlinkung
zwischen Seiten und Sites
• Analyse von Inhalten
• Text Mining
• Community Erkennung
Walther, Ralf (2001): Web Mining. In: Informatik Spektrum 24 (1). S. 16-18.
6
1
Web-Usage Mining
Log-File Format
Besucher IP
Zugriffsdatum
und -uhrzeit
Zugegrifffene
Web-Seite
Übertragenes
Datenvolumen
Visitor1.org - - [01/Jan/2001:00:10:00 +0200] "GET H.html HTTP/1.1" 200 1000
Visitor1.org - - [01/Jan/2001:00:10:30 +0200] "GET G.html HTTP/1.1" 200 1000
Visitor2.org - - [02/Jan/2001:00:10:00 +0200] "GET H.html HTTP/1.1" 200 1000
Visitor2.org - - [02/Jan/2001:00:11:00 +0200] "GET X.html HTTP/1.1" 200 1000
HTTP Befehl
HTTP
Versionsnummer
Return Code
Einfache Analysen in EXCEL möglich (Pivot-Tabellen)
7
The Web Utilization Miner (WUM)

System zum Web Usage Mining

Open Source, JAVA

8
Ablauf der Web Log Analyse mit WUM
Anlegen
Anlegen Mining
Mining Base
Base (Projekt)
(Projekt)
Create
Create Mining
Mining Base
Base
Log-Dateien
Log-Dateien einlesen
einlesen
Import
Import Log
Log File
File
Windows, Linux
Installation:
Benutzersitzungen
Benutzersitzungen festlegen
festlegen
Create
Create Visitor‘s
Visitor‘s Sessions
Sessions

Download

In Datei WUM.v70\bin\wumgui.bat zwei Pfade editieren

Starten ...
Einzelpfade
Einzelpfade verknüpfen
verknüpfen
Create
Create Aggregated
Aggregated Log
Log
http://hypknowsys.sourceforge.net/wiki/The_Web_Utilizat
ion_Miner_WUM
Einzelne
Einzelne Pfade
Pfade betrachten
betrachten
Draw
Draw Visitor‘s
Visitor‘s Sessions
Sessions
Alle
Alle Pfade
Pfade betrachten
betrachten
Draw
Draw Aggregated
Aggregated Log
Log
Abfragesprache
Abfragesprache für
für Pfade
Pfade
MINT
MINT Ad-hoc
Ad-hoc
Summary,
Summary, Report
Report
9
10
WUM GUI
WUM Report
11
12
2
MINT
MINT

Abfragesprache für Pfade

In Datei WUM.v70\bin\wumgui.bat Java-options editieren

Java mehr Speicher zuweisen
Xms256m
Xmx1g
13
14
ClickTracks.com
ClickTracks.com
15
16
Crawler
heute

Web Structure Mining

Analyse von einfachen Link-Strukturen mit einem Crawler
http://www.cs.cmu.edu/~rcm/websphinx/
Web Content Mining

z
sammeln Seiten im Web
z
Häufig auch bezeichnet als:
Robot, Spider, Wanderer, Walker
z
Crawlers are programs (software agents) that
traverse the Web sending new or updated
pages to a main server where they are
indexed.
Anwendungsbeispiel: WebXact

Analyse der Qualität
(Baeza-Yates/Ribeiro-Neto 2000, S.373)
17
18
3
Vorgehensweise
Vorgehensweise
crawling
frontier
Unbesuchte
Seiten, die als Links aus anderen Seiten
extrahiert wurden
z
(a) Seite downloaden
z
(b) Seite parsen u. alle verlinkten URLs extrahieren
z
(c) Für alle noch nicht gesehenen URLs
wiederhole (a)-(c)
zBreadth-First-Ansatz
zVerfolgung
(schichtenweise)
aller Links der Ausgangsseite
z...
zDepth-First-Ansatz:
zVerfolgung
(Broder/Najork/Wiener 2003, S.679)
zVerfolgung
des ersten Links der Ausgangsseite
des ersten Links der nächsten Seite
19
Dynamik

Crawler beobachten, wie häufig sich Seiten ändern

Die Frequenz der Besuch wird der
Änderungsfrequenz angepasst

Best first Strategie

20
Analyse der Link Struktur
PageRank als „Wegweiser“ für das Crawling
21
22
23
24
Label folgen
4