Besucherdaten entschlüsselt

Transcrição

Besucherdaten entschlüsselt
praxis logfiles
Besucherdaten
entschlüsselt
Jeder Besucher Ihrer Site hinterläßt auf
Ihrem Server Spuren. Die Auswertung
dieser Informationen ermöglicht
interessante Rückschlüsse.
Homepage-Besitzer interessieren
sich nicht nur für die Zahl der Besucher, sondern auch für die Aktivitäten
der Gäste. Dadurch können Sie maßgebliche Informationen gewinnen: Wer war auf
meiner Homepage? Welche Seiten hat er
dort angeschaut? Woher ist er gekommen?
All diese Fragen – und noch einige Dinge
mehr – beantworten Ihnen die Log-Dateien Ihres Web-Servers. Wir zeigen Ihnen,
welche Rückschlüsse Sie hierdurch auf
Ihre Besucher ziehen können.
info
Analyseprogramme
Im Internet ist eine Vielzahl von Analyseprogrammen auch für Ihren Web-Server zu
finden. Eine Übersicht über Analyseprogramme bietet die Homepage der Universität von Uppsala unter http://www.uu.se/
Software/Analyzers/Access-analyzers.html.
Logfile-Typen. Es gibt einige
unterschiedliche Logfile-Formate. Wir haben die fünf
gebräuchlichsten Typen
näher betrachtet:
Agent Logfile
Common Logfile
Combined Logfile
Microsoft IIS Logfile
Referrer Logfile
Jedes Mal, wenn jemand Ihre Site besucht,
werden auf Ihrem Web-Server alle Datenzugriffe protokolliert. Dies gilt übrigens
auch für Homepages, die bei einem
Provider liegen. Hier können Sie jedoch
zum Teil nicht direkt auf die Informationen zugreifen, sondern bekommen jeden
Monat eine bereits ausgewertete Statistik
zu sehen.
Es hängt vom Web-Server ab, welche
Art von Protokoll eingesetzt wird.
Während der Apache-Web-Server auf das
Combined-Logfile-Format baut, setzt der
Internet Information Server von Microsoft
ein proprietäres Format ein.
98 internet world april 2000
Agent-Logfile-Format. Im Agent
Logfile werden Informationen über
den Client gespeichert, der auf Ihre Seite zugreift. Diese Daten sind wichtig, damit Sie die Kompatibilität Ihrer Seiten kontrollieren können. Setzen Sie beispielsweise viele DHTML-Effekte ein, und die
Mehrzahl Ihrer Besucher verwendet noch
einen älteren Browser, sollten Sie auf jeden Fall einen entsprechenden Hinweis auf
Ihrer Seite anbringen. Besser wäre es jedoch, wenn Sie eine an den Browser angepaßte alternative Seite zur Verfügung
stellen könnten.
Mozilla/4.0 (compatible; MSIE 4.01; Windows NT) repräsentiert den Eintrag für den
Internet Explorer Version 4.01, ausgeführt
auf der Plattform Windows NT, Mozilla/4.0
(compatible; MSIE 5.0; Windows 98) den aktuellen Internet Explorer 5.0 auf der Win
98-Plattform und Mozilla/4.51 [en] (WinNT;
I) den englischen Netscape Navigator 4.51,
ausgeführt auf einer Intel-Plattform mit
Windows NT.
Common-Logfile-Format. Wesentlich
auskunftsfreudiger ist da schon das Common-Logfile-Format. Einträge können hier
beispielsweise wie folgt aussehen:
199.174.253.213 - - [31/Jan/2000:12:12:12 0100] "GET index.html HTTP/1.0" 200 1234
199.174.253.213 - - [31/Jan/2000:12:12:15 0100] "HEAD / HTTP/1.0" 302 354
199.174.253.213 - - [31/Jan/2000:12:12:12 0100] "GET / HTTP/1.0" 302 354
Die Übertragung der Informationen findet
hierbei immer im gleichen Format statt.
Der erste Wert, die IP-Adresse 199.174.
253.213, repräsentiert die Adresse, von
welcher aus der Besucher zugreift. Handelt es sich um eine geschützte Seite, so
wird an der zweiten Position der Benutzername und an der dritten Stelle das notwendige Paßwort übergeben. Ist die Seite
öffentlich zugänglich, so wird in das Protokoll – wie im obigen Beispiel – für beide Informationen ein Gedankenstrich ein-
gefügt. Eingeklammert finden sich Datum
und Uhrzeit des Zugriffs wieder. Die Darstellung der Zugriffszeit hat folgendes Format: [Tag/Monat/Jahr:Stunde:Minute:Sekunde Zone], wobei für den Tag zwei, den
Monat drei und das Jahr vier Stellen vorgesehen sind. Stunde, Minute und Sekunde werden jeweils zweistellig dargestellt.
Die Zone gibt die Differenz der Uhrzeit in
Abhängigkeit zur GMT an, im Beispiel also eine Stunde zurück.
Der String, der in doppelte Anführungszeichen eingeschlossen ist, gibt
die Zugriffsmethode (meist GET, HEAD
oder POST), die angeforderte Datei sowie
das Protokoll und die verwendete Version
an. Im obigen Beispiel wird die Index-Datei angefordert, und die notwendigen Informationen werden zur Datenübertragung ausgetauscht. Die letzten beiden Daten stellen die Anzahl der transferierten
Daten und den Status-Code für die durchgeführte Aktion dar. Eine Übersicht über
die wichtigsten HTTP-Status-Codes finden
Sie im Kasten HTTP-Codes.
Combined-Logfile-Format. Die beiden ersten Formate liefern wichtige Informationen, sind aber nur in Kombination
wirkungsvoll und aussagekräftig. Deswegen existiert mit dem Combined Logfile ein
weiteres Format, welches alle Informationen in einer Datei zusammenfaßt. Es basiert auf dem Common-Logfile-Format, ergänzt um die URL der referenzierenden
Seite und die Browser-Version, mit welcher der Besucher auf Ihre Seite zugreift.
Ein mögliches Beispiel könnte wie folgt
aussehen:
host.beispiel.de - - [12/Feb/2000:10:10:10 0100] \ "GET /index.html HTTP/1.0" \200
1234
http://www.hierkommichher.de/beispiel.htm
l \ "Mozilla/4.0 (compatible; MSIE 5.0;
Windows 98)"
Dieses Format wird beispielsweise vom
Apache-Web-Server genutzt, um die
angeforderten Daten des Besuchers zu
protokollieren.
Microsoft-IIS-Logfile-Format.
Wie
von Microsoft nicht anders zu erwarten,
haben die Herren aus Redmond für den
Internet Information Server ein eigenes
Protokollformat geschaffen. Durch das eigene Format stehen dem Besitzer des Servers jedoch einige zusätzliche Informationen zur Verfügung. Ein Protokollsatz beispielsweise sieht wie folgt aus:
199.174.253.213, - , 31/01/00, 11:11:11,
W3SVC, MeinServer, 10.107.1.121, 0, 456, 78,
304, 0, GET /index.html
Damit ergeben sich folgende protokollierte Daten – getrennt durch ein Komma:
IP-Adresse Client oder dessen DomainName
Benutzername, falls geschützte Seite
Datum
Uhrzeit
Dienste; mögliche Ausprägungen sind
hier W3SVC (HTTP), MSFTPSVC (FTP)
und GopherSvc (Gopher)
Name Ihres Servers
IP-Adresse Ihres Servers
Zeit, die zur Bearbeitung der Anfrage
benötigt wird
Anzahl von Bytes, die Browser an
Server schickt
Es gibt zahlreiche
Hersteller, wie
beispielsweise
Webalizer, die
Software zur grafischen Auswertung der LogDateien anbieten
internet world april 2000
99
praxis logfiles
Auch zahlreiche Hoster bieten in ihrem Standard-Lieferumfang eine
vorgefertigte Auswertung der Benutzerdaten an
Anzahl von Bytes, die Server an Browser schickt
HTTP-Status-Code, der an Client geliefert wird
NT-Status-Code, welcher dem Ergebnis
der Ausführung entspricht
HTTP-Befehl mit Pfad der angefragten
Information
Betrachtet man die Daten genau, entsprechen die meisten Werte dem Combined
Logfile. Die weiteren Informationen haben
keinen großen Zusatzwert, da die IPAdresse des eigenen Servers dem Administrator eigentlich bekannt sein sollte. Lediglich die Antwortzeit des Servers sollte
genauer ausgewertet werden, um mögli-
Die Universität von Uppsala hat eine Übersicht über Logfile-Analyseprogramme im Internet veröffentlicht
che Engpässe zu bestimmten Uhrzeiten
festzustellen und Gegenmaßnahmen ergreifen zu können.
Referrer-Logfile-Format. In dieser
Datei wird lediglich aufgezeichnet, woher
ein Besucher kommt und auf welche Seite
er dann zugreift. Die beiden Informationen
sind durch einen Pfeil voneinander
getrennt: http://www.meineseite.de/seite
12a.htm –> /daten/index.htm
Auswertung der Daten. Bei den meisten Besuchern kann keine automatische
Umsetzung der IP-Adresse erfolgen. Es
wird damit lediglich die IP-Adresse aufge-
info
Die wichtigsten HTTP-Status-Codes
Die Status-Codes lassen sich in fünf verschiedene Klassen unterteilen. Eine genauere Definition der Fehler-Codes finden Sie im Internet unter http://www.w3c/protocols.
Code-Bereich
Code-Beschreibung
100-199
Informationen
Bei dieser Art von Rückgabe-Code wird lediglich eine Antwort, bestehend aus der Statuszeile und einem
optionalen Header, zurückgegeben und die Antwort durch eine Leerzeile beendet.
200-299
Erfolgreiche Client-Anfrage
Die Client-Anfrage war erfolgreich, konnte verarbeitet und ausgeführt werden.
300-399
Client-Anfrage nicht eindeutig
Die Anfrage trifft auf eine Reihe von Dokumenten zu, die in verschiedenen Verzeichnissen plaziert sind, so
daß weitere Angaben des Benutzers bzw. Clients notwendig sind.
400-499
Client-Anfrage fehlerhaft
Die Anfrage konnte aufgrund eines Syntax-Fehlers nicht ausgeführt werden und muß modifiziert werden,
bevor sie erneut ausgeführt wird.
500-599
Server-Fehler aufgetreten
Der Server kann aufgrund eines internen Fehlers die Anfrage des Clients nicht durchführen und gibt einen
Fehler-Code an den Client zurück, damit dieser dem Anwender Auskunft über die Situation geben kann.
100 internet world april 2000
zeichnet. Um den Ursprung der Anfrage
zu erforschen, benötigen Sie ein Programm, das die IP-Adresse in die korrespondierende URL umsetzt. Dies ist beispielsweise mit dem Programm NeoTrace
möglich, das wir in der IW 02/2000 vorgestellt haben.
Interessant ist außerdem eine genauere Untersuchung der referenzierenden
URL, wenn es sich beim Ursprung um eine Suchmaschine handelt. Damit können
Sie nachvollziehen, mit welchen Suchkriterien Ihre Seite gefunden wurde und ob
eventuell eine Nacharbeit bei der Auswahl
Ihrer Meta-Tags notwendig ist.
Für eine aussagekräftige Auswertung
Ihrer Log-Datei sind darüber hinaus noch
einige Nacharbeiten notwendig. In diesem
Zusammenhang ist eine strikte Differenzierung zwischen Hits und Page Impressions notwendig. Während Page Impressions die tatsächlichen Seitenabrufe repräsentieren, wird für jeden Zugriff auf eine Seite – vom Frame bis zur Grafik – ein
Hit aufgezeichnet. So kommen für eine
aufwendige Seite gut und gerne 20 bis 30
Hits zusammen. Bearbeiten Sie Ihre LogDatei entsprechend, um keine verfälschten Ergebnisse zu erlangen.
Wenn Sie Ihre Datensätze nach der IPAdresse der Besucher und der Anfragezeit
sortieren, erhalten Sie aus diesen Werten
die genaue Information, an welchem
Punkt ein Besucher in Ihre Seite eingestiegen ist, wie er sich durch die Seite bewegt und wo er sie wieder verlassen hat.
Verlassen mehrere Personen Ihre Site an
der gleichen Stelle, sollten Sie die Inhalte
betrachten und eventuell verbessern.
Durch eine statistische Erhebung können
Sie außerdem feststellen, wie viele Personen eine gewisse Seite in einem bestimmten Zeitraum, beispielsweise eine Woche,
betrachten. Wenn diese Werte massiv abnehmen, sollten Sie den Inhalt der Seite
erneuern.
dem Sie nun wissen, welche Informationen sich hinter den Feldern verbergen,
können wir diese Daten näher analysieren. Das größte Problem bei der Auswertung ist die Herkunft der Benutzer. Die
meisten Surfer, die sich über einen Provider einwählen, bekommen eine dynamische IP-Adresse zugewiesen, mit der sie
anschließend im Internet unterwegs sind.
Kommt der Besucher zu einem späteren
Zeitpunkt wieder auf Ihre Homepage, hat
er höchstwahrscheinlich eine andere IPAdresse als beim letzten Mal. Dadurch
können Sie keine aussagekräftige Statistik
darüber erstellen, wie oft ein Besucher Ihre Seite innerhalb einer bestimmten Zeit
angewählt hat. Abhilfe schafft hier der Einsatz von Cookies in Kooperation mit einem Analyseprogramm. Beim ersten Aufruf Ihrer Site plaziert das Programm ein
Cookie auf dem Rechner des Besuchers.
Bei jedem weiteren Besuch wird die ID des
Cookies als Zusatzinformation dem Protokoll beigefügt.
Ein weiteres Problem besteht, wenn
sich der Client hinter einer Firewall befindet bzw. ein Proxy-Server für das Netzwerk eingesetzt wird. In beiden Fällen
wird für alle Rechner im Netzwerk nur eine IP-Adresse verwendet. Zur Lösung dieses Problems sollten Sie auch hier den Einsatz von Cookies für die eindeutige Zuordnung des Besuchers erwägen.
Durch den Einsatz von Templates und
Frames läßt sich leider nicht immer ein
Rückschluß auf den Inhalt ziehen. Es wird
lediglich der Aufruf des Templates, nicht
aber dessen Inhalt protokolliert. Diese
Problematik können Sie jedoch durch die
Erweiterung des Headers der eingesetzten
Middleware umgehen.
Server wie ColdFusion bieten auch die
Möglichkeit,
dem
Header
einen
identifizierenden String der Seite beizufügen. Der Apache-Web-Server beispielsweise ermöglicht die Protokollierung
dieser Daten durch die Anpassung der
Konfigurationsdatei (httpd.conf).
= Andreas Hitzig
2/3 Seite hoch rechts
MB Software
Probleme bei der Auswertung. Nach-
internet world april 2000
101