Wer besucht mich?

Transcrição

Wer besucht mich?
test web-server
Wer
besucht
mich?
Log-Dateien verraten mehr als die Herkunft des
Benutzers oder die Browser-Version – wenn man
die richtige Software erworben hat.
Statistiken sind wichtig für
jede Web-Site. Sie geben
nicht nur Auskunft über die Anzahl der
Benutzer oder die beliebtesten Seiten der
Anwender, sie informieren auch über die
Verweildauer oder die häufigsten Ausstiegsseiten. Für die Management-Ebene
bieten die meisten Programme eine grafische Auswertung, in der die wichtigsten
Daten in ansprechender Form aufbereitet
werden. Wir haben die beliebtesten Tools
für Sie getestet.
WebTrends Enterprise Suite
Version 4.0
WebTrends setzt, was die Benutzerfreundlichkeit betrifft, Maßstäbe. Das Programm läßt sich, wie die anderen Programme auch, via Browser warten. In den
insgesamt drei Frames können Sie neben
dem Betrachtungszeitraum auch die einzelnen Auswertungen auswählen. Im
Main-Frame werden die Inhalte grafisch
und tabellarisch aufbereitet. Das Layout
ist flexibel an die eigenen Bedürfnisse anpaßbar. Das Programm kennt die Problematik, daß unterschiedliche Benutzer von
der gleichen IP-Adresse kommen können.
Um auch unter diesen Umständen verläßliche Informationen bieten zu können,
setzt es als Zusatzfunktion auf den Einsatz von Cookies. So kann ein Benutzer
nicht nur eindeutig identifiziert, sondern
bei erneutem Besuch auch sofort wiedererkannt werden.
Bemerkenswert ist auch die Auswahl
an Export-Formaten. Neben den gewohnten HTML-Seiten lassen sich die Auswer-
122 internet world oktober 2000
tungen beispielsweise auch als Excel- oder
Word-Datei auslesen oder die Daten zur
späteren Weiterverarbeitung in einer Datenbank ablegen. Die Auswertungen sind
über einen internen Scheduler steuerbar,
der vor oder nach einer Auswertung externe Programme starten kann. Dies ist besonders dann von Nutzen, wenn die Daten einer Auswertung via FTP von einem
anderen Server importiert und nach der
Aufbereitung auf einen weiteren Server kopiert werden sollen.
fazit
Insgesamt ...
... war es – bis auf http-analayze – ein ausgeglichenes Testfeld, das jedoch einige Unterschiede vor allem in Preis und Leistung
aufzeigte. Keines der Programme bietet eine vernünftige Möglichkeit, die Benutzer
anhand von Sessions zu identifizieren, sofern diese eingesetzt werden. Viele Shops
verwenden diese inzwischen anstelle von
Cookies. Immerhin: Exody hat mit ShopSuxess bereits einen ersten Schritt in diese
Richtung unternommen. Linux-Anwender
sollten sich den Open-Source-Analyzer
Webalizer genauer betrachten, unter Windows gehören WebSuxess und WebTrends
auf grafischer Ebene und Summary.net
beim Preis zur ersten Wahl. http-analyze
liegt beim Vergleich abgeschlagen an letzter Stelle, da weder Preis noch Leistungsumfang überzeugen konnten.
test web-server
Sie für diese nicht einen separaten
Rechner spendieren wollen. WebSuxess bietet die Möglichkeit, alle benötigten Daten via FTP auf den Windows-Rechner zu importieren. Die Verarbeitungsgeschwindigkeit der LogDatei läßt wenig zu wünschen übrig.
Die Auswertung der Daten wird als
Sammlung von HTML-Dateien in einem beliebigen Verzeichnis abgelegt.
Damit müssen Sie eine Log-Datei auch
nur einmal auswerten. Für die
Darstellung der Daten lassen sich
Dies schlägt sich jedoch im Preis nieder. Mit rund 2.000 Mark für die Enterprise Suite Version 4.0 liegt die Software von WebTrends am oberen Ende
der Preisskala.
WebSuxess 4.0 Enterprise
Die Software von Exody benötigt als
Plattform Microsoft Windows, ist hier
jedoch flexibel: Der Client läßt sich auf
nahezu jedem Betriebssystem installieren. Gerade bei größeren Auswertungen sollten Sie sich überlegen, ob
WebTrends überzeugt durch seine umfangreichen und
individuell zu konfigurierenden Auswertungen
übersicht
Alle getesteten Logfile-Programme in der Übersicht
Name
Hersteller
URL
Mail
Preis
Web-Server
Apache
IIS
Netscape
Betriebssystem
Windows 9X
Windows NT/2000
Linux
Sun Solaris
Sonstiges
Seitenanalyse
PageViews
durchschnittl. Betrachtungsdauer
gesamte Übertragungsdauer
übertragene Bytes
Ausstiegsseiten
Besucheranalyse
Besucherpfade
Woher kommen Besucher
Welcher Provider
Suchmaschinenbesuche
Kampagnenanalyse
Zugriff via Banner-Werbung
Zugriff von welcher anderen HP
Eintritt via Suchmaschine
Suchbegriffe bei Suchmaschine
Browseranalyse
Browser-Version
Browser-Hersteller
Betriebssystem
Medienanalyse
Unterstützung Streaming-Server
Unterstützung IVW
Preis/Leistung
Wertung
= ja, = nein
124 internet world oktober 2000
WebTrends
WebTrends
www.webtrends.com
[email protected]
Enterprise Suite 4
ca. 2.000 DM
Websuxess
Exody
http://www.websuxess.de
[email protected]
Single User ca. 900 DM
Webalizer
Webalizer
http://www.webalizer.com
http-analyze
Rent-A-Guru
http://www.netstore.de
[email protected]
Privat frei,
Commercial ab 700 DM
Summary Pro 1.4.7
Summary.net
http://www.summary.net
[email protected]
Single User ca. 500 DM
/
MacOS
befriedigend
gut
gut
gut
sehr gut
befriedigend
ausreichend
ausreichend
gut
befriedigend
Open Source
test web-server
ist die Software für den Einsatz im
privaten und Bildungs-Bereich
umsonst. Dafür wird in allen anderen Fällen eine Lizenzpolitik auf
Basis der eingesetzten CPUs betrieben. Bei 3.000 Mark für ein Projekt endet die Preisstaffelung. Zur
Navigation zwischen den einzelnen Menüpunkten dient ein separates Fenster, über das als erstes
der zu betrachtende Monat ausgewählt werden muß. Im folgenden sind dann Informationen zu
Summary Pro steht zwar grafisch hinter seinen Konkurden Hits, den beliebtesten Seiten,
renten zurück, kann aber durch Preis und Leistungsumder Herkunft und der Browser-Verfang überzeugen
sion aufgelistet. Das war’s im
mationen über die Herkunfts-Links der Begroßen und ganzen. Das Programm steht
sucher oder die Such-Strings, über die die
damit deutlich hinter der Konkurrenz.
Besucher auf die Site kommen. Natürlich
Dafür entschädigt auch nicht der Umfehlen auch nicht die Aussagen über
stand, daß die private Nutzung kostenlos
Browser-Versionen, Herkunftsland oder
ist. Kommerziellen Anwendern wird ein
Betriebssystem. Wer als Web-Server beim Vergleich zu den anderen Programmen
reits Linux einsetzt, erhält mit seiner Diunverhältnismäßig hoher Preis abverstribution in vielen Fällen bereits den Welangt. Wir können http-analyze nicht weibalizer. Doch auch für die anderen Beterempfehlen. Webalizer bietet den gleitriebssysteme ist Webalizer eine gute Alchen Umfang und ist generell gratis.
ternative zu den kostenpflichtigen Programmen – auch wenn die Möglichkeiten
Summary Pro
der Konfiguration und der Umfang der
Nicht gerade eine luxuriöse Oberfläche erAuswertungen an manchen Stellen zu
wartet den Web-Master nach der Installawünschen übrig lassen.
tion von Summary Pro. Dafür ist das Programm aber in puncto Informationsvielfalt kaum zu überbieten. Über eine einfahttp-analyze
che Link-Liste lassen sich die rund 100 AusWebalizer
Wer Strato kennt, ist wohl auch schon mit
wertungen einzeln ansteuern. Große grahttp-analyze in Berührung gekommen.
Dieses Programm entstammt einer Openfische Auswertungen sind allerdings nicht
Das Programm ist im Standardumfang der
Source-Schmiede. Auf der Einstiegsseite
zu erwarten. Summary Pro beschränkt
Strato-Pakete enthalten und bietet monatwerben die Autoren noch mit einem Butsich auf ein paar simple Diagramme. Imliche Auswertungen über die Besucherton, daß alles 100prozentig frei von Micromerhin: Die ausgegebenen Listen sind –
zahlen auf der eigenen Site an. Zugleich
soft-Einflüssen sei. Leider stimmt dies aber
auch online – individuell sortierbar. Das
ist es aber auch als Stand-alone-Version ernicht mehr ganz, da Webalizer inzwischen
Tool birgt einige Überraschungen: Mit „Hihältlich. Augenfällig ist die Preispolitik: So
auch in eine Win32-Version portiert wurjacking Graphics“ können Sie
de. Auf einer Übersichtsseite ist
Zugriffe aufspüren, die direkt
sowohl tabellarisch als auch
auf eine Ihrer Grafiken verweigrafisch der Tagesdurchschnitt
sen, anstatt die komplette Seite
der Zugriffe sowie eine Überanzusteuern. Die Auswertunsicht über die vergangenen 12
gen können Sie sich entweder
Monate zu sehen. Die dargedirekt als Excel-Datei oder in eistellten Zeiträume lassen sich
ner Text-Datei ausgeben lassen.
im folgenden noch detaillierter
Mit einem Preis von rund 500
analysieren. Das Programm
Mark und der Vielfalt der Bebietet bei weitem nicht die Intriebssysteme für all diejenigen
formationsvielfalt der beiden
zu empfehlen, die auf eine grazuvor genannten Produkte, liefische Aufbereitung weitgehend
fert aber verläßliche Aussagen
verzichten können, aber umüber die Top-URLs, die Top
fangreiche Auswertungen beDownloads oder die beliebtenötigen.
sten Ausstiegspunkte. Nicht zu
kurz kommen auch die Infor- Navigiert wird bei http-analyze über ein zusätzliches Fenster
= Andreas Hitzig
verschiedene
Diagrammformen
auswählen, wobei die Navigation übersichtlicher sein könnte. Aufgrund der vielen
Möglichkeiten hat man zu Beginn seine
Probleme, sich bei WebSuxess zurechtzufinden. Dafür steht dem Anwender aber
ein Assistent zur Verfügung, der gerade für
die ersten Schritte recht hilfreich ist. Als
nützlich erweist sich die Einstellung eines
Timeout, der oft die einzige Möglichkeit
ist, mehrere Benutzer von derselben dynamischen IP auseinanderzuhalten. Der
besseren Übersichtlichkeit wegen gestattet WebSuxess die Gruppierung von Elementen. So können Sie beispielsweise alle Hits auf ein bestimmtes Verzeichnis als
eine Einheit auswerten lassen. Sollten Sie
einen Streaming-Server wie Real Networks
oder Netshow einsetzen, erlaubt Ihnen
WebSuxess eine genaue Aussage über die
Treffer. Damit gewinnen Sie schnell einen
Überblick, wo die Stärken und Schwächen
Ihrer Site liegen. In diesem Zusammenhang ist auch die Funktion der häufigsten
Ausstiegsseiten erwähnenswert. WebSuxess wird in zwei Versionen angeboten: einer Single-User-Lizenz für eine Web-Präsenz und einer ISP-Lizenz für Provider, die
ihren Kunden eine grafische Auswertung
anbieten wollen. Mit einem Preis von rund
900 Mark liegt der Preis für die Single-UserLizenz noch im akzeptablen Bereich.
126 internet world oktober 2000
praxis user-tracking
Auf den Spuren
des Besuchers
Was Sie über die Besucher Ihrer WebSite erfahren können und was Sie
왎
Welcher Web-Master möchte
nicht mehr über seine Besucher erfahren? Hier die wichtigsten Kniffe in aller Kürze.
für das Schreiben
von Cookies bzw. Request.Cookies für das
Auslesen. Folgender Code setzt ein Cookie, das erst nach einem Jahr wieder
gelöscht wird:
IP-Adresse. Beim Einsatz Server-seitiger
Programmiersprachen haben Sie Zugriff
auf eine Handvoll Server-Variablen. Für
die IP-Adresse ist REMOTE_ADDR interessant, das ist nämlich die IP-Adresse des
Rechners, der die HTTP-Anfrage gestellt
hat. Normalerweise ist das zugleich auch
die IP-Adresse des Client.
Der folgende Code zeigt die Werte in einer ASP-Seite an. Sie können das Ganze
auch in einer Datenbank abspeichern:
<?
Response.Cookies(„BesucherID“) = „12345“
Response.Cookies(„BesucherID“).Expires =
Date + 365
?>
<%
Response.Write „IP: „
Response.Write Request.ServerVariables
(„REMOTE_ADDR“)
Response.Write „<BR>“
%>
Anhand der IP-Adresse können Sie durch
eine Rückwärts-DNS-Auflösung (beispielsweise http://samspade.org) auf den
zugeordneten Domain-Namen schließen.
Das wird dann entweder der Name eines
Proxy-Servers oder einer Einwahlleitung
eines Providers sein.
Cookies. Die beste Methode, ein Profil
über einen bestimmten Besucher der WebSite zu erstellen: Der Client-Browser
schickt bei jeder Anfrage an einen WebServer alle Cookies mit, die dieser WebServer zuvor an den Browser geschickt hatte. Damit ist klar, welcher Besucher die
Seite gerade aufgerufen hat. Diese Information läßt sich in einem Benutzerprofil
abspeichern. Cookies werden in der Umgebungsvariablen HTTP_COOKIE gespeichert. Die meisten Programmiersprachen
bieten jedoch spezielle Funktionen an, um
Cookies zu setzen und zu lesen. Bei ASP
sind das die Kollektionen Response.Cookies
80 internet world august 2000
Viele Benutzer schalten allerdings die Unterstützung von Cookies im Browser aus.
Plug-Ins. Kommt der Netscape Navigator
zum Einsatz, läßt sich mit JavaScript leicht
feststellen, welche Plug-Ins auf dem System Ihres Besuchers installiert sind. Der
folgende Code gibt alles aus:
<SCRIPT LANGUAGE=“JavaScript“><!—
if (navigator.plugins)
for (var i=0; i<navigator.plugins.length; i++){
document.write(navigator.plugins[i].
name)+“: „
document.write(navigator.plugins[i].
description)+“<BR>“
}
//—></SCRIPT>
Bildschirm-Auflösung. Seit dem Browser mit Versionsnummer 4 bietet JavaScript noch ein paar Möglichkeiten mehr.
Unter anderem können die Bildschirmauflösung und die Größe des aktuellen
Browser-Fensters bestimmt werden:
<SCRIPT LANGUAGE=“JavaScript“><!—
if (screen){
document.write(„Auflösung: „+screen.
width+“*“+screen.height+“<BR>“)
document.write(„Browsergröße: „+screen.
availWidth+ „*“ + screen.availHeight+
“<BR>“)
document.write(„Pixeltiefe: „+screen.pixel
Depth+“<BR>“)
document.write(„Farbtiefe: „+screen.color
Depth+“<BR>“)
}
//—></SCRIPT>
Surf-Verhalten. Die URL der Web-Site,
die vor Ihrer Seite besucht wurde, steht in
der Umgebungsvariablen HTTP_REFERER.
Die zweite Möglichkeit beinhaltet wieder
JavaScript. Alle besuchten Seiten werden
im history-Objekt abgelegt. Sie haben darauf zwar keinen Lesezugriff, aber Sie können immerhin feststellen, welche URL im
history-Objekt die Ihre ist. Das läßt sich
auch wieder interpretieren: Ist der Benutzer sofort oder erst nach einigem Herumsurfen auf Ihre Seiten gestoßen?
<%
Response.Write „Vorherige Seite: „
Response.Write Request.ServerVariables
(„HTTP_REFERER“)
Response.Write „<BR>“
%>
<SCRIPT LANGUAGE=“JavaScript“><!—
document.write(„History-Einträge: „)
document.write(history.length+“<BR>“)
//—></SCRIPT>
Ältere Browser. Es gibt die Möglichkeit,
auf die Umgebungsvariable HTTP_FROM
zuzugreifen. Sie enthält nämlich die
eMail-Adresse, allerdings nur bei älteren
Browsern. Bei neueren Browsern kommt
dies nicht mehr vor, Ihre eMail-Adresse ist
also einigermaßen sicher. Trotzdem lohnt
es sich zu überprüfen, ob Ihr Browser die
Umgebungsvariable am Ende nicht doch
sendet:
<%
Response.Write „E-Mail (?): „
Response.Write Request.ServerVariables
(„HTTP_FROM“)
Response.Write „<BR>“
%>
Im Download-Bereich der INTERNET
WORLD (http://www.internetworld.de)
finden Sie all diese Tricks bequem in ei-
praxis logfiles
Besucherdaten
entschlüsselt
Jeder Besucher Ihrer Site hinterläßt auf
Ihrem Server Spuren. Die Auswertung
dieser Informationen ermöglicht
interessante Rückschlüsse.
Homepage-Besitzer interessieren
sich nicht nur für die Zahl der Besucher, sondern auch für die Aktivitäten
der Gäste. Dadurch können Sie maßgebliche Informationen gewinnen: Wer war auf
meiner Homepage? Welche Seiten hat er
dort angeschaut? Woher ist er gekommen?
All diese Fragen – und noch einige Dinge
mehr – beantworten Ihnen die Log-Dateien Ihres Web-Servers. Wir zeigen Ihnen,
welche Rückschlüsse Sie hierdurch auf
Ihre Besucher ziehen können.
info
Analyseprogramme
Im Internet ist eine Vielzahl von Analyseprogrammen auch für Ihren Web-Server zu
finden. Eine Übersicht über Analyseprogramme bietet die Homepage der Universität von Uppsala unter http://www.uu.se/
Software/Analyzers/Access-analyzers.html.
Logfile-Typen. Es gibt einige
unterschiedliche Logfile-Formate. Wir haben die fünf
gebräuchlichsten Typen
näher betrachtet:
Agent Logfile
Common Logfile
Combined Logfile
Microsoft IIS Logfile
Referrer Logfile
Jedes Mal, wenn jemand Ihre Site besucht,
werden auf Ihrem Web-Server alle Datenzugriffe protokolliert. Dies gilt übrigens
auch für Homepages, die bei einem
Provider liegen. Hier können Sie jedoch
zum Teil nicht direkt auf die Informationen zugreifen, sondern bekommen jeden
Monat eine bereits ausgewertete Statistik
zu sehen.
Es hängt vom Web-Server ab, welche
Art von Protokoll eingesetzt wird.
Während der Apache-Web-Server auf das
Combined-Logfile-Format baut, setzt der
Internet Information Server von Microsoft
ein proprietäres Format ein.
98 internet world april 2000
Agent-Logfile-Format. Im Agent
Logfile werden Informationen über
den Client gespeichert, der auf Ihre Seite zugreift. Diese Daten sind wichtig, damit Sie die Kompatibilität Ihrer Seiten kontrollieren können. Setzen Sie beispielsweise viele DHTML-Effekte ein, und die
Mehrzahl Ihrer Besucher verwendet noch
einen älteren Browser, sollten Sie auf jeden Fall einen entsprechenden Hinweis auf
Ihrer Seite anbringen. Besser wäre es jedoch, wenn Sie eine an den Browser angepaßte alternative Seite zur Verfügung
stellen könnten.
Mozilla/4.0 (compatible; MSIE 4.01; Windows NT) repräsentiert den Eintrag für den
Internet Explorer Version 4.01, ausgeführt
auf der Plattform Windows NT, Mozilla/4.0
(compatible; MSIE 5.0; Windows 98) den aktuellen Internet Explorer 5.0 auf der Win
98-Plattform und Mozilla/4.51 [en] (WinNT;
I) den englischen Netscape Navigator 4.51,
ausgeführt auf einer Intel-Plattform mit
Windows NT.
Common-Logfile-Format. Wesentlich
auskunftsfreudiger ist da schon das Common-Logfile-Format. Einträge können hier
beispielsweise wie folgt aussehen:
199.174.253.213 - - [31/Jan/2000:12:12:12 0100] "GET index.html HTTP/1.0" 200 1234
199.174.253.213 - - [31/Jan/2000:12:12:15 0100] "HEAD / HTTP/1.0" 302 354
199.174.253.213 - - [31/Jan/2000:12:12:12 0100] "GET / HTTP/1.0" 302 354
Die Übertragung der Informationen findet
hierbei immer im gleichen Format statt.
Der erste Wert, die IP-Adresse 199.174.
253.213, repräsentiert die Adresse, von
welcher aus der Besucher zugreift. Handelt es sich um eine geschützte Seite, so
wird an der zweiten Position der Benutzername und an der dritten Stelle das notwendige Paßwort übergeben. Ist die Seite
öffentlich zugänglich, so wird in das Protokoll – wie im obigen Beispiel – für beide Informationen ein Gedankenstrich ein-
gefügt. Eingeklammert finden sich Datum
und Uhrzeit des Zugriffs wieder. Die Darstellung der Zugriffszeit hat folgendes Format: [Tag/Monat/Jahr:Stunde:Minute:Sekunde Zone], wobei für den Tag zwei, den
Monat drei und das Jahr vier Stellen vorgesehen sind. Stunde, Minute und Sekunde werden jeweils zweistellig dargestellt.
Die Zone gibt die Differenz der Uhrzeit in
Abhängigkeit zur GMT an, im Beispiel also eine Stunde zurück.
Der String, der in doppelte Anführungszeichen eingeschlossen ist, gibt
die Zugriffsmethode (meist GET, HEAD
oder POST), die angeforderte Datei sowie
das Protokoll und die verwendete Version
an. Im obigen Beispiel wird die Index-Datei angefordert, und die notwendigen Informationen werden zur Datenübertragung ausgetauscht. Die letzten beiden Daten stellen die Anzahl der transferierten
Daten und den Status-Code für die durchgeführte Aktion dar. Eine Übersicht über
die wichtigsten HTTP-Status-Codes finden
Sie im Kasten HTTP-Codes.
Combined-Logfile-Format. Die beiden ersten Formate liefern wichtige Informationen, sind aber nur in Kombination
wirkungsvoll und aussagekräftig. Deswegen existiert mit dem Combined Logfile ein
weiteres Format, welches alle Informationen in einer Datei zusammenfaßt. Es basiert auf dem Common-Logfile-Format, ergänzt um die URL der referenzierenden
Seite und die Browser-Version, mit welcher der Besucher auf Ihre Seite zugreift.
Ein mögliches Beispiel könnte wie folgt
aussehen:
host.beispiel.de - - [12/Feb/2000:10:10:10 0100] \ "GET /index.html HTTP/1.0" \200
1234
http://www.hierkommichher.de/beispiel.htm
l \ "Mozilla/4.0 (compatible; MSIE 5.0;
Windows 98)"
Dieses Format wird beispielsweise vom
Apache-Web-Server genutzt, um die
angeforderten Daten des Besuchers zu
protokollieren.
Microsoft-IIS-Logfile-Format.
Wie
von Microsoft nicht anders zu erwarten,
haben die Herren aus Redmond für den
Internet Information Server ein eigenes
Protokollformat geschaffen. Durch das eigene Format stehen dem Besitzer des Servers jedoch einige zusätzliche Informationen zur Verfügung. Ein Protokollsatz beispielsweise sieht wie folgt aus:
199.174.253.213, - , 31/01/00, 11:11:11,
W3SVC, MeinServer, 10.107.1.121, 0, 456, 78,
304, 0, GET /index.html
Damit ergeben sich folgende protokollierte Daten – getrennt durch ein Komma:
IP-Adresse Client oder dessen DomainName
Benutzername, falls geschützte Seite
Datum
Uhrzeit
Dienste; mögliche Ausprägungen sind
hier W3SVC (HTTP), MSFTPSVC (FTP)
und GopherSvc (Gopher)
Name Ihres Servers
IP-Adresse Ihres Servers
Zeit, die zur Bearbeitung der Anfrage
benötigt wird
Anzahl von Bytes, die Browser an
Server schickt
Es gibt zahlreiche
Hersteller, wie
beispielsweise
Webalizer, die
Software zur grafischen Auswertung der LogDateien anbieten
internet world april 2000
99
praxis logfiles
Auch zahlreiche Hoster bieten in ihrem Standard-Lieferumfang eine
vorgefertigte Auswertung der Benutzerdaten an
Anzahl von Bytes, die Server an Browser schickt
HTTP-Status-Code, der an Client geliefert wird
NT-Status-Code, welcher dem Ergebnis
der Ausführung entspricht
HTTP-Befehl mit Pfad der angefragten
Information
Betrachtet man die Daten genau, entsprechen die meisten Werte dem Combined
Logfile. Die weiteren Informationen haben
keinen großen Zusatzwert, da die IPAdresse des eigenen Servers dem Administrator eigentlich bekannt sein sollte. Lediglich die Antwortzeit des Servers sollte
genauer ausgewertet werden, um mögli-
Die Universität von Uppsala hat eine Übersicht über Logfile-Analyseprogramme im Internet veröffentlicht
che Engpässe zu bestimmten Uhrzeiten
festzustellen und Gegenmaßnahmen ergreifen zu können.
Referrer-Logfile-Format. In dieser
Datei wird lediglich aufgezeichnet, woher
ein Besucher kommt und auf welche Seite
er dann zugreift. Die beiden Informationen
sind durch einen Pfeil voneinander
getrennt: http://www.meineseite.de/seite
12a.htm –> /daten/index.htm
Auswertung der Daten. Bei den meisten Besuchern kann keine automatische
Umsetzung der IP-Adresse erfolgen. Es
wird damit lediglich die IP-Adresse aufge-
info
Die wichtigsten HTTP-Status-Codes
Die Status-Codes lassen sich in fünf verschiedene Klassen unterteilen. Eine genauere Definition der Fehler-Codes finden Sie im Internet unter http://www.w3c/protocols.
Code-Bereich
Code-Beschreibung
100-199
Informationen
Bei dieser Art von Rückgabe-Code wird lediglich eine Antwort, bestehend aus der Statuszeile und einem
optionalen Header, zurückgegeben und die Antwort durch eine Leerzeile beendet.
200-299
Erfolgreiche Client-Anfrage
Die Client-Anfrage war erfolgreich, konnte verarbeitet und ausgeführt werden.
300-399
Client-Anfrage nicht eindeutig
Die Anfrage trifft auf eine Reihe von Dokumenten zu, die in verschiedenen Verzeichnissen plaziert sind, so
daß weitere Angaben des Benutzers bzw. Clients notwendig sind.
400-499
Client-Anfrage fehlerhaft
Die Anfrage konnte aufgrund eines Syntax-Fehlers nicht ausgeführt werden und muß modifiziert werden,
bevor sie erneut ausgeführt wird.
500-599
Server-Fehler aufgetreten
Der Server kann aufgrund eines internen Fehlers die Anfrage des Clients nicht durchführen und gibt einen
Fehler-Code an den Client zurück, damit dieser dem Anwender Auskunft über die Situation geben kann.
100 internet world april 2000
zeichnet. Um den Ursprung der Anfrage
zu erforschen, benötigen Sie ein Programm, das die IP-Adresse in die korrespondierende URL umsetzt. Dies ist beispielsweise mit dem Programm NeoTrace
möglich, das wir in der IW 02/2000 vorgestellt haben.
Interessant ist außerdem eine genauere Untersuchung der referenzierenden
URL, wenn es sich beim Ursprung um eine Suchmaschine handelt. Damit können
Sie nachvollziehen, mit welchen Suchkriterien Ihre Seite gefunden wurde und ob
eventuell eine Nacharbeit bei der Auswahl
Ihrer Meta-Tags notwendig ist.
Für eine aussagekräftige Auswertung
Ihrer Log-Datei sind darüber hinaus noch
einige Nacharbeiten notwendig. In diesem
Zusammenhang ist eine strikte Differenzierung zwischen Hits und Page Impressions notwendig. Während Page Impressions die tatsächlichen Seitenabrufe repräsentieren, wird für jeden Zugriff auf eine Seite – vom Frame bis zur Grafik – ein
Hit aufgezeichnet. So kommen für eine
aufwendige Seite gut und gerne 20 bis 30
Hits zusammen. Bearbeiten Sie Ihre LogDatei entsprechend, um keine verfälschten Ergebnisse zu erlangen.
Wenn Sie Ihre Datensätze nach der IPAdresse der Besucher und der Anfragezeit
sortieren, erhalten Sie aus diesen Werten
die genaue Information, an welchem
Punkt ein Besucher in Ihre Seite eingestiegen ist, wie er sich durch die Seite bewegt und wo er sie wieder verlassen hat.
Verlassen mehrere Personen Ihre Site an
der gleichen Stelle, sollten Sie die Inhalte
betrachten und eventuell verbessern.
Durch eine statistische Erhebung können
Sie außerdem feststellen, wie viele Personen eine gewisse Seite in einem bestimmten Zeitraum, beispielsweise eine Woche,
betrachten. Wenn diese Werte massiv abnehmen, sollten Sie den Inhalt der Seite
erneuern.
dem Sie nun wissen, welche Informationen sich hinter den Feldern verbergen,
können wir diese Daten näher analysieren. Das größte Problem bei der Auswertung ist die Herkunft der Benutzer. Die
meisten Surfer, die sich über einen Provider einwählen, bekommen eine dynamische IP-Adresse zugewiesen, mit der sie
anschließend im Internet unterwegs sind.
Kommt der Besucher zu einem späteren
Zeitpunkt wieder auf Ihre Homepage, hat
er höchstwahrscheinlich eine andere IPAdresse als beim letzten Mal. Dadurch
können Sie keine aussagekräftige Statistik
darüber erstellen, wie oft ein Besucher Ihre Seite innerhalb einer bestimmten Zeit
angewählt hat. Abhilfe schafft hier der Einsatz von Cookies in Kooperation mit einem Analyseprogramm. Beim ersten Aufruf Ihrer Site plaziert das Programm ein
Cookie auf dem Rechner des Besuchers.
Bei jedem weiteren Besuch wird die ID des
Cookies als Zusatzinformation dem Protokoll beigefügt.
Ein weiteres Problem besteht, wenn
sich der Client hinter einer Firewall befindet bzw. ein Proxy-Server für das Netzwerk eingesetzt wird. In beiden Fällen
wird für alle Rechner im Netzwerk nur eine IP-Adresse verwendet. Zur Lösung dieses Problems sollten Sie auch hier den Einsatz von Cookies für die eindeutige Zuordnung des Besuchers erwägen.
Durch den Einsatz von Templates und
Frames läßt sich leider nicht immer ein
Rückschluß auf den Inhalt ziehen. Es wird
lediglich der Aufruf des Templates, nicht
aber dessen Inhalt protokolliert. Diese
Problematik können Sie jedoch durch die
Erweiterung des Headers der eingesetzten
Middleware umgehen.
Server wie ColdFusion bieten auch die
Möglichkeit,
dem
Header
einen
identifizierenden String der Seite beizufügen. Der Apache-Web-Server beispielsweise ermöglicht die Protokollierung
dieser Daten durch die Anpassung der
Konfigurationsdatei (httpd.conf).
= Andreas Hitzig
2/3 Seite hoch rechts
MB Software
Probleme bei der Auswertung. Nach-
internet world april 2000
101
praxis site-management-praxis
Logfiles
richtig lesen!
Mit wenigen Handgriffen modifizieren Sie
Ihre Site so, daß Sie anhand der LogDateien verläßliche Aussagen über die
Besucherströme treffen können.
왎
In grauer Internet-Vorzeit hatten es
Web-Master einfach: Die Meßgröße „Hits“ galt als Maß aller Dinge. Unter „Hits“ wurde jede Server-Anfrage subsumiert, egal,
ob eine HTML-Datei, ein Bild
oder ein WAV-Sound angefordert wurde. Man zählte damals alle „Hits“ zusammen,
teilte sie durch den willkürlich festgelegten Durchschnitt von 5,4 (soviel
„Hits“ erzeugt eine einzelne Seite möglicherweise) und der Web-Master hatte eine allgemeingültige, wenn auch völlig ungenaue Zahl seiner Seitenabrufe.
Die Zeiten haben sich gründlich geändert. Angesichts des Wettbewerbdrucks
kann und will kaum noch ein Site-Betreiber auf detaillierteres Zahlenmaterial verzichten. Der erste, oben beschriebene
Zählversuch konnte kaum relevantes Zahlenmaterial liefern. Eine Seite, die zum Beispiel um einheitliche Navigationselemente einen neuen Text fließen läßt, erzeugt
nur einen Hit (für den Text) und würde
nur als „ein Fünftel einer Seite“ erfaßt. Dieselbe Seite, die ihre Navigations-Buttons
nicht als Image-Map, sondern als einzelne GIFs gespeichert hat und die darüber
hinaus einen Reload erzwingt, könnte
locker als vier Seiten gezählt werden.
PageViews oder PageImpressions
lösten daher die Hits bei der Zählung ab.
100 internet world januar 2000
Summiert werden nur noch die
übermittelten HTMLSeiten, unabhängig davon, wie viele Grafiken sie
enthalten. Die Werte spiegeln
daher deutlich wider, was auf
dem Web-Server passiert. Das bekannte Zählverfahren der IVW arbeitet heute noch mit PageViews.
Für die werbetreibende Wirtschaft ist
aber auch diese Größe nicht aussagekräftig genug. Zu leicht ist die Zahl zu manipulieren, etwa, wenn verschiedene WebAngebote unter einem Dach geführt und
zusammengezählt werden (siehe Internet
World 12/99, Seite 48). So behilft man sich
mit der Zählung der AdImpressions, die
die Anzahl von Sichtkontakten mit einem
Werbebanner beziffert.
Es geht genauer. Gerade Betreiber von
Online-Shops benötigen noch weit detaillierteres Zahlenmaterial. Um ihr Angebot
zu optimieren, wollen sie wissen, welcher
Surfer das Angebot in welcher Reihenfolge betrachtet und wofür er sich besonders
interessiert.
Ganz einfach funktioniert das, wenn
sich der Benutzer mit Namen und Paßwort
anmeldet. Komplizierter wird es, wenn die
Site auf eine Anmeldung verzichtet. Mit
sogenanntem Session-Tracking läßt sich
dennoch einiges über den Nutzer erfahren.
URLs
Shareware ...
... zur Logfile-Auswertung
http://www.tucows.de/log95.html
Kostenlose Online-Tools
http://builder.cnet.com/Authoring/
FreeTools/ss06.html
SuperStats, Live-Statistiken auf dem Desktop
http://v2.superstats.com/
Grundsatzartikel zur Logfile-Auswertung
http://builder.cnet.com/Servers/LogFile/
Profi-Tool mit interaktivem Client
http://www.websuccess.de
Umfassendes Analysewerkzeug aus den USA
http://www.webtrends.com
Liste mit Namen von Robots und Crawlern
http://www.ideenreich.com/dr-rob.shtml
Dabei wird dem Surfer beim Aufruf der
ersten Seite eine eindeutige Nummer zugeordnet, die er für die Dauer des Aufenthalts behält. Sie wird in der Regel mit
der URL mitgeführt. Mit diesem System
läßt sich der einzelne Besuch genau protokollieren, über den Nutzer bleibt das
meiste im dunkeln. Bei jedem Besuch wird
eine neue Session eröffnet. Ob Nutzer A
oder Nutzer B das Angebot besucht, bleibt
ungewiß.
Um die einzelnen Besuche den verschiedenen Nutzern zuordnen zu können,
übersicht
Die Logfiles im Detail
Access-Log aufgeschlüsselt
Beispiel für eine Access-Log-Zeile:
<unknown>@nat3.webmailer.de (192.67.
198.66) -> www.internetworld.de (<noauth>)
[28/Oct/1999:11:48:46] “GET /intface/
himmel/ani2.gif HTTP/1.0” 200 18772
Die Zeile beschreibt einen Hit auf dem WebServer. Alle Hits werden untereinander gelistet, so daß sehr schnell eine riesige Textdatei entsteht. Die Bestandteile des Eintrags im
Überblick.
<unknown>: Dem Server ist der Besucher
unbekannt.
@nat3.webmailer.de: Identifikation des
Besuchers nach Domain. Manche Server
geben hier auch nur IP-Adressen aus. Das ist
wesentlich schlechter für die Auswertung.
www.internetworld.de: Domain, auf der der
Hit erfolgte.
(<noauth>): Es erfolgte keine Authentifizierung.
[28/Oct/1999:11:48:46]: Datum, Uhrzeit
mit Sekunden.
GET: Form der Browser-Anfrage.
/intface/himmel/ani2.gif:
Angeforderte
Datei.
HTTP/1.0: Verwendetes Protokoll beim Zugriff.
200: Rückmeldung vom Server.
18772: Transferierte Bytes.
Referrer-Log aufgeschlüsselt
Beispiel für eine Referrer-Log-Zeile:
http://suchen.eule.de/cgi-bin/search.exe?
begriff=%22aquarellkurs%22&startwith=
1&db=&a=3 -> /muehle/seiten/cuntze.htm
Die Zeile beschreibt, woher der Surfer kam
und wohin er ging. In diesem speziellen Fall
bieten sich Cookies an. Auf die Rechner
des Benutzers kann so eine eindeutige
Kennung gespeichert werden, die an den
Server übermittelt wird. In der Praxis
erweisen sich die winzigen Textdateien
allerdings immer häufiger als echte
Traffic-Bremsen. Viele Web-Surfer deaktivieren daher die Cookies-Option in
ihrem Browser. Einen ausführlichen
Beitrag über die Realisierung von SessionTracking in der Praxis finden Sie in dem
Java-Servlet-Workshop, Folge 2 (Internet
World 11/99, Seite 84).
Einfache Mittel. Aber auch ohne die
recht aufwendige Implementation einer
handelt es sich um eine Suchanfrage im Suchdienst „Eule“ nach dem Begriff „Aquarellkurs“.
Agent-Log aufgeschlüsselt
Beispiel für eine Agent-Log-Zeile:
<unknown>@141.30.40.53 -> www.internet
world.de (<noauth>) [01/Oct/1999:09:02:
49] “Mozilla/4.5 [de] (Win95; I)”
Interessant ist in dieser Zeile nur der letzte
Teil.
Mozilla: Netscape Navigator (MSIE wäre der
Internet Explorer).
4.5: Versionsnummer.
de: Länderkennung im ISO-Code (hier:
deutsch).
Win 95: Betriebssystem (hier: Windows 95).
I: Versionskennung.
Fehler-Log aufgeschlüsselt
Beispiel für eine Fehler-Log-Zeile:
[Fri Oct 1 17:00:41 1999] http: access to
/usr/local/etc/http/customers/internetwor
ld/./www.internetworld.de/htdocs/intface/
index.htm failed for 98ac7188.ipt.aol.com,
reason: file does not exist
Der erste Teil des Fehler-Log zeigt Datum und
Uhrzeit an. Im letzten Teil (reason) wird die
Fehlerart beschrieben.
file does not exist: Die angeforderte Datei
gibt es auf dem Server nicht. Passiert ein
solcher Fehler häufig und betrifft er immer
wieder die gleiche Datei, dann können Sie
davon ausgehen, daß ein Link nicht stimmt.
Problemlösung: Sollten Sie den Link nicht
finden (eventuell liegt er gar nicht auf Ihrem
Server), dann legen Sie einfach eine „Auffangseite“ auf diese Adresse an.
Session-Tracking-Lösung haben Sie die
Möglichkeit, für Sie wichtige und verwertbare Informationen über Ihre Besucher zu erhalten, denn die Log-Dateien
der Web-Server sagen weit mehr aus als
nur die IP-Adresse des Besuchers und die
Zeit seines Besuchs. Die meisten Server
legen in der Regel insgesamt vier Logfiles
an. Die Dateien setzen sich zusammen
aus: Access-Log (Zugriffe), Agent-Log
(Client-Rechner), Referrer-Log (zeigt,
von welcher URL der Nutzer kommt) und
Error-Log. Letzterer protokolliert Fehlermeldungen und ist damit besonders
wichtig für das „Debugging“ einer
Site.
internet world januar 2000
101
praxis site-management-praxis
Online-Tools wie HitBox arbeiten wie die IVW: Ein schlanker Script-Code wird
in jede Seite kopiert und erzeugt den Server-Aufruf bei Hitbox
Rohdaten sichten. In den Logfiles sind
eine Menge Information über jeden Besuch auf Ihrer Site gespeichert. In der Rohform sind die Daten kaum aussagekräftig.
Zunächst müssen sie gesichtet und sortiert
werden. Die Basisauswertung dieser LogDateien sollte mindestens folgende Werte
ergeben:
앫 Summe der PageViews
앫 Top Ten der aufgerufenen Seiten
앫 Verteilung der Browser
앫 durchschnittliche Menge der aufgerufenen Seiten pro Surfer. Daraus ergibt sich
eine Schätzung der Menge der Visits
앫 Wichtigste Referrer-Adressen
앫 Rangliste der besuchenden Nationalitäten
앫 Verteilung des Traffics auf Uhrzeit und
Wochentage
Sie werden sich schwer tun, diese Informationen „von Hand“ aus den Logfiles
herauszufiltern. Es gibt dafür eine ganze
Reihe von Tools. Die bekanntesten sind
hierzulande Websuccess (600 Mark) und
WebTrends (600 US-Dollar). Ein Klassiker
ist inzwischen das kostenlose Perl-Script
WWWstats. Es gibt aber auch eine Reihe
von Online-Tools, die gegen Bannereinblendung kostenlos umfassende Reports
erstellen (siehe „Wichtige Links“).
Achten Sie bei der Wahl Ihres Werkzeugs darauf, daß Sie beliebige verknüpfte Anfragen erzeugen können. Zum Beispiel könnte es interessant sein zu wissen:
Wie viele Surfer, die letzten Freitag von
der
Seite
„Index.html“
auf
die
„Seite2.html“ wechselten, haben schließlich den Link zur Seite „bestellen.html“
benutzt? Oder: Wieviel Prozent der AOL-
102 internet world januar 2000
Profi-Tools wie WebSuccess erlauben die Zuordnung von Kommentaren und Namen zu den Hits
User auf Ihrem Server haben die Seite mit
dem Namen „Hilfe für AOL-Benutzer“ aufgerufen. Letzteres Beispiel stellt eine weitere Anforderung an Ihre Software. Sie sollte in der Lage sein, einzelnen Seiten und
Seitengruppen Namen zu geben, damit Sie
bei der Auswertung nicht erst die kryptischen Dateinamen übersetzen müssen.
Eine aussagekräftige Server-Statistik liefert Ihnen am Schluß fünf Kernsätze zur
Verbesserung der Site.
Struktur. Egal, ob Sie eine AuswertungsSoftware benutzen, mit einem Word-Makro
(bei geringem Traffic) oder von Hand arbeiten, Sie können bereits im Vorfeld der
Auswertung etwas tun, damit die Daten
übersichtlicher und aussagekräftiger sind.
Zunächst sollten Sie Ihren Web-Server
in Sektionen aufbauen. Bereits vom RootVerzeichnis gehen die Pfade ab, welche die
wesentlichen Elemente der Web-Site kennzeichnen. Bei einer Tageszeitung wären
das die Themenrubriken sowie die Bereiche „Kleinanzeigen“, „Abo“, „Service“
und „Werbekunden“. Benutzen Sie dabei
Klarnamen als Ordner-Bezeichnungen.
Diese Unterteilung bildet sich in den Server-Logs deutlich ab und Sie können sehr
schnell erste Aussagen treffen.
Innerhalb der Ordner verwenden Sie
weitgehend identische Strukturen wie
info
Fehler bei der Logfile-Auswertung
Der Proxy-Server: In Firmennetzwerken und
bei vielen Internet-Providern stehen ProxyServer, die Dateien zwischenspeichern. Eine erneute Anfrage nach der gleichen Datei wird direkt vom Proxy bedient und taucht nicht in den
Logfiles des Web-Server auf. Die ausgewiesenen Hit-Zahlen sind etwas zu niedrig. Auch
Cookies werden von Proxys häufig abgefangen oder falsch weitergeleitet.
Lösung: Die IVW-Zählung serviert ein winziges
GIF mit einem CGI-Script. Dadurch wird das Zwischenspeichern umgangen.
Dynamische IP-Adressen: Große Online-Dienste und ISPs vergeben immer wieder die gleichen Absenderadressen an verschiedene Surfer. Dagegen ist bislang kein Kraut gewachsen.
Die Hit-Zahlen sind zwar korrekt, aber bei der
Bemessung von Visits fallen unter Umständen
einige Surfer heraus.
Lösung: Keine. Das Problem betrifft allerdings
vorrangig ganz große Web-Sites.
Robots: Suchmaschinen unterhalten Crawler
und Robots, die das Web nach neuen Seiten
durchsuchen. Deren Hits treiben die Statistiken in den Logfiles nach oben. Auch UserAgenten verhalten sich wie Robots, sind aber
im individuellen Auftrag unterwegs.
Lösung: Mit einer Positivliste (siehe „Wichtige
Links“) der Namen der Robots, werden die entsprechenden Domains ausgeschlossen. Persönliche Agenten lassen sich dagegen kaum ausschließen.
Die vier Log-Dateien werden von den meisten
WebSpace-Providern monatlich als ZIP-Dateien zusammengepackt
3
4
5
6
7
8
9
service
test
sollten sich Designer besonders zu Herzen
nehmen.
zurück zur Homepage, hat er sich offensichtlich verlaufen. Überarbeiten
Sie die dazugehörigen Links.
Brechen Visits häufig auf der gleichen
Seite ab, sollte diese überarbeitet werden. Eventuell machen sich dort Hinweise auf andere eigene Contents gut
(„Exit-Selling“).
Taucht ein Referrer besonders häufig
in der Statistik auf, handelt es sich
möglicherweise um einen interessanten Partner für Banner-Austausch oder
ähnliche Kooperationen.
Beachten Sie die Trefferquoten auf
Flash-, Quicktime, RealVideo- oder
sonstigen Multimedia-Dateien. Lohnt
sich der Produktionsaufwand für die
paar Besucher?
Haben Ihre Besucher aktuelle Browser
oder veraltete? Das entscheidet über
den Einsatz von CSS oder DHTML.
Kommen viele Besucher Ihrer Site aus
dem Ausland? Dann ist es jetzt höchste Zeit für eine englische Version.
= Frank Puscher
aktuelles
Wichtige Grundaussagen der Logfiles
2
viel höher als auf den Content-Seiten,
dann ist entweder der Inhalt oder die
Navigation schlecht.
Ist der Traffic auf den Content-Seiten
höher als auf der Homepage, kommen
viele Besucher über Suchmaschinen.
Content, der nur auf der Homepage
steht, geht an den Besuchern vorbei.
Ist der Traffic auf der Sitemap oder einer Hilfe-Seite besonders hoch, stimmt
etwas mit der Navigation nicht.
Kehrt ein Surfer während des Visits von
einer Content-Seite direkt wieder
magazin
1 Ist der Traffic auf der Homepage extrem
praxis
zum Beispiel eine Sortierung nach Tagesdatum. Die Korrelation zwischen dem Besuchstag und dem Zugriff datierter Verzeichnisse gibt Hinweise auf die Bedeutung der Aktualität für Ihre Besucher. Viele Site-Betreiber wären erstaunt, wenn sie
wüßten, wieviel Surfer sich in erster Linie
für das Archiv und nicht die aktuellen
News interessieren.
Die Wirkung eines Sonderangebots
oder eines Gewinnspiels, das Sie auf der
Homepage plaziert haben, können Sie am
besten mit einer ganz neuen Seite testen,
die Sie nur für dieses Thema einrichten.
Plazieren Sie Links auf diese Seite mal im
Kopf in einem Banner, mal in der Navigationsleiste und mal im Content-Bereich.
Notieren Sie sich, wann Sie welche Änderungen vorgenommen haben. Anhand der
Log-Dateien können Sie die optimale Plazierung ermitteln.
1/2 Seite quer rechts
Media
internet world januar 2000
103

Documentos relacionados