Besucherdaten entschlüsselt
Transcrição
Besucherdaten entschlüsselt
praxis logfiles Besucherdaten entschlüsselt Jeder Besucher Ihrer Site hinterläßt auf Ihrem Server Spuren. Die Auswertung dieser Informationen ermöglicht interessante Rückschlüsse. Homepage-Besitzer interessieren sich nicht nur für die Zahl der Besucher, sondern auch für die Aktivitäten der Gäste. Dadurch können Sie maßgebliche Informationen gewinnen: Wer war auf meiner Homepage? Welche Seiten hat er dort angeschaut? Woher ist er gekommen? All diese Fragen – und noch einige Dinge mehr – beantworten Ihnen die Log-Dateien Ihres Web-Servers. Wir zeigen Ihnen, welche Rückschlüsse Sie hierdurch auf Ihre Besucher ziehen können. info Analyseprogramme Im Internet ist eine Vielzahl von Analyseprogrammen auch für Ihren Web-Server zu finden. Eine Übersicht über Analyseprogramme bietet die Homepage der Universität von Uppsala unter http://www.uu.se/ Software/Analyzers/Access-analyzers.html. Logfile-Typen. Es gibt einige unterschiedliche Logfile-Formate. Wir haben die fünf gebräuchlichsten Typen näher betrachtet: Agent Logfile Common Logfile Combined Logfile Microsoft IIS Logfile Referrer Logfile Jedes Mal, wenn jemand Ihre Site besucht, werden auf Ihrem Web-Server alle Datenzugriffe protokolliert. Dies gilt übrigens auch für Homepages, die bei einem Provider liegen. Hier können Sie jedoch zum Teil nicht direkt auf die Informationen zugreifen, sondern bekommen jeden Monat eine bereits ausgewertete Statistik zu sehen. Es hängt vom Web-Server ab, welche Art von Protokoll eingesetzt wird. Während der Apache-Web-Server auf das Combined-Logfile-Format baut, setzt der Internet Information Server von Microsoft ein proprietäres Format ein. 98 internet world april 2000 Agent-Logfile-Format. Im Agent Logfile werden Informationen über den Client gespeichert, der auf Ihre Seite zugreift. Diese Daten sind wichtig, damit Sie die Kompatibilität Ihrer Seiten kontrollieren können. Setzen Sie beispielsweise viele DHTML-Effekte ein, und die Mehrzahl Ihrer Besucher verwendet noch einen älteren Browser, sollten Sie auf jeden Fall einen entsprechenden Hinweis auf Ihrer Seite anbringen. Besser wäre es jedoch, wenn Sie eine an den Browser angepaßte alternative Seite zur Verfügung stellen könnten. Mozilla/4.0 (compatible; MSIE 4.01; Windows NT) repräsentiert den Eintrag für den Internet Explorer Version 4.01, ausgeführt auf der Plattform Windows NT, Mozilla/4.0 (compatible; MSIE 5.0; Windows 98) den aktuellen Internet Explorer 5.0 auf der Win 98-Plattform und Mozilla/4.51 [en] (WinNT; I) den englischen Netscape Navigator 4.51, ausgeführt auf einer Intel-Plattform mit Windows NT. Common-Logfile-Format. Wesentlich auskunftsfreudiger ist da schon das Common-Logfile-Format. Einträge können hier beispielsweise wie folgt aussehen: 199.174.253.213 - - [31/Jan/2000:12:12:12 0100] "GET index.html HTTP/1.0" 200 1234 199.174.253.213 - - [31/Jan/2000:12:12:15 0100] "HEAD / HTTP/1.0" 302 354 199.174.253.213 - - [31/Jan/2000:12:12:12 0100] "GET / HTTP/1.0" 302 354 Die Übertragung der Informationen findet hierbei immer im gleichen Format statt. Der erste Wert, die IP-Adresse 199.174. 253.213, repräsentiert die Adresse, von welcher aus der Besucher zugreift. Handelt es sich um eine geschützte Seite, so wird an der zweiten Position der Benutzername und an der dritten Stelle das notwendige Paßwort übergeben. Ist die Seite öffentlich zugänglich, so wird in das Protokoll – wie im obigen Beispiel – für beide Informationen ein Gedankenstrich ein- gefügt. Eingeklammert finden sich Datum und Uhrzeit des Zugriffs wieder. Die Darstellung der Zugriffszeit hat folgendes Format: [Tag/Monat/Jahr:Stunde:Minute:Sekunde Zone], wobei für den Tag zwei, den Monat drei und das Jahr vier Stellen vorgesehen sind. Stunde, Minute und Sekunde werden jeweils zweistellig dargestellt. Die Zone gibt die Differenz der Uhrzeit in Abhängigkeit zur GMT an, im Beispiel also eine Stunde zurück. Der String, der in doppelte Anführungszeichen eingeschlossen ist, gibt die Zugriffsmethode (meist GET, HEAD oder POST), die angeforderte Datei sowie das Protokoll und die verwendete Version an. Im obigen Beispiel wird die Index-Datei angefordert, und die notwendigen Informationen werden zur Datenübertragung ausgetauscht. Die letzten beiden Daten stellen die Anzahl der transferierten Daten und den Status-Code für die durchgeführte Aktion dar. Eine Übersicht über die wichtigsten HTTP-Status-Codes finden Sie im Kasten HTTP-Codes. Combined-Logfile-Format. Die beiden ersten Formate liefern wichtige Informationen, sind aber nur in Kombination wirkungsvoll und aussagekräftig. Deswegen existiert mit dem Combined Logfile ein weiteres Format, welches alle Informationen in einer Datei zusammenfaßt. Es basiert auf dem Common-Logfile-Format, ergänzt um die URL der referenzierenden Seite und die Browser-Version, mit welcher der Besucher auf Ihre Seite zugreift. Ein mögliches Beispiel könnte wie folgt aussehen: host.beispiel.de - - [12/Feb/2000:10:10:10 0100] \ "GET /index.html HTTP/1.0" \200 1234 http://www.hierkommichher.de/beispiel.htm l \ "Mozilla/4.0 (compatible; MSIE 5.0; Windows 98)" Dieses Format wird beispielsweise vom Apache-Web-Server genutzt, um die angeforderten Daten des Besuchers zu protokollieren. Microsoft-IIS-Logfile-Format. Wie von Microsoft nicht anders zu erwarten, haben die Herren aus Redmond für den Internet Information Server ein eigenes Protokollformat geschaffen. Durch das eigene Format stehen dem Besitzer des Servers jedoch einige zusätzliche Informationen zur Verfügung. Ein Protokollsatz beispielsweise sieht wie folgt aus: 199.174.253.213, - , 31/01/00, 11:11:11, W3SVC, MeinServer, 10.107.1.121, 0, 456, 78, 304, 0, GET /index.html Damit ergeben sich folgende protokollierte Daten – getrennt durch ein Komma: IP-Adresse Client oder dessen DomainName Benutzername, falls geschützte Seite Datum Uhrzeit Dienste; mögliche Ausprägungen sind hier W3SVC (HTTP), MSFTPSVC (FTP) und GopherSvc (Gopher) Name Ihres Servers IP-Adresse Ihres Servers Zeit, die zur Bearbeitung der Anfrage benötigt wird Anzahl von Bytes, die Browser an Server schickt Es gibt zahlreiche Hersteller, wie beispielsweise Webalizer, die Software zur grafischen Auswertung der LogDateien anbieten internet world april 2000 99 praxis logfiles Auch zahlreiche Hoster bieten in ihrem Standard-Lieferumfang eine vorgefertigte Auswertung der Benutzerdaten an Anzahl von Bytes, die Server an Browser schickt HTTP-Status-Code, der an Client geliefert wird NT-Status-Code, welcher dem Ergebnis der Ausführung entspricht HTTP-Befehl mit Pfad der angefragten Information Betrachtet man die Daten genau, entsprechen die meisten Werte dem Combined Logfile. Die weiteren Informationen haben keinen großen Zusatzwert, da die IPAdresse des eigenen Servers dem Administrator eigentlich bekannt sein sollte. Lediglich die Antwortzeit des Servers sollte genauer ausgewertet werden, um mögli- Die Universität von Uppsala hat eine Übersicht über Logfile-Analyseprogramme im Internet veröffentlicht che Engpässe zu bestimmten Uhrzeiten festzustellen und Gegenmaßnahmen ergreifen zu können. Referrer-Logfile-Format. In dieser Datei wird lediglich aufgezeichnet, woher ein Besucher kommt und auf welche Seite er dann zugreift. Die beiden Informationen sind durch einen Pfeil voneinander getrennt: http://www.meineseite.de/seite 12a.htm –> /daten/index.htm Auswertung der Daten. Bei den meisten Besuchern kann keine automatische Umsetzung der IP-Adresse erfolgen. Es wird damit lediglich die IP-Adresse aufge- info Die wichtigsten HTTP-Status-Codes Die Status-Codes lassen sich in fünf verschiedene Klassen unterteilen. Eine genauere Definition der Fehler-Codes finden Sie im Internet unter http://www.w3c/protocols. Code-Bereich Code-Beschreibung 100-199 Informationen Bei dieser Art von Rückgabe-Code wird lediglich eine Antwort, bestehend aus der Statuszeile und einem optionalen Header, zurückgegeben und die Antwort durch eine Leerzeile beendet. 200-299 Erfolgreiche Client-Anfrage Die Client-Anfrage war erfolgreich, konnte verarbeitet und ausgeführt werden. 300-399 Client-Anfrage nicht eindeutig Die Anfrage trifft auf eine Reihe von Dokumenten zu, die in verschiedenen Verzeichnissen plaziert sind, so daß weitere Angaben des Benutzers bzw. Clients notwendig sind. 400-499 Client-Anfrage fehlerhaft Die Anfrage konnte aufgrund eines Syntax-Fehlers nicht ausgeführt werden und muß modifiziert werden, bevor sie erneut ausgeführt wird. 500-599 Server-Fehler aufgetreten Der Server kann aufgrund eines internen Fehlers die Anfrage des Clients nicht durchführen und gibt einen Fehler-Code an den Client zurück, damit dieser dem Anwender Auskunft über die Situation geben kann. 100 internet world april 2000 zeichnet. Um den Ursprung der Anfrage zu erforschen, benötigen Sie ein Programm, das die IP-Adresse in die korrespondierende URL umsetzt. Dies ist beispielsweise mit dem Programm NeoTrace möglich, das wir in der IW 02/2000 vorgestellt haben. Interessant ist außerdem eine genauere Untersuchung der referenzierenden URL, wenn es sich beim Ursprung um eine Suchmaschine handelt. Damit können Sie nachvollziehen, mit welchen Suchkriterien Ihre Seite gefunden wurde und ob eventuell eine Nacharbeit bei der Auswahl Ihrer Meta-Tags notwendig ist. Für eine aussagekräftige Auswertung Ihrer Log-Datei sind darüber hinaus noch einige Nacharbeiten notwendig. In diesem Zusammenhang ist eine strikte Differenzierung zwischen Hits und Page Impressions notwendig. Während Page Impressions die tatsächlichen Seitenabrufe repräsentieren, wird für jeden Zugriff auf eine Seite – vom Frame bis zur Grafik – ein Hit aufgezeichnet. So kommen für eine aufwendige Seite gut und gerne 20 bis 30 Hits zusammen. Bearbeiten Sie Ihre LogDatei entsprechend, um keine verfälschten Ergebnisse zu erlangen. Wenn Sie Ihre Datensätze nach der IPAdresse der Besucher und der Anfragezeit sortieren, erhalten Sie aus diesen Werten die genaue Information, an welchem Punkt ein Besucher in Ihre Seite eingestiegen ist, wie er sich durch die Seite bewegt und wo er sie wieder verlassen hat. Verlassen mehrere Personen Ihre Site an der gleichen Stelle, sollten Sie die Inhalte betrachten und eventuell verbessern. Durch eine statistische Erhebung können Sie außerdem feststellen, wie viele Personen eine gewisse Seite in einem bestimmten Zeitraum, beispielsweise eine Woche, betrachten. Wenn diese Werte massiv abnehmen, sollten Sie den Inhalt der Seite erneuern. dem Sie nun wissen, welche Informationen sich hinter den Feldern verbergen, können wir diese Daten näher analysieren. Das größte Problem bei der Auswertung ist die Herkunft der Benutzer. Die meisten Surfer, die sich über einen Provider einwählen, bekommen eine dynamische IP-Adresse zugewiesen, mit der sie anschließend im Internet unterwegs sind. Kommt der Besucher zu einem späteren Zeitpunkt wieder auf Ihre Homepage, hat er höchstwahrscheinlich eine andere IPAdresse als beim letzten Mal. Dadurch können Sie keine aussagekräftige Statistik darüber erstellen, wie oft ein Besucher Ihre Seite innerhalb einer bestimmten Zeit angewählt hat. Abhilfe schafft hier der Einsatz von Cookies in Kooperation mit einem Analyseprogramm. Beim ersten Aufruf Ihrer Site plaziert das Programm ein Cookie auf dem Rechner des Besuchers. Bei jedem weiteren Besuch wird die ID des Cookies als Zusatzinformation dem Protokoll beigefügt. Ein weiteres Problem besteht, wenn sich der Client hinter einer Firewall befindet bzw. ein Proxy-Server für das Netzwerk eingesetzt wird. In beiden Fällen wird für alle Rechner im Netzwerk nur eine IP-Adresse verwendet. Zur Lösung dieses Problems sollten Sie auch hier den Einsatz von Cookies für die eindeutige Zuordnung des Besuchers erwägen. Durch den Einsatz von Templates und Frames läßt sich leider nicht immer ein Rückschluß auf den Inhalt ziehen. Es wird lediglich der Aufruf des Templates, nicht aber dessen Inhalt protokolliert. Diese Problematik können Sie jedoch durch die Erweiterung des Headers der eingesetzten Middleware umgehen. Server wie ColdFusion bieten auch die Möglichkeit, dem Header einen identifizierenden String der Seite beizufügen. Der Apache-Web-Server beispielsweise ermöglicht die Protokollierung dieser Daten durch die Anpassung der Konfigurationsdatei (httpd.conf). = Andreas Hitzig 2/3 Seite hoch rechts MB Software Probleme bei der Auswertung. Nach- internet world april 2000 101