Wer besucht mich?
Transcrição
Wer besucht mich?
test web-server Wer besucht mich? Log-Dateien verraten mehr als die Herkunft des Benutzers oder die Browser-Version – wenn man die richtige Software erworben hat. Statistiken sind wichtig für jede Web-Site. Sie geben nicht nur Auskunft über die Anzahl der Benutzer oder die beliebtesten Seiten der Anwender, sie informieren auch über die Verweildauer oder die häufigsten Ausstiegsseiten. Für die Management-Ebene bieten die meisten Programme eine grafische Auswertung, in der die wichtigsten Daten in ansprechender Form aufbereitet werden. Wir haben die beliebtesten Tools für Sie getestet. WebTrends Enterprise Suite Version 4.0 WebTrends setzt, was die Benutzerfreundlichkeit betrifft, Maßstäbe. Das Programm läßt sich, wie die anderen Programme auch, via Browser warten. In den insgesamt drei Frames können Sie neben dem Betrachtungszeitraum auch die einzelnen Auswertungen auswählen. Im Main-Frame werden die Inhalte grafisch und tabellarisch aufbereitet. Das Layout ist flexibel an die eigenen Bedürfnisse anpaßbar. Das Programm kennt die Problematik, daß unterschiedliche Benutzer von der gleichen IP-Adresse kommen können. Um auch unter diesen Umständen verläßliche Informationen bieten zu können, setzt es als Zusatzfunktion auf den Einsatz von Cookies. So kann ein Benutzer nicht nur eindeutig identifiziert, sondern bei erneutem Besuch auch sofort wiedererkannt werden. Bemerkenswert ist auch die Auswahl an Export-Formaten. Neben den gewohnten HTML-Seiten lassen sich die Auswer- 122 internet world oktober 2000 tungen beispielsweise auch als Excel- oder Word-Datei auslesen oder die Daten zur späteren Weiterverarbeitung in einer Datenbank ablegen. Die Auswertungen sind über einen internen Scheduler steuerbar, der vor oder nach einer Auswertung externe Programme starten kann. Dies ist besonders dann von Nutzen, wenn die Daten einer Auswertung via FTP von einem anderen Server importiert und nach der Aufbereitung auf einen weiteren Server kopiert werden sollen. fazit Insgesamt ... ... war es – bis auf http-analayze – ein ausgeglichenes Testfeld, das jedoch einige Unterschiede vor allem in Preis und Leistung aufzeigte. Keines der Programme bietet eine vernünftige Möglichkeit, die Benutzer anhand von Sessions zu identifizieren, sofern diese eingesetzt werden. Viele Shops verwenden diese inzwischen anstelle von Cookies. Immerhin: Exody hat mit ShopSuxess bereits einen ersten Schritt in diese Richtung unternommen. Linux-Anwender sollten sich den Open-Source-Analyzer Webalizer genauer betrachten, unter Windows gehören WebSuxess und WebTrends auf grafischer Ebene und Summary.net beim Preis zur ersten Wahl. http-analyze liegt beim Vergleich abgeschlagen an letzter Stelle, da weder Preis noch Leistungsumfang überzeugen konnten. test web-server Sie für diese nicht einen separaten Rechner spendieren wollen. WebSuxess bietet die Möglichkeit, alle benötigten Daten via FTP auf den Windows-Rechner zu importieren. Die Verarbeitungsgeschwindigkeit der LogDatei läßt wenig zu wünschen übrig. Die Auswertung der Daten wird als Sammlung von HTML-Dateien in einem beliebigen Verzeichnis abgelegt. Damit müssen Sie eine Log-Datei auch nur einmal auswerten. Für die Darstellung der Daten lassen sich Dies schlägt sich jedoch im Preis nieder. Mit rund 2.000 Mark für die Enterprise Suite Version 4.0 liegt die Software von WebTrends am oberen Ende der Preisskala. WebSuxess 4.0 Enterprise Die Software von Exody benötigt als Plattform Microsoft Windows, ist hier jedoch flexibel: Der Client läßt sich auf nahezu jedem Betriebssystem installieren. Gerade bei größeren Auswertungen sollten Sie sich überlegen, ob WebTrends überzeugt durch seine umfangreichen und individuell zu konfigurierenden Auswertungen übersicht Alle getesteten Logfile-Programme in der Übersicht Name Hersteller URL Mail Preis Web-Server Apache IIS Netscape Betriebssystem Windows 9X Windows NT/2000 Linux Sun Solaris Sonstiges Seitenanalyse PageViews durchschnittl. Betrachtungsdauer gesamte Übertragungsdauer übertragene Bytes Ausstiegsseiten Besucheranalyse Besucherpfade Woher kommen Besucher Welcher Provider Suchmaschinenbesuche Kampagnenanalyse Zugriff via Banner-Werbung Zugriff von welcher anderen HP Eintritt via Suchmaschine Suchbegriffe bei Suchmaschine Browseranalyse Browser-Version Browser-Hersteller Betriebssystem Medienanalyse Unterstützung Streaming-Server Unterstützung IVW Preis/Leistung Wertung = ja, = nein 124 internet world oktober 2000 WebTrends WebTrends www.webtrends.com [email protected] Enterprise Suite 4 ca. 2.000 DM Websuxess Exody http://www.websuxess.de [email protected] Single User ca. 900 DM Webalizer Webalizer http://www.webalizer.com http-analyze Rent-A-Guru http://www.netstore.de [email protected] Privat frei, Commercial ab 700 DM Summary Pro 1.4.7 Summary.net http://www.summary.net [email protected] Single User ca. 500 DM / MacOS befriedigend gut gut gut sehr gut befriedigend ausreichend ausreichend gut befriedigend Open Source test web-server ist die Software für den Einsatz im privaten und Bildungs-Bereich umsonst. Dafür wird in allen anderen Fällen eine Lizenzpolitik auf Basis der eingesetzten CPUs betrieben. Bei 3.000 Mark für ein Projekt endet die Preisstaffelung. Zur Navigation zwischen den einzelnen Menüpunkten dient ein separates Fenster, über das als erstes der zu betrachtende Monat ausgewählt werden muß. Im folgenden sind dann Informationen zu Summary Pro steht zwar grafisch hinter seinen Konkurden Hits, den beliebtesten Seiten, renten zurück, kann aber durch Preis und Leistungsumder Herkunft und der Browser-Verfang überzeugen sion aufgelistet. Das war’s im mationen über die Herkunfts-Links der Begroßen und ganzen. Das Programm steht sucher oder die Such-Strings, über die die damit deutlich hinter der Konkurrenz. Besucher auf die Site kommen. Natürlich Dafür entschädigt auch nicht der Umfehlen auch nicht die Aussagen über stand, daß die private Nutzung kostenlos Browser-Versionen, Herkunftsland oder ist. Kommerziellen Anwendern wird ein Betriebssystem. Wer als Web-Server beim Vergleich zu den anderen Programmen reits Linux einsetzt, erhält mit seiner Diunverhältnismäßig hoher Preis abverstribution in vielen Fällen bereits den Welangt. Wir können http-analyze nicht weibalizer. Doch auch für die anderen Beterempfehlen. Webalizer bietet den gleitriebssysteme ist Webalizer eine gute Alchen Umfang und ist generell gratis. ternative zu den kostenpflichtigen Programmen – auch wenn die Möglichkeiten Summary Pro der Konfiguration und der Umfang der Nicht gerade eine luxuriöse Oberfläche erAuswertungen an manchen Stellen zu wartet den Web-Master nach der Installawünschen übrig lassen. tion von Summary Pro. Dafür ist das Programm aber in puncto Informationsvielfalt kaum zu überbieten. Über eine einfahttp-analyze che Link-Liste lassen sich die rund 100 AusWebalizer Wer Strato kennt, ist wohl auch schon mit wertungen einzeln ansteuern. Große grahttp-analyze in Berührung gekommen. Dieses Programm entstammt einer Openfische Auswertungen sind allerdings nicht Das Programm ist im Standardumfang der Source-Schmiede. Auf der Einstiegsseite zu erwarten. Summary Pro beschränkt Strato-Pakete enthalten und bietet monatwerben die Autoren noch mit einem Butsich auf ein paar simple Diagramme. Imliche Auswertungen über die Besucherton, daß alles 100prozentig frei von Micromerhin: Die ausgegebenen Listen sind – zahlen auf der eigenen Site an. Zugleich soft-Einflüssen sei. Leider stimmt dies aber auch online – individuell sortierbar. Das ist es aber auch als Stand-alone-Version ernicht mehr ganz, da Webalizer inzwischen Tool birgt einige Überraschungen: Mit „Hihältlich. Augenfällig ist die Preispolitik: So auch in eine Win32-Version portiert wurjacking Graphics“ können Sie de. Auf einer Übersichtsseite ist Zugriffe aufspüren, die direkt sowohl tabellarisch als auch auf eine Ihrer Grafiken verweigrafisch der Tagesdurchschnitt sen, anstatt die komplette Seite der Zugriffe sowie eine Überanzusteuern. Die Auswertunsicht über die vergangenen 12 gen können Sie sich entweder Monate zu sehen. Die dargedirekt als Excel-Datei oder in eistellten Zeiträume lassen sich ner Text-Datei ausgeben lassen. im folgenden noch detaillierter Mit einem Preis von rund 500 analysieren. Das Programm Mark und der Vielfalt der Bebietet bei weitem nicht die Intriebssysteme für all diejenigen formationsvielfalt der beiden zu empfehlen, die auf eine grazuvor genannten Produkte, liefische Aufbereitung weitgehend fert aber verläßliche Aussagen verzichten können, aber umüber die Top-URLs, die Top fangreiche Auswertungen beDownloads oder die beliebtenötigen. sten Ausstiegspunkte. Nicht zu kurz kommen auch die Infor- Navigiert wird bei http-analyze über ein zusätzliches Fenster = Andreas Hitzig verschiedene Diagrammformen auswählen, wobei die Navigation übersichtlicher sein könnte. Aufgrund der vielen Möglichkeiten hat man zu Beginn seine Probleme, sich bei WebSuxess zurechtzufinden. Dafür steht dem Anwender aber ein Assistent zur Verfügung, der gerade für die ersten Schritte recht hilfreich ist. Als nützlich erweist sich die Einstellung eines Timeout, der oft die einzige Möglichkeit ist, mehrere Benutzer von derselben dynamischen IP auseinanderzuhalten. Der besseren Übersichtlichkeit wegen gestattet WebSuxess die Gruppierung von Elementen. So können Sie beispielsweise alle Hits auf ein bestimmtes Verzeichnis als eine Einheit auswerten lassen. Sollten Sie einen Streaming-Server wie Real Networks oder Netshow einsetzen, erlaubt Ihnen WebSuxess eine genaue Aussage über die Treffer. Damit gewinnen Sie schnell einen Überblick, wo die Stärken und Schwächen Ihrer Site liegen. In diesem Zusammenhang ist auch die Funktion der häufigsten Ausstiegsseiten erwähnenswert. WebSuxess wird in zwei Versionen angeboten: einer Single-User-Lizenz für eine Web-Präsenz und einer ISP-Lizenz für Provider, die ihren Kunden eine grafische Auswertung anbieten wollen. Mit einem Preis von rund 900 Mark liegt der Preis für die Single-UserLizenz noch im akzeptablen Bereich. 126 internet world oktober 2000 praxis user-tracking Auf den Spuren des Besuchers Was Sie über die Besucher Ihrer WebSite erfahren können und was Sie 왎 Welcher Web-Master möchte nicht mehr über seine Besucher erfahren? Hier die wichtigsten Kniffe in aller Kürze. für das Schreiben von Cookies bzw. Request.Cookies für das Auslesen. Folgender Code setzt ein Cookie, das erst nach einem Jahr wieder gelöscht wird: IP-Adresse. Beim Einsatz Server-seitiger Programmiersprachen haben Sie Zugriff auf eine Handvoll Server-Variablen. Für die IP-Adresse ist REMOTE_ADDR interessant, das ist nämlich die IP-Adresse des Rechners, der die HTTP-Anfrage gestellt hat. Normalerweise ist das zugleich auch die IP-Adresse des Client. Der folgende Code zeigt die Werte in einer ASP-Seite an. Sie können das Ganze auch in einer Datenbank abspeichern: <? Response.Cookies(„BesucherID“) = „12345“ Response.Cookies(„BesucherID“).Expires = Date + 365 ?> <% Response.Write „IP: „ Response.Write Request.ServerVariables („REMOTE_ADDR“) Response.Write „<BR>“ %> Anhand der IP-Adresse können Sie durch eine Rückwärts-DNS-Auflösung (beispielsweise http://samspade.org) auf den zugeordneten Domain-Namen schließen. Das wird dann entweder der Name eines Proxy-Servers oder einer Einwahlleitung eines Providers sein. Cookies. Die beste Methode, ein Profil über einen bestimmten Besucher der WebSite zu erstellen: Der Client-Browser schickt bei jeder Anfrage an einen WebServer alle Cookies mit, die dieser WebServer zuvor an den Browser geschickt hatte. Damit ist klar, welcher Besucher die Seite gerade aufgerufen hat. Diese Information läßt sich in einem Benutzerprofil abspeichern. Cookies werden in der Umgebungsvariablen HTTP_COOKIE gespeichert. Die meisten Programmiersprachen bieten jedoch spezielle Funktionen an, um Cookies zu setzen und zu lesen. Bei ASP sind das die Kollektionen Response.Cookies 80 internet world august 2000 Viele Benutzer schalten allerdings die Unterstützung von Cookies im Browser aus. Plug-Ins. Kommt der Netscape Navigator zum Einsatz, läßt sich mit JavaScript leicht feststellen, welche Plug-Ins auf dem System Ihres Besuchers installiert sind. Der folgende Code gibt alles aus: <SCRIPT LANGUAGE=“JavaScript“><!— if (navigator.plugins) for (var i=0; i<navigator.plugins.length; i++){ document.write(navigator.plugins[i]. name)+“: „ document.write(navigator.plugins[i]. description)+“<BR>“ } //—></SCRIPT> Bildschirm-Auflösung. Seit dem Browser mit Versionsnummer 4 bietet JavaScript noch ein paar Möglichkeiten mehr. Unter anderem können die Bildschirmauflösung und die Größe des aktuellen Browser-Fensters bestimmt werden: <SCRIPT LANGUAGE=“JavaScript“><!— if (screen){ document.write(„Auflösung: „+screen. width+“*“+screen.height+“<BR>“) document.write(„Browsergröße: „+screen. availWidth+ „*“ + screen.availHeight+ “<BR>“) document.write(„Pixeltiefe: „+screen.pixel Depth+“<BR>“) document.write(„Farbtiefe: „+screen.color Depth+“<BR>“) } //—></SCRIPT> Surf-Verhalten. Die URL der Web-Site, die vor Ihrer Seite besucht wurde, steht in der Umgebungsvariablen HTTP_REFERER. Die zweite Möglichkeit beinhaltet wieder JavaScript. Alle besuchten Seiten werden im history-Objekt abgelegt. Sie haben darauf zwar keinen Lesezugriff, aber Sie können immerhin feststellen, welche URL im history-Objekt die Ihre ist. Das läßt sich auch wieder interpretieren: Ist der Benutzer sofort oder erst nach einigem Herumsurfen auf Ihre Seiten gestoßen? <% Response.Write „Vorherige Seite: „ Response.Write Request.ServerVariables („HTTP_REFERER“) Response.Write „<BR>“ %> <SCRIPT LANGUAGE=“JavaScript“><!— document.write(„History-Einträge: „) document.write(history.length+“<BR>“) //—></SCRIPT> Ältere Browser. Es gibt die Möglichkeit, auf die Umgebungsvariable HTTP_FROM zuzugreifen. Sie enthält nämlich die eMail-Adresse, allerdings nur bei älteren Browsern. Bei neueren Browsern kommt dies nicht mehr vor, Ihre eMail-Adresse ist also einigermaßen sicher. Trotzdem lohnt es sich zu überprüfen, ob Ihr Browser die Umgebungsvariable am Ende nicht doch sendet: <% Response.Write „E-Mail (?): „ Response.Write Request.ServerVariables („HTTP_FROM“) Response.Write „<BR>“ %> Im Download-Bereich der INTERNET WORLD (http://www.internetworld.de) finden Sie all diese Tricks bequem in ei- praxis logfiles Besucherdaten entschlüsselt Jeder Besucher Ihrer Site hinterläßt auf Ihrem Server Spuren. Die Auswertung dieser Informationen ermöglicht interessante Rückschlüsse. Homepage-Besitzer interessieren sich nicht nur für die Zahl der Besucher, sondern auch für die Aktivitäten der Gäste. Dadurch können Sie maßgebliche Informationen gewinnen: Wer war auf meiner Homepage? Welche Seiten hat er dort angeschaut? Woher ist er gekommen? All diese Fragen – und noch einige Dinge mehr – beantworten Ihnen die Log-Dateien Ihres Web-Servers. Wir zeigen Ihnen, welche Rückschlüsse Sie hierdurch auf Ihre Besucher ziehen können. info Analyseprogramme Im Internet ist eine Vielzahl von Analyseprogrammen auch für Ihren Web-Server zu finden. Eine Übersicht über Analyseprogramme bietet die Homepage der Universität von Uppsala unter http://www.uu.se/ Software/Analyzers/Access-analyzers.html. Logfile-Typen. Es gibt einige unterschiedliche Logfile-Formate. Wir haben die fünf gebräuchlichsten Typen näher betrachtet: Agent Logfile Common Logfile Combined Logfile Microsoft IIS Logfile Referrer Logfile Jedes Mal, wenn jemand Ihre Site besucht, werden auf Ihrem Web-Server alle Datenzugriffe protokolliert. Dies gilt übrigens auch für Homepages, die bei einem Provider liegen. Hier können Sie jedoch zum Teil nicht direkt auf die Informationen zugreifen, sondern bekommen jeden Monat eine bereits ausgewertete Statistik zu sehen. Es hängt vom Web-Server ab, welche Art von Protokoll eingesetzt wird. Während der Apache-Web-Server auf das Combined-Logfile-Format baut, setzt der Internet Information Server von Microsoft ein proprietäres Format ein. 98 internet world april 2000 Agent-Logfile-Format. Im Agent Logfile werden Informationen über den Client gespeichert, der auf Ihre Seite zugreift. Diese Daten sind wichtig, damit Sie die Kompatibilität Ihrer Seiten kontrollieren können. Setzen Sie beispielsweise viele DHTML-Effekte ein, und die Mehrzahl Ihrer Besucher verwendet noch einen älteren Browser, sollten Sie auf jeden Fall einen entsprechenden Hinweis auf Ihrer Seite anbringen. Besser wäre es jedoch, wenn Sie eine an den Browser angepaßte alternative Seite zur Verfügung stellen könnten. Mozilla/4.0 (compatible; MSIE 4.01; Windows NT) repräsentiert den Eintrag für den Internet Explorer Version 4.01, ausgeführt auf der Plattform Windows NT, Mozilla/4.0 (compatible; MSIE 5.0; Windows 98) den aktuellen Internet Explorer 5.0 auf der Win 98-Plattform und Mozilla/4.51 [en] (WinNT; I) den englischen Netscape Navigator 4.51, ausgeführt auf einer Intel-Plattform mit Windows NT. Common-Logfile-Format. Wesentlich auskunftsfreudiger ist da schon das Common-Logfile-Format. Einträge können hier beispielsweise wie folgt aussehen: 199.174.253.213 - - [31/Jan/2000:12:12:12 0100] "GET index.html HTTP/1.0" 200 1234 199.174.253.213 - - [31/Jan/2000:12:12:15 0100] "HEAD / HTTP/1.0" 302 354 199.174.253.213 - - [31/Jan/2000:12:12:12 0100] "GET / HTTP/1.0" 302 354 Die Übertragung der Informationen findet hierbei immer im gleichen Format statt. Der erste Wert, die IP-Adresse 199.174. 253.213, repräsentiert die Adresse, von welcher aus der Besucher zugreift. Handelt es sich um eine geschützte Seite, so wird an der zweiten Position der Benutzername und an der dritten Stelle das notwendige Paßwort übergeben. Ist die Seite öffentlich zugänglich, so wird in das Protokoll – wie im obigen Beispiel – für beide Informationen ein Gedankenstrich ein- gefügt. Eingeklammert finden sich Datum und Uhrzeit des Zugriffs wieder. Die Darstellung der Zugriffszeit hat folgendes Format: [Tag/Monat/Jahr:Stunde:Minute:Sekunde Zone], wobei für den Tag zwei, den Monat drei und das Jahr vier Stellen vorgesehen sind. Stunde, Minute und Sekunde werden jeweils zweistellig dargestellt. Die Zone gibt die Differenz der Uhrzeit in Abhängigkeit zur GMT an, im Beispiel also eine Stunde zurück. Der String, der in doppelte Anführungszeichen eingeschlossen ist, gibt die Zugriffsmethode (meist GET, HEAD oder POST), die angeforderte Datei sowie das Protokoll und die verwendete Version an. Im obigen Beispiel wird die Index-Datei angefordert, und die notwendigen Informationen werden zur Datenübertragung ausgetauscht. Die letzten beiden Daten stellen die Anzahl der transferierten Daten und den Status-Code für die durchgeführte Aktion dar. Eine Übersicht über die wichtigsten HTTP-Status-Codes finden Sie im Kasten HTTP-Codes. Combined-Logfile-Format. Die beiden ersten Formate liefern wichtige Informationen, sind aber nur in Kombination wirkungsvoll und aussagekräftig. Deswegen existiert mit dem Combined Logfile ein weiteres Format, welches alle Informationen in einer Datei zusammenfaßt. Es basiert auf dem Common-Logfile-Format, ergänzt um die URL der referenzierenden Seite und die Browser-Version, mit welcher der Besucher auf Ihre Seite zugreift. Ein mögliches Beispiel könnte wie folgt aussehen: host.beispiel.de - - [12/Feb/2000:10:10:10 0100] \ "GET /index.html HTTP/1.0" \200 1234 http://www.hierkommichher.de/beispiel.htm l \ "Mozilla/4.0 (compatible; MSIE 5.0; Windows 98)" Dieses Format wird beispielsweise vom Apache-Web-Server genutzt, um die angeforderten Daten des Besuchers zu protokollieren. Microsoft-IIS-Logfile-Format. Wie von Microsoft nicht anders zu erwarten, haben die Herren aus Redmond für den Internet Information Server ein eigenes Protokollformat geschaffen. Durch das eigene Format stehen dem Besitzer des Servers jedoch einige zusätzliche Informationen zur Verfügung. Ein Protokollsatz beispielsweise sieht wie folgt aus: 199.174.253.213, - , 31/01/00, 11:11:11, W3SVC, MeinServer, 10.107.1.121, 0, 456, 78, 304, 0, GET /index.html Damit ergeben sich folgende protokollierte Daten – getrennt durch ein Komma: IP-Adresse Client oder dessen DomainName Benutzername, falls geschützte Seite Datum Uhrzeit Dienste; mögliche Ausprägungen sind hier W3SVC (HTTP), MSFTPSVC (FTP) und GopherSvc (Gopher) Name Ihres Servers IP-Adresse Ihres Servers Zeit, die zur Bearbeitung der Anfrage benötigt wird Anzahl von Bytes, die Browser an Server schickt Es gibt zahlreiche Hersteller, wie beispielsweise Webalizer, die Software zur grafischen Auswertung der LogDateien anbieten internet world april 2000 99 praxis logfiles Auch zahlreiche Hoster bieten in ihrem Standard-Lieferumfang eine vorgefertigte Auswertung der Benutzerdaten an Anzahl von Bytes, die Server an Browser schickt HTTP-Status-Code, der an Client geliefert wird NT-Status-Code, welcher dem Ergebnis der Ausführung entspricht HTTP-Befehl mit Pfad der angefragten Information Betrachtet man die Daten genau, entsprechen die meisten Werte dem Combined Logfile. Die weiteren Informationen haben keinen großen Zusatzwert, da die IPAdresse des eigenen Servers dem Administrator eigentlich bekannt sein sollte. Lediglich die Antwortzeit des Servers sollte genauer ausgewertet werden, um mögli- Die Universität von Uppsala hat eine Übersicht über Logfile-Analyseprogramme im Internet veröffentlicht che Engpässe zu bestimmten Uhrzeiten festzustellen und Gegenmaßnahmen ergreifen zu können. Referrer-Logfile-Format. In dieser Datei wird lediglich aufgezeichnet, woher ein Besucher kommt und auf welche Seite er dann zugreift. Die beiden Informationen sind durch einen Pfeil voneinander getrennt: http://www.meineseite.de/seite 12a.htm –> /daten/index.htm Auswertung der Daten. Bei den meisten Besuchern kann keine automatische Umsetzung der IP-Adresse erfolgen. Es wird damit lediglich die IP-Adresse aufge- info Die wichtigsten HTTP-Status-Codes Die Status-Codes lassen sich in fünf verschiedene Klassen unterteilen. Eine genauere Definition der Fehler-Codes finden Sie im Internet unter http://www.w3c/protocols. Code-Bereich Code-Beschreibung 100-199 Informationen Bei dieser Art von Rückgabe-Code wird lediglich eine Antwort, bestehend aus der Statuszeile und einem optionalen Header, zurückgegeben und die Antwort durch eine Leerzeile beendet. 200-299 Erfolgreiche Client-Anfrage Die Client-Anfrage war erfolgreich, konnte verarbeitet und ausgeführt werden. 300-399 Client-Anfrage nicht eindeutig Die Anfrage trifft auf eine Reihe von Dokumenten zu, die in verschiedenen Verzeichnissen plaziert sind, so daß weitere Angaben des Benutzers bzw. Clients notwendig sind. 400-499 Client-Anfrage fehlerhaft Die Anfrage konnte aufgrund eines Syntax-Fehlers nicht ausgeführt werden und muß modifiziert werden, bevor sie erneut ausgeführt wird. 500-599 Server-Fehler aufgetreten Der Server kann aufgrund eines internen Fehlers die Anfrage des Clients nicht durchführen und gibt einen Fehler-Code an den Client zurück, damit dieser dem Anwender Auskunft über die Situation geben kann. 100 internet world april 2000 zeichnet. Um den Ursprung der Anfrage zu erforschen, benötigen Sie ein Programm, das die IP-Adresse in die korrespondierende URL umsetzt. Dies ist beispielsweise mit dem Programm NeoTrace möglich, das wir in der IW 02/2000 vorgestellt haben. Interessant ist außerdem eine genauere Untersuchung der referenzierenden URL, wenn es sich beim Ursprung um eine Suchmaschine handelt. Damit können Sie nachvollziehen, mit welchen Suchkriterien Ihre Seite gefunden wurde und ob eventuell eine Nacharbeit bei der Auswahl Ihrer Meta-Tags notwendig ist. Für eine aussagekräftige Auswertung Ihrer Log-Datei sind darüber hinaus noch einige Nacharbeiten notwendig. In diesem Zusammenhang ist eine strikte Differenzierung zwischen Hits und Page Impressions notwendig. Während Page Impressions die tatsächlichen Seitenabrufe repräsentieren, wird für jeden Zugriff auf eine Seite – vom Frame bis zur Grafik – ein Hit aufgezeichnet. So kommen für eine aufwendige Seite gut und gerne 20 bis 30 Hits zusammen. Bearbeiten Sie Ihre LogDatei entsprechend, um keine verfälschten Ergebnisse zu erlangen. Wenn Sie Ihre Datensätze nach der IPAdresse der Besucher und der Anfragezeit sortieren, erhalten Sie aus diesen Werten die genaue Information, an welchem Punkt ein Besucher in Ihre Seite eingestiegen ist, wie er sich durch die Seite bewegt und wo er sie wieder verlassen hat. Verlassen mehrere Personen Ihre Site an der gleichen Stelle, sollten Sie die Inhalte betrachten und eventuell verbessern. Durch eine statistische Erhebung können Sie außerdem feststellen, wie viele Personen eine gewisse Seite in einem bestimmten Zeitraum, beispielsweise eine Woche, betrachten. Wenn diese Werte massiv abnehmen, sollten Sie den Inhalt der Seite erneuern. dem Sie nun wissen, welche Informationen sich hinter den Feldern verbergen, können wir diese Daten näher analysieren. Das größte Problem bei der Auswertung ist die Herkunft der Benutzer. Die meisten Surfer, die sich über einen Provider einwählen, bekommen eine dynamische IP-Adresse zugewiesen, mit der sie anschließend im Internet unterwegs sind. Kommt der Besucher zu einem späteren Zeitpunkt wieder auf Ihre Homepage, hat er höchstwahrscheinlich eine andere IPAdresse als beim letzten Mal. Dadurch können Sie keine aussagekräftige Statistik darüber erstellen, wie oft ein Besucher Ihre Seite innerhalb einer bestimmten Zeit angewählt hat. Abhilfe schafft hier der Einsatz von Cookies in Kooperation mit einem Analyseprogramm. Beim ersten Aufruf Ihrer Site plaziert das Programm ein Cookie auf dem Rechner des Besuchers. Bei jedem weiteren Besuch wird die ID des Cookies als Zusatzinformation dem Protokoll beigefügt. Ein weiteres Problem besteht, wenn sich der Client hinter einer Firewall befindet bzw. ein Proxy-Server für das Netzwerk eingesetzt wird. In beiden Fällen wird für alle Rechner im Netzwerk nur eine IP-Adresse verwendet. Zur Lösung dieses Problems sollten Sie auch hier den Einsatz von Cookies für die eindeutige Zuordnung des Besuchers erwägen. Durch den Einsatz von Templates und Frames läßt sich leider nicht immer ein Rückschluß auf den Inhalt ziehen. Es wird lediglich der Aufruf des Templates, nicht aber dessen Inhalt protokolliert. Diese Problematik können Sie jedoch durch die Erweiterung des Headers der eingesetzten Middleware umgehen. Server wie ColdFusion bieten auch die Möglichkeit, dem Header einen identifizierenden String der Seite beizufügen. Der Apache-Web-Server beispielsweise ermöglicht die Protokollierung dieser Daten durch die Anpassung der Konfigurationsdatei (httpd.conf). = Andreas Hitzig 2/3 Seite hoch rechts MB Software Probleme bei der Auswertung. Nach- internet world april 2000 101 praxis site-management-praxis Logfiles richtig lesen! Mit wenigen Handgriffen modifizieren Sie Ihre Site so, daß Sie anhand der LogDateien verläßliche Aussagen über die Besucherströme treffen können. 왎 In grauer Internet-Vorzeit hatten es Web-Master einfach: Die Meßgröße „Hits“ galt als Maß aller Dinge. Unter „Hits“ wurde jede Server-Anfrage subsumiert, egal, ob eine HTML-Datei, ein Bild oder ein WAV-Sound angefordert wurde. Man zählte damals alle „Hits“ zusammen, teilte sie durch den willkürlich festgelegten Durchschnitt von 5,4 (soviel „Hits“ erzeugt eine einzelne Seite möglicherweise) und der Web-Master hatte eine allgemeingültige, wenn auch völlig ungenaue Zahl seiner Seitenabrufe. Die Zeiten haben sich gründlich geändert. Angesichts des Wettbewerbdrucks kann und will kaum noch ein Site-Betreiber auf detaillierteres Zahlenmaterial verzichten. Der erste, oben beschriebene Zählversuch konnte kaum relevantes Zahlenmaterial liefern. Eine Seite, die zum Beispiel um einheitliche Navigationselemente einen neuen Text fließen läßt, erzeugt nur einen Hit (für den Text) und würde nur als „ein Fünftel einer Seite“ erfaßt. Dieselbe Seite, die ihre Navigations-Buttons nicht als Image-Map, sondern als einzelne GIFs gespeichert hat und die darüber hinaus einen Reload erzwingt, könnte locker als vier Seiten gezählt werden. PageViews oder PageImpressions lösten daher die Hits bei der Zählung ab. 100 internet world januar 2000 Summiert werden nur noch die übermittelten HTMLSeiten, unabhängig davon, wie viele Grafiken sie enthalten. Die Werte spiegeln daher deutlich wider, was auf dem Web-Server passiert. Das bekannte Zählverfahren der IVW arbeitet heute noch mit PageViews. Für die werbetreibende Wirtschaft ist aber auch diese Größe nicht aussagekräftig genug. Zu leicht ist die Zahl zu manipulieren, etwa, wenn verschiedene WebAngebote unter einem Dach geführt und zusammengezählt werden (siehe Internet World 12/99, Seite 48). So behilft man sich mit der Zählung der AdImpressions, die die Anzahl von Sichtkontakten mit einem Werbebanner beziffert. Es geht genauer. Gerade Betreiber von Online-Shops benötigen noch weit detaillierteres Zahlenmaterial. Um ihr Angebot zu optimieren, wollen sie wissen, welcher Surfer das Angebot in welcher Reihenfolge betrachtet und wofür er sich besonders interessiert. Ganz einfach funktioniert das, wenn sich der Benutzer mit Namen und Paßwort anmeldet. Komplizierter wird es, wenn die Site auf eine Anmeldung verzichtet. Mit sogenanntem Session-Tracking läßt sich dennoch einiges über den Nutzer erfahren. URLs Shareware ... ... zur Logfile-Auswertung http://www.tucows.de/log95.html Kostenlose Online-Tools http://builder.cnet.com/Authoring/ FreeTools/ss06.html SuperStats, Live-Statistiken auf dem Desktop http://v2.superstats.com/ Grundsatzartikel zur Logfile-Auswertung http://builder.cnet.com/Servers/LogFile/ Profi-Tool mit interaktivem Client http://www.websuccess.de Umfassendes Analysewerkzeug aus den USA http://www.webtrends.com Liste mit Namen von Robots und Crawlern http://www.ideenreich.com/dr-rob.shtml Dabei wird dem Surfer beim Aufruf der ersten Seite eine eindeutige Nummer zugeordnet, die er für die Dauer des Aufenthalts behält. Sie wird in der Regel mit der URL mitgeführt. Mit diesem System läßt sich der einzelne Besuch genau protokollieren, über den Nutzer bleibt das meiste im dunkeln. Bei jedem Besuch wird eine neue Session eröffnet. Ob Nutzer A oder Nutzer B das Angebot besucht, bleibt ungewiß. Um die einzelnen Besuche den verschiedenen Nutzern zuordnen zu können, übersicht Die Logfiles im Detail Access-Log aufgeschlüsselt Beispiel für eine Access-Log-Zeile: <unknown>@nat3.webmailer.de (192.67. 198.66) -> www.internetworld.de (<noauth>) [28/Oct/1999:11:48:46] “GET /intface/ himmel/ani2.gif HTTP/1.0” 200 18772 Die Zeile beschreibt einen Hit auf dem WebServer. Alle Hits werden untereinander gelistet, so daß sehr schnell eine riesige Textdatei entsteht. Die Bestandteile des Eintrags im Überblick. <unknown>: Dem Server ist der Besucher unbekannt. @nat3.webmailer.de: Identifikation des Besuchers nach Domain. Manche Server geben hier auch nur IP-Adressen aus. Das ist wesentlich schlechter für die Auswertung. www.internetworld.de: Domain, auf der der Hit erfolgte. (<noauth>): Es erfolgte keine Authentifizierung. [28/Oct/1999:11:48:46]: Datum, Uhrzeit mit Sekunden. GET: Form der Browser-Anfrage. /intface/himmel/ani2.gif: Angeforderte Datei. HTTP/1.0: Verwendetes Protokoll beim Zugriff. 200: Rückmeldung vom Server. 18772: Transferierte Bytes. Referrer-Log aufgeschlüsselt Beispiel für eine Referrer-Log-Zeile: http://suchen.eule.de/cgi-bin/search.exe? begriff=%22aquarellkurs%22&startwith= 1&db=&a=3 -> /muehle/seiten/cuntze.htm Die Zeile beschreibt, woher der Surfer kam und wohin er ging. In diesem speziellen Fall bieten sich Cookies an. Auf die Rechner des Benutzers kann so eine eindeutige Kennung gespeichert werden, die an den Server übermittelt wird. In der Praxis erweisen sich die winzigen Textdateien allerdings immer häufiger als echte Traffic-Bremsen. Viele Web-Surfer deaktivieren daher die Cookies-Option in ihrem Browser. Einen ausführlichen Beitrag über die Realisierung von SessionTracking in der Praxis finden Sie in dem Java-Servlet-Workshop, Folge 2 (Internet World 11/99, Seite 84). Einfache Mittel. Aber auch ohne die recht aufwendige Implementation einer handelt es sich um eine Suchanfrage im Suchdienst „Eule“ nach dem Begriff „Aquarellkurs“. Agent-Log aufgeschlüsselt Beispiel für eine Agent-Log-Zeile: <unknown>@141.30.40.53 -> www.internet world.de (<noauth>) [01/Oct/1999:09:02: 49] “Mozilla/4.5 [de] (Win95; I)” Interessant ist in dieser Zeile nur der letzte Teil. Mozilla: Netscape Navigator (MSIE wäre der Internet Explorer). 4.5: Versionsnummer. de: Länderkennung im ISO-Code (hier: deutsch). Win 95: Betriebssystem (hier: Windows 95). I: Versionskennung. Fehler-Log aufgeschlüsselt Beispiel für eine Fehler-Log-Zeile: [Fri Oct 1 17:00:41 1999] http: access to /usr/local/etc/http/customers/internetwor ld/./www.internetworld.de/htdocs/intface/ index.htm failed for 98ac7188.ipt.aol.com, reason: file does not exist Der erste Teil des Fehler-Log zeigt Datum und Uhrzeit an. Im letzten Teil (reason) wird die Fehlerart beschrieben. file does not exist: Die angeforderte Datei gibt es auf dem Server nicht. Passiert ein solcher Fehler häufig und betrifft er immer wieder die gleiche Datei, dann können Sie davon ausgehen, daß ein Link nicht stimmt. Problemlösung: Sollten Sie den Link nicht finden (eventuell liegt er gar nicht auf Ihrem Server), dann legen Sie einfach eine „Auffangseite“ auf diese Adresse an. Session-Tracking-Lösung haben Sie die Möglichkeit, für Sie wichtige und verwertbare Informationen über Ihre Besucher zu erhalten, denn die Log-Dateien der Web-Server sagen weit mehr aus als nur die IP-Adresse des Besuchers und die Zeit seines Besuchs. Die meisten Server legen in der Regel insgesamt vier Logfiles an. Die Dateien setzen sich zusammen aus: Access-Log (Zugriffe), Agent-Log (Client-Rechner), Referrer-Log (zeigt, von welcher URL der Nutzer kommt) und Error-Log. Letzterer protokolliert Fehlermeldungen und ist damit besonders wichtig für das „Debugging“ einer Site. internet world januar 2000 101 praxis site-management-praxis Online-Tools wie HitBox arbeiten wie die IVW: Ein schlanker Script-Code wird in jede Seite kopiert und erzeugt den Server-Aufruf bei Hitbox Rohdaten sichten. In den Logfiles sind eine Menge Information über jeden Besuch auf Ihrer Site gespeichert. In der Rohform sind die Daten kaum aussagekräftig. Zunächst müssen sie gesichtet und sortiert werden. Die Basisauswertung dieser LogDateien sollte mindestens folgende Werte ergeben: 앫 Summe der PageViews 앫 Top Ten der aufgerufenen Seiten 앫 Verteilung der Browser 앫 durchschnittliche Menge der aufgerufenen Seiten pro Surfer. Daraus ergibt sich eine Schätzung der Menge der Visits 앫 Wichtigste Referrer-Adressen 앫 Rangliste der besuchenden Nationalitäten 앫 Verteilung des Traffics auf Uhrzeit und Wochentage Sie werden sich schwer tun, diese Informationen „von Hand“ aus den Logfiles herauszufiltern. Es gibt dafür eine ganze Reihe von Tools. Die bekanntesten sind hierzulande Websuccess (600 Mark) und WebTrends (600 US-Dollar). Ein Klassiker ist inzwischen das kostenlose Perl-Script WWWstats. Es gibt aber auch eine Reihe von Online-Tools, die gegen Bannereinblendung kostenlos umfassende Reports erstellen (siehe „Wichtige Links“). Achten Sie bei der Wahl Ihres Werkzeugs darauf, daß Sie beliebige verknüpfte Anfragen erzeugen können. Zum Beispiel könnte es interessant sein zu wissen: Wie viele Surfer, die letzten Freitag von der Seite „Index.html“ auf die „Seite2.html“ wechselten, haben schließlich den Link zur Seite „bestellen.html“ benutzt? Oder: Wieviel Prozent der AOL- 102 internet world januar 2000 Profi-Tools wie WebSuccess erlauben die Zuordnung von Kommentaren und Namen zu den Hits User auf Ihrem Server haben die Seite mit dem Namen „Hilfe für AOL-Benutzer“ aufgerufen. Letzteres Beispiel stellt eine weitere Anforderung an Ihre Software. Sie sollte in der Lage sein, einzelnen Seiten und Seitengruppen Namen zu geben, damit Sie bei der Auswertung nicht erst die kryptischen Dateinamen übersetzen müssen. Eine aussagekräftige Server-Statistik liefert Ihnen am Schluß fünf Kernsätze zur Verbesserung der Site. Struktur. Egal, ob Sie eine AuswertungsSoftware benutzen, mit einem Word-Makro (bei geringem Traffic) oder von Hand arbeiten, Sie können bereits im Vorfeld der Auswertung etwas tun, damit die Daten übersichtlicher und aussagekräftiger sind. Zunächst sollten Sie Ihren Web-Server in Sektionen aufbauen. Bereits vom RootVerzeichnis gehen die Pfade ab, welche die wesentlichen Elemente der Web-Site kennzeichnen. Bei einer Tageszeitung wären das die Themenrubriken sowie die Bereiche „Kleinanzeigen“, „Abo“, „Service“ und „Werbekunden“. Benutzen Sie dabei Klarnamen als Ordner-Bezeichnungen. Diese Unterteilung bildet sich in den Server-Logs deutlich ab und Sie können sehr schnell erste Aussagen treffen. Innerhalb der Ordner verwenden Sie weitgehend identische Strukturen wie info Fehler bei der Logfile-Auswertung Der Proxy-Server: In Firmennetzwerken und bei vielen Internet-Providern stehen ProxyServer, die Dateien zwischenspeichern. Eine erneute Anfrage nach der gleichen Datei wird direkt vom Proxy bedient und taucht nicht in den Logfiles des Web-Server auf. Die ausgewiesenen Hit-Zahlen sind etwas zu niedrig. Auch Cookies werden von Proxys häufig abgefangen oder falsch weitergeleitet. Lösung: Die IVW-Zählung serviert ein winziges GIF mit einem CGI-Script. Dadurch wird das Zwischenspeichern umgangen. Dynamische IP-Adressen: Große Online-Dienste und ISPs vergeben immer wieder die gleichen Absenderadressen an verschiedene Surfer. Dagegen ist bislang kein Kraut gewachsen. Die Hit-Zahlen sind zwar korrekt, aber bei der Bemessung von Visits fallen unter Umständen einige Surfer heraus. Lösung: Keine. Das Problem betrifft allerdings vorrangig ganz große Web-Sites. Robots: Suchmaschinen unterhalten Crawler und Robots, die das Web nach neuen Seiten durchsuchen. Deren Hits treiben die Statistiken in den Logfiles nach oben. Auch UserAgenten verhalten sich wie Robots, sind aber im individuellen Auftrag unterwegs. Lösung: Mit einer Positivliste (siehe „Wichtige Links“) der Namen der Robots, werden die entsprechenden Domains ausgeschlossen. Persönliche Agenten lassen sich dagegen kaum ausschließen. Die vier Log-Dateien werden von den meisten WebSpace-Providern monatlich als ZIP-Dateien zusammengepackt 3 4 5 6 7 8 9 service test sollten sich Designer besonders zu Herzen nehmen. zurück zur Homepage, hat er sich offensichtlich verlaufen. Überarbeiten Sie die dazugehörigen Links. Brechen Visits häufig auf der gleichen Seite ab, sollte diese überarbeitet werden. Eventuell machen sich dort Hinweise auf andere eigene Contents gut („Exit-Selling“). Taucht ein Referrer besonders häufig in der Statistik auf, handelt es sich möglicherweise um einen interessanten Partner für Banner-Austausch oder ähnliche Kooperationen. Beachten Sie die Trefferquoten auf Flash-, Quicktime, RealVideo- oder sonstigen Multimedia-Dateien. Lohnt sich der Produktionsaufwand für die paar Besucher? Haben Ihre Besucher aktuelle Browser oder veraltete? Das entscheidet über den Einsatz von CSS oder DHTML. Kommen viele Besucher Ihrer Site aus dem Ausland? Dann ist es jetzt höchste Zeit für eine englische Version. = Frank Puscher aktuelles Wichtige Grundaussagen der Logfiles 2 viel höher als auf den Content-Seiten, dann ist entweder der Inhalt oder die Navigation schlecht. Ist der Traffic auf den Content-Seiten höher als auf der Homepage, kommen viele Besucher über Suchmaschinen. Content, der nur auf der Homepage steht, geht an den Besuchern vorbei. Ist der Traffic auf der Sitemap oder einer Hilfe-Seite besonders hoch, stimmt etwas mit der Navigation nicht. Kehrt ein Surfer während des Visits von einer Content-Seite direkt wieder magazin 1 Ist der Traffic auf der Homepage extrem praxis zum Beispiel eine Sortierung nach Tagesdatum. Die Korrelation zwischen dem Besuchstag und dem Zugriff datierter Verzeichnisse gibt Hinweise auf die Bedeutung der Aktualität für Ihre Besucher. Viele Site-Betreiber wären erstaunt, wenn sie wüßten, wieviel Surfer sich in erster Linie für das Archiv und nicht die aktuellen News interessieren. Die Wirkung eines Sonderangebots oder eines Gewinnspiels, das Sie auf der Homepage plaziert haben, können Sie am besten mit einer ganz neuen Seite testen, die Sie nur für dieses Thema einrichten. Plazieren Sie Links auf diese Seite mal im Kopf in einem Banner, mal in der Navigationsleiste und mal im Content-Bereich. Notieren Sie sich, wann Sie welche Änderungen vorgenommen haben. Anhand der Log-Dateien können Sie die optimale Plazierung ermitteln. 1/2 Seite quer rechts Media internet world januar 2000 103