Such!
Transcrição
Such!
praxis recherche im netz Die Kunst des Suchens Viele große Suchmaschinen sind in den letzten Monaten um interessante neue Funktionen erweitert worden. Nicht nur die Inhalte im Internet wachsen, auch die Suchdienstanbieter lassen sich immer neue Funktionen einfallen. Wir haben für Sie einige beliebte deutsche und internationale Suchmaschinen ausgewählt, um Ihnen derzeit gebräuchliche Sonderfunktionen zu erläutern. In der Tabelle auf Seite 92 können Sie außerdem die wichtigsten Befehle und Features der Suchmaschinen nachschlagen und vergleichen. Acoon.de Die Suchmaschine bietet für den deutschsprachigen Raum nicht nur sehr gute Suchergebnisse, sondern präsentiert diese auch mit beeindruckender Geschwindigkeit. Ein besonderes Feature, das das Suchen erleichtern soll, ist der intelligente Such-Assistent. Dahinter verbirgt sich eine Truppe von Web-Scouts, die Ihnen bei der Suche behilflich ist. Über ein Chat-Fenster äußern Sie Ihre Suchwünsche gegenüber dem Scout, und dieser macht sich für Sie auf die Suche. Nach rund 30 Minuten werden Ihnen an eine zuvor angegebene eMail-Adresse mehrere Suchergebnisse gesandt. Die komplette Dienstleistung wird von Acoon kostenlos angeboten. Altavista.de Altavista gehört zu den Klassikern unter den Suchmaschinen und hat deren Syntax maßgeblich geprägt. Seit dem Relaunch bietet Altavista einige zusätzliche Funktionen an, die Ihnen vor allem bei der Aufbereitung der Ergebnisse weiterhelfen. So 90 internet world januar 2001 können Sie über die Profisuche extra Sortierkriterien definieren, nach denen Ihre Suchergebnisse aufbereitet werden. Darüber hinaus stehen Ihnen auch nach der Darstellung der Suchergebnisse weitere Klassifikationskriterien zur Verfügung: Über die Registerkarten können Sie die Resultate nach deutschsprachigen oder weltweiten Funden, Bildern, Musik oder Videos unterscheiden. FastSearch Neben guten Suchergebnissen ist die Möglichkeit zur Eingabe von Such-Strings eine maßgebliche Stärke von FastSearch. Unterstützt wird die Filterung von 31 Sprachen via ISO-Code und eine bequeme Filterung von Domains. Erstnutzern steht ein einfaches Tool für das Zusammenstellen des Such-Strings per Auswahlbox zur Verfügung. Nahezu einzigartig ist die Customizing-Funktionalität. Via Cookie werden die Einstellungen zu Sprache, Content Reduction und Wortfilter lokal auf Ihrem Rechner abgelegt. Treffer ausgelöst hat. Überdies ist jeder Treffer in der Ergebnisliste mit einem Link zum GoogleScout ausgestattet. Über diese Verknüpfung liefert Ihnen Google Seiten mit verwandten Ergebnissen. Lycos Benutzerfreundlichkeit wird bei Lycos großgeschrieben. „NEAR“, „FAR“, „+“ und „–“ haben ausgedient. Zur Steuerung des Strings steht Ihnen eine Auswahlbox zur Verfügung. Damit gehen zwar Kombinationsmöglichkeiten verloren, dafür muß nicht die Suchmaschinen-spezifische Syntax erlernt werden. Interessant ist die Suche im Wörterbuch, die Ihnen die aktuelle deutsche Rechtschreibung und zu Fremdwörtern die passende Erklärung liefert. Erwähnenswert sind bei Lycos noch die Relevanzkriterien: Sechs Möglichkeiten stehen zur Verfügung, um den Eingaben mit den Attributen „wichtig“, „mittel“ und „unwichtig“ eine Bedeutung zuzuweisen und das Ergebnis zu gewichten. Northern Light Nahezu einzigartig sind die Auswahlkriterien, die bei der Zusammenstellung eines Suchergebnisses zur Verfügung stehen. Zum einen offeriert Northern Light neben Standard- und Power-Suche mit Business- und Investment-Suche weitere themenspezifische Optionen. Nicht einzigartig, aber im Zusammenspiel mit den Kategorisierungen innerhalb der einzelnen Sektionen selten zu finden. Über die Power-Suche können Sie für die Inhalte der HTML-Seiten aus bis zu 16 Sparten auswählen, kategorisiert nach Inhalten stehen weitere 15 Checkboxen zur Verfügung. So lassen sich schnell und individuell ohne lange Befehlszeilen die gewünschten Seiten zusammenklicken. = Andreas Hitzig Google Die aus einem Forschungsprojekt entstandene Suchmaschine ist inzwischen mehr als ein Geheimtip. Interessant sind bei Google besonders zwei Funktionen, welche die Aufbereitung der Ergebnisse betreffen. Oft entspricht die von der Suchmaschine indizierte Seite nicht mehr dem Inhalt, der sich aktuell auf der Seite befindet. Gerade bei Einstiegsseiten größerer Sites findet zum Teil im Minutenabstand ein Wechsel der Daten statt. Mit der Funktion „Im Cache“ zeigt Ihnen Google die Seite an, die indiziert wurde und den URLs Suchmaschinen Acoon – http://www.acoon.de Altavista – http://www.altavista.de FastSearch – http://www.alltheweb.com Google – http://www.google.com Lycos – http://www.lycos.de Northern Light – http://www.northernlight.com ✂ suchmaschinen-logik Die Funktionen der wichtigsten Suchmaschinen im Überblick URL Allgemeine Einstellungen Suche Suche nach nach allen mindestens Wörtern einem Wort Sortierung Variable nach Anzahl von Domains Suchergebnissen/Seite Logische Operatoren UND ODER NOT NEAR Suchbereiche komTitel Web- eMail- Meta- Links plettes Adresse Adresse Begriffe Dokument Video Sonstiges Wildcard Phrase inter* nach Relevanz WAP-Suche, Suchassistent Zusammen- Sortierung Sonderfassung funktionen +A+B AB Altavista.de http://www.altavista.de Profisuche A AND B A OR B NOT B A NEAR B autotitle: matisch Begriff url: mailto: Adresse Adresse link: URL_Text domain:DE applet: Name Menü/ image: Name Menü Menü inter* „internet world“ (A OR B) AND C Profisuche frei wählbar verschiedene Themensuchen, Offline-Suchguide Excite.de http://www.excite.de A AND B A OR B NOT B auto matisch Menü Menü Menü inter* Menü Powersuche (A OR B) AND C nach Relevanz oder URL Suche nach Hotel, Flügen und eMail-Adressen FastSearch http://www.alltheweb.com A+B AB Menü Menü Menü Menü Menü eigene Suche eigene Suche eigene Suche inter* Menü eigene Logik Suche nach WAP, FTP, MP3 und Multimedia Fireball http://www.fireball.de Profisuche A AND B A OR B NOT B A NEAR B Profisuche Profisuche Profisuche Profisuche Profisuche Profisuche Profisuche applet: Name image: Name inter* „internet world“ (A OR B) AND C Profisuche Katalog-Suche, Live-Suche, Datum als Suchkriterium Go http://www.go.com A AND B A OR B NOT B autotitle: matisch Begriff url: Adresse link: URL_Text Menü Menü Menü Menü inter* „internet world“ nach Suche innerhalb Relevanz Ergebnissen, Suche oder Datum nach Rubriken Google http://www.google.com AB auto matisch link: URL_Text „internet world“ nach Relevanz 16 Sprachen, Anzeige ähnlicher Seiten, Cache HotBot http://www.hotbot.com A AND B A OR B NOT B Menü Menü Menü Menü Menü Menü Menü Menü inter* „internet world“ (A OR B) AND C keine Angaben umfangreiche Suchkriterien Lycos.de http://www.lycos.de A AND B A OR B NOT B A NEAR B Menü Menü Menü Menü Menü Menü inter* „internet world“ (A OR B) AND C nach eigenen Angaben eigene Relevanzkriterien, 38 Sprachen Northern Light http://www.northernlight.com A AND B A OR B NOT B autoMenü matisch Menü inter* „internet world“ (A OR B) AND C nach Relevanz umfangreiche Menüselektion zur Einschränkung der Suchergebnisse Menü Menü Menü Menü inter* „internet world“ (A OR B) AND C k. A. Speicherung von Such-Layout, WAPSuche, Live-Suche inter* „internet world“ (A OR B) AND C nach Kategorien zeitliche Einschränkung der Ergebnisse Web.de http://www.web.de +A+B AB -B autoMenü matisch Menü Yahoo.de http://www.yahoo.de A+B AB -B autot: matisch Begriff u: Adresse = vorhanden = nicht vorhanden Audio /MP3 -B Bild http://www.acoon.de NOT B Applet Acoon -B auto matisch Domains 92 internet world januar 2001 Name praxis lokale suchmaschine Persönlicher Spürhund Eine integrierte Suchmaschine hilft, spezielle Informationen auf der Web-Site leichter zu finden. Wir sagen, wie’s geht. 왎 Web-Sites, die stetig wachsen, werden leicht unübersichtlich, und gerade ältere Informationen sind kaum mehr auffindbar. Allerspätestens dann, wenn Sie selbst nicht mehr wissen, wo sich welche Seiten in Ihrem Web befinden, sollten Sie sich Gedanken über die Integration einer Suchmaschine machen. Je nach Ausgangssituation stehen dabei verschiedene Lösungen zur Verfügung. Zwei Punkte gilt es zu beachten: � Haben Sie vollen Zugriff auf den WebServer und können Sie dort beliebig Software installieren? � Wie groß ist die Site, welches Budget steht zur Verfügung? Im Prinzip funktioniert der Aufbau einer Suchmaschine für die eigene Site immer nach dem gleichen Muster, unabhängig von der jeweils eingesetzten Technologie: Der Site-Master definiert eine Reihe von Parametern und schickt anschließend einen sogenannten Parser durch seine Seiten. Dieser digitale Spürhund erstellt einen Index, in dem er wichtige Schlüsselwörter sammelt. Greift der Benutzer online auf die Suchmaschine zu, dann werden nicht die Seiten selbst, sondern dieser Index durchsucht. Das spart eine Menge Zeit. Systeme, die nicht einen Index, sondern die Dateien selbst durchforsten, funktionieren nur bei kleinen Sites. Für ganz große Sites ab 10.000 Seiten sollten professionelle Systeme eingesetzt werden. Welches System sich am besten eignet, hängt in hohem Maß vom eingesetzten Server ab. Unser Focus richtet sich auf kleine und mittlere Sites. Für diese stehen aus tech- 94 internet world juli 2000 nologischer Sicht vier verschiedene Möglichkeiten zur Verfügung: Suchdienste, Java, Perl und proprietäre Software. Die ersten beiden Varianten funktionieren praktisch immer, sind allerdings von der Performance her ziemlich begrenzt. Die Perl/CGI-Variante ist die Standardlösung. Um sie nutzen zu können, muß der WebMaster freien Zugriff auf das CGI-Verzeichnis des Web-Servers haben, und dieser wiederum muß Perl unterstützen. Viele Hoster bieten bereits vorgefertigte SuchScripts an, die Dokumente im Volltext durchforsten. Spezialisierte Such-Software muß parallel zum Web-Server installiert werden. Eine solche Installation sollten jedoch nur Profis durchführen. Der einfachste und schnellste Weg, um zur eigenen Suchmaschine für die WebSite zu kommen, ist der Rückgriff auf einen Dienstleister. Es gibt eine Reihe von Anbietern im Netz, die dem Benutzer Suchdienste zur Verfügung stellen. Während die Eingabemaske auf der eigenen Web-Site steht, erscheint die Antwortseite in der Regel beim Dienstleister. Bei den kostenlosen Varianten wird dort meist Werbung eingeblendet. Außerdem profitiert der Dienstleister natürlich vom Traffic. Einer dieser Dienstleister, Freefind, erlaubt die Anpassung der Antwortseite an das eigene Layout. Der Benutzer erkennt nur an der URL, wo er gelandet ist, und kommt mit dem nächsten Klick zurück. Beim Einsatz von Frames ändert sich nicht einmal die URL. Das Basis-Setup für Freefind ist eine Sache von Minuten. Auf der Homepage des Dienstes befindet sich ein Formular, in dem nur die Domain, eine eMail-Adresse und eine Rubrik für die Site angegeben werden müssen. Alles weitere erledigt die Maschine: Nach 24 Stunden landet die BestätigungsMail im Briefkasten. Im ControlCenter auf der Freefind-Site wird nun zunächst die Indexierung ausgelöst. Dieser Vorgang kann in einem bestimmten Rhythmus automatisiert werden, so daß der Index auch von Neuerungen erfährt. Es empfiehlt sich, die Intervalle nicht zu kurz zu wählen, denn jeder Besuch des Robot frißt selbstverständlich auch Server-Leistung. Ist die Site an mehr als eine Domain angebunden, lassen sich weitere Domain-Namen über die Feineinstellungen – erreichbar im ControlCenter über den Button „Next“ – angeben. Im zweiten Schritt wird der Code in die eigene Web-Site eingebaut. Es handelt sich um ein einfaches Formular, das den oder die Suchbegriffe an ein Perl-Script auf dem Freefind-Server übergibt. Dieses durchsucht den erstellten Index und liefert die Ergebnisseite. Das Ergebnis entspricht dem, was man von den großen Suchmaschinen gewohnt ist. Als Link dient der Titel der Seiten, als Beschreibung werden die „Description“ aus den Meta-Tags oder info die ersten Textzeilen innerhalb der Seite aufgeführt. Bei der Generierung von MetaTags sollte daher darauf geachtet werden, jeder Seite eigene Keywords und eine eigene Beschreibung zu geben. Ein Klick auf einen der Links führt postwendend zurück zur Web-Site. Hier das Formular: <form action=“http://search.freefind.com/ find.html“ method=“GET“ target=“_top“> <center> <font size=“-1“> <font color=“#FF6666“>Der Sitefinder </font> powered by FreeFind</font> <input type=“HIDDEN“ name=“id“ size=“-1“ value=“1234565“> <input type=“HIDDEN“ name=“pid“ size=“1“ value=“r“> <input type=“HIDDEN“ name=“mode“ size=“1“ value=“ALL“> <input type=“TEXT“ name=“query“ size=“20“> </center> <font size=“-1“> <font face=“Courier New, Courier, mono“> <input type=“radio“ name=“t“ value=“s“ checked> Site search <input type=“radio“ name=“t“ value=“w“> Web search </font></font> <input type=“SUBMIT“ value=“ Such „ name=“SUBMIT“> </form> In diesem Code lassen sich die Beschriftungen „Site Search“ und „Web Search“ sowie der „value“ des „Submit“-Button ändern. Auch der Titel (hier: „Der Sitefinder“) kann inklusive Farbe direkt im Code geändert werden. Um das Erscheinungsbild der Ergebnisseite zu ändern, gehen Sie ins ControlCenter und dort in die Abteilung „Customize“. Schritt für Schritt werden Sie durch die Änderungsmöglichkeiten geführt. Dabei kommt vor allem dem Hintergrundbild und den Schriftfarben besondere Bedeutung zu, um eine einheitliche, zu Ihrer Web-Site passende Optik zu erhalten. Das einzufügende Logo erscheint ganz oben auf der Seite, wo es etwas verloren wirkt. Eventuell lohnt es sich, eine grafische Anpassung vorzunehmen und einen breiten Streifen von geringer Höhe (30–40 Pixel) als Logo zu definieren. Sie müssen diese Datei auf Ihrem Web-Server plazieren und Freefind die exakte URL mitteilen. Die Auswahl der Texte auf der Ergebnisseite erfolgt robots.txt Die Norobots-Datei muß im Basisverzeichnis des Web-Servers gespeichert werden. Es trägt zu Beginn einen Titel, dann folgen die angesprochenen Suchmaschinen (User Agent) mit den Zutrittsverboten. # robots.txt for http://www.beispiel.de/ User-agent: * Disallow: /testeiten/alle/ Disallow: /tmp/ Disallow: /pass.html Diese Datei besagt, daß alle Suchmaschinen Seiten, die innerhalb der Ordner „testseiten/alle“ und „tmp/“ liegen, ignorieren sollen. Das gilt auch für die darin enthaltenen Unterordner. Außerdem wird die Einzelseite „pass.htm“ vom Zugriff ausgenommen. nicht hier, sondern in einem anderen Menü namens Search Setup. Spannendstes Feature von Freefind sind die Reports. Hier berichtet der Dienst, welche Suchanfragen er erhalten hat, und sortiert diese. Außerdem registriert er, welche Links geklickt wurden, und listet die mit den Seiten verbundenen Keywords auf. Das ist ein wertvolles Hilfsmittel bei der Analyse der Besucherströme. Der Site-Betreiber kann Freefind noch etwas genauer steuern. Sollen einige Dateien ausgeklammert werden, so hat er zwei Möglichkeiten: Zum einen kann er das Tag <!— FreeFind No Index Page —> im Kopf der jeweiligen Seite plazieren, bevor die Site indiziert wird. Soll nur ein Teil einer Seite ausgeklammert werden, so lautet das Tag-Paar: <!— FreeFind Begin No Index —> <!— FreeFind End No Index —> Alles außerhalb dieser Klammern wird indiziert. Die andere Möglichkeit ist die Erstellung einer Robots-Datei. Dazu muß eine Datei namens robots.txt im Stammverzeichnis des Web-Servers liegen. In dieser Datei steht, welche Ordner und Dateien nicht von den Suchmaschinen indiziert werden sollen (siehe Kasten). Das gilt nicht nur für Freefind, sondern auch für die meisten großen Suchdienste im Web. Um die Reihenfolge der Treffer zu manipulieren, muß man wissen, wie Freefind indiziert. Jedes gefundene Wort wird registriert. Die Anzahl der Treffer bestimmt die Reihenfolge des Erscheinens auf der Ergebnisseite. Die Begriffe im internet world juli 2000 95 praxis lokale suchmaschine Titel der Seite und in den Meta-Tags zählen doppelt. Um die Wertigkeit einer Seite noch weiter zu steigern, kann man ein Keyword künstlich wiederholen: <!—FreeFind keywords words=“word1 word2 etc etc“ count=“5“—> Einen Nachteil hat Freefind allerdings: Die Boolschen Suchoperatoren gelten hier nicht, und Wildcards können ebenfalls nicht eingegeben werden. Die StringDefinition mit Anführungszeichen (z. B. „Valerien Beckenbauer“) führt nicht wie gewohnt zur passenden Zeichenkette, sondern wird per AND verbunden. Grundsätzlich gilt für jede Suchanfrage mit mehreren Begriffen, daß zunächst AND vermutet wird. Wenn das nicht funktioniert, kommt OR zum Tragen. Eine mögliche Java-Lösung ist QuestAgent von JObjects. Die Software kann für nichtkommerzielle Anwendungen kostenlos genutzt werden. Für kommerzielle Anwender gibt es verschiedene Lizenzmodelle, je nachdem, ob es sich um einen 96 internet world juli 2000 Hoster oder einen einzelnen Site-Betreiber handelt. Für die Benutzung von QuestAgent sind nur wenige Voraussetzungen zu erfüllen. Der Site-Betreiber benötigt auf seinem Rechner eine funktionierende aktuelle Virtual Machine. Fehlt diese, ist das nicht so schlimm, denn das große Download-Päckchen von JObjects (6,5 MByte) enthält einen Interpreter. Die fertige Suche funktioniert mit jedem gängigen Javafähigen Browser. Nur beim Internet Explorer 3 erlebten wir zwei Abstürze, aber dieser Browser dürfte wohl kaum noch eine Rolle spielen. Ein einfaches Interface fragt Schritt für Schritt die nötigen Informationen ab und erstellt sowohl den Index als auch die Applets und die passende HTML-Seite. Letztere kann – wie bei allen Lösungen – nach dem eigenen Design gestaltet werden. Wahlweise läßt sich ein neues Projekt erstellen oder ein bestehendes bearbeiten. Ein Wizard führt den Benutzer durch das Programm. Nach Auswahl und Benennung des Profils wird der Benutzer aufge- Die Konsole von QuestAgent ermöglicht die einfache Programmierung der Suche, ohne in den Quellcode gehen zu müssen fordert, den Zielordner für die Suche zu definieren. Des weiteren fragt QuestAgent die URL des Web-Servers ab. Diese Eingabe ist allerdings in den meisten Fällen überflüssig. Nach dem Klick auf „Next“ steht die Erstellung des Index an. Prüfen Sie die Daten, die der QuestAgent anzeigt, und klicken Sie auf „Start Indexing“. Das Programm durchforstet nun den ausgewählten Ordner und alle Unterordner. aktuelles magazin praxis test Seitentitel angezeigt. Das ist etwas dürftig und muß beim Aufbau der Site bedacht werden. Hier liegt die einzige erkennbare Schwäche des Programms. Seine volle Leistungsfähigkeit entfaltet das Tool, wenn ihm Sonderaufgaben gestellt werden; diese werden vor der Indexierung unter „Settings“ definiert. Die wichtigste Funktion ist der Die Berichte von Freefind geben Auskunft darüber, was Ausschluß von einzelnen Seiten gesucht wurde und Ordnern. Dafür ist „Exclu„.dochtml“. Geben Sie diesen Dateityp bei sion“ zuständig. Gehen Sie auf „Browse“, den „File Extensions“ an, und schon wird ermitteln Sie die gewünschte Datei, bedie Datei durchsucht. stätigen Sie mit „OK“ und fügen Sie die Die Option für Datenbankprofis lautet Datei mit „Add“ der Ausschlußliste hinzu. „Handler“. Hier werden die zu lesenden Grundsätzlich durchsucht QuestAgent Felder eines Dokuments näher bezeichnet HTML- und TXT-Dateien. Weitere Webund definiert. Auch die Priorität wird hier fähige Dateiformate müssen bei den „File festgelegt. Dabei ist der Handler nicht auf Types“ mit ihrem Mime-Type registriert feste Tags wie Meta oder Body limitiert. werden. Über einen kleinen Trick gelingt QuestAgent kann auch mit selbstdefinierQuestAgent auch die Indizierung von ten XML-Strukturdaten umgehen. Dem Word-Dokumenten und anderen proSuchenden stehen die wichtigsten prietären Dateien: Kopieren Sie die Datei Boolschen Verknüpfungen AND und und geben Sie der Kopie die Endung service QuestAgent erstellt eine Index-Datei, die zur Steuerung der Suchanfragen dient, sowie mehrere unterschiedliche Inhaltsdateien. Eine davon ist für die Links und Seitentitel verantwortlich. Aus dieser Datei wird die Ausgabeliste generiert. Die weiteren Dateien sind für die alphabetische Indizierung zuständig. Mit der Funktion „Deploy“ wird der komplette Ordner inklusive Java-Klassen und Suchmaske nach erfolgter Indizierung unter dem Namen „jobjects“ in das durchsuchte Basisverzeichnis gelegt. Dem Site-Betreiber bleibt nun nur noch, die Suchseite namens „search2.html“ zu öffnen, den deutlich markierten Applet-Code zu kopieren und in eine eigene Suchseite einzufügen. QuestAgent bietet dabei auch gleich noch Hinweise zur Suchhilfe an, die übernommen werden können. Die Java-Suche mit NetQuest ist recht passabel. Unser Index erreichte bei einer Site mit 100 HTML-Seiten insgesamt rund 110 KByte. Die Suche funktioniert zuverlässig. Als Ergebnis wird allerdings nur der internet world juli 2000 97 praxis lokale suchmaschine info OR zur Verfügung. Begriffe, die ohne Verknüpfung eingegeben werden, bekommen per se die AND-Bedingung, was den Suchkomfort deutlich steigert. Außerdem kann der Benutzer der Suchmaschine mit Wildcards arbeiten, etwa um auch einen möglichen Plural eines Suchbegriffs anzuzeigen: „Pferd*“ liefert Ergebnisse wie Pferd und Pferde, aber auch Pferdehalfter. Eine Server-basierte Suche benutzt in aller Regel die CGI-Schnittstelle und Perl als Programmiersprache. Bevor Sie zu Werke gehen, erkundigen Sie sich bei Ihrem Web-Master, welche Perl-Version der Web-Server verarbeiten kann. Kostenlose CGI-Scripts unterschiedlichster Qualität gibt es im Web zuhauf. Wir beschränken uns hier auf ein einfaches Script, das eine Volltextsuche durchführt. Boolsche Operatoren sind darin erlaubt, eine spezifische Rangordnung der Seiten erfolgt aber nicht. Eine etwas aufwendigere Lösung haben wir in Ausgabe 3/2000 auf Seite 90 vorgestellt. Der Code steht auf der Web-Site der INTERNET WORLD unter http://www.internetworld.de/iw/mag azin_listings_0300.htm zur Verfügung. URLs Alle Links zum Thema Übersichten http://service.freepage.de/cgi-bin/feets/ freepage_ext/41030x030A/rewrite/achim98 /suchm.htm http://marcbauer.purespace.de/ suchmaschinen/eigene/index.htm http://www.suchfibel.de/ Excite Web Search http://www.excite.com/navigate/download. html C|Net-Workshop zur Meta-Suchmaschine http://www.builder.com/Programming/ Scripter/110199/?tag=st.bl.3883.linksgp Textpad http://www.textpad.com/ Freefind http://www.freefind.com/indexa.html QuestAgent und andere Java-Lösungen http://gamelan.earthweb.com/javaprogram ming/applets/dir.utilsearchengines2.html SimpleSearch http://www.worldwidemart.com/scripts/ search.shtml#Downloading 98 internet world juli 2000 Der Vorteil der CGI-Lösung ist, daß der Server und nicht der Client die Sucharbeit leistet. Zudem lassen sich derartige Scripts sehr gut konfigurieren und den eigenen Bedürfnissen anpassen. Nachteil allerdings: Die Volltextsuche dauert recht lange. Wir benutzen ein Script namens SimpleSearch von Matt Wright. Das Script kommt in einer Zip-Datei zusammen mit einer Erklärung im Readme-File und einer HTML-Seite als rudimentäre Suchmaske. Öffnen Sie zunächst die HTML-Seite. Sie sehen ein Formular mit der Aktion: <form method=POST action=“http://world widemart.com/scripts/cgi-bin/demos/ search.cgi“> Ändern Sie die Adresse des Links so, daß er auf Ihr CGI-BIN-Verzeichnis zeigt, zum Beispiel: <form method=POST action=“http://www. domain.de/cgi-bin/search.cgi“> Kopieren Sie nun das komplette Formular von <FORM> bis <FORM>in eine eigene Seite und passen Sie das Layout an. Nun kommt die Datei search.pl an die Reihe. Öffnen Sie diese Datei mit einem Text-Editor, der ungefragt keine Formatierungszeichen in der Seite hinterläßt. Auf Windows-Ebene eignet sich der „Editor“, für gehobenere Ansprüche wäre zum Beispiel Textpad von Helios zu empfehlen. Der wesentliche Bereich befindet sich gleich im Kopf des Scripts: $basedir = ‘/www.domain.de/html/’; $baseurl = ‘http://www.domain.de/’; @files = (‘*.html’,’*.htm’, ‘intface/’); $title = „Franks Suche“; $title_url = ‘http://www.domain.de/; $search_url = ‘http://www.domain.de /search.html’; Problematisch sind nur die ersten beiden Zeilen. Das Base-Directory ist das Grundverzeichnis der zu durchsuchenden Dateien. Die Base-URL ist die Domain. Beide werden vom späteren Script aneinandergehängt. Wie Sie sehen, wird in diesem Beispiel die Domain doppelt aufgeführt. Das ist häufig bei virtuellen Servern der Fall, wo die Betreiber die Server einfach nach den Domain-Namen sortieren. Im Zweifel müssen Sie ein bißchen testen, um den richtigen Pfad zu finden. Auch die „@files“ werden dem Suchpfad beigefügt. Das Script von Wright führt eine Positivsuche aus, es widmet sich also nur Dateien und Ordnern, die hier explizit aufgeführt werden. Bei größeren Web-Sites empfiehlt sich ein Script, das Suchoperatoren AND: Alle Worte müssen im selben Doku- ment vorhanden sein. OR: Eines der Worte muß vorhanden sein. NOT: Dieses Wort darf nicht vorkommen. STRING „“: Worte in Anführungszeichen müssen in genau dieser Kombination in der Seite erscheinen. NEAR: Die beiden Suchbegriffe dürfen höchstens 25 Worte auseinander liegen. FAR: Die beiden Begriffe müssen mehr als 25 Worte auseinander liegen. ADJ: Die beiden Worte müssen in beliebiger Reihenfolge direkt nebeneinander liegen. BEFORE: Wie AND, aber mit fester Reihenfolge. ORDER: Die Ergänzung „O“ vor den anderen Operatoren verlangt ebenfalls eine feste Reihenfolge, etwa ONEAR. WILDCARD „*“: Pferd* findet auch Pferde und Pferdewagen. statt dessen die aufgeführten Bereiche bei der Suche ausläßt. In den Dateinamen sind Wildcards erlaubt. Die Angabe des Ordners „intface/“ führt zum Durchsuchen aller darin enthaltenen Dateien. Die unteren drei Zeilen sind für den Seitentitel, den Link zur Homepage und den Link zurück zur Suchseite gedacht, die allesamt auf der Ergebnisseite erscheinen. Im letzten Drittel des Scripts befinden sich einige PrintAnweisungen. Diese formatieren die Ausgabeseite. Alles, was innerhalb der doppelten Anführungszeichen steht, ist normaler HTML-Code und kann ersetzt werden. Das knifflige bei CGI-Scripts ist, daß sie nicht einfach per se funktionieren, sobald man sie auf den Server übertragen hat. Bei dieser Übertragung ist übrigens unbedingt darauf zu achten, daß sie im ASCII-Modus vonstatten geht, sonst wird die Datei zerstört. Perl-Scripts müssen auf dem Server freigeschaltet werden. Bei guten FTP-Clients, wie zum Beispiel Cute-FTP, ist diese Funktion bereits integriert, doch sie wird nicht von allen Servern unterstützt. Mitunter ist die Eingabe von Hand in der Kommandozeile nötig, zum Beispiel wenn Sie einen Telnet-Zugriff auf einen Unix-Server haben. Fragen Sie im Zweifelsfall lieber bei Ihrem Webmaster nach, auf welche Weise Sie die Scripts freischalten können. = Frank Puscher praxis robots & spiders Datenjäger Unermüdlich durchstreifen Suchmaschinen das Web auf der Suche nach aktuellen Informationen. Wir führen Sie durch das Innenleben dieser Automaten. Search-Engines sind integraler Bestandteil des World Wide Web. Denn nur mitdem Einsatz dieser Helfer ist es Surfern möglich, der Informationsflut Herr zu werden. Doch was auf den ersten Blick als alltäglich und gegeben hingenommen wird, ist in Wahrheit nur durch ein Zusammenspiel komplexer Algorithmen und ausgefeilter Technologien realisierbar. dem explosionsartigen Wachstum des Internet Schritt zu halten. Nur wenige Sites können indiziert werden, das Gros fällt durchs Raster. Hier kommt die Rolle der eigentlichen Search-Engines zum Tragen: Diese erstellen ihren Datenbestand voll- Prinzipiell existieren zwei verschiedene Typen von Suchmaschinen, die sich in ihrer Funktionsweise jedoch wesentlich unterscheiden: Zum einen gibt es die sogenannten Directories. Die Datenbestände werden ausschließlich von Menschen gepflegt, die entweder die Beschreibung einer Seite zur Katalogisierung einreichen oder aber – was die Aufgabe von Redakteuren ist – Seiten begutachten und diese in die Datenbanken aufnehmen. Später wird die gesammelte Information in eine hierarchisch organisierte Struktur von Kategorien eingeordnet, in denen der Benutzer gezielt in Sparten suchen und seine Suchanfrage beliebig spezialisieren kann, bis er schließlich die gesuchte Information gefunden hat. Der Nachteil der Directories ist klar: Es ist für Menschenhand schier unmöglich, mit Weitere Informationen 96 internet world mai 2000 URLs Wer weiterführende Literatur u. a. zu den Themen Robots, Spiders und Standard for Robot Exclusion sucht, wird hier auf jeden Fall fündig: http://info.webcrawler.com/mak/projects/ robots/faq.html Wer diesen Link besucht, findet die berühmte Web Robots FAQs von Martijn Kosters, die keine Fragen offenlassen: http://info.webcrawler.com/mak/projects/ robots/guidelines Richtlinien für das Schreiben von Robots mit gutem Benehmen: http://www.webreference.com/content/ search/how.html Informationen zum Thema Suchmaschinen allgemein und Tips für das Range-Ranking. automatisiert mit Hilfe von Robots, die das Web durchwandern und die gesammelten Informationen für Suchanfragen aufbereiten und katalogisieren. Darum bezeichnet man jene auch gelegentlich als WebCrawler. Generell kann der interne Aufbau einer Search-Engine in drei große Teile gegliedert werden: Der erste ist der Spider, ein spezialisierter Robot, der das Web durchschreitet, Seiten besucht, diese zur späteren Indizierung vorbereitet und dann den Links der Seite zu anderen Inhalten folgt. Die gesammelten Informationen des Spider finden schließlich im zweiten großen Teil einer Search-Engine, dem Index, Verwendung. Diesen kann man sich als einen Katalog von immensem Ausmaß vorstellen, der Informationen zu allen gefundenen Web-Seiten, den darin enthaltenen Schlüsselwörtern und etlichen weiteren Daten enthält. Dieser Index bildet die Basis für den dritten Part, das Suchwerkzeug. Diese Applikation filtert die auf eine Suchanfrage zutreffenden Daten aus dem Index heraus, bereitet diese auf und führt ein „Range-Ranking“, also eine Bewertung der Relevanz eines Treffers für die Suche, durch. Standard for Robot Exclusion Die erste Aktion, die ein Spider mit gutem Benehmen beim Besuch einer Site ausführt, ist das Auslesen der Datei robots.txt und die Befolgung der darin genannten Instruktionen. Findet er diese Datei hingegen nicht vor, nimmt er an, daß er auf der Site willkommen ist, und indiziert alle Dokumente, auf die er Zugriff erhält. Um Spider von Verzeichnissen fernzuhalten, dient die Erstellung einer solchen Datei im Stammverzeichnis der Site. Die Datei enthält einige simple Befehle, die an dieser Stelle anhand eines Beispiels näher erläutert werden: 00 # Beispiel einer robots.txt Datei 01 User–agent: * 02 Disallow: /content/temp/ 03 Disallow: /users/ 04 User–agent: Scooter 05 Disallow: /content/temp 06 User–agent: Wanderer 07 Disallow: 08 User-agent: Walker 09 Disallow: / Die erste Zeile beinhaltet einen Kommentar, der durch ein Doppelkreuz eingeleitet und vom Spider nicht interpretiert wird. In ihr sind die Robots, für die nachfolgende Restriktionen bzw. Anweisungen gelten, aufgelistet: Hier steht entweder der Name des Spider oder ein Stern, um alle Robots anzusprechen. Die Zeilen zwei und drei nennen die Verzeichnisse, deren Zutritt den Spiders untersagt ist. In Worte gefaßt, untersagt unser Beispiel allen Spiders den Zugriff sowohl auf /content/temp/ als auch auf /users. Allerdings gilt dies nicht für die Robots mit Namen Scooter, Wanderer und Walker: Der erste darf lediglich auf /content/temp nicht zugreifen, während dem zweiten sogar uneingeschränkter Zugriff gewährt wird. Walker hingegen ist der Zutritt zu sämtlichen Verzeichnissen verwehrt. internet world mai 2000 aktuelles magazin praxis info ersten Link zu einem Dokument, liest dieses und extrahiert für den Index relevante Daten. Für seinen weiteren Weg durchs Web listet der Spider alle im Dokument vorkommenden Links auf, zieht jedoch nur die in Betracht, die auf Dokumente verweisen. Grafik, Musik und alle weiteren Medien fordert der Spider erst gar nicht an. Hierin liegt unter anderem ein Grund für die außergewöhnlich hohe Effizienz in bezug auf die Geschwindigkeit dieses Robot-Typen. Schließlich folgt er dem ersten noch nicht besuchten Link des geladenen Dokuments und wiederholt die Prozedur. Enthält das Dokument keine weiteren Verknüpfungen zu anderen Dokumenten, taucht der Spider aus seiner rekursiven Schleife auf und versucht es eine Ebene höher. Auf dieser folgt er nun ebenfalls wieder dem ersten noch nicht besuchten Link. Diese Vorgehensweise wiederholt er so lange, bis er keine unbesuchten Links mehr findet und die Basisliste abgearbeitet hat. Eine Veranschaulichung der Vorgehensweise beim Durchschreiten des Web können Sie dem Diagramm entnehmen. Die Daten, die der Spider im Verlauf eines Zyklus sammelt, können zu verschiedenen Zwecken genutzt werden. In erster Linie dienen sie zur Erstellung oder zur Aktualisierung des Index. Die Daten können jedoch auch genutzt werden, um ein effizientes Range-Ranking zu ermöglichen: Spider ermitteln die test Die Tiefensuche ist das Herzstück des Robots. Mit ihrer Hilfe wird eine Durchwanderung großer Teile des anarchisch strukturierten Web erst ermöglicht: Ausgehend von einer Liste von URLs, die eine Art Grundstock für die Suche darstellt, taucht der Spider ins Web ein. Er folgt dem service Spider sind autark agierende Agenten, die ihren Dienst ohne menschliches Zutun verrichten. Die Funktionsweise basiert hauptsächlich auf einer angepaßten Form des als Tiefensuche bekannten Algorithmus. In seltenen Fällen wird an dessen Stelle auch Breitensuche verwendet. 97 praxis robots & spiders Popularität von Sites, indem sie die Links zählen, die auf diese verweisen. Generell gilt: Je beliebter die Site, desto relevanter ist sie für eine auf jene Site zutreffende Suchanfrage des Benutzers, und desto weiter oben wird sie in der Präsentation der Suchergebnisse gelistet werden. Spider indizieren in wenigen Minuten mehr Seiten, als ein Mensch an einem Tag bearbeiten kann. Der AltaVista-Spider indiziert etwa 2,5 Millionen Seiten pro Tag. Zieht man in Betracht, daß Search-Engines wie Pilze aus dem Boden sprießen, wird schnell klar, daß Spider den Web-Traffic wesentlich erhöhen. Ernsthafte Probleme können jedoch entstehen, wenn ein schlecht programmierter Spider auf einen Server zugreift und diesen mit einem Ansturm von Anfragen bombardiert. Bedingt durch die Tatsache, daß Spider vollautomatisiert sind, können sie riesige Datenmengen in kürzester Zeit anfordern. Beziehen sich diese Anforderungen jedoch auf einen einzigen Server, kommt dies oft einer Denial-of-Service-Attacke gleich (siehe IW 4/2000). Das Problem tritt auf, wenn der Tiefensuch-Algorithmus fehlerhaft programmiert ist. Dann rotiert der Spider in einer Endlosschleife, die ihn stets zu den gleichen Seiten zurückführt und den Server konstant belastet. Auch temporäre HTML-Dokumente sind ein Problem, da der Spider nicht „weiß“, daß deren Existenz im Web nur von kurzer Dauer ist und er sie somit indiziert. Wird bei einer Suchanfrage eine solche Seite gelistet und vom Benutzer angeklickt, erfolgt ein Sprung ins Leere – der entsprechende Server generiert eine Fehlermeldung. Das wohl bekannteste und weltweit akzeptierte Protokoll für gutes Verhalten von Spidern, der „Standard for Robot Exclusion“, wurde bereits 1994 von einer Gruppe von Internet-Nutzern geschaffen. Dieses Protokoll erlaubt es den Administratoren von Web-Sites, Spider von einigen oder allen Bereichen der Site auszuschließen. Zwar ist der „Standard for Robot Exclusion“ nur ein informelles Protokoll und lediglich eine Empfehlung für besuchende Spider, doch hält sich in der Regel der Großteil der Robots an diese. Detaillierte Informationen finden Sie im Kasten auf Seite 97. Prinzipiell muß zwischen zwei Varianten der Indizierung differenziert werden: In einer Volltext-Indizierung wird das gesamte Dokument durchsucht und sämtliche darin vorkommende Begriffe gesammelt. Dabei werden jedoch Wörter wie „das“, „er“ oder „ist“ nicht indiziert, da sie der Charakterisierung einer Seite nicht dienlich sind. Die Auslese findet meist mit Hilfe einer Art Wörterbuch statt, in dem solche irrelevanten Begriffe vermerkt sind. Bei einer Nicht-Volltext-Indizierung hingegen werden nur Teile des Dokuments, gewöhnlich die META-Tags, Header, Titel und/oder der erste Absatz, indiziert. Dadurch läßt sich eine Beschleunigung der Indizierung und somit eine Schonung der Ressourcen des Web-Servers, auf dem der Spider ausgeführt wird, erzielen, da schließlich nicht das ganze Dokument durchsucht werden muß. Nachteilig wirkt sich jedoch die Tatsache aus, daß viele Informationen innerhalb des Texts verlorengehen und die Indizierung des Dokuments somit weniger exakt und adäquat ist. Außerdem sind META-Tags nicht repräsentativ für den tatsächlichen Inhalt einer Seite. Viele Betreiber führen zahllose Schlüsselwörter und Schlagworte aus möglichst vielen unterschiedlichen Bereichen auf, um bei sämtlichen Suchanfragen gelistet zu werden. tip suchmaschinen So kommen Sie in Suchmaschinen auf die vorderen Plätze Der Eintrag in eine Suchmaschine ist nur dann erfolgreich, wenn Sie bei den Suchergebnissen einen der vorderen Plätze belegen. Wir zeigen Ihnen im folgenden, worauf Sie besonders achten sollten. Suchmaschinen lassen sich nicht mehr so einfach überlisten wie früher, als es genügte, einen Begriff beliebig oft in den Keywords zu wiederholen. Die Robots sind lernfähiger geworden. Es gibt jedoch immer noch ein paar Kniffe, wie Sie Ihre Plazierung positiv beeinflussen können. Dies sollten Sie tun: Verwenden Sie Keywords und Description direkt unter dem Titel der Seite. Achten Sie darauf, daß die Beschreibung 250 Zeichen und die Schlüsselbegriffe 150 Zeichen nicht überschreiten. Setzen Sie Phantom-Pixel (Größe 1 x 1, transparentes GIF) in größerer Zahl ein, und versehen Sie die ALT-Tags mit den wichtigsten 98 internet world mai 2000 Keywords Ihrer Seite. Plazieren Sie die Pixel möglichst unauffällig. Der Einsatz von Headline-Tags anstelle von Überschriften in größerer Schriftart unterstreicht die Relevanz der Titel gegenüber Suchmaschinen. Überprüfen Sie die Keywords Ihrer Konkurrenten, und adaptieren Sie diese, wo es sinnvoll erscheint. Melden Sie die wichtigsten Seiten Ihrer Site zur Sicherheit noch einmal manuell bei den Top-10-Suchmaschinen an, und wiederholen Sie diesen Vorgang bei Veränderungen an den Inhalten. Dies sollten Sie tunlichst vermeiden: Sie sollten bei Ihren Aktion allerdings auch die entsprechende Sorgfalt walten lassen, da die Robots oftmals Kontrollmechanismen integriert haben. Auf folgende Umstände reagieren sie ziemlich allergisch, unter Umständen droht sogar der Rauswurf aus der Suchmaschine: Wiederholen Sie keine Begriffe in Ihren Schlüsselbegriffen. Verwenden Sie keine unsichtbaren Texte (Text in Hintergrundfarbe), in denen die wichtigsten Begriffe mehrfach wiederholt vorkommen. Plazieren Sie keine unzutreffenden Schlüsselbegriffe wie „Pamela Anderson“ auf Ihrer Seite, um ein besseres Suchergebnis zu erzielen. Setzen Sie keine „Redirect“- oder „Refresh“Seiten ein, die die Relevanz Ihrer Schlüsselbegriffe steigern. Tips im Internet: Unter http://accusubmit.com/ secrets/engines.html finden Sie eine Übersicht einiger großer Suchmaschinen, wie diese Ihre Seiten untersuchen und was Sie im speziellen dabei beachten sollten. Wenn Sie Ihre Seite aktuell auf Plazierungen testen wollen, unterstützt Sie z. B. http://www.scorecheck.com bei Andreas Hitzig Ihren Überprüfungen. aktuelles Rekursive Vorgehensweise des Spider magazin � <Link> � <Link> � � � <Link> <Link> � te, in der dieses Wort fünfmal auftaucht, weiter oben aufgeführt werden als eine, in der es nur einmal vorkommt. Eine komplexere Methode des RangeRankings ist die Ermittlung der Zahl der Seiten, die auf ein spezifisches Dokument verweisen. Je populärer eine Seite ist, desto höher wird sie eingestuft. � � praxis 쐅 � Selbstverständlich sind diese Mechanismen nur Basistypen des Rankings. Die Funktionsweise läßt sich beliebig verfeinern und kombinieren. So ziehen beispielsweise einige der zeitgemäßen Suchmaschinen beim Zählen der Worthäufigkeiten auch die Schriftgröße des entsprechenden Wortes in Betracht.= Cai Ziegler internet world mai 2000 test Das Range-Ranking dient zur Bewertung der Relevanz einer Seite. So werden Seiten, deren Relevanz für den entsprechenden Suchbegriff hoch eingestuft wurde, bei einem Treffer weiter oben gelistet als niedrig bewertete Seiten. Bei der Erstellung der Treffer-Listen spielen zwei verschiedene Range-Ranking-Mechanismen eine größere Rolle. Der erste beschränkt sich darauf, die Worthäufigkeiten innerhalb eines Dokuments als Kriterium für das Ranking zu nutzen. Bei einer Suche nach dem Begriff „Dijkstra“ würde in diesem Fall eine Sei- info service Der dritte große Part einer Suchmaschine widmet sich der Strukturierung der gesammelten Daten. Durch simple Datenbankabfragen können dann die gewünschten Informationen abgerufen werden. Die erstellten Indizes werden aber nicht in der Datenbank selbst gespeichert, sondern außerhalb abgelegt – aus Performance-Gründen und Platzproblemen. In der Datenbank tauchen die gesammelten Begriffe nur mit Verweisen auf die Indizes auf, in denen diese Begriffe gespeichert sind. Erfolgt nun eine Suchanfrage auf ein bestimmtes Wort, wird in der Datenbank nach diesem gesucht, alle damit verbundenen Indizes gelesen, und nach Durchführung des Range-Rankings wird dieses dann dem Surfer in Form eines HTML-Dokuments grafisch aufbereitet präsentiert. 99 praxis suchmaschinen Effektive Suche im Internet Suchmaschinen sind die Inhaltsverzeichnisse des Internet. Jede Suchmaschine hat ihre Stärken in bestimmten Bereichen. Wir zeigen Ihnen, welches Web-Trüffelschwein wofür am besten geeignet ist. Um Ihnen die derzeit gebräuchlichen Suchtechniken zu erläutern, haben wir für unseren Vergleich einige der beliebtesten deutschen und internationalen Suchmaschinen ausgewählt. Der Schwerpunkt unserer Untersuchungen lag dabei zum einen bei den Besonderheiten der Syntax der Suchmaschinen, zum anderen haben wir auch die erwähnenswerten erweiterten Funktionen eingehend unter die Lupe genommen. In der Tabelle auf Seite 82/83 können Sie die wichtigsten Befehle und Features der Search-Engines nachschlagen und vergleichen. Allgemein. Einige Standards haben inzwischen Einzug bei den Suchmaschinen gehalten. Unterstützt eine Search-Engine die Eingabe von Phrasen (siehe Übersicht), so werden zur Begrenzung entweder Hochkommas oder in seltenen Fällen, wie bei MSN-Search, der korrespondierende Menübefehl verwendet. Anders bei der Eingabe von „AND“ und „OR“. Hier kann die Eingabe eines Suchbefehls mit der Syntax „A B“ sowohl „A AND B“ als auch „A OR B“ heißen, das ist abhängig von der Suchmaschine. Im Bereich der Suche nach unterschiedlichen Medien haben die Suchmaschinen dem allgemeinen Trend Rechnung getragen. Viele klassische Suchmaschinen bieten inzwischen spezielle 80 internet world januar 2000 Selektionen, vor allen für Musik-Files wie MP3-Dateien an. AltaVista.com. Der Klassiker unter den Suchmaschinen hat die Syntax und die Funktionalität maßgeblich geprägt. Immer noch ist AltaVista im Bezug auf die Suchkriterien tonangebend. Trotz des Relaunch Ende Oktober wurde auf eine umfangreiche Oberfläche zur Eingabe verzichtet. Die interessanten Parameter werden noch immer im Eingabefeld eingetragen. So können Sie bei AltaVista den Suchraum spezifisch auf Ihre Anfrage einschränken. Dazu stehen Ihnen die Befehle url, title, mailto und link zur Verfügung. Wollen Sie beispielsweise nur Ergebnisse einer amerikanischen Regierungsbehörde, so lautet der Befehl url:gov. Ein Manko vieler Suchmaschinen ist die Aufbereitung der Ergebnisse. Hier geht AltaVista neue Wege und bietet Ihnen eigene Sortierkriterien an, die Sie in der erweiterten Suche eingeben können. Bei komplexen Suchen hilft die Schachtelung von Aussagen, die bei AltaVista perfekt funktioniert. Suchen Sie nach einem „Polo“ oder „Golf“, wollen aber keinen Sportlink angezeigt haben, so heißt die Befehlszeile (POLO OR GOLF) AND NOT SPORT. Inzwischen gibt es auch eine deutsche Variante des Suchdienstes, die unter http://www.altavista.de zu erreichen ist. Fast Search. Die nach eigenen Angaben größte Suchmaschine der Welt ist besonders hinsichtlich zweier Funktionalitäten interessant: der FTP-Suche und der MP3Suche. Auf diesen beiden Gebieten liefert der Suchdienst sehr gute Ergebnisse. In anderen Bereichen, vor allem bei der Qualität der Ergebnisse, sind noch Verbesserungen nötig, damit Fast auch die beste Suchmaschine der Welt wird. Fireball. Eine übersichtliche Oberfläche, gute Suchergebnisse und vor allem überdurchschnittlich viele Selektionsmöglichkeiten bietet die deutsche Suchmaschine Fireball. Sie können die Daten sowohl über das Menü als auch über die Befehlszeile selektieren. Neben den bereits von AltaVista bekannten Möglichkeiten kann mit Befehlzeilen wie „KEYWORDS: internet world, deutschland, magazin“ auch über Meta-Tags einer Seite selektiert werden. GO. Sind Sie auf der Suche nach Informationen über amerikanische Unternehmen oder an aktuellen Daten von unseren Übersee-Nachbarn interessiert, leistet Ihnen die Suchmachine GO gute Dienste. Sie können hier speziell in aktuellen Neuigkeiten und einer gut gepflegten info Benutzerfreundlichkeit Suchmaschinen werden immer benutzerfreundlicher. Die Selektion verläßt die Eingabe der Selektionskriterien über die Kommandozeile und bietet immer mehr Menüs an. Auch die allgemeinen Suchmaschinen reagieren inzwischen schnell auf aktuelle Trends und bieten größtenteils spezielle Suchmasken für Musik und sonstige Medien an. Zusatzdienste wie Kinderschutz und kostenlose Übersetzungsdienste sind auch immer häufiger anzutreffen. Bibliothek mit amerikanischen Unternehmen schmökern. Auf den Einsatz von AND und OR können Sie getrost verzichten, da in der erweiterten Suche alles über DropDown-Boxen eingegeben werden kann. Bei der Aufbereitung der Daten können Sie die Anzahl der Suchergebnisse und den Umfang der Beschreibung angeben – alles menügesteuert. oder speziellen Technologien, sondern auch nach deren Endungen absuchen. Als hilfreich erweist sich auch die Einschränkung nach der Art der Seiten. Sie können angeben, ob Sie nur die Einstiegsseiten einer Homepage wünschen oder bis zu welcher Ebene der Site noch ein Suchergebnis angezeigt werden soll. che, Relevanz, Suchbereich und Kataloge für Ihre Bedürfnisse personalisieren. Es werden 38 Sprachen zur Auswahl angeboten und auch die Verknüpfung mit Bild-, Ton- und Bücherarchiven verhilft bei vielen Suchanfragen zum gewünschten Ergebnis. Lycos ist eine der wenigen Suchmaschinen, bei denen Sie die Reihenfolge der Suchbegriffe festlegen können. aktuelles magazin HotBot bietet eines der umfassendsten Menüs zur Selektion von Seiteninhalten – ein Mausklick genügt praxis Klassiker AltaVista: Auf ausufernde Suchmenüs hat man verzichtet – alle Befehle werden ins Eingabefeld eingetragen, zusätzlich gibt es noch Sortieroptionen URLs Suchmaschinen AltaVista – http://www.altavista.com Fireball – http://www.fireball.de GO.COM – http://www.go.com HotBot – http://www.hotbot.com Fast Search – http://www.alltheweb.de Lycos.de – http://www.lycos.de MSN – http://www.msn.de Northern Light – http://www.northernlight.com stand aus einem Forschungsprojekt der Stanford Universität. Durch einen neuen Ansatz der Bewertung von Suchergebnissen schafft es die Suchmaschine, zum Teil überdurchschnittlich gute Suchergebnisse zu liefern. Interessant ist die Suchmaschine besonders für Linux-Anwender, da eine spezielle Suchvariante direkt auf verschiedene Ressourcen des Betriebssystems zugreift. Andere Varianten durchsuchen speziell die Seiten der US-Behörden und der Stanford Universität. MSN-Suche. Neben einem Nachrichtendienst in Zusammenarbeit mit dem ZDF hat sich die MSN-Seite inzwischen auch zu einer interessanten Suchmaschine gemausert. Die Qualität der Suchergebnisse kann sich sehen lassen und über die Expertensuche können Sie Inhalte einer Seite wie Bilder, Videos oder Musikdateien direkt selektieren. Northern Light. Das Nordlicht bietet nicht nur eine allgemeine Suche im Internet an, sondern betrachtet die Inhalte auch unter bestimmten Gesichtspunkten. Sie Lycos.de. Beim deutschen Ableger von können Ihre Anfragen bei dieser SuchmaLycos steht Benutzerfreundlichkeit an schine in den Bereichen Business, Investoberster Stelle. Mit der Profi-Suche könment Research und Stock Quotes starten. nen Sie Ihre Eingabe in den Bereichen SpraLetzteres liefert Ihnen aktuelle Börsendaten, in den Investment Researches finden Sie Wirtschaftsberichte von Unternehmen und kostenpflichtige Interpretationen von Experten. Sind Sie an Daten eines speziellen Unternehmens interessiert, verhilft Ihnen die „Business“-Suche schnell zu den richtigen Links. Damit Sie Aus einem Forschungsprojekt der Universität aufgrund allgemeiner FirmenStanford ist die Suchmaschine Google entstannamen nicht irregeleitet werden. Sie liefert Suchergebnisse ohne Werbung den, können Sie zusätzlich noch die entsprechende BranDie deutsche Suchmaschine Fireball bietet bei che des gesuchten Unternehder Auswahl der Inhalte sehr detaillierte Selektimens angeben. onsmöglichkeiten, leider noch innerhalb der Kommandozeile = Andreas Hitzig internet world januar 2000 service der Kommandozeilen-Eingabe zu einer weitgehend menügesteuerten Eingabemaske übergegangen und hat in diesem Bereich auch noch immer die Spitzenposition inne. Sie können die Inhalte der Seiten nicht nur direkt nach Mediendaten test Google. Die Suchmaschine Google entHotBot. HotBot ist bereits recht früh von 81 Zum Herausnehmen: Suchen für Profis Alle Suchoptionen der wichtigsten Suchmaschinen Name Acoon Aladin Allesklar AltaVista.com Crawler Eule Excite.de Fast Search Fireball www. acoon.de www. aladin.de www. allesklar.de www. altavista.com www. crawler.de www. eule.de www. excite.de www. alltheweb.com www. fireball.de Suche nach allen Wörtern Suche nach mindestens einem Wort Eingabe einer Frage Sortierung nach Domains (Advanced Search) variable Anzahl Suchergebnisse/Seite UND +A +B AB A AND B A AND B AB +A +B A AND B A AND B A UND B ODER AB A ODER B A OR B A OR B A OR B AB A OR B Menü A ODER B NOT -B NOT B -B NOT B NOT B NICHT B NEAR A NEAR B A NEAR B komplettes Dokument automatisch Menüoption automatisch automatisch automatisch automatisch automatisch automatisch Titel Menüoption title:Begriff title:Begriff Web-Adresse Menüoption url:Adresse url:Adresse eMail-Adresse mailto:Adresse mailto:Adresse Meta-Begriffe keywords: Begriff Links link:Hostname link:Hostname Domains domain:DE domain:DE Applet applet:Name applet:Name Bild Menü image:Name Audio/MP3 Menü Video Menü Wildcard inter* inter* inter* inter* inter* inter* Phrase „internet world“ „internet world“ „internet world“ „internet world“ Menü „internet world“ „internet world“ URL Allgemeine Einstellungen logische Operatoren Suchbereiche Sonstiges Zusammenfassung (A OR B) AND C (A OR B) AND C Sortierung nach Relevanz k. A. nach Relevanz frei wählbar k. A. nach Relevanz nach URL oder Relevanz eigene Logik nach Position, Frequenz und Distanz Sonderfunktionen Börsenkurse Firmensuche Suche nach PLZ und Ort, max. 500 Family Filter für jugendgefährdende Inhalte, Übersetzungsservice Verschiedene Ausgabemodi: Titel, Standard, Detail Auswahl des FTP-Search Suchraums: weltweit, Europa, deutscher Sprachraum = ja, = nein 82 internet world januar 2000 Suche nach Rubriken, Live-Suche Suchmaschinen-Poster Go Google HotBot Kolibri Lycos.de MSN-Search Northern Light Web.de Yahoo.de www. go.com www. google.com www. hotbot.com www. kolibri.de www. lycos.de search. msn.com www. northernlight.com www. web.de www. yahoo.de A AND B A AND B A AND B Menü A AND B A AND B A AND B +A +B A +B A OR B A OR B Menü A OR B A OR B A OR B AB AB NOT B NOT A NOT A NOT B -B -B -B -B A NEAR B automatisch automatisch Menü automatisch automatisch automatisch automatisch automatisch automatisch title:Begriff Menü Menü title:Begriff Menü t:Begriff url:Adresse Menü Menü Menü Menü url:Adresse Menü u:Begriff eigene Suche Menü Menü link:Hostname link:url Menü Menü Menü Menü Menü Menü Menü Menü Menü Menü Menü Menü Menü Menü Menü Menü Menü Menü Menü inter* inter* inter* inter* inter* inter* inter* inter* inter* „internet world“ „internet world“ „internet world“ „internet world“ Menü „internet world“ „internet world“ „internet world“ (A OR B) AND C (A OR B) AND C (A OR B) AND C (A OR B) AND C (A OR B) AND C nach Relevanz nach Relevanz k. A. nach Relevanz oder Aktualität nach Domänen k. A. nach Relevanz oder Datum k. A. nach Kategorien Suche nach Rubrik : Web, Topics, News, Companies u. Newsgroups, Kinderfilter, Suche innerhalb Ergebnismenge Suche bei US-Regierung, Stanford Uni und Linux Umfangreiche Fun-Suche Suchkriterien: Sprache, Alter Dokumente, Dokumentinhalte, Suchtiefe, verwandte Begriffe Kindersicherung Suchraum eingrenzbar, Erzeugungsdatum, Inhalt selektierbar Suche nach Speicherung COMPANY, umfang- von Such-Layout reiche Menüselektionen zur Beschränkung der Suchergebnisse Alter der Dokumente angeben internet world januar 2000 83 test suchmaschinen-vergleich Was leisten deutsche Spürhunde? Werden Suchmaschinen zunehmend zu Traffic-Generatoren für Portaldienste mißbraucht? Im zweiten großen Suchmaschinentest prüfte Internet World die Qualität der Web-Navigatoren. Liest man die Nachrichten der einschlägigen Internet-Magazine, dann könnte man meinen, die Suchmaschinen geben allmählich das Suchen auf. Die Dienstleister versuchen sich zunehmend mit Auktionen, als Community, mit privaten Homepages, als FreeMailer oder als alles zusammen (dann nennen sie sich Portal). Ihre Kernaufgabe, dem orientierungslosen Surfer beim qualifizierten Durchforsten der Internet-Landschaft zu helfen, tritt zunehmend dahinter zurück. Bereits vor einem Jahr (s. IW 7/98, S. 86) stellten wir im ersten großen Suchmaschinentest mit Verblüffung fest, daß Dokumente zu aktuellen Themen nur sehr schwer zu finden sind, und daß alle Suchmaschinen intern erhebliche Schwankungen in der Relevanz der Ergebnisse aufwiesen. Das hat sich bis heute nicht geändert. In puncto Performance sind zwar alle Maschinen besser geworden – mit Aus- 108 internet world oktober ’99 nahme von Excite, Eule und Infoseek – in Sachen Qualität der gefundenen Dokumente hat sich dagegen nicht viel getan. Angesichts der Tatsache, daß immer mehr Neulinge ins Web vordringen, die in der Benutzung von Computern wenig geübt sind, ist es geradezu fahrlässig, als Einschränkung der Suche einen Begriff wie „DE-Sites“ zu verwenden (Excite). Erstens versteht nur ein erfahrenen Surfer, was damit wirklich gemeint ist und zweitens ist der Sinn einer solchen Einschränkung kaum faßbar, denn seit wann sagt eine Top-Level-Domain wie .de etwas über den Inhalt aus? Testmethode. Wie im letzten Jahr haben wir auch dieses Mal eine Liste von zehn verschiedenen Suchanfragen abgearbeitet. Dabei haben wir die Menge der Treffer, deren Qualität und die Fehlerhäufigkeit bewertet. In allen Suchmaschinen wurden einzelne Testanfragen zu verschiedenen Tageszeiten und Wochentagen wiederholt, um auch eine verläßliche Aussage in Sachen Performance zu bekommen. Der Bewertung der Qualität der Suchergebnisse haben wir drei Kriterien zu- grundegelegt: Die Aktualität einer Information, die Relevanz der Information und die Existenz der gesuchten Begriffe. Besonders bei tagesaktuellen Themen wie zum Beispiel der Rentenreform-Diskussion ergibt sich hier eine unangenehme Spreizung. Der Suchbegriff taucht bei Standarddokumenten der ÖTV genauso auf wie in der aktuellen Wirtschaftsmeldung der Berliner Morgenpost. Im Gegensatz zur letztjährigen Recherche haben wir Zusatzdienste, die nicht zur Suche gehören, außen vor gelassen. Es geht hier nicht um die Bewertung als Portal, sondern um die reine Suchfunktion. Auch die Anzahl gefundener Dokumente spielte für uns keine Rolle, weil sie nichts über die Qualität des Ergebnisses aussagt. Wir haben pro Suchanfrage die ersten 20 gefundenen Treffer begutachtet und bewertet. Die Konsistenz der Treffer spiegelt die Menge der Links wieder, die zu einem Ziel führen. Die Relevanz zeigt die Ergebnisse, die den gewünschten oder einen passenden Inhalt haben. Negativ macht sich in der Relevanz bemerkbar, wenn eine Suchmaschine Verweise auf andere Suchmaschinen und Bücherdienste wie vor allem Amazon im Überfluß führt. Auch sollten gute Suchmaschinen in der Neun deutsche Suchmaschinen im Vergleich Suchmaschine Altavista Adresse http://www.altavista.de Funktionalität Treffer Durchschnitt 326.533 Gicht 1.919 Rezept + Kartoffelsalat 1.370 Rentenreform 2.073 Machtwort + Schröder 25.567 CD Simply Red 570.153 Film + Kevin Costner + 1.570 Paul Newman Fernsehprogramm + 260.870 Montag Stadtplan + Konstanz 31.134 Job Marketing Berlin 2.370.660 „Die Straße der 15 Ölsardinen“ Trefferquote 57,50% Komplexe Abfragen 2,3 Aktualität 2,8 Konsistenz 88% Bewertung 2,8 Komfort/Qualität klar und einfach Fireball Intersearch http://www.fireball.de http://www.intersearch.de Lycos/AOL Netfind http://www.lycos.de Infoseek http://www.infoseek.de MSN http://www.msn.de Lotse http://www.lotse.de Excite/Netcenter http://www.excite.de Eule http://www.eule.de 119.050,90 2.171 1.353 5.917 42.282 332.011 33 857,8 1.253 120 2.782 185 1.494 66 867 1.656 237 2.638 95 1.074 30 394.474,30 3.295 1.636 3.929 49.962 1.003.472 107 139,5 215 15 513 41 17 10 nicht zu ermitteln nicht zu ermitteln nicht zu ermitteln nicht zu ermitteln nicht zu ermitteln nicht zu ermitteln nicht zu ermitteln nicht zu ermitteln nicht zu ermitteln nicht zu ermitteln nicht zu ermitteln nicht zu ermitteln nicht zu ermitteln 14 58.443,90 434 18 1.163 8 94.244 530 199.270 270 402 81.930 71 nicht zu ermitteln nicht zu ermitteln 32 25.896 581.569 7 202 2.206 0 221 2.248 70 45.174 2.755.229 15 57 454 2 nicht zu ermitteln nicht zu ermitteln 13 nicht zu ermitteln nicht zu ermitteln nicht zu ermitteln 21 365.516 122.470 57,30% 2,6 1,6 94% 2,6 47,50% 2,2 1,8 94% 3,1 45% 3,5 3,2 88,50% 3,3 46% 2,5 1,8 94,80% 2,9 54,00% 4,2 3,1 93% 3 49,20% 2,9 3,8 98,50% 2,9 56,70% 2,9 2,6 93% 2,9 50,50% 3,8 4 87,80% 3,2 ok.,Suchmaske nur zusätzliche Such-Links am Fuß der Ergebnisseite Übersicht gut Seite sehr voll gut schlechte Färbung besuchter Links Ergebnisanzeige einfach,Größe und Relevanzanzeige in %, sehr gut,Anzeige der inkl.Größe,Relevanz, Datum fehlen sonst spartanisch, Fundstelle (Meta,Titel, Domain gelegentlich leere URL,Text),Anzeige mit Headlines Datum und Größe Besonderes wenig Doppler,Übersetz- Relevanz fällt schnell ab, gefundene Begriffe einige Doppler,detaillierte ung,Profisuche mit mögliche Erweiterung der werden gefärbt Suche bringt kaum Datumseingrenzung Suche auf einen Host oder bessere Ergebnisse dessen Ausschluß sind wenig hilfreich Wertung Komfort/Qualität 2,4 2,6 2,4 2,6 Geschwindigkeit Einfache Anfrage Komplexe Anfrage Wertung Geschwindigkeit Gesamtwertung Plazierung 1,9 1,9 1,9 2,4 1. Platz ok. 2,2 2,4 2,3 2,5 2. Platz 2,5 2,8 2,7 2,7 3. Platz 2,2 2,5 2,4 2,8 4. Platz ok. ok. ok. ergänzende Suchbegriffe ok. keine Farbe auf besuchten Links gut,Anzeige mit Datum, URL,Größe,Ergebnis nach Datum sortierbar ok. ok. spartanisch spartanisch keine Mengenangabe ok. der Treffer Link zur „ähnlichenSeite“ viele Doppler,nur irreführend,wahlweise Relevanz in %,Anzeige Anzeige als Titelliste oder detailiert,Standard oder mit Beschreibung nur Titel Links auf eigenen Katalog, zeigt sogar identische URLs Suche nach Domainmehrfach,detaillierte Herkunft Suche bringt keinen Unterschied stark schwankende Rele- Verknüpfungen fragwürdig, keine Suchtips, vanz,Anfrage kann direkt Bool’sche Operatoren keine Profisuche erweitert werden müssen als solche ausgewiesen werden,sonst setzt MSN automatisch AND 2,2 3 2,8 3,2 3,5 3,4 2,8 5. Platz 2,4 2,5 2,5 2,8 6. Platz 2,7 3 2,9 2,9 7. Platz 2,8 3,2 3,8 4 3,9 3,2 8. Platz 3,3 3,8 3,6 3,3 9. Platz test suchmaschinen-vergleich 110 internet world oktober ’99 test-protokoll test suchmaschinen-vergleich Intersearch zeigt nicht nur die Menge der Einzeltreffer, sondern auch deren Fundstelle an Excite liefert statt des gesuchten aktuellen Fernsehprogramms die Termine der Müllabfuhr, was auch als Wink mit dem Zaunpfahl verstanden werden kann Vorbildlich: Excite bietet dem User passende Begriffe für eine Erweiterung der Suche an sein. Für mehr allerdings nicht, da die Qualität der Übersetzung nicht ausreicht. Bei der Wiederholung der Suchen hat sich ergeben, daß die Anzahl der gefundeDas Ergebnis. Die allgemeine Schwarznen Treffer sehr schnell steigt. Wir haben seherei in Sachen Qualität von Suchmaaber die Ergebnisse der ersten Abfrage als schinen hat heute keinen Bestand mehr. Referenz aufgeführt. Der Wert ist ohnehin Zu allen Suchbegriffen wurden von allen ein theoretischer und für die Qualität der Suchmaschinen passable Ergebnisse ergefundenen Ergebnisse nicht relevant. Bei bracht. Einzig die sehr weite Einschrän„Schröders Machtwort“ aber sank die Zahl kung auf den exakten Terminus „Die der Treffer innerhalb eines Tages um ein Straße der Ölsardinen“ brachte die eine paar hundert. Innerhalb der ersten 20 Trefoder andere Maschine an den Rand der fer änderte sich nichts. Sollte die ReduktiVerzweiflung. Fast durchweg nur ausreion tatsächlich einer Bereinigung der Dachende Ergebnisse erzielten die Suchmatenbank entsprechen, wäre das sehr erschinen bei der Suche nach aktuellen Thefreulich. Näher liegt die Vermutung, daß men. Machtworte Schröders waren auch die Datenbank nicht ganz konsistente Tref1997 schon zu finden, und die Diskussion ferzahlen auswirft, denn bei jeder Suchanum die Rentenreform reicht noch weiter frage unterscheiden sich Ergebnisse auf der zurück. Hier zeigen Infoseek und MSN ein ersten Seite von denen auf der zweiten. hervorragendes Feature, nämlich die Sortierung nach Datum. Besonders bei Nachbessern muß vor allem Eule in MSN kamen brandaktuelle Dokumender erweiterten Suche – die bringt kein te auf den Schirm, die bei der normaanderes Ergebnis als die normale. Auch len Suche nicht unter den ersten 20 geLotse sollte in Sachen Benutzerführung landet waren. und Hilfe nachlegen. Enttäuschend ist Ein weiteres überraschendes Ergebdie Leistung von Excite. Beim Thema nis erbrachte die Suche nach der aktu„Gicht“ findet die Suchmaschine neun ellen Simply Red CD. Keine SuchmaMal einen Buchtip bei Amazon. Beim schine brachte einen der großen CD„Machtwort“ landen die Links eins, Händler unter den ersten 20 mit dem drei und sieben direkt im 404-Nirvana direkten Verkaufsangebot. Statt dessen und das „Fernsehprogramm für Mon– und das ist aus unserer Sicht erfreutag“ bringt an dritter Stelle schon städlich – rangieren vor allem zu diesem tische Müllabfuhrtermine. Auch InfoThema private Homepages ganz oben. seek sortiert seine Treffer nicht gut: UnAls Testsieger geht Altavista hervor. Bei ter „Gicht“ erscheint zehn Mal eine Site allen Anfragen findet die Maschine un- Durch die Kooperation mit einigen Nachrichtenanbieeines Hamburger Heilpraktikers auf ter den ersten 20 Treffern mindestens tern zeigt sich auch MSN von seiner aktuellen Seite, vor verschiedenen Free-Hostern. fünf wirklich passende Sites. Die allem, wenn man den Zeitraum eingrenzt = Frank Puscher Lage sein, identische Sites auf verschiedenen URLs zu erkennen und zu filtern. 112 internet world oktober ’99 Sucheingabe ist klar und einfach und für den Profi jederzeit mit Bool’schen Operatoren erweiterbar. Direkt dahinter rangiert Fireball. Deren Stärke liegt in der Aktualität der Dokumente. Dagegen muß sie in Sachen Performance hinter Altavista zurückstecken. Trotz der akzeptablen Leistung muß auch Altavista allerhand Kritik einstecken. Die Darstellung der Ergebnisse genügt nicht mehr dem aktuellen Stand. Man würde sich die Angabe von Dateigröße und Bearbeitungsdatum wünschen. Die Relevanz spielt keine besondere Rolle. Auch die Links zur weiterführenden und ergänzenden Suche vermißt man schmerzlich. Alternativ dazu bietet Altavista die Möglichkeit, Fundstellen übersetzen zu lassen. Für eine erste Übersicht über den Inhalt des Gefundenen kann das sinnvoll magazin suchmaschinen Nackte Tatsachen Die Betreiber von Suchmaschinen stecken in der Klemme. Lassen sich mißliebige Suchergebnisse per einstweiliger Verfügung unterdrücken? Dürfen Werbebanner nach markenrechtlich geschützten Schlagworten verkauft werden? M Es war ein schwarzer Tag im Leben der Christie Hefner, Tochter von Hugh Hefner und mittlerweile Chefin des Playboy-Imperiums. Ihre Firma hatte geklagt – gegen die Suchmaschinenbetreiber Excite und Netscape – und schließlich verloren. Im Gerichtsverfahren ging es vor allem um die Frage, ob Suchmaschinen legal handeln, wenn sie zu bestimmten Schlagworten Werbebanner einblenden, die sie vorher an die zahlungskräftige Kundschaft verhökert hatten. Im konkreten Fall hatte Excite Werbebanner verkauft, die bei den Suchbegriffen „Playboy“ und „Playmate“ eingeblendet wurden. Playboy sah darin einen klaren Verstoß gegen das Markenrecht und klagte auf Unterlassung. Beklagter im Rechtsstreit war gleichzeitig auch Netscape, die im Netcenter den Suchservice von Excite benutzen. Das Gericht schmetterte die Klage ab. Nach Ansicht von Rechtsexperten ist das Urteil für die Suchmaschinenbetreiber nur ein Pyrrhus-Sieg und noch lange kein Grund aufzuatmen. Das Gericht hat es nämlich versäumt klarzustellen, ob der Verkauf von eingetragenen Markennamen als Suchbegriff an einen Dritten eine generelle Verletzung des Markenrechts darstellt oder nicht. Es entschied, daß „Playboy“ und „Playmate“ allgemeine, generi- 40 internet world september ’99 »haften suchmaschinenbetreiber bei meta-tag-klau?« sche Begriffe seien und Playboy daher kein markenrechtliches Monopol beanspruchen könne. Medienanwältin Jessica Friedman: „Das Gericht befand sich in einer Zwickmühle. Hätte es für „Playboy“ entschieden, würden der englischen Sprache Begriffe geraubt, die nicht nur die Waren und Dienstleistungen von Unternehmen bezeichnen.“ Ganz anders sieht es demnach bei Wörtern aus, die nicht generischen Ursprungs sind, also beispielsweise bei Unternehmensnamen wie Microsoft, Hewlett-Packard usw. „Sun“ hingegen hätte ähnliche Schwierigkeiten wie „Playboy“. Dabei ist die Einblendung von Bannern in Abhängigkeit von Suchbegriffen bei vielen Unternehmen eine beliebte und gängige Marketingstrategie. Die Zuordnung erlaubt gezieltere Werbung und damit eine eindeutigere Einkreisung der Zielgruppe, auch ohne Benutzerprofile. Für die Suchmaschinen ist der Bannerverkauf die einzige Erlösquelle. Noch will niemand für schlechte Suchergebnisse auch nur einen Pfennig zahlen. Erst kürzlich belegte die Zeitschrift „Nature“ in einer Studie, daß Suchmaschinen mit der Indexierung der Internet-Inhalte magazin suchmaschinen überfordert sind. Nur maximal 16 Prozent des WWW würden von den Suchmaschinen-Robots erfaßt. Insgesamt katalogisieren sämtliche Maschinen zusammengenommen nur etwa 40 Prozent aller Seiten im Internet. Kein Wunder also, daß eine zahlungswillige Klientel noch nicht in Sites im Web und sind schon allein deshalb für die Werbeindustrie unerläßlich. Noch ein anderes Problem macht den Suchmaschinenbetreibern aber derzeit zu schaffen. Eine Suche nach speziellen Schlüsselbegriffen bei unterschiedlichen Anbietern bringt es an den Tag: Je nach Lust und Laune spuckt die Software die unterschiedlichsten Homepages aus. Ein Blick in die Meta-Tags oder Beschreibungstexte der aufgelisteten Seiten zeigt deutlich: Meta-Tags wimmeln nur so von Hinzu kommt die Frage, ob Suchmaschinenbetreiber nicht generell für aufgelistete Internet-Adressen haftbar zu machen sind, die mit der gesuchten Information nicht im Zusammenhang stehen. Rechtsanwalt und Online-Kenner Oliver Süme ist sich sicher (siehe Kasten): Ein Anspruch auf Unterlassung besteht durchaus auch gegen Suchmaschinenbetreiber, weil die erreichte Plazierung durch die Software des Suchmaschinenbetreibers verursacht worden sei. Da ein Unterlassungsanspruch »ein anspruch auf unterlassung besteht auch bei suchmaschinenbetreibern« Christie Hefner, Chefin des Playboy-Imperiums Sicht ist. Experten geben dennoch Entwarnung: Das Bunny-Urteil wäre selbst bei einem Erfolg des Playboy-Konzerns für die Suchmaschinenbetreiber kein Genickbruch gewesen. Die Werbeerlöse seien nicht abhängig von der Schlagwort-Verknüpfung. Suchmaschinen gehören noch immer zu den am stärksten frequentierten Markenbegriffen, in Beschreibungstexten ziehen die Betreiber alle Register, um auch den letzten Surfer auf die eigene Homepage zu locken. Bekannte Beispiele kommen von Pornoanbietern, die zum Teil auch vor Begriffen wie „Kinderpornografie“ nicht haltmachen, um ihre hartgesottene und oft zahlungswillige Klientel anzulocken. Rechtlich ist die Situation bei den Betreibern der Suchmaschinen hierzulande ähnlich unklar wie in den USA. gegenüber jedem besteht, der eine rechtswidrige Einwirkung zum einen mitverursacht hat und sie zum anderen wieder verhindern kann, müssen auch die Suchunternehmen zittern. Ähnliches gilt auch für den „Playboy“Fall. Mit dem Urteil abfinden, will sich die Heerschar der Anwälte nicht: Das Unternehmen wird Berufung gegen die Ablehnung der Unterlassungsklage einlegen. = Pit Klein Der Stein des Anstoßes: Hardcore-Banner bei Excite tip Haftung von Suchmaschinenbetreibern Rechtsanwalt Oliver Süme zum Thema: „Neben dem Verwender von rechtsverletzenden Meta-Tags kann auch gegen den Betreiber einer Suchmaschine grundsätzlich dann ein Unterlassungsanspruch bestehen, wenn die Meta-Tags noch verwendet werden und der Betreiber von diesem Verhalten Kenntnis erlangt.Schwieriger wird es dann,wenn durch dieses Verhalten erst ein guter Listenplatz erreicht wird, ohne daß Suchmaschinenbetreiber oder der Geschädigte dies mitbekommen haben und die entsprechenden Tags dann beseitigt werden,wenn der Platz erreicht und der rechtswidrige Wettbewerbsvorteil erlangt ist. Besteht dann noch ein Anspruch gegen den Betreiber der Suchmaschine auf Beseitigung der Plazierung ? 42 internet world september ’99 In diesem Fall geht es für den Betreiber der Suchmaschine nicht mehr um die Verantwortung für rechtswidrige fremde Inhalte, denn die Tags sind beseitigt und der Inhalt der gelisteten Seite ist nicht mehr rechtsverletzend. Die Haftungsregelung der vorher noch einschlägigen Regelung des §5 Teledienstgesetz ist daher nicht mehr einschlägig. Zurückzugreifen ist daher auf die allgemeinen gesetzlichen Unterlassungsregeln. Dabei gilt der Grundsatz, daß ein Unterlassungsanspruch gegenüber jedem bestehen kann, der eine rechtswidrige Einwirkung zum einen mit verursacht hat und sie zum anderen wieder verhindern kann. Die erreichte Plazierung ist hier durch den Suchmaschinenbetreiber verursacht worden,nämlich durch den Einsatz der Software, auf der die Suchmaschine basiert und die Plazierung möglich macht. Da der Betreiber diesen Zustand auch verhindern kann, kann ein Unterlassungsanspruch gegeben sein. In der Praxis müßte dann allerdings durch den Geschädigten bewiesen werden, daß genau die erreichte Plazierung hauptsächlich auf der Verwendung eines bestimmten Meta-Tags beruht. Unter diesen Umständen kann ein Unterlassungsanspruch auch gegen den Betreiber der Suchmaschine gegeben sein.Sollte in einem solchen Fall eine außergerichtliche Einigung scheitern,können je nach Einzelfall die Voraussetzungen einer einstweiligen Verfügung gegeben sein, die dem Anspruchsteller schnellen, aber nur vorläufigen Rechtsschutz gewährt.“ SUCHEN UND FINDEN – EIN ÜBERBLICK Es existieren prinzipiell zwei völlig unterschiedliche Ansätze, um in Textdateien nach Informationen zu suchen. Grep und ähnliche Tools, welche sehr schnell eine kleine Datenmenge mit Hilfe von regulären Ausdrücken durchsuchen, und indexbasierte Werkzeuge, die typischerweise einen sehr großen Index benötigen, der generiert werden muß, bevor eine Suche stattfinden kann. Diese sind dann allerdings auch bei der Suche in sehr großen Datenmengen äußerst schnell. INFO Die wichtigsten Parameter von glimpseindex Parameter mögliche Werte -H Verzeichnis -b -o -a -d -f -X -F -i Bedeutung wo befindet sich der Suchindex? baut einen größeren Index (20-30%) baut einen mittelgroßen Index (7-9%) fügt dem Index die angegebenen Dateien hinzu entfernt die angegebenen Dateien aus dem Index fügt nur die Dateien dem Index hinzu, die sich seit dem letzten Durchlauf geändert haben extrahiert aus HTML-Dokumenten deren Titel-Tag die Dateinamen für den Index werden von Standardeingabe gelesen .glimpse_include hat Vorrang vor .glimpse_exclude internetworld juli ’99 magazin D arch) vor, ein Programmpaket zur Indizierung und zur Volltextsuche im lokalen Dateisystem, das auch bei großen Datenmengen sehr gute Ergebnisse präsentiert. Außerdem zeigen wir, wie man sich glimpse auf der eigenen Web-Site zunutze macht, ohne mächtige aber meistens auch sehr teure Suchmaschinen installieren zu müssen. praxis as Internet macht’s möglich, daß auch die aufgeräumteste Festplatte im heimischen PC nach kurzer Zeit aus allen Nähten platzt. Ein Download hier, ein interessantes Dokument dort... nur Vorsicht! Es wird erst einmal alles gespeichert und natürlich auch gleich in einem eigenen Verzeichnis verstaut, um Ordnung ins Chaos zu bringen. Doch spätestens dann, wenn ein Freund oder eine Kollegin dringend nach Rat fragen und man genau weiß, daß man erst vor ein paar Wochen genau diese Information auf Platte gebannt hat, geht die Suche los: Ein Doppelklick hier, ein Doppelklick dort, ach nein, da war doch noch das Unterverzeichnis, oder war es doch nicht hier? Spätestens jetzt wünscht man sich den berühmten kleinen Helfer herbei, der dem Gedächtnis auf die Sprünge hilft und die Suche in akzeptabler Zeit zu einem erfolgreichen Ende bringt. In diesem Artikel stellen wir glimpse (steht für GLobal IMPLicit SE- test Ob Intranet oder Internet: Informationen zu finden ist das A und O. Die Lösung heißt Suchmaschine – aber wie programmiert man eine? Indexbasierte Tools verwenden meistens sogenannte invertierte Indizes, bei denen für jedes Wort (außer natürlich Worte wie „der“, „die“, „das“, „ein“, „und“,...) vermerkt wird, in welchen Dateien es in welchen Zeilen vorkommt. Dadurch müssen bei einer späteren Suche nicht mehr alle indizierten Dateien einzeln durchsucht werden. Es genügt dann, den Index nach dem gesuchten Begriff zu durchsuchen. Da für diesen vermerkt wurde, wo er vorkommt, kann dann gezielt und dadurch sehr schnell auf die entsprechende Stelle in einer Datei zugegriffen werden. Der große Nachteil bei diesem Ansatz für den Heimanwender ist die Größe des Indizes, die typischerweise bei 50 bis 300 Prozent der indizierten Datenmenge liegt. Während dies bei den kommerziellen Suchmaschinen keine so große Rolle spielt (Plattenplatz wird immer billiger), wird man es sich zweimal überlegen, ob man dem heimischen PC eine zweite Festplatte spendiert, nur um den Index unterzubringen. Ein weiterer Nachteil eines invertierten Index ist die Tatsache, daß Suchbegriffe exakt angegeben werden müssen. Informationen mit Schreibfehlern werden nicht gefunden. Glimpse ist eine Mischung aus den beiden beschriebenen Ansätzen. Es verwendet ebenfalls einen Index, der allerdings in der Regel weniger als fünf Prozent der Ursprungsdatengröße benötigt. Die Suche berücksichtigt auch Schreibfehler, so daß auch Buchstabendreher oder vergessene Buchstaben das Suchergebnis nicht beeinflussen (den „Antrieb“ der Suchmaschine liefert agrep). Man kann glimpse auch nur die „besten“ Treffer anzeigen lassen, welches hier diejenigen mit den wenigsten Fehlern bzw. Abweichungen sind. Aufgrund der sehr kleinen Indexgröße ist glimpse langsamer als Suchmaschinen, die einen lupenreinen invertierten Index verwenden. Die Wartezeiten bewegen sich aber trotzdem bei ausgedehntem Suchen noch im einstelligen Sekundenbereich. Die kleine Indexgröße wird dadurch erreicht, daß eine zweischichtige Suche angewandt wird. Für die indizierten Begriffe wird nicht deren exakte Position vermerkt, sondern nur die Nummer des Blocks, in dem sich ein Begriff befindet. Innerhalb dieses Blocks wird dann wieder auf die „herkömmliche“ Art gesucht, um die ex- service Such!! aktuelles praxis SUCHMASCHINE 77 praxis SUCHMASCHINE ters –i, siehe Kasten). Normalerweise sind diese Einträge allerdings nicht notwendig, da glimpseindex recht gute Annahmen darüber macht, welche Dateien Index-fähig sind und welche nicht. Dies ist alles, was man an Informationen für den Anfang benötigt. Einige weitere Parameter sind im Info-Kasten beSuchergebnis für den Suchbegriff „Wettbewerb“ auf der Internetschrieben. World-Homepage – die Trefferanzahl sagt aus, wie häufig der SuchDIE WEB-SITEDie Suche auf dem begriff auf dieser Seite vorkommt SUCHMASCHINE gerade erzeugten Index Die Verwendung von glimpse besteht immer Dokumenten im Index auch deren Titel zu übernimmt das Programm glimpse selbst. aus zwei Teilen. Zuerst muß für den Bereich speichern, der dann später im Suchergebnis Die einfachste Suche sieht wie folgt aus: im Dateisystem, auf dem später die Suche wieder auftaucht. Bei der Indizierung wer- glimpse –U –H /glimpse/ersterIndex stattfinden soll, in unserem Beispiel dem den auch Unterverzeichnisse berücksichtigt. suchbegriff Standardmäßig erzeugt glimpseindex Als Ergebnis bekommen wir nun jedes ein„Document-Root“ des Web-Servers, ein Index erstellt werden. Im zweiten Teil findet den kleinstmöglichen Index. Möchte man die zelne Vorkommen von Suchbegriff in den indann unter Verwendung dieses Indizes die Suche beschleunigen, so kann man mit den dizierten Dateien. Die Sonderbehandlung Parametern –o und –b einen mittleren (7-8 von HTML-Dateien, ähnlich wie bei der Ereigentliche Suche statt. Prozent) bzw. einen großen (20-30 Prozent) Index erzeugen lassen. Im Indexverzeichnis befinden sich nun mehrere Dateien, deren Namen alHTML-Formular Weitere Infos zum le mit „.glimpse_“ beginnen. In glimpse-Paket „.glimpse_filenames“ stehen bei<HTML> spielsweise die Namen der Datei<HEAD> Das komplette glimpse-Paket können en, die indiziert wurden. FehlermelSie von http://glimpse.cs.arizona.edu <TITLE>Lokale Suchmaschine</TITLE> dungen stehen in „.glimpse_mesladen, wo es sowohl als Sourcecode </HEAD> sages“ und den Index selbst findet als auch in Binärform verfügbar ist. <BODY BGCOLOR=#FFFFFF> man in „.glimpse_index“. StanWenn Ihnen der Aufwand zu groß ist, <H1>Suche in lokaler Website</H1> dardmäßig werden alle Dateien inglimpse in die eigene Web-Site einzu<FORM ACTION=glimpse.cgi> diziert, die glimpseindex im angebauen, sollten Sie einen Blick auf WebSuchbegriff: <INPUT TYPE=TEXT name=suchbegriff> geben Verzeichnis findet. Glimpse werfen (http://glimpse.cs. <INPUT TYPE=submit VALUE=Suche Dieses Verhalten kann man arizona.edu/webglimpse). </FORM></BODY></HTML> steuern, indem man mit einem TexAufsetzend auf einem glimpse-Index teditor die Dateien „.glimpse_inist es ein Leichtes, eine komplette Site clude“ und „.glimpse_exclude“ anmit einer Suchmaske zu versehen. LeiDie Indizierung übernimmt das Programm legt. In diesen kann man angeben, welche der ist noch kein komplettes Windowsglimpseindex, welches Bestandteil des Ge- Dateien berücksichtigt bzw. nicht berückPaket von glimpse verfügbar. Die samtpakets ist. Einen ersten Index erhält sichtigt werden sollen. Zeilenweise gibt man eigentliche Suchmaschine, agrep, reguläre Ausdrücke (wie bei der Verwendung man durch den Aufruf: wurde aber bereits portiert (unter von grep-Tools) an, mit denen Dateinamen glimpseindex –X –H http://www.geocities.com/SiliconValverglichen werden. Der Eintrag „*.zip$“ in /glimpse/ersterIndex /HTMLDokumente ley/Lakes/4889/agrep.html). Damit glimpseindex erzeugt daraufhin im Verzeich- „.glimpse_exclude“ bedeutet beispielsweikönnen Sie die flexible und schreibnis/glimpse/ersterIndex einen Index aller in- se, daß ZIP-Archive nicht indiziert werden fehlertolerante Suche implementiedizierbaren Textdateien, die es im Verzeich- sollen. Einträge in „.glimpse_exclude“ haren. Es fehlt aber noch die Indexerstelnis /HTMLDokumente findet. Der Parameter ben Vorrang vor Einträgen in „.glimpse_ inlung. –X veranlaßt das Programm dazu, zu HTML- clude“ (außer bei Verwendung des Parameakte Position herauszufinden. Auch hier ist aber nicht alles Gold was glänzt. Bei Suchbegriffen, die aus mehreren Wörtern bestehen, bekommt glimpse Schwierigkeiten, wenn jedes Wort für sich sehr häufig gefunden wird, die Kombination der Wörter aber eher selten ist. In diesem Fall nähert sich die Performance eher der nicht-indizierten Volltextsuche an. Doch nun genug der Theorie. Anhand einer kleinen (aber voll funktionsfähigen) Suchmaschine für ein Web-Site werden wir jetzt eines von vielen Einsatzgebieten von glimpse in Aktion zeigen. LISTING 1 78 internetworld juli ’99 INFO aktuelles BELIEBIG ERWEITERN rigen Speicherplatzbedarfs und des unschlagbar günstigen Preises (kostenlos) ist glimpse nicht nur eine Alternative als Suchmaschine für Websites, sondern auch zur Indizierung von CD-ROMs, bisher undokumentiert auf der Festplatte liegenden Einzeldokumenten und sogar zur Indizierung von jahrelang gewachsenen und unübersichtlich gewordenen Mailboxen. Die Aussage „Ich weiß, ich habe Dir die Mail geschickt, leider weiß ich nicht mehr, wo ich sie gespeichert habe“, gehört mit glimpse endlich der Vergangenheit an. ■ Markus Schärtel magazin Natürlich kann man die Suchmaschine beliebig komplex erweitern und verfeinern. Als Ausgangspunkt Rudimentäre Suchmaske: Über dieses kleine HTML-Formular starfür eigene Versuche ten Sie die Suche auf Ihrer lokalen Suchmaschine sollte dieses kleine Beispiel aber ausreistellung des Indizes, erzwingen wir durch chend sein. Aufgrund der sehr flexiblen den Parameter –U. Damit bekommen wir Suchmöglichkeiten, der einfachen Installatinicht nur den Dateinamen, sondern eben on, der akzeptablen Performance, des niedauch den Titel des HTML-Dokuments mitgeliefert. Da man beim Suchergebnis innerhalb einer Web-Site nicht an jedem einzelnen VorDas Suchmaschinen-CGI kommen des Suchbegriffs interessiert ist, 01 #!/usr/bin/perl sondern nur an den Dokumenten, die den 02 use CGI; Suchbegriff enthalten (auch mehrfach), geben wir noch den Parameter –c mit an. glimp03 $query = new CGI; se zählt dann nur noch die Anzahl der Treffer 04 $programmAufruf = “glimpse -i -U -c -H /glimpse/ersterIndex “ . pro Dokument, liefert diese aber nicht mehr 05 $query->param( “suchbegriff” ); einzeln als Ergebnis. Das Suchergebnis hat 06 dann schließlich den folgenden Aufbau: 07 @ergebnis = `$programmAufruf`; Dateiname1 Titel1: Trefferanzahl1 08 Dateiname2 Titel2: Trefferanzahl2 09 if( scalar @ergebnis == 0 ){ Dateiname3 Titel3: Trefferanzahl3 10 Dateiname4 Titel4: Trefferanzahl4 11 } else { Dateiname5 Titel5: Trefferanzahl5 12 $ergebnis = “<ul>”; ... 13 foreach ( @ergebnis ){ ... 14 Mit diesen Grundlagen sind wir jetzt gerüstet, um unsere Suchmaschine zu realisieren. In Listing 1 ist das HTML-Formular abgebildet, welches wir verwenden, um unsere Suchparameter einzugeben – nichts Weltbewegendes, aber es erfüllt seinen Zweck. Das CGI-Gegenstück ist in Listing 2 zu sehen. In den Zeilen 4 und 5 wird der Aufruf der Suchmaschine „zusammengebaut“. In Zeile 7 findet die eigentliche Suche statt. Das Ergebnis kommt zeilenweise zurück und ist dann in @ergebnis zur weiteren Verarbeitung verfügbar. Falls der Suchbegriff gefunden wurde, wird aus jeder Zeile der Dateiname, der Titel des Dokuments und die Trefferanzahl extrahiert (Zeile 13 bis 18). Diese Bestandteile werden dann in HTML-Listenform in der Variable $ergebnis gespeichert. Von Zeile 21 an wird dann nur noch das CGI-Ergebnis ausgegeben. Fertig ist die Suchmaschine. 15 praxis LISTING 2 $ergebnis = “<B>Leider nichts gefunden</B>”; ( $url, $titel, $anzahl ) = m,/HTMLDokumente(\S*)\s+([^:]*):\s+(\d+)$,; 16 $ergebnis .= “<li>“ . “<A HREF=$url> $titel - $anzahl Treffer </A><BR>”; 18 } 19 $ergebnis .= “</ul>”; test 17 20 } 21 print <<”EOF”; 22 Content-type: text/html 23 24 <HTML> 25 <HEAD> 26 <TITLE>Lokale Suchmaschine Suchergebnis</TITLE> 27 </HEAD> 28 <BODY BGCOLOR=#FFFFFF> 29 <H1>Suche in lokaler Website: Suchergebnis</H1> 30 $ergebnis service 31 </BODY> 32 </HTML> 33 EOF internetworld juli ’99 79 praxis SUCHMASCHINEN Parallele Suche mit Meta-Suchmaschinen Oft müssen bei der Suche nach Informationen mehrere Suchmaschinen bemüht werden. Meta-Suchmaschinen nehmen die Arbeit ab und bereiten die Ergebnisse auf. eta-Suchmaschinen ermöglichen eine parallele Recherche über mehrere Engines. Dabei unterscheiden sich die verschiedenen Maschinen vor allem in der Datenaufbereitung, also der Sortierung nach Trefferrelevanz oder Ausblendung von Duplikaten. M APOLLO 7 Einer der deutschen Kandidaten ist Apollo7. Der Such-String wird in eine übersichtliche Eingabemaske eingegeben und an zehn deutsche Suchmaschinen – meist kleinere wie Lotse oder Sharelook – gesandt. Die Einstellmöglichkeiten beschränken sich auf maximale Suchzeit und Quellen. Die Treffer werden übersichtlich in Listenform ausgegeben. DOGPILE Die englischsprachige Suchmaschine Dogpile bietet umfangreiche Suchfunktionen an. Standardmäßig lassen sich 14 Suchmaschinen befragen. Die benutzerdefinierte Suche erweitert die Abfrage auf Usenet, FTP-Archive, News, Suchmaschinen und weitere Quellen. Leider werden die gruppierten Ergebnisse lieblos ausgegeben. HIGHWAY 61 Highway 61 ist die etwas andere Suchmaschine. Die Feldbeschreibungen sind witzig formuliert, die Ergebnisse werden mit einem Relevanzfaktor versehen und danach gruppiert. Bei der Ausgabe läßt sich festlegen, ob geklickte Links im selben Browser-Fenster oder in einem neuen betrachtet werden. INFERENCE FIND Der Suchumfang von Inference Find ist mit fünf Suchmaschinen nicht überwältigend – die großen sind aber dabei. Ergebnisse werden in Listenform, aber nicht immer nachvollziehbar sortiert. Interessant für Homepage-Besitzer: Per HTML-Code läßt sich ein Eingabefenster in jede Web-Page integrieren. Die Suchmaschine ist mit einer mehrsprachigen Oberfläche ausgestattet. An der deutschen Seite sollten die Betreiber allerdings noch ein wenig arbeiten. INTERNET SLEUTH Internet Sleuth behauptet, auf 3.000 Datenbanken zurückgreifen zu können. Für die direkte WWW-Suche werden sechs Maschinen genutzt. Daneben stehen – ähnlich Dogpile – Suchmöglichkeiten in News-Diensten, Software-Archiven und Usenet-Datenbanken zur Verfügung. Interessant: Eine Kategorienliste kann die Suche auf bestimmte Themengebiete einschränken. Meta-Suchmaschinen: Alle Kandidaten im Überblick Name URL Suchmaschinen Apollo 7 www.apollo7.com Nathan, Eule, Lotse, Sharelook, Netguide, Hotbot, Sternchen, Jesus.de, Medizin.de, Paperboy Einstellmöglichkeiten Timeout, Suchmaschinen Listaufbereitung Gruppierung nach Ergebnissen Listaufbereitung, gruppiert bewertete Listausgabe nach Suchmaschinen bool’sche Operatoren +/– Phrasen Besonderheiten AND, OR p k. A. deutsche Suchmaschine, Spion AND, OR, NEAR P P Suche über Usenet, FTP, News Wires, Stock Quotes, Yellow Pages, White Pages, Maps, Weather 74 internetworld april ’99 Dogpile Highway 61 www.dogpile.com www.highway61.com Altavista, Excite, GoTo.com, Lycos, Yahoo, Excite, Infoseek, Lycos, Lycos’ a2z, Infoseek, WebCrawler Yahoo, Thunderstone, Excite Guide Search, Mining Co., What U Seek, Magellan, WebCrawler – Trefferanzahl, Timeout, Linkausgabe in neuem Fenster möglich P, über Menü P p originell gestaltete Suchmaschine Inference Find www.ifind.com Altavista, Excite, Infoseek, Yahoo, WebCrawler Internet Sleuth www.isleuth.com Altavista, Excite, Infoseek, Lycos, WebCrawler, Yahoo Mamma www.mamma.com Yahoo, Excite, Infoseek, Lycos, WebCrawler, Altavista, Hotbot p Timeout, Suchmaschinen Listaufbereitung über gefundene URLs, Bewertung der Ergebnisse AND, OR P P Anleitung zum Einbau der Suchmaschine in eigene Homepage gruppiert nach Suchmaschinen Timeout, Anzahl Ergebnisse/Seite, Anzeige Zusammenfassung, Suche über Seitentitel sortiert nach Trefferrelevanz P P k. A. Suche über Reviews, News, Software, Usenet P P P Suche über Usenet, News, Stock Quota, MP3, Bilder, Sounds Als einziger Kandidat im Überblick gibt Metafind die maximale Trefferzahl pro Suchmaschine vor. Dafür bietet Metafind eine vorbildliche Auswahl an Optionen zur Listenaufbereitung. Als einzige Suchmaschine lassen sich die Sortierkriterien wie Schlüsselworte oder URL direkt wählen. Diese Möglichkeiten entschädigen für die etwas karge Eingabemaske. METACRAWLER (GO2NET) Die umfangreichen Einstellmöglichkeiten von Go2Net werden direkt auf der „Personal“-Seite knapp und verständlich beschrieben. Go2Net bietet vor allem bei der Aufbereitung der Ergebnisse einige interessante Einstellmöglichkeiten. Neben maximaler Trefferzahl pro Suchmaschine lassen sich auch die Anzahl der Resultate pro AusgabeSeite angeben. Die Ergebnisse werden mit einem Relevanzfaktor versehen und sortiert in einer Liste ausgegeben. Hervorzuheben ist noch die Möglichkeit, die Einstellungen zu speichern. METAGER Die deutsche Suchmaschine MetaGer liefert mit Abstand die detailliertesten Einstellmöglichkeiten. Besonders gelungen ist die Kontrolle der Treffer vor der Ausgabe. Tote Links haben so keine Chance. MetaGer bezieht neben deutschen Suchmaschinen auch englischsprachige mit ein. METAGOPHER Als einzige Meta-Suchmaschine versucht MetaGopher anhand von Schlüsselbegriffen bei Bedarf jugendgefährdende Informationen auszufiltern. Die Suchtiefe kann manuell bestimmt werden: Nur Treffer, die oberhalb der bestimmten Hierarchiestufe auf der Web-Site abgelegt sind, werden angezeigt. aktuelles Die „Mutter aller Suchmaschinen“ (Eigenwerbung), bietet umfangreiche Quellen zur Suche an. Neben der Recherche in klassischen Suchmaschinen kann auch gezielt im Usenet und in News-Archiven gesucht werden. Interessant für Musik-Freaks dürfte die direkte Suche von MP3-Stücken sein. Außergewöhnlich ist außerdem die Selektion von Bildern und die Auswahl der zu befragenden Suchmaschinen per Menü. Zur besseren Übersicht werden die ermittelten Ergebnisse nach Relevanz bewertet und sortiert. Die ermittelten Ergebnisse können auf Wunsch mit einem Relevanzfaktor versehen und anhand dieser Information sortiert werden. Homepage-Besitzer können die Suchmaschine in ihre Site integrieren. SAVVY SEARCH Die Konfiguration von Savvy Search erinnert stark an einen Fragebogen. Die Optionen der Suchmaschine werden mit einem Relevanzfaktor zwischen eins und fünf gewichtet. Die Einstellungen lassen sich speichern. Bei der Auswahl der Suchmaschinen geht Savvy Search einen eigenständigen Weg: Zunächst fragt die Software vier Engines ab. Reichen diese Resultate nicht, können per Klick die nächsten vier Maschinen angefragt werden. magazin METAFIND SUCHEN.COM Die dritte deutsche Suchmaschine im Überblick bietet wie MetaGer eine Kombination aus englischsprachigen und deutschen Suchmaschinen. Die Suchergebnisse werden in einer Liste aufbereitet, doppelte Ergebnisse aussortiert. Bei der Auswahl der Suchmaschinen läßt Suchen.com sowohl im nationalen, als auch internationalen Bereich nahezu keine Wünsche offen. M Andreas Hitzig praxis MAMMA Metacrawler www.metacrawler.com Altavista, Excite, Infoseek, Lycos, WebCrawler, Yahoo, Thunderstone, LookSmart, Mining Co. Metafind www.metafind.com Altavista, Excite, Infoseek, PlanetSearch, WebCrawler MetaGer meta.rrzn.uni-hannover.de Dino, web.de, Yahoo (dt), Hotbot, Fireball, Altavista, Crawler.de, Hotlist, Allesklar, Nathan, Netguide, Lycos, Gerhard, Uni-Hannover MetaGopher www.metagopher.com Infoseek, Yahoo, Altavista, Excite, Lycos, Magellan, Hotbot, WebCrawler SavvySearch www.savvysearch.com Lycos, WebCrawler, Goggle, Thunderstone, DirectHit, NationalDirect, Excite, Altavista, Infoseek, HotBot, Galaxy Timeout, Anzahl Ergebnisse/Seite, Ergebnisse/ Suchmaschine Timeout, Erläuterung zu Seiten anzeigen, Sortierkriterien für Ergebnis sortiert nach Benutzervorgabe Timeout, Anzahl Ergebnisse/ Seite, Linkprüfung Erläuterung zu Seiten, Filter für jugendgefährdende Inhalte, Suchtiefe in Seiten sortiert nach Trefferrelevanz Priorität der einzelnen Suchmaschinen P P P Speicherung der Einstellungen möglich P P P festgelegte Anzahl von Ergebnissen pro Suchmaschine sortiert P p Prüfung der Links, Suche in dt. Usenet, Suchbegriffe auf URLs überprüft P P P umfangreiche Einstellmöglichkeiten – speicherbar sortiert nach Trefferrelevanz Zusammenfassung der Ergebnisse, Eliminierung von Doubletten, Kurzinfos zu Ergebnissen P P P P P P verfügbar in mehreren Sprachen, um- Suche über deutsche und amerikanische fangreiche Einstellmöglichkeiten Suchmaschinen speicherbar, viele weitere Suchmöglichkeiten über News, Shareware, Usenet, Magazine, eMail-Adressen etc. internetworld april ’99 75 service sortiert nach Trefferrelevanz Suchen.com www.suchen.com Crawler, Yahoo (dt./engl.), Excite (dt./engl.), Lycos (dt./engl.), Spider, web.de, Nathan, Eule, Dino, Aladin, Intersearch, Interfux, Lotse, Allesklar, Hotlist, Altavista, NothernLight, Infoseek, Hotbot, GoTo.com, WebCrawler, ThunderStone Timeout, Anzahl Treffer test ÜBERSICHT die Sie über den dargestellten Teil einer HTML-Seite und deren Quelltext durchführen können. Bei bestimmten Recherchen ist es sinnvoll, nur einen bestimmten Teil einer Seite zu durchsuchen. Benötigen Sie ein Bild zu einem bestimmten Thema oder einer bestimmten Person, können Sie mit Hilfe des Image-Begriffs Ihre Suche einschränken: image:gates sucht nach Bildern des Herrschers über das MS-Imperium. Gerade für Homepage-Besitzer ist es wichtig zu wissen, angestelltes „O“ gekennzeichnet: OADJ, ONEAR und OFAR. Suchen Sie beispielsweise einen englischen Text über Rennautos und definieren Sie den Suchstring mit „race ADJ car“, so werden auch Seiten gefunden, die den String „car race“ enthalten – „race OADJ car“ schließt die ungewollten Ergebnisse aus. Bei den Befehlen können Sie zusätzlich noch den Abstand der Wörter definieren, der maximal bestehen darf. LYCOS INTERSEARCH Die deutsche Suchmaschine Lycos (http://www.lycos.de), die, von den USA aus agierend, inzwischen weltweit elf Niederlassungen besitzt, bietet neben der gewohnten Standardfunktionalität eine Erweiterung der Befehle ADJ, NEAR und FAR an. Damit können Sie neben der Position der angegebenen Begriffe auch noch deren Reihenfolge bestimmen. Die Befehle werden durch ein vor- Intersearch (http://www.intersearch. de) hat seine Zusatzfunktionen als Datenbank-Selektoren definiert. Mit denen können Sie Ihre Suche auf Titel, Meta-Bschreibungen, HTML-Text, eMailAdressen oder URLs einschränken. Gerade bei professionell gestalteten Seiten finden sich die maßgeblichen Inhalte in einer Reihe von Meta-Tags zusammengefaßt und können zur konkreten Suche verwendet werden. Wenn Sie Hotbot bietet neben grellem Design umfangreiche nach Seiten suchen, die als Schlüssel- Suchoptionen, die vor allem Metainformationen einbegriffe „Bug“ und „IE“ haben, sieht der beziehen – so läßt sich gezielt nach Informationen Suchstring wie folgt aus: +META:Bug suchen, die im HTML-Code verborgen sind +META:IE. Auch die Suche nach einer eMail-Adresse, die auf einer Seite verwendet ob Ihre Seiten in vielen anderen Seiten als wurde, gestaltet sich einfacher: EMAIL: Link angeboten wird. Fireball liefert Ihnen [email protected] diese Informationen mit dem String link: Titel geben einen Überblick über den In- <Web-Server>, beispielsweise link:internethalt einer Seite. Das Schlüsselwort TITLE be- world.de für den Server dieses Magazins. schränkt die Suche auf die TITLE-Tags einer Beim Surfen im Internet kommt es mitunHTML-Seite, TITLE:„Internet World“ liefert ter vor, daß der Surfer von einer Seite zur anSeiten, in denen „Internet World“ vorkommt. deren springt und sich danach nicht mehr genau an den Namen einer speziellen Site erFIREBALL innern kann, die er besucht hat. Wer sich Die Spezialität der Suchmaschine Fireball noch an einen Teilstring, wie „internet“ und (http://www.fireball.de) ist die Feldsuche, die TLD „com“ erinnert, den sollte der test er richtige Suchstring ist der Schlüssel zur erfolgreichen Suche im Internet. Wir zeigen Ihnen in dieser Folge die unbekannten oder selten eingesetzten Spezialfunktionen der wichtigsten internationalen Suchmaschinen sowie der Testsieger aus IW 7/98. Den kompletten Befehlssatz der vorgestellten Suchmaschinen finden Sie im Anschluß an diesen Artikel auf unserem Miniposter. D aktuelles magazin Im ersten Teil des Workshops wurde die Grundfunktionalität der Suchmaschinen durchleuchtet. Viele Suchmaschinen bieten weiterführende Funktionen an, die das Suchen erheblich erleichtern und effektiver gestalten. internetworld februar ’99 59 praxis effektiv einsetzen (2) intranet Suchmaschinen service praxis SUCHMASCHINEN Die Suchmaschine Lycos setzt bei ihrer Oberfläche besonders auf vielfältige Einstellmöglichkeiten – Sie können über eine grafische Oberfläche viele Angaben zur Suche und Ergebnisaufbereitung machen Suchstring url:internet AND domain:com zum gewünschten Ergebnis führen. EXCITE Auch Excite (http://www. excite.de) erreichte beim Test der IW noch ein befriedigendes Ergebnis, bietet jedoch im Hinblick auf Zusatzfunktionen keine allzu großen Möglichkeiten. Hilfreich ist höchstens die Einschränkung der Suchmenge, die Ihnen die Auswahl zwischen dem gesamten Bereich des WWW, europäischen oder deutschen Seiten bietet. Zusätzlich können Sie auch noch Nachrichten aus dem Usenet mit in Ihre Suche einbeziehen. Ganz passabel ist die Aufbereitung der Informationen – interessant ist hier vor allem die Funktion der ähnlichen Sites. Zu jedem Suchergebnis bekommen Sie neben der Prozentanzahl auch noch die Möglichkeit, auf Basis der Informationen einer Seite direkt eine neue Suche zu starten. Auch so kommen Sie manchmal ans Ziel. Gerade die internationalen Suchmaschinen bieten eine größere Datenbank und damit weitreichendere Möglichkeiten der Suche. So bieten beispielsweise die drei populären Suchmaschinen Altavista, Hotbot und Infoseek eine Reihe interessanter Möglichkeiten, wie Sie sich effektiver durch die Informationsflut wühlen können. HOTBOT Mit einer beeindruckenden Vielfalt an Optionen wartet die Suchmaschine HotBot (http://www.hotbot.com) auf. Diese Funktionalität ist vor allen für Programmierer und Designer interessant, da Sie damit gezielt nach bereits bekannten Realisierungen suchen und darüber Ansätze für Ihre eigenen Projekte finden können. Über den Meta-Be60 internetworld februar ’99 griff feature läßt sich nach Zusätzen einer Seite suchen: Applets, Flash Plug-Ins, Shockwave-Dateien oder Audio-Dateien sind nur einige. Der Syntax ist simpel gehalten: feature:<object>, für ActiveX Controls also feature:activex. Hilfreich ist auch die Funktion depth:<tiefe>, mit der Sie die Suchtiefe innerhalb von Seiten angeben können. Wollen Sie lediglich Informationen anzeigen, die sich im Root-Verzeichnis der Site befinden oder im ersten unterordnet, so geben Sie als Tiefe 2 an. Mit dem Meta-Begriff scriptlanguage:[VBScript|JavaScript] können Programmierer nach eingesetzten Scripts suchen und sich damit schnell Lösungen im Web betrachten. Sind Sie auf der Suche nach Nachrichten, die innerhalb der letzten Tage ins Netz gesetzt wurden, können Sie über within:number/unit einen konkreten Zeitraum angeben. Suchen Sie beispielsweise nach aktuellen Informationen zu Bill Gates zweitem Kind, werden Sie mit +„Bill Gates“ +child within:1/month sicher fündig. Sie können die Seiten sogar mit konkreten Daten einschränken: „Bill Gates“ +child AND before:31/12/98 AND after 1/12/98 chen. Interessieren Sie sich also für Seiten, die über den Text „Internet World“ angesteuert werden, hilft Ihnen der Suchstring anchor:„internet world“. Hilfreich ist auch die Funktion host:name. Wer kennt nicht die Situation: Sie erinnern sich noch genau an eine Web-Site, auf der Sie eine interessante Seite gesehen haben. Nachträglich finden Sie diese Seite aber nicht mehr. Hier hilft Ihnen Altavista: Sie geben wie gewohnt Ihre Suchbegriffe ein, beschränken die Suche aber auf einen Rechner wie host:www.microsoft. com. Eine hilfreiches Feature ist auch die automatische Übersetzung. Zwar kommen teilweise merkwürdige Konstrukte dabei heraus, für einen Überblick reicht es aber. INFOSEEK Der deutsche Ableger konnte im IW-Test nicht glänzen. Der große Bruder aus Amerika (http://www.infoseek.com) besitzt aber eines der größten Archive der Welt inklusive einiger interessanter Funktionen und wurde deswegen hier aufgenommen. Infoseek kategorisiert die Seiten in einem internen Index, der auch für die Suche genutzt werden kann. Wenn Sie beispielsweise aus der Rubrik Internet näheres über Suchmaschinen wissen wollen, geht das über eine Pipe: RuALTAVISTA brik|Unterrubrik, also internet|„search engiAuch der Klassiker Altavista (http://www. ne“. Infoseek speichert auch alle Informaaltavista.com) hat einiges zu bieten. Eine tionen, die in den ALT-Tags des HTML-Quelltexts angegeben wurden. Gerade bei BilFunktion, die wir bis jetzt in keiner andedern bietet dieses Vorgehen eine inren Suchmaschine gefunden haben teressante Alternative zum Metaist „anchor“. Damit lassen sich befehl „link“ an. Texte der Hyperlinks untersuIn den vorangegangenen Beispielen konnte nicht auf alle Funktionen der Suchmaschinen eingegangen werden. Der folgende Überblick liefert aber eine komplette Übersicht der Befehle und soll helfen, schneller zu den gewünschten Informationen zu kommen. Wenn Sie auf weitere Funktionen bei Suchmaschinen stoßen, mailen Sie einfach an: Bei der Ausgabe ordnet Excite den gefundenen Seiten jeweils eine mail @internetworld.de, Relevanz in Prozent zu – Interessant ist bei dieser Suchmaschine Betreff: Search-Engine. auch die Verzweigung auf verwandte Seiten, die eine neue Suche ■ Andreas Hitzig auf Basis der angeklickten Seite startet miErweiterte Suchfunktionen der Search-Engines URL Lycos www.lycos.de Intersearch www.intersearch.de Fireball www.fireball.de Excite www.excite.de Altavista www.altavista.com HotBot www.hotbot.com Infoseek www.infoseek.com Allgemeine Einstellungen Suche nach allen Wörtern V V V V V V V Suche nach mind. einem Wort V V V V V V V Eingabe einer Frage V p p p V V p Eingabe einer Phrase V V V V V V V Sortierung nach Domains V p p V V V V variable Anzahl Suchergebnisse/Seite V p p V V V V A AND B +A +B A AND B +A +B A AND B A&B A AND B +A +B A AND B +A +B A AND B A&B A AND B +A +B ODER A OR B A OR B A,B A OR B A|B A OR B A OR B A OR B A|B A OR B A,B NOT NOT A -A NOT A -A NOT A !A NOT A -A NOT A -A NOT A !A NOT A -A A BEFORE B p p p p p p A NEAR B Abstand max. 25 Worte A NEAR B A NEAR B p Abstand max. 10 Worte p A NEAR B Abstand max. 10 Worte p p p p Wort A weit entfernt von Wort B A FAR B Abstand mind. 25 Worte p p p p p p p p p Wort A unmittelbar bei Wort B A ADJ B p p p p p p Festlegung des Abstands von FAR/NEAR A NEAR/Anzahl B A FAR/Anzahl B p p p p p p p p p p p p Vorgabe Reihenfolge bei ADJ/NEAR/FAR A OADJ B A ONEAR B A OFAR B p p p p p p p p p p p p p p p p p p Suchbereiche komplettes Dokument Menüoption all:Begriff Menüoption p Standard Menüoption Standard Titel Menüoption title:Begriff Menüoption p title:Begriff Menüoption title:Begriff title:Begriff p Logische Operatoren UND Wortzusammenhänge Wort A vor Wort B Wort A nahe bei Wort B Web-Adresse Seiten einer URL Menüoption Menüoption url:Adresse p eMail-Adresse eMail-Finder email:Adresse Meta-Begriffe p meta:Begriff Link p p Menüoption p url:Adresse p Menüoption p host:hostname p metaname:Begriff title:Begriff url:Adresse Menüoption url:Adresse host:hostname Menüoption site:hostname mailto:Adresse p mailto:Adresse spezielle Site p p p link:hostname p link:hostname Menüoption p link:hostname p Domains p p domain:DE p domain:DE domain:DE p Applet p p applet:Name p applet:Name feature:applet p Bild p p image:Name p image:Name feature:image p Sonstiges Wildcard inter* inter* inter* inter* inter* inter* inter* Platzhalter p inter??? p p p p p Phrase „internet world“ „internet world“ „internet world“ „internet world" „internet world“ „internet world“ „internet world“ Zusammenfassung (A OR B) AND C (A OR B) AND C (A OR B) AND C (A OR B) AND C (A OR B) AND C (A OR B) AND C (A OR B) AND C reguläre Ausdrücke p 199[1...3] anstelle 1991 AND 1992 AND 1993 p p p p p Sortierung nach Begriffen p p V V p p p Sonderfunktionen p p verschiedene Ausgabeformate: Standard, Detail und Kompakt Suche in untersch. Excite Katalogen und Newsgroups Übersetzung von Seiten feature:name für acrobat, applet, activex, audio,embed, flash, form, frame, image, script, shockwave, table, video, vrml Suche in ALT-Tag Ähnliche Seiten Suche im Usenet newsgroup:name Suche im Usenet newsgroup:name Einsatz Pipe (|) zur Definition von Überbegriff|Begriff Name eines Links, der auf eine Seite verweist anchor:text Datumseingrenzungen after:dd/mm/yy before: dd/mm/yy within: number/unit Suche nach Scripts scriptlanguage:[language] ✂ V = ja p = nein internetworld februar ’99 61 praxis SUCHMASCHINEN Suchmaschinen im Griff (1) Das Angebot an Informationen im Internet wächst täglich. Für Einsteiger wird es – trotz Suchmaschinen – immer schwieriger, schnell brauchbare Sites zu finden. er kennt die Situation nicht? Man ist auf der Suche nach dringend benötigten Informationen und sitzt ratlos vor einer Internet-Suchmaschine. Anstelle der gewünschten Daten spuckt die Searchengine aber nur eine scheinbar endlos lange Liste an URLs aus, die zum Teil nicht das geringste mit den gesuchten Infos zu tun haben. W TECHNIK DER SUCHMASCHINEN Suchmaschinen bedienen sich Robots, die das Internet nach Informationen durchforsten. Dabei werden Homepages bis zu einer gewissen Hierarchietiefe untersucht und die Daten an die Suchmaschine übermittelt. Da diese Informationen aber schlecht strukturiert sind, werden Sie – bevor Sie in einer Datenbank landen – indiziert. Die häufig vorkommenden Begriffe werden dabei in die Datenbank übernommen. Jede Suchmaschine wertet zusätzlich auch noch spezielle, von den Erstellern der Homepage definierte Begriffe aus (siehe dazu Artikel „Suchmaschinen“, IW 8/98, S. 54). Abhängig vom Eingabestring sucht die Maschine die einzelnen Begriffe in der Datenbank zusammen und gibt sie nach ihrer Relevanz absteigend aus. Wenn Sie nun einen zu allgemeinen Suchbegriff angeben, findet die Engine Unmengen von Daten. Hier gilt es anzusetzen und die gewünschten Informationen so genau als möglich einzukreisen. Sie sollten sich vor Ihrer Suche eine Reihe von Begriffen aus dem Umfeld der gewünschten Informationen überlegen und in diesem Zusammenhang auch Mehrfachbedeutungen explizit ausschließen. Suchen Sie beispielsweise 78 internetworld januar ’99 Metasuche: Zur ersten Suche bieten sich spezielle Tools wie WebFerret an, die gleichzeitig mehrere Suchmaschinen nach den eingegebenen Begriffen durchforsten mit dem Schlagwort „Golf“, kann das Ergebnis sowohl Berichte über das Auto, den Sport oder auch geographische Sites liefern. Je eindeutiger Sie Ihre Anfrage stellen, desto weniger Mißverständnisse entstehen dabei. UNTERSCHIEDLICHE SUCHMASCHINEN Einen maßgeblichen Teil des Erfolgs macht die Wahl der richtigen Suchmaschine aus. Je nach Art der benötigten Informationen empfiehlt sich die Verwendung einer allgemeinen Suchmaschine oder einer speziellen Suchmaschine, die sich auf ein bestimmtes Themengebiet spezialisiert hat und meist sorgfältig gepflegtere Informationen enthält. Umfangreiche Listen über deutsche und internationale Suchmaschinen, sowie zu Spezialsuchmaschinen finden Sie beispielsweise bei Yahoo (http://www.yahoo.de/ computer_und_internet/internet/world_wide_ web/web_durchsuchen/suchmaschinen) und Web.de (http://web.de/Internet/Suchen+% 26+Finden/Deutsche+ Suchmaschinen). Einen effizienteren Ansatz bietet die Verwendung einer Meta-Suchmaschine. Dabei handelt es sich um ein Programmsystem, das eine Anfrage an mehrere Suchmaschinen und Kataloge parallel abschicken kann, um eine weitaus bessere Trefferquote zu erzielen. Darüber hinaus werden die Ergebnisse der befragten Suchmaschinen von der Meta-Suchmaschine ausgewertet, die doppelten Einträge eliminiert und das Ergebnis aufbereitet. Entwickelt wurde dieses System an der Universität von Washington, an der findige Programmierer auch den Metacrawler entwickelten (http:// www.metacrawler.com). An der Uni Hannover wurde eine – speziell auf deutsche Searchengines abgestimmte – Metasuchmaschine programmiert, die unter http:// meta.rrzn.uni-hannover.de zu finden ist. Neben diesen Server-seitigen Meta-Suchmaschinen gibt es auch kleine Programme, die Sie auf Ihrem Rechner installieren können und die Client-seitig operieren. Eine Auswahl finden Sie im IW-Web. SUCHSTRATEGIE Neben der Auswahl einer geeigneten Suchmaschine oder Meta-Suchmaschine ist die Auswahl einer richtigen Suchstrategie fürs Ergebnis ausschlaggebend. Ein wichtiger Bestandteil von Suchstrings ist die sogenannte bool’sche Aussagelogik. Damit werden mehrere Argumente mit logischen Operatoren verknüpft und von der Suchmaschine ausgewertet. Die gängigen – allgemeinen Operatoren – sind anhand der Beispiele im Kasten „Suchmaschinen-Syntax“ näher erläutert. Der IW-Testsieger Lycos (http://www.lycos.de) aus IW 7/98 („Suchmaschinen: Was leisten sie wirklich“, S. 86ff ) bietet einige mächtige Funktionen, mit denen Sie die Wortzusammenhänge eines Textes untersuchen können. Dabei handelt es sich um die Funktionen ADJ, NEAR, FAR und BEFORE. Sie suchen beispielsweise nach bekannten Bugs des Internet Explorer etwas andere Syntax: Bei Lycos erfahren Sie anhand ausführlicher Beispiele, welche Möglichkeiten zur Verfügung stehen 4.0. Wenn Sie die Suche nun ausschließlich mit AND bzw. OR gestalten, bekommen Sie eine Vielzahl von Seiten in die Ergebnismenge, die zwar die beiden Begriffe enthalten, aber nicht in direktem Zusammenhang ste- aktuelles maschine per Kontrollkästchen auch gleich die Funktion NEAR und mehrere MUST INCLUDE-Auswahlmöglichkeiten offen. ALTERNATIVEN magazin Sollte Ihnen der Weg über die Suchmaschinen nicht zum Erfolg verhelfen, dann gibt es alternative Methoden. Nicht selten hilft die Web-Gemeinde bei der Suche nach Informationen weiter. Eine Anfrage in einer der vielen Newsgroups ist oft von Erfolg gekrönt. Wenn es sich um tagesaktuelle Informationen handelt, werden Sie auch oft auf den Sites von deutschen Tageszeitungen (Sammlung unter http://www.zeitungen .de) oder speziellen News-Diensten wie Cnet News (http://www.news. com) fündig. In der nächsten Ausgabe kommen die Profis mit ausgefeilten Tips und Tricks für die besten vier Searchengines auf ihre Kosten. ■ Andreas Hitzig test Jede Suchmaschine bietet bei der Suche eine hen. Mit dem Operator ADJ können Sie Wörter in unmittelbarer Nähe suchen. NEAR /<Anzahl> erlaubt es, einen Abstand zwischen den Suchwörtern zu definieren, der maximal bestehen darf. „internet explorer“ near/10 bug liefert beispielsweise alle Seiten, auf denen die Wörter „internet explorer“ und „bug“ maximal 10 Wörter Abstand haben. Einen hilfreichen Ansatz bieten auch die Suchmöglichkeiten von Hotbot (http:// www. hotbot.com). Hier können Sie auch nach speziellen Objekten wie Applets, Scripts oder Grafiken innerhalb einer Seite suchen. Die Index-Software berücksichtigt dabei nicht nur inhaltliche Begriffe, sondern neben den META-Tags auch weitere Informationen aus dem HTML-Quellcode. Außerdem stehen Ihnen bei dieser Such- INFO Suchmaschinen-Syntax Schlüsselwort Zeichen Bedeutung AND Beispiel Altavista Lycos + Angegebener Begriff muß im Ergebnis enthalten sein. +Internet Ja Ja - Angegebene Begriff darf nicht im Ergebnis enthalten sein. -Internet Ja Ja * Nur Wortstamm wird angegeben (Truncation) Inter* Ja Ja, Symbol ist $ () Abhängig von der Klammerung wertet der Interpreter Redakteur AND („Pit Klein“ OR „Patrik Bock“) hat ein anderes Ja der Suchmaschine die Anfragen unterschiedlich aus Ergebnis als (Redakteur AND „Pit Klein“) OR „Patrik Bock“ „ “ Ausdruck muß im Ergebnis enthalten sein „Internet World“ Ja Ja & Findet nur Dokumente, in denen die alle angegebenen Magazin AND „Internet World“ Ja (Advanced Help) Ja Magazin OR „Internet World“ Ja (Advanced Help) Ja Magazin AND NOT„Internet World“ Ja (Advanced Help) Ja praxis Die Möglichkeiten beim Zusammenstellen von Suchstrings unterscheiden sich meist nur unwesentlich. In der folgenden Tabelle werden die wichtigsten Befehle von Altavista und Lycos gegenübergestellt. Die Befehle und die Syntax unterscheiden sich – wie bei vielen anderen Suchmaschinen auch – nur unwesentlich. Ja OR | Findet alle Dokumente, in denen mindestens eines der intranet Begriffe enthalten sind angegebenen Wörter enthalten ist ! Schließt Dokumente mit den angegebenen Begriffen aus dem Ergebnis aus 1/8 Seite quer Net.-D. service NOT internetworld januar ’99 79