Such!

Transcrição

Such!
praxis recherche im netz
Die Kunst
des Suchens
Viele große Suchmaschinen sind in den letzten Monaten
um interessante neue Funktionen erweitert worden.
Nicht nur die Inhalte im Internet
wachsen, auch die Suchdienstanbieter lassen sich immer neue Funktionen
einfallen. Wir haben für Sie einige beliebte deutsche und internationale Suchmaschinen ausgewählt, um Ihnen derzeit gebräuchliche
Sonderfunktionen zu erläutern.
In der Tabelle auf
Seite 92 können Sie
außerdem die wichtigsten Befehle und
Features der Suchmaschinen nachschlagen
und vergleichen.
Acoon.de
Die Suchmaschine bietet für
den deutschsprachigen Raum
nicht nur sehr gute Suchergebnisse, sondern präsentiert diese auch mit beeindruckender Geschwindigkeit.
Ein besonderes Feature,
das das Suchen erleichtern soll, ist der intelligente Such-Assistent. Dahinter verbirgt sich eine Truppe von Web-Scouts, die Ihnen bei der
Suche behilflich ist. Über ein Chat-Fenster
äußern Sie Ihre Suchwünsche gegenüber
dem Scout, und dieser macht sich für Sie
auf die Suche. Nach rund 30 Minuten werden Ihnen an eine zuvor angegebene
eMail-Adresse mehrere Suchergebnisse
gesandt. Die komplette Dienstleistung
wird von Acoon kostenlos angeboten.
Altavista.de
Altavista gehört zu den Klassikern unter
den Suchmaschinen und hat deren Syntax
maßgeblich geprägt. Seit dem Relaunch
bietet Altavista einige zusätzliche Funktionen an, die Ihnen vor allem bei der Aufbereitung der Ergebnisse weiterhelfen. So
90 internet world januar 2001
können Sie über die Profisuche extra Sortierkriterien definieren, nach denen Ihre
Suchergebnisse aufbereitet werden. Darüber hinaus stehen Ihnen auch nach der
Darstellung der Suchergebnisse weitere
Klassifikationskriterien zur Verfügung:
Über die Registerkarten können Sie die
Resultate nach deutschsprachigen oder
weltweiten Funden, Bildern, Musik
oder Videos unterscheiden.
FastSearch
Neben guten Suchergebnissen ist
die Möglichkeit zur Eingabe von
Such-Strings eine maßgebliche
Stärke von FastSearch. Unterstützt wird die Filterung von
31 Sprachen via ISO-Code
und eine bequeme Filterung von Domains. Erstnutzern steht ein einfaches Tool für
das Zusammenstellen des
Such-Strings per Auswahlbox zur Verfügung. Nahezu einzigartig ist die Customizing-Funktionalität. Via Cookie werden
die Einstellungen zu Sprache,
Content Reduction und Wortfilter
lokal auf Ihrem Rechner abgelegt.
Treffer ausgelöst hat. Überdies ist jeder
Treffer in der Ergebnisliste mit einem Link
zum GoogleScout ausgestattet. Über diese
Verknüpfung liefert Ihnen Google Seiten
mit verwandten Ergebnissen.
Lycos
Benutzerfreundlichkeit wird bei Lycos
großgeschrieben. „NEAR“, „FAR“, „+“
und „–“ haben ausgedient. Zur Steuerung
des Strings steht Ihnen eine Auswahlbox
zur Verfügung. Damit gehen zwar Kombinationsmöglichkeiten verloren, dafür muß
nicht die Suchmaschinen-spezifische Syntax erlernt werden. Interessant ist die Suche im Wörterbuch, die Ihnen die aktuelle deutsche Rechtschreibung und zu
Fremdwörtern die passende Erklärung liefert. Erwähnenswert sind bei Lycos noch
die Relevanzkriterien: Sechs Möglichkeiten stehen zur Verfügung, um den Eingaben mit den Attributen „wichtig“, „mittel“
und „unwichtig“ eine Bedeutung zuzuweisen und das Ergebnis zu gewichten.
Northern Light
Nahezu einzigartig sind die Auswahlkriterien, die bei der Zusammenstellung eines Suchergebnisses zur Verfügung stehen. Zum einen offeriert Northern Light
neben Standard- und Power-Suche mit Business- und Investment-Suche weitere themenspezifische Optionen. Nicht einzigartig, aber im Zusammenspiel mit den Kategorisierungen innerhalb der einzelnen
Sektionen selten zu finden. Über die Power-Suche können Sie für die Inhalte der
HTML-Seiten aus bis zu 16 Sparten auswählen, kategorisiert nach Inhalten stehen weitere 15 Checkboxen zur Verfügung.
So lassen sich schnell und individuell ohne lange Befehlszeilen die gewünschten
Seiten zusammenklicken.
= Andreas Hitzig
Google
Die aus einem Forschungsprojekt entstandene Suchmaschine ist inzwischen mehr
als ein Geheimtip. Interessant sind bei
Google besonders zwei Funktionen, welche die Aufbereitung der Ergebnisse betreffen. Oft entspricht die von der Suchmaschine indizierte Seite nicht mehr dem
Inhalt, der sich aktuell auf der Seite befindet. Gerade bei Einstiegsseiten größerer Sites findet zum Teil im Minutenabstand ein Wechsel der Daten statt. Mit der
Funktion „Im Cache“ zeigt Ihnen Google
die Seite an, die indiziert wurde und den
URLs
Suchmaschinen
Acoon – http://www.acoon.de
Altavista – http://www.altavista.de
FastSearch – http://www.alltheweb.com
Google – http://www.google.com
Lycos – http://www.lycos.de
Northern Light –
http://www.northernlight.com
✂
suchmaschinen-logik
Die Funktionen der wichtigsten Suchmaschinen im Überblick
URL
Allgemeine Einstellungen
Suche
Suche nach
nach allen mindestens
Wörtern
einem Wort
Sortierung Variable
nach
Anzahl von
Domains
Suchergebnissen/Seite
Logische Operatoren
UND
ODER NOT
NEAR
Suchbereiche
komTitel
Web- eMail- Meta- Links
plettes
Adresse Adresse Begriffe
Dokument
Video
Sonstiges
Wildcard Phrase
inter*
nach
Relevanz
WAP-Suche,
Suchassistent
Zusammen- Sortierung Sonderfassung
funktionen
+A+B
AB
Altavista.de
http://www.altavista.de
Profisuche
A AND B
A OR B NOT B
A NEAR B autotitle:
matisch Begriff
url:
mailto: Adresse Adresse
link:
URL_Text
domain:DE applet:
Name
Menü/
image:
Name
Menü
Menü
inter*
„internet
world“
(A OR B)
AND C
Profisuche
frei
wählbar
verschiedene
Themensuchen,
Offline-Suchguide
Excite.de
http://www.excite.de
A AND B
A OR B NOT B
auto
matisch
Menü
Menü
Menü
inter*
Menü
Powersuche
(A OR B)
AND C
nach
Relevanz
oder URL
Suche nach Hotel,
Flügen und
eMail-Adressen
FastSearch
http://www.alltheweb.com
A+B
AB
Menü
Menü
Menü
Menü
Menü
eigene
Suche
eigene
Suche
eigene
Suche
inter*
Menü
eigene
Logik
Suche nach WAP,
FTP, MP3 und
Multimedia
Fireball
http://www.fireball.de
Profisuche
A AND B
A OR B NOT B
A NEAR B Profisuche
Profisuche
Profisuche
Profisuche
Profisuche
Profisuche
Profisuche
applet:
Name
image:
Name
inter*
„internet
world“
(A OR B)
AND C
Profisuche
Katalog-Suche,
Live-Suche, Datum
als Suchkriterium
Go
http://www.go.com
A AND B
A OR B NOT B
autotitle:
matisch Begriff
url:
Adresse
link:
URL_Text
Menü
Menü
Menü
Menü
inter*
„internet
world“
nach
Suche innerhalb
Relevanz
Ergebnissen, Suche
oder Datum nach Rubriken
Google
http://www.google.com
AB
auto
matisch
link:
URL_Text
„internet
world“
nach
Relevanz
16 Sprachen,
Anzeige ähnlicher
Seiten, Cache
HotBot
http://www.hotbot.com
A AND B
A OR B NOT B
Menü
Menü
Menü
Menü
Menü
Menü
Menü
Menü
inter*
„internet
world“
(A OR B)
AND C
keine
Angaben
umfangreiche
Suchkriterien
Lycos.de
http://www.lycos.de
A AND B
A OR B NOT B
A NEAR B Menü
Menü
Menü
Menü
Menü
Menü
inter*
„internet
world“
(A OR B)
AND C
nach
eigenen
Angaben
eigene
Relevanzkriterien,
38 Sprachen
Northern Light http://www.northernlight.com A AND B
A OR B NOT B
autoMenü
matisch
Menü
inter*
„internet
world“
(A OR B)
AND C
nach
Relevanz
umfangreiche
Menüselektion zur
Einschränkung der
Suchergebnisse
Menü
Menü
Menü
Menü
inter*
„internet
world“
(A OR B)
AND C
k. A.
Speicherung von
Such-Layout, WAPSuche, Live-Suche
inter*
„internet
world“
(A OR B)
AND C
nach
Kategorien
zeitliche
Einschränkung
der Ergebnisse
Web.de
http://www.web.de
+A+B
AB
-B
autoMenü
matisch
Menü
Yahoo.de
http://www.yahoo.de
A+B
AB
-B
autot:
matisch Begriff
u:
Adresse
= vorhanden = nicht vorhanden
Audio
/MP3
-B
Bild
http://www.acoon.de
NOT B
Applet
Acoon
-B
auto
matisch
Domains
92 internet world januar 2001
Name
praxis lokale suchmaschine
Persönlicher
Spürhund
Eine integrierte Suchmaschine hilft, spezielle
Informationen auf der Web-Site leichter zu
finden. Wir sagen, wie’s geht.
왎
Web-Sites, die stetig wachsen, werden leicht unübersichtlich, und gerade ältere Informationen sind kaum mehr
auffindbar. Allerspätestens dann, wenn
Sie selbst nicht mehr wissen, wo sich welche Seiten in Ihrem Web befinden, sollten
Sie sich Gedanken über die Integration einer Suchmaschine machen.
Je nach Ausgangssituation stehen dabei verschiedene Lösungen zur Verfügung.
Zwei Punkte gilt es zu beachten:
� Haben Sie vollen Zugriff auf den WebServer und können Sie dort beliebig
Software installieren?
� Wie groß ist die Site, welches Budget
steht zur Verfügung?
Im Prinzip funktioniert der Aufbau einer
Suchmaschine für die eigene Site immer
nach dem gleichen Muster, unabhängig
von der jeweils eingesetzten Technologie:
Der Site-Master definiert eine Reihe von
Parametern und schickt anschließend einen sogenannten Parser durch seine Seiten. Dieser digitale Spürhund erstellt einen Index, in dem er wichtige Schlüsselwörter sammelt. Greift der Benutzer online auf die Suchmaschine zu, dann werden nicht die Seiten selbst, sondern dieser
Index durchsucht. Das spart eine Menge
Zeit. Systeme, die nicht einen Index, sondern die Dateien selbst durchforsten, funktionieren nur bei kleinen Sites. Für ganz
große Sites ab 10.000 Seiten sollten professionelle Systeme eingesetzt werden.
Welches System sich am besten eignet,
hängt in hohem Maß vom eingesetzten
Server ab.
Unser Focus richtet sich auf kleine und
mittlere Sites. Für diese stehen aus tech-
94 internet world juli 2000
nologischer Sicht vier verschiedene Möglichkeiten
zur Verfügung: Suchdienste, Java, Perl und proprietäre Software. Die ersten beiden Varianten funktionieren praktisch immer,
sind allerdings von der Performance her ziemlich begrenzt. Die
Perl/CGI-Variante ist die Standardlösung.
Um sie nutzen zu können, muß der WebMaster freien Zugriff auf das CGI-Verzeichnis des Web-Servers haben, und dieser wiederum muß Perl unterstützen. Viele Hoster bieten bereits vorgefertigte SuchScripts an, die Dokumente im Volltext
durchforsten. Spezialisierte Such-Software muß parallel zum Web-Server installiert werden. Eine solche Installation
sollten jedoch nur Profis durchführen.
Der einfachste und schnellste Weg, um
zur eigenen Suchmaschine für die WebSite zu kommen, ist der Rückgriff auf einen Dienstleister. Es gibt eine Reihe von
Anbietern im Netz, die dem Benutzer
Suchdienste zur Verfügung stellen.
Während die Eingabemaske auf der eigenen Web-Site steht, erscheint die Antwortseite in der Regel beim Dienstleister.
Bei den kostenlosen Varianten wird dort
meist Werbung eingeblendet. Außerdem
profitiert der Dienstleister natürlich vom
Traffic. Einer dieser Dienstleister, Freefind,
erlaubt die Anpassung der Antwortseite an
das eigene Layout. Der Benutzer erkennt
nur an der URL, wo er gelandet ist, und
kommt mit dem nächsten Klick zurück.
Beim Einsatz von Frames ändert sich nicht
einmal die URL.
Das Basis-Setup für Freefind ist eine Sache
von Minuten. Auf der Homepage des Dienstes befindet sich ein Formular, in dem nur
die Domain, eine eMail-Adresse und eine
Rubrik für die Site angegeben werden müssen. Alles weitere erledigt die Maschine:
Nach 24 Stunden landet die BestätigungsMail im Briefkasten.
Im ControlCenter auf der Freefind-Site
wird nun zunächst die Indexierung ausgelöst. Dieser Vorgang kann in einem bestimmten Rhythmus automatisiert werden, so daß der Index auch von Neuerungen erfährt. Es empfiehlt sich, die Intervalle nicht zu kurz zu wählen, denn jeder
Besuch des Robot frißt selbstverständlich
auch Server-Leistung. Ist die Site an mehr
als eine Domain angebunden, lassen sich
weitere Domain-Namen über die Feineinstellungen – erreichbar im ControlCenter
über den Button „Next“ – angeben.
Im zweiten Schritt wird der Code in die
eigene Web-Site eingebaut. Es handelt sich
um ein einfaches Formular, das den oder
die Suchbegriffe an ein Perl-Script auf dem
Freefind-Server übergibt. Dieses durchsucht den erstellten Index und liefert die
Ergebnisseite. Das Ergebnis entspricht
dem, was man von den großen Suchmaschinen gewohnt ist. Als Link dient der
Titel der Seiten, als Beschreibung werden
die „Description“ aus den Meta-Tags oder
info
die ersten Textzeilen innerhalb der Seite
aufgeführt. Bei der Generierung von MetaTags sollte daher darauf geachtet werden,
jeder Seite eigene Keywords und eine eigene Beschreibung zu geben. Ein Klick auf
einen der Links führt postwendend zurück
zur Web-Site.
Hier das Formular:
<form action=“http://search.freefind.com/
find.html“ method=“GET“ target=“_top“>
<center>
<font size=“-1“> <font color=“#FF6666“>Der
Sitefinder
</font> powered by FreeFind</font>
<input type=“HIDDEN“ name=“id“ size=“-1“
value=“1234565“>
<input type=“HIDDEN“ name=“pid“ size=“1“ value=“r“>
<input type=“HIDDEN“ name=“mode“ size=“1“ value=“ALL“>
<input type=“TEXT“ name=“query“
size=“20“>
</center>
&nbsp; <font size=“-1“> <font face=“Courier
New, Courier, mono“>
<input type=“radio“ name=“t“ value=“s“
checked>
Site search
<input type=“radio“ name=“t“ value=“w“>
Web search </font></font>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<input type=“SUBMIT“ value=“ Such „
name=“SUBMIT“>
</form>
In diesem Code lassen sich die Beschriftungen „Site Search“ und „Web Search“
sowie der „value“ des „Submit“-Button
ändern. Auch der Titel (hier: „Der Sitefinder“) kann inklusive Farbe direkt im Code
geändert werden.
Um das Erscheinungsbild der Ergebnisseite zu ändern, gehen Sie ins ControlCenter und dort in die Abteilung „Customize“. Schritt für Schritt werden Sie durch
die Änderungsmöglichkeiten geführt. Dabei kommt vor allem dem Hintergrundbild
und den Schriftfarben besondere Bedeutung zu, um eine einheitliche, zu Ihrer
Web-Site passende Optik zu erhalten. Das
einzufügende Logo erscheint ganz oben
auf der Seite, wo es etwas verloren wirkt.
Eventuell lohnt es sich, eine grafische Anpassung vorzunehmen und einen breiten
Streifen von geringer Höhe (30–40 Pixel)
als Logo zu definieren. Sie müssen diese
Datei auf Ihrem Web-Server plazieren und
Freefind die exakte URL mitteilen. Die Auswahl der Texte auf der Ergebnisseite erfolgt
robots.txt
Die Norobots-Datei muß im Basisverzeichnis des Web-Servers gespeichert werden. Es
trägt zu Beginn einen Titel, dann folgen die
angesprochenen Suchmaschinen (User
Agent) mit den Zutrittsverboten.
# robots.txt for http://www.beispiel.de/
User-agent: *
Disallow: /testeiten/alle/
Disallow: /tmp/
Disallow: /pass.html
Diese Datei besagt, daß alle Suchmaschinen
Seiten, die innerhalb der Ordner „testseiten/alle“ und „tmp/“ liegen, ignorieren sollen. Das gilt auch für die darin enthaltenen
Unterordner. Außerdem wird die Einzelseite „pass.htm“ vom Zugriff ausgenommen.
nicht hier, sondern in einem anderen Menü
namens Search Setup.
Spannendstes Feature von Freefind sind
die Reports. Hier berichtet der Dienst, welche Suchanfragen er erhalten hat, und sortiert diese. Außerdem registriert er, welche
Links geklickt wurden, und listet die mit
den Seiten verbundenen Keywords auf.
Das ist ein wertvolles Hilfsmittel bei der
Analyse der Besucherströme.
Der Site-Betreiber kann Freefind noch
etwas genauer steuern. Sollen einige Dateien ausgeklammert werden, so hat er
zwei Möglichkeiten: Zum einen kann er
das Tag
<!— FreeFind No Index Page —>
im Kopf der jeweiligen Seite plazieren, bevor die Site indiziert wird. Soll nur ein Teil
einer Seite ausgeklammert werden, so lautet das Tag-Paar:
<!— FreeFind Begin No Index —>
<!— FreeFind End No Index —>
Alles außerhalb dieser Klammern wird indiziert. Die andere Möglichkeit ist die Erstellung einer Robots-Datei. Dazu muß eine Datei namens robots.txt im Stammverzeichnis des Web-Servers liegen. In dieser
Datei steht, welche Ordner und Dateien
nicht von den Suchmaschinen indiziert
werden sollen (siehe Kasten). Das gilt
nicht nur für Freefind, sondern auch für
die meisten großen Suchdienste im Web.
Um die Reihenfolge der Treffer zu manipulieren, muß man wissen, wie Freefind
indiziert. Jedes gefundene Wort wird registriert. Die Anzahl der Treffer bestimmt
die Reihenfolge des Erscheinens auf
der Ergebnisseite. Die Begriffe im
internet world juli 2000
95
praxis lokale suchmaschine
Titel der Seite und in den Meta-Tags zählen
doppelt. Um die Wertigkeit einer Seite
noch weiter zu steigern, kann man ein
Keyword künstlich wiederholen:
<!—FreeFind keywords words=“word1 word2
etc etc“ count=“5“—>
Einen Nachteil hat Freefind allerdings: Die
Boolschen Suchoperatoren gelten hier
nicht, und Wildcards können ebenfalls
nicht eingegeben werden. Die StringDefinition mit Anführungszeichen (z. B.
„Valerien Beckenbauer“) führt nicht wie
gewohnt zur passenden Zeichenkette, sondern wird per AND verbunden. Grundsätzlich gilt für jede Suchanfrage mit mehreren Begriffen, daß zunächst AND vermutet wird. Wenn das nicht funktioniert,
kommt OR zum Tragen.
Eine mögliche Java-Lösung ist QuestAgent von JObjects. Die Software kann für
nichtkommerzielle Anwendungen kostenlos genutzt werden. Für kommerzielle
Anwender gibt es verschiedene Lizenzmodelle, je nachdem, ob es sich um einen
96 internet world juli 2000
Hoster oder einen einzelnen Site-Betreiber
handelt. Für die Benutzung von QuestAgent sind nur wenige Voraussetzungen
zu erfüllen. Der Site-Betreiber benötigt auf
seinem Rechner eine funktionierende aktuelle Virtual Machine. Fehlt diese, ist das
nicht so schlimm, denn das große Download-Päckchen von JObjects (6,5 MByte)
enthält einen Interpreter. Die fertige Suche
funktioniert mit jedem gängigen Javafähigen Browser. Nur beim Internet Explorer 3 erlebten wir zwei Abstürze, aber
dieser Browser dürfte wohl kaum noch eine Rolle spielen.
Ein einfaches Interface fragt Schritt für
Schritt die nötigen Informationen ab und
erstellt sowohl den Index als auch die Applets und die passende HTML-Seite. Letztere kann – wie bei allen Lösungen – nach
dem eigenen Design gestaltet werden.
Wahlweise läßt sich ein neues Projekt erstellen oder ein bestehendes bearbeiten.
Ein Wizard führt den Benutzer durch das
Programm. Nach Auswahl und Benennung des Profils wird der Benutzer aufge-
Die Konsole von QuestAgent ermöglicht die
einfache Programmierung der Suche, ohne in
den Quellcode gehen zu müssen
fordert, den Zielordner für die Suche zu
definieren. Des weiteren fragt QuestAgent
die URL des Web-Servers ab. Diese Eingabe ist allerdings in den meisten Fällen
überflüssig.
Nach dem Klick auf „Next“ steht die
Erstellung des Index an. Prüfen Sie die
Daten, die der QuestAgent anzeigt, und
klicken Sie auf „Start Indexing“. Das
Programm durchforstet nun den ausgewählten Ordner und alle Unterordner.
aktuelles
magazin
praxis
test
Seitentitel angezeigt. Das ist etwas
dürftig und muß beim Aufbau der
Site bedacht werden. Hier liegt die
einzige erkennbare Schwäche des
Programms. Seine volle Leistungsfähigkeit entfaltet das Tool, wenn
ihm Sonderaufgaben gestellt werden; diese werden vor der Indexierung unter „Settings“ definiert.
Die wichtigste Funktion ist der Die Berichte von Freefind geben Auskunft darüber, was
Ausschluß von einzelnen Seiten gesucht wurde
und Ordnern. Dafür ist „Exclu„.dochtml“. Geben Sie diesen Dateityp bei
sion“ zuständig. Gehen Sie auf „Browse“,
den „File Extensions“ an, und schon wird
ermitteln Sie die gewünschte Datei, bedie Datei durchsucht.
stätigen Sie mit „OK“ und fügen Sie die
Die Option für Datenbankprofis lautet
Datei mit „Add“ der Ausschlußliste hinzu.
„Handler“. Hier werden die zu lesenden
Grundsätzlich durchsucht QuestAgent
Felder eines Dokuments näher bezeichnet
HTML- und TXT-Dateien. Weitere Webund definiert. Auch die Priorität wird hier
fähige Dateiformate müssen bei den „File
festgelegt. Dabei ist der Handler nicht auf
Types“ mit ihrem Mime-Type registriert
feste Tags wie Meta oder Body limitiert.
werden. Über einen kleinen Trick gelingt
QuestAgent kann auch mit selbstdefinierQuestAgent auch die Indizierung von
ten XML-Strukturdaten umgehen. Dem
Word-Dokumenten und anderen proSuchenden stehen die wichtigsten
prietären Dateien: Kopieren Sie die Datei
Boolschen Verknüpfungen AND und
und geben Sie der Kopie die Endung
service
QuestAgent erstellt eine Index-Datei, die
zur Steuerung der Suchanfragen dient, sowie mehrere unterschiedliche Inhaltsdateien. Eine davon ist für die Links und Seitentitel verantwortlich. Aus dieser Datei
wird die Ausgabeliste generiert. Die weiteren Dateien sind für die alphabetische
Indizierung zuständig. Mit der Funktion
„Deploy“ wird der komplette Ordner inklusive Java-Klassen und Suchmaske nach
erfolgter Indizierung unter dem Namen
„jobjects“ in das durchsuchte Basisverzeichnis gelegt. Dem Site-Betreiber
bleibt nun nur noch, die Suchseite namens
„search2.html“ zu öffnen, den deutlich
markierten Applet-Code zu kopieren und
in eine eigene Suchseite einzufügen.
QuestAgent bietet dabei auch gleich noch
Hinweise zur Suchhilfe an, die übernommen werden können.
Die Java-Suche mit NetQuest ist recht
passabel. Unser Index erreichte bei einer
Site mit 100 HTML-Seiten insgesamt rund
110 KByte. Die Suche funktioniert zuverlässig. Als Ergebnis wird allerdings nur der
internet world juli 2000
97
praxis lokale suchmaschine
info
OR zur Verfügung. Begriffe, die ohne Verknüpfung eingegeben werden, bekommen
per se die AND-Bedingung, was den Suchkomfort deutlich steigert. Außerdem kann
der Benutzer der Suchmaschine mit Wildcards arbeiten, etwa um auch einen möglichen Plural eines Suchbegriffs anzuzeigen: „Pferd*“ liefert Ergebnisse wie Pferd
und Pferde, aber auch Pferdehalfter.
Eine Server-basierte Suche benutzt in
aller Regel die CGI-Schnittstelle und Perl
als Programmiersprache. Bevor Sie zu
Werke gehen, erkundigen Sie sich bei
Ihrem Web-Master, welche Perl-Version
der Web-Server verarbeiten kann. Kostenlose CGI-Scripts unterschiedlichster Qualität gibt es im Web zuhauf. Wir beschränken uns hier auf ein einfaches
Script, das eine Volltextsuche durchführt.
Boolsche Operatoren sind darin erlaubt,
eine spezifische Rangordnung der Seiten
erfolgt aber nicht. Eine etwas aufwendigere Lösung haben wir in Ausgabe 3/2000
auf Seite 90 vorgestellt. Der Code steht auf
der Web-Site der INTERNET WORLD unter http://www.internetworld.de/iw/mag
azin_listings_0300.htm zur Verfügung.
URLs
Alle Links zum Thema
Übersichten
http://service.freepage.de/cgi-bin/feets/
freepage_ext/41030x030A/rewrite/achim98
/suchm.htm
http://marcbauer.purespace.de/
suchmaschinen/eigene/index.htm
http://www.suchfibel.de/
Excite Web Search
http://www.excite.com/navigate/download.
html
C|Net-Workshop zur Meta-Suchmaschine
http://www.builder.com/Programming/
Scripter/110199/?tag=st.bl.3883.linksgp
Textpad
http://www.textpad.com/
Freefind
http://www.freefind.com/indexa.html
QuestAgent und andere Java-Lösungen
http://gamelan.earthweb.com/javaprogram
ming/applets/dir.utilsearchengines2.html
SimpleSearch
http://www.worldwidemart.com/scripts/
search.shtml#Downloading
98 internet world juli 2000
Der Vorteil der CGI-Lösung ist, daß der Server und nicht der Client die Sucharbeit leistet. Zudem lassen sich derartige Scripts
sehr gut konfigurieren und den eigenen Bedürfnissen anpassen. Nachteil allerdings:
Die Volltextsuche dauert recht lange.
Wir benutzen ein Script namens
SimpleSearch von Matt Wright. Das Script
kommt in einer Zip-Datei zusammen mit
einer Erklärung im Readme-File und einer
HTML-Seite als rudimentäre Suchmaske.
Öffnen Sie zunächst die HTML-Seite.
Sie sehen ein Formular mit der Aktion:
<form method=POST action=“http://world
widemart.com/scripts/cgi-bin/demos/
search.cgi“>
Ändern Sie die Adresse des Links so, daß
er auf Ihr CGI-BIN-Verzeichnis zeigt, zum
Beispiel:
<form method=POST action=“http://www.
domain.de/cgi-bin/search.cgi“>
Kopieren Sie nun das komplette Formular
von <FORM> bis <FORM>in eine eigene Seite und passen Sie das Layout an. Nun
kommt die Datei search.pl an die Reihe.
Öffnen Sie diese Datei mit einem Text-Editor, der ungefragt keine Formatierungszeichen in der Seite hinterläßt. Auf Windows-Ebene eignet sich der „Editor“, für
gehobenere Ansprüche wäre zum Beispiel
Textpad von Helios zu empfehlen.
Der wesentliche Bereich befindet sich
gleich im Kopf des Scripts:
$basedir = ‘/www.domain.de/html/’;
$baseurl = ‘http://www.domain.de/’;
@files = (‘*.html’,’*.htm’, ‘intface/’);
$title = „Franks Suche“;
$title_url = ‘http://www.domain.de/;
$search_url = ‘http://www.domain.de
/search.html’;
Problematisch sind nur die ersten beiden
Zeilen. Das Base-Directory ist das Grundverzeichnis der zu durchsuchenden Dateien. Die Base-URL ist die Domain. Beide werden vom späteren Script aneinandergehängt. Wie Sie sehen, wird in diesem
Beispiel die Domain doppelt aufgeführt.
Das ist häufig bei virtuellen Servern der
Fall, wo die Betreiber die Server einfach
nach den Domain-Namen sortieren. Im
Zweifel müssen Sie ein bißchen testen, um
den richtigen Pfad zu finden.
Auch die „@files“ werden dem Suchpfad beigefügt. Das Script von Wright führt
eine Positivsuche aus, es widmet sich also nur Dateien und Ordnern, die hier
explizit aufgeführt werden. Bei größeren
Web-Sites empfiehlt sich ein Script, das
Suchoperatoren
AND: Alle Worte müssen im selben Doku-
ment vorhanden sein.
OR: Eines der Worte muß vorhanden sein.
NOT: Dieses Wort darf nicht vorkommen.
STRING „“: Worte in Anführungszeichen
müssen in genau dieser Kombination in
der Seite erscheinen.
NEAR: Die beiden Suchbegriffe dürfen
höchstens 25 Worte auseinander liegen.
FAR: Die beiden Begriffe müssen mehr als
25 Worte auseinander liegen.
ADJ: Die beiden Worte müssen in beliebiger
Reihenfolge direkt nebeneinander liegen.
BEFORE: Wie AND, aber mit fester Reihenfolge.
ORDER: Die Ergänzung „O“ vor den anderen
Operatoren verlangt ebenfalls eine feste
Reihenfolge, etwa ONEAR.
WILDCARD „*“: Pferd* findet auch Pferde
und Pferdewagen.
statt dessen die aufgeführten Bereiche bei
der Suche ausläßt. In den Dateinamen sind
Wildcards erlaubt. Die Angabe des Ordners „intface/“ führt zum Durchsuchen aller darin enthaltenen Dateien. Die unteren
drei Zeilen sind für den Seitentitel, den
Link zur Homepage und den Link zurück
zur Suchseite gedacht, die allesamt auf der
Ergebnisseite erscheinen. Im letzten Drittel des Scripts befinden sich einige PrintAnweisungen. Diese formatieren die Ausgabeseite. Alles, was innerhalb der doppelten Anführungszeichen steht, ist
normaler HTML-Code und kann ersetzt
werden.
Das knifflige bei CGI-Scripts ist, daß sie
nicht einfach per se funktionieren, sobald
man sie auf den Server übertragen hat. Bei
dieser Übertragung ist übrigens unbedingt
darauf zu achten, daß sie im ASCII-Modus
vonstatten geht, sonst wird die Datei
zerstört. Perl-Scripts müssen auf dem
Server freigeschaltet werden. Bei guten
FTP-Clients, wie zum Beispiel Cute-FTP,
ist diese Funktion bereits integriert, doch
sie wird nicht von allen Servern unterstützt. Mitunter ist die Eingabe von Hand
in der Kommandozeile nötig, zum Beispiel
wenn Sie einen Telnet-Zugriff auf einen
Unix-Server haben. Fragen Sie im
Zweifelsfall lieber bei Ihrem Webmaster
nach, auf welche Weise Sie die Scripts
freischalten können.
= Frank Puscher
praxis robots & spiders
Datenjäger
Unermüdlich durchstreifen Suchmaschinen das Web
auf der Suche nach aktuellen Informationen. Wir führen Sie
durch das Innenleben dieser Automaten.
Search-Engines sind integraler Bestandteil des World Wide Web. Denn
nur mitdem Einsatz dieser Helfer ist es Surfern möglich, der Informationsflut Herr zu
werden. Doch was auf den ersten Blick als
alltäglich und gegeben hingenommen
wird, ist in Wahrheit nur durch ein Zusammenspiel komplexer Algorithmen und
ausgefeilter Technologien realisierbar.
dem explosionsartigen Wachstum des Internet Schritt zu halten. Nur wenige Sites
können indiziert werden, das Gros fällt
durchs Raster. Hier kommt die Rolle der
eigentlichen Search-Engines zum Tragen:
Diese erstellen ihren Datenbestand voll-
Prinzipiell existieren zwei verschiedene Typen von Suchmaschinen, die sich
in ihrer Funktionsweise jedoch wesentlich
unterscheiden:
Zum einen gibt es die sogenannten
Directories. Die Datenbestände werden
ausschließlich von Menschen gepflegt, die
entweder die Beschreibung einer Seite zur
Katalogisierung einreichen oder aber – was
die Aufgabe von Redakteuren ist – Seiten
begutachten und diese in die Datenbanken
aufnehmen. Später wird die gesammelte
Information in eine hierarchisch organisierte Struktur von Kategorien eingeordnet, in denen der Benutzer gezielt in Sparten suchen und seine Suchanfrage beliebig spezialisieren kann, bis er schließlich
die gesuchte Information gefunden hat.
Der Nachteil der Directories ist klar: Es ist
für Menschenhand schier unmöglich, mit
Weitere Informationen
96 internet world mai 2000
URLs
Wer weiterführende Literatur u. a. zu den
Themen Robots, Spiders und Standard for
Robot Exclusion sucht, wird hier auf jeden
Fall fündig:
http://info.webcrawler.com/mak/projects/
robots/faq.html
Wer diesen Link besucht, findet die berühmte Web Robots FAQs von Martijn Kosters, die
keine Fragen offenlassen:
http://info.webcrawler.com/mak/projects/
robots/guidelines
Richtlinien für das Schreiben von Robots mit
gutem Benehmen:
http://www.webreference.com/content/
search/how.html
Informationen zum Thema Suchmaschinen
allgemein und Tips für das Range-Ranking.
automatisiert mit Hilfe von Robots, die das
Web durchwandern und die gesammelten
Informationen für Suchanfragen aufbereiten und katalogisieren. Darum bezeichnet
man jene auch gelegentlich als WebCrawler.
Generell kann der interne Aufbau einer
Search-Engine in drei große Teile gegliedert werden: Der erste ist der Spider, ein
spezialisierter Robot, der das Web durchschreitet, Seiten besucht, diese zur späteren Indizierung vorbereitet und dann den
Links der Seite zu anderen Inhalten folgt.
Die gesammelten Informationen des
Spider finden schließlich im zweiten
großen Teil einer Search-Engine, dem
Index, Verwendung. Diesen kann man sich
als einen Katalog von immensem Ausmaß
vorstellen, der Informationen zu allen gefundenen Web-Seiten, den darin enthaltenen Schlüsselwörtern und etlichen weiteren Daten enthält. Dieser Index bildet die
Basis für den dritten Part, das Suchwerkzeug. Diese Applikation filtert die auf eine Suchanfrage zutreffenden Daten aus
dem Index heraus, bereitet diese auf und
führt ein „Range-Ranking“, also eine Bewertung der Relevanz eines Treffers für die
Suche, durch.
Standard for Robot Exclusion
Die erste Aktion, die ein Spider mit gutem Benehmen beim Besuch einer Site ausführt, ist
das Auslesen der Datei robots.txt und die Befolgung der darin genannten Instruktionen.
Findet er diese Datei hingegen nicht vor,
nimmt er an, daß er auf der Site willkommen
ist, und indiziert alle Dokumente, auf die er
Zugriff erhält.
Um Spider von Verzeichnissen fernzuhalten,
dient die Erstellung einer solchen Datei im
Stammverzeichnis der Site. Die Datei enthält
einige simple Befehle, die an dieser Stelle anhand eines Beispiels näher erläutert werden:
00 # Beispiel einer robots.txt Datei
01 User–agent: *
02 Disallow: /content/temp/
03 Disallow: /users/
04 User–agent: Scooter
05 Disallow: /content/temp
06 User–agent: Wanderer
07 Disallow:
08 User-agent: Walker
09 Disallow: /
Die erste Zeile beinhaltet einen Kommentar,
der durch ein Doppelkreuz eingeleitet und
vom Spider nicht interpretiert wird. In ihr sind
die Robots, für die nachfolgende Restriktionen
bzw. Anweisungen gelten, aufgelistet: Hier
steht entweder der Name des Spider oder ein
Stern, um alle Robots anzusprechen. Die Zeilen zwei und drei nennen die Verzeichnisse,
deren Zutritt den Spiders untersagt ist. In Worte gefaßt, untersagt unser Beispiel allen Spiders den Zugriff sowohl auf /content/temp/
als auch auf /users.
Allerdings gilt dies nicht für die Robots mit Namen Scooter, Wanderer und Walker: Der erste
darf lediglich auf /content/temp nicht zugreifen, während dem zweiten sogar uneingeschränkter Zugriff gewährt wird. Walker hingegen ist der Zutritt zu sämtlichen Verzeichnissen verwehrt.
internet world mai 2000
aktuelles
magazin
praxis
info
ersten Link zu einem Dokument, liest dieses und extrahiert für den Index relevante Daten. Für seinen weiteren Weg durchs
Web listet der Spider alle im Dokument
vorkommenden Links auf, zieht jedoch
nur die in Betracht, die auf Dokumente
verweisen. Grafik, Musik und alle weiteren Medien fordert der Spider erst gar nicht
an. Hierin liegt unter anderem ein Grund
für die außergewöhnlich hohe Effizienz in
bezug auf die Geschwindigkeit dieses
Robot-Typen. Schließlich folgt er dem ersten noch nicht besuchten Link des geladenen Dokuments und wiederholt die Prozedur. Enthält das Dokument keine weiteren Verknüpfungen zu anderen Dokumenten, taucht der Spider aus seiner rekursiven Schleife auf und versucht es eine
Ebene höher. Auf dieser folgt er nun ebenfalls wieder dem ersten noch nicht besuchten Link. Diese Vorgehensweise wiederholt er so lange, bis er keine unbesuchten Links mehr findet und die Basisliste abgearbeitet hat. Eine Veranschaulichung der Vorgehensweise beim Durchschreiten des Web können Sie dem Diagramm entnehmen.
Die Daten, die der Spider im Verlauf
eines Zyklus sammelt, können zu verschiedenen Zwecken genutzt werden. In
erster Linie dienen sie zur Erstellung oder
zur Aktualisierung des Index. Die Daten
können jedoch auch genutzt werden, um
ein effizientes Range-Ranking zu
ermöglichen: Spider ermitteln die
test
Die Tiefensuche ist das Herzstück des
Robots. Mit ihrer Hilfe wird eine Durchwanderung großer Teile des anarchisch
strukturierten Web erst ermöglicht: Ausgehend von einer Liste von URLs, die eine Art Grundstock für die Suche darstellt,
taucht der Spider ins Web ein. Er folgt dem
service
Spider sind autark agierende Agenten,
die ihren Dienst ohne menschliches Zutun
verrichten. Die Funktionsweise basiert
hauptsächlich auf einer angepaßten Form
des als Tiefensuche bekannten Algorithmus. In seltenen Fällen wird an dessen
Stelle auch Breitensuche verwendet.
97
praxis robots & spiders
Popularität von Sites, indem sie die Links
zählen, die auf diese verweisen. Generell
gilt: Je beliebter die Site, desto relevanter
ist sie für eine auf jene Site zutreffende
Suchanfrage des Benutzers, und desto weiter oben wird sie in der Präsentation der
Suchergebnisse gelistet werden.
Spider indizieren in wenigen Minuten
mehr Seiten, als ein Mensch an einem Tag
bearbeiten kann. Der AltaVista-Spider indiziert etwa 2,5 Millionen Seiten pro Tag.
Zieht man in Betracht, daß Search-Engines
wie Pilze aus dem Boden sprießen, wird
schnell klar, daß Spider den Web-Traffic
wesentlich erhöhen. Ernsthafte Probleme
können jedoch entstehen, wenn ein
schlecht programmierter Spider auf einen
Server zugreift und diesen mit einem Ansturm von Anfragen bombardiert. Bedingt
durch die Tatsache, daß Spider vollautomatisiert sind, können sie riesige Datenmengen in kürzester Zeit anfordern.
Beziehen sich diese Anforderungen jedoch
auf einen einzigen Server, kommt dies oft
einer Denial-of-Service-Attacke gleich
(siehe IW 4/2000). Das Problem tritt auf,
wenn der Tiefensuch-Algorithmus fehlerhaft programmiert ist. Dann rotiert der
Spider in einer Endlosschleife, die ihn stets
zu den gleichen Seiten zurückführt und
den Server konstant belastet.
Auch temporäre HTML-Dokumente
sind ein Problem, da der Spider nicht
„weiß“, daß deren Existenz im Web nur
von kurzer Dauer ist und er sie somit indiziert. Wird bei einer Suchanfrage eine
solche Seite gelistet und vom Benutzer
angeklickt, erfolgt ein Sprung ins Leere –
der entsprechende Server generiert eine
Fehlermeldung.
Das wohl bekannteste und weltweit
akzeptierte Protokoll für gutes Verhalten
von Spidern, der „Standard for Robot
Exclusion“, wurde bereits 1994 von einer
Gruppe von Internet-Nutzern geschaffen.
Dieses Protokoll erlaubt es den Administratoren von Web-Sites, Spider von
einigen oder allen Bereichen der Site
auszuschließen. Zwar ist der „Standard for
Robot Exclusion“ nur ein informelles Protokoll und lediglich eine Empfehlung für
besuchende Spider, doch hält sich in der
Regel der Großteil der Robots an diese.
Detaillierte Informationen finden Sie im
Kasten auf Seite 97.
Prinzipiell muß zwischen zwei Varianten der Indizierung differenziert werden:
In einer Volltext-Indizierung wird das gesamte Dokument durchsucht und sämtliche darin vorkommende Begriffe gesammelt. Dabei werden jedoch Wörter wie
„das“, „er“ oder „ist“ nicht indiziert, da
sie der Charakterisierung einer Seite nicht
dienlich sind. Die Auslese findet meist mit
Hilfe einer Art Wörterbuch statt, in dem
solche irrelevanten Begriffe vermerkt sind.
Bei einer Nicht-Volltext-Indizierung hingegen werden nur Teile des Dokuments,
gewöhnlich die META-Tags, Header, Titel
und/oder der erste Absatz, indiziert. Dadurch läßt sich eine Beschleunigung der
Indizierung und somit eine Schonung der
Ressourcen des Web-Servers, auf dem der
Spider ausgeführt wird, erzielen, da
schließlich nicht das ganze Dokument
durchsucht werden muß. Nachteilig wirkt
sich jedoch die Tatsache aus, daß viele Informationen innerhalb des Texts verlorengehen und die Indizierung des Dokuments
somit weniger exakt und adäquat ist.
Außerdem sind META-Tags nicht repräsentativ für den tatsächlichen Inhalt einer
Seite. Viele Betreiber führen zahllose
Schlüsselwörter und Schlagworte aus
möglichst vielen unterschiedlichen Bereichen auf, um bei sämtlichen Suchanfragen gelistet zu werden.
tip suchmaschinen
So kommen Sie in Suchmaschinen auf die vorderen Plätze
Der Eintrag in eine Suchmaschine ist nur dann
erfolgreich, wenn Sie bei den Suchergebnissen
einen der vorderen Plätze belegen. Wir zeigen
Ihnen im folgenden, worauf Sie besonders
achten sollten.
Suchmaschinen lassen sich nicht mehr so einfach überlisten wie früher, als es genügte, einen Begriff beliebig oft in den Keywords zu wiederholen. Die Robots sind lernfähiger geworden. Es gibt jedoch immer noch ein paar Kniffe, wie Sie Ihre Plazierung positiv beeinflussen
können.
Dies sollten Sie tun:
Verwenden Sie Keywords und Description
direkt unter dem Titel der Seite. Achten Sie
darauf, daß die Beschreibung 250 Zeichen
und die Schlüsselbegriffe 150 Zeichen nicht
überschreiten.
Setzen Sie Phantom-Pixel (Größe 1 x 1, transparentes GIF) in größerer Zahl ein, und versehen Sie die ALT-Tags mit den wichtigsten
98 internet world mai 2000
Keywords Ihrer Seite. Plazieren Sie die Pixel
möglichst unauffällig.
Der Einsatz von Headline-Tags anstelle von
Überschriften in größerer Schriftart unterstreicht die Relevanz der Titel gegenüber
Suchmaschinen.
Überprüfen Sie die Keywords Ihrer Konkurrenten, und adaptieren Sie diese, wo es sinnvoll erscheint.
Melden Sie die wichtigsten Seiten Ihrer Site
zur Sicherheit noch einmal manuell bei den
Top-10-Suchmaschinen an, und wiederholen Sie diesen Vorgang bei Veränderungen
an den Inhalten.
Dies sollten Sie tunlichst vermeiden: Sie sollten
bei Ihren Aktion allerdings auch die entsprechende Sorgfalt walten lassen, da die Robots
oftmals Kontrollmechanismen integriert haben. Auf folgende Umstände reagieren sie
ziemlich allergisch, unter Umständen droht sogar der Rauswurf aus der Suchmaschine:
Wiederholen Sie keine Begriffe in Ihren
Schlüsselbegriffen.
Verwenden Sie keine unsichtbaren Texte
(Text in Hintergrundfarbe), in denen die
wichtigsten Begriffe mehrfach wiederholt
vorkommen.
Plazieren Sie keine unzutreffenden Schlüsselbegriffe wie „Pamela Anderson“ auf Ihrer
Seite, um ein besseres Suchergebnis zu erzielen.
Setzen Sie keine „Redirect“- oder „Refresh“Seiten ein, die die Relevanz Ihrer Schlüsselbegriffe steigern.
Tips im Internet: Unter http://accusubmit.com/
secrets/engines.html finden Sie eine Übersicht
einiger großer Suchmaschinen, wie diese Ihre
Seiten untersuchen und was Sie im speziellen
dabei beachten sollten. Wenn Sie Ihre Seite aktuell auf Plazierungen testen wollen, unterstützt Sie z. B. http://www.scorecheck.com bei
Andreas Hitzig
Ihren Überprüfungen.
aktuelles
Rekursive Vorgehensweise des Spider
magazin
�
<Link>
�
<Link>
�
�
�
<Link>
<Link>
�
te, in der dieses Wort fünfmal auftaucht,
weiter oben aufgeführt werden als eine, in
der es nur einmal vorkommt.
Eine komplexere Methode des RangeRankings ist die Ermittlung der Zahl der
Seiten, die auf ein spezifisches Dokument
verweisen. Je populärer eine Seite ist,
desto höher wird sie eingestuft.
�
�
praxis
쐅
�
Selbstverständlich sind diese Mechanismen nur Basistypen des Rankings. Die
Funktionsweise läßt sich beliebig verfeinern und kombinieren. So ziehen beispielsweise einige der zeitgemäßen Suchmaschinen beim Zählen der Worthäufigkeiten auch die Schriftgröße des entsprechenden Wortes in Betracht.= Cai Ziegler
internet world mai 2000
test
Das Range-Ranking dient zur Bewertung der Relevanz einer Seite. So werden
Seiten, deren Relevanz für den entsprechenden Suchbegriff hoch eingestuft wurde, bei einem Treffer weiter oben gelistet
als niedrig bewertete Seiten. Bei der Erstellung der Treffer-Listen spielen zwei
verschiedene Range-Ranking-Mechanismen eine größere Rolle.
Der erste beschränkt sich darauf, die
Worthäufigkeiten innerhalb eines Dokuments als Kriterium für das Ranking zu
nutzen. Bei einer Suche nach dem Begriff
„Dijkstra“ würde in diesem Fall eine Sei-
info
service
Der dritte große Part einer Suchmaschine widmet sich der Strukturierung
der gesammelten Daten. Durch simple
Datenbankabfragen können dann die
gewünschten Informationen abgerufen
werden. Die erstellten Indizes werden aber
nicht in der Datenbank selbst gespeichert,
sondern außerhalb abgelegt – aus Performance-Gründen und Platzproblemen. In
der Datenbank tauchen die gesammelten
Begriffe nur mit Verweisen auf die Indizes
auf, in denen diese Begriffe gespeichert
sind. Erfolgt nun eine Suchanfrage auf ein
bestimmtes Wort, wird in der Datenbank
nach diesem gesucht, alle damit verbundenen Indizes gelesen, und nach
Durchführung des Range-Rankings wird
dieses dann dem Surfer in Form eines
HTML-Dokuments grafisch aufbereitet
präsentiert.
99
praxis suchmaschinen
Effektive Suche
im Internet
Suchmaschinen sind die
Inhaltsverzeichnisse des
Internet. Jede Suchmaschine
hat ihre Stärken in bestimmten
Bereichen. Wir zeigen Ihnen,
welches Web-Trüffelschwein
wofür am besten geeignet ist.
Um Ihnen die derzeit gebräuchlichen Suchtechniken zu erläutern,
haben wir für unseren Vergleich einige der
beliebtesten deutschen und internationalen Suchmaschinen ausgewählt. Der
Schwerpunkt unserer Untersuchungen lag
dabei zum einen bei den Besonderheiten
der Syntax der Suchmaschinen, zum anderen haben wir auch die erwähnenswerten erweiterten Funktionen eingehend unter die Lupe genommen. In der Tabelle auf
Seite 82/83 können Sie die wichtigsten Befehle und Features der Search-Engines
nachschlagen und vergleichen.
Allgemein. Einige Standards haben inzwischen Einzug bei den Suchmaschinen
gehalten. Unterstützt eine Search-Engine
die Eingabe von Phrasen (siehe Übersicht),
so werden zur Begrenzung entweder
Hochkommas oder in seltenen Fällen, wie
bei MSN-Search, der korrespondierende
Menübefehl verwendet. Anders bei der
Eingabe von „AND“ und „OR“. Hier kann
die Eingabe eines Suchbefehls mit der Syntax „A B“ sowohl „A AND B“ als auch „A
OR B“ heißen, das ist abhängig von der
Suchmaschine.
Im Bereich der Suche nach unterschiedlichen Medien haben die Suchmaschinen dem allgemeinen Trend Rechnung getragen. Viele klassische Suchmaschinen bieten inzwischen spezielle
80 internet world januar 2000
Selektionen, vor allen für Musik-Files wie
MP3-Dateien an.
AltaVista.com. Der Klassiker unter den
Suchmaschinen hat die Syntax und die
Funktionalität maßgeblich geprägt. Immer
noch ist AltaVista im Bezug auf die Suchkriterien tonangebend. Trotz des Relaunch
Ende Oktober wurde auf eine umfangreiche Oberfläche zur Eingabe verzichtet. Die
interessanten Parameter werden noch immer im Eingabefeld eingetragen. So können Sie bei AltaVista den Suchraum spezifisch auf Ihre Anfrage einschränken. Dazu stehen Ihnen die Befehle url, title, mailto und link zur Verfügung. Wollen Sie beispielsweise nur Ergebnisse einer amerikanischen Regierungsbehörde, so lautet der
Befehl url:gov.
Ein Manko vieler Suchmaschinen ist die
Aufbereitung der Ergebnisse. Hier geht AltaVista neue Wege und bietet Ihnen eigene Sortierkriterien an, die Sie in der erweiterten Suche eingeben können.
Bei komplexen Suchen hilft die Schachtelung von Aussagen, die bei AltaVista perfekt funktioniert. Suchen Sie nach einem
„Polo“ oder „Golf“, wollen aber keinen
Sportlink angezeigt haben, so heißt die Befehlszeile (POLO OR GOLF) AND NOT SPORT.
Inzwischen gibt es auch eine deutsche
Variante des Suchdienstes, die unter
http://www.altavista.de zu erreichen ist.
Fast Search. Die nach eigenen Angaben
größte Suchmaschine der Welt ist besonders hinsichtlich zweier Funktionalitäten
interessant: der FTP-Suche und der MP3Suche. Auf diesen beiden Gebieten liefert
der Suchdienst sehr gute Ergebnisse. In anderen Bereichen, vor allem bei der Qualität der Ergebnisse, sind noch Verbesserungen nötig, damit Fast auch die beste
Suchmaschine der Welt wird.
Fireball. Eine übersichtliche Oberfläche,
gute Suchergebnisse und vor allem überdurchschnittlich viele Selektionsmöglichkeiten bietet die deutsche Suchmaschine
Fireball. Sie können die Daten sowohl über
das Menü als auch über die Befehlszeile
selektieren. Neben den bereits von AltaVista bekannten Möglichkeiten kann mit
Befehlzeilen wie „KEYWORDS: internet world,
deutschland, magazin“ auch über Meta-Tags
einer Seite selektiert werden.
GO. Sind Sie auf der Suche nach Informationen über amerikanische Unternehmen oder an aktuellen Daten von unseren Übersee-Nachbarn interessiert, leistet Ihnen die Suchmachine GO gute Dienste. Sie können hier speziell in aktuellen
Neuigkeiten und einer gut gepflegten
info
Benutzerfreundlichkeit
Suchmaschinen werden immer benutzerfreundlicher. Die Selektion verläßt die Eingabe der Selektionskriterien über die Kommandozeile und bietet immer mehr Menüs
an. Auch die allgemeinen Suchmaschinen
reagieren inzwischen schnell auf aktuelle
Trends und bieten größtenteils spezielle
Suchmasken für Musik und sonstige Medien an. Zusatzdienste wie Kinderschutz und
kostenlose Übersetzungsdienste sind auch
immer häufiger anzutreffen.
Bibliothek mit amerikanischen Unternehmen schmökern. Auf den Einsatz von AND
und OR können Sie getrost verzichten, da
in der erweiterten Suche alles über DropDown-Boxen eingegeben werden kann.
Bei der Aufbereitung der Daten können Sie
die Anzahl der Suchergebnisse und den
Umfang der Beschreibung angeben – alles
menügesteuert.
oder speziellen Technologien, sondern
auch nach deren Endungen absuchen. Als
hilfreich erweist sich auch die Einschränkung nach der Art der Seiten. Sie können
angeben, ob Sie nur die Einstiegsseiten einer Homepage wünschen oder bis zu welcher Ebene der Site noch ein Suchergebnis angezeigt werden soll.
che, Relevanz, Suchbereich und Kataloge
für Ihre Bedürfnisse personalisieren. Es
werden 38 Sprachen zur Auswahl angeboten und auch die Verknüpfung mit Bild-,
Ton- und Bücherarchiven verhilft bei vielen Suchanfragen zum gewünschten Ergebnis. Lycos ist eine der wenigen Suchmaschinen, bei denen Sie die Reihenfolge
der Suchbegriffe festlegen können.
aktuelles
magazin
HotBot bietet eines der umfassendsten Menüs
zur Selektion von Seiteninhalten – ein Mausklick genügt
praxis
Klassiker AltaVista: Auf ausufernde Suchmenüs hat man
verzichtet – alle
Befehle werden
ins Eingabefeld
eingetragen, zusätzlich gibt es
noch Sortieroptionen
URLs
Suchmaschinen
AltaVista – http://www.altavista.com
Fireball – http://www.fireball.de
GO.COM – http://www.go.com
HotBot – http://www.hotbot.com
Fast Search – http://www.alltheweb.de
Lycos.de – http://www.lycos.de
MSN – http://www.msn.de
Northern Light –
http://www.northernlight.com
stand aus einem Forschungsprojekt der
Stanford Universität. Durch einen neuen
Ansatz der Bewertung von Suchergebnissen schafft es die Suchmaschine, zum Teil
überdurchschnittlich gute Suchergebnisse
zu liefern. Interessant ist die Suchmaschine besonders für Linux-Anwender, da eine spezielle Suchvariante direkt auf verschiedene Ressourcen des Betriebssystems zugreift. Andere Varianten durchsuchen speziell die Seiten der US-Behörden und der Stanford Universität.
MSN-Suche. Neben einem Nachrichtendienst in Zusammenarbeit mit dem ZDF
hat sich die MSN-Seite inzwischen auch
zu einer interessanten Suchmaschine gemausert. Die Qualität der Suchergebnisse
kann sich sehen lassen und über die Expertensuche können Sie Inhalte einer Seite wie Bilder, Videos oder Musikdateien
direkt selektieren.
Northern Light. Das Nordlicht bietet
nicht nur eine allgemeine Suche im Internet an, sondern betrachtet die Inhalte auch
unter bestimmten Gesichtspunkten. Sie
Lycos.de. Beim deutschen Ableger von
können Ihre Anfragen bei dieser SuchmaLycos steht Benutzerfreundlichkeit an
schine in den Bereichen Business, Investoberster Stelle. Mit der Profi-Suche könment Research und Stock Quotes starten.
nen Sie Ihre Eingabe in den Bereichen SpraLetzteres liefert Ihnen aktuelle Börsendaten, in den Investment Researches finden Sie
Wirtschaftsberichte von Unternehmen und kostenpflichtige Interpretationen von Experten. Sind Sie an Daten eines speziellen Unternehmens
interessiert, verhilft Ihnen die
„Business“-Suche schnell zu
den richtigen Links. Damit Sie
Aus einem Forschungsprojekt der Universität
aufgrund allgemeiner FirmenStanford ist die Suchmaschine Google entstannamen nicht irregeleitet werden. Sie liefert Suchergebnisse ohne Werbung
den, können Sie zusätzlich
noch die entsprechende BranDie deutsche Suchmaschine Fireball bietet bei
che des gesuchten Unternehder Auswahl der Inhalte sehr detaillierte Selektimens angeben.
onsmöglichkeiten, leider noch innerhalb der
Kommandozeile
= Andreas Hitzig
internet world januar 2000
service
der Kommandozeilen-Eingabe zu einer
weitgehend menügesteuerten Eingabemaske übergegangen und hat in diesem
Bereich auch noch immer die Spitzenposition inne. Sie können die Inhalte der Seiten nicht nur direkt nach Mediendaten
test
Google. Die Suchmaschine Google entHotBot. HotBot ist bereits recht früh von
81
Zum Herausnehmen:
Suchen für Profis
Alle Suchoptionen der wichtigsten Suchmaschinen
Name
Acoon
Aladin
Allesklar
AltaVista.com
Crawler
Eule
Excite.de
Fast Search
Fireball
www.
acoon.de
www.
aladin.de
www.
allesklar.de
www.
altavista.com
www.
crawler.de
www.
eule.de
www.
excite.de
www.
alltheweb.com
www.
fireball.de
Suche nach
allen Wörtern
Suche nach mindestens
einem Wort
Eingabe einer Frage
Sortierung
nach Domains
(Advanced
Search)
variable Anzahl
Suchergebnisse/Seite
UND
+A +B
AB
A AND B
A AND B
AB
+A +B
A AND B
A AND B
A UND B
ODER
AB
A ODER B
A OR B
A OR B
A OR B
AB
A OR B
Menü
A ODER B
NOT
-B
NOT B
-B
NOT B
NOT B
NICHT B
NEAR
A NEAR B
A NEAR B
komplettes
Dokument
automatisch
Menüoption
automatisch
automatisch
automatisch
automatisch
automatisch
automatisch
Titel
Menüoption
title:Begriff
title:Begriff
Web-Adresse
Menüoption
url:Adresse
url:Adresse
eMail-Adresse
mailto:Adresse
mailto:Adresse
Meta-Begriffe
keywords:
Begriff
Links
link:Hostname
link:Hostname
Domains
domain:DE
domain:DE
Applet
applet:Name
applet:Name
Bild
Menü
image:Name
Audio/MP3
Menü
Video
Menü
Wildcard
inter*
inter*
inter*
inter*
inter*
inter*
Phrase
„internet
world“
„internet
world“
„internet
world“
„internet
world“
Menü
„internet
world“
„internet
world“
URL
Allgemeine Einstellungen
logische Operatoren
Suchbereiche
Sonstiges
Zusammenfassung
(A OR B) AND C
(A OR B) AND C
Sortierung
nach Relevanz
k. A.
nach Relevanz
frei wählbar
k. A.
nach Relevanz
nach URL
oder Relevanz
eigene Logik
nach Position,
Frequenz
und Distanz
Sonderfunktionen
Börsenkurse
Firmensuche
Suche nach
PLZ und Ort,
max. 500
Family Filter für
jugendgefährdende Inhalte,
Übersetzungsservice
Verschiedene
Ausgabemodi:
Titel, Standard,
Detail
Auswahl des
FTP-Search
Suchraums:
weltweit, Europa,
deutscher Sprachraum
= ja, = nein
82 internet world januar 2000
Suche nach
Rubriken,
Live-Suche
Suchmaschinen-Poster
Go
Google
HotBot
Kolibri
Lycos.de
MSN-Search
Northern Light
Web.de
Yahoo.de
www.
go.com
www.
google.com
www.
hotbot.com
www.
kolibri.de
www.
lycos.de
search.
msn.com
www.
northernlight.com
www.
web.de
www.
yahoo.de
A AND B
A AND B
A AND B
Menü
A AND B
A AND B
A AND B
+A +B
A +B
A OR B
A OR B
Menü
A OR B
A OR B
A OR B
AB
AB
NOT B
NOT A
NOT A
NOT B
-B
-B
-B
-B
A NEAR B
automatisch
automatisch
Menü
automatisch
automatisch
automatisch
automatisch
automatisch
automatisch
title:Begriff
Menü
Menü
title:Begriff
Menü
t:Begriff
url:Adresse
Menü
Menü
Menü
Menü
url:Adresse
Menü
u:Begriff
eigene Suche
Menü
Menü
link:Hostname
link:url
Menü
Menü
Menü
Menü
Menü
Menü
Menü
Menü
Menü
Menü
Menü
Menü
Menü
Menü
Menü
Menü
Menü
Menü
Menü
inter*
inter*
inter*
inter*
inter*
inter*
inter*
inter*
inter*
„internet
world“
„internet
world“
„internet
world“
„internet
world“
Menü
„internet
world“
„internet
world“
„internet
world“
(A OR B) AND C
(A OR B) AND C
(A OR B) AND C
(A OR B) AND C
(A OR B) AND C
nach Relevanz
nach Relevanz
k. A.
nach Relevanz
oder Aktualität
nach Domänen
k. A.
nach Relevanz
oder Datum
k. A.
nach Kategorien
Suche nach Rubrik :
Web, Topics, News,
Companies u. Newsgroups, Kinderfilter,
Suche innerhalb
Ergebnismenge
Suche bei
US-Regierung,
Stanford Uni
und Linux
Umfangreiche
Fun-Suche
Suchkriterien:
Sprache, Alter Dokumente, Dokumentinhalte, Suchtiefe, verwandte Begriffe
Kindersicherung
Suchraum
eingrenzbar,
Erzeugungsdatum,
Inhalt selektierbar
Suche nach
Speicherung
COMPANY, umfang- von Such-Layout
reiche Menüselektionen zur Beschränkung der Suchergebnisse
Alter der Dokumente angeben
internet world januar 2000
83
test suchmaschinen-vergleich
Was leisten
deutsche
Spürhunde?
Werden Suchmaschinen zunehmend zu
Traffic-Generatoren für Portaldienste
mißbraucht? Im zweiten großen
Suchmaschinentest prüfte Internet World die
Qualität der Web-Navigatoren.
Liest man die Nachrichten der
einschlägigen Internet-Magazine, dann könnte man meinen, die
Suchmaschinen geben allmählich das Suchen auf. Die Dienstleister versuchen sich
zunehmend mit Auktionen, als Community, mit privaten Homepages, als FreeMailer oder als alles zusammen (dann nennen sie sich Portal). Ihre Kernaufgabe, dem
orientierungslosen Surfer beim qualifizierten Durchforsten der Internet-Landschaft zu helfen, tritt zunehmend dahinter zurück.
Bereits vor einem Jahr (s. IW 7/98, S.
86) stellten wir im ersten großen Suchmaschinentest mit Verblüffung fest, daß
Dokumente zu aktuellen Themen nur sehr
schwer zu finden sind, und daß alle Suchmaschinen intern erhebliche Schwankungen in der Relevanz der Ergebnisse aufwiesen. Das hat sich bis heute nicht geändert. In puncto Performance sind zwar alle Maschinen besser geworden – mit Aus-
108 internet world oktober ’99
nahme von Excite, Eule und
Infoseek – in Sachen Qualität
der gefundenen Dokumente hat sich dagegen nicht
viel getan.
Angesichts der Tatsache, daß immer mehr
Neulinge ins Web vordringen, die in der Benutzung von Computern wenig geübt sind, ist es geradezu
fahrlässig, als Einschränkung der Suche
einen Begriff wie „DE-Sites“ zu verwenden (Excite). Erstens versteht nur ein erfahrenen Surfer, was damit wirklich gemeint ist und zweitens ist der Sinn einer
solchen Einschränkung kaum faßbar,
denn seit wann sagt eine Top-Level-Domain wie .de etwas über den Inhalt aus?
Testmethode. Wie im letzten Jahr haben wir auch dieses Mal eine Liste von
zehn verschiedenen Suchanfragen abgearbeitet. Dabei haben wir die Menge der
Treffer, deren Qualität und die Fehlerhäufigkeit bewertet. In allen Suchmaschinen
wurden einzelne Testanfragen zu verschiedenen Tageszeiten und Wochentagen
wiederholt, um auch eine verläßliche Aussage in Sachen Performance zu bekommen. Der Bewertung der Qualität der Suchergebnisse haben wir drei Kriterien zu-
grundegelegt: Die Aktualität einer Information, die Relevanz der Information und
die Existenz der gesuchten Begriffe. Besonders bei tagesaktuellen Themen wie
zum Beispiel der Rentenreform-Diskussion ergibt sich hier eine unangenehme
Spreizung. Der Suchbegriff taucht bei
Standarddokumenten der ÖTV genauso
auf wie in der aktuellen Wirtschaftsmeldung der Berliner Morgenpost.
Im Gegensatz zur letztjährigen Recherche haben wir Zusatzdienste, die nicht zur
Suche gehören, außen vor gelassen. Es
geht hier nicht um die Bewertung als Portal, sondern um die reine Suchfunktion.
Auch die Anzahl gefundener Dokumente
spielte für uns keine Rolle, weil sie nichts
über die Qualität des Ergebnisses aussagt.
Wir haben pro Suchanfrage die ersten 20
gefundenen Treffer begutachtet und bewertet.
Die Konsistenz der Treffer spiegelt die
Menge der Links wieder, die zu einem Ziel
führen. Die Relevanz zeigt die Ergebnisse,
die den gewünschten oder einen passenden Inhalt haben. Negativ macht sich in
der Relevanz bemerkbar, wenn eine Suchmaschine Verweise auf andere Suchmaschinen und Bücherdienste wie vor allem
Amazon im Überfluß führt. Auch
sollten gute Suchmaschinen in der
Neun deutsche Suchmaschinen im Vergleich
Suchmaschine
Altavista
Adresse
http://www.altavista.de
Funktionalität
Treffer Durchschnitt
326.533
Gicht
1.919
Rezept + Kartoffelsalat
1.370
Rentenreform
2.073
Machtwort + Schröder
25.567
CD Simply Red
570.153
Film + Kevin Costner +
1.570
Paul Newman
Fernsehprogramm +
260.870
Montag
Stadtplan + Konstanz
31.134
Job Marketing Berlin
2.370.660
„Die Straße der
15
Ölsardinen“
Trefferquote
57,50%
Komplexe Abfragen
2,3
Aktualität
2,8
Konsistenz
88%
Bewertung
2,8
Komfort/Qualität
klar und einfach
Fireball
Intersearch
http://www.fireball.de http://www.intersearch.de
Lycos/AOL Netfind
http://www.lycos.de
Infoseek
http://www.infoseek.de
MSN
http://www.msn.de
Lotse
http://www.lotse.de
Excite/Netcenter
http://www.excite.de
Eule
http://www.eule.de
119.050,90
2.171
1.353
5.917
42.282
332.011
33
857,8
1.253
120
2.782
185
1.494
66
867
1.656
237
2.638
95
1.074
30
394.474,30
3.295
1.636
3.929
49.962
1.003.472
107
139,5
215
15
513
41
17
10
nicht zu ermitteln
nicht zu ermitteln
nicht zu ermitteln
nicht zu ermitteln
nicht zu ermitteln
nicht zu ermitteln
nicht zu ermitteln
nicht zu ermitteln
nicht zu ermitteln
nicht zu ermitteln
nicht zu ermitteln
nicht zu ermitteln
nicht zu ermitteln
14
58.443,90
434
18
1.163
8
94.244
530
199.270
270
402
81.930
71
nicht zu ermitteln
nicht zu ermitteln
32
25.896
581.569
7
202
2.206
0
221
2.248
70
45.174
2.755.229
15
57
454
2
nicht zu ermitteln
nicht zu ermitteln
13
nicht zu ermitteln
nicht zu ermitteln
nicht zu ermitteln
21
365.516
122.470
57,30%
2,6
1,6
94%
2,6
47,50%
2,2
1,8
94%
3,1
45%
3,5
3,2
88,50%
3,3
46%
2,5
1,8
94,80%
2,9
54,00%
4,2
3,1
93%
3
49,20%
2,9
3,8
98,50%
2,9
56,70%
2,9
2,6
93%
2,9
50,50%
3,8
4
87,80%
3,2
ok.,Suchmaske nur
zusätzliche Such-Links
am Fuß der Ergebnisseite
Übersicht
gut
Seite sehr voll
gut
schlechte Färbung
besuchter Links
Ergebnisanzeige
einfach,Größe und
Relevanzanzeige in %,
sehr gut,Anzeige der
inkl.Größe,Relevanz,
Datum fehlen
sonst spartanisch,
Fundstelle (Meta,Titel,
Domain
gelegentlich leere
URL,Text),Anzeige mit
Headlines
Datum und Größe
Besonderes
wenig Doppler,Übersetz- Relevanz fällt schnell ab, gefundene Begriffe
einige Doppler,detaillierte
ung,Profisuche mit
mögliche Erweiterung der werden gefärbt
Suche bringt kaum
Datumseingrenzung
Suche auf einen Host oder
bessere Ergebnisse
dessen Ausschluß sind
wenig hilfreich
Wertung Komfort/Qualität
2,4
2,6
2,4
2,6
Geschwindigkeit
Einfache Anfrage
Komplexe Anfrage
Wertung Geschwindigkeit
Gesamtwertung
Plazierung
1,9
1,9
1,9
2,4
1. Platz
ok.
2,2
2,4
2,3
2,5
2. Platz
2,5
2,8
2,7
2,7
3. Platz
2,2
2,5
2,4
2,8
4. Platz
ok.
ok.
ok.
ergänzende Suchbegriffe ok.
keine Farbe auf
besuchten Links
gut,Anzeige mit Datum,
URL,Größe,Ergebnis
nach Datum sortierbar
ok.
ok.
spartanisch
spartanisch
keine Mengenangabe
ok.
der Treffer
Link zur „ähnlichenSeite“ viele Doppler,nur
irreführend,wahlweise
Relevanz in %,Anzeige
Anzeige als Titelliste oder detailiert,Standard oder
mit Beschreibung
nur Titel
Links auf eigenen Katalog, zeigt sogar identische URLs
Suche nach Domainmehrfach,detaillierte
Herkunft
Suche bringt keinen
Unterschied
stark schwankende Rele- Verknüpfungen fragwürdig, keine Suchtips,
vanz,Anfrage kann direkt Bool’sche Operatoren
keine Profisuche
erweitert werden
müssen als solche ausgewiesen werden,sonst setzt
MSN automatisch AND
2,2
3
2,8
3,2
3,5
3,4
2,8
5. Platz
2,4
2,5
2,5
2,8
6. Platz
2,7
3
2,9
2,9
7. Platz
2,8
3,2
3,8
4
3,9
3,2
8. Platz
3,3
3,8
3,6
3,3
9. Platz
test suchmaschinen-vergleich
110 internet world oktober ’99
test-protokoll
test suchmaschinen-vergleich
Intersearch zeigt nicht nur die Menge der Einzeltreffer, sondern auch deren Fundstelle an
Excite liefert statt des
gesuchten aktuellen
Fernsehprogramms die
Termine der Müllabfuhr,
was auch als Wink mit
dem Zaunpfahl verstanden werden kann
Vorbildlich: Excite bietet dem User passende
Begriffe für eine Erweiterung der Suche an
sein. Für mehr allerdings nicht, da die Qualität der Übersetzung nicht ausreicht.
Bei der Wiederholung der Suchen hat
sich ergeben, daß die Anzahl der gefundeDas Ergebnis. Die allgemeine Schwarznen Treffer sehr schnell steigt. Wir haben
seherei in Sachen Qualität von Suchmaaber die Ergebnisse der ersten Abfrage als
schinen hat heute keinen Bestand mehr.
Referenz aufgeführt. Der Wert ist ohnehin
Zu allen Suchbegriffen wurden von allen
ein theoretischer und für die Qualität der
Suchmaschinen passable Ergebnisse ergefundenen Ergebnisse nicht relevant. Bei
bracht. Einzig die sehr weite Einschrän„Schröders Machtwort“ aber sank die Zahl
kung auf den exakten Terminus „Die
der Treffer innerhalb eines Tages um ein
Straße der Ölsardinen“ brachte die eine
paar hundert. Innerhalb der ersten 20 Trefoder andere Maschine an den Rand der
fer änderte sich nichts. Sollte die ReduktiVerzweiflung. Fast durchweg nur ausreion tatsächlich einer Bereinigung der Dachende Ergebnisse erzielten die Suchmatenbank entsprechen, wäre das sehr erschinen bei der Suche nach aktuellen Thefreulich. Näher liegt die Vermutung, daß
men. Machtworte Schröders waren auch
die Datenbank nicht ganz konsistente Tref1997 schon zu finden, und die Diskussion
ferzahlen auswirft, denn bei jeder Suchanum die Rentenreform reicht noch weiter
frage unterscheiden sich Ergebnisse auf der
zurück. Hier zeigen Infoseek und MSN ein
ersten Seite von denen auf der zweiten.
hervorragendes Feature, nämlich die Sortierung nach Datum. Besonders bei
Nachbessern muß vor allem Eule in
MSN kamen brandaktuelle Dokumender erweiterten Suche – die bringt kein
te auf den Schirm, die bei der normaanderes Ergebnis als die normale. Auch
len Suche nicht unter den ersten 20 geLotse sollte in Sachen Benutzerführung
landet waren.
und Hilfe nachlegen. Enttäuschend ist
Ein weiteres überraschendes Ergebdie Leistung von Excite. Beim Thema
nis erbrachte die Suche nach der aktu„Gicht“ findet die Suchmaschine neun
ellen Simply Red CD. Keine SuchmaMal einen Buchtip bei Amazon. Beim
schine brachte einen der großen CD„Machtwort“ landen die Links eins,
Händler unter den ersten 20 mit dem
drei und sieben direkt im 404-Nirvana
direkten Verkaufsangebot. Statt dessen
und das „Fernsehprogramm für Mon– und das ist aus unserer Sicht erfreutag“ bringt an dritter Stelle schon städlich – rangieren vor allem zu diesem
tische Müllabfuhrtermine. Auch InfoThema private Homepages ganz oben.
seek sortiert seine Treffer nicht gut: UnAls Testsieger geht Altavista hervor. Bei
ter „Gicht“ erscheint zehn Mal eine Site
allen Anfragen findet die Maschine un- Durch die Kooperation mit einigen Nachrichtenanbieeines Hamburger Heilpraktikers auf
ter den ersten 20 Treffern mindestens tern zeigt sich auch MSN von seiner aktuellen Seite, vor
verschiedenen Free-Hostern.
fünf wirklich passende Sites. Die allem, wenn man den Zeitraum eingrenzt
= Frank Puscher
Lage sein, identische Sites auf verschiedenen URLs zu erkennen und zu filtern.
112 internet world oktober ’99
Sucheingabe ist klar und einfach und für
den Profi jederzeit mit Bool’schen Operatoren erweiterbar. Direkt dahinter rangiert
Fireball. Deren Stärke liegt in der Aktualität der Dokumente. Dagegen muß sie in
Sachen Performance hinter Altavista
zurückstecken.
Trotz der akzeptablen Leistung muß
auch Altavista allerhand Kritik einstecken.
Die Darstellung der Ergebnisse genügt
nicht mehr dem aktuellen Stand. Man würde sich die Angabe von Dateigröße und
Bearbeitungsdatum wünschen. Die Relevanz spielt keine besondere Rolle. Auch
die Links zur weiterführenden und ergänzenden Suche vermißt man schmerzlich.
Alternativ dazu bietet Altavista die
Möglichkeit, Fundstellen übersetzen zu
lassen. Für eine erste Übersicht über den
Inhalt des Gefundenen kann das sinnvoll
magazin suchmaschinen
Nackte Tatsachen
Die Betreiber von
Suchmaschinen stecken in
der Klemme. Lassen sich
mißliebige Suchergebnisse
per einstweiliger
Verfügung unterdrücken?
Dürfen Werbebanner nach
markenrechtlich
geschützten Schlagworten
verkauft werden?
M
Es war ein schwarzer Tag im Leben
der Christie Hefner, Tochter von
Hugh Hefner und mittlerweile Chefin des
Playboy-Imperiums. Ihre Firma hatte geklagt – gegen die Suchmaschinenbetreiber
Excite und Netscape – und schließlich verloren. Im Gerichtsverfahren ging es vor allem um die Frage, ob Suchmaschinen legal handeln, wenn sie zu bestimmten
Schlagworten Werbebanner einblenden,
die sie vorher an die zahlungskräftige
Kundschaft verhökert hatten. Im konkreten Fall hatte Excite Werbebanner verkauft, die bei den Suchbegriffen „Playboy“
und „Playmate“ eingeblendet wurden.
Playboy sah darin einen klaren Verstoß gegen das Markenrecht und klagte auf Unterlassung. Beklagter im Rechtsstreit war
gleichzeitig auch Netscape, die im Netcenter den Suchservice von Excite benutzen. Das Gericht schmetterte die Klage ab.
Nach Ansicht von Rechtsexperten ist das
Urteil für die Suchmaschinenbetreiber nur
ein Pyrrhus-Sieg und noch lange kein
Grund aufzuatmen. Das Gericht hat es
nämlich versäumt klarzustellen, ob der
Verkauf von eingetragenen Markennamen
als Suchbegriff an einen Dritten eine generelle Verletzung des Markenrechts darstellt oder nicht. Es entschied, daß „Playboy“ und „Playmate“ allgemeine, generi-
40 internet world september ’99
»haften suchmaschinenbetreiber
bei meta-tag-klau?«
sche Begriffe seien und Playboy daher kein
markenrechtliches Monopol beanspruchen könne. Medienanwältin Jessica
Friedman: „Das Gericht befand sich in einer Zwickmühle. Hätte es für „Playboy“
entschieden, würden der englischen Sprache Begriffe geraubt, die nicht nur die Waren und Dienstleistungen von Unternehmen bezeichnen.“ Ganz anders sieht es
demnach bei Wörtern aus, die nicht generischen Ursprungs sind, also beispielsweise bei Unternehmensnamen wie
Microsoft, Hewlett-Packard usw. „Sun“
hingegen hätte ähnliche Schwierigkeiten
wie „Playboy“. Dabei ist die Einblendung
von Bannern in Abhängigkeit von Suchbegriffen bei vielen Unternehmen eine beliebte und gängige Marketingstrategie. Die
Zuordnung erlaubt gezieltere Werbung
und damit eine eindeutigere Einkreisung
der Zielgruppe, auch ohne Benutzerprofile. Für die Suchmaschinen ist der Bannerverkauf die einzige Erlösquelle. Noch will
niemand für schlechte Suchergebnisse
auch nur einen Pfennig zahlen. Erst kürzlich belegte die Zeitschrift „Nature“ in einer Studie, daß Suchmaschinen mit
der Indexierung der Internet-Inhalte
magazin suchmaschinen
überfordert sind. Nur maximal 16 Prozent
des WWW würden von den Suchmaschinen-Robots erfaßt. Insgesamt katalogisieren sämtliche Maschinen zusammengenommen nur etwa 40 Prozent aller Seiten
im Internet. Kein Wunder also, daß eine
zahlungswillige Klientel noch nicht in
Sites im Web und sind schon allein deshalb für die Werbeindustrie unerläßlich.
Noch ein anderes Problem macht den
Suchmaschinenbetreibern aber derzeit zu
schaffen. Eine Suche nach speziellen
Schlüsselbegriffen bei unterschiedlichen
Anbietern bringt es an den Tag: Je nach
Lust und Laune spuckt die Software die
unterschiedlichsten Homepages aus. Ein
Blick in die Meta-Tags oder Beschreibungstexte der aufgelisteten Seiten zeigt
deutlich: Meta-Tags wimmeln nur so von
Hinzu kommt die Frage, ob Suchmaschinenbetreiber nicht generell für aufgelistete Internet-Adressen haftbar zu machen
sind, die mit der gesuchten Information
nicht im Zusammenhang stehen. Rechtsanwalt und Online-Kenner Oliver Süme ist
sich sicher (siehe Kasten): Ein Anspruch
auf Unterlassung besteht durchaus auch
gegen Suchmaschinenbetreiber, weil die
erreichte Plazierung durch die Software
des Suchmaschinenbetreibers verursacht
worden sei. Da ein Unterlassungsanspruch
»ein anspruch auf unterlassung
besteht auch bei
suchmaschinenbetreibern«
Christie Hefner, Chefin des Playboy-Imperiums
Sicht ist. Experten geben dennoch Entwarnung: Das Bunny-Urteil wäre selbst
bei einem Erfolg des Playboy-Konzerns für
die Suchmaschinenbetreiber kein Genickbruch gewesen. Die Werbeerlöse seien
nicht abhängig von der Schlagwort-Verknüpfung. Suchmaschinen gehören noch
immer zu den am stärksten frequentierten
Markenbegriffen, in Beschreibungstexten
ziehen die Betreiber alle Register, um auch
den letzten Surfer auf die eigene Homepage zu locken. Bekannte Beispiele kommen von Pornoanbietern, die zum Teil
auch vor Begriffen wie „Kinderpornografie“ nicht haltmachen, um ihre hartgesottene und oft zahlungswillige Klientel anzulocken. Rechtlich ist die Situation bei
den Betreibern der Suchmaschinen hierzulande ähnlich unklar wie in den USA.
gegenüber jedem besteht, der eine rechtswidrige Einwirkung zum einen mitverursacht hat und sie zum anderen wieder verhindern kann, müssen auch die Suchunternehmen zittern.
Ähnliches gilt auch für den „Playboy“Fall. Mit dem Urteil abfinden, will sich die
Heerschar der Anwälte nicht: Das Unternehmen wird Berufung gegen die Ablehnung der Unterlassungsklage einlegen.
= Pit Klein
Der Stein des Anstoßes:
Hardcore-Banner bei Excite
tip
Haftung von Suchmaschinenbetreibern
Rechtsanwalt Oliver Süme zum Thema:
„Neben dem Verwender von rechtsverletzenden Meta-Tags kann auch gegen den Betreiber einer Suchmaschine grundsätzlich dann
ein Unterlassungsanspruch bestehen, wenn
die Meta-Tags noch verwendet werden und
der Betreiber von diesem Verhalten Kenntnis
erlangt.Schwieriger wird es dann,wenn durch
dieses Verhalten erst ein guter Listenplatz erreicht wird, ohne daß Suchmaschinenbetreiber oder der Geschädigte dies mitbekommen
haben und die entsprechenden Tags dann beseitigt werden,wenn der Platz erreicht und der
rechtswidrige Wettbewerbsvorteil erlangt ist.
Besteht dann noch ein Anspruch gegen den
Betreiber der Suchmaschine auf Beseitigung
der Plazierung ?
42 internet world september ’99
In diesem Fall geht es für den Betreiber der
Suchmaschine nicht mehr um die Verantwortung für rechtswidrige fremde Inhalte, denn
die Tags sind beseitigt und der Inhalt der gelisteten Seite ist nicht mehr rechtsverletzend.
Die Haftungsregelung der vorher noch einschlägigen Regelung des §5 Teledienstgesetz
ist daher nicht mehr einschlägig. Zurückzugreifen ist daher auf die allgemeinen gesetzlichen Unterlassungsregeln.
Dabei gilt der Grundsatz, daß ein Unterlassungsanspruch gegenüber jedem bestehen
kann, der eine rechtswidrige Einwirkung zum
einen mit verursacht hat und sie zum anderen
wieder verhindern kann. Die erreichte Plazierung ist hier durch den Suchmaschinenbetreiber verursacht worden,nämlich durch den
Einsatz der Software, auf der die Suchmaschine basiert und die Plazierung möglich macht.
Da der Betreiber diesen Zustand auch verhindern kann, kann ein Unterlassungsanspruch
gegeben sein. In der Praxis müßte dann allerdings durch den Geschädigten bewiesen werden, daß genau die erreichte Plazierung
hauptsächlich auf der Verwendung eines bestimmten Meta-Tags beruht. Unter diesen
Umständen kann ein Unterlassungsanspruch
auch gegen den Betreiber der Suchmaschine
gegeben sein.Sollte in einem solchen Fall eine
außergerichtliche Einigung scheitern,können
je nach Einzelfall die Voraussetzungen einer
einstweiligen Verfügung gegeben sein, die
dem Anspruchsteller schnellen, aber nur vorläufigen Rechtsschutz gewährt.“
SUCHEN UND FINDEN –
EIN ÜBERBLICK
Es existieren prinzipiell zwei völlig unterschiedliche Ansätze, um in Textdateien nach
Informationen zu suchen. Grep und ähnliche
Tools, welche sehr schnell eine kleine Datenmenge mit Hilfe von regulären Ausdrücken durchsuchen, und indexbasierte
Werkzeuge, die typischerweise einen sehr
großen Index benötigen, der generiert werden muß, bevor eine Suche stattfinden kann.
Diese sind dann allerdings auch bei der Suche in sehr großen Datenmengen äußerst
schnell.
INFO
Die wichtigsten Parameter von glimpseindex
Parameter mögliche Werte
-H
Verzeichnis
-b
-o
-a
-d
-f
-X
-F
-i
Bedeutung
wo befindet sich der Suchindex?
baut einen größeren Index (20-30%)
baut einen mittelgroßen Index (7-9%)
fügt dem Index die angegebenen Dateien hinzu
entfernt die angegebenen Dateien aus dem Index
fügt nur die Dateien dem Index hinzu, die sich seit
dem letzten Durchlauf geändert haben
extrahiert aus HTML-Dokumenten deren Titel-Tag
die Dateinamen für den Index werden von Standardeingabe gelesen
.glimpse_include hat Vorrang vor .glimpse_exclude
internetworld juli ’99
magazin
D
arch) vor, ein Programmpaket zur Indizierung und zur Volltextsuche im lokalen Dateisystem, das auch bei großen Datenmengen
sehr gute Ergebnisse präsentiert. Außerdem
zeigen wir, wie man sich glimpse auf der eigenen Web-Site zunutze macht, ohne mächtige aber meistens auch sehr teure Suchmaschinen installieren zu müssen.
praxis
as Internet macht’s möglich, daß
auch die aufgeräumteste Festplatte im heimischen PC nach kurzer Zeit aus allen Nähten platzt.
Ein Download hier, ein interessantes Dokument dort... nur Vorsicht!
Es wird erst einmal alles gespeichert und
natürlich auch gleich in einem eigenen Verzeichnis verstaut, um Ordnung ins Chaos zu
bringen. Doch spätestens dann, wenn ein
Freund oder eine Kollegin dringend nach Rat
fragen und man genau weiß, daß man erst
vor ein paar Wochen genau diese Information auf Platte gebannt hat, geht die Suche
los: Ein Doppelklick hier, ein Doppelklick
dort, ach nein, da war doch noch das Unterverzeichnis, oder war es doch nicht hier?
Spätestens jetzt wünscht man sich den
berühmten kleinen Helfer herbei, der dem
Gedächtnis auf die Sprünge hilft und die Suche in akzeptabler Zeit zu einem erfolgreichen Ende bringt. In diesem Artikel stellen
wir glimpse (steht für GLobal IMPLicit SE-
test
Ob Intranet oder Internet: Informationen zu finden ist
das A und O. Die Lösung heißt Suchmaschine – aber wie
programmiert man eine?
Indexbasierte Tools verwenden meistens sogenannte invertierte Indizes, bei denen für
jedes Wort (außer natürlich Worte wie „der“,
„die“, „das“, „ein“, „und“,...) vermerkt wird,
in welchen Dateien es in welchen Zeilen vorkommt. Dadurch müssen bei einer späteren
Suche nicht mehr alle indizierten Dateien
einzeln durchsucht werden. Es genügt dann,
den Index nach dem gesuchten Begriff zu
durchsuchen. Da für diesen vermerkt wurde,
wo er vorkommt, kann dann gezielt und dadurch sehr schnell auf die entsprechende
Stelle in einer Datei zugegriffen werden. Der
große Nachteil bei diesem Ansatz für den
Heimanwender ist die Größe des Indizes, die
typischerweise bei 50 bis 300 Prozent der indizierten Datenmenge liegt. Während dies
bei den kommerziellen Suchmaschinen keine so große Rolle spielt (Plattenplatz wird
immer billiger), wird man es sich zweimal
überlegen, ob man dem heimischen PC eine
zweite Festplatte spendiert, nur um den Index unterzubringen.
Ein weiterer Nachteil eines invertierten
Index ist die Tatsache, daß Suchbegriffe exakt angegeben werden müssen. Informationen mit Schreibfehlern werden nicht gefunden.
Glimpse ist eine Mischung aus den beiden beschriebenen Ansätzen. Es verwendet
ebenfalls einen Index, der allerdings in der
Regel weniger als fünf Prozent der Ursprungsdatengröße benötigt. Die Suche
berücksichtigt auch Schreibfehler, so daß
auch Buchstabendreher oder vergessene
Buchstaben das Suchergebnis nicht beeinflussen (den „Antrieb“ der Suchmaschine
liefert agrep). Man kann glimpse auch nur
die „besten“ Treffer anzeigen lassen, welches hier diejenigen mit den wenigsten Fehlern bzw. Abweichungen sind. Aufgrund der
sehr kleinen Indexgröße ist glimpse langsamer als Suchmaschinen, die einen lupenreinen invertierten Index verwenden. Die Wartezeiten bewegen sich aber trotzdem bei
ausgedehntem Suchen noch im einstelligen
Sekundenbereich. Die kleine Indexgröße
wird dadurch erreicht, daß eine zweischichtige Suche angewandt wird. Für die indizierten Begriffe wird nicht deren exakte Position
vermerkt, sondern nur die Nummer des
Blocks, in dem sich ein Begriff befindet. Innerhalb dieses Blocks wird dann wieder auf
die „herkömmliche“ Art gesucht, um die ex-
service
Such!!
aktuelles
praxis
SUCHMASCHINE
77
praxis
SUCHMASCHINE
ters –i, siehe Kasten).
Normalerweise
sind
diese Einträge allerdings nicht notwendig,
da glimpseindex recht
gute Annahmen darüber macht, welche Dateien Index-fähig sind
und welche nicht. Dies
ist alles, was man an Informationen für den Anfang benötigt. Einige
weitere Parameter sind
im Info-Kasten beSuchergebnis für den Suchbegriff „Wettbewerb“ auf der Internetschrieben.
World-Homepage – die Trefferanzahl sagt aus, wie häufig der SuchDIE WEB-SITEDie Suche auf dem
begriff auf dieser Seite vorkommt
SUCHMASCHINE
gerade erzeugten Index
Die Verwendung von glimpse besteht immer Dokumenten im Index auch deren Titel zu übernimmt das Programm glimpse selbst.
aus zwei Teilen. Zuerst muß für den Bereich speichern, der dann später im Suchergebnis Die einfachste Suche sieht wie folgt aus:
im Dateisystem, auf dem später die Suche wieder auftaucht. Bei der Indizierung wer- glimpse –U –H /glimpse/ersterIndex
stattfinden soll, in unserem Beispiel dem den auch Unterverzeichnisse berücksichtigt. suchbegriff
Standardmäßig erzeugt glimpseindex Als Ergebnis bekommen wir nun jedes ein„Document-Root“ des Web-Servers, ein Index erstellt werden. Im zweiten Teil findet den kleinstmöglichen Index. Möchte man die zelne Vorkommen von Suchbegriff in den indann unter Verwendung dieses Indizes die Suche beschleunigen, so kann man mit den dizierten Dateien. Die Sonderbehandlung
Parametern –o und –b einen mittleren (7-8 von HTML-Dateien, ähnlich wie bei der Ereigentliche Suche statt.
Prozent) bzw. einen großen (20-30
Prozent) Index erzeugen lassen. Im
Indexverzeichnis befinden sich nun
mehrere Dateien, deren Namen alHTML-Formular
Weitere Infos zum
le mit „.glimpse_“ beginnen. In
glimpse-Paket
„.glimpse_filenames“ stehen bei<HTML>
spielsweise die Namen der Datei<HEAD>
Das komplette glimpse-Paket können
en, die indiziert wurden. FehlermelSie von http://glimpse.cs.arizona.edu
<TITLE>Lokale Suchmaschine</TITLE>
dungen stehen in „.glimpse_mesladen, wo es sowohl als Sourcecode
</HEAD>
sages“ und den Index selbst findet
als auch in Binärform verfügbar ist.
<BODY BGCOLOR=#FFFFFF>
man in „.glimpse_index“. StanWenn Ihnen der Aufwand zu groß ist,
<H1>Suche in lokaler Website</H1>
dardmäßig werden alle Dateien inglimpse in die eigene Web-Site einzu<FORM ACTION=glimpse.cgi>
diziert, die glimpseindex im angebauen, sollten Sie einen Blick auf WebSuchbegriff: <INPUT TYPE=TEXT name=suchbegriff>
geben Verzeichnis findet.
Glimpse werfen (http://glimpse.cs.
<INPUT TYPE=submit VALUE=Suche
Dieses Verhalten kann man
arizona.edu/webglimpse).
</FORM></BODY></HTML>
steuern, indem man mit einem TexAufsetzend auf einem glimpse-Index
teditor die Dateien „.glimpse_inist es ein Leichtes, eine komplette Site
clude“ und „.glimpse_exclude“ anmit einer Suchmaske zu versehen. LeiDie Indizierung übernimmt das Programm legt. In diesen kann man angeben, welche
der ist noch kein komplettes Windowsglimpseindex, welches Bestandteil des Ge- Dateien berücksichtigt bzw. nicht berückPaket von glimpse verfügbar. Die
samtpakets ist. Einen ersten Index erhält sichtigt werden sollen. Zeilenweise gibt man
eigentliche Suchmaschine, agrep,
reguläre Ausdrücke (wie bei der Verwendung
man durch den Aufruf:
wurde aber bereits portiert (unter
von grep-Tools) an, mit denen Dateinamen
glimpseindex –X –H
http://www.geocities.com/SiliconValverglichen werden. Der Eintrag „*.zip$“ in
/glimpse/ersterIndex /HTMLDokumente
ley/Lakes/4889/agrep.html). Damit
glimpseindex erzeugt daraufhin im Verzeich- „.glimpse_exclude“ bedeutet beispielsweikönnen Sie die flexible und schreibnis/glimpse/ersterIndex einen Index aller in- se, daß ZIP-Archive nicht indiziert werden
fehlertolerante Suche implementiedizierbaren Textdateien, die es im Verzeich- sollen. Einträge in „.glimpse_exclude“ haren. Es fehlt aber noch die Indexerstelnis /HTMLDokumente findet. Der Parameter ben Vorrang vor Einträgen in „.glimpse_ inlung.
–X veranlaßt das Programm dazu, zu HTML- clude“ (außer bei Verwendung des Parameakte Position herauszufinden. Auch hier ist
aber nicht alles Gold was glänzt. Bei Suchbegriffen, die aus mehreren Wörtern bestehen, bekommt glimpse Schwierigkeiten,
wenn jedes Wort für sich sehr häufig gefunden wird, die Kombination der Wörter aber
eher selten ist. In diesem Fall nähert sich die
Performance eher der nicht-indizierten Volltextsuche an.
Doch nun genug der Theorie. Anhand einer kleinen (aber voll funktionsfähigen)
Suchmaschine für ein Web-Site werden wir
jetzt eines von vielen Einsatzgebieten von
glimpse in Aktion zeigen.
LISTING 1
78
internetworld juli ’99
INFO
aktuelles
BELIEBIG
ERWEITERN
rigen Speicherplatzbedarfs und des unschlagbar günstigen Preises (kostenlos) ist
glimpse nicht nur eine Alternative als Suchmaschine für Websites, sondern auch zur Indizierung von CD-ROMs, bisher undokumentiert auf der Festplatte liegenden Einzeldokumenten und sogar zur Indizierung von jahrelang gewachsenen und unübersichtlich
gewordenen Mailboxen. Die Aussage „Ich
weiß, ich habe Dir die Mail geschickt, leider
weiß ich nicht mehr, wo ich sie gespeichert
habe“, gehört mit glimpse endlich der Vergangenheit an.
■ Markus Schärtel
magazin
Natürlich kann man
die Suchmaschine beliebig komplex erweitern und verfeinern.
Als Ausgangspunkt
Rudimentäre Suchmaske: Über dieses kleine HTML-Formular starfür eigene Versuche
ten Sie die Suche auf Ihrer lokalen Suchmaschine
sollte dieses kleine
Beispiel aber ausreistellung des Indizes, erzwingen wir durch chend sein. Aufgrund der sehr flexiblen
den Parameter –U. Damit bekommen wir Suchmöglichkeiten, der einfachen Installatinicht nur den Dateinamen, sondern eben on, der akzeptablen Performance, des niedauch den Titel des HTML-Dokuments mitgeliefert.
Da man beim Suchergebnis innerhalb einer Web-Site nicht an jedem einzelnen VorDas Suchmaschinen-CGI
kommen des Suchbegriffs interessiert ist,
01 #!/usr/bin/perl
sondern nur an den Dokumenten, die den
02 use CGI;
Suchbegriff enthalten (auch mehrfach), geben wir noch den Parameter –c mit an. glimp03 $query = new CGI;
se zählt dann nur noch die Anzahl der Treffer
04 $programmAufruf = “glimpse -i -U -c -H /glimpse/ersterIndex “ .
pro Dokument, liefert diese aber nicht mehr
05
$query->param( “suchbegriff” );
einzeln als Ergebnis. Das Suchergebnis hat
06
dann schließlich den folgenden Aufbau:
07 @ergebnis = `$programmAufruf`;
Dateiname1 Titel1: Trefferanzahl1
08
Dateiname2 Titel2: Trefferanzahl2
09 if( scalar @ergebnis == 0 ){
Dateiname3 Titel3: Trefferanzahl3
10
Dateiname4 Titel4: Trefferanzahl4
11 } else {
Dateiname5 Titel5: Trefferanzahl5
12
$ergebnis = “<ul>”;
...
13
foreach ( @ergebnis ){
...
14
Mit diesen Grundlagen sind wir jetzt gerüstet, um unsere Suchmaschine zu realisieren. In Listing 1 ist das HTML-Formular abgebildet, welches wir verwenden, um unsere
Suchparameter einzugeben – nichts Weltbewegendes, aber es erfüllt seinen Zweck. Das
CGI-Gegenstück ist in Listing 2 zu sehen. In
den Zeilen 4 und 5 wird der Aufruf der Suchmaschine „zusammengebaut“. In Zeile 7 findet die eigentliche Suche statt. Das Ergebnis
kommt zeilenweise zurück und ist dann in
@ergebnis zur weiteren Verarbeitung verfügbar.
Falls der Suchbegriff gefunden wurde,
wird aus jeder Zeile der Dateiname, der Titel
des Dokuments und die Trefferanzahl extrahiert (Zeile 13 bis 18). Diese Bestandteile
werden dann in HTML-Listenform in der Variable $ergebnis gespeichert. Von Zeile 21 an
wird dann nur noch das CGI-Ergebnis ausgegeben. Fertig ist die Suchmaschine.
15
praxis
LISTING 2
$ergebnis = “<B>Leider nichts gefunden</B>”;
( $url, $titel, $anzahl ) =
m,/HTMLDokumente(\S*)\s+([^:]*):\s+(\d+)$,;
16
$ergebnis .= “<li>“ .
“<A HREF=$url> $titel - $anzahl Treffer </A><BR>”;
18
}
19
$ergebnis .= “</ul>”;
test
17
20 }
21 print <<”EOF”;
22 Content-type: text/html
23
24 <HTML>
25 <HEAD>
26 <TITLE>Lokale Suchmaschine Suchergebnis</TITLE>
27 </HEAD>
28 <BODY BGCOLOR=#FFFFFF>
29 <H1>Suche in lokaler Website: Suchergebnis</H1>
30 $ergebnis
service
31 </BODY>
32 </HTML>
33 EOF
internetworld juli ’99
79
praxis
SUCHMASCHINEN
Parallele
Suche
mit Meta-Suchmaschinen
Oft müssen bei der Suche nach Informationen mehrere
Suchmaschinen bemüht werden. Meta-Suchmaschinen
nehmen die Arbeit ab und bereiten die Ergebnisse auf.
eta-Suchmaschinen ermöglichen eine parallele Recherche
über mehrere Engines. Dabei
unterscheiden sich die verschiedenen Maschinen vor allem in der Datenaufbereitung,
also der Sortierung nach Trefferrelevanz
oder Ausblendung von Duplikaten.
M
APOLLO 7
Einer der deutschen Kandidaten ist Apollo7.
Der Such-String wird in eine übersichtliche
Eingabemaske eingegeben und an zehn
deutsche Suchmaschinen – meist kleinere
wie Lotse oder Sharelook – gesandt. Die Einstellmöglichkeiten beschränken sich auf maximale Suchzeit und Quellen. Die Treffer werden übersichtlich in Listenform ausgegeben.
DOGPILE
Die englischsprachige Suchmaschine Dogpile bietet umfangreiche Suchfunktionen an.
Standardmäßig lassen sich 14 Suchmaschinen befragen. Die benutzerdefinierte Suche
erweitert die Abfrage auf Usenet, FTP-Archive, News, Suchmaschinen und weitere
Quellen. Leider werden die gruppierten Ergebnisse lieblos ausgegeben.
HIGHWAY 61
Highway 61 ist die etwas andere Suchmaschine. Die Feldbeschreibungen sind witzig
formuliert, die Ergebnisse werden mit einem
Relevanzfaktor versehen und danach gruppiert. Bei der Ausgabe läßt sich festlegen, ob
geklickte Links im selben Browser-Fenster
oder in einem neuen betrachtet werden.
INFERENCE FIND
Der Suchumfang von Inference Find ist mit
fünf Suchmaschinen nicht überwältigend –
die großen sind aber dabei. Ergebnisse werden in Listenform, aber nicht immer nachvollziehbar sortiert. Interessant für Homepage-Besitzer: Per HTML-Code läßt sich ein
Eingabefenster in jede Web-Page integrieren. Die Suchmaschine ist mit einer
mehrsprachigen Oberfläche ausgestattet.
An der deutschen Seite sollten die Betreiber
allerdings noch ein wenig arbeiten.
INTERNET SLEUTH
Internet Sleuth behauptet, auf 3.000 Datenbanken zurückgreifen zu können. Für die
direkte WWW-Suche werden sechs Maschinen genutzt. Daneben stehen – ähnlich Dogpile – Suchmöglichkeiten in News-Diensten,
Software-Archiven und Usenet-Datenbanken zur Verfügung. Interessant: Eine Kategorienliste kann die Suche auf bestimmte Themengebiete einschränken.
Meta-Suchmaschinen: Alle Kandidaten im Überblick
Name
URL
Suchmaschinen
Apollo 7
www.apollo7.com
Nathan, Eule, Lotse,
Sharelook, Netguide,
Hotbot, Sternchen,
Jesus.de, Medizin.de,
Paperboy
Einstellmöglichkeiten
Timeout, Suchmaschinen
Listaufbereitung
Gruppierung nach
Ergebnissen
Listaufbereitung, gruppiert bewertete Listausgabe
nach Suchmaschinen
bool’sche Operatoren
+/–
Phrasen
Besonderheiten
AND, OR
p
k. A.
deutsche Suchmaschine,
Spion
AND, OR, NEAR
P
P
Suche über Usenet, FTP,
News Wires, Stock Quotes,
Yellow Pages, White Pages,
Maps, Weather
74
internetworld april ’99
Dogpile
Highway 61
www.dogpile.com
www.highway61.com
Altavista, Excite, GoTo.com, Lycos, Yahoo, Excite,
Infoseek, Lycos, Lycos’ a2z, Infoseek, WebCrawler
Yahoo, Thunderstone, Excite
Guide Search, Mining Co.,
What U Seek, Magellan,
WebCrawler
–
Trefferanzahl, Timeout,
Linkausgabe in neuem
Fenster möglich
P, über Menü
P
p
originell gestaltete
Suchmaschine
Inference Find
www.ifind.com
Altavista, Excite, Infoseek,
Yahoo, WebCrawler
Internet Sleuth
www.isleuth.com
Altavista, Excite, Infoseek,
Lycos, WebCrawler, Yahoo
Mamma
www.mamma.com
Yahoo, Excite, Infoseek,
Lycos, WebCrawler,
Altavista, Hotbot
p
Timeout, Suchmaschinen
Listaufbereitung über
gefundene URLs,
Bewertung der Ergebnisse
AND, OR
P
P
Anleitung zum Einbau der
Suchmaschine in eigene
Homepage
gruppiert nach
Suchmaschinen
Timeout, Anzahl Ergebnisse/Seite, Anzeige
Zusammenfassung,
Suche über Seitentitel
sortiert nach
Trefferrelevanz
P
P
k. A.
Suche über Reviews,
News, Software, Usenet
P
P
P
Suche über Usenet,
News, Stock Quota, MP3,
Bilder, Sounds
Als einziger Kandidat im Überblick gibt Metafind die maximale Trefferzahl pro Suchmaschine vor. Dafür bietet Metafind eine vorbildliche Auswahl an Optionen zur Listenaufbereitung. Als einzige Suchmaschine lassen sich die Sortierkriterien wie Schlüsselworte oder URL direkt wählen. Diese Möglichkeiten entschädigen für die etwas karge
Eingabemaske.
METACRAWLER (GO2NET)
Die umfangreichen Einstellmöglichkeiten
von Go2Net werden direkt auf der „Personal“-Seite knapp und verständlich beschrieben. Go2Net bietet vor allem bei der Aufbereitung der Ergebnisse einige interessante
Einstellmöglichkeiten. Neben maximaler
Trefferzahl pro Suchmaschine lassen sich
auch die Anzahl der Resultate pro AusgabeSeite angeben. Die Ergebnisse werden mit
einem Relevanzfaktor versehen und sortiert
in einer Liste ausgegeben. Hervorzuheben
ist noch die Möglichkeit, die Einstellungen
zu speichern.
METAGER
Die deutsche Suchmaschine MetaGer liefert
mit Abstand die detailliertesten Einstellmöglichkeiten. Besonders gelungen ist die
Kontrolle der Treffer vor der Ausgabe. Tote
Links haben so keine Chance. MetaGer bezieht neben deutschen Suchmaschinen auch
englischsprachige mit ein.
METAGOPHER
Als einzige Meta-Suchmaschine versucht
MetaGopher anhand von Schlüsselbegriffen
bei Bedarf jugendgefährdende Informationen auszufiltern. Die Suchtiefe kann manuell bestimmt werden: Nur Treffer, die oberhalb der bestimmten Hierarchiestufe auf der
Web-Site abgelegt sind, werden angezeigt.
aktuelles
Die „Mutter aller Suchmaschinen“ (Eigenwerbung), bietet umfangreiche Quellen zur
Suche an. Neben der Recherche in klassischen Suchmaschinen kann auch gezielt im
Usenet und in News-Archiven gesucht werden. Interessant für Musik-Freaks dürfte die
direkte Suche von MP3-Stücken sein. Außergewöhnlich ist außerdem die Selektion von
Bildern und die Auswahl der zu befragenden
Suchmaschinen per Menü. Zur besseren
Übersicht werden die ermittelten Ergebnisse
nach Relevanz bewertet und sortiert.
Die ermittelten Ergebnisse können auf
Wunsch mit einem Relevanzfaktor versehen
und anhand dieser Information sortiert werden. Homepage-Besitzer können die Suchmaschine in ihre Site integrieren.
SAVVY SEARCH
Die Konfiguration von Savvy Search erinnert
stark an einen Fragebogen. Die Optionen der
Suchmaschine werden mit einem Relevanzfaktor zwischen eins und fünf gewichtet. Die
Einstellungen lassen sich speichern. Bei der
Auswahl der Suchmaschinen geht Savvy
Search einen eigenständigen Weg: Zunächst
fragt die Software vier Engines ab. Reichen
diese Resultate nicht, können per Klick die
nächsten vier Maschinen angefragt werden.
magazin
METAFIND
SUCHEN.COM
Die dritte deutsche Suchmaschine im Überblick bietet wie MetaGer eine Kombination
aus englischsprachigen und deutschen
Suchmaschinen. Die Suchergebnisse werden in einer Liste aufbereitet, doppelte Ergebnisse aussortiert. Bei der Auswahl der
Suchmaschinen läßt Suchen.com sowohl im
nationalen, als auch internationalen Bereich
nahezu keine Wünsche offen.
M Andreas Hitzig
praxis
MAMMA
Metacrawler
www.metacrawler.com
Altavista, Excite, Infoseek,
Lycos, WebCrawler, Yahoo,
Thunderstone, LookSmart,
Mining Co.
Metafind
www.metafind.com
Altavista, Excite,
Infoseek, PlanetSearch,
WebCrawler
MetaGer
meta.rrzn.uni-hannover.de
Dino, web.de, Yahoo (dt),
Hotbot, Fireball, Altavista,
Crawler.de, Hotlist, Allesklar,
Nathan, Netguide, Lycos,
Gerhard, Uni-Hannover
MetaGopher
www.metagopher.com
Infoseek, Yahoo, Altavista,
Excite, Lycos, Magellan,
Hotbot, WebCrawler
SavvySearch
www.savvysearch.com
Lycos, WebCrawler, Goggle,
Thunderstone, DirectHit,
NationalDirect, Excite, Altavista,
Infoseek, HotBot, Galaxy
Timeout, Anzahl Ergebnisse/Seite, Ergebnisse/
Suchmaschine
Timeout, Erläuterung
zu Seiten anzeigen,
Sortierkriterien für
Ergebnis
sortiert nach
Benutzervorgabe
Timeout, Anzahl Ergebnisse/
Seite, Linkprüfung
Erläuterung zu Seiten,
Filter für jugendgefährdende Inhalte,
Suchtiefe in Seiten
sortiert nach
Trefferrelevanz
Priorität der einzelnen
Suchmaschinen
P
P
P
Speicherung der
Einstellungen möglich
P
P
P
festgelegte Anzahl
von Ergebnissen pro
Suchmaschine
sortiert
P
p
Prüfung der Links, Suche in
dt. Usenet, Suchbegriffe auf
URLs überprüft
P
P
P
umfangreiche Einstellmöglichkeiten –
speicherbar
sortiert nach
Trefferrelevanz
Zusammenfassung der Ergebnisse,
Eliminierung von Doubletten, Kurzinfos
zu Ergebnissen
P
P
P
P
P
P
verfügbar in mehreren Sprachen, um- Suche über deutsche und amerikanische
fangreiche Einstellmöglichkeiten
Suchmaschinen
speicherbar, viele weitere Suchmöglichkeiten über News, Shareware,
Usenet, Magazine, eMail-Adressen etc.
internetworld april ’99
75
service
sortiert nach
Trefferrelevanz
Suchen.com
www.suchen.com
Crawler, Yahoo (dt./engl.), Excite (dt./engl.),
Lycos (dt./engl.), Spider, web.de, Nathan,
Eule, Dino, Aladin, Intersearch, Interfux,
Lotse, Allesklar, Hotlist, Altavista,
NothernLight, Infoseek, Hotbot, GoTo.com,
WebCrawler, ThunderStone
Timeout, Anzahl Treffer
test
ÜBERSICHT
die Sie über den dargestellten Teil einer
HTML-Seite und deren Quelltext durchführen können. Bei bestimmten Recherchen
ist es sinnvoll, nur einen bestimmten Teil einer Seite zu durchsuchen. Benötigen Sie ein
Bild zu einem bestimmten Thema oder einer
bestimmten Person, können Sie mit Hilfe des
Image-Begriffs Ihre Suche einschränken:
image:gates sucht nach Bildern des Herrschers über das MS-Imperium. Gerade für
Homepage-Besitzer ist es wichtig zu wissen,
angestelltes „O“ gekennzeichnet: OADJ,
ONEAR und OFAR. Suchen Sie beispielsweise einen englischen Text über Rennautos
und definieren Sie den Suchstring mit „race
ADJ car“, so werden auch Seiten gefunden, die den String „car race“ enthalten
– „race OADJ car“ schließt die ungewollten Ergebnisse aus. Bei den Befehlen können Sie zusätzlich noch den Abstand der Wörter definieren, der maximal bestehen darf.
LYCOS
INTERSEARCH
Die
deutsche
Suchmaschine
Lycos
(http://www.lycos.de), die, von den USA aus
agierend, inzwischen weltweit elf Niederlassungen besitzt, bietet neben der gewohnten
Standardfunktionalität eine Erweiterung der
Befehle ADJ, NEAR und FAR an. Damit können Sie neben der Position der angegebenen
Begriffe auch noch deren Reihenfolge bestimmen. Die Befehle werden durch ein vor-
Intersearch (http://www.intersearch.
de) hat seine Zusatzfunktionen als Datenbank-Selektoren definiert. Mit denen können Sie Ihre Suche auf Titel, Meta-Bschreibungen, HTML-Text, eMailAdressen oder URLs einschränken. Gerade bei professionell gestalteten Seiten finden sich die maßgeblichen Inhalte in einer Reihe von Meta-Tags zusammengefaßt und können zur konkreten
Suche verwendet werden. Wenn Sie Hotbot bietet neben grellem Design umfangreiche
nach Seiten suchen, die als Schlüssel- Suchoptionen, die vor allem Metainformationen einbegriffe „Bug“ und „IE“ haben, sieht der beziehen – so läßt sich gezielt nach Informationen
Suchstring wie folgt aus: +META:Bug suchen, die im HTML-Code verborgen sind
+META:IE. Auch die Suche nach einer
eMail-Adresse, die auf einer Seite verwendet ob Ihre Seiten in vielen anderen Seiten als
wurde, gestaltet sich einfacher: EMAIL: Link angeboten wird. Fireball liefert Ihnen
[email protected]
diese Informationen mit dem String link:
Titel geben einen Überblick über den In- <Web-Server>, beispielsweise link:internethalt einer Seite. Das Schlüsselwort TITLE be- world.de für den Server dieses Magazins.
schränkt die Suche auf die TITLE-Tags einer
Beim Surfen im Internet kommt es mitunHTML-Seite, TITLE:„Internet World“ liefert ter vor, daß der Surfer von einer Seite zur anSeiten, in denen „Internet World“ vorkommt. deren springt und sich danach nicht mehr genau an den Namen einer speziellen Site erFIREBALL
innern kann, die er besucht hat. Wer sich
Die Spezialität der Suchmaschine Fireball noch an einen Teilstring, wie „internet“ und
(http://www.fireball.de) ist die Feldsuche, die TLD „com“ erinnert, den sollte der
test
er richtige Suchstring ist der
Schlüssel zur erfolgreichen Suche
im Internet. Wir zeigen Ihnen in
dieser Folge die unbekannten
oder selten eingesetzten Spezialfunktionen der wichtigsten internationalen Suchmaschinen sowie der Testsieger aus IW 7/98. Den kompletten Befehlssatz der vorgestellten Suchmaschinen
finden Sie im Anschluß an diesen Artikel auf
unserem Miniposter.
D
aktuelles
magazin
Im ersten Teil des Workshops wurde die Grundfunktionalität der Suchmaschinen durchleuchtet. Viele Suchmaschinen bieten weiterführende Funktionen an, die das
Suchen erheblich erleichtern und effektiver gestalten.
internetworld februar ’99
59
praxis
effektiv einsetzen
(2)
intranet
Suchmaschinen
service
praxis
SUCHMASCHINEN
Die Suchmaschine Lycos setzt bei ihrer Oberfläche besonders auf vielfältige Einstellmöglichkeiten – Sie können über eine grafische
Oberfläche viele Angaben zur Suche und Ergebnisaufbereitung machen
Suchstring url:internet AND domain:com
zum gewünschten Ergebnis führen.
EXCITE
Auch Excite (http://www. excite.de) erreichte beim Test der IW noch ein befriedigendes
Ergebnis, bietet jedoch im Hinblick auf Zusatzfunktionen keine allzu großen Möglichkeiten. Hilfreich ist höchstens die Einschränkung der Suchmenge, die Ihnen die Auswahl
zwischen dem gesamten Bereich des WWW,
europäischen oder deutschen Seiten bietet.
Zusätzlich können Sie auch noch Nachrichten aus dem Usenet mit in Ihre Suche einbeziehen. Ganz passabel ist die Aufbereitung
der Informationen – interessant ist hier vor
allem die Funktion der ähnlichen Sites. Zu jedem Suchergebnis bekommen Sie neben der
Prozentanzahl auch noch die Möglichkeit,
auf Basis der Informationen einer Seite direkt eine neue Suche zu starten. Auch so
kommen Sie manchmal ans Ziel.
Gerade die internationalen Suchmaschinen bieten eine größere Datenbank und
damit weitreichendere Möglichkeiten der
Suche. So bieten beispielsweise die drei populären Suchmaschinen Altavista, Hotbot
und Infoseek eine Reihe interessanter Möglichkeiten, wie Sie sich effektiver durch die
Informationsflut wühlen können.
HOTBOT
Mit einer beeindruckenden Vielfalt an Optionen wartet die Suchmaschine HotBot
(http://www.hotbot.com) auf. Diese Funktionalität ist vor allen für Programmierer und
Designer interessant, da Sie damit gezielt
nach bereits bekannten Realisierungen
suchen und darüber Ansätze für Ihre eigenen
Projekte finden können. Über den Meta-Be60
internetworld februar ’99
griff feature läßt sich nach Zusätzen einer
Seite suchen: Applets, Flash Plug-Ins,
Shockwave-Dateien oder Audio-Dateien
sind nur einige. Der Syntax ist simpel gehalten: feature:<object>, für ActiveX Controls also feature:activex.
Hilfreich ist auch die Funktion
depth:<tiefe>, mit der Sie die Suchtiefe innerhalb von Seiten angeben können. Wollen Sie lediglich Informationen anzeigen,
die sich im Root-Verzeichnis der Site befinden oder im ersten unterordnet, so geben
Sie als Tiefe 2 an. Mit dem Meta-Begriff
scriptlanguage:[VBScript|JavaScript] können Programmierer nach eingesetzten
Scripts suchen und sich damit schnell Lösungen im Web betrachten.
Sind Sie auf der Suche nach Nachrichten,
die innerhalb der letzten Tage ins Netz gesetzt wurden, können Sie über within:number/unit einen konkreten Zeitraum angeben.
Suchen Sie beispielsweise nach aktuellen
Informationen zu Bill Gates zweitem Kind,
werden Sie mit +„Bill Gates“ +child within:1/month sicher fündig. Sie können die
Seiten sogar mit konkreten Daten einschränken: „Bill Gates“ +child AND before:31/12/98 AND after 1/12/98
chen. Interessieren Sie sich also für Seiten,
die über den Text „Internet World“ angesteuert werden, hilft Ihnen der Suchstring
anchor:„internet world“. Hilfreich ist auch
die Funktion host:name. Wer kennt nicht die
Situation: Sie erinnern sich noch genau an
eine Web-Site, auf der Sie eine interessante
Seite gesehen haben. Nachträglich finden
Sie diese Seite aber nicht mehr. Hier hilft Ihnen Altavista: Sie geben wie gewohnt Ihre
Suchbegriffe ein, beschränken die Suche
aber auf einen Rechner wie host:www.microsoft. com. Eine hilfreiches Feature ist auch
die automatische Übersetzung. Zwar kommen teilweise merkwürdige Konstrukte dabei heraus, für einen Überblick reicht es aber.
INFOSEEK
Der deutsche Ableger konnte im IW-Test
nicht glänzen. Der große Bruder aus Amerika (http://www.infoseek.com) besitzt aber
eines der größten Archive der Welt inklusive
einiger interessanter Funktionen und wurde
deswegen hier aufgenommen. Infoseek kategorisiert die Seiten in einem internen Index, der auch für die Suche genutzt werden
kann. Wenn Sie beispielsweise aus der Rubrik Internet näheres über Suchmaschinen
wissen wollen, geht das über eine Pipe: RuALTAVISTA
brik|Unterrubrik, also internet|„search engiAuch der Klassiker Altavista (http://www. ne“. Infoseek speichert auch alle Informaaltavista.com) hat einiges zu bieten. Eine tionen, die in den ALT-Tags des HTML-Quelltexts angegeben wurden. Gerade bei BilFunktion, die wir bis jetzt in keiner andedern bietet dieses Vorgehen eine inren Suchmaschine gefunden haben
teressante Alternative zum Metaist „anchor“. Damit lassen sich
befehl „link“ an.
Texte der Hyperlinks untersuIn den vorangegangenen Beispielen konnte nicht auf alle Funktionen der Suchmaschinen
eingegangen werden.
Der folgende Überblick
liefert aber eine komplette Übersicht der Befehle und soll helfen,
schneller zu den gewünschten Informationen zu
kommen. Wenn Sie auf
weitere Funktionen bei
Suchmaschinen stoßen,
mailen Sie einfach an:
Bei der Ausgabe ordnet Excite den gefundenen Seiten jeweils eine
mail @internetworld.de,
Relevanz in Prozent zu – Interessant ist bei dieser Suchmaschine
Betreff: Search-Engine.
auch die Verzweigung auf verwandte Seiten, die eine neue Suche
■ Andreas Hitzig
auf Basis der angeklickten Seite startet
miErweiterte Suchfunktionen der Search-Engines
URL
Lycos
www.lycos.de
Intersearch
www.intersearch.de
Fireball
www.fireball.de
Excite
www.excite.de
Altavista
www.altavista.com
HotBot
www.hotbot.com
Infoseek
www.infoseek.com
Allgemeine Einstellungen
Suche nach allen Wörtern
V
V
V
V
V
V
V
Suche nach mind. einem Wort
V
V
V
V
V
V
V
Eingabe einer Frage
V
p
p
p
V
V
p
Eingabe einer Phrase
V
V
V
V
V
V
V
Sortierung nach Domains
V
p
p
V
V
V
V
variable Anzahl
Suchergebnisse/Seite
V
p
p
V
V
V
V
A AND B
+A +B
A AND B
+A +B
A AND B
A&B
A AND B
+A +B
A AND B
+A +B
A AND B
A&B
A AND B
+A +B
ODER
A OR B
A OR B
A,B
A OR B
A|B
A OR B
A OR B
A OR B
A|B
A OR B
A,B
NOT
NOT A
-A
NOT A
-A
NOT A
!A
NOT A
-A
NOT A
-A
NOT A
!A
NOT A
-A
A BEFORE B
p
p
p
p
p
p
A NEAR B
Abstand max. 25 Worte
A NEAR B
A NEAR B
p
Abstand max. 10 Worte p
A NEAR B
Abstand max. 10 Worte
p
p
p
p
Wort A weit entfernt von Wort B A FAR B
Abstand mind. 25 Worte
p
p
p
p
p
p
p
p
p
Wort A unmittelbar bei Wort B
A ADJ B
p
p
p
p
p
p
Festlegung des Abstands
von FAR/NEAR
A NEAR/Anzahl B
A FAR/Anzahl B
p
p
p
p
p
p
p
p
p
p
p
p
Vorgabe Reihenfolge bei
ADJ/NEAR/FAR
A OADJ B
A ONEAR B
A OFAR B
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
Suchbereiche
komplettes Dokument
Menüoption
all:Begriff
Menüoption
p
Standard
Menüoption
Standard
Titel
Menüoption
title:Begriff
Menüoption
p
title:Begriff
Menüoption
title:Begriff
title:Begriff
p
Logische Operatoren
UND
Wortzusammenhänge
Wort A vor Wort B
Wort A nahe bei Wort B
Web-Adresse
Seiten einer URL
Menüoption
Menüoption
url:Adresse
p
eMail-Adresse
eMail-Finder
email:Adresse
Meta-Begriffe
p
meta:Begriff
Link
p
p
Menüoption
p
url:Adresse
p
Menüoption
p
host:hostname
p
metaname:Begriff
title:Begriff
url:Adresse
Menüoption
url:Adresse
host:hostname
Menüoption
site:hostname
mailto:Adresse
p
mailto:Adresse
spezielle Site
p
p
p
link:hostname
p
link:hostname
Menüoption
p
link:hostname
p
Domains
p
p
domain:DE
p
domain:DE
domain:DE
p
Applet
p
p
applet:Name
p
applet:Name
feature:applet
p
Bild
p
p
image:Name
p
image:Name
feature:image
p
Sonstiges
Wildcard
inter*
inter*
inter*
inter*
inter*
inter*
inter*
Platzhalter
p
inter???
p
p
p
p
p
Phrase
„internet world“
„internet world“
„internet world“
„internet world"
„internet world“
„internet world“
„internet world“
Zusammenfassung
(A OR B) AND C
(A OR B) AND C
(A OR B) AND C
(A OR B) AND C
(A OR B) AND C
(A OR B) AND C
(A OR B) AND C
reguläre Ausdrücke
p
199[1...3] anstelle 1991
AND 1992 AND 1993
p
p
p
p
p
Sortierung nach Begriffen
p
p
V
V
p
p
p
Sonderfunktionen
p
p
verschiedene
Ausgabeformate:
Standard, Detail
und Kompakt
Suche in untersch.
Excite Katalogen
und Newsgroups
Übersetzung von Seiten
feature:name für
acrobat, applet, activex,
audio,embed, flash,
form, frame, image,
script, shockwave,
table, video, vrml
Suche in ALT-Tag
Ähnliche Seiten
Suche im Usenet
newsgroup:name
Suche im Usenet
newsgroup:name
Einsatz Pipe (|) zur
Definition von
Überbegriff|Begriff
Name eines Links, der
auf eine Seite verweist
anchor:text
Datumseingrenzungen
after:dd/mm/yy before:
dd/mm/yy within:
number/unit
Suche nach Scripts
scriptlanguage:[language]
✂
V = ja p = nein
internetworld februar ’99
61
praxis
SUCHMASCHINEN
Suchmaschinen
im Griff (1)
Das Angebot an Informationen im Internet wächst
täglich. Für Einsteiger wird es – trotz Suchmaschinen –
immer schwieriger, schnell brauchbare Sites zu finden.
er kennt die Situation nicht?
Man ist auf der Suche nach
dringend benötigten Informationen und sitzt ratlos vor
einer Internet-Suchmaschine. Anstelle der gewünschten Daten spuckt die Searchengine aber nur
eine scheinbar endlos lange Liste an URLs
aus, die zum Teil nicht das geringste mit den
gesuchten Infos zu tun haben.
W
TECHNIK DER
SUCHMASCHINEN
Suchmaschinen bedienen sich Robots, die
das Internet nach Informationen durchforsten. Dabei werden Homepages bis zu einer gewissen Hierarchietiefe untersucht und
die Daten an die Suchmaschine übermittelt.
Da diese Informationen aber schlecht strukturiert sind, werden Sie – bevor Sie in einer
Datenbank landen – indiziert. Die häufig vorkommenden Begriffe werden dabei in die
Datenbank übernommen. Jede Suchmaschine wertet zusätzlich auch noch spezielle,
von den Erstellern der Homepage definierte
Begriffe aus (siehe dazu Artikel „Suchmaschinen“, IW 8/98, S. 54). Abhängig vom
Eingabestring sucht die Maschine die einzelnen Begriffe in der Datenbank zusammen
und gibt sie nach ihrer Relevanz absteigend
aus. Wenn Sie nun einen zu allgemeinen
Suchbegriff angeben, findet die Engine
Unmengen von Daten. Hier gilt es anzusetzen und die gewünschten Informationen so
genau als möglich einzukreisen. Sie sollten
sich vor Ihrer Suche eine Reihe von Begriffen
aus dem Umfeld der gewünschten Informationen überlegen und in diesem Zusammenhang auch Mehrfachbedeutungen explizit
ausschließen. Suchen Sie beispielsweise
78
internetworld januar ’99
Metasuche: Zur ersten Suche bieten sich spezielle Tools wie WebFerret an, die gleichzeitig
mehrere Suchmaschinen nach den eingegebenen Begriffen durchforsten
mit dem Schlagwort „Golf“, kann das Ergebnis sowohl Berichte über das Auto, den Sport
oder auch geographische Sites liefern. Je
eindeutiger Sie Ihre Anfrage stellen, desto
weniger Mißverständnisse entstehen dabei.
UNTERSCHIEDLICHE
SUCHMASCHINEN
Einen maßgeblichen Teil des Erfolgs macht
die Wahl der richtigen Suchmaschine aus. Je
nach Art der benötigten Informationen empfiehlt sich die Verwendung einer allgemeinen Suchmaschine oder einer speziellen
Suchmaschine, die sich auf ein bestimmtes
Themengebiet spezialisiert hat und meist
sorgfältig gepflegtere Informationen enthält. Umfangreiche Listen über deutsche
und internationale Suchmaschinen, sowie
zu Spezialsuchmaschinen finden Sie beispielsweise bei Yahoo (http://www.yahoo.de/
computer_und_internet/internet/world_wide_
web/web_durchsuchen/suchmaschinen) und
Web.de (http://web.de/Internet/Suchen+%
26+Finden/Deutsche+ Suchmaschinen).
Einen effizienteren Ansatz bietet die Verwendung einer Meta-Suchmaschine. Dabei
handelt es sich um ein Programmsystem,
das eine Anfrage an mehrere Suchmaschinen und Kataloge parallel abschicken kann,
um eine weitaus bessere Trefferquote zu erzielen. Darüber hinaus werden die Ergebnisse der befragten Suchmaschinen von der
Meta-Suchmaschine ausgewertet, die doppelten Einträge eliminiert und das
Ergebnis aufbereitet. Entwickelt
wurde dieses System an der Universität von Washington, an der
findige Programmierer auch den
Metacrawler entwickelten (http://
www.metacrawler.com). An der Uni
Hannover wurde eine – speziell
auf deutsche Searchengines abgestimmte – Metasuchmaschine
programmiert, die unter http://
meta.rrzn.uni-hannover.de zu finden ist. Neben diesen Server-seitigen Meta-Suchmaschinen gibt es
auch kleine Programme, die Sie
auf Ihrem Rechner installieren
können und die Client-seitig operieren. Eine Auswahl finden Sie im
IW-Web.
SUCHSTRATEGIE
Neben der Auswahl einer geeigneten Suchmaschine oder Meta-Suchmaschine ist die
Auswahl einer richtigen Suchstrategie fürs
Ergebnis ausschlaggebend. Ein wichtiger
Bestandteil von Suchstrings ist die sogenannte bool’sche Aussagelogik. Damit werden mehrere Argumente mit logischen Operatoren verknüpft und von der Suchmaschine ausgewertet. Die gängigen – allgemeinen Operatoren – sind anhand der Beispiele im Kasten „Suchmaschinen-Syntax“
näher erläutert. Der IW-Testsieger Lycos
(http://www.lycos.de) aus IW 7/98 („Suchmaschinen: Was leisten sie wirklich“, S.
86ff ) bietet einige mächtige Funktionen, mit
denen Sie die Wortzusammenhänge eines
Textes untersuchen können. Dabei handelt
es sich um die Funktionen ADJ, NEAR, FAR
und BEFORE. Sie suchen beispielsweise
nach bekannten Bugs des Internet Explorer
etwas andere Syntax: Bei Lycos erfahren Sie
anhand ausführlicher Beispiele, welche Möglichkeiten zur Verfügung stehen
4.0. Wenn Sie die Suche nun ausschließlich
mit AND bzw. OR gestalten, bekommen Sie
eine Vielzahl von Seiten in die Ergebnismenge, die zwar die beiden Begriffe enthalten,
aber nicht in direktem Zusammenhang ste-
aktuelles
maschine per Kontrollkästchen auch gleich
die Funktion NEAR und mehrere MUST INCLUDE-Auswahlmöglichkeiten offen.
ALTERNATIVEN
magazin
Sollte Ihnen der Weg über die Suchmaschinen nicht zum Erfolg verhelfen, dann gibt es
alternative Methoden. Nicht selten hilft die
Web-Gemeinde bei der Suche nach Informationen weiter. Eine Anfrage in einer der vielen Newsgroups ist oft von Erfolg gekrönt.
Wenn es sich um tagesaktuelle Informationen handelt, werden Sie auch oft auf den Sites von deutschen Tageszeitungen (Sammlung unter http://www.zeitungen .de) oder
speziellen News-Diensten wie Cnet News
(http://www.news. com) fündig.
In der nächsten Ausgabe kommen
die Profis mit ausgefeilten Tips
und Tricks für die besten vier
Searchengines auf ihre Kosten.
■ Andreas Hitzig
test
Jede Suchmaschine bietet bei der Suche eine
hen. Mit dem Operator ADJ können Sie Wörter in unmittelbarer Nähe suchen. NEAR
/<Anzahl> erlaubt es, einen Abstand zwischen den Suchwörtern zu definieren, der
maximal bestehen darf. „internet explorer“
near/10 bug liefert beispielsweise alle Seiten, auf denen die Wörter „internet explorer“
und „bug“ maximal 10 Wörter Abstand haben. Einen hilfreichen Ansatz bieten auch die
Suchmöglichkeiten von Hotbot (http:// www.
hotbot.com). Hier können Sie auch nach
speziellen Objekten wie Applets, Scripts
oder Grafiken innerhalb einer Seite suchen.
Die Index-Software berücksichtigt dabei nicht nur inhaltliche Begriffe,
sondern neben den META-Tags
auch weitere Informationen aus dem
HTML-Quellcode.
Außerdem stehen Ihnen bei
dieser Such-
INFO
Suchmaschinen-Syntax
Schlüsselwort Zeichen Bedeutung
AND
Beispiel
Altavista
Lycos
+
Angegebener Begriff muß im Ergebnis enthalten sein.
+Internet
Ja
Ja
-
Angegebene Begriff darf nicht im Ergebnis enthalten sein. -Internet
Ja
Ja
*
Nur Wortstamm wird angegeben (Truncation)
Inter*
Ja
Ja, Symbol ist $
()
Abhängig von der Klammerung wertet der Interpreter
Redakteur AND („Pit Klein“ OR „Patrik Bock“) hat ein anderes Ja
der Suchmaschine die Anfragen unterschiedlich aus
Ergebnis als (Redakteur AND „Pit Klein“) OR „Patrik Bock“
„ “
Ausdruck muß im Ergebnis enthalten sein
„Internet World“
Ja
Ja
&
Findet nur Dokumente, in denen die alle angegebenen
Magazin AND „Internet World“
Ja (Advanced Help)
Ja
Magazin OR „Internet World“
Ja (Advanced Help)
Ja
Magazin AND NOT„Internet World“
Ja (Advanced Help)
Ja
praxis
Die Möglichkeiten beim Zusammenstellen von Suchstrings unterscheiden
sich meist nur unwesentlich. In der folgenden Tabelle werden die wichtigsten Befehle von Altavista und Lycos gegenübergestellt. Die
Befehle und die Syntax unterscheiden sich – wie bei vielen anderen Suchmaschinen auch – nur unwesentlich.
Ja
OR
|
Findet alle Dokumente, in denen mindestens eines der
intranet
Begriffe enthalten sind
angegebenen Wörter enthalten ist
!
Schließt Dokumente mit den angegebenen Begriffen
aus dem Ergebnis aus
1/8 Seite quer
Net.-D.
service
NOT
internetworld januar ’99
79

Documentos relacionados