Evaluation von Textindexierern

Transcrição

Evaluation von Textindexierern
MTU - Gruppenarbeit
SS 2002
Evaluation von Textindexierern
Remo Jud
Sandro Auf der Mauer
Daniel Roth
Andreas Mühlemann
Assistentin
Pamela Ravasio
www
www.iha.bepr.ethz.ch/pages/
leute/ravasio/all4u/all4u.html
MTUGruppenarbeit
Evaluation von Textindexierern
Sommersemester
2002
Sandro Auf der Mauer, Remo Jud,
Andreas Mühlemann, Daniel Roth
In Zusammenarbeit mit
Regine Herdeg (Uni Karlsruhe)
Anne Held (Uni Karlsruhe)
Agnes Koschmider (Uni Frankfurt)
Zusammenfassung
Einleitung
Die MTU-Gruppenarbeit ist ein Teil des ETH-World Projekts “All4you”,
welches eine Navigations-, Orientierungs- und Organisationshilfe für einen
"persönlichen Informationsraum" innerhalb ETH-World entwickelt. Die
Textindexierer sollen mehrere Darstellungsarten der gespeicherten
Dokumente ermöglichen und themenspezifische Dokumente miteinander
verknüpfen.
Ziel
Ziel der Gruppenarbeit ist es, einen Anforderungskatalog für
Textindexierer zu erstellen und verschieden Produkte anhand dieses
Kataloges auf ihre Leistungsfähigkeit hin zu vergleichen.
Resultate
Als Resultat dieser Gruppenarbeit konnte festgestellt werden, dass im
Bereich Information Retrieval viele Programme angeboten werden aber
kein Programm gefunden werden konnte, das perfekt auf die
Anforderungen eines Einzelplatzsystems zugeschnitten ist.
Die bisherigen Anstrengungen wurden vor allem im Bereich Internet
unternommen, und damit die Einzelplatzsysteme entsprechend
vernachlässigt.
Ausblick
Die evaluierten Programme sind entweder zu teuer, oder bieten nicht die
Möglichkeiten, die man sich wünscht. Da die Programme meist nur in
Demoversionen zur Verfügung standen, konnte nicht sämtliche
Funktionalität getestet werden. Es wurde kein Programm gefunden, das
auf dem PC als unerlässliches Werkzeug gilt.
Der Markt für leistungsfähige Textindexierer auf dem PC ist wohl noch zu
klein, um eine regelrechte Killerapplikation hervorzubringen, die künftig
zum Standard gehört. Die Programme sind einem steten Wechsel
unterworfen, Updates bringen immer weitere Möglichkeiten zu Tage. Eine
weitere Beobachtung dieses Bereiches kann unter Umständen in kurzer
Zeit starke Verbesserungen aufzeigen.
Inhaltsverzeichnis
AUFGABENSTELLUNG............................................................................................................... 4
EINLEITUNG ................................................................................................................................... 4
HINTERGRUND ............................................................................................................................... 4
ZIELDEFINITION ............................................................................................................................. 4
VORGEHENSWEISE .................................................................................................................... 5
VORAUSWAHL ................................................................................................................................ 5
ABLAUF DER EVALUATION ............................................................................................................. 6
BEWERTUNG .................................................................................................................................. 6
ZUSAMMENFASSUNG DER RESULTATE............................................................................... 8
DIE TEXTINDEXIERER IM DETAIL ...................................................................................... 10
CONSEARCH 6.5........................................................................................................................... 10
DTSEARCH 6.06............................................................................................................................ 11
ISYS DESKTOP 6.......................................................................................................................... 13
SEARCH32 5.06............................................................................................................................ 15
THE SLEUTHHOUND! PRO POWER PACK ....................................................................................... 17
VOLLTEXTINDEXIERER IM INCOME DOCUMENT CENTER ........................................................... 19
FAZIT ............................................................................................................................................ 21
ANHANG A ................................................................................................................................... 22
TESTFILE ...................................................................................................................................... 22
Aufgabenstellung
Einleitung
Im Rahmen des E-Work Seminars der Universitäten Frankfurt, Karlsruhe und der ETH
Zürich wurde u.a. das Thema "Evaluation von Textindexierern" behandelt.
Sinn und Zweck eines Indexierers ist es, mit Hilfe von Schlagworten möglichst schnell und
effizient einen Text zu einem bestimmten Thema zu suchen. Aufgrund der stark
wachsenden Datenmengen und dessen Verteilung über das Internet gewinnt das
elektronische Wissensmanagement stark an Bedeutung.
Obwohl Suchmaschinen im Internet zum Alltag gehören und dem Benutzer das Auffinden
der gesuchten Informationen erleichtern, finden sich auf den Einzelplatzsystemen selten
vergleichbare Programme. Es bleibt dem Benutzer überlassen, wie er seine Dokumente
ordnet und die Informationen wiederfindet.
Der Windows Explorer bietet eine einfache Suchmaschine, welche Dateien anhand ihres
Namens wiederfindet. Über den Inhalt kann allerdings keine Auskunft gegeben werden.
In folgender Betrachtung werden daher nur Textindexierer analysiert, die über einen
Volltextindex verfügen. Diese Indexierer liefern qualitativ bessere und vor allem schnellere
Suchergebnisse, da die Wörter der indexierten Dokumente sortiert und verknüpft werden.
Hintergrund
Das Thema wurde von einer Gruppe von Studenten unterschiedlicher Fachrichtungen der
drei beteiligten Universitäten bearbeitet. Wie der Name E-Work schon erahnen lässt, ist
das Ziel des Seminars, trotz der örtlichen Distanz, eine gemeinsame, einheitliche Arbeit zu
erstellen. Ein wichtiger Bestandteil des Seminars war somit die Kooperation und
Abstimmung der Teilnehmer untereinander mittels verschiedener Kommunikationsmedien.
Über ein Videokonferenzsystem wurden Point-to-Point-Konferenzen, aber auch MultipointKonferenzen abgehalten, um die Arbeit aufzuteilen und um seminarspezifische Fragen zu
klären.
Ferner wurde Application Sharing verwendet. So war es möglich während der Konferenz
Dateien gleichzeitig zu bearbeiten. Die Zwischenergebnisse wurden auf dem
Arbeitsgruppen-System BSCW, zu dem jeder der Teilnehmer Zugang hatte, abgelegt.
Zusätzlich bestand ein reger Informationsaustausch via Email.
Als eine grosse Hilfe stellte sich vor allem das persönliche Treffen in Karlsruhe heraus, bei
dem die Seminarteilnehmer die Arbeit strukturieren und das weitere Vorgehen besprechen
konnten. Ein gemeinsam benutzter FTP-Account erleichterte das erstellen der ProjektHomepage.
Zieldefinition
Ziel dieses Seminarthemas ist es, die Funktionen einiger ausgewählter Textindexierer zu
testen, sie zu vergleichen und zu beurteilen. Die Textindexierer sollen übersichtlich
Auskunft über die gespeicherten Dateien liefern. Dies geschieht im Rahmen des ETHWorld Projektes "All4you", das eine Navigations-, Orientierungs- und Organisationshilfe für
einen "persönlichen Informationsraum" innerhalb ETH-World entwickelt. Die Plattform soll
unter anderem den Austausch von Information über die Grenzen der persönlichen
Informationsräume hinweg unterstützen.
Vorgehensweise
Vorauswahl
Der erste Schritt zur Vorauswahl der Indexierer war eine Literatur- und Webrecherche, die
zur Auflistung folgender Textindexierer führte:
Agent Ransack
askSam
AT Search
CLARIT
Connex TRS
Con Search 6.5
ConText (Oracle Corp.)
Cool Find
Doku-Finder 1.0
dtSearch 6.06
EFS/RetrievalWare/ConQuest
Examine
FindWord 1.2c
Folio VIEWS
Fulcrum
GetInfo
Glimpse 4.1 / Webglimpse
Harvest
Hoover
Hummingbird Search Server
Hyper-G
IBM Search Manager
IBM Digital Library
INCOME Document Centers
Infobank classic
Insight Into Information
Isearch
Isys Desktop 6
KAT-CeDe
Lars II
LIDOS / FAUST
MegaMedia
OMNIS/Myriad
Open Text 5
Personal Librarian
Pfaff-Archiv
Search32 5.06
SearchExpress
Search Library
Swish-E
Texwise-DR-Link
The Sleuthhound!
Topic
TRIP
UltraFind
WAIS
Tabelle 1:
Übersicht der gefundenen Textindexierer
Parallel dazu wurde der Anforderungskatalog erstellt, der die notwendigen Funktionalitäten
enthält. Diese Anforderungen sollten von den jeweiligen Programmen erfüllt werden.
Anhand des Kataloges wurde eine Vorselektion vorgenommen, bei der viele der
gefundenen Programme aus dem Rennen fielen.
Dateiformate
Suche
System
Darstellung
Resultate
Preis
TXT, HTML, DOC, XLS, PPT, PDF, RTF, PS
Boolesche Operatoren, Wildcards
Microsoft Windows, Einzelplatz
Eigener Browser, kein Webserver notwendig
Sortierung, Speicherung der Resultate möglich
Angemessen für Einzelplatzlizenz
Tabelle 2:
Anforderungskatalog
Anhand der Beschreibung der Eigenschaften der einzelnen Indexierer wurde
offensichtlich, dass einige nicht den Anforderungen gerecht werden konnten. Entweder
konnten die geforderten Dateiformate nicht indexiert werden oder die Programme standen
nicht zum Download bereit. Deshalb kamen sie für die nächste Testrunde nicht in Frage.
Aufgrund teilweise nur dürftig vorhandener Information auf den Homepages der
Programmhersteller, war ein kurzer Test der Demoversionen notwendig. Es stellte sich
heraus, dass die vorhandenen Funktionen der Indexierer oft nicht dem entsprachen, was
auf der Website versprochen wurde. Nach diesem ersten Schritt der Evaluation, standen
schliesslich die sechs Kandidaten für eine vertiefte Evaluation fest:
• Con Search 6.5
• dtSearch 6.06
• INCOME Document Centers, Oracle interMedia Text Option
• Isys Desktop 6
• Search32 5.06
• The Sleuthhound
Ablauf der Evaluation
Im Zweiten Schritt wurden die sechs Programme eingehender miteinander verglichen. Als
Testumgebung wurde ein Rechner des Institutes für Hygiene und Arbeitsphysiologie der
ETH Zürich verwendet.
Rechner
Dell Optiplex Gxa/M
Prozessor
Hauptspeicher
Festplatte
Pentium III, 266 MHz
64 MB
4 GB, SCSI
Tabelle 3: Beschreibung der Testmaschine
Für die Indexierung wurden 2 Verzeichnisse vorbereitet.
Das erste Verzeichnis enthielt kleine Dokumente, in den gewünschten Dateiformaten. Die
Dokumente wurden vorgängig erstellt und enthielten einige wenige Sätze und Begriffe. Die
genaue Kenntnis dieser Dokumente ermöglichte es, detaillierte Suchanfragen zu stellen.
Anhang A zeigt das Textfile, das als *.doc, *.html, *.pdf, *.ps, *.rtf, und *.txt gespeichert
und indexiert wurde. Für die restlichen Formate wurden ähnliche Dateien erstellt. Die ZippArchive wurden ebenfalls aus diesen Dateien zusammengestellt und komprimiert.
Das zweite Verzeichnis diente vor allem der Leistungsmessung. Als Grundlage dienten
hierfür Linux HowTo-Dokumente und Artikel der Zeitschrift c‘t aus dem Jahre 1998. Die
Dateien konnten von den entsprechenden CD-Roms auf die Festplatte kopiert werden. So
kamen schlussendlich ca. 70MB an Dokumenten in *.txt und *.html Format zusammen.
Die Testprozedur sah für alle Programme gleich aus:
1. Indexierung des kleinen Verzeichnisses
2. Suche nach bestimmten Begriffen im Index, dabei wurden auch die Phonetische
Suche, Boolesche Operatoren und Wildcards benutzt
3. Funktionalität feststellen (Abspeicherung Resultate, Sortierung, Aktualisierung
Index, ...)
4. Indexierung des grossen Verzeichnisses, mit gleichzeitiger Zeitmessung
5. Suche nach Begriffen im Index
6. 2. Indexierung des grossen Verzeichnisses um festzustellen, ob nur neue oder
geänderte Dateien indexiert wurden oder der komplette Index neu erstellt wurde
Bewertung
Formate
Die Textindexierer wurden auf die folgenden Formate getestet:
Worddokumente
Excelsheets
TXT-Dateien
Acrobatdateien
Ghostview
Internetseiten
Emailformate (Outlook)
Powerpointepräsentationen
Rich Text Format
Gezippte Dateien
*.doc
*.xls
*.ansi-txt
*.pdf
*.ps
*.html / *.htm
*.eml
*.ppt
*.rtf
*.zip
Tabelle 3: getestete Dateiformate
Suche
Die Suche wurde anhand der folgenden Kriterien betrachtet.
unterschiedliche Laufwerke
Wechselmedien
Ausschluss bestimmter Pfade
Dateiendungen
Phrasensuche
Booleschen Operationen
Suche mit Wortstämmen
Wildcards
Fuzzysuche
Konzeptsuche
Phonetischen Suche
Proximitysuche
Thesaurus
Sortierung
Gleichzeitiges Durchsuchen von verschiedenen Laufwerken möglich
oder nicht
Beispiel CD-ROMS, Zipp-Laufwerke oder Disketten
Erlaubt die Indexierung bestimmter Verzeichnisse und verhindert dass
Programme etc. indexiert werden (Bsp. c:\winnt\*, c:\program files\*)
Einzelne Formate können anhand der Dateiendung ausgeschlossen
werden (Bsp. *.jpg, *.gif, *.exe)
Suche nach zusammenhängenden Satzteilen
AND, OR, NOT und XOR erlauben Verknüpfungen von einzelnen
Begriffen
Ermöglicht die Erkennung eines Wortes in den verschiedenen
Deklinationen und Konjugationen. Beispielsweise wird bei der Eingabe
von "hören" auch die Form "gehört" gefunden
Erlauben es dem Benutzer, Platzhalter für einzelne Buchstaben oder
Zeichenketten zu verwenden. So würde die Suche mit der Eingabe
Gast* auch die Wörter Gaststätten oder Gasthaus als Ergebnisse
anzeigen
Das Suchprogramm übernimmt selbst die Platzierung der Wildcards
Zu bestimmten Begriffen werden auch Wörter als Ergebnis angezeigt,
die in einem inhaltlichen Zusammenhang mit dem gesuchten Begriff
stehen. Um dies zu erreichen, sind im Programm des Textindexierers
Begriffssammlungen zu einzelnen Themengebieten angelegt
Suche mit Hilfe einer phonetischen Klassifizierung der Buchstaben.
Somit liefert das Suchwort "Meyer" auch Dokumente, die "Meier"
enthalten
Nachbarschaftssuche, Anwender können bestimmen wie viele Wörter
zwischen zwei Suchbegriffen liegen dürfen
Sucht nach Synonymen, Antonymen oder Ober- und Unterbegriffen
nach Alphabet, Datum, Dateityp, Grösse, …
Tabelle 4: Suchkriterien
Sonstiges
Untersucht wurden bei den Programmen die Geschwindigkeit der Indexerstellung und der
Aktualisierung.
Die Geschwindigkeit der Suche wird durch eine eventuell vorhandene Stoppwortliste stark
erhöht, da häufig auftretende Wörter wie Konjunktionen, Artikel oder Hilfsverben nicht in
die Suche miteinbezogen werden.
Ein weiterer Punkt war die Pflege und die Aktualisierung der Wortlisten, die sich in der
Regel automatisch bei Dateiänderungen oder in regelmässigen Abständen ändern.
DtSearch 6.06
+
insgesamt 125
+
Xml, sdw
Täglich, wöchentlich,
monatlich, einmalig, bei
Systemstart, bei Login,
wenn Prozessor x
-
MTU Arbeit SS 2002: Evaluation von Textindexierern
-
nur manuell
+
+
-
-
-
+
+
-
+
+
+
+
+
+
+
+
-
+
+
+
-
+
+
+
-
einfach
+, schlechte
Präsentation
+, schlechte
Präsentation
-
schwierig
schwierig
Win 9x/NT/2000
$199
Odyssey Development DtSearch Corp.
ISYS Desktop 6
Win 9x/NT/2000
Win 9x/NT/2000/XP
$658.00, free
nicht bekannt
download
(Demoversion für 30
Tage)
Emailordner einfach
durchsuchbar
Readware
Con Search 6.5
sonstige Eigenschaften
Pflege der Wortlisten
--> automatisch, wenn
sich Dateien ändern
--> in regelmässigen
Alle x Minuten, um x
Abständen
Uhr
Adobe Acrobat (PDF)
*.pdf
Dokumente gespeichert
in ZIP *.zip Archiven
EML (e-mail)
Weitere
Bedienbarkeit
Formate
Text-Dokument *.txt
MS Word *.doc
MS Excel *.xls
MS PowerPoint
*.ppt,*.pps
RTF *.rtf
HTML *.htm, *.html,
*.shtml
Postscript *.ps
Besonderheiten
Plattform
Preis
Allgemein
Hersteller
Produkt
Zusammenfassung der Resultate
8/22
!
-
-
!
*.asp
*.phtml
+
+
-
*.php
Unicode
+
+/+/+
+
+
+
+/+
einfach
nur Demoversion
verfügbar, max. 500 Files
indexierbar, Speicherung
etc. nicht möglich
$95.95
iSleuthHound
Technologies
The Sleuthhound!
optional
-
-
-
-
+
+
+
+
-
intuitiv
Indexierung des
Browsercache; Interner
Viewer springt zu den
Suchergebnissen
Win 9x, NT
$39.00
Anet Ltd
Search32 5.06
!
!
+
alle vorhandenen Files
+
+
+
+
+
+
+
+
+
Das Produkt ist Bestandteil von
einem Dokumentenmanagementsystem. Die
Qualität der Suchergebnisse ist
hoch. Läuft auf zentralem
Server.
einfach
Alle Plattformen mit Oracle 9i
Datenbank-Lizenz
Oracle und Promatis
INCOME Document Center,
Oracle interMedia Text Option
-
+/-
-/-
AND, OR, NOT
+
+
-
Name/Datum/Dateityp/
Gösse
+
-/-
AND, OR, NOT
+
+
+
+
-
Filter- und Sortierfunktionen
+
Unterordner
+/+
drucken
+/+
+
MTU Arbeit SS 2002: Evaluation von Textindexierern
Legende:
+
erfüllt
nicht erfüllt
!
konnte nicht bewertet werden (in Demoversion nicht vorhanden)
Tabelle 5: Übersicht der Resultate
Qualität der
Suchergebnisse
Abspeichern
Suchresultate
Geschwindigkeit
-Suchbereiche
Beliebige Laufwerke/
arbeitet verzeichnisVerzeichnisse
orientiert
Auszuschliessende
Pfade
Dateiendungen
+/ausschl./einschl.
Suche
Boolesche Operationen
Kompliziert
Wildcards
Proximity
Konzeptsuche
Phonetische Suche
Phrasensuche
Fuzzysuche
Synonyme/ Antonyme
Ober- & Unterbegriffe
Weitere
Resultate
Suchresultate sortierbar
-
Minuten unausgelastet
(anstatt
Leerlaufprozess des
Betriebsystems)
+
-
+
-
9/22
AND, OR, NOT
+
+
+
-
+/+ für jeden Pfad
einzeln möglich
+
+/+
++
-
+
-
AND, OR, NOT
+
!
!
!
!
!
!
!
-/-
-
+
!
können als Ordner / Dokumente
/ Klasse gespeichert werden
+
+
+
+
+
!
+
!
+
+
+, nur für Englisch
+
+
+
+++
Die Textindexierer im Detail
ConSearch 6.5
ConSearch ist als Testversion für 30 Tage frei verfügbar. Danach verlangt die Firma
Readware jedoch 658 für die Lizenz der Software.
Suchvorgang
Der Umgang mit dem Programm ist auf den ersten Blick nicht leicht. Die Übersetzung aus
dem Englischen ins Deutsche wurde vom Hersteller nicht sauber vollzogen. Die
verschiedenen Buttons sind nicht angemessen beschriftet. Die Gestaltung der Oberfläche
ist unübersichtlich, weshalb eine gewisse Einarbeitungszeit nötig war.
Die Software ist vor allem auf die Suche nach Themengebieten ausgerichtet, was aber
nicht fehlerlos funktioniert. So wurde zum Beispiel ein Text über Frösche nicht dem Thema
Natur zugeordnet. Im Gegensatz zur Indexerstellung erfolgte die Anzeige der Suchergebnisse sehr schnell.
Indexiervorgang
Der Indexiervorgang wird über das Kontextmenü beim Rechtsklick auf das zu
durchsuchende Verzeichnis gestartet. Dadurch wird der Umfang der zu indexierenden
Files von vornherein bestimmt und es erübrigt sich die Angabe von auszuschliessenden
Verzeichnissen. Die Ersterstellung eines Indexes über das grosse Verzeichnis mit ca. 70
MB Dateien dauerte rund 52 Minuten. Die CPU-Auslastung betrug während des Testens
zwischen 60 und 100 Prozent. Der Rechner ist dementsprechend kaum für paralleles
Weiterarbeiten zu nutzen. Da man das Programm nur über das Kontextmenü öffnen kann,
wird bei jedem Start der Index des zugehörigen Ordners aktualisiert. Dieser Vorgang hat
rund 8 Minuten benötigt. In Anbetracht dessen, dass nur zwei Dateien minimal verändert
wurden, eine etwas schlechte Leistung!
Bewertung
Negativ aufgefallen sind in erster Linie die langsame Indexierung, der sehr hohe Preis und
die schwache Gestaltung der Oberfläche. Das können die positiven Aspekte, die
übersichtliche Darstellung der Suchergebnisse und die Suchgeschwindigkeit, nicht
ausgleichen. Insgesamt erhält der ConSearch 6.5 eine eher schlechte Beurteilung.
Unser Fazit:
Link
http://www.readware.de
dtSearch 6.06
DtSearch ist in sechs verschiedenen Ausführungen erhältlich. DtSearch Desktop ist für
einen User bestimmt und kostet 199$. Es stehen zusätzlich folgende Versionen zur
Verfügung: dtSearch Network (5 User / 800$ oder 25 User / 3500$), dtSearch Web (1
Server / 999$), dtSearch Engine (1 Server / 999$) und dtSearchPublish (250 CD's /
2500$).
Suchvorgang
Durch die angenehm und übersichtlich gestaltete Oberfläche, lässt sich der Suchvorgang
leicht durchführen. Allerdings werden die heute weit verbreiteten Formate ps und pdf nicht
gefunden. Die Suchresultate können abgespeichert werden. Bei den Power Point
Präsentationen werden die Folien durch Linien unterteilt und alle darin enthaltenen Wörter
aufgelistet.
Das Arbeiten mit dem Index ist durch die hohe Geschwindigkeit sehr komfortabel.
Teilweise kommt der dtSearch bei der Suche kurz ins Stocken.
Indexierung
Die Erstellung eines Grossindexes benötigte auf der Testumgebung rund 40 Minuten. Ein
Update (ohne Änderung) nahm nur 2 Minuten Rechenzeit in Anspruch, da nur neue oder
geänderte Files indexiert werden. Der Index erreicht eine Grösse von 60 MB.
Die CPU-Auslastung betrug 40-70% bei kleinen und etwa 50-90% bei grösseren Files. Für
mp3, gif, jpg etc. existieren exclude filters, die die Arbeit stark erleichtern. Für
Aktualisierungen des Indexes existieren viele Möglichkeiten der Einstellung, zum Beispiel
kann der Zeitpunkt der Aktualisierung selbst festgelegt werden (täglich, wöchentlich,
monatlich, einmalig, beim Systemstart, beim Login, wenn der Prozessor während x
Minuten unausgelastet ist).
Bewertung
Auf den ersten Blick ist der dtSearch sicher ein sehr angenehmes und
benutzerfreundliches Programm. Allerdings findet das Programm keine ps- und pdf-Files,
was für den Gebrauch unerlässlich ist. Ohne diesen gravierenden Nachteil, könnte man
den dtSearch sicher zu den Topprogrammen zählen, so aber erhält das Programm nicht
die besten Beurteilungen.
Unser Fazit:
Link
www.dtsearch.com
Übersichtliche Darstellung des
Indexierprozesses.
• erledigte Arbeit
• aktuelle Situation
• noch ausstehende Arbeit
Abbildung 1:
DtSearch während Indexiervorgang
Die Prozessorauslastung lässt
weiteres Arbeiten zu.
Abbildung 2:
Prozessorauslastung während Indexiervorgang von DtSearch
ISYS Desktop 6
Das Programm besteht aus den vier Teilprogrammen ISYS Utilities, Query, Start Center
und Knowledge Warehouse. Über den Preis wurden keine Angaben gemacht.
Suchvorgang
Mit ISYS Query können beliebige Abfragen getätigt werden. Als Hilfe kann angegeben
werden wie ein gewisser Suchbegriff beginnen oder enden soll. Wenn man den genauen
Wortlaut nicht kennt, genügt die Angabe, wie er ungefähr klingen soll. Zudem kann die
Suche anhand von fünf Parametern eingeschränkt werden:
• Within a paragraph of…
• In the same paragraph as…;
• Within 10 words of…;
• Followed anywhere by…;
• In the photograph labelled.
Das Programm besitzt weiter sehr hilfreiche Filter- und Sortierfunktionen. Die Suche geht
flott, allerdings werden Ergebnisse nicht direkt angesprungen. Sie werden zwar markiert,
aber zuerst muss nach ihnen gescrollt werden. Auf der Homepage des Anbieters wird
angegeben, dass 125 Dateiformate gefunden werden. Auch E-Mail Ordner können zum
Durchsuchen angegeben werden.
Indexiervorgang
Mit Hilfe von ISYS Utilities kann einfach ein Index erstellt werden. Zuerst wird festgestellt,
welche Files es zu indexieren gilt. Auf der Testumgebung beanspruchte dieser Vorgang
rund 13 Minuten. Danach wird der Indexierprozess gestartet, was wiederum 16 Minuten in
Anspruch nahm. Am Ende wurden die gefundenen Wörter in einer Zeit von 4 Minuten zu
einem Gesamtindex zusammengefügt. Mit rund 33 Minuten schneidet der ISYS Desktop 6,
was die Indexierdauer betrifft relativ gut ab. Auch die Aktualisierung benötigt nur wenig
Zeit, in 3 Minuten wird der Index (ohne Änderung) überarbeitet.
Bewertung
Alles in allem ist der ISYS Desktop 6 ein gutes und leistungsfähiges Suchprogramm.
Teilweise ist es jedoch etwas umständlich und mühsam zu bedienen. Man benötigt eine
gewisse Zeit zur Einarbeitung, um mit dem Programm zurecht zu kommen. Anschliessend
geht die Arbeit zügig von der Hand.
Unser Fazit:
Links:
www.isys.com.au
www.isysusa.com
Abbildung 3:
IsysDesktop Index
Abbildung 4:
IsysDesktop Indexierung
Search32 5.06
Search32 ist ein Shareware Textindexier-Programm von Anetsoft Ltd. aus Russland. Da
die Homepage des Hersteller längere Zeit offline war, stand für den Test nur die Version 5
des Programms zu Verfügung. Im April 2002 sollte aber bereits Version 6 erschienen sein.
Mit einem Preis von $39 ist Search32 der günstigste Kandidat im Rennen.
Suchvorgang
Die Suchmöglichkeiten beschränken sich auf eine Exaktwort- oder Teilwortsuche
(=beschränkte Wildcards). Dabei kann man mehrere Suchbegriffe mit AND, OR und NOT
verknüpfen. Der grösste Mangel des Programms besteht hinsichtlich der Präsentation der
Resultate. Alle Dateien, deren Inhalte einem Suchmuster entsprechen, werden in
willkürlicher Reihenfolge in einer Scroll-Liste aufgeführt. Es ist nicht möglich, diese Liste
nach Datum, Anzahl, Fundstellen, etc. zu ordnen. Man muss die Suche soweit eingrenzen,
dass nur wenige Dokumente gefunden werden. Ansonsten wird die Arbeit mit Search32
unübersichtlich. Das Programm hat einen internen Viewer für die Dateien, der automatisch
zu den einzelnen Suchergebnissen springt. Die Navigation in den gefundenen Files ist
sehr komfortabel, html-Dateien sind sogar "browsable" (inkl. Bilder und funktionierenden
Links).
Indexiervorgang
Die Indexierung verläuft sehr intuitiv. Nach Angabe der zu indexierenden Dateien/Ordner
erstellt Search32 einen Index. Das Programm kann beliebig viele verschiedene Indizes
nebeneinander verwalten. In der Testumgebung indexierte das Programm in der absoluten
Rekordzeit von rund 16 Minuten. Dies ist das mit Abstand beste Resultat im Test. Ein
grosser Nachteil sind jedoch die unterstützten Dateiformate. So erkennt die getestete
Version 5 nur reine Text-, html- und doc- Dateien.1 Andere Dateitypen können theoretisch
auch indexiert werden, diese werden dann jedoch als ASCII Dateien interpretiert und
liefern dementsprechend schlechte Resultate.
Bewertung
Hervorzuheben ist die intuitive Oberfläche und die beeindruckende Geschwindigkeit bei
der Indexerstellung. Das Programm ist für die reine Wortsuche in Textdateien das beste
Programm im Test. Ein grosses Minus erhält der Search32 jedoch bei der kleinen Anzahl
erkannter Dateiformate (u.a. keine PDF, PS und XLS Dokumente) und bei der
Präsentation der Suchresultat.
Unser Fazit:
Links:
www.anetsoft.com
1
Neu in Version 6 gemäss Angaben auf www.anetsoft.com auch PDF und XML
Abbildung 5:
Search32 Darstellung der Suchresultate
Die Suchresultate werden markiert
The Sleuthhound! Pro Power Pack
Der Textindexierer The Sleuthhound! ist in drei Versionen erhältlich: The Sleuthhound!
($20), The Sleuthhound! Pro ($34,95) und The Sleuthhound! Pro Power Pack ($95,95).
Leider ist nur das einfachste Programm The Sleuthhound! als Testversion für 30 Tage frei
zum Download verfügbar. Die Eigenschaften des Basisprogramms entsprachen jedoch
nicht den Kriterien der Vorauswahl, da nur *.txt-, *.doc und *.html-Dokumente durchsucht
werden können. Aus diesem Grund basiert ein Teil der Ergebnisse auf den Informationen
des Herstellers. Suchgeschwindigkeit und Belastungstest, sowie die Art der Darstellung
der Ergebnisse und die Bedienbarkeit wurden mit der einfachen Version getestet.
Da insbesondere die Version Pro Power Pack die Anforderungen der Arbeit an einen
Textindexierer erfüllt, wurde er trotz der beschränkten Testmöglichkeiten in die Evaluation
miteinbezogen. Die beiden professionellen Versionen sind durch Plug-Ins für weitere
Formate ergänzt.
Suchvorgang
Die Durchführung des Suchvorgangs gestaltet sich in der Bedienung sehr einfach.
Sämtliche Funktionen sind nahezu selbsterklärend. Auch die Darstellung der
Suchergebnisse erfolgt in ähnlicher Weise wie bei den bekannten Internetsuchmaschinen.
Zusatzfunktionen erlauben das Sortieren der Ergebnisse nach Datum, Name, Order,
Grösse und Zeit.
Der entscheidende Nachteil des Programms besteht darin, dass die Suchindizes nur
verwendet werden können, wenn das entsprechende Medium (z.B. eine CD) während der
Suche zur Verfügung steht. Bei der Testversion ist natürlich zu bemängeln, dass nur die
drei oben genannten Formate durchsucht werden können.
Indexiervorgang
Der Indexiervorgang des The Sleuthhound! verläuft sehr langsam. Die zur Verfügung
stehende Demoversion indexierte maximal 500 Dateien und brach danach mit einer
Fehlermeldung die Arbeit ab. Somit konnte das Programm bezüglich Geschwindigkeit
nicht mit seinen Konkurrenten verglichen werden.
Bewertung
Eine Bewertung des Indexierers The Sleuthhound! Pro Power Pack ist aufgrund der
gegebenen Voraussetzungen schwierig vorzunehmen. Als besonders negativ fiel die im
Vergleich zu den anderen Programmen wohl langsamste Indexerstellung auf. Bemängeln
lässt sich natürlich auch die geringe Anzahl an Formaten, die die Basisversion testen
kann. Dem entgegenzusetzen ist die Plug-In-Erweiterung des Pro Power Packs, die
insgesamt 17 Formate erkennt (siehe Tabelle 5). Ein weiterer Vorteil besteht in der
übersichtlichen Anordnung der Oberfläche und der Ergebnisse.
Unser Fazit:
Links:
www.isleuthhound.com
Abbildung 6:
The Sleuthhound!
Abbildung 7:
The Sleuthhound! Darstellung der Ergebnisse
Volltextindexierer im INCOME Document Center
INCOME Document Center ist ein Dokumentenmanagementsystem der Firma Promatis.
Als Feature ist eine Suchfunktion integriert. Damit effizient Suchergebnisse gefunden
werden, wurde im INCOME Document Center ein Volltextindexierer implementiert. Oracle
interMedia Text Option für Oracle 9i ist als Vollindexierer Bestandteil vom INCOME
Document Center. Das Produkt läuft auf allen Plattformen auf denen die Oracle
Datenbank installiert werden kann.
Suchvorgang
Das INCOME Document Center bietet ein übersichtliches Java-GUI, das die Arbeit stark
erleichtert. Die Beliebige Kombination von Booleschen Operatoren und Wildcards
ermöglicht eine exakte Suche. Die gefundenen Resultate werden übersichtlich markiert.
Die Suchresultate können direkt im Document Center gespeichert und zu einem späteren
Zeitpunkt wiederverwendet werden.
Die Geschwindigkeit mit der das Programm arbeitet, wird zu einem Grossteil durch die
verwendete Oracle Datenbank erzielt.
Indexierung
Bei der Evaluation dieses Produktes konnten allen Anforderungen positiv beantwortet
werden. Grundlegende Features wie Stoppwortliste, Selbstpflege oder Wartung der
Wortlisten, Einbeziehung aller Formate und die gängigen Suchmethoden können vom
Textindexierer erbracht werden. Die Indexierung über die vorhandenen Dokumente läuft
auf einem zentralen Server und beeinflusst den einzelnen Arbeitsplatz nicht im
Geringsten. Deshalb können keine Angaben zur Indexierdauer gemacht werden.
Bewertung
Da eine Oracle-DB Lizenz notwendig ist, um das INCOME Document Center zu
installieren, kommt die Software kaum für den Einzelplatz in Frage. Das Programm stellt
jedoch eine gute Groupware-Lösung dar, bei der mehrere Teams oder Abteilungen ihre
Dokumente zentral verwalten.
Auch wenn die Software nicht den eigentlichen Voraussetzungen entspricht, wurde sie
zum Vergleich in die Evaluation miteinbezogen. Eine eigentliche Bewertung wird hier nicht
vorgenommen, da die Indexiersoftware bezüglich ihrer Grösse und Anforderungen aus
dem Rahmen fällt und in einem kompletten Dokumentmanagementsystem integriert ist.
Links
www.promatis.de
www.get-income.com
Abbildung
INCOME Document Center
Abbildung 9:
INCOME Suche
8:
Fazit
In den letzten zwei Jahrzehnten entwickelte sich das Fachgebiet Information Retrieval
zwar zu einer bedeutenden wissenschaftlichen Disziplin, doch lässt ihr heutiger Stand
immer noch sehr zu wünschen übrig. Es existieren viele Programme, welche versuchen
Ordnung im Datendurcheinander zu machen, viele dieser Programme besitzen
brauchbare Funktionen, doch das perfekte Programm existiert bisher nicht.
Die meisten Programme spezialisieren sich auf die Suche im World Wide Web, denn dort
ist das Informationsangebot und damit auch das Chaos am grössten. Gesucht war ein
Programm das für den Einzelplatz, den Desktop, eingesetzt werden kann. In Zukunft wird
ein solches Programm sicherlich für jeden Home PC unabdingbar werden. Was aber
existiert bereits jetzt auf dem Markt?
Die durchgeführte Recherche und die Evaluation brachte eine gewisse Enttäuschung zu
Tage. Ein wirklich gutes Programm, die Killerapplikation, konnte nicht gefunden werden.
Jedes Programm wies gewisse Mängel auf, viele Programme erfüllten nicht einmal die
notwendigsten Spezifikationen. Fehlende Dateiformate wie PDF oder ein zu hoher Preis
für ein Einzelplatzsystem führte zu einem unbefriedigenden Resultat.
Die beiden Programme Search32 und DtSearch zeigen sehr gute Ansätze. Sie sind beide
sehr benutzerfreundlich und relativ günstig. Doch finden sie beide nicht alle Dateiformate.
Speziell das Dateiformat *.pdf ist heutzutage unerlässlich und für jeden Text-Indexierer ein
Muss. ConSearch und IsysDesktop finden zwar die geforderten Dateiformate, doch sind
sie mühsam und schwierig zu bedienen. ConSearch verbraucht einen Grossteil der
Rechenressourcen, so dass der Benutzer während dem Indexiervorgang kaum
weiterarbeiten kann. Ein gutes Programm sollte jedoch genau dies verhindern. Der User
soll möglichst schnell und einfach eine Datei, die irgendwo auf seinem Computer liegt,
finden und sich so den Ärger des manuellen Suchens ersparen können. Gleichzeitig soll
um die vorhandenen Dateien zu indexieren nicht langsameres Arbeiten oder ein Betrieb
des Computers in der Nacht notwendig werden.
In Zukunft muss also noch sehr stark in diesen Bereichen gearbeitet werden. Es gibt noch
viele Verbesserungsmöglichkeiten und bis der perfekte Textindexierer entwickelt ist, ist es
noch ein weiter Weg. Doch sind viele der verschiedenen Hersteller auf dem richtigen Weg.
Immer wieder kommen neue verbesserte Versionen auf den Markt, die weitere Funktionen
einbinden oder bisherige verbessern. Wer weiss, vielleicht wird mit einem zukünftigen
Programm oder Update ein weiterer Schritt in Richtung perfekte Lösung gemacht werden?
Anhang A
Testfile
Die Parameter, um von zuhause (über Modem oder ISDN) ans Netzwerk der ETH zu
gelangen, lauten wie folgt
Telefonnummer:
Die Telefonnummer lautet ab 1.4.99: 0844 844 455 (Lokaltarif ganze Schweiz) und 01/261
10 50 (für Anrufe aus dem Ausland und über Natel)
DNS, Domain Name Server:
Der Praktikumsversuch EMF 1 wird in drei unterschiedlichen Teilen durchgeführt. Der
erste Teil befasst sich vor allem mit der Wellentheorie und der EM-Abstrahlung durch
verschiedene Antennentypen. Es werden die wichtigsten Teile aus der
Praktikumsanleitung besprochen, um sie für die weitere Durchführung präsent zu haben.
In Form eines Multiple-Choice-Tests werden verschiedene Fragen bezüglich
Wellenverhalten,
wichtigen
Antennenparameter,
Messgrössen,
Fachbegriffen,
Antennentypen etc. repetiert.
Diese Information wird an alle Studierenden im Diplomstudium versandt, obwohl nicht alle
Empfänger/Innen in der kommenden Session eine Prüfung abzulegen haben. Wir bitten
Sie, das An- und Abmeldeverfahren und insbesondere die Termine strikt einzuhalten. Bei
Unklarheiten wenden Sie sich an die Rektoratskanzlei, die Leiterin der Administration
Diplomstudien oder an Ihr Studiensekretariat.
Durch den Chemischen Abbau der Betriebsstoffe im Körper wird Energie gewonnen.
Energie benötigt unser Körper für den Herzschlag, die Atmung, die Verdauungstätigkeit,
den Stoffwechsel, die Aufrechterhaltung der Körpertemperatur, die Muskelleistung bei
körperlicher Aktivität.
Ununterbrochen, Tag und Nacht verbraucht unser Körper Energie. Ohne Energie ist kein
Leben möglich: kein Herzschlag, kein Atemzug, keine Bewegung, keine Verdauung, kein
Wachstum.
Energielieferanten sind vor allem die Betriebsstoffe: Kohlenhydrate und Fette. Aus Ihnen
kann der Körper durch chemischen Abbau Energie freisetzen.
Auch
ein
in
Textindexierer
einer
wichtige
Tabelle
Informationen
Maus, Haus, Laus, Kraus, Klaus
Meier, Meyer, Maier
Ein Kind ist blind und reitet auf dem Rind durch den Wind.
Dieser Satz kein Verb.
sollte
finden.

Documentos relacionados