Evaluation von Textindexierern
Transcrição
Evaluation von Textindexierern
MTU - Gruppenarbeit SS 2002 Evaluation von Textindexierern Remo Jud Sandro Auf der Mauer Daniel Roth Andreas Mühlemann Assistentin Pamela Ravasio www www.iha.bepr.ethz.ch/pages/ leute/ravasio/all4u/all4u.html MTUGruppenarbeit Evaluation von Textindexierern Sommersemester 2002 Sandro Auf der Mauer, Remo Jud, Andreas Mühlemann, Daniel Roth In Zusammenarbeit mit Regine Herdeg (Uni Karlsruhe) Anne Held (Uni Karlsruhe) Agnes Koschmider (Uni Frankfurt) Zusammenfassung Einleitung Die MTU-Gruppenarbeit ist ein Teil des ETH-World Projekts “All4you”, welches eine Navigations-, Orientierungs- und Organisationshilfe für einen "persönlichen Informationsraum" innerhalb ETH-World entwickelt. Die Textindexierer sollen mehrere Darstellungsarten der gespeicherten Dokumente ermöglichen und themenspezifische Dokumente miteinander verknüpfen. Ziel Ziel der Gruppenarbeit ist es, einen Anforderungskatalog für Textindexierer zu erstellen und verschieden Produkte anhand dieses Kataloges auf ihre Leistungsfähigkeit hin zu vergleichen. Resultate Als Resultat dieser Gruppenarbeit konnte festgestellt werden, dass im Bereich Information Retrieval viele Programme angeboten werden aber kein Programm gefunden werden konnte, das perfekt auf die Anforderungen eines Einzelplatzsystems zugeschnitten ist. Die bisherigen Anstrengungen wurden vor allem im Bereich Internet unternommen, und damit die Einzelplatzsysteme entsprechend vernachlässigt. Ausblick Die evaluierten Programme sind entweder zu teuer, oder bieten nicht die Möglichkeiten, die man sich wünscht. Da die Programme meist nur in Demoversionen zur Verfügung standen, konnte nicht sämtliche Funktionalität getestet werden. Es wurde kein Programm gefunden, das auf dem PC als unerlässliches Werkzeug gilt. Der Markt für leistungsfähige Textindexierer auf dem PC ist wohl noch zu klein, um eine regelrechte Killerapplikation hervorzubringen, die künftig zum Standard gehört. Die Programme sind einem steten Wechsel unterworfen, Updates bringen immer weitere Möglichkeiten zu Tage. Eine weitere Beobachtung dieses Bereiches kann unter Umständen in kurzer Zeit starke Verbesserungen aufzeigen. Inhaltsverzeichnis AUFGABENSTELLUNG............................................................................................................... 4 EINLEITUNG ................................................................................................................................... 4 HINTERGRUND ............................................................................................................................... 4 ZIELDEFINITION ............................................................................................................................. 4 VORGEHENSWEISE .................................................................................................................... 5 VORAUSWAHL ................................................................................................................................ 5 ABLAUF DER EVALUATION ............................................................................................................. 6 BEWERTUNG .................................................................................................................................. 6 ZUSAMMENFASSUNG DER RESULTATE............................................................................... 8 DIE TEXTINDEXIERER IM DETAIL ...................................................................................... 10 CONSEARCH 6.5........................................................................................................................... 10 DTSEARCH 6.06............................................................................................................................ 11 ISYS DESKTOP 6.......................................................................................................................... 13 SEARCH32 5.06............................................................................................................................ 15 THE SLEUTHHOUND! PRO POWER PACK ....................................................................................... 17 VOLLTEXTINDEXIERER IM INCOME DOCUMENT CENTER ........................................................... 19 FAZIT ............................................................................................................................................ 21 ANHANG A ................................................................................................................................... 22 TESTFILE ...................................................................................................................................... 22 Aufgabenstellung Einleitung Im Rahmen des E-Work Seminars der Universitäten Frankfurt, Karlsruhe und der ETH Zürich wurde u.a. das Thema "Evaluation von Textindexierern" behandelt. Sinn und Zweck eines Indexierers ist es, mit Hilfe von Schlagworten möglichst schnell und effizient einen Text zu einem bestimmten Thema zu suchen. Aufgrund der stark wachsenden Datenmengen und dessen Verteilung über das Internet gewinnt das elektronische Wissensmanagement stark an Bedeutung. Obwohl Suchmaschinen im Internet zum Alltag gehören und dem Benutzer das Auffinden der gesuchten Informationen erleichtern, finden sich auf den Einzelplatzsystemen selten vergleichbare Programme. Es bleibt dem Benutzer überlassen, wie er seine Dokumente ordnet und die Informationen wiederfindet. Der Windows Explorer bietet eine einfache Suchmaschine, welche Dateien anhand ihres Namens wiederfindet. Über den Inhalt kann allerdings keine Auskunft gegeben werden. In folgender Betrachtung werden daher nur Textindexierer analysiert, die über einen Volltextindex verfügen. Diese Indexierer liefern qualitativ bessere und vor allem schnellere Suchergebnisse, da die Wörter der indexierten Dokumente sortiert und verknüpft werden. Hintergrund Das Thema wurde von einer Gruppe von Studenten unterschiedlicher Fachrichtungen der drei beteiligten Universitäten bearbeitet. Wie der Name E-Work schon erahnen lässt, ist das Ziel des Seminars, trotz der örtlichen Distanz, eine gemeinsame, einheitliche Arbeit zu erstellen. Ein wichtiger Bestandteil des Seminars war somit die Kooperation und Abstimmung der Teilnehmer untereinander mittels verschiedener Kommunikationsmedien. Über ein Videokonferenzsystem wurden Point-to-Point-Konferenzen, aber auch MultipointKonferenzen abgehalten, um die Arbeit aufzuteilen und um seminarspezifische Fragen zu klären. Ferner wurde Application Sharing verwendet. So war es möglich während der Konferenz Dateien gleichzeitig zu bearbeiten. Die Zwischenergebnisse wurden auf dem Arbeitsgruppen-System BSCW, zu dem jeder der Teilnehmer Zugang hatte, abgelegt. Zusätzlich bestand ein reger Informationsaustausch via Email. Als eine grosse Hilfe stellte sich vor allem das persönliche Treffen in Karlsruhe heraus, bei dem die Seminarteilnehmer die Arbeit strukturieren und das weitere Vorgehen besprechen konnten. Ein gemeinsam benutzter FTP-Account erleichterte das erstellen der ProjektHomepage. Zieldefinition Ziel dieses Seminarthemas ist es, die Funktionen einiger ausgewählter Textindexierer zu testen, sie zu vergleichen und zu beurteilen. Die Textindexierer sollen übersichtlich Auskunft über die gespeicherten Dateien liefern. Dies geschieht im Rahmen des ETHWorld Projektes "All4you", das eine Navigations-, Orientierungs- und Organisationshilfe für einen "persönlichen Informationsraum" innerhalb ETH-World entwickelt. Die Plattform soll unter anderem den Austausch von Information über die Grenzen der persönlichen Informationsräume hinweg unterstützen. Vorgehensweise Vorauswahl Der erste Schritt zur Vorauswahl der Indexierer war eine Literatur- und Webrecherche, die zur Auflistung folgender Textindexierer führte: Agent Ransack askSam AT Search CLARIT Connex TRS Con Search 6.5 ConText (Oracle Corp.) Cool Find Doku-Finder 1.0 dtSearch 6.06 EFS/RetrievalWare/ConQuest Examine FindWord 1.2c Folio VIEWS Fulcrum GetInfo Glimpse 4.1 / Webglimpse Harvest Hoover Hummingbird Search Server Hyper-G IBM Search Manager IBM Digital Library INCOME Document Centers Infobank classic Insight Into Information Isearch Isys Desktop 6 KAT-CeDe Lars II LIDOS / FAUST MegaMedia OMNIS/Myriad Open Text 5 Personal Librarian Pfaff-Archiv Search32 5.06 SearchExpress Search Library Swish-E Texwise-DR-Link The Sleuthhound! Topic TRIP UltraFind WAIS Tabelle 1: Übersicht der gefundenen Textindexierer Parallel dazu wurde der Anforderungskatalog erstellt, der die notwendigen Funktionalitäten enthält. Diese Anforderungen sollten von den jeweiligen Programmen erfüllt werden. Anhand des Kataloges wurde eine Vorselektion vorgenommen, bei der viele der gefundenen Programme aus dem Rennen fielen. Dateiformate Suche System Darstellung Resultate Preis TXT, HTML, DOC, XLS, PPT, PDF, RTF, PS Boolesche Operatoren, Wildcards Microsoft Windows, Einzelplatz Eigener Browser, kein Webserver notwendig Sortierung, Speicherung der Resultate möglich Angemessen für Einzelplatzlizenz Tabelle 2: Anforderungskatalog Anhand der Beschreibung der Eigenschaften der einzelnen Indexierer wurde offensichtlich, dass einige nicht den Anforderungen gerecht werden konnten. Entweder konnten die geforderten Dateiformate nicht indexiert werden oder die Programme standen nicht zum Download bereit. Deshalb kamen sie für die nächste Testrunde nicht in Frage. Aufgrund teilweise nur dürftig vorhandener Information auf den Homepages der Programmhersteller, war ein kurzer Test der Demoversionen notwendig. Es stellte sich heraus, dass die vorhandenen Funktionen der Indexierer oft nicht dem entsprachen, was auf der Website versprochen wurde. Nach diesem ersten Schritt der Evaluation, standen schliesslich die sechs Kandidaten für eine vertiefte Evaluation fest: • Con Search 6.5 • dtSearch 6.06 • INCOME Document Centers, Oracle interMedia Text Option • Isys Desktop 6 • Search32 5.06 • The Sleuthhound Ablauf der Evaluation Im Zweiten Schritt wurden die sechs Programme eingehender miteinander verglichen. Als Testumgebung wurde ein Rechner des Institutes für Hygiene und Arbeitsphysiologie der ETH Zürich verwendet. Rechner Dell Optiplex Gxa/M Prozessor Hauptspeicher Festplatte Pentium III, 266 MHz 64 MB 4 GB, SCSI Tabelle 3: Beschreibung der Testmaschine Für die Indexierung wurden 2 Verzeichnisse vorbereitet. Das erste Verzeichnis enthielt kleine Dokumente, in den gewünschten Dateiformaten. Die Dokumente wurden vorgängig erstellt und enthielten einige wenige Sätze und Begriffe. Die genaue Kenntnis dieser Dokumente ermöglichte es, detaillierte Suchanfragen zu stellen. Anhang A zeigt das Textfile, das als *.doc, *.html, *.pdf, *.ps, *.rtf, und *.txt gespeichert und indexiert wurde. Für die restlichen Formate wurden ähnliche Dateien erstellt. Die ZippArchive wurden ebenfalls aus diesen Dateien zusammengestellt und komprimiert. Das zweite Verzeichnis diente vor allem der Leistungsmessung. Als Grundlage dienten hierfür Linux HowTo-Dokumente und Artikel der Zeitschrift c‘t aus dem Jahre 1998. Die Dateien konnten von den entsprechenden CD-Roms auf die Festplatte kopiert werden. So kamen schlussendlich ca. 70MB an Dokumenten in *.txt und *.html Format zusammen. Die Testprozedur sah für alle Programme gleich aus: 1. Indexierung des kleinen Verzeichnisses 2. Suche nach bestimmten Begriffen im Index, dabei wurden auch die Phonetische Suche, Boolesche Operatoren und Wildcards benutzt 3. Funktionalität feststellen (Abspeicherung Resultate, Sortierung, Aktualisierung Index, ...) 4. Indexierung des grossen Verzeichnisses, mit gleichzeitiger Zeitmessung 5. Suche nach Begriffen im Index 6. 2. Indexierung des grossen Verzeichnisses um festzustellen, ob nur neue oder geänderte Dateien indexiert wurden oder der komplette Index neu erstellt wurde Bewertung Formate Die Textindexierer wurden auf die folgenden Formate getestet: Worddokumente Excelsheets TXT-Dateien Acrobatdateien Ghostview Internetseiten Emailformate (Outlook) Powerpointepräsentationen Rich Text Format Gezippte Dateien *.doc *.xls *.ansi-txt *.pdf *.ps *.html / *.htm *.eml *.ppt *.rtf *.zip Tabelle 3: getestete Dateiformate Suche Die Suche wurde anhand der folgenden Kriterien betrachtet. unterschiedliche Laufwerke Wechselmedien Ausschluss bestimmter Pfade Dateiendungen Phrasensuche Booleschen Operationen Suche mit Wortstämmen Wildcards Fuzzysuche Konzeptsuche Phonetischen Suche Proximitysuche Thesaurus Sortierung Gleichzeitiges Durchsuchen von verschiedenen Laufwerken möglich oder nicht Beispiel CD-ROMS, Zipp-Laufwerke oder Disketten Erlaubt die Indexierung bestimmter Verzeichnisse und verhindert dass Programme etc. indexiert werden (Bsp. c:\winnt\*, c:\program files\*) Einzelne Formate können anhand der Dateiendung ausgeschlossen werden (Bsp. *.jpg, *.gif, *.exe) Suche nach zusammenhängenden Satzteilen AND, OR, NOT und XOR erlauben Verknüpfungen von einzelnen Begriffen Ermöglicht die Erkennung eines Wortes in den verschiedenen Deklinationen und Konjugationen. Beispielsweise wird bei der Eingabe von "hören" auch die Form "gehört" gefunden Erlauben es dem Benutzer, Platzhalter für einzelne Buchstaben oder Zeichenketten zu verwenden. So würde die Suche mit der Eingabe Gast* auch die Wörter Gaststätten oder Gasthaus als Ergebnisse anzeigen Das Suchprogramm übernimmt selbst die Platzierung der Wildcards Zu bestimmten Begriffen werden auch Wörter als Ergebnis angezeigt, die in einem inhaltlichen Zusammenhang mit dem gesuchten Begriff stehen. Um dies zu erreichen, sind im Programm des Textindexierers Begriffssammlungen zu einzelnen Themengebieten angelegt Suche mit Hilfe einer phonetischen Klassifizierung der Buchstaben. Somit liefert das Suchwort "Meyer" auch Dokumente, die "Meier" enthalten Nachbarschaftssuche, Anwender können bestimmen wie viele Wörter zwischen zwei Suchbegriffen liegen dürfen Sucht nach Synonymen, Antonymen oder Ober- und Unterbegriffen nach Alphabet, Datum, Dateityp, Grösse, … Tabelle 4: Suchkriterien Sonstiges Untersucht wurden bei den Programmen die Geschwindigkeit der Indexerstellung und der Aktualisierung. Die Geschwindigkeit der Suche wird durch eine eventuell vorhandene Stoppwortliste stark erhöht, da häufig auftretende Wörter wie Konjunktionen, Artikel oder Hilfsverben nicht in die Suche miteinbezogen werden. Ein weiterer Punkt war die Pflege und die Aktualisierung der Wortlisten, die sich in der Regel automatisch bei Dateiänderungen oder in regelmässigen Abständen ändern. DtSearch 6.06 + insgesamt 125 + Xml, sdw Täglich, wöchentlich, monatlich, einmalig, bei Systemstart, bei Login, wenn Prozessor x - MTU Arbeit SS 2002: Evaluation von Textindexierern - nur manuell + + - - - + + - + + + + + + + + - + + + - + + + - einfach +, schlechte Präsentation +, schlechte Präsentation - schwierig schwierig Win 9x/NT/2000 $199 Odyssey Development DtSearch Corp. ISYS Desktop 6 Win 9x/NT/2000 Win 9x/NT/2000/XP $658.00, free nicht bekannt download (Demoversion für 30 Tage) Emailordner einfach durchsuchbar Readware Con Search 6.5 sonstige Eigenschaften Pflege der Wortlisten --> automatisch, wenn sich Dateien ändern --> in regelmässigen Alle x Minuten, um x Abständen Uhr Adobe Acrobat (PDF) *.pdf Dokumente gespeichert in ZIP *.zip Archiven EML (e-mail) Weitere Bedienbarkeit Formate Text-Dokument *.txt MS Word *.doc MS Excel *.xls MS PowerPoint *.ppt,*.pps RTF *.rtf HTML *.htm, *.html, *.shtml Postscript *.ps Besonderheiten Plattform Preis Allgemein Hersteller Produkt Zusammenfassung der Resultate 8/22 ! - - ! *.asp *.phtml + + - *.php Unicode + +/+/+ + + + +/+ einfach nur Demoversion verfügbar, max. 500 Files indexierbar, Speicherung etc. nicht möglich $95.95 iSleuthHound Technologies The Sleuthhound! optional - - - - + + + + - intuitiv Indexierung des Browsercache; Interner Viewer springt zu den Suchergebnissen Win 9x, NT $39.00 Anet Ltd Search32 5.06 ! ! + alle vorhandenen Files + + + + + + + + + Das Produkt ist Bestandteil von einem Dokumentenmanagementsystem. Die Qualität der Suchergebnisse ist hoch. Läuft auf zentralem Server. einfach Alle Plattformen mit Oracle 9i Datenbank-Lizenz Oracle und Promatis INCOME Document Center, Oracle interMedia Text Option - +/- -/- AND, OR, NOT + + - Name/Datum/Dateityp/ Gösse + -/- AND, OR, NOT + + + + - Filter- und Sortierfunktionen + Unterordner +/+ drucken +/+ + MTU Arbeit SS 2002: Evaluation von Textindexierern Legende: + erfüllt nicht erfüllt ! konnte nicht bewertet werden (in Demoversion nicht vorhanden) Tabelle 5: Übersicht der Resultate Qualität der Suchergebnisse Abspeichern Suchresultate Geschwindigkeit -Suchbereiche Beliebige Laufwerke/ arbeitet verzeichnisVerzeichnisse orientiert Auszuschliessende Pfade Dateiendungen +/ausschl./einschl. Suche Boolesche Operationen Kompliziert Wildcards Proximity Konzeptsuche Phonetische Suche Phrasensuche Fuzzysuche Synonyme/ Antonyme Ober- & Unterbegriffe Weitere Resultate Suchresultate sortierbar - Minuten unausgelastet (anstatt Leerlaufprozess des Betriebsystems) + - + - 9/22 AND, OR, NOT + + + - +/+ für jeden Pfad einzeln möglich + +/+ ++ - + - AND, OR, NOT + ! ! ! ! ! ! ! -/- - + ! können als Ordner / Dokumente / Klasse gespeichert werden + + + + + ! + ! + + +, nur für Englisch + + + +++ Die Textindexierer im Detail ConSearch 6.5 ConSearch ist als Testversion für 30 Tage frei verfügbar. Danach verlangt die Firma Readware jedoch 658 für die Lizenz der Software. Suchvorgang Der Umgang mit dem Programm ist auf den ersten Blick nicht leicht. Die Übersetzung aus dem Englischen ins Deutsche wurde vom Hersteller nicht sauber vollzogen. Die verschiedenen Buttons sind nicht angemessen beschriftet. Die Gestaltung der Oberfläche ist unübersichtlich, weshalb eine gewisse Einarbeitungszeit nötig war. Die Software ist vor allem auf die Suche nach Themengebieten ausgerichtet, was aber nicht fehlerlos funktioniert. So wurde zum Beispiel ein Text über Frösche nicht dem Thema Natur zugeordnet. Im Gegensatz zur Indexerstellung erfolgte die Anzeige der Suchergebnisse sehr schnell. Indexiervorgang Der Indexiervorgang wird über das Kontextmenü beim Rechtsklick auf das zu durchsuchende Verzeichnis gestartet. Dadurch wird der Umfang der zu indexierenden Files von vornherein bestimmt und es erübrigt sich die Angabe von auszuschliessenden Verzeichnissen. Die Ersterstellung eines Indexes über das grosse Verzeichnis mit ca. 70 MB Dateien dauerte rund 52 Minuten. Die CPU-Auslastung betrug während des Testens zwischen 60 und 100 Prozent. Der Rechner ist dementsprechend kaum für paralleles Weiterarbeiten zu nutzen. Da man das Programm nur über das Kontextmenü öffnen kann, wird bei jedem Start der Index des zugehörigen Ordners aktualisiert. Dieser Vorgang hat rund 8 Minuten benötigt. In Anbetracht dessen, dass nur zwei Dateien minimal verändert wurden, eine etwas schlechte Leistung! Bewertung Negativ aufgefallen sind in erster Linie die langsame Indexierung, der sehr hohe Preis und die schwache Gestaltung der Oberfläche. Das können die positiven Aspekte, die übersichtliche Darstellung der Suchergebnisse und die Suchgeschwindigkeit, nicht ausgleichen. Insgesamt erhält der ConSearch 6.5 eine eher schlechte Beurteilung. Unser Fazit: Link http://www.readware.de dtSearch 6.06 DtSearch ist in sechs verschiedenen Ausführungen erhältlich. DtSearch Desktop ist für einen User bestimmt und kostet 199$. Es stehen zusätzlich folgende Versionen zur Verfügung: dtSearch Network (5 User / 800$ oder 25 User / 3500$), dtSearch Web (1 Server / 999$), dtSearch Engine (1 Server / 999$) und dtSearchPublish (250 CD's / 2500$). Suchvorgang Durch die angenehm und übersichtlich gestaltete Oberfläche, lässt sich der Suchvorgang leicht durchführen. Allerdings werden die heute weit verbreiteten Formate ps und pdf nicht gefunden. Die Suchresultate können abgespeichert werden. Bei den Power Point Präsentationen werden die Folien durch Linien unterteilt und alle darin enthaltenen Wörter aufgelistet. Das Arbeiten mit dem Index ist durch die hohe Geschwindigkeit sehr komfortabel. Teilweise kommt der dtSearch bei der Suche kurz ins Stocken. Indexierung Die Erstellung eines Grossindexes benötigte auf der Testumgebung rund 40 Minuten. Ein Update (ohne Änderung) nahm nur 2 Minuten Rechenzeit in Anspruch, da nur neue oder geänderte Files indexiert werden. Der Index erreicht eine Grösse von 60 MB. Die CPU-Auslastung betrug 40-70% bei kleinen und etwa 50-90% bei grösseren Files. Für mp3, gif, jpg etc. existieren exclude filters, die die Arbeit stark erleichtern. Für Aktualisierungen des Indexes existieren viele Möglichkeiten der Einstellung, zum Beispiel kann der Zeitpunkt der Aktualisierung selbst festgelegt werden (täglich, wöchentlich, monatlich, einmalig, beim Systemstart, beim Login, wenn der Prozessor während x Minuten unausgelastet ist). Bewertung Auf den ersten Blick ist der dtSearch sicher ein sehr angenehmes und benutzerfreundliches Programm. Allerdings findet das Programm keine ps- und pdf-Files, was für den Gebrauch unerlässlich ist. Ohne diesen gravierenden Nachteil, könnte man den dtSearch sicher zu den Topprogrammen zählen, so aber erhält das Programm nicht die besten Beurteilungen. Unser Fazit: Link www.dtsearch.com Übersichtliche Darstellung des Indexierprozesses. • erledigte Arbeit • aktuelle Situation • noch ausstehende Arbeit Abbildung 1: DtSearch während Indexiervorgang Die Prozessorauslastung lässt weiteres Arbeiten zu. Abbildung 2: Prozessorauslastung während Indexiervorgang von DtSearch ISYS Desktop 6 Das Programm besteht aus den vier Teilprogrammen ISYS Utilities, Query, Start Center und Knowledge Warehouse. Über den Preis wurden keine Angaben gemacht. Suchvorgang Mit ISYS Query können beliebige Abfragen getätigt werden. Als Hilfe kann angegeben werden wie ein gewisser Suchbegriff beginnen oder enden soll. Wenn man den genauen Wortlaut nicht kennt, genügt die Angabe, wie er ungefähr klingen soll. Zudem kann die Suche anhand von fünf Parametern eingeschränkt werden: • Within a paragraph of… • In the same paragraph as…; • Within 10 words of…; • Followed anywhere by…; • In the photograph labelled. Das Programm besitzt weiter sehr hilfreiche Filter- und Sortierfunktionen. Die Suche geht flott, allerdings werden Ergebnisse nicht direkt angesprungen. Sie werden zwar markiert, aber zuerst muss nach ihnen gescrollt werden. Auf der Homepage des Anbieters wird angegeben, dass 125 Dateiformate gefunden werden. Auch E-Mail Ordner können zum Durchsuchen angegeben werden. Indexiervorgang Mit Hilfe von ISYS Utilities kann einfach ein Index erstellt werden. Zuerst wird festgestellt, welche Files es zu indexieren gilt. Auf der Testumgebung beanspruchte dieser Vorgang rund 13 Minuten. Danach wird der Indexierprozess gestartet, was wiederum 16 Minuten in Anspruch nahm. Am Ende wurden die gefundenen Wörter in einer Zeit von 4 Minuten zu einem Gesamtindex zusammengefügt. Mit rund 33 Minuten schneidet der ISYS Desktop 6, was die Indexierdauer betrifft relativ gut ab. Auch die Aktualisierung benötigt nur wenig Zeit, in 3 Minuten wird der Index (ohne Änderung) überarbeitet. Bewertung Alles in allem ist der ISYS Desktop 6 ein gutes und leistungsfähiges Suchprogramm. Teilweise ist es jedoch etwas umständlich und mühsam zu bedienen. Man benötigt eine gewisse Zeit zur Einarbeitung, um mit dem Programm zurecht zu kommen. Anschliessend geht die Arbeit zügig von der Hand. Unser Fazit: Links: www.isys.com.au www.isysusa.com Abbildung 3: IsysDesktop Index Abbildung 4: IsysDesktop Indexierung Search32 5.06 Search32 ist ein Shareware Textindexier-Programm von Anetsoft Ltd. aus Russland. Da die Homepage des Hersteller längere Zeit offline war, stand für den Test nur die Version 5 des Programms zu Verfügung. Im April 2002 sollte aber bereits Version 6 erschienen sein. Mit einem Preis von $39 ist Search32 der günstigste Kandidat im Rennen. Suchvorgang Die Suchmöglichkeiten beschränken sich auf eine Exaktwort- oder Teilwortsuche (=beschränkte Wildcards). Dabei kann man mehrere Suchbegriffe mit AND, OR und NOT verknüpfen. Der grösste Mangel des Programms besteht hinsichtlich der Präsentation der Resultate. Alle Dateien, deren Inhalte einem Suchmuster entsprechen, werden in willkürlicher Reihenfolge in einer Scroll-Liste aufgeführt. Es ist nicht möglich, diese Liste nach Datum, Anzahl, Fundstellen, etc. zu ordnen. Man muss die Suche soweit eingrenzen, dass nur wenige Dokumente gefunden werden. Ansonsten wird die Arbeit mit Search32 unübersichtlich. Das Programm hat einen internen Viewer für die Dateien, der automatisch zu den einzelnen Suchergebnissen springt. Die Navigation in den gefundenen Files ist sehr komfortabel, html-Dateien sind sogar "browsable" (inkl. Bilder und funktionierenden Links). Indexiervorgang Die Indexierung verläuft sehr intuitiv. Nach Angabe der zu indexierenden Dateien/Ordner erstellt Search32 einen Index. Das Programm kann beliebig viele verschiedene Indizes nebeneinander verwalten. In der Testumgebung indexierte das Programm in der absoluten Rekordzeit von rund 16 Minuten. Dies ist das mit Abstand beste Resultat im Test. Ein grosser Nachteil sind jedoch die unterstützten Dateiformate. So erkennt die getestete Version 5 nur reine Text-, html- und doc- Dateien.1 Andere Dateitypen können theoretisch auch indexiert werden, diese werden dann jedoch als ASCII Dateien interpretiert und liefern dementsprechend schlechte Resultate. Bewertung Hervorzuheben ist die intuitive Oberfläche und die beeindruckende Geschwindigkeit bei der Indexerstellung. Das Programm ist für die reine Wortsuche in Textdateien das beste Programm im Test. Ein grosses Minus erhält der Search32 jedoch bei der kleinen Anzahl erkannter Dateiformate (u.a. keine PDF, PS und XLS Dokumente) und bei der Präsentation der Suchresultat. Unser Fazit: Links: www.anetsoft.com 1 Neu in Version 6 gemäss Angaben auf www.anetsoft.com auch PDF und XML Abbildung 5: Search32 Darstellung der Suchresultate Die Suchresultate werden markiert The Sleuthhound! Pro Power Pack Der Textindexierer The Sleuthhound! ist in drei Versionen erhältlich: The Sleuthhound! ($20), The Sleuthhound! Pro ($34,95) und The Sleuthhound! Pro Power Pack ($95,95). Leider ist nur das einfachste Programm The Sleuthhound! als Testversion für 30 Tage frei zum Download verfügbar. Die Eigenschaften des Basisprogramms entsprachen jedoch nicht den Kriterien der Vorauswahl, da nur *.txt-, *.doc und *.html-Dokumente durchsucht werden können. Aus diesem Grund basiert ein Teil der Ergebnisse auf den Informationen des Herstellers. Suchgeschwindigkeit und Belastungstest, sowie die Art der Darstellung der Ergebnisse und die Bedienbarkeit wurden mit der einfachen Version getestet. Da insbesondere die Version Pro Power Pack die Anforderungen der Arbeit an einen Textindexierer erfüllt, wurde er trotz der beschränkten Testmöglichkeiten in die Evaluation miteinbezogen. Die beiden professionellen Versionen sind durch Plug-Ins für weitere Formate ergänzt. Suchvorgang Die Durchführung des Suchvorgangs gestaltet sich in der Bedienung sehr einfach. Sämtliche Funktionen sind nahezu selbsterklärend. Auch die Darstellung der Suchergebnisse erfolgt in ähnlicher Weise wie bei den bekannten Internetsuchmaschinen. Zusatzfunktionen erlauben das Sortieren der Ergebnisse nach Datum, Name, Order, Grösse und Zeit. Der entscheidende Nachteil des Programms besteht darin, dass die Suchindizes nur verwendet werden können, wenn das entsprechende Medium (z.B. eine CD) während der Suche zur Verfügung steht. Bei der Testversion ist natürlich zu bemängeln, dass nur die drei oben genannten Formate durchsucht werden können. Indexiervorgang Der Indexiervorgang des The Sleuthhound! verläuft sehr langsam. Die zur Verfügung stehende Demoversion indexierte maximal 500 Dateien und brach danach mit einer Fehlermeldung die Arbeit ab. Somit konnte das Programm bezüglich Geschwindigkeit nicht mit seinen Konkurrenten verglichen werden. Bewertung Eine Bewertung des Indexierers The Sleuthhound! Pro Power Pack ist aufgrund der gegebenen Voraussetzungen schwierig vorzunehmen. Als besonders negativ fiel die im Vergleich zu den anderen Programmen wohl langsamste Indexerstellung auf. Bemängeln lässt sich natürlich auch die geringe Anzahl an Formaten, die die Basisversion testen kann. Dem entgegenzusetzen ist die Plug-In-Erweiterung des Pro Power Packs, die insgesamt 17 Formate erkennt (siehe Tabelle 5). Ein weiterer Vorteil besteht in der übersichtlichen Anordnung der Oberfläche und der Ergebnisse. Unser Fazit: Links: www.isleuthhound.com Abbildung 6: The Sleuthhound! Abbildung 7: The Sleuthhound! Darstellung der Ergebnisse Volltextindexierer im INCOME Document Center INCOME Document Center ist ein Dokumentenmanagementsystem der Firma Promatis. Als Feature ist eine Suchfunktion integriert. Damit effizient Suchergebnisse gefunden werden, wurde im INCOME Document Center ein Volltextindexierer implementiert. Oracle interMedia Text Option für Oracle 9i ist als Vollindexierer Bestandteil vom INCOME Document Center. Das Produkt läuft auf allen Plattformen auf denen die Oracle Datenbank installiert werden kann. Suchvorgang Das INCOME Document Center bietet ein übersichtliches Java-GUI, das die Arbeit stark erleichtert. Die Beliebige Kombination von Booleschen Operatoren und Wildcards ermöglicht eine exakte Suche. Die gefundenen Resultate werden übersichtlich markiert. Die Suchresultate können direkt im Document Center gespeichert und zu einem späteren Zeitpunkt wiederverwendet werden. Die Geschwindigkeit mit der das Programm arbeitet, wird zu einem Grossteil durch die verwendete Oracle Datenbank erzielt. Indexierung Bei der Evaluation dieses Produktes konnten allen Anforderungen positiv beantwortet werden. Grundlegende Features wie Stoppwortliste, Selbstpflege oder Wartung der Wortlisten, Einbeziehung aller Formate und die gängigen Suchmethoden können vom Textindexierer erbracht werden. Die Indexierung über die vorhandenen Dokumente läuft auf einem zentralen Server und beeinflusst den einzelnen Arbeitsplatz nicht im Geringsten. Deshalb können keine Angaben zur Indexierdauer gemacht werden. Bewertung Da eine Oracle-DB Lizenz notwendig ist, um das INCOME Document Center zu installieren, kommt die Software kaum für den Einzelplatz in Frage. Das Programm stellt jedoch eine gute Groupware-Lösung dar, bei der mehrere Teams oder Abteilungen ihre Dokumente zentral verwalten. Auch wenn die Software nicht den eigentlichen Voraussetzungen entspricht, wurde sie zum Vergleich in die Evaluation miteinbezogen. Eine eigentliche Bewertung wird hier nicht vorgenommen, da die Indexiersoftware bezüglich ihrer Grösse und Anforderungen aus dem Rahmen fällt und in einem kompletten Dokumentmanagementsystem integriert ist. Links www.promatis.de www.get-income.com Abbildung INCOME Document Center Abbildung 9: INCOME Suche 8: Fazit In den letzten zwei Jahrzehnten entwickelte sich das Fachgebiet Information Retrieval zwar zu einer bedeutenden wissenschaftlichen Disziplin, doch lässt ihr heutiger Stand immer noch sehr zu wünschen übrig. Es existieren viele Programme, welche versuchen Ordnung im Datendurcheinander zu machen, viele dieser Programme besitzen brauchbare Funktionen, doch das perfekte Programm existiert bisher nicht. Die meisten Programme spezialisieren sich auf die Suche im World Wide Web, denn dort ist das Informationsangebot und damit auch das Chaos am grössten. Gesucht war ein Programm das für den Einzelplatz, den Desktop, eingesetzt werden kann. In Zukunft wird ein solches Programm sicherlich für jeden Home PC unabdingbar werden. Was aber existiert bereits jetzt auf dem Markt? Die durchgeführte Recherche und die Evaluation brachte eine gewisse Enttäuschung zu Tage. Ein wirklich gutes Programm, die Killerapplikation, konnte nicht gefunden werden. Jedes Programm wies gewisse Mängel auf, viele Programme erfüllten nicht einmal die notwendigsten Spezifikationen. Fehlende Dateiformate wie PDF oder ein zu hoher Preis für ein Einzelplatzsystem führte zu einem unbefriedigenden Resultat. Die beiden Programme Search32 und DtSearch zeigen sehr gute Ansätze. Sie sind beide sehr benutzerfreundlich und relativ günstig. Doch finden sie beide nicht alle Dateiformate. Speziell das Dateiformat *.pdf ist heutzutage unerlässlich und für jeden Text-Indexierer ein Muss. ConSearch und IsysDesktop finden zwar die geforderten Dateiformate, doch sind sie mühsam und schwierig zu bedienen. ConSearch verbraucht einen Grossteil der Rechenressourcen, so dass der Benutzer während dem Indexiervorgang kaum weiterarbeiten kann. Ein gutes Programm sollte jedoch genau dies verhindern. Der User soll möglichst schnell und einfach eine Datei, die irgendwo auf seinem Computer liegt, finden und sich so den Ärger des manuellen Suchens ersparen können. Gleichzeitig soll um die vorhandenen Dateien zu indexieren nicht langsameres Arbeiten oder ein Betrieb des Computers in der Nacht notwendig werden. In Zukunft muss also noch sehr stark in diesen Bereichen gearbeitet werden. Es gibt noch viele Verbesserungsmöglichkeiten und bis der perfekte Textindexierer entwickelt ist, ist es noch ein weiter Weg. Doch sind viele der verschiedenen Hersteller auf dem richtigen Weg. Immer wieder kommen neue verbesserte Versionen auf den Markt, die weitere Funktionen einbinden oder bisherige verbessern. Wer weiss, vielleicht wird mit einem zukünftigen Programm oder Update ein weiterer Schritt in Richtung perfekte Lösung gemacht werden? Anhang A Testfile Die Parameter, um von zuhause (über Modem oder ISDN) ans Netzwerk der ETH zu gelangen, lauten wie folgt Telefonnummer: Die Telefonnummer lautet ab 1.4.99: 0844 844 455 (Lokaltarif ganze Schweiz) und 01/261 10 50 (für Anrufe aus dem Ausland und über Natel) DNS, Domain Name Server: Der Praktikumsversuch EMF 1 wird in drei unterschiedlichen Teilen durchgeführt. Der erste Teil befasst sich vor allem mit der Wellentheorie und der EM-Abstrahlung durch verschiedene Antennentypen. Es werden die wichtigsten Teile aus der Praktikumsanleitung besprochen, um sie für die weitere Durchführung präsent zu haben. In Form eines Multiple-Choice-Tests werden verschiedene Fragen bezüglich Wellenverhalten, wichtigen Antennenparameter, Messgrössen, Fachbegriffen, Antennentypen etc. repetiert. Diese Information wird an alle Studierenden im Diplomstudium versandt, obwohl nicht alle Empfänger/Innen in der kommenden Session eine Prüfung abzulegen haben. Wir bitten Sie, das An- und Abmeldeverfahren und insbesondere die Termine strikt einzuhalten. Bei Unklarheiten wenden Sie sich an die Rektoratskanzlei, die Leiterin der Administration Diplomstudien oder an Ihr Studiensekretariat. Durch den Chemischen Abbau der Betriebsstoffe im Körper wird Energie gewonnen. Energie benötigt unser Körper für den Herzschlag, die Atmung, die Verdauungstätigkeit, den Stoffwechsel, die Aufrechterhaltung der Körpertemperatur, die Muskelleistung bei körperlicher Aktivität. Ununterbrochen, Tag und Nacht verbraucht unser Körper Energie. Ohne Energie ist kein Leben möglich: kein Herzschlag, kein Atemzug, keine Bewegung, keine Verdauung, kein Wachstum. Energielieferanten sind vor allem die Betriebsstoffe: Kohlenhydrate und Fette. Aus Ihnen kann der Körper durch chemischen Abbau Energie freisetzen. Auch ein in Textindexierer einer wichtige Tabelle Informationen Maus, Haus, Laus, Kraus, Klaus Meier, Meyer, Maier Ein Kind ist blind und reitet auf dem Rind durch den Wind. Dieser Satz kein Verb. sollte finden.