Boolesche Textsuche Konfiguration
Transcrição
Boolesche Textsuche Konfiguration
Konfiguration, Administration Boolesche Textsuche Konfiguration Version 5 CCS Content Conversion Specialists GmbH Copyright © 2015 CCS Content Conversion Specialists GmbH. Alle Rechte vorbehalten. Kein Teil dieser Veröffentlichung darf ohne schriftliche Genehmigung der CCS Content Conversion Specialists GmbH reproduziert, in Datenbanken gespeichert oder in irgendeiner Form (elektronisch, fotomechanisch, manuell oder anders) übertragen werden. Die im vorliegenden Handbuch beschriebene Software wird unter Lizenz vergeben und darf nur in Übereinstimmung mit den Lizenzbedingungen verwendet werden. Die CCS GmbH behält sich das Recht vor, den Inhalt dieses Handbuches ohne Ankündigung zu verändern. Die CCS GmbH gibt keine Garantie auf die Richtigkeit und Genauigkeit der Beschreibungen in diesem Handbuch. Microsoft und Windows sind Warenzeichen bzw. eingetragene Warenzeichen der Microsoft Corp. Verwendete Produkt- und Firmennamen können Warenzeichen oder eingetragene Warenzeichen der jeweiligen Unternehmen sein. Die CCS GmbH verwendet sie in diesem Handbuch zu Erläuterungszwecken und zum Nutzen der jeweiligen Besitzer, ohne eine Verletzung des Warenzeichens zu beabsichtigen. Hinweise zum Urheberrecht: Diese Software kann verwendet werden, um Materialien zu reproduzieren. Die Softwarelizenz erlaubt Ihnen lediglich, Materialien zu reproduzieren, die urheberrechtlich nicht geschützt sind, oder aber Materialien, deren Urheberrecht Sie besitzen bzw. für die Sie legal die Erlaubnis zur Reproduktion erworben haben. Wenn Sie sich unsicher sind, welches Material Sie kopieren dürfen, fragen Sie bitte Ihren Rechtsanwalt. CCS GmbH haftet nicht für Urheberrechtsverletzungen, die aus dem Gebrauch dieser Software resultieren. Zuletzt aktualisiert: 09.07.2015 CCS Content Conversion Specialists GmbH Weidestrasse 134 22083 Hamburg Fon: +49-(0)40-2271300 Fax: +49-(0)40-22713011 E-Mail: [email protected] Website: www.content-conversion.com Inhaltsverzeichnis 1. Verwendete Konfiguration 5 2. Definitionen 5 Task Workflow Dokument Dokumentenstapel Filter Pool, DOCUMENT-Datenbank und Jobname Pfade Highlight 5 5 5 5 6 6 7 8 3. Erzeugen von Dokumenten 9 4. Tasks 10 Kurze Beschreibung der Tasks Steuerdatei CLIPPROC.INI Konfigurieren der Tasks mittels NWPROCCONS.exe 10 10 11 5. Workflow 11 6. Wann erscheint ein Dokument im Clipping? 14 7. Boolean Search 2 16 Der Task "BSIMPORT" Der Task "LAOCRBS" Clippen von Artikeln mit Highlights Blättern über Seiten mit Treffern 17 21 23 23 Genaue Beschreibung der Tasks 24 Task "IMPORT" Task "LA" Task "LAOCRBS" Task "OCR" Task "EXPORT" Task "SEPARATE" Task "TOCLIP" Task "IMGWORK" Task "BSIMPORT" Task "CLEAN" 24 25 26 27 28 29 29 30 30 31 Ausführliche Beschreibung der "CLIPPROC.INI" 32 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 4.1. 4.2. 4.3. 7.1. 7.2. 7.3. 7.4. 8. 8.1. 8.2. 8.3. 8.4. 8.5. 8.6. 8.7. 8.8. 8.9. 8.10. 9. 9.1. 9.2. 9.3. 9.4. 9.5. 9.6. 9.7. 9.8. 9.9. 9.10. 9.11. 10. 10.1. 11. 11.1. 11.2. 11.3. 11.4. 11.5. 11.6. 11.7. 11.8. 12. [COMMON] [MATCHESODBC] [KEYWORDSODBC] [IMPORT] [SEPARATE] [LA] [_OCR] [LAOCRBS] [EXPORT] [TOCLIP] [IMGWORK] 32 35 35 35 37 38 38 39 40 41 41 XML Beispiel 43 Beschreibung BS3 44 TCL Befehl "bsearch importxml" 47 Beispiel für "bsearch importxml" Boolesche Suche Datenbank Script-Befehl bsearch importxml Struktur der XML-Datei Beispiel für das Ergebnis der Booleschen Suche Erklärung der XML-Struktur Publikationsgrupppen Themen 47 48 49 50 51 52 53 55 Log-Dateien 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 1. Verwendete Konfiguration Die dieser Dokumentation zugrunde liegende Konfiguration ist die DemoPCA-Konfiguration. 2. Definitionen Es folgende einige Definitionen, die in dieser Dokumentation immer wieder verwendet werden. 2.1. Task Unter einem Task versteht man eine Aufgabe, die der Dienst newsProc ausführt. Diese Aufgabe kann zu einem bestimmten Zeitpunkt nur einmal am Tag ausgeführt werden oder kann sich in festen Zeitabständen periodisch wiederholen. Worin die Aufgabe besteht, wird durch ein für den Task programmiertes TCL-Script festgelegt. newsProc kann auch mehrere Tasks durchführen, ebenso können gleiche Tasks auf newsProc verschiedener Stationen (= PCs) laufen. Bei entsprechender Programmierung der Scripte ist es auch möglich, dass der Output des einen Tasks der Input eines anderen Tasks ist. Dadurch kann ein komplexes Problem in kleine, übersichtliche Teilschritte zerlegt werden. Welche Tasks ein bzw. mehrere newsProc auf verschiedenen Stationen ausführen, kann mittels der Überwachungs- und Verwaltungskonsole NWPROCCONS.exe festgelegt werden. 2.2. Workflow Wird eine komplexe Aufgabenstellung, die ein bzw. mehrere newsPROCSERVER durchführen sollen, in mehrere, einzelne Tasks zerlegt, bezeichnet man die Abfolge, in der die Tasks durchgeführt werden müssen, als Workflow. Der Output des einen Tasks muss dabei der Input des nächsten Tasks sein. 2.3. Dokument Die Bilddatei einer Publikationsseite und deren Attribute (Kurzbezeichnung der Publikation, Erscheinungsdatum der Publikation, Seite der Publikation usw.) bilden ein einseitiges Dokument. Ein Dokument kann auch mehr als eine Seite enthalten bzw. überhaupt keine Seite. In der DemoPCAKonfigurtation werden in der Regel aber nur einseitige Dokumente bearbeitet. 2.4. Dokumentenstapel Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 5 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Im Clipping befindet sich oberhalb der Quellseite der Dokumentenstapel. Durch Auswahl von Einträgen in den drei Comboboxen können die entsprechenden Quellseiten vom Benutzer in das Clipping geladen werden. Mit der Schaltfläche kann die Anzeige des Dokumentenstapels aktualisiert werden. Importieren z.B. newsPROCSERVER Publikationsseiten ins Clipping muss gelegentlich diese Schaltfläche betätigt werden, damit man diese neuen Seiten über den Dokumentenstapel auswählen und laden kann. 2.5. Filter Die ganz linke Combobox im Dokumentenstapel wird als "Filter eins" bezeichnet, die mittlere Combobox als "Filter zwei" und die ganz rechte Combobox als "Filter drei". "Filter eins" zeigt in der Standardkonfiguration von newsCLIP meist die Kurzbezeichnung der Publikationsseite an, "Filter zwei" deren Erscheinungsdatum und "Filter drei" deren Seitenzahl. Also z.B. "Filter eins" gleich "FR" für die Publikation "Frankfurter Rundschau", "Filter zwei" gleich "12.08.2008" für deren Erscheinungsdatum und "Filter drei" gleich "1" für die Seitenzahl der Publikationsseite. 2.6. Pool, DOCUMENT-Datenbank und Jobname Im "Pool" werden die Dokumente gespeichert. Der "Pool" ist physikalisch gesehen ein Verzeichnis mit Unterverzeichnissen. In den Unterverzeichnissen werden die Datenfelder des Dokuments in einer XMLDatei verwaltet. In der XML-Datei befinden sich noch weitere Informationen über das Dokument. Auch die Bilddateien der Seiten eines Dokuments können sich im "Pool" befinden. Dies ist normalerweise die Regel! Die Steuerfelder eines Dokuments werden durch Datensätze in Tabellen einer Datenbank verwaltet. Diese Datenbank wird im Folgenden als DOCUMENT-Datenbank bezeichnet. Jedem Dokument im "Pool" ist ein Datensatz in der Tabelle "DOCMAIN" der DOCUMENT-Datenbank zugeordnet. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 6 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Für den Workflow der Tasks ist das Feld "P_JOBNAME" von Bedeutung. Es wird auch als Jobname des Dokuments bezeichnet. ACHTUNG: Jede Veränderung in dieser Tabelle kann zur Zerstörung der vorhandenen Dokumente führen. Bemerkung: Wo sich der "Pool" befindet, kann der Systemkonfiguration von newsCLIP entnommen werden. In der Karteikarte "Pool" steht im Eingabefeld "Hauptverzeichnis" der Verzeichnispfad des "Pools". Dort befinden sich auch die Einstellungen für die Datenbank 2.7. Pfade In newsCLIP besteht die Möglichkeit Verzeichnispfaden einen symbolischen Namen zuzuweisen. Dies geschieht in der Systemkonfiguration in der Karteikarte "Pfade". In dieser Dokumentation sind z.B. "***DATA***" und der Pfad "DATA" gleichbedeutend. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 7 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 2.8. Highlight Unter einem Highlight versteht man die Hervorhebung eines Wortes auf der Quellseite. Dabei wird das Wort durch ein farbiges, transparentes Rechteck umrahmt. Ein so hervorgehobenes Wort wird auch als Schlüsselwort bzw. "Keyword" bezeichnet. In der Abbildung erscheint u.a. das Wort "Zapatero" als Highlight. Es können auch voneinander verschiedene Wörter als Highlights erscheinen. Ebenso kann ein Schlüsselwort mehrere Highlights auf der Seite haben. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 8 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 3. Erzeugen von Dokumenten Die Tasks in der DemoPCA-Konfiguration bearbeiten einseitige Dokumente. Wer erzeugt aber diese einseitigen Dokumente? Dazu gibt es in dieser Konfiguration drei Möglichkeiten. Die Dialogmaske "Single Pages" Die Dialogmaske "Double Pages" Der Task "Import Wichtig ist dabei, dass alle diese Dokumente nach der Erzeugung einen Jobnamen besitzen. Bei den Dialogmasken kann dieser Jobname in der Karteikarte "Process" des Dialogs "Dialog Box Properties" im Eingabefeld "Next Job" festgelegt werden. Voreingestellt für den Jobnamen (= Next Job) ist für die die Dialogmaske "Single Pages" der Wert "LAOCRBS" und für die Dialogmaske "Double Pages" der Wert "SEPARATE". Wird nun z.B. eine Quellseite mit ihren Attributen im Dialog "Single Pages" verarbeitet, wird unter anderem auch ein Datensatz in der DOCUMENT-Datenbank angelegt, dessen Wert für das Feld "P_JOBAME" "LAOCRBS" lautet. Der Jobname des vom Tasks "IMPORT" erzeugten Dokuments wird in der Steuerdatei "CLIPPROC.IN" festgelegt: [IMPORT] JOBNAMEOUTPUT=LAOCRBS Nähere Erläuterungen folgen weiter unten. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 9 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 4. Tasks Es folgt eine kurze Beschreibung aller Tasks für den newsProc, welche die DemoPCA-Konfiguration zur Verfügung stellt: 4.1. Kurze Beschreibung der Tasks Taskname Typ Beschreibung IMPORT Periodisch Import von Bild- oder PDF-Dateien aus dem Importverzeichnis ***SCANS*** als Dokumente in den "Pool". Jedes Dokument hat dabei nur eine Seite. LA Periodisch Layoutanalyse über die Quellseite des Dokuments EXPORT Periodisch Export des Dokuments (Quellseite und Attribute) in ein festes Verzeichnis TOCLIP TOCLIP1 TOCLIP2 Periodisch Verschieben des Dokuments ins "Clipping" oder ins "Clipping (BS)" LAOCRBS Periodisch Layoutanalyse, OCR und boolesche Suche nach Suchbegriffen auf der Quellseite des Dokuments SEPARATE Periodisch Zerlegung eines Dokuments mit einer Doppelseite in zwei Dokumente mit den jeweiligen Einzelseiten. IMGWORK Periodisch Crop, Deskew, Despeckle und "Linen entfernen" auf der Quellseite eines Dokuments BSIMPORT Einmal am Tag Importieren von XML-Dateien einer fixen Struktur von einem FTP-Server in die KEYWORDS-Datenbank und Füllen der BSEARCH.MDB mit Suchbegriffen für die Boolesche Suche CLEAN Einmal am Tag Löschen von Quellseiten aus dem "Pool", welche älter sind als eine einstellbare Anzahl an Tagen Diese Tasks sind in einigen Punkten über eine externe Steuerdatei "konfigurierbar". Diese Steuerdatei heißt "CLIPPROC.INI." und befindet sich im Script-Verzeichnis. 4.2. Steuerdatei CLIPPROC.INI Die Steuerdatei "CLIPPROC.INI" befindet sich im Script-Verzeichnis. Die weiter oben besprochenen Tasks lesen Informationen aus dieser Datei. Durch Veränderungen in dieser Datei kann unter Anderem bestimmt werden, in welcher Reihenfolge die Tasks ausgeführt werden. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 10 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 4.3. Konfigurieren der Tasks mittels NWPROCCONS.exe Mit der Systemverwaltung der NWPROCCONS.exe kann festgelegt werden, welche Tasks ausgeführt werden. 5. Workflow Die Reihenfolge in der die Tasks ausgeführt werden wird als Workflow bezeichnet. Mögliche Workflows währen z.B.: Dialogmaske "Single Pages" - "LAOCRBS" - "TOCLIP" - Dialogmaske "Clipping (BS) "IMPORT" - "LAOCRBS" - "TOCLIP" - Dialogmaske "Clipping (BS)" Dialogmaske "Double Pages" - "SEPARATE" - "LA" - "TOCLIP" - Dialogmaske "Clipping" Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 11 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Wie wird nun ein Dokument, von einem Task an einen anderen übergeben? Die Antwort lautet kurz: Über den Jobnamen des Dokuments und den gemeinsamen "Pool". Der gemeinsame "Pool" befindet sich dabei auf einem Netzlaufwerk, auf das die newsProc auf allen Stationen (= PCs) Zugriff haben. Dazu ein kleines Diagramm zur näheren Erläuterung: Jobname Task SEPARATE Suche im "Pool" nach Dokumenten mit dem entsprechenden Jobnamen des Tasks Jobnamen (Standard) nach dem gesucht wird Bei Task SEPARATE: "SEPARATE" Wenn solche Dokumente vorhanden, dann erstes Dokument laden, das nicht von einer anderen Station bearbeitet wird Jobnamen (Standard) für den nächsten Task Jobnamen des Dokuments auf den Wert setzen, nach dem der nächste Task sucht Bei Task SEPARATE: "LA" Verarbeitung Dokument im "Pool" speichern Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 12 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Wie man sieht, verwendet der Task "SEPARATE" die Dokumente im "Pool" mit dem Job-namen "SEPARATE". Dies sind die Dokumente, die in der Dialogmaske "Double Pages" erzeugt wurden. Nach dem er seine Verarbeitung (Zerlegen der Doppelseiten in Einzelseiten) durchgeführt hat, stehen die Dokumente der Einzelseiten mit dem Jobnamen "LA" dem nächsten Task zur Verfügung. Dies ist der Task "LA" Die genauen Werte für die Jobnamen der Tasks werden in der Steuerdatei "CLIPPROC.INI" angeben. Sie lauten z.B. für den Task "SEPARATE": [SEPARATE] JOBNAMEINPUT=SEPARATE JOBNAMEOUTPUT=LA Eine Sonderrolle bilden die Tasks "IMPORT" und "TOCLIP". Der Task "IMPORT" verwendet als Input kein Dokument. Er erzeugt bei seiner Verarbeitung erst ein Dokument, in dem er unter Anderem eine Bilddatei in den "Pool" verschiebt. Als Output liefert er laut "CLIPPROC.INI" Dokumente im "Pool" mit dem Jobnamen "LA-OCRBS". [IMPORT] JOBNAMEOUTPUT=LAOCRBS Er stellt also den Input für den Task "LAOCRBS" zur Verfügung. Der Task "TOCLIP" kann vervielfacht werden. Die Workflows Dialogmaske "Single Pages" - "LAOCRBS" -"TOCLIP" - Dialogmaske "Clipping (BS) Dialogmaske "Double Pages" - "SEPARATE" - "LA" - "TOCLIP" - Dialogmaske "Clipping" verwenden beide den Task TOCLIP. Im ersten Fall soll der Task TOCLIP aber den Output des Tasks "LAOCRBS" als Input verwenden und als Output Dokumente erzeugen, die in der Dialogmaske "Clipping (BS) angezeigt werden. Im zweiten Fall ist der Input der Output des Tasks "LA" und der Output sind Dokumente, die in der Dialogmaske "Clipping" angezeigt werden. Deshalb gibt es anstelle des Tasks "TOCLIP" die beiden Tasks "TOCLIP1" und TOCLIP2". Sie verwenden folgende Einträge in der "CLIPPROC.INI": [TOCLIP] #----- TOCLIP1 JOBNAMEINPUT1=TOCLIP1 JOBNAMEOUTPUT1=Clipping (BS) #----- TOCLIP2 JOBNAMEINPUT2=TOCLIP2 JOBNAMEOUTPUT2=Clipping Mit: [LAOCRBS] JOBNAMEOUTPUT=TOCLIP1 [LA] JOBNAMEOUTPUT=TOCLIP2 ist gewährleistet, dass der Task "TOCLIP1" seinen Input vom Task "LAOCRBS" erhält und der Task "TOCLIP2" seinen Input vom Task "LA". Die korrekte Beschreibung der Workflows lautet also: Dialogmaske "Single Pages" "Clipping (BS) Boolesche_Textsuche_Konfiguration.doc - "LAOCRBS" - "TOCLIP1" Version: 09.07.2015 - Dialogmaske 13 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Dialogmaske "Double Pages" - "SEPARATE" - "LA" - "TOCLIP2" Dialogmaske "Clipping" "IMPORT" - "LAOCRBS" - "TOCLIP1" - Dialogmaske "Clipping (BS)" Bemerkung: Wie man aus dem Diagramm weiter oben sieht, setzt ein Task noch vor seiner Verarbeitung den Jobnamen des Dokuments auf den Wert, der für den Input des nächsten Tasks zuständig ist. Damit ist gewährleistet, dass selbst bei einem Fehler in der Verarbeitung, der nächste Task noch immer das Dokument als Input erhält. Es kann dann natürlich ein Folgefehler in der Verarbeitung, die der nächste Task ausführt, auftreten. Z.B., wenn der nächste Task darauf angewiesen ist, das der vorhergehenden Task seine Verarbeitung erfolgreich durchgeführt hat. Sicher ist aber, dass das Dokument am Ende im "Clipping" oder im "Clipping (BS)" erscheint. 6. Wann erscheint ein Dokument im Clipping? Ein Dokument erscheint in der Dialogmaske "Clipping" oder "Clipping (BS)" von newsCLIP, wenn folgende Voraussetzungen erfüllt sind: Der Jobname des Dokuments muss auf den Wert gesetzt sein, der in den "Dialog Box Properties" der entsprechenden Clipping-Dialogmaske von newsCLIP unter dem Begriff "Batch Job" aufgeführt ist. Dieser Wert lautet normalerweise "Clipping" für die "Clipping"-Maske oder "Clipping (BS)" für die "Clipping (BS)-Maske. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 14 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Die Dokumenteneigenschaft "nextjob" muss auf "E" gesetzt sein. Die Dokumenteneigenschaft "status" muss auf "R" gesetzt sein. Die Filterfelder "filter1", "filter2" und "filter3" des Dokuments müssen mit nicht leeren Werten initialisiert sein. Der Wert von "filter1" erscheint dann in der ersten Combobox (links) des Dokumentenstapel (auf Seite 5)s , der Wert von "filter2" erscheint in der zweiten Combobox (Mitte), der Wert von "filter3" erscheint in der dritten Combobox (rechts). Im Beispiel ist also Filter1=SZ, Filter2=05.05.2008 und Filter3=1. Das Dokument muss eine Seite mit Seitenbild haben. Das Verschieben der Dokumente in die "Clipping"- oder "Clipping (BS)"-Dialogmaske übernehmen die Tasks "TOCLIP", "TOCLIP1" oder "TOCLIP2". Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 15 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 7. Boolean Search 2 "Boolean Search 2" oder kurz auch BS2 soll an einem kleinen Beispiel erläutert werden. Angenommen wir interessieren uns für Zeitungsartikel, in denen es um das Thema "Umweltverschmutzung in der US-Hauptstadt Washington" geht. Dazu ein Beispielartikel der Zeitung "Washington Post" vom 10.03.2008. Ein boolescher Suchbegriff zu diesem Thema wäre z.B. "Drugs AND Water AND Washington". Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 16 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 7.1. Der Task "BSIMPORT" Wie wird nun dem newsClip/newsProc-System mitgeteilt, dass nach diesem Suchbegriff für dieses Thema in der Zeitung "Washington Post" gesucht werden soll? Die Antwort ist: Durch den newsProc-Task "BSIMPORT". Er wird einmal am Tag ausgeführt. Bemerkung: Der "BSIMPORT" kann auch versuchsweise über die Schaltfläche "Boolean search import" in der Dialogmaske der NWPROCCONS.exe gestartet werden. Bemerkung: Der "BSIMPORT" sollte dann ausgeführt werden, wenn keine Quellseiten durch den Task "LAOCRBS" bearbeitet werden. Dieser Task hat als Input drei XML-Dateien vorgeschriebener Struktur, die sich in einem Verzeichnis auf einem FTP-Server befinden. In einem erstem Schritt, dem XML-Import", werden diese XML-Dateien vom Server geholt und deren Informationen in die Tabellen einer Datenbank übertragen. Diese Datenbank wird als KEYWORDS-Datenbank bezeichnet. Wie wird nun dem newsClip/newsProc-System mitgeteilt, das nach diesem Suchbegriff für dieses Thema in der Zeitung "Washington Post" gesucht werden soll? Die Antwort ist: Durch den newsProc-Task "BSIMPORT". Er wird einmal am Tag ausgeführt. Bemerkung: Der "BSIMPORT" kann auch versuchsweise über die Schaltfläche "Boolean search import" in der Dialogmaske der NWPROCCONS.exe gestartet werden. Bemerkung: Der "BSIMPORT" sollte dann ausgeführt werden, wenn keine Quellseiten durch den Task "LAOCRBS" bearbeitet werden. Dieser Task hat als Input drei XML-Dateien vorgeschriebener Struktur, die sich in einem Verzeichnis auf einem FTP-Server befinden. In einem erstem Schritt, dem XML-Import", werden diese XML-Dateien vom Server geholt und deren Informationen in die Tabellen einer Datenbank übertragen. Diese Datenbank wird als KEYWORDS-Datenbank bezeichnet. Bemerkung: Die KEYWORDS-Datenbank befindet als eine Access-Datei namens "key-words.mdb" im Database-Verzeichnis der DemoPCA-Konfiguration. Diese Datenbank kann sich aber auch auf einem "MS SQL Server" befinden. Für unser Beispiel müssen die drei XML-Dateien für den XML-Import folgende Namen und mindestens folgenden Inhalt besitzen: publication_group_demo.xml <publication_groups> <publication_group> <publication_group_id>1</publication_group_id> <publication_group_name>Publications from USA</publication_group_name> </publication_group> </publication_groups> Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 17 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ publication_demo.xml <publications> <publication> <publication_groups> <publication_group> <publication_group_id>1</publication_group_id> </publication_group> </publication_groups> <pub_id>1</pub_id> <pub_id_sort>000000001</pub_id_sort> <pub_name>Washington Post</pub_name> <pub_name_abbr>WPOST</pub_name_abbr> <language_id>1</language_id> <circulation>N/A</circulation> </publication> </publications> profile_demo.xml <profiles> <profile> <publication_groups> <publication_group> <publication_group_id>1</publication_group_id> </publication_group> </publication_groups> <keywords> <keyword> <keyword_id>1</keyword_id> <keyword_text>"Drugs" AND "Water" AND "Washington"</keyword_text> <valid_datefrom>2000-01-01</valid_datefrom> <valid_dateto>2010-12-31</valid_dateto> <boolean_keyword>Y</boolean_keyword> </keyword> </keywords> <profile_id>1</profile_id> <profile_id_sort>0000000001</profile_id_sort> <profile_name>Pollution in Washington</profile_name> <reading_notes>Environmental pollution in Washington</reading_notes> </profile> </profiles> Es folgen nun einige Erläuterungen zur Struktur der XMLs. Der eigentliche boolesche Suchbegriff "Drugs" AND "Water" AND "Washington" steht in der XML-Datei "profile_demo.xml". Es ist dem Thema oder auch Profil "Pollution in Washington" zugeordnet. Bemerkung: Thema und Profil haben im Folgendem die gleiche Bedeutung. Natürlich können auch weitere Suchbegriffe diesem Thema zugeordnet sein. Ein möglicher weiterer Suchbegriff wäre z.B. "Smog" AND "Washington". Dieses müsste in einen neuen <keyword>-Tag unterhalb des vorhandenen <keywords>-Tags in der profile:demo.xml eingefügt werden. Ebenso können weitere Publikationsgruppen, weitere Publikationen und weitere Profile mit ihren Suchbegriffen in den entsprechenden XMLs eingefügt werden. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 18 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Gesucht wird nach "Drugs" AND "Water" AND "Washington" für das Thema "Pollution in Washington" in der Publikationengruppe "1". Diese besteht, wie man dem XML publication_group_demo.xml entnehmen kann, aus allen Zeitungen in den USA. Im XML publication_demo.xml ist die Zeitung "Washington Post" dieser Publikationengruppe zugeordnet worden. Mit Publikationsgruppen kann man also die Suche nach Themen auf bestimmte Zeitungen eingrenzen. Man kann aber auch in mehreren Publikationsgruppen gleichzeitig nach den booleschen Suchbegriffen für ein Thema suchen. Es wäre z.B. möglich eine zweite Publikationengruppe namens "Publications from Australian" im XML publication_group_demo.xml zu definieren. Im XML publication_demo.xml müssten dann Zeitungen dieses Typs definiert und dieser Publikationengruppe zugeordnet werden. Durch entsprechende Einträge in der profile_demo.xml könnte dann nach Suchwörtern für das Thema "Pollution in Washington" auch in australischen Zeitungen gesucht werden. Für den ersten Arbeitschritt des Task "BSIMPORT", den XML-Import, ist die Sektion [XMLIMPORT] in der "CLIPPROC.INI" zuständig. Diese sieht für unser Beispiel auszugsweise so aus: [XMLIMPORT] SERVER=ftp.ccs-gmbh.com USER=quaiser PASSWORD=password FTPDIR=/_USERS/CQ/DemoPCAXMLImport/ Achtung: Case Sensitive PUBLXML=publication_demo.xml PUBLGROUPXML=publication_group_demo.xml PROFILESXML=profile_demo.xml Die oben genannten XML-Dateien müssen sich also im Verzeichnis /_USERS/CQ/DemoPCAXMLImport/ auf dem Ftp-Server ftp.ccs-gmbh.com befinden. Nach dem XML-Import sind dann die entsprechenden Tabellen in der KEYWORDS-Datenbank gefüllt. Da in newsCLIP über Listen auf die Tabellen dieser Datenbank zugegriffen wird, sind auch die entsprechenden Comboboxen, wie z.B. die Combobox "Publkations", mit den entsprechenden Einträgen aus den XMls gefüllt. Bemerkungen zur Sprache: Die Sprache eines Dokuments wird indirekt durch die Sprachnummer im Tag <language_id> für jede Publikation festgelegt. Dieser Tag befindet sich z.B. im XML publication_demo.xml. Diese Sprachnummer braucht nicht die Sprachnummer sein, die in newsCLIP/newsProc verwendet wird, um die Sprache des Dokuments festzulegen. Es existiert deshalb eine Tabelle namens "language" in der KEYWORDS-Datenbank, die z.B. folgende Werte besitzt: Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 19 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Mit dieser Tabelle wird die Sprachnummer im Tag <language_id> durch die entsprechende Sprachnummer im Feld "language_id_ccs" ersetzt. Dies wird dann verwendet, um die Sprache des Dokuments festzulegen. Wird keine entsprechende Sprachnummer gefunden, wird "Englisch" als Sprache des Dokuments gesetzt. Nach dem XML-Import folgt der eigentliche Import der Booleschen Suchbegriffe in die BSEARCH.MDB. Diese befindet sich im Lists-Verzeichnis der Konfiguration. Dort werden die booleschen Suchbegriffe und ihre Zuordnungen zu den Publikationsgruppen und Themen abgespeichert. Führt man jetzt den "BSIMPORT" z.B. über die NWPROCCONS.exe aus, wechselt unter newsCLIP in die "Clipping (BS)"-Dialogmaske und führt im Script-Editor den Befehl: bsearch dialog aus, erhält man folgende Anzeige: Man erkennt, dass der boolesche Suchbegriff "Drugs" AND "Water" AND "Washington" in die BSEARCH.MDB eingetragen wurde. Gleichzeitig ist dieser Suchbegriff der Source = Publikationengruppe "1" und der Destination = Profile = Thema "0000000001X1" zugeordnet. "0000000001" steht für das Thema = Profil = "1" und "X1" dafür, dass dieses Thema der Priorität "1" zugeordnet ist. Wird nämlich in den XML-Dateien für ein Thema keine Priorität vergeben, wird automatisch "1" als Priorität vergeben. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 20 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 7.2. Der Task "LAOCRBS" Die eigentliche Suche auf einer Quellseite nach den booleschen Begriffen, die in der BSEARCH.MDB gespeichert sind, übernimmt der Task "LAOCRBS". Er führt auf der Quellseite folgende Schritte aus: Layoutanalyse der Seite OCR der Seite Boolesche Suche im OCR-Text der Seite ist der Workflow des newsProc wie folgt definiert: Dialogmaske "Single Pages" - "LAOCRBS" - "TOCLIP1" - Dialogmaske "Clipping (BS) kann also die Seite 12 der "Washington Post" vom 10.03.2008 in der Dialogmaske "Single Pages" geladen, attributiert und verarbeitet werden. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 21 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Bemerkung: Wie man aus der Abbildung erkennt, werden die Werte der Tags <pub_id> und <pub_name> aus dem XML publication_demo.xml in der Combobox "Publication" angezeigt. Nach dem Start des newsProc lässt sich nach einiger Zeit, die Quellseite in der Dialogmaske "Clipping (BS) laden. Die Wörter "Washington" sind im Artikel mit Highlights versehen. Bemerkung: Wie man aus der Abbildung erkennt, werden die Werte des Tags <profile_name> in der Liste "Source Profiles" und in der Combobox "Art. Profiles" angezeigt. Im Anzeigefeld "Addition" steht der Wert des Tags <reading_notes>. Diese Tags gehören zum XML profile_demo.xml. Im ersten Filter des Dokumentenstapels erscheint der Wert des Tags <pub_name_abbr>. Dieser Tag gehört zum XML publication_demo.xml. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 22 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 7.3. Clippen von Artikeln mit Highlights Werden Artikel mit Highlights geclippt, werden automatisch in der Combobox "Art. Profiles" die zu den Highlights gehörigen Profile (= Themen) selektiert. 7.4. Blättern über Seiten mit Treffern In der Dialog-Maske "Clipping (BS)" existieren die vier Comboboxen "Prio (Match)", "Publ.Date (Match)", "Publ.(MATCH)" und "Page (Match)". Mit Hilfe dieser Comboboxen können ähnlich wie mit den Comboboxen des Dokumentenstapels Quellseiten geladen werden. Es können aber nur solche Quellseiten geladen werden, für die die boolesche Suche Treffer ergab. Bemerkung: Technisch gesehen wird dieses Blättern über Seiten mit Treffern mit Hilfe der MATCHESDatenbank gelöst. Dort wird in einer Tabelle für jede Seite mit Treffern ein Datensatz in einer Tabelle verwendet. Die MATCHES-Datenbank befindet sich als eine Access-Datei namens "matches.mdb" im Database-Verzeichnis der DemoPCA-Konfiguration. Diese Datenbank kann sich aber auch auf einem "MS SQL Server" befinden. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 23 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 8. Genaue Beschreibung der Tasks Auf den folgenden Seiten folgt eine ausführlichere Beschreibung der Tasks. Es wird für jeden Task auf den Input, die Verarbeitung und den Output eingegangen. Wird auf irgendwelche Einträge in INI-Dateien Bezug genommen, so befinden sich diese Einträge in der Steuerdatei "CLIPPROC.INI." 8.1. Task "IMPORT" Input, Verarbeitung, Output Input Bilddateien (*.JPG, *.TIF, *.BMP) oder PDF-Dateien in einer Verzeichnisstruktur unter [IMPORT] IMAGEDIR=***SCANS*** Die Verzeichnisstruktur mit gültigen Namen für die zu importierten Dateien ist nicht veränderbar und lautet: ***SCANS***\SDATE,F=YYYYMMDD\SOURCE\PAGE.EXT Für den Namen der zu importierenden Datei ist statt PAGE.EXT auch PAGEPREFIX PAGENUMBER PAGESUFFIX.EXT gültig. Bemerkung: Die Bilddateien werden normalerweise von einem externen Scanner geliefert. Die Dialog-Maske "Import" unter newsCLIP speichert die dort verarbeiteten Dateien ebenfalls in dieser Verzeichnisstruktur. Sie liefert also auch Input für den Task "IMPORT". Verarbeitung Aus einer Bilddatei als Input werden einseitige Dokumente erzeugt. Aus einer PDF-Datei mit mehreren Seiten, mehrere einseitige Dokumente. Die Datenfelder "SOURCE", "SDATE" und "PAGE" des Dokuments werden mit Werten gefüllt. Gegebenenfalls auch die Felder "PAGEPREFIX", "PAGESUFFIX" und "PAGENUMBER". Über die Einträge [COMMON] FIELDBYLISTX=…, X=1,2 werden weiter Felder des Dokuments initialisiert. Unter anderem auch die "SOURCEID". Die Sprache des Dokuments wird gesetzt. Output Dokumente mit einer Seite und initialisierten Datenfeldern. Der Jobname der Dokumente wird durch [IMPORT] JOBNAMEOUTPUT=LAOCRBS auf "LAOCRBS" gesetzt. Die Dokumente würden also vom Task "LAOCRBS" im nächsten Schritt bearbeitet. Ein anderer sinnvoller Eintrag wäre: Ausführung [IMPORT] JOBNAMEOUTPUT=LA Periodisch Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 24 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 8.2. Task "LA" Input, Verarbeitung, Output Input Dokumente mit dem Jobnamen, der durch [LA] JOBNAMEINPUT=LA angegeben ist. Also "LA". Dieser Wert sollte nicht geändert werden. Input könnte also bei richtiger Konfiguration der Task "IMPORT" oder der Task "SEPARATE" sein. Ebenso die verarbeitenden Seiten in der Dialog-Maske "Single Pages". Siehe dazu auch 2.2 Erzeugen von Dokumenten. Verarbeitung Auf der Seite des Dokuments wird Layoutanalyse durchgeführt Output Dokumente mit dem Jobnamen, der durch [LA] JOBNAMEOUTPUT=TOCLIP angegeben ist. Der nächste Task nach "LA" wäre also der Task "TOCLIP", der diesen Output damit als Input bekommt. Der Task "TOCLIP" sollte dann das Verschieben in die Clipping-Dialogmaske übernehmen. Möglich wäre für JOBNAMEOUTPUT auch "TOCLIP1" oder "TOCLIP2" als Jobnamen für die Tasks "TOCLIP1" und "TOCLIP2" statt des Tasks "TOCLIP". Ausführung Periodisch Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 25 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 8.3. Task "LAOCRBS" Input, Verarbeitung, Output Input Dokumente mit dem Jobnamen, der durch [LAOCRBS] JOBNAMEINPUT=LAOCRBS angegeben ist. Also "LAOCRBS". Dieser Wert sollte nicht geändert werden. Input könnte also bei richtiger Konfiguration der Task "IMPORT" oder der Task "SEPARATE" sein. Ebenso die verarbeitenden Seiten in der Dialog-Maske "Single Pages". Siehe dazu auch Erzeugen von Dokumenten Verarbeitung Auf der Seite des Dokuments wird die Layoutanalyse, die OCR und boolesche Suche anhand der "BSEARCH.MDB" durchgeführt. Bemerkung: Vor dem Task "LAOCRBS" sollte also der einmal täglich ausgeführte Task "BSIMPORT" ausgeführt worden sein, der die "BSEARCH.MDB" mit den Suchbegriffen für die Boolesche Suche füllt. Output Dokumente mit dem Jobnamen, der durch [LAOCRBS] JOBNAMEOUTPUT=TOCLIP angegeben ist. Der nächste Task nach "LAOCRBS" wäre also der Task "TOCLIP", der diesen Output damit als Input bekommt. Der Task "TOCLIP" sollte dann das Verschieben in die "Clipping (BS)"-Dialogmaske übernehmen. Möglich wäre für JOBNAMEOUTPUT auch "TOCLIP1" oder "TOCLIP2" als Jobnamen für die Tasks "TOCLIP1" und "TOCLIP2" statt des Tasks "TOCLIP". Des Weiteren wäre für JOBNAMEOUTPUT auch der Wert "EXPORT" sinnvoll. Damit wäre der Output der Input des Tasks "EXPORT". Ausführung Periodisch Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 26 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 8.4. Task "OCR" Input, Verarbeitung, Output Input Dokumente mit dem Jobnamen, der durch [OCR] JOBNAMEINPUT=OCR angegeben ist. Also "OCR". Dieser Wert sollte nicht geändert werden. Input muss bei richtiger Konfiguration der Output des Task "LA" sein. Der Task "LA" erzeugt nämlich die Artikelzonen der Quellseite für den Task "OCR". Verarbeitung Auf den Artikelzonen der Quellseite wird die OCR ausgeführt. Das Ergebnis der OCR wird im XML-Format in der Attribut-Datei der Quellseite gespeichert. Diese AttributDatei ist eine XML-Datei im Pool. Output Dokumente mit dem Jobnamen, der durch [OCR] JOBNAMEOUTPUT=EXPORT angegeben ist. Der nächste Task nach dem Task "OCR" wäre also der Task "EXPORT", der diesen Output damit als Input bekommt. Läuft vor dem Task "EXPORT" der Task "OCR", kann der Task "EXPORT" ein PDF der Quellseite mit "Hidden Text" erzeugen. Ausführung Periodisch Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 27 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 8.5. Task "EXPORT" Input, Verarbeitung, Output Input Dokumente mit dem Jobnamen, der durch [EXPORT] JOBNAMEINPUT=EXPORT angeben wird. Also "EXPORT". Dieser Wert sollte nicht geändert werden. Sinnvoll sind hier nur Dokumente, die vorher vom Task "LAOCRBS" bearbeitet wurden. Verarbeitung Die Seite des Dokuments wird als PDF mit Hidden Text exportiert. Die Feldinhalte des Dokuments als XML-Datei gleichen Namens. Ausgabeverzeichnis des Exports ist: Output [EXPORT] EXPORTDIR=***EXPPAGE*** Dokumente mit dem Jobnamen, der durch [EXPORT] JOBNAMEOUTPUT=TOCLIP angegeben ist. Der nächste Task nach "EXPORT" wäre also der Task "TOCLIP", der diesen Output damit als Input bekommt. Der Task "TOCLIP" sollte dann das Verschieben in die "Clipping (BS)"-Dialogmaske übernehmen. Möglich wäre für JOBNAMEOUTPUT auch "TOCLIP1" oder "TOCLIP2" als Jobnamen für die Tasks "TOCLIP1" und "TOCLIP2" statt des Tasks "TOCLIP". Ausführung Periodisch Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 28 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 8.6. Task "SEPARATE" Input, Verarbeitung, Output Input Dokumente mit dem Jobnamen, der durch [SEPARATE] JOBNAMEINPUT=SEPARATE angegeben ist. Also "SEPARATE". Dieser Wert sollte nicht geändert werden. Sinnvoll sind hier nur Dokumente, die vorher in der Dialogmaske "Double Pages" verarbeitet wurden. Verarbeitung Das Dokument mit einer Doppelseite als Seite wird in zwei Dokumente mit jeweils einer Einzelseite als Seite zerlegt. Output Dokumente mit dem Jobnamen, der durch [EXPORT] JOBNAMEOUTPUT=LA angeben ist. Der nächste Task nach "SEPARATE" wäre also der Task "LA". Möglich wäre für JOBNAMEOUTPUT auch "LAOCRBS". Der nächste Task wäre dann "LAOCRBS" Ausführung 8.7. Periodisch Task "TOCLIP" Neben dem Task "TOCLIP" gibt es auch die Tasks "TOCLIP1" und "TOCLIP2". Die gültige Sektion in der "CLIPPROC.INI" für diese weiteren Tasks ist ebenfalls die Sektion [TOCLIP]. [TOCLIP] JOBNAMEINPUT=TOCLIP JOBNAMEINPUT1=TOCLIP1 JOBNAMEINPUT2=TOCLIP2 JOBNAMEOUTPUT=Clipping (BS)= JOBNAMEOUTPUT1=Clipping (BS) JOBNAMEOUTPUT2=Clipping Für den Task "TOCLIP" sind die Einträge "JOBNAMEINPUT" und "JOBNAMEOUTPUT" relevant. Für den Task "TOCLIP1" die Einträge "JOBNAMEINPUT1" und "JOBNAMEOUTPUT1" und für den Task "TOCLLIP2"die Einträge "JOBNAMEINPUT2" und "JOBNAMEOUTPUT2". In der Verarbeitung unterscheiden sich die Tasks "TOCLIP", "TOCLIP1" und "TOCLIP2" ansonsten nicht. Siehe weiter unten. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 29 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Input, Verarbeitung, Output Input Dokumente mit dem Jobnamen, der durch [TOCLIP] JOBNAMEINPUT=TOCLIP angegeben ist. Also "TOCLIP". Dieser Wert sollte nicht geändert werden. Sinnvoll sind hier nur Dokumente als Input, die sich am Ende der Verarbeitungskette eines Workflows befinden und nun in der Dialogmaske "Clipping" oder "Clipping (BS)" erscheinen sollen. Verarbeitung Der Jobname des Dokuments wird auf den Wert gesetzt, der durch [TOCLIP] JOBNAMEOUTPUT=Clipping angegeben ist. Das Dokument erscheint also nach der Verarbeitung in der Dialogmaske "Clipping". Ein anderer sinnvoller Wert für "JOBNAMEOUTPUT" wäre "Clipping (BS)". Output Dokumente, die in den Dialogmasken "Clipping" oder "Clipping (BS)" erscheinen. Ausführung Periodisch 8.8. Task "IMGWORK" Input, Verarbeitung, Output Input Dokumente mit dem Jobnamen, der durch [IMGWORK] JOBNAMEINPUT=IMGWORK angegeben ist. Also "IMGWORK". Dieser Wert sollte nicht geändert werden. Dieser Task sollte nach dem Task "IMPORT" oder dem Task "SEPARATE" ausgeführt werden und vor dem Task "LAOCRBS" oder dem Task "LA". Verarbeitung Crop (Seitenränder entfernen), Deskew (Seite geraderücken), Despeckle (Schmutz entfernen) und "Linen entfernen" werden auf der Quellseite eines Dokuments ausgeführt. Output Dokumente mit dem Jobnamen, der durch angeben ist. Der nächste Task nach "IMGWORK" wäre also der Task "LA". Ein anderer sinnvoller Wert für JOBNAMEOUTPUT wäre "LAOCRBS". Ausführung 8.9. Periodisch Task "BSIMPORT" Siehe dazu Der Task "BSIMPORT (auf Seite 17) Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 30 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 8.10. Task "CLEAN" Input, Verarbeitung, Output Input Keiner Verarbeitung Alle Dokumente, die älter als durch [CLEAN] DAYSTOKEEP=10 angegeben ist, werden aus dem Pool gelöscht. Hatten die Seiten Treffer bei der booleschen Suche, werden die zugehörigen Datensätze aus der MATCHESDatenbank gelöscht. Output Output keiner Ausführung Einmal am Tag Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 31 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 9. Ausführliche Beschreibung der "CLIPPROC.INI" Neben der "CLIPPROC.INI" gibt es eine "CLIPPROC_mit_kommentaren.INI" im Script-Verzeichnis der DemoPCA-Konfiguration. Diese INI-Datei ist mit Kommentaren versehen worden, die jeden Eintrag einzeln beschreiben. Am wichtigsten sind die Sektionen: [MATCHESODBC], [KEYWORDSODBC], [NETSEND], [XMLIMPORT] Die Einträge für JOBNAMEINPUT und JOBNAMEOUT in den Sektionen [IMPORT], [SEPARATE], [IMGWORK], [LA], [LAOCRBS], [EXPORT], [TOCLIP] sind dazu da, um den Workflow (=Reihenfolge der Abarbeitung) der Tasks IMPORT, SEPARATE, IMGWORK, LA, LAOCRBS, EXPORT, TOCLIP zu konfigurieren. Diese Tasks sind in der DemoPCAPROC.INI definiert. Für das Löschen von Dokumenten aus dem POOL ist die Sektion [CLEAN] zuständig. 9.1. [COMMON] PRIOS=0,1,2 Die folgende Werte für die PRIO eines boolschen Suchbegriffs können verwendet werden. Da im XML profile.xml keine PRIOS für die Suchbegriffe angegeben werden, sollte diese Einstellung nicht verändert werden. Die PRIO selber taucht in der "Clipping (BS)"-Dialogmaske in der Combobox "Prio (Match)". FILTERLENGTH=20 Die Länge (Anzahl der Zeichen) der Felder P_FILTER1, P_FILTER2 und P_FILTER3 in der DOCUMENT-Datenbank. Die Inhalte dieser Felder erscheinen in den Comboboxen des Dokumentenstapels in der "Clipping" bzw. "Cliping (BS)"-Dialogmaske. INCRPAGELENGTH=4 Wird nur noch beim [TASK] Import verwendet. Besteht der Namen einer zu importierenden mehrseitigen PDF-Datei nur aus Buchstaben (z.B. test.pdf) werden für die folgenden Seiten INCRPAGELENGTH Ziffern für die Seitenzahl PAGE verwendet. Z.B. test_0002.pdf für die zweite Seite des PDFs, test_0003.pdf für die dritte Seite des PDFs usw. DATEFORMAT=%D.%M.%Y Werden die Controls SDATE und CDATE unter newsCLIP so umkonfiguriert, dass %M.%D.%Y für die dortige Datumsanzeige verwendet wird, muss DATEFORMAT=%M.%D.%Y eingestellt werden. Damit erscheint dann auch die Angabe von SDATE im entsprechenden Filter des Dokumentenstapels in dieser Form. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 32 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ CLEANEXPORTLOCKFILE= Bitte so lassen. Macht nur so noch Sinn! PAGEPREFIXLENGTH=7 PAGESUFFIXLENGTH=4 PAGENUMBERLENGTH=4 Maximalanzahl der Zeichen, die für PAGEPREFIX, PAGESUFFIX und PAGENUMBER verwendet werden können. Hat etwas damit zu tun, dass die Breite der Comboboxen des Dokumentenstapels beschränkt ist und damit nicht beliebig lange Zeichenkettten vollständig dargestellt werden können. In der dritten Combobox des Dokumentenstapels steht nämlich PAGEPREFIX PAGENUMBER PAGESUFFIX. DEBUGSTATIONS= Dieser Eintrag is zum Debuggen von Scripten gedacht. Stehen hier Stationsnamen getrennt durch ",", schreibt die Script-Funktion LIB_writelog "DEBUG" "......" Meldungen in eine zusätzliche Log-Datei GO4KEYWORDSEARCH=0 Wird nicht mehr verwendet! CLIPPINGNAMES=Clipping (BS),Clipping Hier solten die Namen der Clipping-Dialogmasken angegeben werden. Dient dazu, um zu bestimmen, ob ein Task Seiten ins Clipping verschiebt. TASKSTOREMOVEZONES=TOCLIP,LA,OCR,LAOCRBS,EXPORT,TOCLIP,TOCLIP1,TOCLIP2 Diese Tasks, sollten evtl. vorhandene Zonen auf der Quellseiten löschen, wenn sie so konfiguriert sind, dass sie das Dokument direkt in das Clipping verschieben. TASKSTOSTOREHITS=LAOCRBS,EXPORT,TOCLIP,TOCLIP1,TOCLIP2 Diese Tasks, sollten evtl. Treffer in der MATCHES-DB abspeichern, wenn sie so konfiguriert sind, dass sie das Dokument direkt in das Clipping verschieben DBACCESSTYPE=1 => KSCRIPTDB DBACCESSTYPE=2 => TCLODBC Hier wird geregelt, ob mit der KSCRIPT.DLL oder der TCLODBC.DLL auf die MATCHES- und KEYWORDS-DB zugegriffen wird. DBACCESSTYPE=1 Bitte nur DBACCESSTYPE=1 verwenden, da nur so UNICODE und Transaktionen unterstützt werden. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 33 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ JOBNAMEONERRORLOADDOC=ERRORLOADDOC Wird ein Dokument von einem Task geladen und existert dort nicht das Datenfeld "SOURCEID" (in GLBL.INI aber vorhanden), erhält das Dokument diesen Jobnamen und steht für eine weitere Verarbeitung somit nicht mehr zurVerfügung! Das ist der unzulängliche Script-Versuch um die EndlosVerarbeitung von Dokumenten mit korrupten XMLs zu verhindern. FILTER1=SOURCE FILTER2=SDATE FILTER3=PAGE Die Werte dieser Feldinhalte werden verwendet, um in den drei Comboboxen im Clipping angezeigt zu werden. Bitte nicht ändern! Es müssten einige Scripte angepasst werden. FIELDBYLIST1=SF=SOURCE,DF=SOURCEID,SC=4,DC=0,L=publications FIELDBYLIST2=SF=SOURCE,DF=SOURCEL,SC=4,DC=1,L=publications FIELDBYLIST3=SF=SOURCE,DF=THRESHOLD,SC=4,DC=5,L=publications FIELDBYLIST-Eintäge werden verwendet, um beim Task IMPORT und in den Scannen-Masken zusätzliche Felder zu initialisieren. Wird nicht mehr verwendet! SF=SOURCEFIELD DF=DESTINATIONFIELD SC=SOURCECOLUMN DC=DESTINATIONCOLUMN L=LIST Mit dem Wert des Feldes SF wird in der Liste L in der Spalte SC nach einer Übereinstimmung gesucht. Falls es eine Übereinstimmung gibt, wird der dazu zugehorge Wert in der Spalte DC der Liste Lin das Feld DF geschrieben. Bitte nur SF=SOURCE verwenden! INPUTDIR2=SOURCE Wird nicht mehr verwendet! POOLVIEWDOCS=10 Bei einer Suche im Pool werden maximal POOLVIEWDOCS Dokumente gefunden. Dies schränkt also die Netzwerkbelastung ein. POOLVIEWDOCS sollte aber immer größer sein als die Anzahl der verwendeten newsProc. POOLVIEWSORT=DATE Die Suche im Pool nach Dokumenten erfolgt in der Reihenfolge des Erzeugungsdatum der Dokumente. Altere Dokumente werden zuerst gefunden und damit zuerst bearbeitet. FIFO-Prinzip. Bitte so lassen! Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 34 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 9.2. [MATCHESODBC] ODBC-Zugriff auf die MATCHES-DB DSN muss angelegt werden! DSN=DemoPCAMATCHES USER= PASSWORD= Bitte nicht ändern! MATCHESTABLE=MATCHES DBTYPE=1 => Access (MDB), DBTYPE=2 => MS SQL-Server DBTYPE=1 ODBC-Zugriff auf die KEYWORDS-DB DSN muss angelegt werden! Bei Importieren der Datenbank von MS SQL Server nach Access oder beim Kopieren der Datenbank von einem MS SQL Server auf einen anderen, ist noch Folgendes zu beachten: Feld: keyword_id in Tabelle: profile_keywords: Primarschlüssel und Autowert Feld: prio in Tabelle: profile_keywords: Defaultwert 1 Feld: threshold in Tabelle: publications: Defaultwert -1 ???? Diese Einstellungen scheinen beim Importieren oder Kopieren verloren zu gehen 9.3. [KEYWORDSODBC] wird verwendet bei BYDSN=1 DSN=DemoPCAKEYWORDS USER= PASSWORD= DBTYPE=1 => Access (MDB), DBTYPE=2 => MS SQL-Server DBTYPE=1 9.4. [IMPORT] DOCNAME=clip DOCNAME = Name des verwendeten Dokumententyps (Systemkonfiguration-> Dokumententyp) Der Task "IMPORT" erzeugt ein Dokument dieses Typs mit den entprechenden Datenfeldern. Kommt in fast jeder Konfiguration vor. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 35 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ IMPORTTYPE=DIR IMPORTTYPE=DIR bitte so lassen! Bedeutet das die zu importierenden Dateien in einer Verzeichnisstruktur unter IMAGEDIR liegen müssen. Früher gab es noch den IMPORTYPE=FILE. Wird nicht mehr unterstützt. IMAGEDIR=***SCANS*** Das ROOT-Verzeichnis, unter dem sich die Verzeichnisstruktur mit den zu importierenden Dateien befindet. Bitte nicht ändern! Änderungen bedeuten Scripting-Aufwand! Bedeutet, dass die Dateien in der Verzeichnisstruktur unter dem ROOT-Verzeichnis folgendermaßen abgelgt werden müssen: IMAGEDIR=SDATE,F=YYYYMMDD\SOURCE\PAGE.EXT oder IMAGEDIR=SDATE,F=YYYYMMDD\SOURCE\PAGEPREFIX PAGENUMBER PAGESUFFIX IMAGEINFO=SDATE\SOURCE\PAGE Die Werte für SDATE und SOURCE werden also den Namen der entprechenden Verzeichnissen entnommmen. IMAGECOUNT=8192 Maximal so viele Dateien werden vom Task "IMPORT" in einem Durchlauf importiert. Wurde wegen der FIFO-Anforderung eingeführt. Die Dateien werden aufsteigen nach Erzeugsdatum importiert. Also ältere Dateien vor neueren Dateien. ERRORDIR=***SCANSERROR*** Tritt beim Import ein Fehler auf, befinden sich die nicht importierten Dateien in einer Verzeichnisstruktur unter dem Verzeichnis ERRORDIR IMAGEEXT=TIF,TIFF,JPG,JPEG,PDF,DOC,BMP Nur Dateien mit diesen Endungen werden importiert. TEXTEXT=TXT Wird nicht mehr unterstützt! JOBNAMEOUTPUT=LA JOBNAMEOUTPUT=LAOCRBS Die Dokumente der importierten Seiten haben nach dem erfolgten Import diesen Jobnamen! JOBNAMEONERRORIMPORT=ERRORIMPORT Dokumente, die nicht erfolgreich importiert wurden, haben diesen Jobnamen, und stehen für den Workflow nicht mehr zur Verfügung Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 36 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 9.5. [SEPARATE] JOBNAMEINPUT=SEPARATE Zerlegt ein Dokument mit einer Doppelseite in zwei Dokumente mit jeweils einer Einzelseite. Input muss vom Dialog "Double Pages" kommen. JOBNAMEOUTPUT=LA Nach Dokumenten mit diesen Jobnamen wird als Input für den Task gesucht. Es wird das erste gefundene Dokument als Input verwendet. JOBNAMEOUTPUT=IMGWORK JOBNAMEOUTPUT=LAOCRBS JOBNAMEOUTPUT=LA JOBNAMEOUTPUT=LA Das Dokument steht nach der Verarbeitung des Tasks mit diesem Jobnamen als Input für den nächsten Task zur Verfügung! DESPECKLE=1 Wird nicht verwendet! Siehe Task IMGWORK. DESKEW=0 Wird nicht verwendet! Siehe Task IMGWORK. CROP=1 Wird nicht verwendet! Siehe Task IMGWORK. CROPDIST=20 Wird nicht verwendet! Siehe Task IMGWORK. MAXSINPLEPAGEWIDTH=5800 Überschreitet eine Seite in ihrer Breite diesen Wert wird sie als Doppelseite erkannt und in zwei Einzelseiten zerlegt. Angabe des Wertes erfolgt in mm/10. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 37 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 9.6. [LA] Führt die Layoutanalyse auf der Seite des Dokuments durch JOBNAMEINPUT=LA Nach Dokumenten mit diesen Jobnamen wird als Input für den Task gesucht. Es wird das erste gefundene Dokument als Input verwendet. JOBNAMEOUTPUT=OCR JOBNAMEOUTPUT=EXPORT JOBNAMEOUTPUT=TOCLIP JOBNAMEOUTPUT=TOCLIP2 Das Dokument steht nach der Verarbeitung des Tasks mit diesem Jobnamen als Input für den nächsten Task zur Verfügung! DESPECKLE=1 Nur für die Layoutanalyse wird der Schmutz entfernt. REMOVELINES=0 Wird nicht verwendet! Siehe Task IMGWORK. 9.7. [_OCR] Task OCR sollte nicht verwendet werden! Task LA muss vorher ausgeführt worden sein. Füht verschiedene Typen der OCR durch (über alle Artikelzonen oder über eine Gesamtzone der Seite) JOBNAMEINPUT=OCR Nach Dokumenten mit diesen Jobnamen wird als Input für den Task gesucht. Es wird das erste gefundene Dokument als Input verwendet. JOBNAMEOUTPUT=EXPORT Das Dokument steht nach der Verarbeitung des Tasks mit diesem Jobnamen als Input für den nächsten Task zur Verfügung! OCRTYPE=ZONES Der Typ der OCR OCRTYPE = ARTICLES <=> OCR über alle Artikelzonen, Zonen werden gelöscht OCRTYPE = PAGE <=> OCR über die Seite, Gesamtzone der Seite wird gelöscht Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 38 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ OCRTYPE = BOTH gelöscht <=> OCR über alle Artikelzonen und OCR über die Seite, alle Zonen werden OCRTYPE = ZONES <=> OCR über alle Artikelzonen, Zonen werden nicht gelöscht! OCRTYPE = ARTICLES => Nur im Feld, das unter OCRARTICLESFIELD angegeben ist, wird das Ergebnis der OCR über die Artikelzonen gespeichert. OCRTYPE = PAGE => Nur im Feld, das unter OCRPAGEFIELD angegeben ist, wird das Ergebnis der OCR über die Seite gespeichert. OCRTYPE = BOTH => In den Feldern, die unter OCRARTICLESFIELD and OCRPAGEFIELD angeben sind, werden die OCR-Ergebnisse gepeichert. OCRARTICLESFIELD=OCRARTICLES OCRPAGEFIELD=OCRPAGE Namen der zwei Dokumentenfelder, die die OCR-Ergebnisse enthalten 9.8. [LAOCRBS] Führt die Layoutanalyse, die OCR und die boolesche Suche über der Dokumentenseite durch. JOBNAMEINPUT=LAOCRBS Nach Dokumenten mit diesen Jobnamen wird als Input für den Task gesucht. Es wird das erste gefundene Dokument als Input verwendet. JOBNAMEOUTPUT=EXPORT JOBNAMEOUTPUT=TOCLIP JOBNAMEOUTPUT=Clipping (BS) JOBNAMEOUTPUT=TOCLIP1 Das Dokument steht nach der Verarbeitung des Tasks mit diesem Jobnamen als Input für den nächsten Task zur Verfügung! SAVETRIES=1 Anzahl der Versuche, um das Dokument zu speichern. Sollte jetzt auf den Wert 1 gesetzt werden. SAVEDELAY=500 Zeit in Millisekunden zwischen den Versuchen, das Dokument zu speichern Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 39 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ REMOVEDUPLICATES=1 REMOVEDUPLICATES=1 => Es wird versucht, Dokumente mit den gleichen Filterwerten (SOURCE, SDATE, PAGE) wie das Dokument, das von diesem Task bearbeitet wird, zu löschen. Es werden dabei nur solche Dokumente gelöscht, die den Jobnamen REMOVEDUPLICATESCLIPPINGJOB haben. Das sind also Seiten in der Dialogmaske "Clipping (BS)". Einfacher ausgedrückt: Bereits im "Cliping (BS)" vorhandene Seiten werden überschrieben. REMOVEDUPLICATESTRIES=3 Anzahl der Versuche, das Dokument zu überschreiben. Ist das Dokument im "Clipping (BS)" momentan vom Benutzer geladen, kann es nicht gelöscht werden. REMOVEDUPLICATESTIME=1000 Zeit in Millisekunden zwischen den Versuchen REMOVEDUPLICATESCLIPPINGJOB=Clipping (BS) Siehe oben. 9.9. [EXPORT] Exportiert ein Dokument. Es sollte vorher der TASK LAOCRBS oder der Task OCR ausgeführt worden sein. JOBNAMEINPUT=EXPORT Nach Dokumenten mit diesen Jobnamen wird als Input für den Task gesucht. Es wird das erste gefundene Dokument als Input verwendet. JOBNAMEOUTPUT=TOCLIP1 Das Dokument steht nach der Verarbeitung des Tasks mit diesem Jobnamen als Input für den nächsten Task zur Verfügung! EXPORTNAME= Hier steht der Name des verwendeten Exports. Er muss über den Dialog Systemkonfiguration->Export der NWPROCCONS.exe definiert werden! Wird kein Name für den Export angegeben, wird mit dem PDFBuilder im Verzeichnis EXPORTDIR ein PDF mit Hiddentext und eine zugehörige XML-Datei gleichen Namens mit den Werten der Datenfelder erzeugt. EXPORTDIR=***EXPPAGE*** Gilt nur, falls für EXPORTNAME kein Wert angegeben wird Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 40 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ DATEFIELDS=SDATE,CDATE Hier bitte alle Datenfelder angeben, die vom Typ Datum sind. Wird benötigt wegen [COMMON], DATEFORMAT Verschiebt ein Dokument in eine der Clipping-Dialogmasken. Also entweder "Clipping" oder "Clipping (BS)". Muss in der Reihenfolge der Tasks der letzte Task sein! 9.10. [TOCLIP] Diese Sektion lesen drei Tasks: TOCLIP : Zuständige Einträge: JOBNAMEINPUT , JOBNAMEOUTPUT TOCLIP1: Zuständige Einträge: JOBNAMEINPUT1 , JOBNAMEOUTPUT1 TOCLIP2: Zuständige Einträge: JOBNAMEINPUT2 , JOBNAMEOUTPUT2 JOBNAMEINPUT=TOCLIP JOBNAMEINPUT1=TOCLIP1 JOBNAMEINPUT2=TOCLIP2 Nach Dokumenten mit diesen Jobnamen wird als Input für den Task gesucht. Es wird das erste gefundene Dokument als Input verwendet. JOBNAMEOUTPUT=Clipping (BS) JOBNAMEOUTPUT1=Clipping (BS) JOBNAMEOUTPUT2=Clipping Das Dokument steht nach der Verarbeitung des Tasks mit diesem Jobnamen als Input für den nächsten Task zur Verfügung! 9.11. [IMGWORK] JOBNAMEINPUT=IMGWORK Nach Dokumenten mit diesen Jobnamen wird als Input für den Task gesucht. Es wird das erste gefundene Dokument als Input verwendet. JOBNAMEOUTPUT=LAOCRBS Das Dokument steht nach der Verarbeitung des Tasks mit diesem Jobnamen als Input für den nächsten Task zur Verfügung! Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 41 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ DESPECKLE=1 DESKEW=0 CROP=1 CROPDIST=20 LINEOUT=HLINEREMOVEEON,VLINEREMOVEON,HLINEMINLEN,VLINEMINLEN,MAXLINEWIDTH Z.B.: LINEOUT=1,1,100,100,3 (Nicht getestet) LINEOUT= Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 42 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 10. XML Beispiel <?xml version="1.0" encoding="UTF-8" ?> - <BSDATA xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="BSDATA.xsd"> - <SOURCES> <SOURCE EXT_SID="YP">Yellow Press Magazines</SOURCE> <SOURCE EXT_SID="SP">Sport Magazines</SOURCE> <SOURCE EXT_SID="FI1">My Financial Newspaper</SOURCE> <SOURCE EXT_SID="BP1">Today</SOURCE> </SOURCES> - <DESTINATIONS> <DESTINATION attribut="1" EXT_DID="D4711">Governmental Organisations</DESTINATION> <DESTINATION attribut="2" EXT_DID="D4712">Company 1</DESTINATION> <DESTINATION attribut="1" EXT_DID="D4713">Company 2</DESTINATION> </DESTINATIONS> - <QUERIES> - <QUERY EXT_QID="Q01" language="1"> <TERM>"NYSE"</TERM> <SRC REF="FI1" /> <SRC REF="YP" /> <DST REF="D4711" /> <DST REF="D4713" /> </QUERY> - <QUERY EXT_QID="Q02" language="en"> <TERM>"Stock Exchange" or "NYSE"</TERM> <SRC REF="FI1" /> <SRC REF="YP" /> <DST REF="D4711" /> <DST REF="D4712" /> <DST REF="D4713" /> </QUERY> - <QUERY EXT_QID="Q03" language="1039"> <TERM>"Stock" and "Exchange"</TERM> <SRC REF="FI1" /> <SRC REF="YP" /> <DST REF="D4712" /> <DST REF="D4713" /> </QUERY> </QUERIES> </BSDATA> Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 43 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 10.1. Beschreibung BS3 SOURCES Liste mit Quelleinträgen, wie Publikationen oder Publikationsgruppen BS 3: Liste von Zeitungsartikeln SOURCE Quelleintrag, wird referenziert durch Suchabfragen. BS3: Zeitungstitel SOURCEGROUPS Liste der Quellengruppen SOURCEGROUP Gruppe von Quellen, wird referenziert durch Suchabfragen. PROFILES Liste mit Suchprofilen PROFILE Ein Suchprofil, wird referenziert durch Suchabfragen. EXT_SID Externe Quellen ID. Wird benötigt, um die Quelle zu identifiziere, muss eindeutig sein. DESTINATIONS Liste der Zieleinträge, wie Kunden oder Ergenbisgruppen DESTINATION Ziel Eintrag, wird referenziert durch Suchabfragen. attribut Zielattribut Eintrag, wird für spätere Prioritätenfilter gebraucht. EXT_DID ID eines externen Zielorts. Wird benötigt, um das Ziel zu identifizieren, muss eindeutig sein. EXT_PID Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 44 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ Externe Profil ID, muss eindeutig sein. QUERIES Liste von Suchabfragen, die sich auf Profile und Quellgruppen beziehen QUERY Einzelne Suchabfrage, referenziert durch Quellgruppen und Profile, enthält den Abfrage-Term.. TERM Der Terminus der Suchabfrage. TITLE Name des Zeitungstitels. MEMBEROF Liste der Quellgruppen IDs, zu denen die Quelle gehört. SG Quellgruppe zu welcher die Suchabfrage zugeordnet werden soll PRF Profil zu dem die Daten, die zu dieser Suchabrfage passen, zugeordnet werden sollen SRC Quelle zu der die Suchabfrage zugeordnert werden soll REF type Referenz zur Quelle (EXT_SID) DST Ziel, dass daran interessiert ist, Daten, die zu dieser Suchabfrage passen, zu bekommen REF type Referenz zum Ziel (EXT_DID) REF Referenz zur Quelle (EXT_SGID) EXT_QID Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 45 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ ID der Suchabfrage, muss eindeutig sein. language Sprache der Suchabfrage, wird vom Thesaurus benötigt. Kann ISO, LCID oder eine newsWorks interne Sprach-ID sein. Fehlt der Eintrag, wird kein Thesaurus verwendet. language Sprache des Quelltextes. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 46 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 11. TCL Befehl "bsearch importxml" Über den Befehl "bsearch importxml" kann man die gesamte Datenbank direkt über eine XML importieren. Hinzu kommt, dass auch gleich eine Liste erzeugt wird, in der die Publikationen mit den zugehörigen Quellgrupen verknüpft werden, so dass der spätere Gebrauch erleichtert ist. Diese XML Struktur ist nun auch das priorisierte Datenformat, in dem die Boolesche Suche Daten angeliefert werden sollten. 11.1. Beispiel für "bsearch importxml" Angenommen wir interessieren uns für Zeitungsartikel, in denen das Thema "Problems of school system" behandelt wird. Interessant sind des Weiteren nur irische Zeitungen, die dieses Thema aufgreifen. Ein solcher Artikel wäre z.B.: Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 47 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ aus der "Daily Irish Mail" vom 24.03.2008. Zu diesem Thema wären z.B. logische Suchbegriffe: "teacher" AND "angry" "school” AND "class sizes" "teacher” AND "strike" Und irische Zeitungen wären z.B.: Daily Irish Mail Irish Examiner Irish Daily Mirror 11.2. Boolesche Suche Datenbank Um diese Informationen den newsProc Servern, welche die Boolesche Suche durchführen, bekannt zu machen, existiert eine Booelsche Suche (Boolean Search) Datenbank. Diese Datenbank verwendet die newsProc für ihre Suche. Bemerkung: Die Boolesche Suche Datenbank befindet sich im Lists-Verzeichnis der aktuellen newsWorksKonfiguration und hat den Dateinamen BSDATA.DBW. Der Inhalt der Boolesche Suche Datenbank kann mit den Script-Befehlen: if {[loadmodule "CCSBSRCH"] != 1} { return } bsearch dialog angezeigt werden. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 48 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 11.3. Script-Befehl bsearch importxml Die Datenbank kann mit dem Script-Befehl: bsearch importxml mit Werten gefüllt werden. Diese Werte werden dann, wie bereits weiter oben erwähnt, für die Boolesche Suche verwendet. Der genaue Aufruf von "bsearch importxml" sieht z.B. so aus: if {[loadmodule "CCSBSRCH"] != 1} { return } set szXMLPath [expandpath "***DATA***\\BS3\\BSDATA.xml"] if {[findfile $szXMLPath] == ""} { message "XML '$szXMLPath' not found!" return } set szListName "Publ4" set lsPubl [list $szListName 4] set bsimp [bsearch importxml $lsPubl $szXMLPath] if {[string first "BSIMPORT" $bsimp] != 0} { message "Error: 'bsearch importxml' returns '$bsimp'" return } if {[$bsimp -save] != 1} { message "Error saving BS-database!" $bsimp -delete; $lsPubl –delete return } $bsimp –delete if {[$lsPubl -save] != 1} { message "Error saving publications list!" $lsPubl –delete return } $lsPubl –delete bsearch dialog Dabei muss in der Variablen $lsPubl eine vierspaltige, dateibasierte newsClip Liste übergeben werden und in der Variablen $szXMLPath der Pfad zu einer XML-Datei. Achtung: Die übergebene XML-Datei muss dabei eine feste Struktur besitzen! Diese Struktur wird im Folgenden erläutert. In der Liste $lsPubl werden Informationen über die Publikationen, die in dem XML $szXMLPath angegeben werden, gespeichert. Eine Publikation kann dabei z.B. auch eine Zeitung sein. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 49 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 11.4. Struktur der XML-Datei Für unser einfaches Beispiel sieht diese XML-Datei wie folgt aus: <?xml version="1.0" encoding="UTF-8"?> <BSDATA xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="BSDATA.xsd"> <SOURCEGROUPS> <SOURCEGROUP EXT_SGID="INP">Irish newspapers</SOURCEGROUP> </SOURCEGROUPS> <SOURCES> <SOURCE EXT_SID="DIM" TITLE="Daily Irish Mail" language="English" MEMBEROF="INP"/> <SOURCE EXT_SID="IE" TITLE="Irish Examiner" language="English" MEMBEROF="INP"/> <SOURCE EXT_SID="IDM" TITLE="Irish Daily Mirror" language="English" MEMBEROF="INP"/> </SOURCES> <PROFILES> <PROFILE attribut="1" EXT_PID="P00001">Problems of school system</PROFILE> </PROFILES> <QUERIES> <QUERY EXT_QID="Q00001" language="English"> <TERM>"teacher" AND "angry"</TERM> <SG REF="INP"/> <PRF REF="P00001"/> </QUERY> <QUERY EXT_QID="Q00002" language="English"> <TERM>"school" AND "class sizes"</TERM> <SG REF="INP"/> <PRF REF="P00001"/> </QUERY> <QUERY EXT_QID="Q00003" language="English"> <TERM>"teacher" AND "strike"</TERM> <SG REF="INP"/> <PRF REF="P00001"/> </QUERY> </QUERIES> </BSDATA> Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 50 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 11.5. Beispiel für das Ergebnis der Booleschen Suche Bevor dessen Struktur näher erklärt wird, ein Beispiel für das Ergebnis der Booleschen Suche, nach dem das XML mit dem Befehl bsearch importxml in die Booleschen Suche Datenbank importiert wurde: Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 51 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 11.6. Erklärung der XML-Struktur Die Suchbegriffe wie z.B.: "teacher" AND "angry" stehen in den Knoten <TERM> des XML, die sich ihrerseits unterhalb der Knoten „QUERY" befinden. Jeder <QUERY> Knoten muss genau einen <TERM> Knoten besitzen! <QUERY EXT_QID="Q00001" language="English"> <TERM>"teacher" AND "angry"</TERM> … </QUERY> Bemerkung: Im Attribut "EXT_QID" des <QUERY> Knoten muss eine eindeutige Id angeben werden. Im Attribut "language" des <QUERY> Knoten muss die Sprache des Suchbegriffs angegeben werden. Zusätzlich existieren für jeden Knoten <QUERY> die Unterknoten <SG> und <PRF>. Mit diesen Unterknoten werden die Suchbegriffe weiter spezifiert. <QUERY EXT_QID="Q00001" language="English"> … <SG REF="INP"/> <PRF REF="P00001"/> </QUERY> Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 52 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 11.7. Publikationsgrupppen Mit dem Knoten <SG> unterhalb des <QUERY> Knoten wird festgelegt, in welchen Publikationsgruppen nach dem Suchbegriff gesucht wird. Bemerkung: Publikationsgruppen werden auch als "source groups" bezeichnet und mit SG abgekürzt. Publikationsgruppen können z.B. alle deutschsprachigen Zeitungen sein oder alle englischsprachigen Illustrierten. Jeder Query muss mindestens einer "source group" zugeordnet sein. Durch: <QUERY EXT_QID="Q00001" language="English"> … <SG REF="INP"/> </QUERY> und: <SOURCEGROUPS> <SOURCEGROUP EXT_SGID="INP">Irish newspapers</SOURCEGROUP> </SOURCEGROUPS> wird festgelegt, dass nur in der Publikationsgruppe "Irish newspapers" nach einem Begriff gesucht werden soll. Bemerkung: Im Attribut "EXT_SGID" des <SOURCEGROUP > Knoten muss eine eindeutige Id stehen. Aus welchen Zeitungen diese Publikationsgruppe letztendlich besteht, wird durch das "MEMBEROF"Attribut des Knoten "SOURCE" festgelegt. <SOURCES> <SOURCE EXT_SID="DIM" TITLE="Daily Irish Mail" language="English" MEMBEROF="INP"/> <SOURCE EXT_SID="IE" TITLE="Irish Examiner" language="English" MEMBEROF="INP"/> <SOURCE EXT_SID="IDM" TITLE="Irish Daily Mirror" language="English" MEMBEROF="INP"/> </SOURCES> Der Knoten <SOURCE> selber spezifiziert eine Publikation. In diesem Beispiel gehören alle Zeitungen der Publikationsgruppe "INP" ("Irish newspapers") an. Bemerkung: Im Attribut "EXT_SID" des <SOURCE> Knoten muss eine eindeutige Id stehen. Bemerkung: Im Attribut "language" des <SOURCE> Knoten muss die Sprache der Publikation angeben werden. Es ist natürlich möglich, dass eine Zeitung zu mehreren Publikationsgruppen gehört. Zum Beispiel gehört die "Daily Irish Mail" auch den englischsprachigen Zeitungen an. Man könnte also z.B. wie folgt die zusätzliche Publikationsgruppe "Newspapers in English": Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 53 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ <SOURCEGROUPS> <SOURCEGROUP EXT_SGID="INP">Irish newspapers</SOURCEGROUP> <SOURCEGROUP EXT_SGID="ENP">Newspapers in English</SOURCEGROUP> </SOURCEGROUPS> definieren und durch: <SOURCES> <SOURCE EXT_SID="DIM" TITLE="Daily Irish Mail" language="English" MEMBEROF="INP ENP"/> … </SOURCES> die "Daily Irish Mail" auch dieser Publikationsgruppe zuordnen. Nicht nur eine Publikation kann mehreren Publikationsgruppen zugeordnet werden, auch für einen Suchbegriff ist dies möglich. Durch: <QUERY EXT_QID="Q00001" language="English"> <TERM>"teacher" AND "angry"</TERM> <SG REF="INP"/> <SG REF="ENP"/> … </QUERY> wird nach dem Begriff ("teacher" AND "angry") jetzt nicht nur in Zeitungen aus Irland, sondern auch in allen englisch sprachigen Zeitungen gesucht. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 54 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 11.8. Themen Mit dem Knoten <PRF> wird festgelegt, welchem Thema der Suchbegriff zugeordnet wird. Bemerkung: Themen werden auch als "Profiles" bezeichnet und mit PRF abgekürzt. Ein Suchbegriff kann dabei mehrere Themen zugeordnet sein. Durch: <QUERY EXT_QID="Q00001" language="English"> <TERM>"teacher" AND "angry"</TERM> … <PRF REF="P00001"/> </QUERY> und: <PROFILES> <PROFILE attribut="1" EXT_PID="P00001">Problems of school system</PROFILE> </PROFILES> wird der Suchbegriff ("teacher" AND "angry") dem Thema "Problems of school system" zugeordnet. Bemerkung: Im Attribut "EXT_PID" des <PROFILE> Knoten muss eine eindeutige Id stehen. Definiert man z.B. durch: <PROFILES> <PROFILE attribut="1" EXT_PID="P00001">Problems of school system</PROFILE> <PROFILE attribut="1" EXT_PID="P00002">Dissatisfied teachers</PROFILE> </PROFILES> ein neues Profil, kann durch <QUERY EXT_QID="Q00001" language="English"> <TERM>"teacher" AND "angry"</TERM><PRF REF="P00001"/> … <PRF REF="P00001" <PRF REF="P00002"/> </QUERY> der Suchbegriff jetzt zusätzlich dem Profil oder Thema "Dissatisfied teachers" zugeordnet werden. Die Publikationen-Liste $lsPubl, die in dem Befehl bsearch importxml $lsPubl $szXMLPath angeben wurde, enthält nach dem Import des XMLs folgende Werte: DIM "Daily Irish Mail" Boolesche_Textsuche_Konfiguration.doc 1 77,78 Version: 09.07.2015 55 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ IE "Irish Examiner" 1 77 IDM "Irish Daily Mirror" 1 77 Der Wert "1" in der dritten Spalte steht für eine interne Id, welche die Sprache festlegt. Die Werte in der vierten Spalte sind interne Id’s für die Publikationsgruppen. Diese Informationen werden für die eigentliche Boolesche Suche verwendet. Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 56 / 57 CCS Content Conversion Specialists GmbH ______________________________________________________________________________________ 12. Log-Dateien Alle Tasks der newsProc schreiben Informationen über ihre Verarbeitungsschritte in Log-Dateien. Diese Log-Dateien befinden sich bei der DemoPCA-Konfiguration in den Verzeichnissen: ***DATA***\WORK\Procserver1 ***DATA***\WORK\Procserver2 … Die newsProc schreiben auch Einträge in das Fehlerprotokoll von Windows. Weiter gibt es eine ***DATA***\WORK\_FAIL*.LOG Log-Datei. Hier stehen Fehlermeldungen der newsProc und Fehlermeldungen unter NWPROCCONS.exe und newsClip, die von den Scripten erkannt wurden. Die Protokolle der FTP-Übertragung der XML-Dateien beim "BSIMPORT" stehen im Verzeichnis ***DATA***\WORK\XMLIMPORT Wurde die DemoPCA-Konfiguration so abgeändert, dass anstelle von Access-Datenbanken MS SQL Server-Datenbanken verwendet werden, befinden sich die Log-Dateien des MS SQL Servers z.B. im Verzeichnis: C:\Programme\Microsoft SQL Server\MSSQL.1\MSSQL\LOG Boolesche_Textsuche_Konfiguration.doc Version: 09.07.2015 57 / 57