Boolesche Textsuche Konfiguration

Transcrição

Boolesche Textsuche Konfiguration
Konfiguration, Administration
Boolesche Textsuche
Konfiguration
Version 5
CCS Content Conversion Specialists GmbH
Copyright © 2015 CCS Content Conversion Specialists GmbH. Alle Rechte vorbehalten.
Kein Teil dieser Veröffentlichung darf ohne schriftliche Genehmigung der CCS Content Conversion
Specialists GmbH reproduziert, in Datenbanken gespeichert oder in irgendeiner Form (elektronisch,
fotomechanisch, manuell oder anders) übertragen werden. Die im vorliegenden Handbuch beschriebene
Software wird unter Lizenz vergeben und darf nur in Übereinstimmung mit den Lizenzbedingungen
verwendet werden. Die CCS GmbH behält sich das Recht vor, den Inhalt dieses Handbuches ohne
Ankündigung zu verändern. Die CCS GmbH gibt keine Garantie auf die Richtigkeit und Genauigkeit der
Beschreibungen in diesem Handbuch. Microsoft und Windows sind Warenzeichen bzw. eingetragene
Warenzeichen der Microsoft Corp.
Verwendete Produkt- und Firmennamen können Warenzeichen oder eingetragene Warenzeichen der
jeweiligen Unternehmen sein. Die CCS GmbH verwendet sie in diesem Handbuch zu
Erläuterungszwecken und zum Nutzen der jeweiligen Besitzer, ohne eine Verletzung des Warenzeichens
zu beabsichtigen.
Hinweise zum Urheberrecht:
Diese Software kann verwendet werden, um Materialien zu reproduzieren. Die Softwarelizenz erlaubt
Ihnen lediglich, Materialien zu reproduzieren, die urheberrechtlich nicht geschützt sind, oder aber
Materialien, deren Urheberrecht Sie besitzen bzw. für die Sie legal die Erlaubnis zur Reproduktion
erworben haben. Wenn Sie sich unsicher sind, welches Material Sie kopieren dürfen, fragen Sie bitte Ihren
Rechtsanwalt. CCS GmbH haftet nicht für Urheberrechtsverletzungen, die aus dem Gebrauch dieser
Software resultieren.
Zuletzt aktualisiert: 09.07.2015
CCS Content Conversion Specialists GmbH
Weidestrasse 134
22083 Hamburg
Fon: +49-(0)40-2271300
Fax: +49-(0)40-22713011
E-Mail: [email protected]
Website: www.content-conversion.com
Inhaltsverzeichnis
1.
Verwendete Konfiguration
5
2.
Definitionen
5
Task
Workflow
Dokument
Dokumentenstapel
Filter
Pool, DOCUMENT-Datenbank und Jobname
Pfade
Highlight
5
5
5
5
6
6
7
8
3.
Erzeugen von Dokumenten
9
4.
Tasks
10
Kurze Beschreibung der Tasks
Steuerdatei CLIPPROC.INI
Konfigurieren der Tasks mittels NWPROCCONS.exe
10
10
11
5.
Workflow
11
6.
Wann erscheint ein Dokument im Clipping?
14
7.
Boolean Search 2
16
Der Task "BSIMPORT"
Der Task "LAOCRBS"
Clippen von Artikeln mit Highlights
Blättern über Seiten mit Treffern
17
21
23
23
Genaue Beschreibung der Tasks
24
Task "IMPORT"
Task "LA"
Task "LAOCRBS"
Task "OCR"
Task "EXPORT"
Task "SEPARATE"
Task "TOCLIP"
Task "IMGWORK"
Task "BSIMPORT"
Task "CLEAN"
24
25
26
27
28
29
29
30
30
31
Ausführliche Beschreibung der "CLIPPROC.INI"
32
2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
2.7.
2.8.
4.1.
4.2.
4.3.
7.1.
7.2.
7.3.
7.4.
8.
8.1.
8.2.
8.3.
8.4.
8.5.
8.6.
8.7.
8.8.
8.9.
8.10.
9.
9.1.
9.2.
9.3.
9.4.
9.5.
9.6.
9.7.
9.8.
9.9.
9.10.
9.11.
10.
10.1.
11.
11.1.
11.2.
11.3.
11.4.
11.5.
11.6.
11.7.
11.8.
12.
[COMMON]
[MATCHESODBC]
[KEYWORDSODBC]
[IMPORT]
[SEPARATE]
[LA]
[_OCR]
[LAOCRBS]
[EXPORT]
[TOCLIP]
[IMGWORK]
32
35
35
35
37
38
38
39
40
41
41
XML Beispiel
43
Beschreibung BS3
44
TCL Befehl "bsearch importxml"
47
Beispiel für "bsearch importxml"
Boolesche Suche Datenbank
Script-Befehl bsearch importxml
Struktur der XML-Datei
Beispiel für das Ergebnis der Booleschen Suche
Erklärung der XML-Struktur
Publikationsgrupppen
Themen
47
48
49
50
51
52
53
55
Log-Dateien
57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
1. Verwendete Konfiguration
Die dieser Dokumentation zugrunde liegende Konfiguration ist die DemoPCA-Konfiguration.
2. Definitionen
Es folgende einige Definitionen, die in dieser Dokumentation immer wieder verwendet werden.
2.1.
Task
Unter einem Task versteht man eine Aufgabe, die der Dienst newsProc ausführt. Diese Aufgabe kann zu
einem bestimmten Zeitpunkt nur einmal am Tag ausgeführt werden oder kann sich in festen Zeitabständen
periodisch wiederholen.
Worin die Aufgabe besteht, wird durch ein für den Task programmiertes TCL-Script festgelegt. newsProc
kann auch mehrere Tasks durchführen, ebenso können gleiche Tasks auf newsProc verschiedener
Stationen (= PCs) laufen.
Bei entsprechender Programmierung der Scripte ist es auch möglich, dass der Output des einen Tasks der
Input eines anderen Tasks ist. Dadurch kann ein komplexes Problem in kleine, übersichtliche Teilschritte
zerlegt werden.
Welche Tasks ein bzw. mehrere newsProc auf verschiedenen Stationen ausführen, kann mittels der
Überwachungs- und Verwaltungskonsole NWPROCCONS.exe festgelegt werden.
2.2.
Workflow
Wird eine komplexe Aufgabenstellung, die ein bzw. mehrere newsPROCSERVER durchführen sollen, in
mehrere, einzelne Tasks zerlegt, bezeichnet man die Abfolge, in der die Tasks durchgeführt werden
müssen, als Workflow. Der Output des einen Tasks muss dabei der Input des nächsten Tasks sein.
2.3.
Dokument
Die Bilddatei einer Publikationsseite und deren Attribute (Kurzbezeichnung der Publikation,
Erscheinungsdatum der Publikation, Seite der Publikation usw.) bilden ein einseitiges Dokument. Ein
Dokument kann auch mehr als eine Seite enthalten bzw. überhaupt keine Seite. In der DemoPCAKonfigurtation werden in der Regel aber nur einseitige Dokumente bearbeitet.
2.4.
Dokumentenstapel
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
5 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
Im Clipping befindet sich oberhalb der Quellseite der Dokumentenstapel. Durch Auswahl von Einträgen in
den drei Comboboxen können die entsprechenden Quellseiten vom Benutzer in das Clipping geladen
werden.
Mit der Schaltfläche
kann die Anzeige des Dokumentenstapels aktualisiert werden. Importieren z.B.
newsPROCSERVER Publikationsseiten ins Clipping muss gelegentlich diese Schaltfläche betätigt
werden, damit man diese neuen Seiten über den Dokumentenstapel auswählen und laden kann.
2.5.
Filter
Die ganz linke Combobox im Dokumentenstapel wird als "Filter eins" bezeichnet, die mittlere Combobox
als "Filter zwei" und die ganz rechte Combobox als "Filter drei".
 "Filter eins" zeigt in der Standardkonfiguration von newsCLIP meist die Kurzbezeichnung der
Publikationsseite an,
 "Filter zwei" deren Erscheinungsdatum und
 "Filter drei" deren Seitenzahl.
Also z.B. "Filter eins" gleich "FR" für die Publikation "Frankfurter Rundschau", "Filter zwei" gleich
"12.08.2008" für deren Erscheinungsdatum und "Filter drei" gleich "1" für die Seitenzahl der
Publikationsseite.
2.6.
Pool, DOCUMENT-Datenbank und Jobname
Im "Pool" werden die Dokumente gespeichert. Der "Pool" ist physikalisch gesehen ein Verzeichnis mit
Unterverzeichnissen. In den Unterverzeichnissen werden die Datenfelder des Dokuments in einer XMLDatei verwaltet. In der XML-Datei befinden sich noch weitere Informationen über das Dokument. Auch die
Bilddateien der Seiten eines Dokuments können sich im "Pool" befinden. Dies ist normalerweise die Regel!
Die Steuerfelder eines Dokuments werden durch Datensätze in Tabellen einer Datenbank verwaltet. Diese
Datenbank wird im Folgenden als DOCUMENT-Datenbank bezeichnet.
Jedem Dokument im "Pool" ist ein Datensatz in der Tabelle "DOCMAIN" der DOCUMENT-Datenbank
zugeordnet.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
6 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
Für den Workflow der Tasks ist das Feld "P_JOBNAME" von Bedeutung. Es wird auch als Jobname des
Dokuments bezeichnet.
ACHTUNG: Jede Veränderung in dieser Tabelle kann zur Zerstörung der vorhandenen Dokumente führen.
Bemerkung: Wo sich der "Pool" befindet, kann der Systemkonfiguration von newsCLIP entnommen
werden. In der Karteikarte "Pool" steht im Eingabefeld "Hauptverzeichnis" der Verzeichnispfad des "Pools".
Dort befinden sich auch die Einstellungen für die Datenbank
2.7.
Pfade
In newsCLIP besteht die Möglichkeit Verzeichnispfaden einen symbolischen Namen zuzuweisen. Dies
geschieht in der Systemkonfiguration in der Karteikarte "Pfade".
In dieser Dokumentation sind z.B. "***DATA***" und der Pfad "DATA" gleichbedeutend.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
7 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
2.8.
Highlight
Unter einem Highlight versteht man die Hervorhebung eines Wortes auf der Quellseite. Dabei wird das
Wort durch ein farbiges, transparentes Rechteck umrahmt. Ein so hervorgehobenes Wort wird auch als
Schlüsselwort bzw. "Keyword" bezeichnet.
In der Abbildung erscheint u.a. das Wort "Zapatero" als Highlight. Es können auch voneinander
verschiedene Wörter als Highlights erscheinen. Ebenso kann ein Schlüsselwort mehrere Highlights auf der
Seite haben.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
8 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
3. Erzeugen von Dokumenten
Die Tasks in der DemoPCA-Konfiguration bearbeiten einseitige Dokumente. Wer erzeugt aber diese
einseitigen Dokumente?
Dazu gibt es in dieser Konfiguration drei Möglichkeiten.

Die Dialogmaske "Single Pages"

Die Dialogmaske "Double Pages"

Der Task "Import
Wichtig ist dabei, dass alle diese Dokumente nach der Erzeugung einen Jobnamen besitzen. Bei den
Dialogmasken kann dieser Jobname in der Karteikarte "Process" des Dialogs "Dialog Box Properties" im
Eingabefeld "Next Job" festgelegt werden.
Voreingestellt für den Jobnamen (= Next Job) ist für die die Dialogmaske "Single Pages" der Wert
"LAOCRBS" und für die Dialogmaske "Double Pages" der Wert "SEPARATE".
Wird nun z.B. eine Quellseite mit ihren Attributen im Dialog "Single Pages" verarbeitet, wird unter anderem
auch ein Datensatz in der DOCUMENT-Datenbank angelegt, dessen Wert für das Feld "P_JOBAME"
"LAOCRBS" lautet.
Der Jobname des vom Tasks "IMPORT" erzeugten Dokuments wird in der Steuerdatei "CLIPPROC.IN"
festgelegt:
[IMPORT]
JOBNAMEOUTPUT=LAOCRBS
Nähere Erläuterungen folgen weiter unten.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
9 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
4. Tasks
Es folgt eine kurze Beschreibung aller Tasks für den newsProc, welche die DemoPCA-Konfiguration zur
Verfügung stellt:
4.1.
Kurze Beschreibung der Tasks
Taskname
Typ
Beschreibung
IMPORT
Periodisch
Import von Bild- oder PDF-Dateien aus dem Importverzeichnis
***SCANS*** als Dokumente in den "Pool". Jedes Dokument hat dabei
nur eine Seite.
LA
Periodisch
Layoutanalyse über die Quellseite des Dokuments
EXPORT
Periodisch
Export des Dokuments (Quellseite und Attribute) in ein festes
Verzeichnis
TOCLIP
TOCLIP1
TOCLIP2
Periodisch
Verschieben des Dokuments ins "Clipping" oder ins "Clipping (BS)"
LAOCRBS
Periodisch
Layoutanalyse, OCR und boolesche Suche nach Suchbegriffen auf der
Quellseite des Dokuments
SEPARATE Periodisch
Zerlegung eines Dokuments mit einer Doppelseite in zwei Dokumente
mit den jeweiligen Einzelseiten.
IMGWORK
Periodisch
Crop, Deskew, Despeckle und "Linen entfernen" auf der Quellseite eines
Dokuments
BSIMPORT
Einmal am Tag Importieren von XML-Dateien einer fixen Struktur von einem FTP-Server
in die KEYWORDS-Datenbank und Füllen der BSEARCH.MDB mit
Suchbegriffen für die Boolesche Suche
CLEAN
Einmal am Tag Löschen von Quellseiten aus dem "Pool", welche älter sind als eine
einstellbare Anzahl an Tagen
Diese Tasks sind in einigen Punkten über eine externe Steuerdatei "konfigurierbar". Diese Steuerdatei
heißt "CLIPPROC.INI." und befindet sich im Script-Verzeichnis.
4.2.
Steuerdatei CLIPPROC.INI
Die Steuerdatei "CLIPPROC.INI" befindet sich im Script-Verzeichnis. Die weiter oben besprochenen Tasks
lesen Informationen aus dieser Datei. Durch Veränderungen in dieser Datei kann unter Anderem bestimmt
werden, in welcher Reihenfolge die Tasks ausgeführt werden.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
10 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
4.3.
Konfigurieren der Tasks mittels NWPROCCONS.exe
Mit der Systemverwaltung der NWPROCCONS.exe kann festgelegt werden, welche Tasks ausgeführt
werden.
5. Workflow
Die Reihenfolge in der die Tasks ausgeführt werden wird als Workflow bezeichnet. Mögliche Workflows
währen z.B.:
 Dialogmaske "Single Pages" - "LAOCRBS" - "TOCLIP" - Dialogmaske "Clipping (BS)
 "IMPORT" - "LAOCRBS" - "TOCLIP" - Dialogmaske "Clipping (BS)"
 Dialogmaske "Double Pages" - "SEPARATE" - "LA" - "TOCLIP" - Dialogmaske "Clipping"
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
11 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
Wie wird nun ein Dokument, von einem Task an einen anderen übergeben?
Die Antwort lautet kurz: Über den Jobnamen des Dokuments und den gemeinsamen "Pool". Der
gemeinsame "Pool" befindet sich dabei auf einem Netzlaufwerk, auf das die newsProc auf allen Stationen
(= PCs) Zugriff haben.
Dazu ein kleines Diagramm zur näheren Erläuterung:
Jobname
Task SEPARATE
Suche im "Pool" nach Dokumenten mit
dem entsprechenden Jobnamen des
Tasks
Jobnamen (Standard) nach dem gesucht
wird
Bei Task SEPARATE: "SEPARATE"
Wenn solche Dokumente vorhanden, dann
erstes Dokument laden, das nicht von einer
anderen Station bearbeitet wird
Jobnamen (Standard) für den nächsten
Task
Jobnamen des Dokuments auf den Wert
setzen, nach dem der nächste Task sucht
Bei Task SEPARATE: "LA"
Verarbeitung
Dokument im "Pool" speichern
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
12 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
Wie man sieht, verwendet der Task "SEPARATE" die Dokumente im "Pool" mit dem Job-namen
"SEPARATE". Dies sind die Dokumente, die in der Dialogmaske "Double Pages" erzeugt wurden. Nach
dem er seine Verarbeitung (Zerlegen der Doppelseiten in Einzelseiten) durchgeführt hat, stehen die
Dokumente der Einzelseiten mit dem Jobnamen "LA" dem nächsten Task zur Verfügung. Dies ist der Task
"LA"
Die genauen Werte für die Jobnamen der Tasks werden in der Steuerdatei "CLIPPROC.INI" angeben. Sie
lauten z.B. für den Task "SEPARATE":
[SEPARATE]
JOBNAMEINPUT=SEPARATE
JOBNAMEOUTPUT=LA
Eine Sonderrolle bilden die Tasks "IMPORT" und "TOCLIP".
Der Task "IMPORT" verwendet als Input kein Dokument. Er erzeugt bei seiner Verarbeitung erst ein
Dokument, in dem er unter Anderem eine Bilddatei in den "Pool" verschiebt. Als Output liefert er laut
"CLIPPROC.INI" Dokumente im "Pool" mit dem Jobnamen "LA-OCRBS".
[IMPORT]
JOBNAMEOUTPUT=LAOCRBS
Er stellt also den Input für den Task "LAOCRBS" zur Verfügung.
Der Task "TOCLIP" kann vervielfacht werden. Die Workflows
Dialogmaske "Single Pages" - "LAOCRBS" -"TOCLIP" - Dialogmaske "Clipping (BS)
Dialogmaske "Double Pages" - "SEPARATE" - "LA" - "TOCLIP" - Dialogmaske
"Clipping"
verwenden beide den Task TOCLIP.
Im ersten Fall soll der Task TOCLIP aber den Output des Tasks "LAOCRBS" als Input verwenden und als
Output Dokumente erzeugen, die in der Dialogmaske "Clipping (BS) angezeigt werden. Im zweiten Fall ist
der Input der Output des Tasks "LA" und der Output sind Dokumente, die in der Dialogmaske "Clipping"
angezeigt werden.
Deshalb gibt es anstelle des Tasks "TOCLIP" die beiden Tasks "TOCLIP1" und TOCLIP2".
Sie verwenden folgende Einträge in der "CLIPPROC.INI":
[TOCLIP]
#----- TOCLIP1
JOBNAMEINPUT1=TOCLIP1
JOBNAMEOUTPUT1=Clipping (BS)
#----- TOCLIP2
JOBNAMEINPUT2=TOCLIP2
JOBNAMEOUTPUT2=Clipping
Mit:
[LAOCRBS]
JOBNAMEOUTPUT=TOCLIP1
[LA]
JOBNAMEOUTPUT=TOCLIP2
ist gewährleistet, dass der Task "TOCLIP1" seinen Input vom Task "LAOCRBS" erhält und der Task
"TOCLIP2" seinen Input vom Task "LA". Die korrekte Beschreibung der Workflows lautet also:
Dialogmaske "Single Pages"
"Clipping (BS)
Boolesche_Textsuche_Konfiguration.doc
-
"LAOCRBS"
-
"TOCLIP1"
Version: 09.07.2015
-
Dialogmaske
13 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
Dialogmaske "Double Pages" - "SEPARATE" - "LA" - "TOCLIP2" Dialogmaske "Clipping"
"IMPORT" - "LAOCRBS" - "TOCLIP1" - Dialogmaske "Clipping (BS)"
Bemerkung: Wie man aus dem Diagramm weiter oben sieht, setzt ein Task noch vor seiner Verarbeitung
den Jobnamen des Dokuments auf den Wert, der für den Input des nächsten Tasks zuständig ist. Damit ist
gewährleistet, dass selbst bei einem Fehler in der Verarbeitung, der nächste Task noch immer das
Dokument als Input erhält. Es kann dann natürlich ein Folgefehler in der Verarbeitung, die der nächste
Task ausführt, auftreten. Z.B., wenn der nächste Task darauf angewiesen ist, das der vorhergehenden
Task seine Verarbeitung erfolgreich durchgeführt hat. Sicher ist aber, dass das Dokument am Ende im
"Clipping" oder im "Clipping (BS)" erscheint.
6. Wann erscheint ein Dokument im Clipping?
Ein Dokument erscheint in der Dialogmaske "Clipping" oder "Clipping (BS)" von newsCLIP, wenn folgende
Voraussetzungen erfüllt sind:

Der Jobname des Dokuments muss auf den Wert gesetzt sein, der in den "Dialog Box Properties" der
entsprechenden Clipping-Dialogmaske von newsCLIP unter dem Begriff "Batch Job" aufgeführt ist.
Dieser Wert lautet normalerweise "Clipping" für die "Clipping"-Maske oder "Clipping (BS)" für die
"Clipping (BS)-Maske.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
14 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________

Die Dokumenteneigenschaft "nextjob" muss auf "E" gesetzt sein.

Die Dokumenteneigenschaft "status" muss auf "R" gesetzt sein.

Die Filterfelder "filter1", "filter2" und "filter3" des Dokuments müssen mit nicht leeren Werten initialisiert
sein. Der Wert von "filter1" erscheint dann in der ersten Combobox (links) des Dokumentenstapel (auf
Seite 5)s , der Wert von "filter2" erscheint in der zweiten Combobox (Mitte), der Wert von "filter3"
erscheint in der dritten Combobox (rechts). Im Beispiel ist also Filter1=SZ, Filter2=05.05.2008 und
Filter3=1.

Das Dokument muss eine Seite mit Seitenbild haben.
Das Verschieben der Dokumente in die "Clipping"- oder "Clipping (BS)"-Dialogmaske übernehmen die
Tasks "TOCLIP", "TOCLIP1" oder "TOCLIP2".
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
15 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
7. Boolean Search 2
"Boolean Search 2" oder kurz auch BS2 soll an einem kleinen Beispiel erläutert werden.
Angenommen wir interessieren uns für Zeitungsartikel, in denen es um das Thema "Umweltverschmutzung
in der US-Hauptstadt Washington" geht.
Dazu ein Beispielartikel der Zeitung "Washington Post" vom 10.03.2008.
Ein boolescher Suchbegriff zu diesem Thema wäre z.B. "Drugs AND Water AND Washington".
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
16 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
7.1.
Der Task "BSIMPORT"
Wie wird nun dem newsClip/newsProc-System mitgeteilt, dass nach diesem Suchbegriff für dieses
Thema in der Zeitung "Washington Post" gesucht werden soll?
Die Antwort ist: Durch den newsProc-Task "BSIMPORT". Er wird einmal am Tag ausgeführt.
Bemerkung: Der "BSIMPORT" kann auch versuchsweise über die Schaltfläche "Boolean search import" in
der Dialogmaske der NWPROCCONS.exe gestartet werden.
Bemerkung: Der "BSIMPORT" sollte dann ausgeführt werden, wenn keine Quellseiten durch den Task
"LAOCRBS" bearbeitet werden.
Dieser Task hat als Input drei XML-Dateien vorgeschriebener Struktur, die sich in einem Verzeichnis auf
einem FTP-Server befinden. In einem erstem Schritt, dem XML-Import", werden diese XML-Dateien vom
Server geholt und deren Informationen in die Tabellen einer Datenbank übertragen. Diese Datenbank wird
als KEYWORDS-Datenbank bezeichnet.
Wie wird nun dem newsClip/newsProc-System mitgeteilt, das nach diesem Suchbegriff für dieses Thema
in der Zeitung "Washington Post" gesucht werden soll?
Die Antwort ist: Durch den newsProc-Task "BSIMPORT". Er wird einmal am Tag ausgeführt.
Bemerkung: Der "BSIMPORT" kann auch versuchsweise über die Schaltfläche "Boolean search import" in
der Dialogmaske der NWPROCCONS.exe gestartet werden.
Bemerkung: Der "BSIMPORT" sollte dann ausgeführt werden, wenn keine Quellseiten durch den Task
"LAOCRBS" bearbeitet werden.
Dieser Task hat als Input drei XML-Dateien vorgeschriebener Struktur, die sich in einem Verzeichnis auf
einem FTP-Server befinden. In einem erstem Schritt, dem XML-Import", werden diese XML-Dateien vom
Server geholt und deren Informationen in die Tabellen einer Datenbank übertragen. Diese Datenbank wird
als KEYWORDS-Datenbank bezeichnet.
Bemerkung: Die KEYWORDS-Datenbank befindet als eine Access-Datei namens "key-words.mdb" im
Database-Verzeichnis der DemoPCA-Konfiguration. Diese Datenbank kann sich aber auch auf einem "MS
SQL Server" befinden.
Für unser Beispiel müssen die drei XML-Dateien für den XML-Import folgende Namen und mindestens
folgenden Inhalt besitzen:
publication_group_demo.xml
<publication_groups>
<publication_group>
<publication_group_id>1</publication_group_id>
<publication_group_name>Publications from USA</publication_group_name>
</publication_group>
</publication_groups>
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
17 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
publication_demo.xml
<publications>
<publication>
<publication_groups>
<publication_group>
<publication_group_id>1</publication_group_id>
</publication_group>
</publication_groups>
<pub_id>1</pub_id>
<pub_id_sort>000000001</pub_id_sort>
<pub_name>Washington Post</pub_name>
<pub_name_abbr>WPOST</pub_name_abbr>
<language_id>1</language_id>
<circulation>N/A</circulation>
</publication>
</publications>
profile_demo.xml
<profiles>
<profile>
<publication_groups>
<publication_group>
<publication_group_id>1</publication_group_id>
</publication_group>
</publication_groups>
<keywords>
<keyword>
<keyword_id>1</keyword_id>
<keyword_text>"Drugs" AND "Water" AND "Washington"</keyword_text>
<valid_datefrom>2000-01-01</valid_datefrom>
<valid_dateto>2010-12-31</valid_dateto>
<boolean_keyword>Y</boolean_keyword>
</keyword>
</keywords>
<profile_id>1</profile_id>
<profile_id_sort>0000000001</profile_id_sort>
<profile_name>Pollution in Washington</profile_name>
<reading_notes>Environmental pollution in Washington</reading_notes>
</profile>
</profiles>
Es folgen nun einige Erläuterungen zur Struktur der XMLs.
Der eigentliche boolesche Suchbegriff "Drugs" AND "Water" AND "Washington" steht in der XML-Datei
"profile_demo.xml". Es ist dem Thema oder auch Profil "Pollution in Washington" zugeordnet.
Bemerkung: Thema und Profil haben im Folgendem die gleiche Bedeutung.
Natürlich können auch weitere Suchbegriffe diesem Thema zugeordnet sein. Ein möglicher weiterer
Suchbegriff wäre z.B. "Smog" AND "Washington". Dieses müsste in einen neuen <keyword>-Tag
unterhalb des vorhandenen <keywords>-Tags in der profile:demo.xml eingefügt werden.
Ebenso können weitere Publikationsgruppen, weitere Publikationen und weitere Profile mit ihren
Suchbegriffen in den entsprechenden XMLs eingefügt werden.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
18 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
Gesucht wird nach "Drugs" AND "Water" AND "Washington" für das Thema "Pollution in Washington" in
der Publikationengruppe "1". Diese besteht, wie man dem XML publication_group_demo.xml entnehmen
kann, aus allen Zeitungen in den USA. Im XML publication_demo.xml ist die Zeitung "Washington Post"
dieser Publikationengruppe zugeordnet worden.
Mit Publikationsgruppen kann man also die Suche nach Themen auf bestimmte Zeitungen eingrenzen.
Man kann aber auch in mehreren Publikationsgruppen gleichzeitig nach den booleschen Suchbegriffen für
ein Thema suchen. Es wäre z.B. möglich eine zweite Publikationengruppe namens "Publications from
Australian" im XML publication_group_demo.xml zu definieren. Im XML publication_demo.xml müssten
dann Zeitungen dieses Typs definiert und dieser Publikationengruppe zugeordnet werden. Durch
entsprechende Einträge in der profile_demo.xml könnte dann nach Suchwörtern für das Thema "Pollution
in Washington" auch in australischen Zeitungen gesucht werden.
Für den ersten Arbeitschritt des Task "BSIMPORT", den XML-Import, ist die Sektion [XMLIMPORT] in der
"CLIPPROC.INI" zuständig. Diese sieht für unser Beispiel auszugsweise so aus:
[XMLIMPORT]
SERVER=ftp.ccs-gmbh.com
USER=quaiser
PASSWORD=password
FTPDIR=/_USERS/CQ/DemoPCAXMLImport/
Achtung: Case Sensitive
PUBLXML=publication_demo.xml
PUBLGROUPXML=publication_group_demo.xml
PROFILESXML=profile_demo.xml
Die oben genannten XML-Dateien müssen sich also im Verzeichnis
/_USERS/CQ/DemoPCAXMLImport/
auf dem Ftp-Server ftp.ccs-gmbh.com befinden.
Nach dem XML-Import sind dann die entsprechenden Tabellen in der KEYWORDS-Datenbank gefüllt. Da
in newsCLIP über Listen auf die Tabellen dieser Datenbank zugegriffen wird, sind auch die
entsprechenden Comboboxen, wie z.B. die Combobox "Publkations", mit den entsprechenden Einträgen
aus den XMls gefüllt.
Bemerkungen zur Sprache: Die Sprache eines Dokuments wird indirekt durch die Sprachnummer im Tag
<language_id> für jede Publikation festgelegt. Dieser Tag befindet sich z.B. im XML publication_demo.xml.
Diese Sprachnummer braucht nicht die Sprachnummer sein, die in newsCLIP/newsProc verwendet wird,
um die Sprache des Dokuments festzulegen.
Es existiert deshalb eine Tabelle namens "language" in der KEYWORDS-Datenbank, die z.B. folgende
Werte besitzt:
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
19 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
Mit dieser Tabelle wird die Sprachnummer im Tag <language_id> durch die entsprechende
Sprachnummer im Feld "language_id_ccs" ersetzt. Dies wird dann verwendet, um die Sprache des
Dokuments festzulegen.
Wird keine entsprechende Sprachnummer gefunden, wird "Englisch" als Sprache des Dokuments gesetzt.
Nach dem XML-Import folgt der eigentliche Import der Booleschen Suchbegriffe in die BSEARCH.MDB.
Diese befindet sich im Lists-Verzeichnis der Konfiguration. Dort werden die booleschen Suchbegriffe und
ihre Zuordnungen zu den Publikationsgruppen und Themen abgespeichert.
Führt man jetzt den "BSIMPORT" z.B. über die NWPROCCONS.exe aus, wechselt unter newsCLIP in die
"Clipping (BS)"-Dialogmaske und führt im Script-Editor den Befehl:
bsearch dialog
aus, erhält man folgende Anzeige:
Man erkennt, dass der boolesche Suchbegriff "Drugs" AND "Water" AND "Washington" in die
BSEARCH.MDB eingetragen wurde. Gleichzeitig ist dieser Suchbegriff der Source = Publikationengruppe
"1" und der Destination = Profile = Thema "0000000001X1" zugeordnet. "0000000001" steht für das
Thema = Profil = "1" und "X1" dafür, dass dieses Thema der Priorität "1" zugeordnet ist. Wird nämlich in
den XML-Dateien für ein Thema keine Priorität vergeben, wird automatisch "1" als Priorität vergeben.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
20 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
7.2.
Der Task "LAOCRBS"
Die eigentliche Suche auf einer Quellseite nach den booleschen Begriffen, die in der BSEARCH.MDB
gespeichert sind, übernimmt der Task "LAOCRBS".
Er führt auf der Quellseite folgende Schritte aus:

Layoutanalyse der Seite

OCR der Seite

Boolesche Suche im OCR-Text der Seite ist der Workflow des newsProc wie folgt definiert:
Dialogmaske "Single Pages" - "LAOCRBS" - "TOCLIP1" - Dialogmaske "Clipping (BS)
kann also die Seite 12 der "Washington Post" vom 10.03.2008 in der Dialogmaske "Single Pages"
geladen, attributiert und verarbeitet werden.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
21 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
Bemerkung: Wie man aus der Abbildung erkennt, werden die Werte der Tags <pub_id> und <pub_name>
aus dem XML publication_demo.xml in der Combobox "Publication" angezeigt.
Nach dem Start des newsProc lässt sich nach einiger Zeit, die Quellseite in der Dialogmaske "Clipping
(BS) laden.
Die Wörter "Washington" sind im Artikel mit Highlights versehen.
Bemerkung: Wie man aus der Abbildung erkennt, werden die Werte des Tags <profile_name> in der Liste
"Source Profiles" und in der Combobox "Art. Profiles" angezeigt. Im Anzeigefeld "Addition" steht der Wert
des Tags <reading_notes>. Diese Tags gehören zum XML profile_demo.xml. Im ersten Filter des
Dokumentenstapels erscheint der Wert des Tags <pub_name_abbr>. Dieser Tag gehört zum XML
publication_demo.xml.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
22 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
7.3.
Clippen von Artikeln mit Highlights
Werden Artikel mit Highlights geclippt, werden automatisch in der Combobox "Art. Profiles" die zu den
Highlights gehörigen Profile (= Themen) selektiert.
7.4.
Blättern über Seiten mit Treffern
In der Dialog-Maske "Clipping (BS)"
existieren die vier Comboboxen "Prio (Match)", "Publ.Date (Match)", "Publ.(MATCH)" und "Page (Match)".
Mit Hilfe dieser Comboboxen können ähnlich wie mit den Comboboxen des Dokumentenstapels
Quellseiten geladen werden.
Es können aber nur solche Quellseiten geladen werden, für die die boolesche Suche Treffer ergab.
Bemerkung: Technisch gesehen wird dieses Blättern über Seiten mit Treffern mit Hilfe der MATCHESDatenbank gelöst. Dort wird in einer Tabelle für jede Seite mit Treffern ein Datensatz in einer Tabelle
verwendet. Die MATCHES-Datenbank befindet sich als eine Access-Datei namens "matches.mdb" im
Database-Verzeichnis der DemoPCA-Konfiguration. Diese Datenbank kann sich aber auch auf einem "MS
SQL Server" befinden.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
23 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
8. Genaue Beschreibung der Tasks
Auf den folgenden Seiten folgt eine ausführlichere Beschreibung der Tasks. Es wird für jeden Task auf den
Input, die Verarbeitung und den Output eingegangen.
Wird auf irgendwelche Einträge in INI-Dateien Bezug genommen, so befinden sich diese Einträge in der
Steuerdatei "CLIPPROC.INI."
8.1.
Task "IMPORT"
Input, Verarbeitung, Output
Input
Bilddateien (*.JPG, *.TIF, *.BMP) oder PDF-Dateien in einer Verzeichnisstruktur unter
[IMPORT]
IMAGEDIR=***SCANS***
Die Verzeichnisstruktur mit gültigen Namen für die zu importierten Dateien ist nicht
veränderbar und lautet:
***SCANS***\SDATE,F=YYYYMMDD\SOURCE\PAGE.EXT
Für den Namen der zu importierenden Datei ist statt
PAGE.EXT auch
PAGEPREFIX PAGENUMBER PAGESUFFIX.EXT
gültig.
Bemerkung: Die Bilddateien werden normalerweise von einem externen Scanner
geliefert. Die Dialog-Maske "Import" unter newsCLIP speichert die dort verarbeiteten
Dateien ebenfalls in dieser Verzeichnisstruktur. Sie liefert also auch Input für den Task
"IMPORT".
Verarbeitung Aus einer Bilddatei als Input werden einseitige Dokumente erzeugt. Aus einer PDF-Datei
mit mehreren Seiten, mehrere einseitige Dokumente.
Die Datenfelder "SOURCE", "SDATE" und "PAGE" des Dokuments werden mit Werten
gefüllt. Gegebenenfalls auch die Felder "PAGEPREFIX", "PAGESUFFIX" und
"PAGENUMBER".
Über die Einträge
[COMMON]
FIELDBYLISTX=…, X=1,2
werden weiter Felder des Dokuments initialisiert. Unter anderem auch die "SOURCEID".
Die Sprache des Dokuments wird gesetzt.
Output
Dokumente mit einer Seite und initialisierten Datenfeldern. Der Jobname der Dokumente
wird durch
[IMPORT]
JOBNAMEOUTPUT=LAOCRBS
auf "LAOCRBS" gesetzt. Die Dokumente würden also vom Task "LAOCRBS" im
nächsten Schritt bearbeitet. Ein anderer sinnvoller Eintrag wäre:
Ausführung
[IMPORT]
JOBNAMEOUTPUT=LA
Periodisch
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
24 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
8.2.
Task "LA"
Input, Verarbeitung, Output
Input
Dokumente mit dem Jobnamen, der durch
[LA]
JOBNAMEINPUT=LA
angegeben ist. Also "LA". Dieser Wert sollte nicht geändert werden.
Input könnte also bei richtiger Konfiguration der Task "IMPORT" oder der Task
"SEPARATE" sein. Ebenso die verarbeitenden Seiten in der Dialog-Maske "Single
Pages". Siehe dazu auch 2.2 Erzeugen von Dokumenten.
Verarbeitung
Auf der Seite des Dokuments wird Layoutanalyse durchgeführt
Output
Dokumente mit dem Jobnamen, der durch
[LA]
JOBNAMEOUTPUT=TOCLIP
angegeben ist. Der nächste Task nach "LA" wäre also der Task "TOCLIP", der diesen
Output damit als Input bekommt. Der Task "TOCLIP" sollte dann das Verschieben in
die Clipping-Dialogmaske übernehmen.
Möglich wäre für JOBNAMEOUTPUT auch "TOCLIP1" oder "TOCLIP2" als Jobnamen
für die Tasks "TOCLIP1" und "TOCLIP2" statt des Tasks "TOCLIP".
Ausführung
Periodisch
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
25 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
8.3.
Task "LAOCRBS"
Input, Verarbeitung, Output
Input
Dokumente mit dem Jobnamen, der durch
[LAOCRBS]
JOBNAMEINPUT=LAOCRBS
angegeben ist. Also "LAOCRBS". Dieser Wert sollte nicht geändert werden.
Input könnte also bei richtiger Konfiguration der Task "IMPORT" oder der Task
"SEPARATE" sein. Ebenso die verarbeitenden Seiten in der Dialog-Maske "Single
Pages". Siehe dazu auch Erzeugen von Dokumenten
Verarbeitung
Auf der Seite des Dokuments wird die Layoutanalyse, die OCR und boolesche Suche
anhand der "BSEARCH.MDB" durchgeführt.
Bemerkung: Vor dem Task "LAOCRBS" sollte also der einmal täglich ausgeführte
Task "BSIMPORT" ausgeführt worden sein, der die "BSEARCH.MDB" mit den
Suchbegriffen für die Boolesche Suche füllt.
Output
Dokumente mit dem Jobnamen, der durch
[LAOCRBS]
JOBNAMEOUTPUT=TOCLIP
angegeben ist. Der nächste Task nach "LAOCRBS" wäre also der Task "TOCLIP", der
diesen Output damit als Input bekommt. Der Task "TOCLIP" sollte dann das
Verschieben in die "Clipping (BS)"-Dialogmaske übernehmen.
Möglich wäre für JOBNAMEOUTPUT auch "TOCLIP1" oder "TOCLIP2" als Jobnamen
für die Tasks "TOCLIP1" und "TOCLIP2" statt des Tasks "TOCLIP".
Des Weiteren wäre für JOBNAMEOUTPUT auch der Wert "EXPORT" sinnvoll. Damit
wäre der Output der Input des Tasks "EXPORT".
Ausführung
Periodisch
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
26 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
8.4.
Task "OCR"
Input, Verarbeitung, Output
Input
Dokumente mit dem Jobnamen, der durch
[OCR]
JOBNAMEINPUT=OCR
angegeben ist. Also "OCR". Dieser Wert sollte nicht geändert werden.
Input muss bei richtiger Konfiguration der Output des Task "LA" sein. Der Task "LA"
erzeugt nämlich die Artikelzonen der Quellseite für den Task "OCR".
Verarbeitung
Auf den Artikelzonen der Quellseite wird die OCR ausgeführt. Das Ergebnis der OCR
wird im XML-Format in der Attribut-Datei der Quellseite gespeichert. Diese AttributDatei ist eine XML-Datei im Pool.
Output
Dokumente mit dem Jobnamen, der durch
[OCR]
JOBNAMEOUTPUT=EXPORT
angegeben ist. Der nächste Task nach dem Task "OCR" wäre also der Task
"EXPORT", der diesen Output damit als Input bekommt. Läuft vor dem Task
"EXPORT" der Task "OCR", kann der Task "EXPORT" ein PDF der Quellseite mit
"Hidden Text" erzeugen.
Ausführung
Periodisch
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
27 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
8.5.
Task "EXPORT"
Input, Verarbeitung, Output
Input
Dokumente mit dem Jobnamen, der durch
[EXPORT]
JOBNAMEINPUT=EXPORT
angeben wird. Also "EXPORT". Dieser Wert sollte nicht geändert werden.
Sinnvoll sind hier nur Dokumente, die vorher vom Task "LAOCRBS" bearbeitet
wurden.
Verarbeitung
Die Seite des Dokuments wird als PDF mit Hidden Text exportiert. Die Feldinhalte des
Dokuments als XML-Datei gleichen Namens.
Ausgabeverzeichnis des Exports ist:
Output
[EXPORT]
EXPORTDIR=***EXPPAGE***
Dokumente mit dem Jobnamen, der durch
[EXPORT]
JOBNAMEOUTPUT=TOCLIP
angegeben ist. Der nächste Task nach "EXPORT" wäre also der Task "TOCLIP", der
diesen Output damit als Input bekommt. Der Task "TOCLIP" sollte dann das
Verschieben in die "Clipping (BS)"-Dialogmaske übernehmen.
Möglich wäre für JOBNAMEOUTPUT auch "TOCLIP1" oder "TOCLIP2" als Jobnamen
für die Tasks "TOCLIP1" und "TOCLIP2" statt des Tasks "TOCLIP".
Ausführung
Periodisch
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
28 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
8.6.
Task "SEPARATE"
Input, Verarbeitung, Output
Input
Dokumente mit dem Jobnamen, der durch
[SEPARATE]
JOBNAMEINPUT=SEPARATE
angegeben ist. Also "SEPARATE". Dieser Wert sollte nicht geändert werden.
Sinnvoll sind hier nur Dokumente, die vorher in der Dialogmaske "Double Pages"
verarbeitet wurden.
Verarbeitung
Das Dokument mit einer Doppelseite als Seite wird in zwei Dokumente mit jeweils
einer Einzelseite als Seite zerlegt.
Output
Dokumente mit dem Jobnamen, der durch
[EXPORT]
JOBNAMEOUTPUT=LA
angeben ist. Der nächste Task nach "SEPARATE" wäre also der Task "LA".
Möglich wäre für JOBNAMEOUTPUT auch "LAOCRBS". Der nächste Task wäre dann
"LAOCRBS"
Ausführung
8.7.
Periodisch
Task "TOCLIP"
Neben dem Task "TOCLIP" gibt es auch die Tasks "TOCLIP1" und "TOCLIP2". Die gültige Sektion in der
"CLIPPROC.INI" für diese weiteren Tasks ist ebenfalls die Sektion [TOCLIP].
[TOCLIP]
JOBNAMEINPUT=TOCLIP
JOBNAMEINPUT1=TOCLIP1
JOBNAMEINPUT2=TOCLIP2
JOBNAMEOUTPUT=Clipping (BS)=
JOBNAMEOUTPUT1=Clipping (BS)
JOBNAMEOUTPUT2=Clipping
Für den Task "TOCLIP" sind die Einträge "JOBNAMEINPUT" und "JOBNAMEOUTPUT" relevant. Für den
Task "TOCLIP1" die Einträge "JOBNAMEINPUT1" und "JOBNAMEOUTPUT1" und für den Task
"TOCLLIP2"die Einträge "JOBNAMEINPUT2" und "JOBNAMEOUTPUT2".
In der Verarbeitung unterscheiden sich die Tasks "TOCLIP", "TOCLIP1" und "TOCLIP2" ansonsten nicht.
Siehe weiter unten.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
29 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
Input, Verarbeitung, Output
Input
Dokumente mit dem Jobnamen, der durch
[TOCLIP]
JOBNAMEINPUT=TOCLIP
angegeben ist. Also "TOCLIP". Dieser Wert sollte nicht geändert werden.
Sinnvoll sind hier nur Dokumente als Input, die sich am Ende der Verarbeitungskette
eines Workflows befinden und nun in der Dialogmaske "Clipping" oder "Clipping (BS)"
erscheinen sollen.
Verarbeitung
Der Jobname des Dokuments wird auf den Wert gesetzt, der durch
[TOCLIP]
JOBNAMEOUTPUT=Clipping
angegeben ist.
Das Dokument erscheint also nach der Verarbeitung in der Dialogmaske "Clipping". Ein
anderer sinnvoller Wert für "JOBNAMEOUTPUT" wäre "Clipping (BS)".
Output
Dokumente, die in den Dialogmasken "Clipping" oder "Clipping (BS)" erscheinen.
Ausführung
Periodisch
8.8.
Task "IMGWORK"
Input, Verarbeitung, Output
Input
Dokumente mit dem Jobnamen, der durch
[IMGWORK]
JOBNAMEINPUT=IMGWORK
angegeben ist. Also "IMGWORK". Dieser Wert sollte nicht geändert werden.
Dieser Task sollte nach dem Task "IMPORT" oder dem Task "SEPARATE" ausgeführt
werden und vor dem Task "LAOCRBS" oder dem Task "LA".
Verarbeitung
Crop (Seitenränder entfernen), Deskew (Seite geraderücken), Despeckle (Schmutz
entfernen) und "Linen entfernen" werden auf der Quellseite eines Dokuments
ausgeführt.
Output
Dokumente mit dem Jobnamen, der durch
angeben ist. Der nächste Task nach "IMGWORK" wäre also der Task "LA".
Ein anderer sinnvoller Wert für JOBNAMEOUTPUT wäre "LAOCRBS".
Ausführung
8.9.
Periodisch
Task "BSIMPORT"
Siehe dazu Der Task "BSIMPORT (auf Seite 17)
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
30 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
8.10. Task "CLEAN"
Input, Verarbeitung, Output
Input
Keiner
Verarbeitung
Alle Dokumente, die älter als durch
[CLEAN]
DAYSTOKEEP=10
angegeben ist, werden aus dem Pool gelöscht. Hatten die Seiten Treffer bei der
booleschen Suche, werden die zugehörigen Datensätze aus der MATCHESDatenbank gelöscht.
Output
Output keiner
Ausführung
Einmal am Tag
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
31 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
9. Ausführliche Beschreibung der "CLIPPROC.INI"
Neben der "CLIPPROC.INI" gibt es eine "CLIPPROC_mit_kommentaren.INI" im Script-Verzeichnis der
DemoPCA-Konfiguration. Diese INI-Datei ist mit Kommentaren versehen worden, die jeden Eintrag einzeln
beschreiben.
Am wichtigsten sind die Sektionen:
[MATCHESODBC], [KEYWORDSODBC], [NETSEND], [XMLIMPORT]
Die Einträge für JOBNAMEINPUT und JOBNAMEOUT in den Sektionen
[IMPORT], [SEPARATE], [IMGWORK], [LA], [LAOCRBS], [EXPORT], [TOCLIP]
sind dazu da, um den Workflow (=Reihenfolge der Abarbeitung) der Tasks IMPORT, SEPARATE,
IMGWORK, LA, LAOCRBS, EXPORT, TOCLIP zu konfigurieren. Diese Tasks sind in der DemoPCAPROC.INI definiert.
Für das Löschen von Dokumenten aus dem POOL ist die Sektion [CLEAN] zuständig.
9.1.
[COMMON]
PRIOS=0,1,2
Die folgende Werte für die PRIO eines boolschen Suchbegriffs können verwendet werden. Da im XML
profile.xml keine PRIOS für die Suchbegriffe angegeben werden, sollte diese Einstellung nicht
verändert werden. Die PRIO selber taucht in der "Clipping (BS)"-Dialogmaske in der Combobox "Prio
(Match)".
FILTERLENGTH=20
Die Länge (Anzahl der Zeichen) der Felder P_FILTER1, P_FILTER2 und P_FILTER3 in der
DOCUMENT-Datenbank. Die Inhalte dieser
Felder erscheinen in den Comboboxen des
Dokumentenstapels in der "Clipping" bzw. "Cliping (BS)"-Dialogmaske.
INCRPAGELENGTH=4
Wird nur noch beim [TASK] Import verwendet. Besteht der Namen einer zu importierenden
mehrseitigen PDF-Datei nur aus Buchstaben (z.B. test.pdf) werden für die folgenden Seiten
INCRPAGELENGTH Ziffern für die Seitenzahl PAGE verwendet.
Z.B. test_0002.pdf für die zweite Seite des PDFs, test_0003.pdf für die dritte Seite des PDFs usw.
DATEFORMAT=%D.%M.%Y
Werden die Controls SDATE und CDATE unter newsCLIP so umkonfiguriert, dass %M.%D.%Y für die
dortige Datumsanzeige verwendet wird, muss DATEFORMAT=%M.%D.%Y eingestellt werden. Damit
erscheint dann auch die Angabe von SDATE im entsprechenden Filter des Dokumentenstapels in
dieser Form.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
32 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
CLEANEXPORTLOCKFILE=
Bitte so lassen. Macht nur so noch Sinn!
PAGEPREFIXLENGTH=7
PAGESUFFIXLENGTH=4
PAGENUMBERLENGTH=4
Maximalanzahl der Zeichen, die für PAGEPREFIX, PAGESUFFIX und PAGENUMBER verwendet
werden können. Hat etwas damit zu tun, dass die Breite der Comboboxen des Dokumentenstapels
beschränkt ist und damit nicht beliebig lange Zeichenkettten vollständig dargestellt werden können. In
der dritten Combobox des Dokumentenstapels steht nämlich PAGEPREFIX PAGENUMBER
PAGESUFFIX.
DEBUGSTATIONS=
Dieser Eintrag is zum Debuggen von Scripten gedacht. Stehen hier Stationsnamen getrennt durch ",",
schreibt die Script-Funktion
LIB_writelog "DEBUG" "......" Meldungen in eine zusätzliche Log-Datei
GO4KEYWORDSEARCH=0
Wird nicht mehr verwendet!
CLIPPINGNAMES=Clipping (BS),Clipping
Hier solten die Namen der Clipping-Dialogmasken angegeben werden. Dient dazu, um zu bestimmen,
ob ein Task Seiten ins Clipping verschiebt.
TASKSTOREMOVEZONES=TOCLIP,LA,OCR,LAOCRBS,EXPORT,TOCLIP,TOCLIP1,TOCLIP2
Diese Tasks, sollten evtl. vorhandene Zonen auf der Quellseiten löschen, wenn sie so konfiguriert sind,
dass sie das Dokument direkt in das Clipping verschieben.
TASKSTOSTOREHITS=LAOCRBS,EXPORT,TOCLIP,TOCLIP1,TOCLIP2
Diese Tasks, sollten evtl. Treffer in der MATCHES-DB abspeichern, wenn sie so konfiguriert sind, dass
sie das Dokument direkt in das Clipping verschieben
DBACCESSTYPE=1 => KSCRIPTDB
DBACCESSTYPE=2 => TCLODBC
Hier wird geregelt, ob mit der KSCRIPT.DLL oder der TCLODBC.DLL auf die MATCHES- und
KEYWORDS-DB zugegriffen wird.
DBACCESSTYPE=1
Bitte nur DBACCESSTYPE=1 verwenden, da nur so UNICODE und Transaktionen unterstützt werden.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
33 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
JOBNAMEONERRORLOADDOC=ERRORLOADDOC
Wird ein Dokument von einem Task geladen und existert dort nicht das Datenfeld "SOURCEID" (in
GLBL.INI aber vorhanden), erhält das Dokument diesen Jobnamen und steht für eine weitere
Verarbeitung somit nicht mehr zurVerfügung! Das ist der unzulängliche Script-Versuch um die EndlosVerarbeitung von Dokumenten mit korrupten XMLs zu verhindern.
FILTER1=SOURCE
FILTER2=SDATE
FILTER3=PAGE
Die Werte dieser Feldinhalte werden verwendet, um in den drei Comboboxen im Clipping angezeigt zu
werden. Bitte nicht ändern! Es müssten einige Scripte angepasst werden.
FIELDBYLIST1=SF=SOURCE,DF=SOURCEID,SC=4,DC=0,L=publications
FIELDBYLIST2=SF=SOURCE,DF=SOURCEL,SC=4,DC=1,L=publications
FIELDBYLIST3=SF=SOURCE,DF=THRESHOLD,SC=4,DC=5,L=publications
FIELDBYLIST-Eintäge werden verwendet, um beim Task IMPORT und in den Scannen-Masken
zusätzliche Felder zu initialisieren. Wird nicht mehr verwendet!
SF=SOURCEFIELD
DF=DESTINATIONFIELD
SC=SOURCECOLUMN
DC=DESTINATIONCOLUMN
L=LIST
Mit dem Wert des Feldes SF wird in der Liste L in der Spalte SC nach einer Übereinstimmung gesucht.
Falls es eine Übereinstimmung gibt, wird der dazu zugehorge Wert in der Spalte DC der Liste Lin das
Feld DF geschrieben. Bitte nur SF=SOURCE verwenden!
INPUTDIR2=SOURCE
Wird nicht mehr verwendet!
POOLVIEWDOCS=10
Bei einer Suche im Pool werden maximal POOLVIEWDOCS Dokumente gefunden. Dies schränkt also
die Netzwerkbelastung ein. POOLVIEWDOCS sollte aber immer größer sein als die Anzahl der
verwendeten newsProc.
POOLVIEWSORT=DATE
Die Suche im Pool nach Dokumenten erfolgt in der Reihenfolge des Erzeugungsdatum der
Dokumente. Altere Dokumente werden zuerst gefunden und damit zuerst bearbeitet. FIFO-Prinzip.
Bitte so lassen!
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
34 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
9.2.
[MATCHESODBC]
ODBC-Zugriff auf die MATCHES-DB DSN muss angelegt werden!
DSN=DemoPCAMATCHES
USER=
PASSWORD=
Bitte nicht ändern!
MATCHESTABLE=MATCHES
DBTYPE=1 => Access (MDB), DBTYPE=2 => MS SQL-Server
DBTYPE=1
ODBC-Zugriff auf die KEYWORDS-DB
DSN muss angelegt werden!
Bei Importieren der Datenbank von MS SQL Server nach Access oder beim Kopieren der Datenbank von
einem MS SQL Server auf einen anderen, ist noch Folgendes zu beachten:
 Feld: keyword_id in Tabelle: profile_keywords: Primarschlüssel und Autowert
 Feld: prio in Tabelle: profile_keywords: Defaultwert 1
 Feld: threshold in Tabelle: publications: Defaultwert -1
 ????
Diese Einstellungen scheinen beim Importieren oder Kopieren verloren zu gehen
9.3.
[KEYWORDSODBC]
wird verwendet bei BYDSN=1
DSN=DemoPCAKEYWORDS
USER=
PASSWORD=
DBTYPE=1 => Access (MDB), DBTYPE=2 => MS SQL-Server
DBTYPE=1
9.4.
[IMPORT]
DOCNAME=clip
DOCNAME = Name des verwendeten Dokumententyps (Systemkonfiguration-> Dokumententyp) Der
Task "IMPORT" erzeugt ein Dokument dieses Typs mit den entprechenden Datenfeldern. Kommt in
fast jeder Konfiguration vor.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
35 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
IMPORTTYPE=DIR
IMPORTTYPE=DIR bitte so lassen! Bedeutet das die zu importierenden Dateien in einer
Verzeichnisstruktur unter IMAGEDIR liegen müssen. Früher gab es noch den IMPORTYPE=FILE.
Wird nicht mehr unterstützt.
IMAGEDIR=***SCANS***
Das ROOT-Verzeichnis, unter dem sich die Verzeichnisstruktur mit den zu importierenden Dateien
befindet.
Bitte nicht ändern! Änderungen bedeuten Scripting-Aufwand! Bedeutet, dass die Dateien in der
Verzeichnisstruktur unter dem ROOT-Verzeichnis folgendermaßen abgelgt werden müssen:
IMAGEDIR=SDATE,F=YYYYMMDD\SOURCE\PAGE.EXT
oder
IMAGEDIR=SDATE,F=YYYYMMDD\SOURCE\PAGEPREFIX PAGENUMBER PAGESUFFIX
IMAGEINFO=SDATE\SOURCE\PAGE
Die Werte für SDATE und SOURCE werden also den Namen der entprechenden Verzeichnissen
entnommmen.
IMAGECOUNT=8192
Maximal so viele Dateien werden vom Task "IMPORT" in einem Durchlauf importiert. Wurde wegen
der FIFO-Anforderung eingeführt. Die Dateien werden aufsteigen nach Erzeugsdatum importiert. Also
ältere Dateien vor neueren Dateien.
ERRORDIR=***SCANSERROR***
Tritt beim Import ein Fehler auf, befinden sich die nicht importierten Dateien in einer
Verzeichnisstruktur unter dem Verzeichnis ERRORDIR
IMAGEEXT=TIF,TIFF,JPG,JPEG,PDF,DOC,BMP
Nur Dateien mit diesen Endungen werden importiert.
TEXTEXT=TXT
Wird nicht mehr unterstützt!
JOBNAMEOUTPUT=LA
JOBNAMEOUTPUT=LAOCRBS
Die Dokumente der importierten Seiten haben nach dem erfolgten Import diesen Jobnamen!
JOBNAMEONERRORIMPORT=ERRORIMPORT
Dokumente, die nicht erfolgreich importiert wurden, haben diesen Jobnamen, und stehen für den
Workflow nicht mehr zur Verfügung
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
36 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
9.5.
[SEPARATE]
JOBNAMEINPUT=SEPARATE
Zerlegt ein Dokument mit einer Doppelseite in zwei Dokumente mit jeweils einer Einzelseite. Input
muss vom Dialog "Double Pages" kommen.
JOBNAMEOUTPUT=LA
Nach Dokumenten mit diesen Jobnamen wird als Input für den Task gesucht. Es wird das erste
gefundene Dokument als Input verwendet.
JOBNAMEOUTPUT=IMGWORK
JOBNAMEOUTPUT=LAOCRBS
JOBNAMEOUTPUT=LA
JOBNAMEOUTPUT=LA
Das Dokument steht nach der Verarbeitung des Tasks mit diesem Jobnamen als Input für den
nächsten Task zur Verfügung!
DESPECKLE=1
Wird nicht verwendet! Siehe Task IMGWORK.
DESKEW=0
Wird nicht verwendet! Siehe Task IMGWORK.
CROP=1
Wird nicht verwendet! Siehe Task IMGWORK.
CROPDIST=20
Wird nicht verwendet! Siehe Task IMGWORK.
MAXSINPLEPAGEWIDTH=5800
Überschreitet eine Seite in ihrer Breite diesen Wert wird sie als Doppelseite erkannt und in zwei
Einzelseiten zerlegt. Angabe des Wertes erfolgt in mm/10.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
37 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
9.6.
[LA]
Führt die Layoutanalyse auf der Seite des Dokuments durch
JOBNAMEINPUT=LA
Nach Dokumenten mit diesen Jobnamen wird als Input für den Task gesucht. Es wird das erste
gefundene Dokument als Input verwendet.
JOBNAMEOUTPUT=OCR
JOBNAMEOUTPUT=EXPORT
JOBNAMEOUTPUT=TOCLIP
JOBNAMEOUTPUT=TOCLIP2
Das Dokument steht nach der Verarbeitung des Tasks mit diesem Jobnamen als Input für den
nächsten Task zur Verfügung!
DESPECKLE=1
Nur für die Layoutanalyse wird der Schmutz entfernt.
REMOVELINES=0
Wird nicht verwendet! Siehe Task IMGWORK.
9.7.
[_OCR]
Task OCR sollte nicht verwendet werden!
Task LA muss vorher ausgeführt worden sein.
Füht verschiedene Typen der OCR durch (über alle Artikelzonen oder über eine Gesamtzone der Seite)
JOBNAMEINPUT=OCR
Nach Dokumenten mit diesen Jobnamen wird als Input für den Task gesucht. Es wird das erste
gefundene Dokument als Input verwendet.
JOBNAMEOUTPUT=EXPORT
Das Dokument steht nach der Verarbeitung des Tasks mit diesem Jobnamen als Input für den
nächsten Task zur Verfügung!
OCRTYPE=ZONES
Der Typ der OCR
OCRTYPE = ARTICLES <=> OCR über alle Artikelzonen, Zonen werden gelöscht
OCRTYPE = PAGE
<=> OCR über die Seite, Gesamtzone der Seite wird gelöscht
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
38 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
OCRTYPE = BOTH
gelöscht
<=> OCR über alle Artikelzonen und OCR über die Seite, alle Zonen werden
OCRTYPE = ZONES
<=> OCR über alle Artikelzonen, Zonen werden nicht gelöscht!
OCRTYPE = ARTICLES => Nur im Feld, das unter OCRARTICLESFIELD angegeben ist, wird das
Ergebnis der OCR über die Artikelzonen gespeichert.
OCRTYPE = PAGE
=> Nur im Feld, das unter OCRPAGEFIELD angegeben ist, wird das Ergebnis
der OCR über die Seite gespeichert.
OCRTYPE = BOTH
=> In den Feldern, die unter OCRARTICLESFIELD and OCRPAGEFIELD
angeben sind, werden die OCR-Ergebnisse gepeichert.
OCRARTICLESFIELD=OCRARTICLES
OCRPAGEFIELD=OCRPAGE
Namen der zwei Dokumentenfelder, die die OCR-Ergebnisse enthalten
9.8.
[LAOCRBS]
Führt die Layoutanalyse, die OCR und die boolesche Suche über der Dokumentenseite durch.
JOBNAMEINPUT=LAOCRBS
Nach Dokumenten mit diesen Jobnamen wird als Input für den Task gesucht. Es wird das erste
gefundene Dokument als Input verwendet.
JOBNAMEOUTPUT=EXPORT
JOBNAMEOUTPUT=TOCLIP
JOBNAMEOUTPUT=Clipping (BS)
JOBNAMEOUTPUT=TOCLIP1
Das Dokument steht nach der Verarbeitung des Tasks mit diesem Jobnamen als Input für den
nächsten Task zur Verfügung!
SAVETRIES=1
Anzahl der Versuche, um das Dokument zu speichern. Sollte jetzt auf den Wert 1 gesetzt werden.
SAVEDELAY=500
Zeit in Millisekunden zwischen den Versuchen, das Dokument zu speichern
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
39 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
REMOVEDUPLICATES=1
REMOVEDUPLICATES=1 => Es wird versucht, Dokumente mit den gleichen Filterwerten (SOURCE,
SDATE, PAGE) wie das Dokument, das von diesem Task bearbeitet wird, zu löschen. Es werden
dabei nur solche Dokumente gelöscht, die den Jobnamen REMOVEDUPLICATESCLIPPINGJOB
haben. Das sind also Seiten in der Dialogmaske "Clipping (BS)". Einfacher ausgedrückt: Bereits im
"Cliping (BS)" vorhandene Seiten werden überschrieben.
REMOVEDUPLICATESTRIES=3
Anzahl der Versuche, das Dokument zu überschreiben. Ist das Dokument im "Clipping (BS)"
momentan vom Benutzer geladen, kann es nicht gelöscht werden.
REMOVEDUPLICATESTIME=1000
Zeit in Millisekunden zwischen den Versuchen
REMOVEDUPLICATESCLIPPINGJOB=Clipping (BS)
Siehe oben.
9.9.
[EXPORT]
Exportiert ein Dokument. Es sollte vorher der TASK LAOCRBS oder der Task OCR ausgeführt worden
sein.
JOBNAMEINPUT=EXPORT
Nach Dokumenten mit diesen Jobnamen wird als Input für den Task gesucht. Es wird das erste
gefundene Dokument als Input verwendet.
JOBNAMEOUTPUT=TOCLIP1
Das Dokument steht nach der Verarbeitung des Tasks mit diesem Jobnamen als Input für den
nächsten Task zur Verfügung!
EXPORTNAME=
Hier steht der Name des verwendeten Exports. Er muss über den Dialog Systemkonfiguration->Export
der NWPROCCONS.exe definiert werden! Wird kein Name für den Export angegeben, wird mit dem
PDFBuilder im Verzeichnis EXPORTDIR ein PDF mit Hiddentext und eine zugehörige XML-Datei
gleichen Namens mit den Werten der Datenfelder erzeugt.
EXPORTDIR=***EXPPAGE***
Gilt nur, falls für EXPORTNAME kein Wert angegeben wird
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
40 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
DATEFIELDS=SDATE,CDATE
Hier bitte alle Datenfelder angeben, die vom Typ Datum sind. Wird benötigt wegen [COMMON],
DATEFORMAT
Verschiebt ein Dokument in eine der Clipping-Dialogmasken. Also entweder "Clipping" oder "Clipping
(BS)". Muss in der Reihenfolge der Tasks der letzte Task sein!
9.10. [TOCLIP]
Diese Sektion lesen drei Tasks:
 TOCLIP : Zuständige Einträge: JOBNAMEINPUT , JOBNAMEOUTPUT
 TOCLIP1: Zuständige Einträge: JOBNAMEINPUT1 , JOBNAMEOUTPUT1
 TOCLIP2: Zuständige Einträge: JOBNAMEINPUT2 , JOBNAMEOUTPUT2
JOBNAMEINPUT=TOCLIP
JOBNAMEINPUT1=TOCLIP1
JOBNAMEINPUT2=TOCLIP2
Nach Dokumenten mit diesen Jobnamen wird als Input für den Task gesucht. Es wird das erste
gefundene Dokument als Input verwendet.
JOBNAMEOUTPUT=Clipping (BS)
JOBNAMEOUTPUT1=Clipping (BS)
JOBNAMEOUTPUT2=Clipping
Das Dokument steht nach der Verarbeitung des Tasks mit diesem Jobnamen als Input für den
nächsten Task zur Verfügung!
9.11. [IMGWORK]
JOBNAMEINPUT=IMGWORK
Nach Dokumenten mit diesen Jobnamen wird als Input für den Task gesucht. Es wird das erste
gefundene Dokument als Input verwendet.
JOBNAMEOUTPUT=LAOCRBS
Das Dokument steht nach der Verarbeitung des Tasks mit diesem Jobnamen als Input für den
nächsten Task zur Verfügung!
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
41 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
DESPECKLE=1
DESKEW=0
CROP=1
CROPDIST=20
LINEOUT=HLINEREMOVEEON,VLINEREMOVEON,HLINEMINLEN,VLINEMINLEN,MAXLINEWIDTH
Z.B.: LINEOUT=1,1,100,100,3 (Nicht getestet)
LINEOUT=
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
42 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
10. XML Beispiel
<?xml version="1.0" encoding="UTF-8" ?>
- <BSDATA xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:noNamespaceSchemaLocation="BSDATA.xsd">
- <SOURCES>
<SOURCE EXT_SID="YP">Yellow Press Magazines</SOURCE>
<SOURCE EXT_SID="SP">Sport Magazines</SOURCE>
<SOURCE EXT_SID="FI1">My Financial Newspaper</SOURCE>
<SOURCE EXT_SID="BP1">Today</SOURCE>
</SOURCES>
- <DESTINATIONS>
<DESTINATION attribut="1" EXT_DID="D4711">Governmental
Organisations</DESTINATION>
<DESTINATION attribut="2" EXT_DID="D4712">Company 1</DESTINATION>
<DESTINATION attribut="1" EXT_DID="D4713">Company 2</DESTINATION>
</DESTINATIONS>
- <QUERIES>
- <QUERY EXT_QID="Q01" language="1">
<TERM>"NYSE"</TERM>
<SRC REF="FI1" />
<SRC REF="YP" />
<DST REF="D4711" />
<DST REF="D4713" />
</QUERY>
- <QUERY EXT_QID="Q02" language="en">
<TERM>"Stock Exchange" or "NYSE"</TERM>
<SRC REF="FI1" />
<SRC REF="YP" />
<DST REF="D4711" />
<DST REF="D4712" />
<DST REF="D4713" />
</QUERY>
- <QUERY EXT_QID="Q03" language="1039">
<TERM>"Stock" and "Exchange"</TERM>
<SRC REF="FI1" />
<SRC REF="YP" />
<DST REF="D4712" />
<DST REF="D4713" />
</QUERY>
</QUERIES>
</BSDATA>
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
43 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
10.1. Beschreibung BS3
SOURCES
Liste mit Quelleinträgen, wie Publikationen oder Publikationsgruppen
BS 3: Liste von Zeitungsartikeln
SOURCE
Quelleintrag, wird referenziert durch Suchabfragen.
BS3: Zeitungstitel
SOURCEGROUPS
Liste der Quellengruppen
SOURCEGROUP
Gruppe von Quellen, wird referenziert durch Suchabfragen.
PROFILES
Liste mit Suchprofilen
PROFILE
Ein Suchprofil, wird referenziert durch Suchabfragen.
EXT_SID
Externe Quellen ID. Wird benötigt, um die Quelle zu identifiziere, muss eindeutig sein.
DESTINATIONS
Liste der Zieleinträge, wie Kunden oder Ergenbisgruppen
DESTINATION
Ziel Eintrag, wird referenziert durch Suchabfragen.
attribut
Zielattribut Eintrag, wird für spätere Prioritätenfilter gebraucht.
EXT_DID
ID eines externen Zielorts. Wird benötigt, um das Ziel zu identifizieren, muss eindeutig sein.
EXT_PID
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
44 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
Externe Profil ID, muss eindeutig sein.
QUERIES
Liste von Suchabfragen, die sich auf Profile und Quellgruppen beziehen
QUERY
Einzelne Suchabfrage, referenziert durch Quellgruppen und Profile, enthält den Abfrage-Term..
TERM
Der Terminus der Suchabfrage.
TITLE
Name des Zeitungstitels.
MEMBEROF
Liste der Quellgruppen IDs, zu denen die Quelle gehört.
SG
Quellgruppe zu welcher die Suchabfrage zugeordnet werden soll
PRF
Profil zu dem die Daten, die zu dieser Suchabrfage passen, zugeordnet werden sollen
SRC
Quelle zu der die Suchabfrage zugeordnert werden soll
REF type
Referenz zur Quelle (EXT_SID)
DST
Ziel, dass daran interessiert ist, Daten, die zu dieser Suchabfrage passen, zu bekommen
REF type
Referenz zum Ziel (EXT_DID)
REF
Referenz zur Quelle (EXT_SGID)
EXT_QID
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
45 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
ID der Suchabfrage, muss eindeutig sein.
language
Sprache der Suchabfrage, wird vom Thesaurus benötigt. Kann ISO, LCID oder eine newsWorks interne
Sprach-ID sein. Fehlt der Eintrag, wird kein Thesaurus verwendet.
language
Sprache des Quelltextes.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
46 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
11. TCL Befehl "bsearch importxml"
Über den Befehl "bsearch importxml" kann man die gesamte Datenbank direkt über eine XML importieren.
Hinzu kommt, dass auch gleich eine Liste erzeugt wird, in der die Publikationen mit den zugehörigen
Quellgrupen verknüpft werden, so dass der spätere Gebrauch erleichtert ist.
Diese XML Struktur ist nun auch das priorisierte Datenformat, in dem die Boolesche Suche Daten
angeliefert werden sollten.
11.1. Beispiel für "bsearch importxml"
Angenommen wir interessieren uns für Zeitungsartikel, in denen das Thema "Problems of school system"
behandelt wird. Interessant sind des Weiteren nur irische Zeitungen, die dieses Thema aufgreifen.
Ein solcher Artikel wäre z.B.:
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
47 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
aus der "Daily Irish Mail" vom 24.03.2008.
Zu diesem Thema wären z.B. logische Suchbegriffe:
"teacher" AND "angry"
"school” AND "class sizes"
"teacher” AND "strike"
Und irische Zeitungen wären z.B.:
Daily Irish Mail
Irish Examiner
Irish Daily Mirror
11.2. Boolesche Suche Datenbank
Um diese Informationen den newsProc Servern, welche die Boolesche Suche durchführen, bekannt zu
machen, existiert eine Booelsche Suche (Boolean Search) Datenbank. Diese Datenbank verwendet die
newsProc für ihre Suche.
Bemerkung:
Die Boolesche Suche Datenbank befindet sich im Lists-Verzeichnis der aktuellen newsWorksKonfiguration und hat den Dateinamen BSDATA.DBW.
Der Inhalt der Boolesche Suche Datenbank kann mit den Script-Befehlen:
if {[loadmodule "CCSBSRCH"] != 1} {
return
}
bsearch dialog
angezeigt werden.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
48 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
11.3. Script-Befehl bsearch importxml
Die Datenbank kann mit dem Script-Befehl:
bsearch importxml
mit Werten gefüllt werden. Diese Werte werden dann, wie bereits weiter oben erwähnt, für die Boolesche
Suche verwendet.
Der genaue Aufruf von "bsearch importxml" sieht z.B. so aus:
if {[loadmodule "CCSBSRCH"] != 1} {
return
}
set szXMLPath [expandpath "***DATA***\\BS3\\BSDATA.xml"]
if {[findfile $szXMLPath] == ""} {
message "XML '$szXMLPath' not found!"
return
}
set szListName "Publ4"
set lsPubl [list $szListName 4]
set bsimp [bsearch importxml $lsPubl $szXMLPath]
if {[string first "BSIMPORT" $bsimp] != 0} {
message "Error: 'bsearch importxml' returns '$bsimp'"
return
}
if {[$bsimp -save] != 1} {
message "Error saving BS-database!"
$bsimp -delete; $lsPubl –delete
return
}
$bsimp –delete
if {[$lsPubl -save] != 1} {
message "Error saving publications list!"
$lsPubl –delete
return
}
$lsPubl –delete
bsearch dialog
Dabei muss in der Variablen $lsPubl eine vierspaltige, dateibasierte newsClip Liste übergeben werden
und in der Variablen $szXMLPath der Pfad zu einer XML-Datei.
Achtung:
Die übergebene XML-Datei muss dabei eine feste Struktur besitzen! Diese Struktur wird im Folgenden
erläutert.
In der Liste $lsPubl werden Informationen über die Publikationen, die in dem XML $szXMLPath
angegeben werden, gespeichert. Eine Publikation kann dabei z.B. auch eine Zeitung sein.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
49 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
11.4. Struktur der XML-Datei
Für unser einfaches Beispiel sieht diese XML-Datei wie folgt aus:
<?xml version="1.0" encoding="UTF-8"?>
<BSDATA xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:noNamespaceSchemaLocation="BSDATA.xsd">
<SOURCEGROUPS>
<SOURCEGROUP EXT_SGID="INP">Irish newspapers</SOURCEGROUP>
</SOURCEGROUPS>
<SOURCES>
<SOURCE EXT_SID="DIM" TITLE="Daily Irish Mail" language="English"
MEMBEROF="INP"/>
<SOURCE EXT_SID="IE" TITLE="Irish Examiner" language="English"
MEMBEROF="INP"/>
<SOURCE EXT_SID="IDM" TITLE="Irish Daily Mirror" language="English"
MEMBEROF="INP"/>
</SOURCES>
<PROFILES>
<PROFILE attribut="1" EXT_PID="P00001">Problems of school
system</PROFILE>
</PROFILES>
<QUERIES>
<QUERY EXT_QID="Q00001" language="English">
<TERM>"teacher" AND "angry"</TERM>
<SG REF="INP"/>
<PRF REF="P00001"/>
</QUERY>
<QUERY EXT_QID="Q00002" language="English">
<TERM>"school" AND "class sizes"</TERM>
<SG REF="INP"/>
<PRF REF="P00001"/>
</QUERY>
<QUERY EXT_QID="Q00003" language="English">
<TERM>"teacher" AND "strike"</TERM>
<SG REF="INP"/>
<PRF REF="P00001"/>
</QUERY>
</QUERIES>
</BSDATA>
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
50 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
11.5. Beispiel für das Ergebnis der Booleschen Suche
Bevor dessen Struktur näher erklärt wird, ein Beispiel für das Ergebnis der Booleschen Suche, nach dem
das XML mit dem Befehl bsearch importxml in die Booleschen Suche Datenbank importiert wurde:
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
51 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
11.6. Erklärung der XML-Struktur
Die Suchbegriffe wie z.B.:
"teacher" AND "angry"
stehen in den Knoten <TERM> des XML, die sich ihrerseits unterhalb der Knoten „QUERY" befinden.
Jeder <QUERY> Knoten muss genau einen <TERM> Knoten besitzen!
<QUERY EXT_QID="Q00001" language="English">
<TERM>"teacher" AND "angry"</TERM>
…
</QUERY>
Bemerkung:
Im Attribut "EXT_QID" des <QUERY> Knoten muss eine eindeutige Id angeben werden.
Im Attribut "language" des <QUERY> Knoten muss die Sprache des Suchbegriffs angegeben werden.
Zusätzlich existieren für jeden Knoten <QUERY> die Unterknoten <SG> und <PRF>. Mit diesen
Unterknoten werden die Suchbegriffe weiter spezifiert.
<QUERY EXT_QID="Q00001" language="English">
…
<SG REF="INP"/>
<PRF REF="P00001"/>
</QUERY>
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
52 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
11.7. Publikationsgrupppen
Mit dem Knoten <SG> unterhalb des <QUERY> Knoten wird festgelegt, in welchen Publikationsgruppen
nach dem Suchbegriff gesucht wird.
Bemerkung: Publikationsgruppen werden auch als "source groups" bezeichnet und mit SG abgekürzt.
Publikationsgruppen können z.B. alle deutschsprachigen Zeitungen sein oder alle englischsprachigen
Illustrierten. Jeder Query muss mindestens einer "source group" zugeordnet sein.
Durch:
<QUERY EXT_QID="Q00001" language="English">
…
<SG REF="INP"/>
</QUERY>
und:
<SOURCEGROUPS>
<SOURCEGROUP EXT_SGID="INP">Irish newspapers</SOURCEGROUP>
</SOURCEGROUPS>
wird festgelegt, dass nur in der Publikationsgruppe "Irish newspapers" nach einem Begriff gesucht werden
soll.
Bemerkung: Im Attribut "EXT_SGID" des <SOURCEGROUP > Knoten muss eine eindeutige Id
stehen.
Aus welchen Zeitungen diese Publikationsgruppe letztendlich besteht, wird durch das "MEMBEROF"Attribut des Knoten "SOURCE" festgelegt.
<SOURCES>
<SOURCE EXT_SID="DIM" TITLE="Daily Irish Mail" language="English"
MEMBEROF="INP"/>
<SOURCE EXT_SID="IE" TITLE="Irish Examiner" language="English"
MEMBEROF="INP"/>
<SOURCE EXT_SID="IDM" TITLE="Irish Daily Mirror" language="English"
MEMBEROF="INP"/>
</SOURCES>
Der Knoten <SOURCE> selber spezifiziert eine Publikation. In diesem Beispiel gehören alle Zeitungen der
Publikationsgruppe "INP" ("Irish newspapers") an.
Bemerkung: Im Attribut "EXT_SID" des <SOURCE> Knoten muss eine eindeutige Id stehen.
Bemerkung: Im Attribut "language" des <SOURCE> Knoten muss die Sprache der Publikation
angeben werden.
Es ist natürlich möglich, dass eine Zeitung zu mehreren Publikationsgruppen gehört. Zum Beispiel gehört
die "Daily Irish Mail" auch den englischsprachigen Zeitungen an. Man könnte also z.B. wie folgt die
zusätzliche Publikationsgruppe "Newspapers in English":
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
53 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
<SOURCEGROUPS>
<SOURCEGROUP EXT_SGID="INP">Irish newspapers</SOURCEGROUP>
<SOURCEGROUP EXT_SGID="ENP">Newspapers in English</SOURCEGROUP>
</SOURCEGROUPS>
definieren und durch:
<SOURCES>
<SOURCE EXT_SID="DIM" TITLE="Daily Irish Mail" language="English"
MEMBEROF="INP ENP"/>
…
</SOURCES>
die "Daily Irish Mail" auch dieser Publikationsgruppe zuordnen.
Nicht nur eine Publikation kann mehreren Publikationsgruppen zugeordnet werden, auch für einen
Suchbegriff ist dies möglich. Durch:
<QUERY EXT_QID="Q00001" language="English">
<TERM>"teacher" AND "angry"</TERM>
<SG REF="INP"/>
<SG REF="ENP"/>
…
</QUERY>
wird nach dem Begriff ("teacher" AND "angry") jetzt nicht nur in Zeitungen aus Irland, sondern auch in allen
englisch sprachigen Zeitungen gesucht.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
54 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
11.8. Themen
Mit dem Knoten <PRF> wird festgelegt, welchem Thema der Suchbegriff zugeordnet wird.
Bemerkung: Themen werden auch als "Profiles" bezeichnet und mit PRF abgekürzt. Ein Suchbegriff
kann dabei mehrere Themen zugeordnet sein.
Durch:
<QUERY EXT_QID="Q00001" language="English">
<TERM>"teacher" AND "angry"</TERM>
…
<PRF REF="P00001"/>
</QUERY>
und:
<PROFILES>
<PROFILE attribut="1" EXT_PID="P00001">Problems of school
system</PROFILE>
</PROFILES>
wird der Suchbegriff ("teacher" AND "angry") dem Thema "Problems of school system" zugeordnet.
Bemerkung: Im Attribut "EXT_PID" des <PROFILE> Knoten muss eine eindeutige Id stehen.
Definiert man z.B. durch:
<PROFILES>
<PROFILE attribut="1" EXT_PID="P00001">Problems of school
system</PROFILE>
<PROFILE attribut="1" EXT_PID="P00002">Dissatisfied teachers</PROFILE>
</PROFILES>
ein neues Profil, kann durch
<QUERY EXT_QID="Q00001" language="English">
<TERM>"teacher" AND "angry"</TERM><PRF REF="P00001"/>
…
<PRF REF="P00001"
<PRF REF="P00002"/>
</QUERY>
der Suchbegriff jetzt zusätzlich dem Profil oder Thema "Dissatisfied teachers" zugeordnet werden.
Die Publikationen-Liste $lsPubl, die in dem Befehl
bsearch importxml $lsPubl $szXMLPath
angeben wurde, enthält nach dem Import des XMLs folgende Werte:
DIM
"Daily Irish Mail"
Boolesche_Textsuche_Konfiguration.doc
1
77,78
Version: 09.07.2015
55 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
IE
"Irish Examiner"
1
77
IDM
"Irish Daily Mirror"
1
77
Der Wert "1" in der dritten Spalte steht für eine interne Id, welche die Sprache festlegt. Die Werte in der
vierten Spalte sind interne Id’s für die Publikationsgruppen. Diese Informationen werden für die eigentliche
Boolesche Suche verwendet.
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
56 / 57
CCS Content Conversion Specialists GmbH
______________________________________________________________________________________
12. Log-Dateien
Alle Tasks der newsProc schreiben Informationen über ihre Verarbeitungsschritte in Log-Dateien.
Diese Log-Dateien befinden sich bei der DemoPCA-Konfiguration in den Verzeichnissen:
***DATA***\WORK\Procserver1
***DATA***\WORK\Procserver2
…
Die newsProc schreiben auch Einträge in das Fehlerprotokoll von Windows.
Weiter gibt es eine
***DATA***\WORK\_FAIL*.LOG
Log-Datei.
Hier stehen Fehlermeldungen der newsProc und Fehlermeldungen unter NWPROCCONS.exe und
newsClip, die von den Scripten erkannt wurden.
Die Protokolle der FTP-Übertragung der XML-Dateien beim "BSIMPORT" stehen im Verzeichnis
***DATA***\WORK\XMLIMPORT
Wurde die DemoPCA-Konfiguration so abgeändert, dass anstelle von Access-Datenbanken MS SQL
Server-Datenbanken verwendet werden, befinden sich die Log-Dateien des MS SQL Servers z.B. im
Verzeichnis:
C:\Programme\Microsoft SQL Server\MSSQL.1\MSSQL\LOG
Boolesche_Textsuche_Konfiguration.doc
Version: 09.07.2015
57 / 57

Documentos relacionados