OCR für Alte Drucke

Transcrição

OCR für Alte Drucke
OCR für Alte Drucke
OCR für Alte Drucke - eitle Hoffnung oder
konkrete Perspektive?
Dr. Thomas Stäcker ((HAB Wolfenbüttel);
);
Blaubeuren, 21.10.2008
[email protected]
OCR für Alte Drucke
Seiten insgesamt
–1500
1500
1501–1600
1601–1700
1601
1700
1701–1800
1801 1870
1801–1870
1871–1900
Ausgaben Durchsch.
Seiten
27.000
235
140.000
220
265 000
265.000
213
600.000
300
511 978
511.978
245
525.000
245
Insgesamt
2.068.978 255
527.649.610
Jahrhundert
6.345.000
30.800.000
56 445 000
56.445.000
180.000.000
125 434 610
125.434.610
128.625.000
OCR für Alte Drucke
Ziele
• schmutziges OCR (brauchbar ab 90%)
• wissenschaftlich nutzbares OCR (brauchbar
ab 99,5%)
OCR für Alte Drucke
Stand: 14.10.2008
OCR für Alte Drucke
Stand: 14.10.2008
OCR für Alte Drucke
Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in
den Geisteswissenschaften an der Universität Trier.
OCR für Alte Drucke
Verfahren der Texterkennung
1)) Erstellung
g einer Rastergrafik
g
((Binarisierung)
g)
2) Strukturerkennung, Segmentierung (Abbildungen, Linien,
Kolumnen, etc)
3) Mustervergleich (OCR im engeren Sinne)
4) Kontextanalyse (Intelligent Character Recognition,
linguistische und statistische Bewertung,
Bewertung lexikalische
Analyse an Hand von Wörterbüchern )
5) Ausgabe als Text, XML, PDF
Stand: 14.10.2008
Kapitälchen
Majuskeln
Kursive
Schriften- und
Sprachenvielfalt
Griechisch
Griechisch
Majuskeln
Initialen
Versch. Schriftgröße
Griechisch
Kursive
OCR für Alte Drucke
OCR für Alte Drucke
Mischung von
Fraktur und Antiqua
OCR für Alte Drucke
Abbreviaturen
OCR für Alte Drucke
Mindere
Papierqualität/
Bräunung
OCR für Alte Drucke
Widerdruck
OCR für Alte Drucke
Scanqualität
OCR für Alte Drucke
U t
Unterscheidung
h id
der
d Buchstaben
B h t b
s
f
n
u
m
in
I
l
OCR für Alte Drucke
Gießzettel
Aus: Ch. Fr. Gessner,
Buchdruckerkunst und Schriftgießerey,
Leipzig 1740 (ND 1981)
OCR für Alte Drucke
Stand: 14.10.2008; gefördert durch Google
OCR für Alte Drucke
Google Books
OCR für Alte Drucke
Google Books
OCR für Alte Drucke
Abbyy FineReader 8.0;
OCR für Alte Drucke
Stand: 14.10.2008 / Abbyy FineReader 8.0 (Segementierung problematisch)
OCR für Alte Drucke
Abbyy FineReader 8.0; Antiqua mit Kursive
OCR für Alte Drucke
Abbyy FineReader 7.0 Skripting Edition mit Frakturerkennung
OCR für Alte Drucke
Abbyy FineReader/Fa. Lottmann, Genauigkeit ca. 95%; Seitenoptimierung +
Training FR (Geschäftsgeheimnis)
OCR für Alte Drucke
Abbyy FineReader/Fa. Lottmann, Seitenoptimierung mit Photoshop im Batch
OCR für Alte Drucke
Abbyy FineReader/Fa. Lottmann, Lernen der Charaktere und Einlesen in Abbyy
9.0 Professional
OCR für Alte Drucke
OCR für Alte Drucke
Übertragung auf nächste Seite; Genauigkeit: 87,2 % (Sample, ersten 10
Zeilen (491 Zeichen, davon 59 falsch). Perspektive aber 99%
OCR für Alte Drucke
Wortrennungen
OCR für Alte Drucke
Wortrennungen
OCR für Alte Drucke
Vorläufige Bilanz
•Google OCR bislang unbrauchbar
• Abbyy in der Standardversion als auch in der Version für
Frakturerkennung unmittelbar unbrauchbar
• Abbyy mit Nachbearbeitung der Scans und Training im
Mustereditor (Fa. Lottmann) sehr gut für schmutziges
OCR nicht ausreichend für wiss
OCR,
wiss. Anwendungen
Anwendungen.
Verbesserungsmöglichkeiten vielleicht bis 95-97%.
Darüber hinaus unklar.
• B.I.T (Tomasi) sehr gut für schmutziges OCR.
Verbesserungsmöglichkeiten bis 99% und darüber hinaus
(ZLB Berlin) wahrscheinlich.
OCR für Alte Drucke
Perspektiven
• Eine Optimierung der Verfahren zur Erfassung
maschinenlesbaren Volltextes von alten Drucken scheint
technisch grundsätzlich möglich. Ein Texterkennungsgüte von
99 5% könnte erreicht werden (Komplexität von Schriften ist
99,5%
beherrschbar)
• Voraussetzung dafür ist:
• Weitere Optimierung der Binarisierung
• Training der Software (ggf
(ggf. Verfahren zum Autotraining)
• Einbeziehung von Wörterbüchern (Deutsch, Latein)
OCR für Alte Drucke
OCR für Alte Drucke - eitle Hoffnung oder
konkrete Perspektive?
Dr. Thomas Stäcker ((HAB Wolfenbüttel);
);
Blaubeuren, 21.10.2008
[email protected]

Documentos relacionados