OCR für Alte Drucke
Transcrição
OCR für Alte Drucke
OCR für Alte Drucke OCR für Alte Drucke - eitle Hoffnung oder konkrete Perspektive? Dr. Thomas Stäcker ((HAB Wolfenbüttel); ); Blaubeuren, 21.10.2008 [email protected] OCR für Alte Drucke Seiten insgesamt –1500 1500 1501–1600 1601–1700 1601 1700 1701–1800 1801 1870 1801–1870 1871–1900 Ausgaben Durchsch. Seiten 27.000 235 140.000 220 265 000 265.000 213 600.000 300 511 978 511.978 245 525.000 245 Insgesamt 2.068.978 255 527.649.610 Jahrhundert 6.345.000 30.800.000 56 445 000 56.445.000 180.000.000 125 434 610 125.434.610 128.625.000 OCR für Alte Drucke Ziele • schmutziges OCR (brauchbar ab 90%) • wissenschaftlich nutzbares OCR (brauchbar ab 99,5%) OCR für Alte Drucke Stand: 14.10.2008 OCR für Alte Drucke Stand: 14.10.2008 OCR für Alte Drucke Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften an der Universität Trier. OCR für Alte Drucke Verfahren der Texterkennung 1)) Erstellung g einer Rastergrafik g ((Binarisierung) g) 2) Strukturerkennung, Segmentierung (Abbildungen, Linien, Kolumnen, etc) 3) Mustervergleich (OCR im engeren Sinne) 4) Kontextanalyse (Intelligent Character Recognition, linguistische und statistische Bewertung, Bewertung lexikalische Analyse an Hand von Wörterbüchern ) 5) Ausgabe als Text, XML, PDF Stand: 14.10.2008 Kapitälchen Majuskeln Kursive Schriften- und Sprachenvielfalt Griechisch Griechisch Majuskeln Initialen Versch. Schriftgröße Griechisch Kursive OCR für Alte Drucke OCR für Alte Drucke Mischung von Fraktur und Antiqua OCR für Alte Drucke Abbreviaturen OCR für Alte Drucke Mindere Papierqualität/ Bräunung OCR für Alte Drucke Widerdruck OCR für Alte Drucke Scanqualität OCR für Alte Drucke U t Unterscheidung h id der d Buchstaben B h t b s f n u m in I l OCR für Alte Drucke Gießzettel Aus: Ch. Fr. Gessner, Buchdruckerkunst und Schriftgießerey, Leipzig 1740 (ND 1981) OCR für Alte Drucke Stand: 14.10.2008; gefördert durch Google OCR für Alte Drucke Google Books OCR für Alte Drucke Google Books OCR für Alte Drucke Abbyy FineReader 8.0; OCR für Alte Drucke Stand: 14.10.2008 / Abbyy FineReader 8.0 (Segementierung problematisch) OCR für Alte Drucke Abbyy FineReader 8.0; Antiqua mit Kursive OCR für Alte Drucke Abbyy FineReader 7.0 Skripting Edition mit Frakturerkennung OCR für Alte Drucke Abbyy FineReader/Fa. Lottmann, Genauigkeit ca. 95%; Seitenoptimierung + Training FR (Geschäftsgeheimnis) OCR für Alte Drucke Abbyy FineReader/Fa. Lottmann, Seitenoptimierung mit Photoshop im Batch OCR für Alte Drucke Abbyy FineReader/Fa. Lottmann, Lernen der Charaktere und Einlesen in Abbyy 9.0 Professional OCR für Alte Drucke OCR für Alte Drucke Übertragung auf nächste Seite; Genauigkeit: 87,2 % (Sample, ersten 10 Zeilen (491 Zeichen, davon 59 falsch). Perspektive aber 99% OCR für Alte Drucke Wortrennungen OCR für Alte Drucke Wortrennungen OCR für Alte Drucke Vorläufige Bilanz •Google OCR bislang unbrauchbar • Abbyy in der Standardversion als auch in der Version für Frakturerkennung unmittelbar unbrauchbar • Abbyy mit Nachbearbeitung der Scans und Training im Mustereditor (Fa. Lottmann) sehr gut für schmutziges OCR nicht ausreichend für wiss OCR, wiss. Anwendungen Anwendungen. Verbesserungsmöglichkeiten vielleicht bis 95-97%. Darüber hinaus unklar. • B.I.T (Tomasi) sehr gut für schmutziges OCR. Verbesserungsmöglichkeiten bis 99% und darüber hinaus (ZLB Berlin) wahrscheinlich. OCR für Alte Drucke Perspektiven • Eine Optimierung der Verfahren zur Erfassung maschinenlesbaren Volltextes von alten Drucken scheint technisch grundsätzlich möglich. Ein Texterkennungsgüte von 99 5% könnte erreicht werden (Komplexität von Schriften ist 99,5% beherrschbar) • Voraussetzung dafür ist: • Weitere Optimierung der Binarisierung • Training der Software (ggf (ggf. Verfahren zum Autotraining) • Einbeziehung von Wörterbüchern (Deutsch, Latein) OCR für Alte Drucke OCR für Alte Drucke - eitle Hoffnung oder konkrete Perspektive? Dr. Thomas Stäcker ((HAB Wolfenbüttel); ); Blaubeuren, 21.10.2008 [email protected]