R-IT OCR - reInwarT software solutions

Transcrição

R-IT OCR - reInwarT software solutions
R-IT OCR
REINWART SOFTWARE SOLUTIONS
Version 1.6.01 (2017/01)
Geschichte zum Thema OCR
Die Abkürzung OCR (Optical Character Recognition) wird im deutschsprachigen Sprachraum als Kurzform für die elektronische Texterkennung verwendet, wo hingegen im
angelsächsischen Umfeld „ICR“ als
Synonym Verwendung findet. Tatsächlich handelt es sich bei OCR und
ICR um unterschiedliche Teilbereiche
der Texterkennung.
Erkannte Zeichen durch OCR
Optical Character Recognition, ist
derjenige Teilbereich elektronischer
Texterkennung, in dem auf einem
gescannten Schriftgut über ein Mustervergleichsverfahren Einzelzeichen
erkannt werden. Voraussetzung
hierfür ist, dass über Bildanalyseverfahren das Schriftgut bereits derart
'zerlegt' wurde, dass dem OCRProgrammteil bereits nur diejenigen
Einzelteile zur Erkennung vorgelegt
werden, die einen einzelnen Buchstaben darstellen könnten.
Werden der OCR z.B. optisch zusammenklebende Buchstaben geliefert, schlägt die Erkennung fehl.
Themen

OCR

SCANNEN

ARCHIVIEREN

VOLLTEXTSUCHE
R-IT OCR
Mit dem R-IT OCR Client können
Sie gescannte Dokumente oder
bereits vorhanden Dokumente des
Archivs per OCR durchlaufen.
Der OCR Vorgang selber versucht
die Textinformation aus Bilddateien
wiederzugewinnen, um diese mit
Hilfe einer Textverarbeitung weiter
zu bearbeiten und/oder elektronisch
durchsuchbar zu machen.
(Volltextsuche)
Einsatzgebiete:

Erkennung von relevanten
Merkmalen (z.B. Postleitzahl, Vertragsnummer,
Rechungsnummer) zur
mechanischen (Poststraße)
oder elektronischen
(Workflow-ManagementSystem)

Einsortierung eines
Schriftstücks

Erkennung von Merkmalen zur Registrierung und
ggf. Verfolgung von Gegenständen (z.B. KfzKennzeichen)
Inhalt
IWR
2
ICR
2
OCR
2
OCR CLIENT FEATURES
3
TECHNISCHE VORRAUS-
3
SEZUNGEN
NOTIZEN
4
R-IT OCR
ICR
Die Abkürzung ICR (Intelligent
Character Recognition) wird im
angelsächsischen Sprachraum als
Kurzform für die elektronische
Texterkennung verwendet, wo hingegen im deutschsprachigen Umfeld
„OCR“ als Synonym Verwendung
findet. Tatsächlich handelt es sich
jedoch um unterschiedliche Teilbereiche der Texterkennung.
Gescanntes Dokument bei dem eine
OCR Erkennung
durchgeführt wurde.
„OCR IST EIN
WICHTIGER
BESTANDTEIL BEI
DER
ARCHIVIERUNG
FÜR EINE
SPÄTERE
ERFOLGREICHE
INHALTLICHE
SUCHE“
Buchstabe befindet. So kann die
ICR aus dem OCR-Ergebnis "8aum"
einen "Baum" rekonstruieren. ICR
setzt Vorwissen über das zu digitalisierende Beleg gut voraus, wie z.B.
die jeweilige Sprache, in der ein
Text verfasst wurde.
Intelligent Character Recognition,
überprüft die Plausibilität von OCRErgebnissen mit Hilfe vorgegebener
Regeln, die auf allgemeinen linguistischen Grundlagen oder hinterlegten Wörterbüchern basieren können.
Die OCR-Erkennung liefert keine
absoluten Ergebnisse sondern ermittelt Wahrscheinlichkeiten für bestimmte Buchstaben. Diese Wahrscheinlichkeiten können mit weiterführenden Techniken der Texterkennung wie die ICR bestärkt oder in
Frage gestellt werden. ICR berücksichtigt den Kontext, in dem sich ein
IWR
Intelligent Word Recognition (IWR)
bezeichnet einen Seitenzweig der
OCR-Technik (Texterkennung über
Mustererkennungsverfahren). Sie
soll Schriften erkennen, die mit
herkömmlichen OCR-Verfahren
nicht übersetzbar sind, wie Fließhandschriften, Unterschriften, arabische Schrift etc.
Herkömmliche OCR übersetzt Einzelzeichen, die der OCR-Engine
über Bildvorverarbeitungsschritte
geliefert werden. Zusammenhängende Schriften lassen sich jedoch nicht
zuverlässig in Einzelteile als mögliche Buchstabenkandidaten zerlegen.
IWR kombiniert mehrere Methoden
und gleicht die Ergebnisse mit einem Wörterbuch ab.
Analyse des gesamten Wortes: Die
Buchstaben, aus denen sich ein
Wort zusammensetzt, geben einem
Wort einen charakteristischen Umriss. In Klassifikationen abgelegte
Wörterbücher liefern mögliche
Wortkandidaten.
Zerlegung von möglichen Buchstaben oder Silben:
Worte lassen sich an charaktistischen Stellen zerlegen. Auch hierfür
liefern Klassifikationen mögliche
Silbenkandidaten.
Wörterbuchabgleich:
Die Kombination der Ergebnisse
durch charakteristische Umrisse und
OCR Vorgang
Ein Dokument wird eingescannt. Per Maus
kann ein Bereich markiert werden, der für
OCR in Frage kommt.
OCR wird gestartet, der erkannte Bereich
wird optisch markiert, der erkannte Text
kann gespeichert werden.
OCR Einstellungen
Seite 2
Wortteile minimieren die Anzahl
der Kandidaten im Hauptwörterbuch
Version 1.6.01 (2017/01)
OCR Einstellungen
„OFT WIRD NUR
NACH EINEM
BEGRIFF
GESUCHT, DER
IN
DOKUMENTEN
ENTHALTEN IST.
DANK OCR IST
DAS KEIN
PROBLEM“
Technische Voraussetzungen

.net Framework 4.5.1 - Windows Plattform

Client: Windows 7, Windows 8/8.1/10 (32 oder 64 Bit)
Seite 3
http://www.reinwart.com/
REINWART SOFTWARE SOLUTIONS
30 Tage lauffähige Version:
http://www.reinwart.com/html/products_d.htm
Telefon:
Fax:
E-Mail: [email protected]
Web: http://www.reinwart.com
Zielgruppe: KMUs
Weitere Produktblätter:

Tabularium DMS Archiv System

Scan

Image

Barcode
Notizen
Der DMS Tabularium Client bei seiner
täglichen Arbeit