R-IT OCR - reInwarT software solutions
Transcrição
R-IT OCR - reInwarT software solutions
R-IT OCR REINWART SOFTWARE SOLUTIONS Version 1.6.01 (2017/01) Geschichte zum Thema OCR Die Abkürzung OCR (Optical Character Recognition) wird im deutschsprachigen Sprachraum als Kurzform für die elektronische Texterkennung verwendet, wo hingegen im angelsächsischen Umfeld „ICR“ als Synonym Verwendung findet. Tatsächlich handelt es sich bei OCR und ICR um unterschiedliche Teilbereiche der Texterkennung. Erkannte Zeichen durch OCR Optical Character Recognition, ist derjenige Teilbereich elektronischer Texterkennung, in dem auf einem gescannten Schriftgut über ein Mustervergleichsverfahren Einzelzeichen erkannt werden. Voraussetzung hierfür ist, dass über Bildanalyseverfahren das Schriftgut bereits derart 'zerlegt' wurde, dass dem OCRProgrammteil bereits nur diejenigen Einzelteile zur Erkennung vorgelegt werden, die einen einzelnen Buchstaben darstellen könnten. Werden der OCR z.B. optisch zusammenklebende Buchstaben geliefert, schlägt die Erkennung fehl. Themen OCR SCANNEN ARCHIVIEREN VOLLTEXTSUCHE R-IT OCR Mit dem R-IT OCR Client können Sie gescannte Dokumente oder bereits vorhanden Dokumente des Archivs per OCR durchlaufen. Der OCR Vorgang selber versucht die Textinformation aus Bilddateien wiederzugewinnen, um diese mit Hilfe einer Textverarbeitung weiter zu bearbeiten und/oder elektronisch durchsuchbar zu machen. (Volltextsuche) Einsatzgebiete: Erkennung von relevanten Merkmalen (z.B. Postleitzahl, Vertragsnummer, Rechungsnummer) zur mechanischen (Poststraße) oder elektronischen (Workflow-ManagementSystem) Einsortierung eines Schriftstücks Erkennung von Merkmalen zur Registrierung und ggf. Verfolgung von Gegenständen (z.B. KfzKennzeichen) Inhalt IWR 2 ICR 2 OCR 2 OCR CLIENT FEATURES 3 TECHNISCHE VORRAUS- 3 SEZUNGEN NOTIZEN 4 R-IT OCR ICR Die Abkürzung ICR (Intelligent Character Recognition) wird im angelsächsischen Sprachraum als Kurzform für die elektronische Texterkennung verwendet, wo hingegen im deutschsprachigen Umfeld „OCR“ als Synonym Verwendung findet. Tatsächlich handelt es sich jedoch um unterschiedliche Teilbereiche der Texterkennung. Gescanntes Dokument bei dem eine OCR Erkennung durchgeführt wurde. „OCR IST EIN WICHTIGER BESTANDTEIL BEI DER ARCHIVIERUNG FÜR EINE SPÄTERE ERFOLGREICHE INHALTLICHE SUCHE“ Buchstabe befindet. So kann die ICR aus dem OCR-Ergebnis "8aum" einen "Baum" rekonstruieren. ICR setzt Vorwissen über das zu digitalisierende Beleg gut voraus, wie z.B. die jeweilige Sprache, in der ein Text verfasst wurde. Intelligent Character Recognition, überprüft die Plausibilität von OCRErgebnissen mit Hilfe vorgegebener Regeln, die auf allgemeinen linguistischen Grundlagen oder hinterlegten Wörterbüchern basieren können. Die OCR-Erkennung liefert keine absoluten Ergebnisse sondern ermittelt Wahrscheinlichkeiten für bestimmte Buchstaben. Diese Wahrscheinlichkeiten können mit weiterführenden Techniken der Texterkennung wie die ICR bestärkt oder in Frage gestellt werden. ICR berücksichtigt den Kontext, in dem sich ein IWR Intelligent Word Recognition (IWR) bezeichnet einen Seitenzweig der OCR-Technik (Texterkennung über Mustererkennungsverfahren). Sie soll Schriften erkennen, die mit herkömmlichen OCR-Verfahren nicht übersetzbar sind, wie Fließhandschriften, Unterschriften, arabische Schrift etc. Herkömmliche OCR übersetzt Einzelzeichen, die der OCR-Engine über Bildvorverarbeitungsschritte geliefert werden. Zusammenhängende Schriften lassen sich jedoch nicht zuverlässig in Einzelteile als mögliche Buchstabenkandidaten zerlegen. IWR kombiniert mehrere Methoden und gleicht die Ergebnisse mit einem Wörterbuch ab. Analyse des gesamten Wortes: Die Buchstaben, aus denen sich ein Wort zusammensetzt, geben einem Wort einen charakteristischen Umriss. In Klassifikationen abgelegte Wörterbücher liefern mögliche Wortkandidaten. Zerlegung von möglichen Buchstaben oder Silben: Worte lassen sich an charaktistischen Stellen zerlegen. Auch hierfür liefern Klassifikationen mögliche Silbenkandidaten. Wörterbuchabgleich: Die Kombination der Ergebnisse durch charakteristische Umrisse und OCR Vorgang Ein Dokument wird eingescannt. Per Maus kann ein Bereich markiert werden, der für OCR in Frage kommt. OCR wird gestartet, der erkannte Bereich wird optisch markiert, der erkannte Text kann gespeichert werden. OCR Einstellungen Seite 2 Wortteile minimieren die Anzahl der Kandidaten im Hauptwörterbuch Version 1.6.01 (2017/01) OCR Einstellungen „OFT WIRD NUR NACH EINEM BEGRIFF GESUCHT, DER IN DOKUMENTEN ENTHALTEN IST. DANK OCR IST DAS KEIN PROBLEM“ Technische Voraussetzungen .net Framework 4.5.1 - Windows Plattform Client: Windows 7, Windows 8/8.1/10 (32 oder 64 Bit) Seite 3 http://www.reinwart.com/ REINWART SOFTWARE SOLUTIONS 30 Tage lauffähige Version: http://www.reinwart.com/html/products_d.htm Telefon: Fax: E-Mail: [email protected] Web: http://www.reinwart.com Zielgruppe: KMUs Weitere Produktblätter: Tabularium DMS Archiv System Scan Image Barcode Notizen Der DMS Tabularium Client bei seiner täglichen Arbeit