OCRFeeder

Beschreibung

Das Programm OCRFeeder vereinfacht das Importieren, Zuschneiden und Konvertieren von gescannten bzw. abfotografierten Dokumenten durch Kombination mehrerer Tools in einer Anwendung. Die Texterkennung erfolgt mittels Tesseract-OCR und die ebenfalls integrierte Layoutanalyse erledigt Unpaper. Scans lassen sich nach erfolgter Verarbeitung anschließend als ODT-Dokument speichern und in Libre Office weiter verarbeiten und neu formatieren. Ein direkter Export ins HTML- als auch PDF-Format ist ebenso möglich.

Installation

Für Debian, Ubuntu und Linux Mint liegen die benötigten Programm-Komponenten in den Paketquellen zur Installation bereit:

sudo apt install ocrfeeder tesseract-ocr-deu

Für die Erkennung deutschsprachiger Texte ist die Sprachdatei tesseract-ocr-deu zwingend erforderlich.

Sie finden die Anwendung unter Menü -> Grafik -> OCRFeeder oder via [Strg] + [alt] + [F2] nach Eingabe von OCRFeeder.

Anwendung

Ein häufiges Anwendungs-Szenario: Es liegen mehrseitige Text- und Bilddokumente bzw. kombiniert nurmehr in gedruckter Form vor. Um zwischenzeitliche Textaktualisierungen durchzuführen, müssten die entsprechenden Seiten dazu neu getippt werden. Bei wenigen vertretbar, bei vielen ein immenser Zeitaufwand. Einfacher ist es, die Dokumente einzuscannen und anschließend in Libre Office neu zu editieren.

Bevor wir loslegen können, muss noch eine Einstellung kontrolliert werden. Dazu starten Sie OCRFeeder, wechseln in der Menüzeile zu Bearbeiten -> Einstellungen zum Reiter Werkzeuge. Falls noch nicht geschehen, setzen Sie ein Häkchen im unteren Bereich in Bilder begradigen.

OCRFeeder

Mit Klick auf das »+« -Zeichen lassen sich nun Dokumente und Bildmaterial aus diversen Quellen hinzufügen.
Um im Beispiel zu folgen, importieren wir das erste Dokument vom Scanner. Klicken Sie auf Datei -> Seite vom Scanner importieren.

OCRFeeder

Die erfolgreiche Scannersuche bestätigen Sie noch.
Die erste Seite wird gescannt und erscheint nun im Programmfenster. Klicken Sie jetzt auf den Schalter Automatische Detektion.

OCRFeeder

Diese Layoutanalyse teilt die Seite in Bereiche auf, die Tesseract einzeln übergeben werden. Im Vorschaufenster wird das Teilergebnis der Texterkennung ausgegeben…

OCRFeeder

Sind Sie mit dem Ergebnis zufrieden, importieren Sie das nächste Dokument und verfahren wie beschrieben.

Ist es nur eine Seite, exportieren Sie diese mit Klick auf dem entsprechenden Schalter in der Symbolleiste.
Bei mehreren Seiten markieren Sie diese, es folgt ein Klick auf vorgenannten Schalter…

OCRFeeder

Wählen Sie einen Speicherort und vergeben einen passenden Namen.
Das so exportierte Dokument kann nun in Libre Office geöffnet, weiter verarbeitet und neu formatiert werden.
Überflüssige Elemente markieren und entfernen Sie…

OCRFeeder

Es lassen sich zudem auch ein- oder mehrseitige PDF-Dokumente in OCRFeeder importieren und in einem Rutsch ins HTML- bzw. ODT-Format exportieren.

Abschließende Anmerkung bzgl. Flatpak-Version

In einigen Distributionen wie etwa Solus liegt die Anwendung nicht als natives Paket im Repository vor. Hier könnte man auf die Flatpak-Version zurückgreifen die mit dem Befehl:

flatpak install flathub org.gnome.OCRFeeder

zu installieren wäre.

Davon kann ich aber nur abraten. Mit einer Installationsgröße von über 1,6 GB überschreitet sie weit das vertretbare Maß und steht in keinem Verhältnis. Hier sollte man auf Alternativen zurückgreifen, die in Linux mehrfach zur Verfügung stehen.

Erstveröffentlichung von beluga » Mi 3. Aug 2022, 15:21

Schreibe einen Kommentar

Noch keine Reaktion

Neue Themen im Forum
Statistik Juni 2024Die Entwicklung im WIKI im Juni 2024 Insgesamt sind 11 neue Beitr … Weiterlesen
Privatsphäre schützen:D Würde zu meinem Buch passen, das ich gerade schreibe. Weiterlesen
Clamwin-0.103.2.1-Windows11 finde …Unter einem laufenden Windows finden selbst Business-Malware-Scann … Weiterlesen
Kategorien im Wiki
WIKI-Beiträge des Monates

Die Beiträge des Monates finden Sie im Kalender unter den blau markierten Tageszahlen.

September 2023
M D M D F S S
 123
45678910
11121314151617
18192021222324
252627282930  
Archive