Gscan2pdf – Dokumente unter Linux digitalisieren

on September 23, 2023

Vor einigen Zeiten war man schon glücklich, wenn man Dokumente einfach nur einscannen konnte – heute geht man noch etwas weiter. Man packt Papier nicht nur in digitaler Form auf die Festplatte (natürlich auch auf die SSD – ist für mich dasselbe, weil ich es einfach nicht immer erwähnen will), man macht diese Dokumente auch durchsuchbar – eben nach dem Text, der in diesen Dokumenten vorhanden ist.

Damit man Dateien nach beinhaltetem Text durchsuchen kann, darf man das Papier nicht einfach nur einscannen und als Bild speichern – man muss zusätzlich eine Software nutzen, die den Text auch in diesen Bildern erkennt und in digitaler Form speichert. Optimal für solche Aufgaben ist natürlich das PDF-Format.

Software, die Text auf Bildern erkennt, nennt man in einem Begriff schnell gesagt eine solche, die OCR – Optische Texterkennung – beherrscht. Unter Linux ist dafür meist Tesseract zuständig. Grafische Oberflächen dafür gibt es unter Linux dafür auch so einige – genannt wurde auf der Linux Bibel bereits die äußerst umfangreiche Software Paperwork. Braucht man nicht alle Funktionen, nutzt man etwa Gscan2pdf – und um diese Software geht es in diesem Beitrag der Linux Bibel.

Inhaltsverzeichnis

1 Gscan2pdf installieren
2 Gscan2pdf nutzen

Gscan2pdf installieren

Unter auf Debian basierenden Linux-Distributionen installiert man diese Software wie üblich ganz einfach über die Paket-Verwaltung mit den Paketen „gscan2pdf tesseract-ocr-deu„.

Gscan2pdf nutzen

Sie finden diese Software nach der Installation im Anwendungsmenü unter der Kategorie Grafik, alternativ nutzen Sie den Schnellstarter (Alt+F2) oder das Terminal mit dem Befehl:

gscan2pdf

Jetzt nutzt man ganz einfach das Menü „Datei → Scannen“ oder den Schalter „Dokument scannen“ in der Werkzeugleiste:

Und startet den Scan-Vorgang. Ist der Vorgang abgeschlossen, schließt man das Fenster zum Scannen:

Ich habe hier das erste erwischt, was ich gerade gefunden habe – ein Testausdruck einer Konfigurationsdatei – man darf also nicht wirklich etwas Deutsches erwarten. Per Rechtsklick lässt sich die drehen und anderweitig anpassen, gewünschte Stellen für die Texterkennung markieren – im besten Fall klicken Sie einfach auf den Reiter „Textebene„:

Nicht perfekt erkannte Wörter, oder solche, die nicht der deutschen Sprache zuzurechnen sind, markiert die Software rot. Ein Klick auf einen solchen Eintrag vergrößert diesen:

Der Markierte Eintrag lässt sich nun unten im Textfeld anpassen, rechts unten übernehmen Sie anschließend Ihre Korrekturen. Zuletzt speichern Sie die Datei als PDF: