Vom eigenen Gesprochenen eine Audio-Aufnahme zu erstellen, ist unter Linux das Einfachste. Hin und wieder braucht man diese Aufnahme auch als geschriebenen Text. Für diesen Fall braucht man schon etwas anderes an Software – unter Linux ist aktuell dafür die beste Software Whisper.

Sie sprechen nur noch den Text ins Mikrofon, und die Software schreibt Ihre Worte in eine Textdatei.

Whisper installieren

Unter auf Debian basierenden Linux-Distributionen installieren Sie über die Paket-Verwaltung die Pakete „build-essential ffmpeg git„, etwa gleich als root am Terminal mit dem Befehl:

apt install build-essential ffmpeg git

Anschließend laden Sie die eigentliche Software mit normalen Benutzerrechten herunter:

git clone https://github.com/ggerganov/whisper.cpp.git

Jetzt wechseln Sie in das heruntergeladene Verzeichnis:

cd whisper.cpp

Bisher haben Sie nur die eigentliche Software heruntergeladen, dazu gehört noch das Übersetzungsmodell. Dieses gibt es in vier verschiedenen Varianten und wurde von ChatGPT entwickelt. Die Modelle unterscheiden sich in Dateigröße und benötigtem RAM. Je größer die Datei, desto mehr RAM benötigt das Modell. Und je größer die Datei, desto besser ist aber auch die Erkennung.

Die Modelle nennen sich tiny (80 MB, benötigt rund 130 MB RAM), base, small, medium und large (2,9 GB, benötigt rund 3,3 GB RAM). large hat natürlich die beste Erkennung. Jetzt gilt es, die Software mit dem gewünschten Modell zu kompilieren – hierzu nutzen Sie den Befehl make mit dem gewünschten Modell, also etwa (als normaler Benutzer):

make tiny

Das angegebene Modell wird dabei automatisch aus dem Netz geladen und die Software kompiliert. Anschließend verschieben Sie das komplette Verzeichnis als root auf dem Terminal nach /opt:

cd ..
mv whisper.cpp/ whisper
mv whisper/ /opt/

Damit Sie nicht für jeden Start der Software zweimal den langen Pfad über /opt angeben müssen, erstellen Sie noch einen Symlink von main auf whisper (ebenfalls als root):

cd /usr/local/bin/
ln -s /opt/whisper/main whisper

Whisper nutzen

Sie starten die Software auf dem Terminal, nach dem Start braucht die Software etwa 15 Sekunden und ist bereit. Mit -t geben Sie die zu nutzenden CPU-Kerne an, mit -m das Modell – dieses liegt unter /opt/whisper/models/ und beginnt mit „ggml-modell.bin„, in meinem Beispiel also „ggml-tiny.bin„. Mit -l geben Sie die Sprache an, etwa de, es folgt die Option -otxt und mit -of geben Sie die zu erstellende Textdatei an – etwa Textdatei.txt. Zum Schluss folgt die zu erstellende Audio-Datei – im Beispiel ganz einfach Audio.wav, Beispiel:

whisper -t 4 -m /opt/whisper/models/ggml-tiny.bin -l de -otxt -of Textdatei.txt Audio.wav

Die Software nimmt Ihren gesprochenen Text in die Datei Audio.wav auf, schreibt den erkannten Text in die Datei Textdatei.txt. Sobald die Software fertig ist, beendet sich diese selbst. Dies dauert natürlich etwas, funktioniert jedoch schon prächtig.

Categories:

Tags:

Schreibe einen Kommentar

Eine Reaktion

  1. Das Programm Whisper für Speach to text (STT) installieren und nützen
    Bei mir ging es so:
    Installieren
    1 ffmpeg muss installiert sein.
    2 Python muss installiert sein.
    3 Im Terminal: sudo apt install pipx
    4 Im Terminal: pipx install git+https://github.com/openai/whisper.git
    Nützen
    5 Eine Audio-Datei.mp3 mit gesprochenem (evtl. gesungenem) Text „nehmen“ (oder produzieren).
    6 Im Terminal: Mit cd ins Verzeichnis wechseln, in dem sich die Audio-Datei befindet.
    7 Im Terminal: whisper Audio-Datei.mp3 --model medium --language German
    8 Warten und im Terminal verfolgen, was geschieht.
    9 Am Ende (wenn wieder der Prompt erscheint) befinden sich in diesem Verzeichnis neu 5 Dateien – mit den Endungen .txt, .vtt, .tsv, .srt, .json
    In der TXT-Datei ist der Text ohne zusätzliche Zeichen enthalten.
    Zum Nützen
    Am besten ist: --model large (2 kurze Striche vor model)
    Statt German gibt es auch andere Sprachen, je nachdem, siehe (im Terminal:) whisper --help (2 kurze Striche)

Neue Themen im Forum
Frage zu GrubDanke @juhu, das war für mich eine reine Verständnisfrage allge … Weiterlesen
Brother Drucker unter LinuxMit der Suche nach „Linux Brother HL-2030“ fand ich zur Seite htt … Weiterlesen
DebianJetzt klappt's! Das Problem war das Erstellen einer EFI-Sy … Weiterlesen
Kategorien im Wiki
WIKI-Beiträge des Monates

Die Beiträge des Monates finden Sie im Kalender unter den blau markierten Tageszahlen.

September 2023
M D M D F S S
 123
45678910
11121314151617
18192021222324
252627282930  
Archive