Themen

Vosk vs Whisper auf Deutsch: ein ehrlicher Vergleich aus dem Alltag

Zwei offene Speech-to-Text-Projekte, beide mit Deutsch-Unterstützung. Wo welches gewinnt, wo es verliert, was du wählst.

Vosk
Whisper
Deutsch
Finn Glas
Finn GlasCo-Founder + Engineering
·16. Mai 2026·
2 Min. Lesezeit

Auf sauberem deutschem Studio-Audio erreichen beide Modelle die Schwelle 'so gut, dass du das Transkript am Stück lesen kannst, ohne herausgerissen zu werden'. Die Unterschiede leben an den Rändern.

Architektur-Unterschied

Vosk ist ein Kaldi-basiertes System: klassische akustische Modelle + ein Sprachmodell, optimiert für günstigen CPU-Betrieb. Whisper ist ein transformer-basiertes Seq2Seq-Modell: schwerer, größer, für GPU gebaut, aber auf CPU für kürzere Clips machbar. Die Fehlerform unterscheidet sich auch - Vosk hört plausible falsche Wörter, Whisper halluziniert flüssige Prosa.

Auf sauberem Deutsch sind beide gut genug

Wir haben beide gegen eine 90-minütige Studio-Aufnahme zweier deutscher Muttersprachler:innen im Gespräch laufen lassen. Vosk Large: 96,2 % Wort-Genauigkeit. Whisper Large-v3: 97,8 %. Die 1,6-%-Lücke entsteht fast nur an drei Stellen: seltene Eigennamen (Whisper besser), englische Lehnwörter mit deutscher Aussprache (Whisper besser), Konversationsfüller und Versprecher (Vosk schluckt sie sauberer).

Auf verrauschtem Telefon-Audio kippt es

Auf einem verrauschten Telefon-1-on-1, das wir für einen anderen Test aufgenommen haben, hielt Vosk Large 86 %; Whisper Large-v3 halluzinierte. Der Seq2Seq-Decoder von Whisper ist generativ - wenn das Signal-zu-Rausch-Verhältnis unter die Trainings-Verteilung fällt, produziert er glücklich selbstbewusste, flüssige, komplett erfundene Sätze. Vosks Kaldi-Decoder ist ehrlicher: er gibt auf.

Die Deploy-Geschichte zählt

Vosk läuft produktiv auf einer einzelnen Hetzner-CPU-Box ohne ins Schwitzen zu kommen. Whisper Large braucht GPU für brauchbare Reaktionszeiten - das verdreifacht die Hosting-Kosten und zieht die Last in einen viel kleineren Anbieter-Pool, fast alle US-basiert. Für einen Dienst, der 'Audio verlässt die EU nicht' verspricht, ist das keine neutrale Wahl.

Warum wir Vosk gewählt haben

Drei Gründe. Erstens: Die Genauigkeits-Lücke auf dem Audio, das unsere Nutzer:innen tatsächlich aufnehmen (meist sauber, meist unter fünf Minuten), ist klein genug, dass sich der Trade lohnt. Zweitens: Vosk läuft entspannt auf EU-CPU-Boxen, Whisper Large nicht. Drittens: Vosks Fehlermodus ist Aufgabe statt Halluzination - und wir halten das für die sicherere Standard-Wahl in einem Transkriptions-Tool.

Häufige Fragen

Häufig gefragt

Probiere Sprachmemo

Kostenloser Tarif, keine Kreditkarte nötig. Hosting in Deutschland. Export und Löschung sind self-service.

Finn Glas

Geschrieben von

Finn Glas

Co-Founder + Engineering

Finn ist einer der Co-Founder. Er verantwortet Engineering, Infrastruktur und die meisten nächtlichen Fixes, die ausgerollt werden, bevor jemand etwas merkt.

finn.glas at aicuflow dot comLinkedInWebsite