Themen
Zwei offene Speech-to-Text-Projekte, beide mit Deutsch-Unterstützung. Wo welches gewinnt, wo es verliert, was du wählst.

Auf sauberem deutschem Studio-Audio erreichen beide Modelle die Schwelle 'so gut, dass du das Transkript am Stück lesen kannst, ohne herausgerissen zu werden'. Die Unterschiede leben an den Rändern.
Vosk ist ein Kaldi-basiertes System: klassische akustische Modelle + ein Sprachmodell, optimiert für günstigen CPU-Betrieb. Whisper ist ein transformer-basiertes Seq2Seq-Modell: schwerer, größer, für GPU gebaut, aber auf CPU für kürzere Clips machbar. Die Fehlerform unterscheidet sich auch - Vosk hört plausible falsche Wörter, Whisper halluziniert flüssige Prosa.
Wir haben beide gegen eine 90-minütige Studio-Aufnahme zweier deutscher Muttersprachler:innen im Gespräch laufen lassen. Vosk Large: 96,2 % Wort-Genauigkeit. Whisper Large-v3: 97,8 %. Die 1,6-%-Lücke entsteht fast nur an drei Stellen: seltene Eigennamen (Whisper besser), englische Lehnwörter mit deutscher Aussprache (Whisper besser), Konversationsfüller und Versprecher (Vosk schluckt sie sauberer).
Auf einem verrauschten Telefon-1-on-1, das wir für einen anderen Test aufgenommen haben, hielt Vosk Large 86 %; Whisper Large-v3 halluzinierte. Der Seq2Seq-Decoder von Whisper ist generativ - wenn das Signal-zu-Rausch-Verhältnis unter die Trainings-Verteilung fällt, produziert er glücklich selbstbewusste, flüssige, komplett erfundene Sätze. Vosks Kaldi-Decoder ist ehrlicher: er gibt auf.
Vosk läuft produktiv auf einer einzelnen Hetzner-CPU-Box ohne ins Schwitzen zu kommen. Whisper Large braucht GPU für brauchbare Reaktionszeiten - das verdreifacht die Hosting-Kosten und zieht die Last in einen viel kleineren Anbieter-Pool, fast alle US-basiert. Für einen Dienst, der 'Audio verlässt die EU nicht' verspricht, ist das keine neutrale Wahl.
Drei Gründe. Erstens: Die Genauigkeits-Lücke auf dem Audio, das unsere Nutzer:innen tatsächlich aufnehmen (meist sauber, meist unter fünf Minuten), ist klein genug, dass sich der Trade lohnt. Zweitens: Vosk läuft entspannt auf EU-CPU-Boxen, Whisper Large nicht. Drittens: Vosks Fehlermodus ist Aufgabe statt Halluzination - und wir halten das für die sicherere Standard-Wahl in einem Transkriptions-Tool.
Häufige Fragen
Kostenloser Tarif, keine Kreditkarte nötig. Hosting in Deutschland. Export und Löschung sind self-service.
Lies als Nächstes
Sprachmemo vs OpenAI-Whisper-API
Whisper mit offenen Gewichten, die gehostete API und Vosk auf eigenen Servern - welche Form passt wofür.
Lesen
Wann Vosk Klein vs Vosk Groß
Schnell und gut genug, oder langsam und exzellent.
Lesen
Wie transkribierst du ein langes deutsches Interview genau
Vom Mikrofon zum druckreifen Transkript.
Lesen