Wird Sprachmemo Whisper irgendwann als Option anbieten?

Vielleicht - auf eine Weise, die das EU-Infra-Versprechen hält (z.B. EU-gehostetes Whisper bei geprüftem Anbieter). Die Latte: dasselbe Rechenzentrum, dieselbe Audit-Geschichte, dasselbe Lösch-Versprechen. Wir haben es nicht eilig.

Kann ich eine eigene Whisper-Instanz mitbringen?

Heute nicht über die UI. Die Architektur unterstützt es (die Engine-Schicht im BE ist austauschbar), aber kein v1-Feature. Self-Hoster:innen, die Whisper einbauen wollen, können be_modules/voice/engine.py direkt editieren.

Sprachmemo

Themen

Vosk vs Whisper auf Deutsch: ein ehrlicher Vergleich aus dem Alltag

Zwei offene Speech-to-Text-Projekte, beide mit Deutsch-Unterstützung. Wo welches gewinnt, wo es verliert, was du wählst.

Vosk

Whisper

Deutsch

Finn GlasCo-Founder + Engineering

·16. Mai 2026·

2 Min. Lesezeit

Auf sauberem deutschem Studio-Audio erreichen beide Modelle die Schwelle 'so gut, dass du das Transkript am Stück lesen kannst, ohne herausgerissen zu werden'. Die Unterschiede leben an den Rändern.

Auf dieser Seite

Architektur-Unterschied Auf sauberem Deutsch sind beide gut genug Auf verrauschtem Telefon-Audio kippt es Die Deploy-Geschichte zählt Warum wir Vosk gewählt haben

Architektur-Unterschied

Vosk ist ein Kaldi-basiertes System: klassische akustische Modelle + ein Sprachmodell, optimiert für günstigen CPU-Betrieb. Whisper ist ein transformer-basiertes Seq2Seq-Modell: schwerer, größer, für GPU gebaut, aber auf CPU für kürzere Clips machbar. Die Fehlerform unterscheidet sich auch - Vosk hört plausible falsche Wörter, Whisper halluziniert flüssige Prosa.

Auf sauberem Deutsch sind beide gut genug

Wir haben beide gegen eine 90-minütige Studio-Aufnahme zweier deutscher Muttersprachler:innen im Gespräch laufen lassen. Vosk Large: 96,2 % Wort-Genauigkeit. Whisper Large-v3: 97,8 %. Die 1,6-%-Lücke entsteht fast nur an drei Stellen: seltene Eigennamen (Whisper besser), englische Lehnwörter mit deutscher Aussprache (Whisper besser), Konversationsfüller und Versprecher (Vosk schluckt sie sauberer).

Auf verrauschtem Telefon-Audio kippt es

Auf einem verrauschten Telefon-1-on-1, das wir für einen anderen Test aufgenommen haben, hielt Vosk Large 86 %; Whisper Large-v3 halluzinierte. Der Seq2Seq-Decoder von Whisper ist generativ - wenn das Signal-zu-Rausch-Verhältnis unter die Trainings-Verteilung fällt, produziert er glücklich selbstbewusste, flüssige, komplett erfundene Sätze. Vosks Kaldi-Decoder ist ehrlicher: er gibt auf.

Die Deploy-Geschichte zählt

Vosk läuft produktiv auf einer einzelnen Hetzner-CPU-Box ohne ins Schwitzen zu kommen. Whisper Large braucht GPU für brauchbare Reaktionszeiten - das verdreifacht die Hosting-Kosten und zieht die Last in einen viel kleineren Anbieter-Pool, fast alle US-basiert. Für einen Dienst, der 'Audio verlässt die EU nicht' verspricht, ist das keine neutrale Wahl. Das tiefere Argument für EU-Infrastruktur erklärt Warum deine Stimme nicht durch eine US-Cloud reisen sollte.

Warum wir Vosk gewählt haben

Drei Gründe. Erstens: Die Genauigkeits-Lücke auf dem Audio, das unsere Nutzer:innen tatsächlich aufnehmen (meist sauber, meist unter fünf Minuten), ist klein genug, dass sich der Trade lohnt. Zweitens: Vosk läuft entspannt auf EU-CPU-Boxen, Whisper Large nicht. Drittens: Vosks Fehlermodus ist Aufgabe statt Halluzination - und wir halten das für die sicherere Standard-Wahl in einem Transkriptions-Tool.

Häufige Fragen

Häufig gefragt

Diesen Artikel teilen

Probiere Sprachmemo

Kostenloser Tarif, keine Kreditkarte nötig. Hosting in Deutschland. Export und Löschung sind self-service.

Geschrieben von

Finn Glas

Co-Founder + Engineering

Finn ist einer der Co-Founder. Er verantwortet Engineering, Infrastruktur und die meisten nächtlichen Fixes, die ausgerollt werden, bevor jemand etwas merkt.

finn.glas at aicuflow dot comLinkedIn Website

Lies als Nächstes

Sprachmemo vs OpenAI-Whisper-API

Whisper mit offenen Gewichten, die gehostete API und Vosk auf eigenen Servern - welche Form passt wofür.

Lesen

Wann Vosk Klein vs Vosk Groß

Schnell und gut genug, oder langsam und exzellent.

Lesen

Wie transkribierst du ein langes deutsches Interview genau

Vom Mikrofon zum druckreifen Transkript.

Lesen