Themen
Live-Untertitel im Meeting sind ein anderes Produkt als 'ich lese es später nach'. Wir wählen bewusst Batch; hier ist die Begründung.

Live-Transkription ist für: Barrierefreiheit beim Hören, Echtzeit-Untertitel im Meeting, Live-Gerichtsprotokolle, Sendungs-Untertitel. Batch-Transkription ist für: Sprachnotizen, aufgenommene Interviews, Vorlesungen zum Nachhören, Diktate, die Prosa werden. Beides in einem Produkt gut zu machen, bedeutet meistens: eins schlecht zu machen.
Live-Transkription verlangt, dass Audio im Aufnahme-Moment ans Modell gestreamt wird. Das bedeutet: serverseitige Verarbeitung von noch nicht fertiger Aufnahme, Teil-Ergebnisse, die beim Pausieren reconciled werden müssen, und strukturell geringere Genauigkeit, weil das Modell nicht vorausschauen kann, wie es Batch-Decoder tun. Vosk unterstützt Live; wir haben es getestet; der Genauigkeits-Hit auf den Rausch-Levels echter Nutzer-Aufnahmen (Handys, öffentliche Räume, Küchen) war es nicht wert.
Günstigeres Hosting (keine Streaming-Inferenz, nur diskrete Jobs). Höhere Genauigkeit (Decoder sieht die ganze Äußerung). Geringere FE-Komplexität (kein Teil-Ergebnis-Akkumulator, keine Reconnect-Logik auf wackliger Verbindung). Einfachere Datenschutz-Geschichte (die Audio-Datei ist die Arbeits-Einheit; du kannst eine einzelne Datei prüfen, löschen oder den Upload verweigern).
Zwei Ereignisse würden uns umstimmen. Eins: native Browser-Unterstützung für Streaming-Inferenz (WebGPU + WebAssembly mit Vosk Large direkt im Browser) - dann brauchten wir keinen Server-Streaming-Schritt. Zwei: ein starkes Kunden-Signal aus einem barrierefreien Use Case, in dem 'Transkript kommt nach Stopp' wirklich zu langsam ist. Bis dahin: Batch ist richtig.
Kostenloser Tarif, keine Kreditkarte nötig. Hosting in Deutschland. Export und Löschung sind self-service.
Lies als Nächstes
Warum deine Stimme nicht durch eine US-Cloud reisen sollte
Warum die Hosting-Region wichtiger ist, als das Marketing klingen lässt.
Lesen
Vosk vs Whisper auf Deutsch: ein ehrlicher Vergleich aus dem Alltag
Zwei offene Speech-to-Text-Projekte im Deutsch-Test.
Lesen
DSGVO und Sprachaufnahmen: die Regeln in Klartext
Einwilligung, Speicherdauer, Löschung - wie Sprache in die DSGVO passt.
Lesen