Themen

Live-Transkription oder Batch — auf welche Gewohnheit willst du eigentlich hinaus?

Live-Untertitel im Meeting sind ein anderes Produkt als 'ich lese es später nach'. Wir wählen bewusst Batch; hier ist die Begründung.

Produkt
Entscheidungen
Roadmap
Finn Glas
Finn GlasCo-Founder + Engineering
·6. Juni 2026·
1 Min. Lesezeit

Zwei völlig verschiedene Aufgaben

Live-Transkription ist für: Barrierefreiheit beim Hören, Echtzeit-Untertitel im Meeting, Live-Gerichtsprotokolle, Sendungs-Untertitel. Batch-Transkription ist für: Sprachnotizen, aufgenommene Interviews, Vorlesungen zum Nachhören, Diktate, die Prosa werden. Beides in einem Produkt gut zu machen, bedeutet meistens: eins schlecht zu machen.

Was du aufgibst, wenn du live gehst

Live-Transkription verlangt, dass Audio im Aufnahme-Moment ans Modell gestreamt wird. Das bedeutet: serverseitige Verarbeitung von noch nicht fertiger Aufnahme, Teil-Ergebnisse, die beim Pausieren reconciled werden müssen, und strukturell geringere Genauigkeit, weil das Modell nicht vorausschauen kann, wie es Batch-Decoder tun. Vosk unterstützt Live; wir haben es getestet; der Genauigkeits-Hit auf den Rausch-Levels echter Nutzer-Aufnahmen (Handys, öffentliche Räume, Küchen) war es nicht wert.

Was Batch dir dafür gibt

Günstigeres Hosting (keine Streaming-Inferenz, nur diskrete Jobs). Höhere Genauigkeit (Decoder sieht die ganze Äußerung). Geringere FE-Komplexität (kein Teil-Ergebnis-Akkumulator, keine Reconnect-Logik auf wackliger Verbindung). Einfachere Datenschutz-Geschichte (die Audio-Datei ist die Arbeits-Einheit; du kannst eine einzelne Datei prüfen, löschen oder den Upload verweigern).

Wann wir das revidieren würden

Zwei Ereignisse würden uns umstimmen. Eins: native Browser-Unterstützung für Streaming-Inferenz (WebGPU + WebAssembly mit Vosk Large direkt im Browser) - dann brauchten wir keinen Server-Streaming-Schritt. Zwei: ein starkes Kunden-Signal aus einem barrierefreien Use Case, in dem 'Transkript kommt nach Stopp' wirklich zu langsam ist. Bis dahin: Batch ist richtig.

Probiere Sprachmemo

Kostenloser Tarif, keine Kreditkarte nötig. Hosting in Deutschland. Export und Löschung sind self-service.

Finn Glas

Geschrieben von

Finn Glas

Co-Founder + Engineering

Finn ist einer der Co-Founder. Er verantwortet Engineering, Infrastruktur und die meisten nächtlichen Fixes, die ausgerollt werden, bevor jemand etwas merkt.

finn.glas at aicuflow dot comLinkedInWebsite