Themen

Live-Transkription oder Batch - auf welche Gewohnheit willst du eigentlich hinaus?

Live-Untertitel im Meeting sind ein anderes Produkt als 'ich lese es später nach'. Wir wählen bewusst Batch; hier ist die Begründung.

Produkt

Entscheidungen

Roadmap

Finn GlasCo-Founder + Engineering

·6. Juni 2026·

1 Min. Lesezeit

Auf dieser Seite

Zwei völlig verschiedene Aufgaben Was du aufgibst, wenn du live gehst Was Batch dir dafür gibt Wann wir das revidieren würden

Zwei völlig verschiedene Aufgaben

Live-Transkription ist für: Barrierefreiheit beim Hören, Echtzeit-Untertitel im Meeting, Live-Gerichtsprotokolle, Sendungs-Untertitel. Batch-Transkription ist für: Sprachnotizen, aufgenommene Interviews, Vorlesungen zum Nachhören, Diktate, die Prosa werden. Beides in einem Produkt gut zu machen, bedeutet meistens: eins schlecht zu machen. Für den Journalismus-Fall - aufgenommene Interviews mit Quellenschutz - gibt es die besten Transkriptions-Tools für Journalist:innen.

Was du aufgibst, wenn du live gehst

Live-Transkription verlangt, dass Audio im Aufnahme-Moment ans Modell gestreamt wird. Das bedeutet: serverseitige Verarbeitung von noch nicht fertiger Aufnahme, Teil-Ergebnisse, die beim Pausieren reconciled werden müssen, und strukturell geringere Genauigkeit, weil das Modell nicht vorausschauen kann, wie es Batch-Decoder tun. Vosk unterstützt Live; wir haben es getestet; der Genauigkeits-Hit auf den Rausch-Levels echter Nutzer-Aufnahmen (Handys, öffentliche Räume, Küchen) war es nicht wert.

Was Batch dir dafür gibt

Günstigeres Hosting (keine Streaming-Inferenz, nur diskrete Jobs). Höhere Genauigkeit (Decoder sieht die ganze Äußerung). Geringere FE-Komplexität (kein Teil-Ergebnis-Akkumulator, keine Reconnect-Logik auf wackliger Verbindung). Einfachere Datenschutz-Geschichte (die Audio-Datei ist die Arbeits-Einheit; du kannst eine einzelne Datei prüfen, löschen oder den Upload verweigern).

Wann wir das revidieren würden

Zwei Ereignisse würden uns umstimmen. Eins: native Browser-Unterstützung für Streaming-Inferenz (WebGPU + WebAssembly mit Vosk Large direkt im Browser) - dann brauchten wir keinen Server-Streaming-Schritt. Zwei: ein starkes Kunden-Signal aus einem barrierefreien Use Case, in dem 'Transkript kommt nach Stopp' wirklich zu langsam ist. Bis dahin: Batch ist richtig.

Diesen Artikel teilen

Probiere Sprachmemo

Kostenloser Tarif, keine Kreditkarte nötig. Hosting in Deutschland. Export und Löschung sind self-service.

Geschrieben von

Finn Glas

Co-Founder + Engineering

Finn ist einer der Co-Founder. Er verantwortet Engineering, Infrastruktur und die meisten nächtlichen Fixes, die ausgerollt werden, bevor jemand etwas merkt.

finn.glas at aicuflow dot comLinkedIn Website

Lies als Nächstes

Warum deine Stimme nicht durch eine US-Cloud reisen sollte

Warum die Hosting-Region wichtiger ist, als das Marketing klingen lässt.

Lesen

Vosk vs Whisper auf Deutsch: ein ehrlicher Vergleich aus dem Alltag

Zwei offene Speech-to-Text-Projekte im Deutsch-Test.

Lesen

DSGVO und Sprachaufnahmen: die Regeln in Klartext

Einwilligung, Speicherdauer, Löschung - wie Sprache in die DSGVO passt.

Lesen