OpenAIs Whisper wurde für die Batch-Transkription gebaut: Du übergibst eine fertige Audiodatei und wartest auf ein Transkript. Echtzeitnutzung ist ein völlig anderes Problem. Live-Untertitel, Besprechungsnotizen während des Sprechens und Streaming-Untertitel brauchen alle Teilergebnisse innerhalb von ein bis zwei Sekunden, was Whisper von Haus aus nicht leistet. Es gibt eine ganze Klasse von Open-Source-Projekten, die diese Lücke schließen, und sie sind wirklich beeindruckende Ingenieurarbeit. Sie sind aber auch viel zu betreiben.
Wenn du nach Whisper-Transkription in Echtzeit online gesucht hast, wägst du wahrscheinlich ab, ob du selbst einen dieser Streaming-Server aufsetzt oder zu etwas Gehostetem greifst. Dieser Leitfaden geht ehrlich auf die beiden bekanntesten Open-Source-Optionen ein, erklärt, warum Live-Transkription schwer selbst zu hosten ist, und zeigt, wo ein verwalteter Dienst passt.
Die führenden Open-Source-Projekte
QuentinFuxa/WhisperLiveKit ist ein Echtzeit-Toolkit und -Server für Sprache-zu-Text, der auf Streaming-Whisper-Forschung aufbaut. Er ist auf niedrige Latenz ausgelegt, enthält eine Sprachaktivitätserkennung, um zu entscheiden, wann tatsächlich gesprochen wird, und kann eine Live-Sprecher-Diarisierung durchführen, sodass Untertitel beim Streaming bereits beschriftet sind. Du betreibst ihn selbst, typischerweise als Server, mit dem sich Browser oder Clients über ein WebSocket verbinden. Für einen Ingenieur, der einen selbstgehosteten Live-Untertitelungs-Stack will, ist er ein starker Ausgangspunkt.
ufal/whisper_streaming ist eine Forschungsimplementierung von Whisper-Streaming in Echtzeit. Ihre Kernidee ist eine Local-Agreement-Strategie: Sie führt Whisper wiederholt auf einem wachsenden Audiopuffer aus und bestätigt Wörter erst, wenn aufeinanderfolgende Durchläufe übereinstimmen, was die Latenz niedrig hält und zugleich ständiges Umschreiben des angezeigten Texts vermeidet. Sie ist eine saubere, angesehene Referenz dafür, wie Whisper-Streaming funktionieren kann, und wie WhisperLiveKit etwas, das du selbst betreibst und wartest.
Beide Projekte verdienen Respekt. Sie sind genau die Art von Open Source, die das Feld voranbringt, und wenn du die Zeit und die Hardware hast, belohnen sie den Aufwand.
Warum Live-Transkription schwer selbst zu hosten ist
Batch-Transkription ist nachsichtig. Live-Transkription ist es nicht, und die Schwierigkeit potenziert sich.
Die Latenzabstimmung ist die erste Hürde. Du tauschst ständig Geschwindigkeit gegen Genauigkeit: Kürzere Puffer fühlen sich reaktionsschnell an, machen aber mehr Fehler, längere Puffer lesen sich besser, hinken aber dem Sprecher hinterher. Diese Balance für dein Audio und deine Hardware richtig zu treffen, erfordert echtes Experimentieren.
GPUs sind die zweite. Whisper schnell genug für den Live-Einsatz auszuführen bedeutet in der Regel eine GPU und einen Server, den du laufen lässt, statt ihn bei Bedarf hochzufahren. Das ist ein Fixkosten- und Betriebsaufwand, einschließlich Treibern, Modellladen und Speicherverwaltung.
Nebenläufigkeit ist die dritte. Ein einzelner Live-Stream auf einer GPU ist machbar. Zehn gleichzeitige Besprechungen, jede mit eigenem Puffer mit niedriger Latenz, sind ein Skalierungs- und Planungsproblem. Du musst entscheiden, wie viele Streams eine Maschine halten kann und was passiert, wenn du das überschreitest.
Audioaufnahme und -transport ist die vierte, und sie wird leicht unterschätzt. Mikrofon-Audio im Browser aufzunehmen, zu kodieren, über ein WebSocket zu streamen, Wiederverbindungen und Paketverluste zu behandeln und Teilergebnisse zurück auf den Bildschirm zu synchronisieren, ist eine erhebliche Menge an Client- und Servercode, bevor überhaupt transkribiert wird.
Nichts davon ist ein Grund, die Open-Source-Projekte zu meiden. Es ist einfach die Arbeit, die diese Projekte dir überlassen.
Wo RealtimeVoiceKIT passt
RealtimeVoiceKIT ist ein gehosteter Transkriptions- und Übersetzungsdienst, der auf OpenAI Whisper aufbaut und davon angetrieben wird, ohne dass du etwas installieren musst. Keine GPU bereitzustellen, keine Python-Umgebung, keine Kommandozeile. Die Echtzeit-Live-Streaming-Transkription läuft in deinem Browser; du gewährst Mikrofonzugriff und siehst das Transkript erscheinen, während Pufferung, Sprachaktivitätserkennung, Latenzabstimmung und Skalierung auf unserer Seite erledigt werden.
Es ist mehr als nur Live-Untertitel. Du bekommst Sprecher-Diarisierung, Zeitstempel auf Wortebene, Konfidenzwerte pro Segment und Export nach SRT und VTT. Du kannst Transkripte außerdem mit KI in über 100 Sprachen übersetzen, KI-Zusammenfassungen erstellen und Audio per Upload, URL oder aus Drive, Dropbox und OneDrive importieren, alles anschließend durchsuchbar. Neben der Web-App gibt es eine Entwickler-REST-API mit rtvk_-Schlüsseln und Webhooks sowie einen MCP-Server, der mit Claude Code, Claude Desktop und anderen KI-Agenten funktioniert.
Die Preise beginnen kostenlos und bleiben einfach. Der Free-Plan gibt dir 10 Minuten jeden Monat, für immer. Bezahlte Pläne beginnen bei 9,99 $/Monat, und die Entwickler-API rechnet pro Minute ab, mit 10 Gratisminuten und danach 0,005 $ pro Minute. Für die meisten Endnutzer ist das der einfachste und günstigste Weg zu Live-Transkripten, ohne eigene Infrastruktur zu besitzen. Die vollständige Aufschlüsselung findest du auf der Preisseite unter realtimevoicekit.com.
Ehrliche Kompromisse
Ein verwalteter Dienst ist nicht für jeden die richtige Antwort. Wenn du Transkription vollständig on-prem laufen lassen, offline ohne Internet arbeiten oder Audio aus Compliance-Gründen im eigenen Netzwerk halten musst, passt das Selbsthosten von WhisperLiveKit oder whisper_streaming besser, und die Kontrolle ist den Betriebsaufwand wert. Wenn du volle Eigentümerschaft über Modell und Stack willst, betreibe sie selbst.
Wenn aber deine knappste Ressource Ingenieurzeit ist und du heute zuverlässige Live-Transkription willst, ohne GPUs oder WebSockets zu verwalten, nimmt dir ein verwalteter Dienst das gesamte Problem ab. Das ist die Wahl vor dir: die Infrastruktur besitzen oder sie umgehen.
Wenn das Umgehen richtig klingt, kannst du Echtzeit-Transkription kostenlos bei RealtimeVoiceKIT ausprobieren, 10 Minuten im Monat ohne Kreditkarte, und sie anhand deines eigenen Audios unter realtimevoicekit.com beurteilen.
The RealtimeVoiceKIT team schreibt über Audio, KI und die Workflows, die Aufnahmen für das RealtimeVoiceKIT-Team in Reichweite verwandeln.