diarizationtranscriptionspeakers

Wie die Sprecher-Diarisierung funktioniert

The RealtimeVoiceKIT team · 11. Juni 2026

Sie haben eine Aufnahme, in der mehrere Personen sprechen, ein Interview, eine Besprechung, eine Podiumsdiskussion, und Sie brauchen ein Transkript, das zeigt, wer was gesagt hat. Eine Textwand ohne Namen ist schwer zu lesen und noch schwerer zu zitieren. Die Technologie, die das löst, heißt Sprecher-Diarisierung, und sobald Sie die Grundidee verstanden haben, wirkt sie nicht mehr wie Zauberei.

Die Diarisierung ist der Vorgang, eine Audioaufnahme in Segmente zu unterteilen und jedes Segment mit der Person zu kennzeichnen, die gerade sprach. Sie beantwortet die Frage, wer wann gesprochen hat, getrennt von der Frage, welche Worte gesprochen wurden. In der Praxis laufen beide zusammen, sodass Sie ein Transkript erhalten, in dem jede Textzeile dem Sprecher A, dem Sprecher B und so weiter zugeordnet ist.

Im Inneren arbeitet ein Diarisierungssystem in mehreren Stufen. Zunächst erkennt es, welche Teile des Audios überhaupt Sprache enthalten, und überspringt Stille, Musik und Hintergrundgeräusche. Dann zerlegt es die Sprache an natürlichen Pausen in kurze Segmente. Für jedes Segment berechnet es einen Stimmabdruck, eine kompakte numerische Zusammenfassung der Stimmmerkmale in diesem Abschnitt, geprägt von Tonhöhe, Klangfarbe und Sprechweise. Anschließend gruppiert es die Segmente, deren Abdrücke sich ähneln, sodass alle Abschnitte, die nach derselben Person klingen, in derselben Gruppe landen. Jede Gruppe wird zu einer Sprecherkennzeichnung. Schließlich werden diese Kennzeichnungen mit den transkribierten Worten abgeglichen, damit jeder Satz den richtigen Sprecher trägt.

Mehrere Dinge erschweren die Diarisierung. Menschen unterbrechen sich und reden gleichzeitig, Stimmen können ähnlich klingen, und das Mikrofon eines Telefons oder Laptops kann verwischen, wer spricht. Das System weiß zudem meist nicht im Voraus, wie viele Personen im Raum sind, also muss es das aus dem Audio schätzen. Deshalb ist die Diarisierung selten perfekt, und deshalb verbindet ein gutes Transkript die Sprecherkennzeichnungen mit Konfidenzwerten, die Sie prüfen und korrigieren können.

Genau diese Art von Arbeit übernimmt RealtimeVoiceKIT für Sie. Sie laden eine Audio- oder Videodatei hoch, und die KI-Transkription liefert zeitgestempelten, durchsuchbaren Text mit integrierter automatischer Sprecher-Diarisierung, sodass das Wer-hat-was-gesagt bereits ausgefüllt ist. Jedes Segment kommt mit einem Konfidenzwert, sodass Sie die Stellen, die eine Überprüfung verdienen, schnell erkennen. Wenn Sie Untertitel nach SRT oder WebVTT exportieren, kommen die Sprecherstruktur und die Synchronisierung mit, und falls Sie das Ergebnis in einer anderen Sprache benötigen, bewahrt die Übersetzung in mehr als 100 Sprachen ebenfalls die Synchronisierung.

Für Teams, die ihre Medien-Pipelines automatisieren, steht dieselbe Diarisierung über die Entwickler-API zur Verfügung. Sie senden eine Datei mit einem rtvk_-Schlüssel, erhalten einen Webhook, sobald der Auftrag fertig ist, und lesen ein strukturiertes Transkript mit Sprechern, Zeitstempeln und Konfidenz als JSON zurück, bereit zum Einbau in Ihre eigene Anwendung, Ihren Suchindex oder Ihre Analyse.

Möchten Sie sehen, wer in Ihren eigenen Aufnahmen was gesagt hat? Der kostenlose Tarif gibt Ihnen 10 Minuten pro Monat mit Sprecherkennzeichnungen und Untertitelexport, und es ist keine Kreditkarte erforderlich. Laden Sie einen Clip mit mehreren Sprechern hoch und sehen Sie zu, wie sich das Transkript in klare, zugeordnete Gesprächsbeiträge sortiert.