Speech-to-Text-API

Eine Speech-to-Text-API für Entwickler

Integrieren Sie Transkription mit einer sauberen REST-API in Ihr Produkt, rtvk_-Schlüssel, Webhooks und vorhersagbares JSON mit Zeitstempeln auf Wortebene, Sprecherkennzeichnung und 100+ Sprachen.

Jetzt ausprobieren, ohne Registrierung

Lade eine Datei hoch, nimm live auf, füge einen Link ein oder importiere aus deiner Cloud und sieh zu, wie transkribiert wird.

Audio oder Video hierher ziehen oder klicken zum AuswählenMP3, WAV, M4A, MP4 und mehr

RealtimeVoiceKIT bietet Ihnen Sprache-zu-Text als einfache HTTP-API. Authentifizieren Sie sich mit einem rtvk_-Schlüssel, senden Sie Audio oder Video per Upload oder URL und erhalten Sie vorhersagbares JSON mit dem Transkript, Zeitstempeln auf Wortebene, Konfidenzwerten und Sprecherkennzeichnung. Aufträge sind asynchron: Senden Sie sie, und wir rufen Ihren Webhook in dem Moment auf, in dem ein Ergebnis bereit ist, kein Polling. Dieselbe API speist Untertitel, Übersetzung und KI-Zusammenfassungen, sodass Sie eine komplette Pipeline auf einer einzigen Integration aufbauen können.

Was Entwickler bauen

Transkription im Produkt

Fügen Sie Ihrer App Transkription hinzu, ohne selbst Sprachmodelle zu betreiben.

Automatisierte Pipelines

Verdrahten Sie Transkription mit Ingestion und Verarbeitung über Webhooks.

Untertitelung im großen Maßstab

Generieren Sie SRT und VTT für große Medienbibliotheken programmatisch.

Sprachanalyse

Speisen Sie Zeitstempel, Sprecher und Zusammenfassungen in Ihre eigene Analyse ein.

Was enthalten ist

REST-API mit rtvk_-SchlüsselnWebhooks (kein Polling)Zeitstempel auf WortebeneSprecherkennzeichnungUntertitel, Übersetzung & Zusammenfassungen100+ Sprachen

So funktioniert es

↑MP3 · MP4 · URLinterview.mp3

Schlüssel erstellen

Erstellen Sie einen rtvk_-API-Schlüssel über Ihr Dashboard.

Audio senden

Senden Sie per POST eine Datei oder URL; wir transkribieren sie asynchron.

EN→ES · FR · DE

TXTSRTVTT

Ergebnisse erhalten

Wir rufen Ihren Webhook mit vorhersagbarem JSON auf, Text, Zeitstempel, Sprecher und mehr.

Häufig gestellte Fragen

Wie wird die Speech-to-Text-API authentifiziert?

Mit rtvk_-API-Schlüsseln als Bearer-Token, die Sie in Ihrem Dashboard erstellen. Dieselben Schlüssel funktionieren auch mit unserem MCP-Server.

Verwendet sie Webhooks oder Polling?

Webhooks. Senden Sie einen Auftrag, und RealtimeVoiceKIT ruft Ihren Endpunkt auf, wenn er abgeschlossen ist, sodass Sie nicht pollen müssen.

Was enthält eine Antwort?

Vorhersagbares JSON mit dem Transkripttext, Zeitstempeln auf Wortebene, Konfidenzwerten und Sprecherkennzeichnung sowie Untertitel-, Übersetzungs- und Zusammenfassungsausgabe.

Gibt es einen kostenlosen Tarif?

Ja. Jedes Konto erhält 10 kostenlose API-Minuten zum Entwickeln und Testen, bevor Sie skalieren, danach wird pro Minute mit 0,005 $ pro Minute abgerechnet, ohne erforderlichen Tarif.

Entwickeln Sie mit der Speech-to-Text-API

Erstellen Sie einen rtvk_-Schlüssel und fügen Sie Ihrem Produkt Transkription hinzu, starten Sie kostenlos mit 10 Minuten pro Monat.