Transcription Whisper en temps réel en ligne, simplifiée

Whisper d'OpenAI a été conçu pour la transcription par lots : vous lui remettez un fichier audio terminé et vous attendez une transcription. L'usage en temps réel est un problème entièrement différent. Les sous-titres en direct, les notes de réunion pendant que les gens parlent et les sous-titres en streaming exigent tous des résultats partiels en une ou deux secondes, ce que Whisper ne fait pas par défaut. Toute une catégorie de projets open source existe pour combler cet écart, et ce sont de véritables prouesses d'ingénierie. Ils représentent aussi beaucoup à exploiter.

Si vous avez cherché la transcription Whisper en temps réel en ligne, vous pesez probablement le choix entre monter vous-même l'un de ces serveurs de streaming ou opter pour quelque chose d'hébergé. Ce guide passe en revue honnêtement les deux options open source les plus connues, explique pourquoi la transcription en direct est difficile à auto-héberger et montre où s'insère un service géré.

Les principaux projets open source

QuentinFuxa/WhisperLiveKit est une boîte à outils et un serveur de reconnaissance vocale en temps réel construit sur la recherche autour de Whisper en streaming. Il est conçu pour une faible latence, inclut une détection d'activité vocale pour décider quand la parole a réellement lieu et peut effectuer une diarisation des locuteurs en direct, afin que les sous-titres soient étiquetés au fil du flux. Vous l'exécutez vous-même, généralement comme un serveur auquel les navigateurs ou clients se connectent via websocket. Pour un ingénieur qui veut une pile de sous-titrage en direct auto-hébergée, c'est un solide point de départ.

ufal/whisper_streaming est une implémentation de recherche du streaming Whisper en temps réel. Son idée centrale est une politique d'accord local : il exécute Whisper de façon répétée sur un tampon audio croissant et ne valide les mots que lorsque des exécutions successives s'accordent dessus, ce qui maintient une faible latence tout en évitant de réécrire sans cesse le texte affiché. C'est une référence propre et reconnue pour comprendre comment le streaming Whisper peut fonctionner et, comme WhisperLiveKit, c'est quelque chose que vous exécutez et maintenez vous-même.

Les deux projets méritent votre respect. Ils sont exactement le genre d'open source qui fait avancer le domaine et, si vous avez le temps et le matériel, ils récompensent l'effort.

Pourquoi la transcription en direct est difficile à auto-héberger

La transcription par lots est indulgente. La transcription en direct ne l'est pas, et la difficulté s'accumule.

Le réglage de la latence est le premier mur. Vous arbitrez en permanence entre vitesse et précision : des tampons plus courts paraissent réactifs mais font plus d'erreurs, des tampons plus longs se lisent mieux mais retardent sur le locuteur. Trouver le bon équilibre pour votre audio et votre matériel demande une vraie expérimentation.

Les GPU sont le deuxième. Exécuter Whisper assez vite pour un usage en direct signifie généralement un GPU et un serveur que vous gardez allumé plutôt que de le lancer à la demande. C'est un coût fixe et une charge opérationnelle, y compris les pilotes, le chargement du modèle et la gestion de la mémoire.

La concurrence est le troisième. Un seul flux en direct sur un GPU est gérable. Dix réunions simultanées, chacune nécessitant son propre tampon à faible latence, est un problème de mise à l'échelle et d'ordonnancement. Vous devez décider combien de flux une machine peut contenir et ce qui se passe quand vous dépassez.

La capture et le transport de l'audio est le quatrième, et il est facile de le sous-estimer. Capturer l'audio du micro dans le navigateur, l'encoder, le diffuser via websocket, gérer les reconnexions et la perte de paquets et synchroniser les résultats partiels vers l'écran représente une quantité importante de code client et serveur avant la moindre transcription.

Rien de tout cela n'est une raison d'éviter les projets open source. C'est simplement le travail que ces projets vous laissent.

Où s'insère RealtimeVoiceKIT

RealtimeVoiceKIT est un service hébergé de transcription et de traduction construit sur et propulsé par OpenAI Whisper, sans rien à installer. Aucun GPU à provisionner, aucun environnement Python, aucune ligne de commande. La transcription en streaming en direct et en temps réel s'exécute dans votre navigateur ; vous accordez l'accès au micro et regardez la transcription apparaître, le tampon, la détection d'activité vocale, le réglage de la latence et la mise à l'échelle étant gérés de notre côté.

C'est plus que des sous-titres en direct. Vous obtenez la diarisation des locuteurs, des horodatages au niveau du mot, des scores de confiance par segment et l'export en SRT et VTT. Vous pouvez aussi traduire les transcriptions dans plus de 100 langues avec l'IA, générer des résumés par IA et importer de l'audio par téléversement, URL ou depuis Drive, Dropbox et OneDrive, le tout consultable ensuite. Au-delà de l'application web, il existe une API REST pour développeurs avec des clés rtvk_ et des webhooks, ainsi qu'un serveur MCP qui fonctionne avec Claude Code, Claude Desktop et d'autres agents IA.

Les tarifs commencent gratuitement et restent simples. Le plan Free vous donne 10 minutes chaque mois, pour toujours. Les plans payants commencent à 9,99 $/mois, et l'API pour développeurs est facturée à la minute, avec 10 minutes gratuites puis 0,005 $ par minute. Pour la plupart des utilisateurs finaux, c'est le moyen le plus simple et le moins cher d'obtenir des transcriptions en direct sans posséder d'infrastructure. Vous pouvez voir le détail complet sur la page tarifs sur realtimevoicekit.com.

Compromis honnêtes

Un service géré n'est pas la bonne réponse pour tout le monde. Si vous avez besoin que la transcription tourne entièrement on-prem, fonctionne hors ligne sans internet ou garde l'audio dans votre propre réseau pour des raisons de conformité, auto-héberger WhisperLiveKit ou whisper_streaming convient mieux, et le contrôle vaut le coût opérationnel. Si vous voulez la pleine propriété du modèle et de la pile, exécutez-les vous-même.

Mais si votre ressource la plus rare est le temps d'ingénierie, et que vous voulez une transcription en direct fiable dès aujourd'hui sans gérer de GPU ni de websockets, un service géré supprime tout le problème. C'est le choix devant vous : posséder l'infrastructure, ou la contourner.

Si la contourner vous semble juste, vous pouvez essayer la transcription en temps réel gratuitement sur RealtimeVoiceKIT, 10 minutes par mois sans carte bancaire, et la juger sur votre propre audio sur realtimevoicekit.com.

Une question sur cet article ?

Demandez à notre IA un résumé, les points clés ou un détail précis, à partir de cet article.

The RealtimeVoiceKIT team

RealtimeVoiceKIT

The RealtimeVoiceKIT team écrit sur l'audio, l'IA et les méthodes qui transforment les enregistrements en audience pour l'équipe RealtimeVoiceKIT.

Les principaux projets open source

Pourquoi la transcription en direct est difficile à auto-héberger

Où s'insère RealtimeVoiceKIT

Compromis honnêtes

À lire ensuite

Utiliser OpenAI Whisper sans coder

faster-whisper sans la configuration

Alternative à WhisperX : diarisation sans installation

Transformez votre audio en texte précis