Comment fonctionne la diarisation des locuteurs
The RealtimeVoiceKIT team · 11 juin 2026
Vous avez un enregistrement où plusieurs personnes parlent, un entretien, une réunion, une table ronde, et il vous faut une transcription qui montre qui a dit quoi. Un bloc de texte sans noms est difficile à lire et encore plus difficile à citer. La technologie qui résout cela s'appelle la diarisation des locuteurs, et une fois l'idée de base comprise, elle cesse de ressembler à de la magie.
La diarisation est le processus qui consiste à découper un enregistrement audio en segments et à étiqueter chaque segment avec la personne qui parlait. Elle répond à la question de qui a parlé et quand, séparément de la question des mots prononcés. En pratique, les deux vont de pair, si bien que vous obtenez une transcription où chaque ligne de texte est attribuée au Locuteur A, au Locuteur B, et ainsi de suite.
En coulisses, un système de diarisation fonctionne en plusieurs étapes. Il détecte d'abord les parties de l'audio qui contiennent réellement de la parole, en ignorant les silences, la musique et le bruit de fond. Il découpe ensuite la parole en courts segments aux pauses naturelles. Pour chaque segment, il calcule une empreinte vocale, un résumé numérique compact des caractéristiques de la voix dans cette tranche, façonnées par la hauteur, le timbre et le style d'élocution. Il regroupe alors les segments dont les empreintes sont similaires, de sorte que toutes les tranches qui sonnent comme la même personne se retrouvent dans le même groupe. Chaque groupe devient une étiquette de locuteur. Enfin, ces étiquettes sont alignées avec les mots transcrits, pour que chaque phrase porte le bon locuteur.
Plusieurs facteurs rendent la diarisation difficile. Les gens s'interrompent et parlent en même temps, les voix peuvent se ressembler, et le micro d'un téléphone ou d'un ordinateur portable peut brouiller qui parle. Le système ne sait en général pas non plus à l'avance combien de personnes sont présentes, il doit donc l'estimer à partir de l'audio. C'est pourquoi la diarisation est rarement parfaite, et c'est pourquoi une bonne transcription associe les étiquettes de locuteur à des scores de confiance que vous pouvez vérifier et corriger.
C'est exactement le genre de travail que RealtimeVoiceKIT gère pour vous. Vous téléversez un fichier audio ou vidéo, et la transcription par IA renvoie un texte horodaté et consultable, avec la diarisation des locuteurs automatique intégrée, de sorte que le qui a dit quoi est déjà rempli. Chaque segment est accompagné d'un score de confiance, ce qui vous permet de repérer rapidement les moments à revérifier. Lorsque vous exportez des sous-titres en SRT ou en WebVTT, la structure des locuteurs et la synchronisation suivent, et si vous avez besoin du résultat dans une autre langue, la traduction dans plus de 100 langues conserve également la synchronisation.
Pour les équipes qui automatisent leurs chaînes média, la même diarisation est disponible via l'API pour développeurs. Vous envoyez un fichier avec une clé rtvk_, recevez un webhook à la fin de la tâche et récupérez une transcription structurée avec locuteurs, horodatages et confiance au format JSON, prête à être intégrée à votre propre application, index de recherche ou outil d'analyse.
Envie de voir qui a dit quoi dans vos propres enregistrements ? Le plan gratuit vous offre 10 minutes par mois avec étiquettes de locuteur et export de sous-titres, sans carte bancaire. Téléversez un extrait à plusieurs locuteurs et regardez la transcription se trier en tours de parole clairs et attribués.