diarizationtranscriptionspeakers

Cómo funciona la diarización de hablantes

The RealtimeVoiceKIT team · 11 de junio de 2026

Tienes una grabación con varias personas hablando, una entrevista, una reunión, una mesa redonda, y necesitas una transcripción que muestre quién dijo qué. Un muro de texto sin nombres es difícil de leer y aún más difícil de citar. La tecnología que resuelve esto se llama diarización de hablantes y, una vez que entiendes la idea básica, deja de parecer magia.

La diarización es el proceso de dividir una grabación de audio en segmentos y etiquetar cada segmento con la persona que estaba hablando. Responde a la pregunta de quién habló y cuándo, de forma separada de la pregunta de qué palabras se dijeron. En la práctica ambas cosas van juntas, así que acabas con una transcripción en la que cada línea de texto se atribuye al Hablante A, al Hablante B, y así sucesivamente.

Por dentro, un sistema de diarización trabaja en varias etapas. Primero detecta qué partes del audio contienen voz, omitiendo el silencio, la música y el ruido de fondo. Luego corta la voz en segmentos cortos en las pausas naturales. Para cada segmento calcula una huella vocal, un resumen numérico compacto de las características de la voz en ese fragmento, moldeadas por el tono, el timbre y el estilo al hablar. Después agrupa los segmentos cuyas huellas son similares, de modo que todos los fragmentos que suenan a la misma persona quedan en el mismo grupo. Cada grupo se convierte en una etiqueta de hablante. Por último, esas etiquetas se alinean con las palabras transcritas, de manera que cada frase lleva el hablante correcto.

Varias cosas hacen difícil la diarización. Las personas se interrumpen y hablan a la vez, las voces pueden parecerse, y el micrófono de un teléfono o un portátil puede difuminar quién está hablando. El sistema tampoco suele saber de antemano cuántas personas hay en la sala, así que tiene que estimarlo a partir del audio. Por eso la diarización rara vez es perfecta, y por eso una buena transcripción combina las etiquetas de hablante con puntuaciones de confianza que puedes revisar y corregir.

Esto es exactamente el tipo de trabajo que RealtimeVoiceKIT hace por ti. Subes un archivo de audio o vídeo y la transcripción por IA devuelve texto con marcas de tiempo y posibilidad de búsqueda, con diarización de hablantes automática incorporada, de modo que el quién dijo qué ya viene resuelto. Cada segmento incluye una puntuación de confianza, así que puedes detectar rápidamente los momentos que conviene revisar. Cuando exportas subtítulos a SRT o WebVTT, la estructura de hablantes y la sincronización van incluidas, y si necesitas el resultado en otro idioma, la traducción a más de 100 idiomas también conserva la sincronización.

Para los equipos que automatizan sus flujos de medios, la misma diarización está disponible a través de la API para desarrolladores. Envías un archivo con una clave rtvk_, recibes un webhook cuando la tarea termina y recuperas una transcripción estructurada con hablantes, marcas de tiempo y confianza en formato JSON, lista para integrar en tu propia aplicación, índice de búsqueda o analítica.

¿Quieres ver quién dijo qué en tus propias grabaciones? El plan gratuito te da 10 minutos al mes con etiquetas de hablante y exportación de subtítulos, y no se necesita tarjeta de crédito. Sube un clip con varios hablantes y observa cómo la transcripción se ordena en turnos claros y atribuidos.