Whisper de OpenAI se diseñó para transcripción por lotes: le entregas un archivo de audio terminado y esperas la transcripción. El uso en tiempo real es un problema completamente distinto. Los subtítulos en vivo, las notas de reunión mientras la gente habla y los subtítulos en streaming necesitan resultados parciales en uno o dos segundos, algo que Whisper no hace de fábrica. Existe toda una clase de proyectos de código abierto para cubrir ese hueco, y son una ingeniería realmente impresionante. También son mucho que operar.
Si buscaste transcripción Whisper en tiempo real online, probablemente estés sopesando si montar tú mismo uno de esos servidores de streaming o recurrir a algo alojado. Esta guía repasa con honestidad las dos opciones de código abierto más conocidas, explica por qué la transcripción en vivo es difícil de autoalojar y muestra dónde encaja un servicio gestionado.
Los principales proyectos de código abierto
QuentinFuxa/WhisperLiveKit es un kit de herramientas y servidor de voz a texto en tiempo real construido sobre investigación de Whisper en streaming. Está diseñado para baja latencia, incluye detección de actividad de voz para decidir cuándo realmente hay habla y puede hacer diarización de hablantes en vivo, de modo que los subtítulos se etiquetan mientras fluyen. Lo ejecutas tú mismo, normalmente como un servidor al que los navegadores o clientes se conectan por websocket. Para una persona ingeniera que quiere un stack de subtitulado en vivo autoalojado, es un punto de partida sólido.
ufal/whisper_streaming es una implementación de investigación de streaming de Whisper en tiempo real. Su idea central es una política de acuerdo local: ejecuta Whisper repetidamente sobre un búfer de audio creciente y solo confirma palabras cuando ejecuciones sucesivas coinciden en ellas, lo que mantiene baja la latencia evitando reescribir constantemente el texto mostrado. Es una referencia limpia y bien valorada de cómo puede funcionar el streaming de Whisper y, como WhisperLiveKit, es algo que ejecutas y mantienes tú.
Ambos proyectos merecen respeto. Son exactamente el tipo de código abierto que hace avanzar el campo y, si tienes el tiempo y el hardware, recompensan el esfuerzo.
Por qué la transcripción en vivo es difícil de autoalojar
La transcripción por lotes es indulgente. La transcripción en vivo no lo es, y la dificultad se acumula.
El ajuste de latencia es el primer muro. Constantemente cambias velocidad por precisión: los búferes más cortos se sienten ágiles pero cometen más errores, los más largos leen mejor pero van por detrás del hablante. Lograr ese equilibrio para tu audio y tu hardware exige experimentación real.
Las GPU son el segundo. Ejecutar Whisper lo bastante rápido para uso en vivo suele significar una GPU y un servidor que mantienes encendido en lugar de levantar bajo demanda. Eso es un costo fijo y una carga operativa, incluyendo controladores, carga del modelo y gestión de memoria.
La concurrencia es el tercero. Un solo flujo en vivo en una GPU es manejable. Diez reuniones simultáneas, cada una con su propio búfer de baja latencia, es un problema de escalado y planificación. Tienes que decidir cuántos flujos aguanta una máquina y qué ocurre cuando lo superas.
La captura y el transporte de audio es el cuarto, y es fácil subestimarlo. Capturar audio del micrófono en el navegador, codificarlo, transmitirlo por websocket, gestionar reconexiones y pérdida de paquetes y sincronizar los resultados parciales de vuelta a la pantalla es una cantidad importante de código de cliente y servidor antes de que ocurra cualquier transcripción.
Nada de esto es razón para evitar los proyectos de código abierto. Es simplemente el trabajo que esos proyectos te dejan a ti.
Dónde encaja RealtimeVoiceKIT
RealtimeVoiceKIT es un servicio alojado de transcripción y traducción construido sobre y con la tecnología de OpenAI Whisper, sin nada que instalar. No hay GPU que aprovisionar, ni entorno de Python, ni línea de comandos. La transcripción en streaming en vivo y en tiempo real corre en tu navegador; concedes acceso al micrófono y ves aparecer la transcripción, con el búfer, la detección de actividad de voz, el ajuste de latencia y el escalado gestionados por nuestra parte.
Es más que subtítulos en vivo. Obtienes diarización de hablantes, marcas de tiempo a nivel de palabra, puntuaciones de confianza por segmento y exportación a SRT y VTT. También puedes traducir transcripciones a más de 100 idiomas con IA, generar resúmenes con IA e importar audio por carga, URL o desde Drive, Dropbox y OneDrive, con todo buscable después. Más allá de la aplicación web hay una API REST para desarrolladores con claves rtvk_ y webhooks, además de un servidor MCP que funciona con Claude Code, Claude Desktop y otros agentes de IA.
Los precios empiezan gratis y se mantienen simples. El plan Free te da 10 minutos cada mes, para siempre. Los planes de pago empiezan en $9.99/mes, y la API para desarrolladores es de pago por minuto, con 10 minutos gratis y luego $0.005 por minuto. Para la mayoría de usuarios finales es la forma más fácil y barata de obtener transcripciones en vivo sin poseer infraestructura. Puedes ver el desglose completo en la página de precios en realtimevoicekit.com.
Compensaciones honestas
Un servicio gestionado no es la respuesta correcta para todos. Si necesitas que la transcripción corra totalmente on-prem, funcione sin conexión a internet o mantenga el audio dentro de tu propia red por motivos de cumplimiento, autoalojar WhisperLiveKit o whisper_streaming encaja mejor, y el control vale el costo operativo. Si quieres propiedad total del modelo y del stack, ejecútalos tú mismo.
Pero si tu recurso más escaso es el tiempo de ingeniería, y quieres transcripción en vivo fiable hoy sin gestionar GPU ni websockets, un servicio gestionado elimina el problema entero. Esa es la elección frente a ti: poseer la infraestructura o saltártela.
Si saltártela te parece adecuado, puedes probar la transcripción en tiempo real gratis en RealtimeVoiceKIT, 10 minutos al mes sin tarjeta de crédito, y juzgarla con tu propio audio en realtimevoicekit.com.
The RealtimeVoiceKIT team escribe sobre audio, IA y los flujos de trabajo que convierten las grabaciones en alcance para el equipo de RealtimeVoiceKIT.