O Whisper da OpenAI foi feito para transcrição em lote: você entrega um arquivo de áudio finalizado e espera por uma transcrição. O uso em tempo real é um problema completamente diferente. Legendas ao vivo, notas de reunião enquanto as pessoas falam e legendas em streaming precisam de resultados parciais em um ou dois segundos, algo que o Whisper não faz de fábrica. Existe toda uma classe de projetos de código aberto para preencher essa lacuna, e são engenharia realmente impressionante. Eles também são muita coisa para operar.
Se você pesquisou por transcrição Whisper em tempo real online, provavelmente está avaliando se monta você mesmo um desses servidores de streaming ou recorre a algo hospedado. Este guia passa honestamente pelas duas opções de código aberto mais conhecidas, explica por que a transcrição ao vivo é difícil de auto-hospedar e mostra onde um serviço gerenciado se encaixa.
Os principais projetos de código aberto
QuentinFuxa/WhisperLiveKit é um kit de ferramentas e servidor de voz para texto em tempo real construído sobre pesquisa de Whisper em streaming. É projetado para baixa latência, inclui detecção de atividade de voz para decidir quando há fala de fato e pode fazer diarização de quem fala ao vivo, de modo que as legendas são rotuladas conforme transmitem. Você o executa por conta própria, normalmente como um servidor ao qual navegadores ou clientes se conectam por websocket. Para uma pessoa engenheira que quer uma stack de legendagem ao vivo auto-hospedada, é um ponto de partida sólido.
ufal/whisper_streaming é uma implementação de pesquisa de streaming de Whisper em tempo real. Sua ideia central é uma política de acordo local: ela executa o Whisper repetidamente sobre um buffer de áudio crescente e só confirma palavras quando execuções sucessivas concordam sobre elas, o que mantém a latência baixa evitando reescrever constantemente o texto exibido. É uma referência limpa e respeitada de como o streaming de Whisper pode funcionar e, como o WhisperLiveKit, é algo que você executa e mantém.
Ambos os projetos merecem respeito. São exatamente o tipo de código aberto que faz o campo avançar e, se você tiver o tempo e o hardware, recompensam o esforço.
Por que a transcrição ao vivo é difícil de auto-hospedar
A transcrição em lote é tolerante. A transcrição ao vivo não é, e a dificuldade se acumula.
O ajuste de latência é a primeira parede. Você troca constantemente velocidade por precisão: buffers mais curtos parecem responsivos mas cometem mais erros, buffers mais longos leem melhor mas atrasam em relação a quem fala. Acertar esse equilíbrio para o seu áudio e o seu hardware exige experimentação de verdade.
As GPUs são a segunda. Executar o Whisper rápido o suficiente para uso ao vivo geralmente significa uma GPU e um servidor que você mantém ligado em vez de subir sob demanda. Isso é um custo fixo e uma carga operacional, incluindo drivers, carregamento do modelo e gerenciamento de memória.
A concorrência é a terceira. Um único fluxo ao vivo em uma GPU é gerenciável. Dez reuniões simultâneas, cada uma precisando de seu próprio buffer de baixa latência, é um problema de escala e agendamento. Você tem que decidir quantos fluxos uma máquina aguenta e o que acontece quando você ultrapassa.
A captura e o transporte de áudio é a quarta, e é fácil subestimá-la. Capturar áudio do microfone no navegador, codificá-lo, transmiti-lo por websocket, lidar com reconexões e perda de pacotes e sincronizar resultados parciais de volta à tela é uma quantidade significativa de código de cliente e servidor antes de qualquer transcrição acontecer.
Nada disso é motivo para evitar os projetos de código aberto. É simplesmente o trabalho que esses projetos deixam para você.
Onde o RealtimeVoiceKIT se encaixa
O RealtimeVoiceKIT é um serviço hospedado de transcrição e tradução construído sobre e com a tecnologia do OpenAI Whisper, sem nada para instalar. Não há GPU para provisionar, nem ambiente Python, nem linha de comando. A transcrição em streaming ao vivo e em tempo real roda no seu navegador; você concede acesso ao microfone e vê a transcrição aparecer, com o buffer, a detecção de atividade de voz, o ajuste de latência e a escala gerenciados do nosso lado.
É mais do que legendas ao vivo. Você obtém diarização de quem fala, carimbos de tempo no nível da palavra, pontuações de confiança por segmento e exportação para SRT e VTT. Você também pode traduzir transcrições para mais de 100 idiomas com IA, gerar resumos com IA e importar áudio por upload, URL ou do Drive, Dropbox e OneDrive, com tudo pesquisável depois. Além do aplicativo web há uma API REST para desenvolvedores com chaves rtvk_ e webhooks, mais um servidor MCP que funciona com Claude Code, Claude Desktop e outros agentes de IA.
Os preços começam grátis e permanecem simples. O plano Free dá a você 10 minutos por mês, para sempre. Os planos pagos começam em $9.99/mês, e a API para desenvolvedores é paga por minuto, com 10 minutos grátis e depois $0.005 por minuto. Para a maioria dos usuários finais é a forma mais fácil e barata de obter transcrições ao vivo sem possuir infraestrutura. Você pode ver o detalhamento completo na página de preços em realtimevoicekit.com.
Compensações honestas
Um serviço gerenciado não é a resposta certa para todos. Se você precisa que a transcrição rode totalmente on-prem, funcione offline sem internet ou mantenha o áudio dentro da sua própria rede por motivos de conformidade, auto-hospedar o WhisperLiveKit ou o whisper_streaming se encaixa melhor, e o controle vale o custo operacional. Se você quer propriedade total do modelo e da stack, execute-os você mesmo.
Mas se o seu recurso mais escasso é tempo de engenharia, e você quer transcrição ao vivo confiável hoje sem gerenciar GPUs ou websockets, um serviço gerenciado remove o problema inteiro. Essa é a escolha à sua frente: possuir a infraestrutura ou pulá-la.
Se pulá-la parecer certo, você pode experimentar a transcrição em tempo real grátis no RealtimeVoiceKIT, 10 minutos por mês sem cartão de crédito, e julgá-la pelo seu próprio áudio em realtimevoicekit.com.
The RealtimeVoiceKIT team escreve sobre áudio, IA e os fluxos de trabalho que transformam gravações em alcance para a equipe da RealtimeVoiceKIT.