Como gerar legendas IA em tempo real para vídeos online – Guia completo DualPiP + Deepgram
Como gerar legendas IA automáticas para vídeos sem legendas?
Muitos vídeos online não têm legendas ou apenas possuem legendas autogeradas de baixa qualidade. DualPiP 1.7.0 introduz legendas ASR em tempo real que geram legendas IA de alta precisão para qualquer vídeo web, exibidas na janela picture-in-picture e integradas com o modo aprendizado e a tradução IA.
DualPiP ASR captura o áudio do vídeo no navegador, envia para um serviço de reconhecimento de voz como Deepgram para transcrição em tempo real, e sobrepõe legendas com marca temporal no vídeo. Se o vídeo tem legendas nativas de má qualidade, você também pode usar a busca de legendas do DualPiP.
Qual a diferença entre DualPiP ASR e as legendas integradas do Chrome?
O Chrome tem legendas ao vivo (Live Caption) em Configurações → Acessibilidade. Porém, as legendas desaparecem no modo picture-in-picture.
| Comparação | Chrome Live Caption | DualPiP ASR |
|---|---|---|
| Picture-in-picture | Legendas desaparecem | Legendas completas na janela PiP |
| Precisão | Média | Deepgram nova-3, pontuação automática |
| Tradução bilíngue | Função separada | Integrado com 12 motores de tradução, tradução IA LLM recomendada |
| Modo aprendizado | Não suportado | Painel de legendas, loop AB |
| Estilo | Fixo | Totalmente personalizável |
| Posição | Balão inferior do navegador, cobre conteúdo | Sobreposto no vídeo, acompanha a janela |
| Idiomas | ~20 idiomas | 22 idiomas + detecção multilíngue |
| Modos | Apenas streaming | WebSocket em tempo real + pré-download em lote |
Quais serviços de reconhecimento de voz o DualPiP ASR suporta?
DualPiP ASR usa arquitetura BYOK (Bring Your Own Key). Solicitações vão diretamente do navegador ao provedor.
Cloud ASR: Deepgram
Deepgram usa o modelo nova-3, um dos mais precisos em reconhecimento de voz em tempo real:
- Streaming WebSocket em tempo real: latência inferior a 300ms
- Pontuação inteligente: pontuação e segmentação automáticas
- 22 idiomas: português, inglês, espanhol, francês, alemão e mais
- Detecção multilíngue: modo multi exclusivo do Deepgram
- Baixo custo: $0,007/minuto, ~$0,84 por filme de 2 horas
ASR local: Whisper
Também suporta servidores Whisper compatíveis com OpenAI implantados localmente:
| Solução | Descrição |
|---|---|
| Speaches | Servidor Whisper API com aceleração GPU |
| whisper.cpp | Implementação C++ leve |
| hwdsl2/whisper-server | Implantação Docker com um comando |
| Qualquer servidor compatível OpenAI | Qualquer serviço com endpoint /v1/audio/transcriptions |
Os backends locais usam o modo de reconhecimento em lote HTTP — totalmente grátis e funciona offline.
Como obter o crédito grátis de $200 do Deepgram e a API key?
Não é necessário cartão de crédito. Deepgram oferece $200 de crédito grátis para novos usuários. Com nova-3 a $0,007/min, cobre aproximadamente 476 horas de áudio.
Passos para registro e criação da API key
- Acesse deepgram.com e clique em Sign Up Free
- Registre-se com Google ou email (sem cartão de crédito)
- Após login, acesse o Console com projeto criado automaticamente
- Navegue até Settings → API Keys
- Clique em Create a New API Key
- Digite um nome (ex: "DualPiP"), selecione Member, clique Create Key
- Copie e salve a API key imediatamente
| Info | Detalhes |
|---|---|
| Crédito grátis | $200 (no registro) |
| Cartão de crédito | Não necessário |
| Validade | Sem expiração |
| Após esgotar | Pague conforme usar |
| Preço nova-3 | $0,007/minuto |
| $200 cobre | ~476 horas (~238 filmes) |
Como configurar legendas ASR no DualPiP?
Passo 1: Adicionar provedor ASR
- Abra a página de Configurações do DualPiP
- Vá para a aba ASR Settings
- Clique em Add Provider
- Selecione Deepgram (nuvem) ou Custom Local Backend (local)
- Insira sua API key Deepgram ou endereço do servidor Whisper local
- Escolha o idioma de reconhecimento (Multilingual recomendado)
- Salve
Passo 2: Ativar legendas na janela PiP
- Abra o modo PiP do DualPiP (
Ctrl+Shift+E) - Clique no botão ASR (ícone de microfone)
- Ative Live Caption
- As legendas aparecem imediatamente
Atalho Shift+A para alternar ASR na janela PiP.
Qual a diferença entre streaming e modo pré-download?
| Comparação | Streaming em tempo real | Pré-download em lote |
|---|---|---|
| Latência | < 300ms | Zero após download |
| Ideal para | Lives, conteúdo em tempo real | Vídeos publicados |
| Backends | Deepgram (WebSocket) | Deepgram + Whisper local |
| Cobertura | Tempo real, falhas ocasionais | Cobertura completa do áudio |
DualPiP usa o modo Auto por padrão: tenta primeiro streaming WebSocket, e muda automaticamente para pré-download se o provedor não suportar.
Como usar legendas ASR com modo aprendizado para estudar idiomas?
As legendas ASR do DualPiP têm timestamps e são compatíveis com todas as funções do modo aprendizado:
- Painel de legendas: cada frase reconhecida listada cronologicamente, clique para navegar
- Loop AB: repetição de frases selecionadas para prática auditiva
- Pausa automática: pausa após cada frase para imitação
- Exibição bilíngue: combinação com tradução IA para legendas original + tradução
Legendas ASR e legendas tradicionais são mutuamente exclusivas no DualPiP: ativar ASR desativa automaticamente legendas tradicionais e vice-versa. Se o vídeo tem legendas nativas de qualidade, use-as primeiro.
Como combinar ASR com tradução IA para legendas bilíngues em tempo real?
O ASR e a tradução IA do DualPiP trabalham juntos — ideal quando o vídeo não tem legendas nativas mas você precisa de legendas bilíngues para estudar idiomas.
Fluxo de trabalho ASR + tradução IA
- ASR reconhece o idioma original: Deepgram transcreve o áudio em legendas texto no idioma fonte
- IA LLM traduz em tempo real: o motor de tradução IA do DualPiP traduz as legendas ASR para seu idioma alvo
- Legendas bilíngues exibidas juntas: original e tradução como legendas bilíngues sobre o vídeo
Por que a tradução IA LLM é fortemente recomendada para legendas ASR
A tradução IA LLM (DeepSeek, GPT, Claude) é fortemente recomendada para legendas ASR — ao contrário da tradução automática tradicional, os modelos de IA entendem o contexto conversacional e produzem traduções naturais mesmo quando as legendas ASR têm segmentação imperfeita.
| Aspecto | Tradução tradicional | Tradução IA LLM |
|---|---|---|
| Contexto | Frase por frase | DualPiP envia últimas N legendas como histórico |
| Linguagem coloquial | Tradução literal | Compreende contexto conversacional |
| Nomes próprios | Erros frequentes | Melhorado com info do filme |
Cenários de uso recomendados
| Cenário | Descrição |
|---|---|
| Aprender idiomas com vídeos sem legendas | ASR reconhece original + IA traduz para seu idioma |
| Assistir lives | Sem legendas pré-fabricadas — ASR + IA em tempo real |
| Aulas e cursos online | Cursos sem legendas — ASR + IA geram tradução |
| Podcasts e entrevistas | Áudio visualizado como texto via ASR e traduzido |
DualPiP suporta 30+ provedores de tradução IA. Recomendamos DeepSeek V4 Flash (melhor custo-benefício) ou Groq Llama (cota grátis, resposta mais rápida).
Quais sites de vídeo funcionam com DualPiP ASR?
| Tipo de plataforma | Sites suportados |
|---|---|
| Vídeo | YouTube, Netflix, Disney+, Bilibili, Crunchyroll, HiAnime |
| Aprendizado | Coursera, Udemy, TED, edX, Khan Academy |
| Ao vivo | Twitch, YouTube Live |
| Reuniões | Zoom (web), Google Meet |
Perguntas frequentes
P: Qual a precisão do reconhecimento de voz ASR? Deepgram nova-3 alcança taxa de erro de palavras (WER) inferior a 8% em inglês. Português e outros idiomas também apresentam excelentes resultados.
P: O que acontece após esgotar o crédito de $200? Muda automaticamente para pagamento por uso. Nova-3 custa $0,007/minuto. Também pode mudar para Whisper local — totalmente grátis.
P: Legendas ASR e tradicionais podem ser exibidas ao mesmo tempo? Não. DualPiP as trata como mutuamente exclusivas. Se o vídeo tem boas legendas nativas, use-as primeiro.
P: ASR é gratuito ou Premium? Legendas ASR são função Premium. Legendas bilíngues do YouTube e o player PiP básico são gratuitos.
P: Qual hardware é necessário para um backend Whisper local?
Recomenda-se GPU NVIDIA com 6+ GB de VRAM. CPU também funciona, mas é mais lento. hwdsl2/whisper-server via Docker é o método mais simples.
P: Pode reconhecer múltiplos idiomas misturados em um vídeo? O modo multilíngue do Deepgram detecta e alterna automaticamente entre idiomas no mesmo fluxo de áudio.
Comece a usar as legendas ASR do DualPiP
- Instalar DualPiP: Chrome Web Store | Edge Add-ons
- Crédito grátis Deepgram: deepgram.com (sem cartão)
- Adicionar Deepgram nas configurações do DualPiP
- Abrir janela PiP e ativar ASR
Com tradução IA bilíngue e modo aprendizado, cada vídeo se torna material de aprendizado de idiomas.