Voltar para a lista
guide··Rabbitpair

Como gerar legendas IA em tempo real para vídeos online – Guia completo DualPiP + Deepgram

#ASR#legendas ao vivo#reconhecimento de voz#Deepgram#extensão Chrome#picture-in-picture#aprendizado de idiomas#legendas automáticas

Como gerar legendas IA automáticas para vídeos sem legendas?

Muitos vídeos online não têm legendas ou apenas possuem legendas autogeradas de baixa qualidade. DualPiP 1.7.0 introduz legendas ASR em tempo real que geram legendas IA de alta precisão para qualquer vídeo web, exibidas na janela picture-in-picture e integradas com o modo aprendizado e a tradução IA.

DualPiP ASR captura o áudio do vídeo no navegador, envia para um serviço de reconhecimento de voz como Deepgram para transcrição em tempo real, e sobrepõe legendas com marca temporal no vídeo. Se o vídeo tem legendas nativas de má qualidade, você também pode usar a busca de legendas do DualPiP.


Qual a diferença entre DualPiP ASR e as legendas integradas do Chrome?

O Chrome tem legendas ao vivo (Live Caption) em Configurações → Acessibilidade. Porém, as legendas desaparecem no modo picture-in-picture.

ComparaçãoChrome Live CaptionDualPiP ASR
Picture-in-pictureLegendas desaparecemLegendas completas na janela PiP
PrecisãoMédiaDeepgram nova-3, pontuação automática
Tradução bilíngueFunção separadaIntegrado com 12 motores de tradução, tradução IA LLM recomendada
Modo aprendizadoNão suportadoPainel de legendas, loop AB
EstiloFixoTotalmente personalizável
PosiçãoBalão inferior do navegador, cobre conteúdoSobreposto no vídeo, acompanha a janela
Idiomas~20 idiomas22 idiomas + detecção multilíngue
ModosApenas streamingWebSocket em tempo real + pré-download em lote

Quais serviços de reconhecimento de voz o DualPiP ASR suporta?

DualPiP ASR usa arquitetura BYOK (Bring Your Own Key). Solicitações vão diretamente do navegador ao provedor.

Cloud ASR: Deepgram

Deepgram usa o modelo nova-3, um dos mais precisos em reconhecimento de voz em tempo real:

  • Streaming WebSocket em tempo real: latência inferior a 300ms
  • Pontuação inteligente: pontuação e segmentação automáticas
  • 22 idiomas: português, inglês, espanhol, francês, alemão e mais
  • Detecção multilíngue: modo multi exclusivo do Deepgram
  • Baixo custo: $0,007/minuto, ~$0,84 por filme de 2 horas

ASR local: Whisper

Também suporta servidores Whisper compatíveis com OpenAI implantados localmente:

SoluçãoDescrição
SpeachesServidor Whisper API com aceleração GPU
whisper.cppImplementação C++ leve
hwdsl2/whisper-serverImplantação Docker com um comando
Qualquer servidor compatível OpenAIQualquer serviço com endpoint /v1/audio/transcriptions

Os backends locais usam o modo de reconhecimento em lote HTTP — totalmente grátis e funciona offline.


Como obter o crédito grátis de $200 do Deepgram e a API key?

Não é necessário cartão de crédito. Deepgram oferece $200 de crédito grátis para novos usuários. Com nova-3 a $0,007/min, cobre aproximadamente 476 horas de áudio.

Passos para registro e criação da API key

  1. Acesse deepgram.com e clique em Sign Up Free
  2. Registre-se com Google ou email (sem cartão de crédito)
  3. Após login, acesse o Console com projeto criado automaticamente
  4. Navegue até Settings → API Keys
  5. Clique em Create a New API Key
  6. Digite um nome (ex: "DualPiP"), selecione Member, clique Create Key
  7. Copie e salve a API key imediatamente
InfoDetalhes
Crédito grátis$200 (no registro)
Cartão de créditoNão necessário
ValidadeSem expiração
Após esgotarPague conforme usar
Preço nova-3$0,007/minuto
$200 cobre~476 horas (~238 filmes)

Como configurar legendas ASR no DualPiP?

Passo 1: Adicionar provedor ASR

  1. Abra a página de Configurações do DualPiP
  2. Vá para a aba ASR Settings
  3. Clique em Add Provider
  4. Selecione Deepgram (nuvem) ou Custom Local Backend (local)
  5. Insira sua API key Deepgram ou endereço do servidor Whisper local
  6. Escolha o idioma de reconhecimento (Multilingual recomendado)
  7. Salve

Passo 2: Ativar legendas na janela PiP

  1. Abra o modo PiP do DualPiP (Ctrl+Shift+E)
  2. Clique no botão ASR (ícone de microfone)
  3. Ative Live Caption
  4. As legendas aparecem imediatamente

Atalho Shift+A para alternar ASR na janela PiP.


Qual a diferença entre streaming e modo pré-download?

ComparaçãoStreaming em tempo realPré-download em lote
Latência< 300msZero após download
Ideal paraLives, conteúdo em tempo realVídeos publicados
BackendsDeepgram (WebSocket)Deepgram + Whisper local
CoberturaTempo real, falhas ocasionaisCobertura completa do áudio

DualPiP usa o modo Auto por padrão: tenta primeiro streaming WebSocket, e muda automaticamente para pré-download se o provedor não suportar.


Como usar legendas ASR com modo aprendizado para estudar idiomas?

As legendas ASR do DualPiP têm timestamps e são compatíveis com todas as funções do modo aprendizado:

  • Painel de legendas: cada frase reconhecida listada cronologicamente, clique para navegar
  • Loop AB: repetição de frases selecionadas para prática auditiva
  • Pausa automática: pausa após cada frase para imitação
  • Exibição bilíngue: combinação com tradução IA para legendas original + tradução

Legendas ASR e legendas tradicionais são mutuamente exclusivas no DualPiP: ativar ASR desativa automaticamente legendas tradicionais e vice-versa. Se o vídeo tem legendas nativas de qualidade, use-as primeiro.


Como combinar ASR com tradução IA para legendas bilíngues em tempo real?

O ASR e a tradução IA do DualPiP trabalham juntos — ideal quando o vídeo não tem legendas nativas mas você precisa de legendas bilíngues para estudar idiomas.

Fluxo de trabalho ASR + tradução IA

  1. ASR reconhece o idioma original: Deepgram transcreve o áudio em legendas texto no idioma fonte
  2. IA LLM traduz em tempo real: o motor de tradução IA do DualPiP traduz as legendas ASR para seu idioma alvo
  3. Legendas bilíngues exibidas juntas: original e tradução como legendas bilíngues sobre o vídeo

Por que a tradução IA LLM é fortemente recomendada para legendas ASR

A tradução IA LLM (DeepSeek, GPT, Claude) é fortemente recomendada para legendas ASR — ao contrário da tradução automática tradicional, os modelos de IA entendem o contexto conversacional e produzem traduções naturais mesmo quando as legendas ASR têm segmentação imperfeita.

AspectoTradução tradicionalTradução IA LLM
ContextoFrase por fraseDualPiP envia últimas N legendas como histórico
Linguagem coloquialTradução literalCompreende contexto conversacional
Nomes própriosErros frequentesMelhorado com info do filme

Cenários de uso recomendados

CenárioDescrição
Aprender idiomas com vídeos sem legendasASR reconhece original + IA traduz para seu idioma
Assistir livesSem legendas pré-fabricadas — ASR + IA em tempo real
Aulas e cursos onlineCursos sem legendas — ASR + IA geram tradução
Podcasts e entrevistasÁudio visualizado como texto via ASR e traduzido

DualPiP suporta 30+ provedores de tradução IA. Recomendamos DeepSeek V4 Flash (melhor custo-benefício) ou Groq Llama (cota grátis, resposta mais rápida).


Quais sites de vídeo funcionam com DualPiP ASR?

Tipo de plataformaSites suportados
VídeoYouTube, Netflix, Disney+, Bilibili, Crunchyroll, HiAnime
AprendizadoCoursera, Udemy, TED, edX, Khan Academy
Ao vivoTwitch, YouTube Live
ReuniõesZoom (web), Google Meet

Perguntas frequentes

P: Qual a precisão do reconhecimento de voz ASR? Deepgram nova-3 alcança taxa de erro de palavras (WER) inferior a 8% em inglês. Português e outros idiomas também apresentam excelentes resultados.

P: O que acontece após esgotar o crédito de $200? Muda automaticamente para pagamento por uso. Nova-3 custa $0,007/minuto. Também pode mudar para Whisper local — totalmente grátis.

P: Legendas ASR e tradicionais podem ser exibidas ao mesmo tempo? Não. DualPiP as trata como mutuamente exclusivas. Se o vídeo tem boas legendas nativas, use-as primeiro.

P: ASR é gratuito ou Premium? Legendas ASR são função Premium. Legendas bilíngues do YouTube e o player PiP básico são gratuitos.

P: Qual hardware é necessário para um backend Whisper local? Recomenda-se GPU NVIDIA com 6+ GB de VRAM. CPU também funciona, mas é mais lento. hwdsl2/whisper-server via Docker é o método mais simples.

P: Pode reconhecer múltiplos idiomas misturados em um vídeo? O modo multilíngue do Deepgram detecta e alterna automaticamente entre idiomas no mesmo fluxo de áudio.


Comece a usar as legendas ASR do DualPiP

  1. Instalar DualPiP: Chrome Web Store | Edge Add-ons
  2. Crédito grátis Deepgram: deepgram.com (sem cartão)
  3. Adicionar Deepgram nas configurações do DualPiP
  4. Abrir janela PiP e ativar ASR

Com tradução IA bilíngue e modo aprendizado, cada vídeo se torna material de aprendizado de idiomas.