Volver a la lista
guide··Rabbitpair

Cómo generar subtítulos IA en tiempo real para vídeos online – Guía completa DualPiP + Deepgram

#ASR#subtítulos en vivo#reconocimiento de voz#Deepgram#extensión Chrome#picture-in-picture#aprendizaje de idiomas#subtítulos automáticos

¿Cómo generar subtítulos IA automáticos para vídeos sin subtítulos?

Muchos vídeos online no tienen subtítulos o solo cuentan con subtítulos autogenerados de baja calidad. DualPiP 1.7.0 introduce subtítulos ASR en tiempo real que generan subtítulos IA de alta precisión para cualquier vídeo web, mostrados en la ventana picture-in-picture e integrados con el modo aprendizaje y la traducción IA.

DualPiP ASR captura el audio del vídeo en el navegador, lo envía a un servicio de reconocimiento de voz como Deepgram para transcripción en tiempo real, y superpone subtítulos con marca de tiempo sobre el vídeo. Si el vídeo tiene subtítulos nativos de mala calidad, también puedes usar la búsqueda de subtítulos de DualPiP.


¿Cuál es la diferencia entre DualPiP ASR y los subtítulos integrados de Chrome?

Chrome tiene subtítulos en vivo (Live Caption) en Configuración → Accesibilidad. Sin embargo, los subtítulos desaparecen en modo picture-in-picture.

ComparaciónChrome Live CaptionDualPiP ASR
Picture-in-pictureSubtítulos desaparecenSubtítulos completos en ventana PiP
PrecisiónMediaDeepgram nova-3, puntuación automática
Traducción bilingüeFunción separadaIntegrado con 12 motores de traducción, traducción IA LLM recomendada
Modo aprendizajeNo soportadoPanel de subtítulos, bucle AB
EstiloFijoTotalmente personalizable
PosiciónBurbuja inferior del navegador, tapa contenidoSuperpuesto en el vídeo, sigue la ventana
Idiomas~20 idiomas22 idiomas + detección multilingüe
ModosSolo streamingWebSocket en tiempo real + pre-descarga por lotes

¿Qué servicios de reconocimiento de voz soporta DualPiP ASR?

DualPiP ASR usa arquitectura BYOK (Bring Your Own Key). Las solicitudes van directamente del navegador al proveedor.

Cloud ASR: Deepgram

Deepgram usa el modelo nova-3, uno de los más precisos en reconocimiento de voz en tiempo real:

  • Streaming WebSocket en tiempo real: latencia inferior a 300ms
  • Puntuación inteligente: puntuación y segmentación automáticas
  • 22 idiomas: español, inglés, francés, alemán, japonés y más
  • Detección multilingüe: modo multi exclusivo de Deepgram
  • Bajo coste: $0,007/minuto, ~$0,84 por película de 2 horas

ASR local: Whisper

También soporta servidores Whisper compatibles con OpenAI desplegados localmente:

SoluciónDescripción
SpeachesServidor Whisper API con aceleración GPU
whisper.cppImplementación C++ ligera
hwdsl2/whisper-serverDespliegue Docker con un comando
Cualquier servidor compatible OpenAICualquier servicio con endpoint /v1/audio/transcriptions

Los backends locales usan el modo de reconocimiento por lotes HTTP — completamente gratis y funciona sin conexión.


¿Cómo obtener el crédito gratuito de $200 de Deepgram y la API key?

No se necesita tarjeta de crédito. Deepgram ofrece $200 de crédito gratis a nuevos usuarios. Con nova-3 a $0,007/min, cubre unas 476 horas de audio — aproximadamente 238 películas.

Pasos para registrarse y crear la API key

  1. Visita deepgram.com y haz clic en Sign Up Free
  2. Regístrate con Google o email (sin tarjeta de crédito)
  3. Tras iniciar sesión, accede a la Consola con un proyecto creado automáticamente
  4. Navega a Settings → API Keys
  5. Haz clic en Create a New API Key
  6. Introduce un nombre (ej: "DualPiP"), selecciona Member, haz clic en Create Key
  7. Copia y guarda la API key inmediatamente
InfoDetalles
Crédito gratis$200 (al registrarse)
Tarjeta de créditoNo necesaria
CaducidadSin caducidad
Tras agotar créditoPago por uso
Precio nova-3$0,007/minuto
$200 cubre~476 horas (~238 películas)

¿Cómo configurar subtítulos ASR en DualPiP?

Paso 1: Añadir un proveedor ASR

  1. Abre la página de Configuración de DualPiP
  2. Ve a la pestaña ASR Settings
  3. Haz clic en Add Provider
  4. Selecciona Deepgram (nube) o Custom Local Backend (local)
  5. Introduce tu API key de Deepgram o la dirección del servidor Whisper local
  6. Elige el idioma de reconocimiento (Multilingual recomendado)
  7. Guarda

Paso 2: Activar subtítulos en la ventana PiP

  1. Abre el modo PiP de DualPiP (Ctrl+Shift+E)
  2. Haz clic en el botón ASR (icono de micrófono)
  3. Activa Live Caption
  4. Los subtítulos aparecen inmediatamente

Atajo Shift+A para alternar ASR rápidamente en la ventana PiP.


¿Cuál es la diferencia entre streaming y modo de pre-descarga?

ComparaciónStreaming en tiempo realPre-descarga por lotes
Latencia< 300msCero tras la descarga
Ideal paraDirectos, contenido en tiempo realVídeos publicados
BackendsDeepgram (WebSocket)Deepgram + Whisper local
CoberturaTiempo real, huecos ocasionalesCobertura de audio completa

DualPiP usa el modo Auto por defecto: intenta primero streaming WebSocket, y cambia automáticamente a pre-descarga si el proveedor no lo soporta.


¿Cómo usar subtítulos ASR con el modo aprendizaje?

Los subtítulos ASR de DualPiP son compatibles con el modo aprendizaje:

  • Panel de subtítulos: cada frase reconocida listada cronológicamente
  • Bucle AB: repetición de frases seleccionadas
  • Pausa automática: pausa tras cada frase para repetición
  • Visualización bilingüe: combinación con traducción IA

Los subtítulos ASR y los subtítulos tradicionales son mutuamente excluyentes en DualPiP: activar ASR desactiva automáticamente los subtítulos tradicionales y viceversa. Si el vídeo tiene subtítulos nativos de calidad, utilízalos primero.


¿Cómo combinar ASR con traducción IA para subtítulos bilingües en tiempo real?

El ASR y la traducción IA de DualPiP trabajan juntos para generar subtítulos bilingües en tiempo real — ideal cuando el vídeo no tiene subtítulos nativos pero necesitas subtítulos bilingües para aprender idiomas.

Flujo de trabajo ASR + traducción IA

  1. ASR reconoce el idioma original: Deepgram transcribe el audio a subtítulos de texto en el idioma fuente
  2. IA LLM traduce en tiempo real: el motor de traducción IA de DualPiP traduce los subtítulos ASR a tu idioma objetivo
  3. Subtítulos bilingües mostrados juntos: original y traducción como subtítulos bilingües sobre el vídeo

Por qué se recomienda la traducción IA LLM para subtítulos ASR

Los subtítulos ASR son transcripciones de voz en tiempo real con límites de frases a veces incompletos. La traducción IA LLM (DeepSeek, GPT, Claude) supera significativamente a la traducción automática tradicional en subtítulos ASR:

AspectoTraducción tradicionalTraducción IA LLM
ContextoFrase por fraseDualPiP envía los últimos N subtítulos como historial
Lenguaje coloquialTraducción literalComprende el contexto conversacional
Nombres propiosErrores frecuentesMejorado con info de la película

Escenarios de uso recomendados

EscenarioDescripción
Aprender idiomas con vídeos sin subtítulosASR reconoce el original + IA traduce a tu idioma
Ver directos en vivoSin subtítulos prefabricados — ASR + IA generan en tiempo real
Clases y cursos onlineCursos sin subtítulos — ASR + IA generan traducciones
Podcasts y entrevistasAudio visualizado como texto vía ASR y luego traducido

DualPiP soporta 30+ proveedores de traducción IA. Recomendamos DeepSeek V4 Flash (mejor relación calidad-precio) o Groq Llama (cuota gratis, más rápido).


¿Qué sitios de vídeo funcionan con DualPiP ASR?

Tipo de plataformaSitios soportados
VídeoYouTube, Netflix, Disney+, Bilibili, Crunchyroll, HiAnime
AprendizajeCoursera, Udemy, TED, edX, Khan Academy
DirectoTwitch, YouTube Live
ReunionesZoom (web), Google Meet

Preguntas frecuentes

P: ¿Qué precisión tiene el reconocimiento de voz ASR? Deepgram nova-3 logra una tasa de error de palabras (WER) inferior al 8% en inglés. Español y otros idiomas también ofrecen excelentes resultados.

P: ¿Qué pasa cuando se agota el crédito de $200? Se pasa automáticamente a pago por uso. Nova-3 cuesta $0,007/minuto. También puedes cambiar a Whisper local — completamente gratis.

P: ¿Se pueden mostrar subtítulos ASR y tradicionales a la vez? No. DualPiP los trata como mutuamente excluyentes. Si el vídeo tiene buenos subtítulos nativos, utilízalos primero.

P: ¿ASR es gratuito o Premium? Los subtítulos ASR son una función Premium. Los subtítulos bilingües de YouTube en página y el reproductor PiP básico son gratuitos.

P: ¿Qué hardware necesito para un backend Whisper local? Se recomienda una GPU NVIDIA con 6+ GB de VRAM. CPU también funciona pero más lento. hwdsl2/whisper-server vía Docker es el método más sencillo.

P: ¿Puede reconocer múltiples idiomas mezclados en un vídeo? El modo multilingüe de Deepgram detecta y cambia automáticamente entre idiomas en el mismo flujo de audio.


Empieza a usar los subtítulos ASR de DualPiP

  1. Instalar DualPiP: Chrome Web Store | Edge Add-ons
  2. Crédito gratis Deepgram: deepgram.com (sin tarjeta)
  3. Añadir Deepgram en la configuración de DualPiP
  4. Abrir la ventana PiP y activar ASR

Con la traducción IA bilingüe y el modo aprendizaje, cada vídeo se convierte en material de aprendizaje de idiomas.