Cómo generar subtítulos IA en tiempo real para vídeos online – Guía completa DualPiP + Deepgram
¿Cómo generar subtítulos IA automáticos para vídeos sin subtítulos?
Muchos vídeos online no tienen subtítulos o solo cuentan con subtítulos autogenerados de baja calidad. DualPiP 1.7.0 introduce subtítulos ASR en tiempo real que generan subtítulos IA de alta precisión para cualquier vídeo web, mostrados en la ventana picture-in-picture e integrados con el modo aprendizaje y la traducción IA.
DualPiP ASR captura el audio del vídeo en el navegador, lo envía a un servicio de reconocimiento de voz como Deepgram para transcripción en tiempo real, y superpone subtítulos con marca de tiempo sobre el vídeo. Si el vídeo tiene subtítulos nativos de mala calidad, también puedes usar la búsqueda de subtítulos de DualPiP.
¿Cuál es la diferencia entre DualPiP ASR y los subtítulos integrados de Chrome?
Chrome tiene subtítulos en vivo (Live Caption) en Configuración → Accesibilidad. Sin embargo, los subtítulos desaparecen en modo picture-in-picture.
| Comparación | Chrome Live Caption | DualPiP ASR |
|---|---|---|
| Picture-in-picture | Subtítulos desaparecen | Subtítulos completos en ventana PiP |
| Precisión | Media | Deepgram nova-3, puntuación automática |
| Traducción bilingüe | Función separada | Integrado con 12 motores de traducción, traducción IA LLM recomendada |
| Modo aprendizaje | No soportado | Panel de subtítulos, bucle AB |
| Estilo | Fijo | Totalmente personalizable |
| Posición | Burbuja inferior del navegador, tapa contenido | Superpuesto en el vídeo, sigue la ventana |
| Idiomas | ~20 idiomas | 22 idiomas + detección multilingüe |
| Modos | Solo streaming | WebSocket en tiempo real + pre-descarga por lotes |
¿Qué servicios de reconocimiento de voz soporta DualPiP ASR?
DualPiP ASR usa arquitectura BYOK (Bring Your Own Key). Las solicitudes van directamente del navegador al proveedor.
Cloud ASR: Deepgram
Deepgram usa el modelo nova-3, uno de los más precisos en reconocimiento de voz en tiempo real:
- Streaming WebSocket en tiempo real: latencia inferior a 300ms
- Puntuación inteligente: puntuación y segmentación automáticas
- 22 idiomas: español, inglés, francés, alemán, japonés y más
- Detección multilingüe: modo multi exclusivo de Deepgram
- Bajo coste: $0,007/minuto, ~$0,84 por película de 2 horas
ASR local: Whisper
También soporta servidores Whisper compatibles con OpenAI desplegados localmente:
| Solución | Descripción |
|---|---|
| Speaches | Servidor Whisper API con aceleración GPU |
| whisper.cpp | Implementación C++ ligera |
| hwdsl2/whisper-server | Despliegue Docker con un comando |
| Cualquier servidor compatible OpenAI | Cualquier servicio con endpoint /v1/audio/transcriptions |
Los backends locales usan el modo de reconocimiento por lotes HTTP — completamente gratis y funciona sin conexión.
¿Cómo obtener el crédito gratuito de $200 de Deepgram y la API key?
No se necesita tarjeta de crédito. Deepgram ofrece $200 de crédito gratis a nuevos usuarios. Con nova-3 a $0,007/min, cubre unas 476 horas de audio — aproximadamente 238 películas.
Pasos para registrarse y crear la API key
- Visita deepgram.com y haz clic en Sign Up Free
- Regístrate con Google o email (sin tarjeta de crédito)
- Tras iniciar sesión, accede a la Consola con un proyecto creado automáticamente
- Navega a Settings → API Keys
- Haz clic en Create a New API Key
- Introduce un nombre (ej: "DualPiP"), selecciona Member, haz clic en Create Key
- Copia y guarda la API key inmediatamente
| Info | Detalles |
|---|---|
| Crédito gratis | $200 (al registrarse) |
| Tarjeta de crédito | No necesaria |
| Caducidad | Sin caducidad |
| Tras agotar crédito | Pago por uso |
| Precio nova-3 | $0,007/minuto |
| $200 cubre | ~476 horas (~238 películas) |
¿Cómo configurar subtítulos ASR en DualPiP?
Paso 1: Añadir un proveedor ASR
- Abre la página de Configuración de DualPiP
- Ve a la pestaña ASR Settings
- Haz clic en Add Provider
- Selecciona Deepgram (nube) o Custom Local Backend (local)
- Introduce tu API key de Deepgram o la dirección del servidor Whisper local
- Elige el idioma de reconocimiento (Multilingual recomendado)
- Guarda
Paso 2: Activar subtítulos en la ventana PiP
- Abre el modo PiP de DualPiP (
Ctrl+Shift+E) - Haz clic en el botón ASR (icono de micrófono)
- Activa Live Caption
- Los subtítulos aparecen inmediatamente
Atajo Shift+A para alternar ASR rápidamente en la ventana PiP.
¿Cuál es la diferencia entre streaming y modo de pre-descarga?
| Comparación | Streaming en tiempo real | Pre-descarga por lotes |
|---|---|---|
| Latencia | < 300ms | Cero tras la descarga |
| Ideal para | Directos, contenido en tiempo real | Vídeos publicados |
| Backends | Deepgram (WebSocket) | Deepgram + Whisper local |
| Cobertura | Tiempo real, huecos ocasionales | Cobertura de audio completa |
DualPiP usa el modo Auto por defecto: intenta primero streaming WebSocket, y cambia automáticamente a pre-descarga si el proveedor no lo soporta.
¿Cómo usar subtítulos ASR con el modo aprendizaje?
Los subtítulos ASR de DualPiP son compatibles con el modo aprendizaje:
- Panel de subtítulos: cada frase reconocida listada cronológicamente
- Bucle AB: repetición de frases seleccionadas
- Pausa automática: pausa tras cada frase para repetición
- Visualización bilingüe: combinación con traducción IA
Los subtítulos ASR y los subtítulos tradicionales son mutuamente excluyentes en DualPiP: activar ASR desactiva automáticamente los subtítulos tradicionales y viceversa. Si el vídeo tiene subtítulos nativos de calidad, utilízalos primero.
¿Cómo combinar ASR con traducción IA para subtítulos bilingües en tiempo real?
El ASR y la traducción IA de DualPiP trabajan juntos para generar subtítulos bilingües en tiempo real — ideal cuando el vídeo no tiene subtítulos nativos pero necesitas subtítulos bilingües para aprender idiomas.
Flujo de trabajo ASR + traducción IA
- ASR reconoce el idioma original: Deepgram transcribe el audio a subtítulos de texto en el idioma fuente
- IA LLM traduce en tiempo real: el motor de traducción IA de DualPiP traduce los subtítulos ASR a tu idioma objetivo
- Subtítulos bilingües mostrados juntos: original y traducción como subtítulos bilingües sobre el vídeo
Por qué se recomienda la traducción IA LLM para subtítulos ASR
Los subtítulos ASR son transcripciones de voz en tiempo real con límites de frases a veces incompletos. La traducción IA LLM (DeepSeek, GPT, Claude) supera significativamente a la traducción automática tradicional en subtítulos ASR:
| Aspecto | Traducción tradicional | Traducción IA LLM |
|---|---|---|
| Contexto | Frase por frase | DualPiP envía los últimos N subtítulos como historial |
| Lenguaje coloquial | Traducción literal | Comprende el contexto conversacional |
| Nombres propios | Errores frecuentes | Mejorado con info de la película |
Escenarios de uso recomendados
| Escenario | Descripción |
|---|---|
| Aprender idiomas con vídeos sin subtítulos | ASR reconoce el original + IA traduce a tu idioma |
| Ver directos en vivo | Sin subtítulos prefabricados — ASR + IA generan en tiempo real |
| Clases y cursos online | Cursos sin subtítulos — ASR + IA generan traducciones |
| Podcasts y entrevistas | Audio visualizado como texto vía ASR y luego traducido |
DualPiP soporta 30+ proveedores de traducción IA. Recomendamos DeepSeek V4 Flash (mejor relación calidad-precio) o Groq Llama (cuota gratis, más rápido).
¿Qué sitios de vídeo funcionan con DualPiP ASR?
| Tipo de plataforma | Sitios soportados |
|---|---|
| Vídeo | YouTube, Netflix, Disney+, Bilibili, Crunchyroll, HiAnime |
| Aprendizaje | Coursera, Udemy, TED, edX, Khan Academy |
| Directo | Twitch, YouTube Live |
| Reuniones | Zoom (web), Google Meet |
Preguntas frecuentes
P: ¿Qué precisión tiene el reconocimiento de voz ASR? Deepgram nova-3 logra una tasa de error de palabras (WER) inferior al 8% en inglés. Español y otros idiomas también ofrecen excelentes resultados.
P: ¿Qué pasa cuando se agota el crédito de $200? Se pasa automáticamente a pago por uso. Nova-3 cuesta $0,007/minuto. También puedes cambiar a Whisper local — completamente gratis.
P: ¿Se pueden mostrar subtítulos ASR y tradicionales a la vez? No. DualPiP los trata como mutuamente excluyentes. Si el vídeo tiene buenos subtítulos nativos, utilízalos primero.
P: ¿ASR es gratuito o Premium? Los subtítulos ASR son una función Premium. Los subtítulos bilingües de YouTube en página y el reproductor PiP básico son gratuitos.
P: ¿Qué hardware necesito para un backend Whisper local?
Se recomienda una GPU NVIDIA con 6+ GB de VRAM. CPU también funciona pero más lento. hwdsl2/whisper-server vía Docker es el método más sencillo.
P: ¿Puede reconocer múltiples idiomas mezclados en un vídeo? El modo multilingüe de Deepgram detecta y cambia automáticamente entre idiomas en el mismo flujo de audio.
Empieza a usar los subtítulos ASR de DualPiP
- Instalar DualPiP: Chrome Web Store | Edge Add-ons
- Crédito gratis Deepgram: deepgram.com (sin tarjeta)
- Añadir Deepgram en la configuración de DualPiP
- Abrir la ventana PiP y activar ASR
Con la traducción IA bilingüe y el modo aprendizaje, cada vídeo se convierte en material de aprendizaje de idiomas.