Come generare sottotitoli IA in tempo reale per video online – Guida completa DualPiP + Deepgram
Come generare sottotitoli IA automatici per video senza sottotitoli?
Molti video online non hanno sottotitoli o hanno solo sottotitoli autogenerati di bassa qualità. DualPiP 1.7.0 introduce sottotitoli ASR in tempo reale che generano sottotitoli IA ad alta precisione per qualsiasi video web, visualizzati nella finestra picture-in-picture e integrati con la modalità apprendimento e la traduzione IA.
DualPiP ASR cattura l'audio del video nel browser, lo invia a un servizio di riconoscimento vocale come Deepgram per la trascrizione in tempo reale e sovrappone sottotitoli con marca temporale sul video.
Qual è la differenza tra DualPiP ASR e i sottotitoli integrati di Chrome?
Chrome ha sottotitoli dal vivo (Live Caption) in Impostazioni → Accessibilità. Tuttavia, i sottotitoli scompaiono in modalità picture-in-picture.
| Confronto | Chrome Live Caption | DualPiP ASR |
|---|---|---|
| Picture-in-picture | Sottotitoli scompaiono | Sottotitoli completi nella finestra PiP |
| Precisione | Media | Deepgram nova-3, punteggiatura automatica |
| Traduzione bilingue | Funzione separata | Integrato con 12 motori di traduzione, traduzione IA LLM consigliata |
| Modalità apprendimento | Non supportata | Pannello sottotitoli, loop AB |
| Stile | Fisso | Completamente personalizzabile |
| Posizione | Bolla in basso nel browser, copre il contenuto | Sovrapposto al video, segue la finestra |
| Lingue | ~20 lingue | 22 lingue + rilevamento multilingue |
| Modalità | Solo streaming | WebSocket in tempo reale + pre-download batch |
Quali servizi di riconoscimento vocale supporta DualPiP ASR?
DualPiP ASR usa un'architettura BYOK (Bring Your Own Key). Le richieste vanno direttamente dal browser al fornitore.
Cloud ASR: Deepgram
Deepgram usa il modello nova-3, uno dei più precisi nel riconoscimento vocale in tempo reale:
- Streaming WebSocket in tempo reale: latenza inferiore a 300ms
- Punteggiatura intelligente: punteggiatura e segmentazione automatiche
- 22 lingue: italiano, inglese, francese, tedesco, spagnolo e altro
- Rilevamento multilingue: modalità multi esclusiva di Deepgram
- Basso costo: $0,007/minuto, ~$0,84 per un film di 2 ore
ASR locale: Whisper
Supporta anche server Whisper compatibili OpenAI distribuiti localmente:
| Soluzione | Descrizione |
|---|---|
| Speaches | Server Whisper API con accelerazione GPU |
| whisper.cpp | Implementazione C++ leggera |
| hwdsl2/whisper-server | Distribuzione Docker con un comando |
| Qualsiasi server compatibile OpenAI | Qualsiasi servizio con endpoint /v1/audio/transcriptions |
I backend locali usano la modalità di riconoscimento batch HTTP — completamente gratuito e funziona offline.
Come ottenere il credito gratuito di $200 di Deepgram e l'API key?
Nessuna carta di credito necessaria. Deepgram offre $200 di credito gratuito ai nuovi utenti. Con nova-3 a $0,007/min, copre circa 476 ore di audio.
Passi per la registrazione e creazione dell'API key
- Visita deepgram.com e clicca su Sign Up Free
- Registrati con Google o email (senza carta di credito)
- Dopo il login, accedi alla Console con un progetto creato automaticamente
- Vai su Settings → API Keys
- Clicca su Create a New API Key
- Inserisci un nome (es: "DualPiP"), seleziona Member, clicca Create Key
- Copia e salva l'API key immediatamente — non può essere visualizzata nuovamente
| Info | Dettagli |
|---|---|
| Credito gratuito | $200 (alla registrazione) |
| Carta di credito | Non necessaria |
| Scadenza | Nessuna |
| Dopo l'esaurimento | Pagamento a consumo (Pay As You Go) |
| Prezzo nova-3 | $0,007/minuto |
| $200 copre | ~476 ore (~238 film) |
Come configurare i sottotitoli ASR in DualPiP?
Passo 1: Aggiungere un fornitore ASR
- Apri la pagina Impostazioni di DualPiP
- Vai alla scheda ASR Settings
- Clicca Add Provider
- Seleziona Deepgram (cloud) o Custom Local Backend (locale)
- Inserisci la API key Deepgram o l'indirizzo del server Whisper locale
- Scegli la lingua di riconoscimento (Multilingual consigliato)
- Salva
Passo 2: Attivare i sottotitoli nella finestra PiP
- Apri la modalità PiP di DualPiP (
Ctrl+Shift+E) - Clicca sul pulsante ASR (icona microfono)
- Attiva Live Caption
- I sottotitoli appaiono immediatamente
Scorciatoia Shift+A per attivare/disattivare ASR nella finestra PiP.
Qual è la differenza tra modalità streaming e pre-download?
| Confronto | Streaming in tempo reale | Pre-download batch |
|---|---|---|
| Latenza | < 300ms | Zero dopo il download |
| Ideale per | Live, contenuti in tempo reale | Video pubblicati |
| Backend | Deepgram (WebSocket) | Deepgram + Whisper locale |
| Copertura | Tempo reale, occasionali lacune | Copertura audio completa |
DualPiP usa la modalità Auto di default: prova prima il WebSocket streaming, se non supportato passa al pre-download batch.
Come usare i sottotitoli ASR con la modalità apprendimento?
I sottotitoli ASR di DualPiP hanno timestamp e sono compatibili con la modalità apprendimento:
- Pannello sottotitoli: ogni frase riconosciuta elencata in ordine cronologico
- Loop AB: ripetizione di frasi selezionate per pratica d'ascolto
- Pausa automatica: pausa dopo ogni frase per imitazione
- Visualizzazione bilingue: combinazione con traduzione IA
I sottotitoli ASR e quelli tradizionali sono mutuamente esclusivi in DualPiP: attivare ASR disattiva automaticamente i sottotitoli tradizionali e viceversa.
Come combinare ASR con traduzione IA per sottotitoli bilingui?
L'ASR e la traduzione IA di DualPiP lavorano insieme — ideale quando il video non ha sottotitoli nativi ma servono sottotitoli bilingui per l'apprendimento linguistico.
Workflow ASR + traduzione IA
- ASR riconosce la lingua originale: Deepgram trascrive l'audio in sottotitoli nella lingua sorgente
- IA LLM traduce in tempo reale: il motore di traduzione IA di DualPiP traduce i sottotitoli ASR nella lingua di destinazione
- Sottotitoli bilingui visualizzati insieme: originale e traduzione come sottotitoli bilingui sul video
Perché la traduzione IA LLM è fortemente consigliata per i sottotitoli ASR
La traduzione IA LLM (DeepSeek, GPT, Claude) è fortemente consigliata per i sottotitoli ASR — i modelli IA comprendono il contesto conversazionale e producono traduzioni naturali anche con segmentazione imperfetta.
| Aspetto | Traduzione tradizionale | Traduzione IA LLM |
|---|---|---|
| Contesto | Frase per frase | DualPiP invia gli ultimi N sottotitoli come storico |
| Linguaggio colloquiale | Traduzione letterale | Comprende il contesto conversazionale |
| Nomi propri | Errori frequenti | Migliorato con info del film |
Scenari di utilizzo consigliati
| Scenario | Descrizione |
|---|---|
| Imparare lingue con video senza sottotitoli | ASR riconosce l'originale + IA traduce nella tua lingua |
| Guardare live streaming | Nessun sottotitolo prefabbricato — ASR + IA in tempo reale |
| Lezioni e corsi online | Corsi senza sottotitoli — ASR + IA generano traduzioni |
| Podcast e interviste | Audio visualizzato come testo via ASR e poi tradotto |
DualPiP supporta 30+ fornitori di traduzione IA. Consigliamo DeepSeek V4 Flash (miglior rapporto qualità-prezzo) o Groq Llama (quota gratuita, risposta più veloce).
Quali siti video funzionano con DualPiP ASR?
| Tipo piattaforma | Siti supportati |
|---|---|
| Video | YouTube, Netflix, Disney+, Bilibili, Crunchyroll, HiAnime |
| Apprendimento | Coursera, Udemy, TED, edX, Khan Academy |
| Live | Twitch, YouTube Live |
| Riunioni | Zoom (web), Google Meet |
Domande frequenti
D: Quanto è preciso il riconoscimento vocale ASR? Deepgram nova-3 raggiunge un tasso di errore parole (WER) inferiore all'8% in inglese. Italiano e altre lingue offrono risultati eccellenti.
D: Cosa succede dopo aver esaurito il credito di $200? Passa automaticamente al pagamento a consumo. Nova-3 costa $0,007/minuto. Si può anche passare a Whisper locale — completamente gratuito.
D: I sottotitoli ASR e quelli tradizionali possono essere mostrati contemporaneamente? No. DualPiP li tratta come mutuamente esclusivi.
D: ASR è gratuito o Premium? I sottotitoli ASR sono funzione Premium. I sottotitoli bilingui YouTube e il player PiP base sono gratuiti.
D: Quale hardware serve per un backend Whisper locale?
GPU NVIDIA con 6+ GB VRAM consigliata. CPU funziona ma è più lento. hwdsl2/whisper-server via Docker è il metodo più semplice.
D: Può riconoscere più lingue miste in un video? La modalità multilingue di Deepgram rileva e cambia automaticamente tra le lingue nello stesso flusso audio.
Inizia a usare i sottotitoli ASR DualPiP
- Installa DualPiP: Chrome Web Store | Edge Add-ons
- Credito gratuito Deepgram: deepgram.com (senza carta)
- Aggiungi Deepgram nelle impostazioni DualPiP
- Apri finestra PiP e attiva ASR
Con traduzione IA bilingue e modalità apprendimento, ogni video diventa materiale di apprendimento linguistico.