Torna alla lista
guide··Rabbitpair

Come generare sottotitoli IA in tempo reale per video online – Guida completa DualPiP + Deepgram

#ASR#sottotitoli dal vivo#riconoscimento vocale#Deepgram#estensione Chrome#picture-in-picture#apprendimento lingue#sottotitoli automatici

Come generare sottotitoli IA automatici per video senza sottotitoli?

Molti video online non hanno sottotitoli o hanno solo sottotitoli autogenerati di bassa qualità. DualPiP 1.7.0 introduce sottotitoli ASR in tempo reale che generano sottotitoli IA ad alta precisione per qualsiasi video web, visualizzati nella finestra picture-in-picture e integrati con la modalità apprendimento e la traduzione IA.

DualPiP ASR cattura l'audio del video nel browser, lo invia a un servizio di riconoscimento vocale come Deepgram per la trascrizione in tempo reale e sovrappone sottotitoli con marca temporale sul video.


Qual è la differenza tra DualPiP ASR e i sottotitoli integrati di Chrome?

Chrome ha sottotitoli dal vivo (Live Caption) in Impostazioni → Accessibilità. Tuttavia, i sottotitoli scompaiono in modalità picture-in-picture.

ConfrontoChrome Live CaptionDualPiP ASR
Picture-in-pictureSottotitoli scompaionoSottotitoli completi nella finestra PiP
PrecisioneMediaDeepgram nova-3, punteggiatura automatica
Traduzione bilingueFunzione separataIntegrato con 12 motori di traduzione, traduzione IA LLM consigliata
Modalità apprendimentoNon supportataPannello sottotitoli, loop AB
StileFissoCompletamente personalizzabile
PosizioneBolla in basso nel browser, copre il contenutoSovrapposto al video, segue la finestra
Lingue~20 lingue22 lingue + rilevamento multilingue
ModalitàSolo streamingWebSocket in tempo reale + pre-download batch

Quali servizi di riconoscimento vocale supporta DualPiP ASR?

DualPiP ASR usa un'architettura BYOK (Bring Your Own Key). Le richieste vanno direttamente dal browser al fornitore.

Cloud ASR: Deepgram

Deepgram usa il modello nova-3, uno dei più precisi nel riconoscimento vocale in tempo reale:

  • Streaming WebSocket in tempo reale: latenza inferiore a 300ms
  • Punteggiatura intelligente: punteggiatura e segmentazione automatiche
  • 22 lingue: italiano, inglese, francese, tedesco, spagnolo e altro
  • Rilevamento multilingue: modalità multi esclusiva di Deepgram
  • Basso costo: $0,007/minuto, ~$0,84 per un film di 2 ore

ASR locale: Whisper

Supporta anche server Whisper compatibili OpenAI distribuiti localmente:

SoluzioneDescrizione
SpeachesServer Whisper API con accelerazione GPU
whisper.cppImplementazione C++ leggera
hwdsl2/whisper-serverDistribuzione Docker con un comando
Qualsiasi server compatibile OpenAIQualsiasi servizio con endpoint /v1/audio/transcriptions

I backend locali usano la modalità di riconoscimento batch HTTP — completamente gratuito e funziona offline.


Come ottenere il credito gratuito di $200 di Deepgram e l'API key?

Nessuna carta di credito necessaria. Deepgram offre $200 di credito gratuito ai nuovi utenti. Con nova-3 a $0,007/min, copre circa 476 ore di audio.

Passi per la registrazione e creazione dell'API key

  1. Visita deepgram.com e clicca su Sign Up Free
  2. Registrati con Google o email (senza carta di credito)
  3. Dopo il login, accedi alla Console con un progetto creato automaticamente
  4. Vai su Settings → API Keys
  5. Clicca su Create a New API Key
  6. Inserisci un nome (es: "DualPiP"), seleziona Member, clicca Create Key
  7. Copia e salva l'API key immediatamente — non può essere visualizzata nuovamente
InfoDettagli
Credito gratuito$200 (alla registrazione)
Carta di creditoNon necessaria
ScadenzaNessuna
Dopo l'esaurimentoPagamento a consumo (Pay As You Go)
Prezzo nova-3$0,007/minuto
$200 copre~476 ore (~238 film)

Come configurare i sottotitoli ASR in DualPiP?

Passo 1: Aggiungere un fornitore ASR

  1. Apri la pagina Impostazioni di DualPiP
  2. Vai alla scheda ASR Settings
  3. Clicca Add Provider
  4. Seleziona Deepgram (cloud) o Custom Local Backend (locale)
  5. Inserisci la API key Deepgram o l'indirizzo del server Whisper locale
  6. Scegli la lingua di riconoscimento (Multilingual consigliato)
  7. Salva

Passo 2: Attivare i sottotitoli nella finestra PiP

  1. Apri la modalità PiP di DualPiP (Ctrl+Shift+E)
  2. Clicca sul pulsante ASR (icona microfono)
  3. Attiva Live Caption
  4. I sottotitoli appaiono immediatamente

Scorciatoia Shift+A per attivare/disattivare ASR nella finestra PiP.


Qual è la differenza tra modalità streaming e pre-download?

ConfrontoStreaming in tempo realePre-download batch
Latenza< 300msZero dopo il download
Ideale perLive, contenuti in tempo realeVideo pubblicati
BackendDeepgram (WebSocket)Deepgram + Whisper locale
CoperturaTempo reale, occasionali lacuneCopertura audio completa

DualPiP usa la modalità Auto di default: prova prima il WebSocket streaming, se non supportato passa al pre-download batch.


Come usare i sottotitoli ASR con la modalità apprendimento?

I sottotitoli ASR di DualPiP hanno timestamp e sono compatibili con la modalità apprendimento:

  • Pannello sottotitoli: ogni frase riconosciuta elencata in ordine cronologico
  • Loop AB: ripetizione di frasi selezionate per pratica d'ascolto
  • Pausa automatica: pausa dopo ogni frase per imitazione
  • Visualizzazione bilingue: combinazione con traduzione IA

I sottotitoli ASR e quelli tradizionali sono mutuamente esclusivi in DualPiP: attivare ASR disattiva automaticamente i sottotitoli tradizionali e viceversa.


Come combinare ASR con traduzione IA per sottotitoli bilingui?

L'ASR e la traduzione IA di DualPiP lavorano insieme — ideale quando il video non ha sottotitoli nativi ma servono sottotitoli bilingui per l'apprendimento linguistico.

Workflow ASR + traduzione IA

  1. ASR riconosce la lingua originale: Deepgram trascrive l'audio in sottotitoli nella lingua sorgente
  2. IA LLM traduce in tempo reale: il motore di traduzione IA di DualPiP traduce i sottotitoli ASR nella lingua di destinazione
  3. Sottotitoli bilingui visualizzati insieme: originale e traduzione come sottotitoli bilingui sul video

Perché la traduzione IA LLM è fortemente consigliata per i sottotitoli ASR

La traduzione IA LLM (DeepSeek, GPT, Claude) è fortemente consigliata per i sottotitoli ASR — i modelli IA comprendono il contesto conversazionale e producono traduzioni naturali anche con segmentazione imperfetta.

AspettoTraduzione tradizionaleTraduzione IA LLM
ContestoFrase per fraseDualPiP invia gli ultimi N sottotitoli come storico
Linguaggio colloquialeTraduzione letteraleComprende il contesto conversazionale
Nomi propriErrori frequentiMigliorato con info del film

Scenari di utilizzo consigliati

ScenarioDescrizione
Imparare lingue con video senza sottotitoliASR riconosce l'originale + IA traduce nella tua lingua
Guardare live streamingNessun sottotitolo prefabbricato — ASR + IA in tempo reale
Lezioni e corsi onlineCorsi senza sottotitoli — ASR + IA generano traduzioni
Podcast e intervisteAudio visualizzato come testo via ASR e poi tradotto

DualPiP supporta 30+ fornitori di traduzione IA. Consigliamo DeepSeek V4 Flash (miglior rapporto qualità-prezzo) o Groq Llama (quota gratuita, risposta più veloce).


Quali siti video funzionano con DualPiP ASR?

Tipo piattaformaSiti supportati
VideoYouTube, Netflix, Disney+, Bilibili, Crunchyroll, HiAnime
ApprendimentoCoursera, Udemy, TED, edX, Khan Academy
LiveTwitch, YouTube Live
RiunioniZoom (web), Google Meet

Domande frequenti

D: Quanto è preciso il riconoscimento vocale ASR? Deepgram nova-3 raggiunge un tasso di errore parole (WER) inferiore all'8% in inglese. Italiano e altre lingue offrono risultati eccellenti.

D: Cosa succede dopo aver esaurito il credito di $200? Passa automaticamente al pagamento a consumo. Nova-3 costa $0,007/minuto. Si può anche passare a Whisper locale — completamente gratuito.

D: I sottotitoli ASR e quelli tradizionali possono essere mostrati contemporaneamente? No. DualPiP li tratta come mutuamente esclusivi.

D: ASR è gratuito o Premium? I sottotitoli ASR sono funzione Premium. I sottotitoli bilingui YouTube e il player PiP base sono gratuiti.

D: Quale hardware serve per un backend Whisper locale? GPU NVIDIA con 6+ GB VRAM consigliata. CPU funziona ma è più lento. hwdsl2/whisper-server via Docker è il metodo più semplice.

D: Può riconoscere più lingue miste in un video? La modalità multilingue di Deepgram rileva e cambia automaticamente tra le lingue nello stesso flusso audio.


Inizia a usare i sottotitoli ASR DualPiP

  1. Installa DualPiP: Chrome Web Store | Edge Add-ons
  2. Credito gratuito Deepgram: deepgram.com (senza carta)
  3. Aggiungi Deepgram nelle impostazioni DualPiP
  4. Apri finestra PiP e attiva ASR

Con traduzione IA bilingue e modalità apprendimento, ogni video diventa materiale di apprendimento linguistico.