如何為線上影片自動產生 AI 即時字幕?DualPiP + Deepgram 完整設定教學
如何為沒有字幕的線上影片自動產生 AI 字幕?
很多線上影片沒有字幕,或者只有平台自動產生的低品質字幕——斷句混亂、標點缺失、辨識頻繁出錯。DualPiP 1.7.0 新增 ASR(自動語音辨識)即時字幕功能,能為任何網頁影片自動產生高精度 AI 字幕,支援在子母畫面視窗中完整顯示,並與學習模式、AI 翻譯完全整合。
DualPiP 的 ASR 透過擷取瀏覽器中的影片音訊串流,傳送到語音辨識服務(如 Deepgram)進行即時轉錄,產生帶時間戳記的字幕直接疊加在影片上方。如果影片已有原生字幕但品質不佳,你也可以用 DualPiP 的字幕搜尋功能從 OpenSubtitles 等平台下載高品質字幕;如果影片完全沒有字幕來源,ASR 即時字幕就是最佳選擇。
DualPiP ASR 和 Chrome 內建即時字幕有什麼差別?
Chrome 瀏覽器內建即時字幕(Live Caption)功能,在設定 → 無障礙功能中可以開啟。但 Chrome 內建即時字幕在影片學習場景下存在明顯限制,尤其是子母畫面模式下字幕會消失。
| 比較項目 | Chrome 內建即時字幕 | DualPiP ASR 即時字幕 |
|---|---|---|
| 子母畫面支援 | PiP 時字幕消失 | PiP 視窗內完整顯示 |
| 辨識精度 | 一般,長句斷句差 | Deepgram nova-3 模型,自動標點和斷句 |
| 雙語翻譯 | 需另外開啟翻譯 | 與 DualPiP 12 種翻譯引擎整合,推薦 AI 大型語言模型翻譯 |
| 學習模式 | 不支援 | 字幕清單面板、AB 循環複讀 |
| 字幕樣式 | 固定 | 字型大小、顏色、位置、背景等完全自訂 |
| 字幕位置 | 瀏覽器底部氣泡,遮擋頁面 | 影片內疊加,跟隨播放視窗 |
| 語言支援 | 約 20 種語言 | 22 種語言 + 多語言自動偵測 |
| 辨識模式 | 僅即時串流 | 即時 WebSocket 串流 + 預先下載批次 |
DualPiP ASR 支援哪些語音辨識服務?
DualPiP ASR 採用 BYOK(Bring Your Own Key)架構,請求從瀏覽器直接傳送到服務商,不經過任何中間伺服器。
雲端 ASR:Deepgram
Deepgram 使用 nova-3 模型進行語音辨識,是目前業界最精確的即時語音辨識模型之一:
- 即時 WebSocket 串流:延遲低於 300ms
- 智慧標點和斷句:自動加入標點符號,句子邊界辨識準確
- 22 種語言支援:包括中文、英語、日語、韓語、法語、德語等
- 多語言自動偵測:Deepgram 獨有的 multi 模式
- 費用極低:$0.007/分鐘(nova-3),一部 2 小時電影約 $0.84
本機 ASR:Whisper
DualPiP 同時支援本機部署的 OpenAI 相容 Whisper 伺服器,音訊完全在本機處理:
| 本機方案 | 說明 |
|---|---|
| Speaches | GPU 加速高效能 Whisper API 伺服器 |
| whisper.cpp | 輕量級 C++ 實作,CPU 也能執行 |
| hwdsl2/whisper-server | Docker 一鍵部署 |
| OpenAI 相容服務 | 支援 /v1/audio/transcriptions 端點即可 |
如何免費取得 Deepgram $200 額度和 API Key?
不需要信用卡。 Deepgram 為新註冊使用者提供 $200 免費額度,註冊全程無需綁定任何付款方式。按 nova-3 模型 $0.007/分鐘計算,$200 額度足夠轉錄約 476 小時音訊。
註冊 Deepgram 並取得 API Key 的完整步驟
- 前往 deepgram.com,點擊 Sign Up Free
- 使用 Google 帳號或電子郵件完成註冊(無需信用卡資訊)
- 登入後進入 Console 控制台,系統會為你建立預設專案
- 在左側導覽找到 Settings → API Keys
- 點擊 Create a New API Key
- 輸入名稱(如 "DualPiP"),權限選擇 Member,點擊 Create Key
- 立即複製並妥善保存 API Key——頁面關閉後將無法再次檢視
| 資訊 | 詳情 |
|---|---|
| 免費額度 | $200(註冊即送) |
| 是否需要信用卡 | 否 |
| 額度有效期 | 無到期時間 |
| 額度用完後 | 按量付費(Pay As You Go) |
| nova-3 價格 | $0.007/分鐘 |
| $200 可用時長 | 約 476 小時(≈ 238 部電影) |
如何在 DualPiP 中設定 ASR 即時字幕?
步驟一:新增 ASR Provider
- 開啟 DualPiP 擴充功能的設定頁面
- 進入 ASR Settings 分頁
- 點擊 Add Provider
- 從預設範本中選擇 Deepgram(雲端)或 Custom Local Backend(本機)
- 填入 Deepgram API Key 或本機 Whisper 伺服器位址
- 選擇預設辨識語言(推薦 Multilingual 多語言自動偵測)
- 點擊儲存
步驟二:在子母畫面視窗開啟即時字幕
- 在任何影片網站開啟 DualPiP 子母畫面模式(快捷鍵
Ctrl+Shift+E) - 點擊控制列中的 ASR 按鈕(麥克風圖示)
- 開啟 Live Caption 開關
- 即時字幕立即開始顯示
快捷鍵 Shift+A 可在子母畫面視窗中快速切換 ASR。
ASR 即時串流和預先下載模式有什麼差別?
| 比較 | 即時串流模式 | 預先下載批次模式 |
|---|---|---|
| 延遲 | < 300ms | 下載完成後零延遲 |
| 適合場景 | 直播、即時內容 | 已發布影片、需要完整字幕 |
| 支援後端 | Deepgram(WebSocket) | Deepgram + 本機 Whisper |
| 字幕完整性 | 即時產生,偶有遺漏 | 完整涵蓋所有音訊 |
DualPiP 預設使用 Auto 自動模式:優先嘗試 WebSocket 即時串流,不支援時自動回退到預先下載模式。
如何用 ASR 字幕搭配學習模式進行語言學習?
DualPiP ASR 產生的字幕帶有完整時間戳記,完全相容學習模式:
- 字幕清單面板:ASR 辨識的每句字幕按時間順序排列在右側學習面板
- AB 循環複讀:選取 ASR 字幕進行反覆播放,精聽訓練
- 自動暫停:每句字幕播放完自動暫停,方便跟讀
- 雙語對照:ASR 字幕可搭配 AI 翻譯產生雙語字幕
ASR 字幕和傳統字幕在 DualPiP 中是互斥關係:開啟 ASR 時自動關閉傳統字幕,反之亦然。如果影片有高品質原生字幕,建議優先使用傳統字幕或透過字幕搜尋下載字幕檔案,ASR 更適合沒有字幕或字幕品質差的影片。
如何用 ASR 字幕搭配 AI 翻譯產生即時雙語字幕?
DualPiP 的 ASR 和 AI 翻譯可搭配使用,為任何語言的影片即時產生雙語字幕。這解決了傳統字幕無法涵蓋的場景:影片沒有原生字幕,但你需要看雙語字幕學外語。
ASR + AI 翻譯的工作流程
- ASR 即時辨識原文:Deepgram 將影片音訊轉錄為原語言文字字幕
- AI 大型語言模型即時翻譯:DualPiP 的 AI 翻譯引擎將 ASR 產生的字幕翻譯為目標語言
- 雙語字幕同時顯示:原文和譯文以雙語字幕的形式疊加在影片上方
為什麼 ASR 字幕翻譯強烈推薦使用 AI 大型語言模型?
ASR 產生的字幕是即時語音轉錄,可能存在斷句不完整、口語化表達多等問題。AI 大型語言模型翻譯在翻譯 ASR 字幕時顯著優於傳統機器翻譯:
| 比較項目 | 傳統機器翻譯 | AI 大型語言模型翻譯 |
|---|---|---|
| 上下文理解 | 逐句翻譯,無前後文 | DualPiP 傳送最近 N 條字幕作為對話歷史 |
| 口語化處理 | 直譯口語,生硬不通順 | 理解口語語境,翻譯自然流暢 |
| 斷句補全 | ASR 斷句不完整時翻譯錯亂 | 結合上下文補全語義 |
| 專有名詞 | 頻繁翻錯人名、術語 | 結合 DualPiP 影片資訊增強辨識 |
適合的使用場景
| 場景 | 說明 |
|---|---|
| 看無字幕外語影片學語言 | ASR 辨識原文 + AI 翻譯為母語,雙語對照學習 |
| 看直播或即時內容 | 直播沒有預製字幕,ASR 即時產生 + AI 即時翻譯 |
| 學術講座和線上課程 | 部分課程無字幕,ASR + AI 產生翻譯 |
| Podcast 和訪談節目 | 純音訊內容透過 ASR 視覺化為文字,再翻譯 |
DualPiP 支援 30+ AI 翻譯服務商。ASR 字幕推薦使用 DeepSeek V4 Flash(性價比最高)或 Groq Llama(免費額度,回應最快)。
哪些影片網站可以用 DualPiP ASR 自動產生字幕?
DualPiP ASR 基於瀏覽器的 Audio Capture API 擷取音訊,理論上可為 Chrome 中播放的任何影片自動產生字幕:
| 平台類型 | 支援的網站 |
|---|---|
| 影片平台 | YouTube、Netflix、Disney+、Bilibili、Crunchyroll、HiAnime |
| 學習平台 | Coursera、Udemy、TED、edX、Khan Academy |
| 直播平台 | Twitch、YouTube Live |
| 會議工具 | Zoom(網頁版)、Google Meet |
常見問題
Q:ASR 即時語音辨識的準確率如何? Deepgram nova-3 模型在英語上的詞錯誤率(WER)低於 8%。中文、日語等語言的辨識準確率同樣出色。
Q:Deepgram $200 免費額度用完後怎麼辦? 自動轉為按量付費。nova-3 $0.007/分鐘。也可切換到本機 Whisper 後端,完全免費。
Q:ASR 字幕和傳統字幕可以同時顯示嗎? 不可以。DualPiP 設計為兩者互斥——開啟 ASR 時自動關閉傳統字幕,反之亦然。如果影片有高品質原生字幕,建議優先使用傳統字幕。
Q:ASR 是免費功能還是 Premium 功能? ASR 即時字幕是 Premium 功能。YouTube 網頁內雙語字幕和基礎子母畫面播放器免費使用。
Q:本機 Whisper 後端需要什麼硬體配置?
建議 NVIDIA GPU(6GB 以上 VRAM)以獲得流暢的即時辨識體驗。CPU 也可執行但辨識速度較慢。使用 Docker 部署 hwdsl2/whisper-server 是最簡單的方式。
Q:能辨識影片中的多種語言混合嗎? Deepgram 的 Multilingual 模式支援在同一段音訊中自動偵測和切換語言,適合多語言混合的訪談和教學內容。
立即體驗 DualPiP ASR 即時字幕
- 安裝 DualPiP:Chrome Web Store | Edge Add-ons
- 註冊 Deepgram 取得免費 $200 額度:deepgram.com(無需信用卡)
- 在 DualPiP 設定中新增 Deepgram Provider 並填入 API Key
- 開啟任何影片的子母畫面視窗,點擊 ASR 按鈕開啟即時字幕