返回文章列表
guide··Rabbitpair

如何為線上影片自動產生 AI 即時字幕?DualPiP + Deepgram 完整設定教學

#ASR#即時字幕#語音辨識#Deepgram#Chrome擴充#子母畫面#語言學習#自動字幕

如何為沒有字幕的線上影片自動產生 AI 字幕?

很多線上影片沒有字幕,或者只有平台自動產生的低品質字幕——斷句混亂、標點缺失、辨識頻繁出錯。DualPiP 1.7.0 新增 ASR(自動語音辨識)即時字幕功能,能為任何網頁影片自動產生高精度 AI 字幕,支援在子母畫面視窗中完整顯示,並與學習模式AI 翻譯完全整合。

DualPiP 的 ASR 透過擷取瀏覽器中的影片音訊串流,傳送到語音辨識服務(如 Deepgram)進行即時轉錄,產生帶時間戳記的字幕直接疊加在影片上方。如果影片已有原生字幕但品質不佳,你也可以用 DualPiP 的字幕搜尋功能從 OpenSubtitles 等平台下載高品質字幕;如果影片完全沒有字幕來源,ASR 即時字幕就是最佳選擇。


DualPiP ASR 和 Chrome 內建即時字幕有什麼差別?

Chrome 瀏覽器內建即時字幕(Live Caption)功能,在設定 → 無障礙功能中可以開啟。但 Chrome 內建即時字幕在影片學習場景下存在明顯限制,尤其是子母畫面模式下字幕會消失

比較項目Chrome 內建即時字幕DualPiP ASR 即時字幕
子母畫面支援PiP 時字幕消失PiP 視窗內完整顯示
辨識精度一般,長句斷句差Deepgram nova-3 模型,自動標點和斷句
雙語翻譯需另外開啟翻譯與 DualPiP 12 種翻譯引擎整合,推薦 AI 大型語言模型翻譯
學習模式不支援字幕清單面板、AB 循環複讀
字幕樣式固定字型大小、顏色、位置、背景等完全自訂
字幕位置瀏覽器底部氣泡,遮擋頁面影片內疊加,跟隨播放視窗
語言支援約 20 種語言22 種語言 + 多語言自動偵測
辨識模式僅即時串流即時 WebSocket 串流 + 預先下載批次

DualPiP ASR 支援哪些語音辨識服務?

DualPiP ASR 採用 BYOK(Bring Your Own Key)架構,請求從瀏覽器直接傳送到服務商,不經過任何中間伺服器。

雲端 ASR:Deepgram

Deepgram 使用 nova-3 模型進行語音辨識,是目前業界最精確的即時語音辨識模型之一:

  • 即時 WebSocket 串流:延遲低於 300ms
  • 智慧標點和斷句:自動加入標點符號,句子邊界辨識準確
  • 22 種語言支援:包括中文、英語、日語、韓語、法語、德語等
  • 多語言自動偵測:Deepgram 獨有的 multi 模式
  • 費用極低:$0.007/分鐘(nova-3),一部 2 小時電影約 $0.84

本機 ASR:Whisper

DualPiP 同時支援本機部署的 OpenAI 相容 Whisper 伺服器,音訊完全在本機處理:

本機方案說明
SpeachesGPU 加速高效能 Whisper API 伺服器
whisper.cpp輕量級 C++ 實作,CPU 也能執行
hwdsl2/whisper-serverDocker 一鍵部署
OpenAI 相容服務支援 /v1/audio/transcriptions 端點即可

如何免費取得 Deepgram $200 額度和 API Key?

不需要信用卡。 Deepgram 為新註冊使用者提供 $200 免費額度,註冊全程無需綁定任何付款方式。按 nova-3 模型 $0.007/分鐘計算,$200 額度足夠轉錄約 476 小時音訊

註冊 Deepgram 並取得 API Key 的完整步驟

  1. 前往 deepgram.com,點擊 Sign Up Free
  2. 使用 Google 帳號電子郵件完成註冊(無需信用卡資訊)
  3. 登入後進入 Console 控制台,系統會為你建立預設專案
  4. 在左側導覽找到 Settings → API Keys
  5. 點擊 Create a New API Key
  6. 輸入名稱(如 "DualPiP"),權限選擇 Member,點擊 Create Key
  7. 立即複製並妥善保存 API Key——頁面關閉後將無法再次檢視
資訊詳情
免費額度$200(註冊即送)
是否需要信用卡
額度有效期無到期時間
額度用完後按量付費(Pay As You Go)
nova-3 價格$0.007/分鐘
$200 可用時長約 476 小時(≈ 238 部電影)

如何在 DualPiP 中設定 ASR 即時字幕?

步驟一:新增 ASR Provider

  1. 開啟 DualPiP 擴充功能的設定頁面
  2. 進入 ASR Settings 分頁
  3. 點擊 Add Provider
  4. 從預設範本中選擇 Deepgram(雲端)或 Custom Local Backend(本機)
  5. 填入 Deepgram API Key 或本機 Whisper 伺服器位址
  6. 選擇預設辨識語言(推薦 Multilingual 多語言自動偵測)
  7. 點擊儲存

步驟二:在子母畫面視窗開啟即時字幕

  1. 在任何影片網站開啟 DualPiP 子母畫面模式(快捷鍵 Ctrl+Shift+E
  2. 點擊控制列中的 ASR 按鈕(麥克風圖示)
  3. 開啟 Live Caption 開關
  4. 即時字幕立即開始顯示

快捷鍵 Shift+A 可在子母畫面視窗中快速切換 ASR。


ASR 即時串流和預先下載模式有什麼差別?

比較即時串流模式預先下載批次模式
延遲< 300ms下載完成後零延遲
適合場景直播、即時內容已發布影片、需要完整字幕
支援後端Deepgram(WebSocket)Deepgram + 本機 Whisper
字幕完整性即時產生,偶有遺漏完整涵蓋所有音訊

DualPiP 預設使用 Auto 自動模式:優先嘗試 WebSocket 即時串流,不支援時自動回退到預先下載模式。


如何用 ASR 字幕搭配學習模式進行語言學習?

DualPiP ASR 產生的字幕帶有完整時間戳記,完全相容學習模式

  • 字幕清單面板:ASR 辨識的每句字幕按時間順序排列在右側學習面板
  • AB 循環複讀:選取 ASR 字幕進行反覆播放,精聽訓練
  • 自動暫停:每句字幕播放完自動暫停,方便跟讀
  • 雙語對照:ASR 字幕可搭配 AI 翻譯產生雙語字幕

ASR 字幕和傳統字幕在 DualPiP 中是互斥關係:開啟 ASR 時自動關閉傳統字幕,反之亦然。如果影片有高品質原生字幕,建議優先使用傳統字幕或透過字幕搜尋下載字幕檔案,ASR 更適合沒有字幕或字幕品質差的影片。


如何用 ASR 字幕搭配 AI 翻譯產生即時雙語字幕?

DualPiP 的 ASR 和 AI 翻譯可搭配使用,為任何語言的影片即時產生雙語字幕。這解決了傳統字幕無法涵蓋的場景:影片沒有原生字幕,但你需要看雙語字幕學外語

ASR + AI 翻譯的工作流程

  1. ASR 即時辨識原文:Deepgram 將影片音訊轉錄為原語言文字字幕
  2. AI 大型語言模型即時翻譯:DualPiP 的 AI 翻譯引擎將 ASR 產生的字幕翻譯為目標語言
  3. 雙語字幕同時顯示:原文和譯文以雙語字幕的形式疊加在影片上方

為什麼 ASR 字幕翻譯強烈推薦使用 AI 大型語言模型?

ASR 產生的字幕是即時語音轉錄,可能存在斷句不完整、口語化表達多等問題。AI 大型語言模型翻譯在翻譯 ASR 字幕時顯著優於傳統機器翻譯

比較項目傳統機器翻譯AI 大型語言模型翻譯
上下文理解逐句翻譯,無前後文DualPiP 傳送最近 N 條字幕作為對話歷史
口語化處理直譯口語,生硬不通順理解口語語境,翻譯自然流暢
斷句補全ASR 斷句不完整時翻譯錯亂結合上下文補全語義
專有名詞頻繁翻錯人名、術語結合 DualPiP 影片資訊增強辨識

適合的使用場景

場景說明
看無字幕外語影片學語言ASR 辨識原文 + AI 翻譯為母語,雙語對照學習
看直播或即時內容直播沒有預製字幕,ASR 即時產生 + AI 即時翻譯
學術講座和線上課程部分課程無字幕,ASR + AI 產生翻譯
Podcast 和訪談節目純音訊內容透過 ASR 視覺化為文字,再翻譯

DualPiP 支援 30+ AI 翻譯服務商。ASR 字幕推薦使用 DeepSeek V4 Flash(性價比最高)或 Groq Llama(免費額度,回應最快)。


哪些影片網站可以用 DualPiP ASR 自動產生字幕?

DualPiP ASR 基於瀏覽器的 Audio Capture API 擷取音訊,理論上可為 Chrome 中播放的任何影片自動產生字幕

平台類型支援的網站
影片平台YouTube、Netflix、Disney+、Bilibili、Crunchyroll、HiAnime
學習平台Coursera、Udemy、TED、edX、Khan Academy
直播平台Twitch、YouTube Live
會議工具Zoom(網頁版)、Google Meet

常見問題

Q:ASR 即時語音辨識的準確率如何? Deepgram nova-3 模型在英語上的詞錯誤率(WER)低於 8%。中文、日語等語言的辨識準確率同樣出色。

Q:Deepgram $200 免費額度用完後怎麼辦? 自動轉為按量付費。nova-3 $0.007/分鐘。也可切換到本機 Whisper 後端,完全免費。

Q:ASR 字幕和傳統字幕可以同時顯示嗎? 不可以。DualPiP 設計為兩者互斥——開啟 ASR 時自動關閉傳統字幕,反之亦然。如果影片有高品質原生字幕,建議優先使用傳統字幕。

Q:ASR 是免費功能還是 Premium 功能? ASR 即時字幕是 Premium 功能。YouTube 網頁內雙語字幕和基礎子母畫面播放器免費使用。

Q:本機 Whisper 後端需要什麼硬體配置? 建議 NVIDIA GPU(6GB 以上 VRAM)以獲得流暢的即時辨識體驗。CPU 也可執行但辨識速度較慢。使用 Docker 部署 hwdsl2/whisper-server 是最簡單的方式。

Q:能辨識影片中的多種語言混合嗎? Deepgram 的 Multilingual 模式支援在同一段音訊中自動偵測和切換語言,適合多語言混合的訪談和教學內容。


立即體驗 DualPiP ASR 即時字幕

  1. 安裝 DualPiP:Chrome Web Store | Edge Add-ons
  2. 註冊 Deepgram 取得免費 $200 額度:deepgram.com(無需信用卡)
  3. 在 DualPiP 設定中新增 Deepgram Provider 並填入 API Key
  4. 開啟任何影片的子母畫面視窗,點擊 ASR 按鈕開啟即時字幕

搭配 AI 雙語翻譯學習模式,讓每一段影片都成為語言學習素材。