如何为在线视频自动生成 AI 实时字幕?DualPiP + Deepgram 完整配置教程
如何为没有字幕的在线视频自动生成 AI 字幕?
很多在线视频没有字幕,或者只有平台自动生成的低质量字幕——断句混乱、标点缺失、识别频繁出错。DualPiP 1.7.0 新增 ASR(自动语音识别)实时字幕功能,能为任意网页视频自动生成高精度 AI 字幕,支持在画中画窗口中完整显示,并与学习模式、AI 翻译完全集成。
DualPiP 的 ASR 通过捕获浏览器中的视频音频流,发送到语音识别服务(如 Deepgram)进行实时转录,生成带时间戳的字幕直接叠加在视频上方。如果视频已有原生字幕但质量不佳,你也可以用 DualPiP 的字幕搜索功能从 OpenSubtitles 等平台下载高质量字幕;如果视频完全没有字幕来源,ASR 实时字幕就是最佳选择。
DualPiP ASR 和 Chrome 内置实时字幕有什么区别?
Chrome 浏览器自带实时字幕(Live Caption)功能,在设置 → 无障碍功能中可以开启。但 Chrome 内置实时字幕在视频学习场景下存在明显局限,尤其是画中画模式下字幕会消失——这对于需要一边工作一边看视频的用户来说是个硬伤。
| 对比维度 | Chrome 内置实时字幕 | DualPiP ASR 实时字幕 |
|---|---|---|
| 画中画支持 | 字幕不随视频进入画中画 | 画中画窗口内完整显示,字幕不消失 |
| 识别精度 | 一般,长句断句差 | Deepgram nova-3 模型,自动标点和断句 |
| 双语翻译 | 需单独开启翻译,体验割裂 | 与 DualPiP 12 种翻译引擎集成,推荐 AI 大模型翻译 |
| 学习模式 | 不支持 | 字幕列表面板、AB 循环复读 |
| 字幕样式 | 固定样式 | 字号、颜色、位置、背景等完全自定义 |
| 字幕位置 | 浏览器底部气泡,遮挡页面 | 视频内叠加,跟随播放窗口 |
| 语言支持 | 约 20 种语言 | 22 种语言 + 多语言自动检测 |
| 识别模式 | 仅实时流 | 实时 WebSocket 流 + 预下载批量识别 |
DualPiP ASR 最大的差异在于画中画场景下的完整字幕体验。当你将视频弹出为悬浮窗口后,Chrome 内置字幕会消失,而 DualPiP 的 ASR 字幕始终跟随画中画窗口显示,适合一边写文档一边看视频学外语。
DualPiP ASR 支持哪些语音识别服务?
DualPiP ASR 采用 BYOK(Bring Your Own Key)架构,用户自己配置语音识别服务,请求从浏览器直接发送到服务商,不经过任何中间服务器。目前支持两类语音识别后端:
云端 ASR:Deepgram
Deepgram 是目前 DualPiP 预置支持的云端 ASR 服务商,使用 nova-3 模型进行语音识别。nova-3 是当前业界最准确的实时语音识别模型之一,其优势包括:
- 实时 WebSocket 流:延迟低于 300ms,字幕几乎同步出现
- 智能标点和断句:自动添加标点符号,句子边界识别准确
- 22 种语言支持:包括中文、英语、日语、韩语、法语、德语、西班牙语等
- 多语言自动检测:Deepgram 独有的 multi 模式,无需手动选语言,自动识别切换
- 费用极低:$0.007/分钟(nova-3),一部 2 小时电影约 $0.84
与沉浸式翻译等扩展的内置 ASR(每月限额约 50 个视频)不同,DualPiP 的 BYOK 模式没有视频数量限制,按实际用量计费,API 账单清晰可查。关于 DualPiP 和其他双语字幕扩展的完整对比,参见 2026 最好的 Chrome 双语字幕扩展推荐。
本地 ASR 后端:Whisper
DualPiP 同时支持本地部署的 OpenAI 兼容 Whisper 服务器,音频完全在本机处理,适合对隐私有要求或网络受限的用户:
| 本地方案 | 说明 |
|---|---|
| Speaches | 高性能 Whisper API 服务器,GPU 加速 |
| whisper.cpp | 轻量级 C++ 实现,CPU 也能运行 |
| hwdsl2/whisper-server | Docker 一键部署的 Whisper 服务 |
| 任何 OpenAI 兼容服务 | 支持 /v1/audio/transcriptions 端点即可 |
本地后端使用 HTTP 批量识别模式,DualPiP 按设定时长(默认 5 秒)分段发送音频进行识别,完全免费且无需联网。
如何免费获取 Deepgram $200 额度和 API Key?
不需要信用卡。 Deepgram 为新注册用户提供 $200 免费额度,注册全程无需绑定任何支付方式。按 nova-3 模型 $0.007/分钟计算,$200 额度足够转录约 476 小时音频——相当于看 238 部 2 小时电影,绝大多数个人用户几年内都用不完。
注册 Deepgram 并获取 API Key 的完整步骤
- 访问 deepgram.com,点击页面上的 Sign Up Free
- 使用 Google 账号或邮箱完成注册(无需填写信用卡信息)
- 登录后自动进入 Console 控制台,系统会为你创建一个默认项目
- 在左侧导航找到 Settings → API Keys
- 点击 Create a New API Key
- 输入一个名称(如 "DualPiP"),权限选择 Member,点击 Create Key
- 立即复制并妥善保存 API Key——页面关闭后将无法再次查看
| 信息 | 详情 |
|---|---|
| 免费额度 | $200(注册即送) |
| 是否需要信用卡 | 否 |
| 额度有效期 | 无过期时间 |
| 额度用完后 | 按量付费(Pay As You Go) |
| nova-3 价格 | $0.007/分钟 |
| $200 可用时长 | 约 476 小时(≈ 238 部电影) |
如何在 DualPiP 中配置 ASR 实时字幕?
配置分为两步:在扩展设置中添加 ASR Provider,然后在画中画窗口中开启实时字幕。
第一步:添加 ASR Provider
- 打开 DualPiP 扩展的设置页面(点击扩展图标 → 设置齿轮图标)
- 进入 ASR Settings 标签页
- 点击 Add Provider 按钮
- 从预置模板中选择 Deepgram(云端)或 Custom Local Backend(本地)
- 填入 Deepgram API Key(参照上一节获取),或填写本地 Whisper 服务地址
- 选择默认识别语言(推荐 Multilingual 多语言自动检测)和模型
- 点击保存
第二步:在画中画窗口开启实时字幕
- 在任意视频网站打开 DualPiP 画中画模式(快捷键
Ctrl+Shift+E) - 在画中画窗口的控制栏中点击 ASR 按钮(麦克风图标)
- 打开 Live Caption 开关
- 实时字幕立即开始显示在视频上方
你还可以使用快捷键 Shift+A 在画中画窗口中一键开关 ASR,或在 Chrome 扩展快捷键设置(chrome://extensions/shortcuts)中为 "Toggle Live Captions" 配置全局快捷键,无需打开画中画菜单即可控制。
ASR 实时流和预下载批量模式有什么区别?
DualPiP ASR 提供两种音频捕获和识别模式,适应不同的观看场景:
实时流模式(WebSocket Streaming)
音频通过 WebSocket 实时发送到 Deepgram 服务器,字幕延迟低于 300ms,几乎和说话同步。Deepgram 的 Interim Results 功能还会在最终结果出来前提供临时识别结果,让字幕出现得更快。适合直播、视频会议、实时内容等需要即时反馈的场景。
预下载批量模式(Pre-download + HTTP Batch)
DualPiP 先将视频音频预下载并按时间段分割,然后通过 HTTP 请求批量发送到 ASR 服务进行离线识别。适合已发布的视频内容——可以在观看前提前生成完整字幕,播放时完全无延迟。预下载模式同时支持 Deepgram 云端和本地 Whisper 后端。
| 对比 | 实时流模式 | 预下载批量模式 |
|---|---|---|
| 延迟 | < 300ms | 预下载完成后零延迟 |
| 适合场景 | 直播、实时内容、会议 | 已发布的视频、需要完整字幕 |
| 支持后端 | Deepgram(WebSocket) | Deepgram + 本地 Whisper |
| 字幕完整性 | 实时生成,偶有遗漏 | 完整覆盖全部音频内容 |
DualPiP 默认使用 Auto 自动模式:优先尝试 WebSocket 实时流,如果当前 Provider 不支持则自动回退到预下载批量模式。
如何用 ASR 字幕配合学习模式进行语言学习?
DualPiP ASR 生成的字幕带有完整时间戳,完全兼容学习模式的所有功能,让没有字幕的视频也能成为语言学习素材:
- 字幕列表面板:ASR 识别出的每句字幕按时间顺序排列在右侧学习面板中,点击可跳转
- AB 循环复读:选中某句 ASR 字幕进行反复播放,精听训练
- 自动暂停:每句字幕播放完自动暂停,方便跟读模仿
- 双语对照:ASR 字幕可配合 AI 翻译引擎生成双语字幕,原文+译文同时显示
这意味着即使视频完全没有原生字幕,你也可以通过 ASR 生成字幕后进入学习模式,获得和有字幕视频完全一致的分句学习体验。
ASR 字幕和传统字幕在 DualPiP 中是互斥关系:开启 ASR 自动关闭传统字幕,选择传统字幕自动停止 ASR。如果视频有高质量原生字幕,建议优先使用传统字幕或通过字幕搜索下载字幕文件,ASR 更适合没有字幕或字幕质量差的视频。
如何用 ASR 字幕配合 AI 翻译生成实时双语字幕?
DualPiP 的 ASR 和 AI 翻译可以配合使用,为任何语言的在线视频实时生成双语字幕。这解决了一个传统字幕无法覆盖的场景:视频没有原生字幕,但你需要看双语字幕学外语。
ASR + AI 翻译的工作流程
- ASR 实时识别原文:Deepgram 将视频音频转录为原语言文字字幕
- AI 大模型实时翻译:DualPiP 的 AI 翻译引擎将 ASR 生成的字幕翻译为目标语言
- 双语字幕同时显示:原文和译文以双语字幕的形式叠加在视频上方
为什么 ASR 字幕翻译强烈推荐使用 AI 大模型?
ASR 生成的字幕与传统字幕文件不同——ASR 字幕是实时识别的语音转录,可能存在断句不完整、口语化表达多、专有名词无上下文等问题。AI 大模型翻译(DeepSeek、GPT、Claude 等)在翻译 ASR 字幕时显著优于传统机翻(Google、Microsoft),原因在于:
| 对比维度 | 传统机翻(Google/Microsoft) | AI 大模型翻译(DeepSeek/GPT/Claude) |
|---|---|---|
| 上下文理解 | 逐句翻译,无前后文信息 | DualPiP 发送最近 N 条字幕作为上下文历史 |
| 口语化处理 | 直译口语,生硬不通顺 | 理解口语语境,翻译自然流畅 |
| 断句补全 | ASR 断句不完整时翻译错乱 | 能结合上下文补全语义,正确翻译 |
| 专有名词 | 频繁翻错人名、术语 | 结合 DualPiP 的影片信息增强识别 |
| 语气还原 | 机械直译 | 保留说话者语气和表达风格 |
DualPiP 的 AI 翻译引擎使用滑动窗口上下文机制:每次翻译 ASR 字幕时,会将前面已翻译的字幕作为对话历史一起发送给 AI,让翻译结果前后一致、上下文连贯。这在 ASR 场景下尤其重要——因为语音识别的断句和传统字幕不同,AI 需要结合前文才能正确理解当前句子的含义。
适合的使用场景
| 场景 | 说明 |
|---|---|
| 看无字幕外语视频学语言 | ASR 识别原文 + AI 翻译为母语,双语对照学习 |
| 看直播或实时内容 | 直播没有预制字幕,ASR 实时生成 + AI 实时翻译 |
| 学术讲座和在线课程 | 部分课程无字幕或仅有英文字幕,ASR + AI 生成中文翻译 |
| 播客和访谈节目 | 纯音频内容通过 ASR 可视化为文字,再翻译为目标语言 |
DualPiP 支持 30+ AI 翻译服务商(DeepSeek、GPT、Claude、Gemini 等),用户可以根据翻译质量和费用自由选择。推荐使用 DeepSeek V4 Flash(性价比最高,翻译一部电影约 ¥0.2-0.5)或 Groq Llama(免费额度,响应速度最快)配合 ASR 字幕使用。详细的 AI 翻译配置教程参见 DualPiP AI 字幕翻译完整教程。
哪些视频网站可以用 DualPiP ASR 自动生成字幕?
DualPiP ASR 基于浏览器的 Audio Capture API 捕获音频,理论上可以为任何在 Chrome 中播放的视频自动生成字幕。以下是已验证的主要平台:
| 平台类型 | 支持的网站 |
|---|---|
| 视频平台 | YouTube、Netflix、Disney+、Bilibili(B 站)、Crunchyroll、HiAnime |
| 学习平台 | Coursera、Udemy、TED、edX、Khan Academy |
| 直播平台 | Twitch、YouTube Live |
| 会议工具 | Zoom(网页版)、Google Meet |
| 其他 | 任何使用 HTML5 <video> 标签的网站 |
对于没有原生字幕的视频(如很多直播内容、小众平台视频、用户上传的无字幕视频),ASR 是获取字幕的唯一途径。配合 DualPiP 的 AI 大模型翻译,你可以为任何语言的在线视频生成实时双语字幕——先用 ASR 生成原文字幕,再用 DeepSeek、GPT 等 AI 引擎翻译为目标语言。由于 ASR 字幕是实时语音识别产物,强烈推荐使用 AI 大模型翻译而非传统机翻,AI 能结合上下文历史准确理解口语化表达和不完整断句。
常见问题
Q:ASR 实时语音识别的准确率怎么样? Deepgram nova-3 模型在英语上的词错误率(WER)低于 8%,是 2026 年最准确的实时语音识别模型之一。中文、日语等语言的识别准确率同样出色。识别效果受音频质量、说话人口音和背景噪音影响,纯语音内容的识别效果最佳。
Q:Deepgram $200 免费额度用完后怎么续费? 免费额度用完后自动转为按量付费(Pay As You Go),nova-3 模型 $0.007/分钟,一部 2 小时电影约 $0.84。也可以切换到本地 Whisper 后端,完全免费但需要本地 GPU 支持。
Q:ASR 字幕和传统字幕可以同时显示吗? 不可以。DualPiP 设计为两者互斥——开启 ASR 时自动关闭传统字幕,反之亦然。这避免了两种字幕同时显示造成的混乱。如果视频有高质量原生字幕或可以通过字幕搜索下载,建议优先使用传统字幕。
Q:ASR 是 DualPiP 的免费功能还是 Premium 功能? ASR 实时字幕是 Premium 功能。DualPiP 的 YouTube 网页内双语字幕和基础画中画播放器免费使用,ASR、AI 翻译、完整学习模式等高级功能需要 Premium 订阅。
Q:本地 Whisper 后端需要什么硬件配置?
推荐 NVIDIA GPU(6GB+ 显存)以获得流畅的实时识别体验。CPU 也可以运行但识别速度较慢。使用 Docker 部署 hwdsl2/whisper-server 是最简单的方式,一条命令即可启动本地 ASR 服务。
Q:能识别视频中的多种语言混合吗? Deepgram 的 Multilingual 模式支持在同一段音频中自动检测和切换语言,适合多语言混合的访谈、播客和教学内容。本地 Whisper 后端也支持语言自动检测,但切换精度低于 Deepgram。
立即体验 DualPiP ASR 实时字幕
只需四步即可为任意在线视频生成 AI 实时字幕:
- 安装 DualPiP 扩展:Chrome Web Store | Edge Add-ons
- 注册 Deepgram 获取免费 $200 额度:deepgram.com(无需信用卡)
- 在 DualPiP 设置中添加 Deepgram Provider 并填入 API Key
- 打开任意视频的画中画窗口,点击 ASR 按钮开启实时字幕
无论是没有字幕的直播、小众平台视频,还是需要更高精度字幕的外语学习内容,DualPiP ASR 都能实时生成 AI 字幕。配合 AI 双语翻译,你可以为任何语言的视频生成双语字幕;配合学习模式的 AB 循环复读和分句面板,每一段视频都能成为高效的语言学习素材。