guide·2026年5月27日·Rabbitpair

如何为在线视频自动生成 AI 实时字幕？DualPiP + Deepgram 完整配置教程

#ASR#实时字幕#语音识别#Deepgram#Chrome扩展#画中画#视频学习#自动生成字幕

如何为没有字幕的在线视频自动生成 AI 字幕？

很多在线视频没有字幕，或者只有平台自动生成的低质量字幕——断句混乱、标点缺失、识别频繁出错。DualPiP 1.7.0 新增 ASR（自动语音识别）实时字幕功能，能为任意网页视频自动生成高精度 AI 字幕，支持在画中画窗口中完整显示，并与学习模式、AI 翻译完全集成。

DualPiP 的 ASR 通过捕获浏览器中的视频音频流，发送到语音识别服务（如 Deepgram）进行实时转录，生成带时间戳的字幕直接叠加在视频上方。如果视频已有原生字幕但质量不佳，你也可以用 DualPiP 的字幕搜索功能从 OpenSubtitles 等平台下载高质量字幕；如果视频完全没有字幕来源，ASR 实时字幕就是最佳选择。

如果你更习惯在原始页面上看视频而不使用画中画，或者需要在手机浏览器上使用 ASR 实时字幕，CaptionGo 使用同一 ASR 引擎，提供网页内字幕叠加和移动浏览器支持（Chrome、Edge、Firefox、Android）。

DualPiP ASR 和 Chrome 内置实时字幕有什么区别？

Chrome 浏览器自带实时字幕（Live Caption）功能，在设置 → 无障碍功能中可以开启。但 Chrome 内置实时字幕在视频学习场景下存在明显局限，尤其是画中画模式下字幕会消失——这对于需要一边工作一边看视频的用户来说是个硬伤。

对比维度	Chrome 内置实时字幕	DualPiP ASR 实时字幕
画中画支持	字幕不随视频进入画中画	画中画窗口内完整显示，字幕不消失
识别精度	一般，长句断句差	Deepgram nova-3 模型，自动标点和断句
双语翻译	需单独开启翻译，体验割裂	与 DualPiP 12 种翻译引擎集成，推荐 AI 大模型翻译
学习模式	不支持	字幕列表面板、AB 循环复读
字幕样式	固定样式	字号、颜色、位置、背景等完全自定义
字幕位置	浏览器底部气泡，遮挡页面	视频内叠加，跟随播放窗口
语言支持	约 20 种语言	22 种语言 + 多语言自动检测
识别模式	仅实时流	实时 WebSocket 流 + 预下载批量识别

DualPiP ASR 最大的差异在于画中画场景下的完整字幕体验。当你将视频弹出为悬浮窗口后，Chrome 内置字幕会消失，而 DualPiP 的 ASR 字幕始终跟随画中画窗口显示，适合一边写文档一边看视频学外语。

DualPiP ASR 支持哪些语音识别服务？

DualPiP ASR 采用 BYOK（Bring Your Own Key）架构，用户自己配置语音识别服务，请求从浏览器直接发送到服务商，不经过任何中间服务器。目前支持两类语音识别后端：

云端 ASR：Deepgram

Deepgram 是目前 DualPiP 预置支持的云端 ASR 服务商，使用 nova-3 模型进行语音识别。nova-3 是当前业界最准确的实时语音识别模型之一，其优势包括：

实时 WebSocket 流：延迟低于 300ms，字幕几乎同步出现
智能标点和断句：自动添加标点符号，句子边界识别准确
22 种语言支持：包括中文、英语、日语、韩语、法语、德语、西班牙语等
多语言自动检测：Deepgram 独有的 multi 模式，无需手动选语言，自动识别切换
费用极低：$0.007/分钟（nova-3），一部 2 小时电影约 $0.84

与沉浸式翻译等扩展的内置 ASR（每月限额约 50 个视频）不同，DualPiP 的 BYOK 模式没有视频数量限制，按实际用量计费，API 账单清晰可查。关于 DualPiP 和其他双语字幕扩展的完整对比，参见 2026 最好的 Chrome 双语字幕扩展推荐。

本地 ASR 后端：Whisper

DualPiP 同时支持本地部署的 OpenAI 兼容 Whisper 服务器，音频完全在本机处理，适合对隐私有要求或网络受限的用户：

本地方案	说明
Speaches	高性能 Whisper API 服务器，GPU 加速
whisper.cpp	轻量级 C++ 实现，CPU 也能运行
hwdsl2/whisper-server	Docker 一键部署的 Whisper 服务
任何 OpenAI 兼容服务	支持 `/v1/audio/transcriptions` 端点即可

本地后端使用 HTTP 批量识别模式，DualPiP 按设定时长（默认 5 秒）分段发送音频进行识别，完全免费且无需联网。

如何免费获取 Deepgram $200 额度和 API Key？

不需要信用卡。 Deepgram 为新注册用户提供 $200 免费额度，注册全程无需绑定任何支付方式。按 nova-3 模型 $0.007/分钟计算，$200 额度足够转录约 476 小时音频——相当于看 238 部 2 小时电影，绝大多数个人用户几年内都用不完。

注册 Deepgram 并获取 API Key 的完整步骤

访问 deepgram.com，点击页面上的 Sign Up Free
使用 Google 账号或邮箱完成注册（无需填写信用卡信息）
登录后自动进入 Console 控制台，系统会为你创建一个默认项目
在左侧导航找到 Settings → API Keys
点击 Create a New API Key
输入一个名称（如 "DualPiP"），权限选择 Member，点击 Create Key
立即复制并妥善保存 API Key——页面关闭后将无法再次查看

信息	详情
免费额度	$200（注册即送）
是否需要信用卡	否
额度有效期	无过期时间
额度用完后	按量付费（Pay As You Go）
nova-3 价格	$0.007/分钟
$200 可用时长	约 476 小时（≈ 238 部电影）

如何在 DualPiP 中配置 ASR 实时字幕？

配置分为两步：在扩展设置中添加 ASR Provider，然后在画中画窗口中开启实时字幕。

第一步：添加 ASR Provider

打开 DualPiP 扩展的设置页面（点击扩展图标 → 设置齿轮图标）
进入 ASR Settings 标签页
点击 Add Provider 按钮
从预置模板中选择 Deepgram（云端）或 Custom Local Backend（本地）
填入 Deepgram API Key（参照上一节获取），或填写本地 Whisper 服务地址
选择默认识别语言（推荐 Multilingual 多语言自动检测）和模型
点击保存

第二步：在画中画窗口开启实时字幕

在任意视频网站打开 DualPiP 画中画模式（快捷键 Ctrl+Shift+E）
在画中画窗口的控制栏中点击 ASR 按钮（麦克风图标）
打开 Live Caption 开关
实时字幕立即开始显示在视频上方

你还可以使用快捷键 Shift+A 在画中画窗口中一键开关 ASR，或在 Chrome 扩展快捷键设置（chrome://extensions/shortcuts）中为 "Toggle Live Captions" 配置全局快捷键，无需打开画中画菜单即可控制。

ASR 实时流和预下载批量模式有什么区别？

DualPiP ASR 提供两种音频捕获和识别模式，适应不同的观看场景：

实时流模式（WebSocket Streaming）

音频通过 WebSocket 实时发送到 Deepgram 服务器，字幕延迟低于 300ms，几乎和说话同步。Deepgram 的 Interim Results 功能还会在最终结果出来前提供临时识别结果，让字幕出现得更快。适合直播、视频会议、实时内容等需要即时反馈的场景。

预下载批量模式（Pre-download + HTTP Batch）

DualPiP 先将视频音频预下载并按时间段分割，然后通过 HTTP 请求批量发送到 ASR 服务进行离线识别。适合已发布的视频内容——可以在观看前提前生成完整字幕，播放时完全无延迟。预下载模式同时支持 Deepgram 云端和本地 Whisper 后端。

对比	实时流模式	预下载批量模式
延迟	< 300ms	预下载完成后零延迟
适合场景	直播、实时内容、会议	已发布的视频、需要完整字幕
支持后端	Deepgram（WebSocket）	Deepgram + 本地 Whisper
字幕完整性	实时生成，偶有遗漏	完整覆盖全部音频内容

DualPiP 默认使用 Auto 自动模式：优先尝试 WebSocket 实时流，如果当前 Provider 不支持则自动回退到预下载批量模式。

如何用 ASR 字幕配合学习模式进行语言学习？

DualPiP ASR 生成的字幕带有完整时间戳，完全兼容学习模式的所有功能，让没有字幕的视频也能成为语言学习素材：

字幕列表面板：ASR 识别出的每句字幕按时间顺序排列在右侧学习面板中，点击可跳转
AB 循环复读：选中某句 ASR 字幕进行反复播放，精听训练
自动暂停：每句字幕播放完自动暂停，方便跟读模仿
双语对照：ASR 字幕可配合 AI 翻译引擎生成双语字幕，原文+译文同时显示

这意味着即使视频完全没有原生字幕，你也可以通过 ASR 生成字幕后进入学习模式，获得和有字幕视频完全一致的分句学习体验。

ASR 字幕和传统字幕在 DualPiP 中是互斥关系：开启 ASR 自动关闭传统字幕，选择传统字幕自动停止 ASR。如果视频有高质量原生字幕，建议优先使用传统字幕或通过字幕搜索下载字幕文件，ASR 更适合没有字幕或字幕质量差的视频。

如何用 ASR 字幕配合 AI 翻译生成实时双语字幕？

DualPiP 的 ASR 和 AI 翻译可以配合使用，为任何语言的在线视频实时生成双语字幕。这解决了一个传统字幕无法覆盖的场景：视频没有原生字幕，但你需要看双语字幕学外语。

ASR + AI 翻译的工作流程

ASR 实时识别原文：Deepgram 将视频音频转录为原语言文字字幕
AI 大模型实时翻译：DualPiP 的 AI 翻译引擎将 ASR 生成的字幕翻译为目标语言
双语字幕同时显示：原文和译文以双语字幕的形式叠加在视频上方

为什么 ASR 字幕翻译强烈推荐使用 AI 大模型？

ASR 生成的字幕与传统字幕文件不同——ASR 字幕是实时识别的语音转录，可能存在断句不完整、口语化表达多、专有名词无上下文等问题。AI 大模型翻译（DeepSeek、GPT、Claude 等）在翻译 ASR 字幕时显著优于传统机翻（Google、Microsoft），原因在于：

对比维度	传统机翻（Google/Microsoft）	AI 大模型翻译（DeepSeek/GPT/Claude）
上下文理解	逐句翻译，无前后文信息	DualPiP 发送最近 N 条字幕作为上下文历史
口语化处理	直译口语，生硬不通顺	理解口语语境，翻译自然流畅
断句补全	ASR 断句不完整时翻译错乱	能结合上下文补全语义，正确翻译
专有名词	频繁翻错人名、术语	结合 DualPiP 的影片信息增强识别
语气还原	机械直译	保留说话者语气和表达风格

DualPiP 的 AI 翻译引擎使用滑动窗口上下文机制：每次翻译 ASR 字幕时，会将前面已翻译的字幕作为对话历史一起发送给 AI，让翻译结果前后一致、上下文连贯。这在 ASR 场景下尤其重要——因为语音识别的断句和传统字幕不同，AI 需要结合前文才能正确理解当前句子的含义。

适合的使用场景

场景	说明
看无字幕外语视频学语言	ASR 识别原文 + AI 翻译为母语，双语对照学习
看直播或实时内容	直播没有预制字幕，ASR 实时生成 + AI 实时翻译
学术讲座和在线课程	部分课程无字幕或仅有英文字幕，ASR + AI 生成中文翻译
播客和访谈节目	纯音频内容通过 ASR 可视化为文字，再翻译为目标语言

DualPiP 支持 30+ AI 翻译服务商（DeepSeek、GPT、Claude、Gemini 等），用户可以根据翻译质量和费用自由选择。推荐使用 DeepSeek V4 Flash（性价比最高，翻译一部电影约 ¥0.2-0.5）或 Groq Llama（免费额度，响应速度最快）配合 ASR 字幕使用。详细的 AI 翻译配置教程参见 DualPiP AI 字幕翻译完整教程。

哪些视频网站可以用 DualPiP ASR 自动生成字幕？

DualPiP ASR 基于浏览器的 Audio Capture API 捕获音频，理论上可以为任何在 Chrome 中播放的视频自动生成字幕。以下是已验证的主要平台：

平台类型	支持的网站
视频平台	YouTube、Netflix、Disney+、Bilibili（B 站）、Crunchyroll、HiAnime
学习平台	Coursera、Udemy、TED、edX、Khan Academy
直播平台	Twitch、YouTube Live
会议工具	Zoom（网页版）、Google Meet
其他	任何使用 HTML5 `<video>` 标签的网站

对于没有原生字幕的视频（如很多直播内容、小众平台视频、用户上传的无字幕视频），ASR 是获取字幕的唯一途径。配合 DualPiP 的 AI 大模型翻译，你可以为任何语言的在线视频生成实时双语字幕——先用 ASR 生成原文字幕，再用 DeepSeek、GPT 等 AI 引擎翻译为目标语言。由于 ASR 字幕是实时语音识别产物，强烈推荐使用 AI 大模型翻译而非传统机翻，AI 能结合上下文历史准确理解口语化表达和不完整断句。

常见问题

Q：ASR 实时语音识别的准确率怎么样？ Deepgram nova-3 模型在英语上的词错误率（WER）低于 8%，是 2026 年最准确的实时语音识别模型之一。中文、日语等语言的识别准确率同样出色。识别效果受音频质量、说话人口音和背景噪音影响，纯语音内容的识别效果最佳。

Q：Deepgram $200 免费额度用完后怎么续费？ 免费额度用完后自动转为按量付费（Pay As You Go），nova-3 模型 $0.007/分钟，一部 2 小时电影约 $0.84。也可以切换到本地 Whisper 后端，完全免费但需要本地 GPU 支持。

Q：ASR 字幕和传统字幕可以同时显示吗？ 不可以。DualPiP 设计为两者互斥——开启 ASR 时自动关闭传统字幕，反之亦然。这避免了两种字幕同时显示造成的混乱。如果视频有高质量原生字幕或可以通过字幕搜索下载，建议优先使用传统字幕。

Q：ASR 是 DualPiP 的免费功能还是 Pro 功能？ ASR 实时字幕是 Pro 功能。DualPiP 的 YouTube 双语字幕和基础画中画播放器免费使用，ASR、AI 翻译、完整学习模式等高级功能需要 Pro 订阅。

Q：本地 Whisper 后端需要什么硬件配置？ 推荐 NVIDIA GPU（6GB+ 显存）以获得流畅的实时识别体验。CPU 也可以运行但识别速度较慢。使用 Docker 部署 hwdsl2/whisper-server 是最简单的方式，一条命令即可启动本地 ASR 服务。

Q：能识别视频中的多种语言混合吗？ Deepgram 的 Multilingual 模式支持在同一段音频中自动检测和切换语言，适合多语言混合的访谈、播客和教学内容。本地 Whisper 后端也支持语言自动检测，但切换精度低于 Deepgram。

立即体验 DualPiP ASR 实时字幕

只需四步即可为任意在线视频生成 AI 实时字幕：

安装 DualPiP 扩展：Chrome Web Store | Edge Add-ons
注册 Deepgram 获取免费 $200 额度：deepgram.com（无需信用卡）
在 DualPiP 设置中添加 Deepgram Provider 并填入 API Key
打开任意视频的画中画窗口，点击 ASR 按钮开启实时字幕

无论是没有字幕的直播、小众平台视频，还是需要更高精度字幕的外语学习内容，DualPiP ASR 都能实时生成 AI 字幕。配合 AI 双语翻译，你可以为任何语言的视频生成双语字幕；配合学习模式的 AB 循环复读和分句面板，每一段视频都能成为高效的语言学习素材。

在手机上看视频或偏好网页内字幕？ 试试 CaptionGo —— 同一 ASR 实时字幕引擎，专为网页内双语字幕设计，支持全屏和移动浏览器。

返回文章列表