字幕なし動画にAIリアルタイム字幕を自動生成する方法|DualPiP + Deepgram 設定ガイド
字幕のないオンライン動画にAI字幕を自動生成するには?
多くのオンライン動画には字幕がないか、プラットフォームが自動生成した低品質な字幕しかありません——句読点が不正確で、文の区切りも不自然です。DualPiP 1.7.0のASR(自動音声認識)リアルタイム字幕機能は、あらゆるWeb動画に高精度なAI字幕をリアルタイムで自動生成します。ピクチャーインピクチャー(PiP)ウィンドウ内に完全表示され、学習モードやAI翻訳と完全統合されています。
DualPiPのASRはブラウザ内の動画音声ストリームをキャプチャし、Deepgramなどの音声認識サービスにリアルタイムで送信してテキスト化し、タイムスタンプ付きの字幕を動画上にオーバーレイ表示します。動画にネイティブ字幕があるが品質が悪い場合は、DualPiPの字幕検索機能でOpenSubtitlesなどから高品質な字幕をダウンロードすることもできます。字幕ソースがまったくない場合、ASRリアルタイム字幕が最適な解決策です。
DualPiP ASRとChrome内蔵ライブキャプションの違いは?
Chromeブラウザには設定→ユーザー補助からオンにできるライブキャプション機能が内蔵されています。しかし、Chrome内蔵のライブキャプションは動画学習のシーンでは大きな制約があります。特にPiPモードに入ると字幕が消えてしまう点は、作業しながら動画を視聴するユーザーにとって致命的です。
| 比較項目 | Chrome内蔵ライブキャプション | DualPiP ASRリアルタイム字幕 |
|---|---|---|
| PiP対応 | PiP時に字幕が消える | PiPウィンドウ内に完全表示 |
| 認識精度 | 一般的、文の区切りが不正確 | Deepgram nova-3モデル、自動句読点・文区切り |
| 二言語翻訳 | 別途翻訳機能を有効化が必要 | DualPiPの12種の翻訳エンジンと統合、AI大規模言語モデル翻訳推奨 |
| 学習モード | 非対応 | 字幕リストパネル、ABループリピート |
| 字幕スタイル | 固定 | フォントサイズ、色、位置、背景など完全カスタマイズ |
| 字幕位置 | ブラウザ下部のバブル、ページを遮る | 動画内にオーバーレイ、再生ウィンドウに追従 |
| 言語対応 | 約20言語 | 22言語 + 多言語自動検出 |
| 認識モード | リアルタイムストリーミングのみ | リアルタイムWebSocket + プリダウンロードバッチ |
DualPiP ASRの最大の強みはPiPシーンでの完全な字幕体験です。動画をフローティングウィンドウにポップアウトすると、Chrome内蔵字幕は消えますが、DualPiPのASR字幕はPiPウィンドウに常に表示されます。
DualPiP ASRはどの音声認識サービスに対応している?
DualPiP ASRはBYOK(Bring Your Own Key)アーキテクチャを採用しており、ユーザーが自分で音声認識サービスを設定します。リクエストはブラウザから直接プロバイダーに送信され、中間サーバーを経由しません。2種類のバックエンドに対応しています:
クラウドASR:Deepgram
Deepgramは現在DualPiPにプリセット対応しているクラウドASRプロバイダーで、nova-3モデルで音声認識を行います。nova-3は現在業界で最も精度の高いリアルタイム音声認識モデルの一つです:
- リアルタイムWebSocketストリーミング:300ms未満のレイテンシーで、字幕がほぼ同時に表示
- スマート句読点・文区切り:自動的に句読点を追加し、文の境界を正確に認識
- 22言語対応:日本語、英語、中国語、韓国語、フランス語、ドイツ語、スペイン語など
- 多言語自動検出:Deepgram独自のmultiモードで言語を自動認識・切替
- 低コスト:$0.007/分(nova-3)、2時間の映画で約$0.84
DualPiPのBYOKモデルは動画数の制限がなく、使用量に応じた従量課金制です。DualPiPと他の二言語字幕拡張機能の比較は2026年おすすめChrome二言語字幕拡張機能をご覧ください。
ローカルASR:Whisper
DualPiPはOpenAI互換のWhisperサーバーのローカルデプロイにも対応しており、音声は完全にローカルマシンで処理されます:
| ローカルソリューション | 説明 |
|---|---|
| Speaches | GPU高速化対応の高性能Whisper APIサーバー |
| whisper.cpp | 軽量C++実装、CPUでも動作 |
| hwdsl2/whisper-server | Dockerワンコマンドデプロイ |
| OpenAI互換サービス | /v1/audio/transcriptionsエンドポイント対応 |
ローカルバックエンドはHTTPバッチ認識モードを使用し、完全無料でオフライン動作します。
Deepgramの無料$200クレジットとAPIキーの取得方法
クレジットカードは不要です。 Deepgramは新規ユーザーに**$200の無料クレジットを提供しており、登録時に支払い情報の入力は一切必要ありません。nova-3モデルの$0.007/分で計算すると、$200で約476時間の音声**をテキスト化できます——約238本の映画に相当します。
Deepgram登録とAPIキー作成の手順
- deepgram.comにアクセスし、Sign Up Freeをクリック
- Googleアカウントまたはメールアドレスで登録(クレジットカード情報不要)
- ログイン後、Consoleダッシュボードに入り、デフォルトプロジェクトが自動作成されます
- 左サイドバーのSettings → API Keysに移動
- Create a New API Keyをクリック
- 名前を入力(例:「DualPiP」)、権限をMemberに設定し、Create Keyをクリック
- APIキーを即座にコピーして安全に保存——ページを閉じると再表示できません
| 項目 | 詳細 |
|---|---|
| 無料クレジット | $200(登録時に付与) |
| クレジットカード | 不要 |
| 有効期限 | なし |
| クレジット消費後 | 従量課金(Pay As You Go) |
| nova-3料金 | $0.007/分 |
| $200の利用可能時間 | 約476時間(≈238本の映画) |
DualPiPでASRリアルタイム字幕を設定する方法
設定は2ステップです:拡張機能設定でASRプロバイダーを追加し、PiPウィンドウでライブキャプションを有効にします。
ステップ1:ASRプロバイダーの追加
- DualPiP拡張機能の設定ページを開く(拡張アイコン→歯車アイコン)
- ASR Settingsタブに移動
- Add Providerをクリック
- プリセットからDeepgram(クラウド)またはCustom Local Backend(ローカル)を選択
- Deepgram APIキーまたはローカルWhisperサーバーアドレスを入力
- デフォルトの認識言語(Multilingual自動検出推奨)とモデルを選択
- 保存をクリック
ステップ2:PiPウィンドウでライブキャプションを有効化
- 任意の動画サイトでDualPiPのPiPモードを開く(ショートカット
Ctrl+Shift+E) - PiPコントロールバーのASRボタン(マイクアイコン)をクリック
- Live Captionスイッチをオンに
- リアルタイム字幕が動画上に即座に表示開始
PiPウィンドウ内でショートカットShift+AでASRの切替も可能です。Chromeの拡張機能ショートカット設定(chrome://extensions/shortcuts)で「Toggle Live Captions」にグローバルショートカットを設定することもできます。
ストリーミングモードとプリダウンロードモードの違いは?
DualPiP ASRは視聴シーンに合わせた2つの音声キャプチャ・認識モードを提供します:
リアルタイムストリーミングモード(WebSocket)
音声がWebSocket経由でDeepgramにリアルタイム送信され、字幕レイテンシーは300ms未満です。Deepgramの中間結果機能が最終結果の前に暫定的なテキストを提供するため、字幕がさらに早く表示されます。ライブ配信、ビデオ会議、リアルタイムコンテンツに最適です。
プリダウンロードバッチモード(HTTP)
DualPiPが動画音声を事前ダウンロードしてセグメント分割し、HTTP経由でバッチ送信して認識します。公開済みの動画コンテンツに最適——視聴前に完全な字幕を生成でき、再生時の遅延はゼロです。DeepgramクラウドとローカルWhisperの両方に対応しています。
| 比較 | リアルタイムストリーミング | プリダウンロードバッチ |
|---|---|---|
| レイテンシー | 300ms未満 | プリダウンロード完了後ゼロ |
| 適したシーン | ライブ配信、リアルタイムコンテンツ | 公開済み動画、完全な字幕が必要 |
| 対応バックエンド | Deepgram(WebSocket) | Deepgram + ローカルWhisper |
| 字幕カバー率 | リアルタイム生成、まれに欠落あり | 全音声を完全カバー |
DualPiPはデフォルトでAutoモードを使用:WebSocketストリーミングを優先し、プロバイダーが非対応の場合はプリダウンロードバッチに自動フォールバックします。
ASR字幕を学習モードで語学学習に活用する方法
DualPiP ASRで生成された字幕はタイムスタンプ付きで、学習モードの全機能と互換性があります。字幕のない動画も語学学習の教材に変わります:
- 字幕リストパネル:ASRで認識された各文が時系列で右側パネルに表示、クリックでジャンプ
- ABループリピート:ASR字幕の任意の文を選んで繰り返し再生、リスニング練習
- 自動一時停止:字幕ごとに自動一時停止、シャドーイングに最適
- 二言語表示:ASR字幕をAI翻訳エンジンと組み合わせて原文+訳文を同時表示
ASR字幕と従来の字幕はDualPiPでは排他的です。ASRを有効にすると従来の字幕は自動的に無効になり、その逆も同様です。高品質なネイティブ字幕がある動画は従来の字幕を優先するか、字幕検索で字幕ファイルをダウンロードしてください。
ASR字幕にAI翻訳を組み合わせてリアルタイム二言語字幕を生成する方法
DualPiPのASRとAI翻訳を組み合わせることで、あらゆる言語の動画にリアルタイムで二言語字幕を生成できます。動画にネイティブ字幕がないが、二言語字幕で語学学習したいというシーンに対応します。
ASR + AI翻訳のワークフロー
- ASRが原語を認識:Deepgramが動画音声を原語テキスト字幕に変換
- AI大規模言語モデルがリアルタイム翻訳:DualPiPのAI翻訳エンジンがASR字幕をターゲット言語に翻訳
- 二言語字幕を同時表示:原文と訳文が二言語字幕として動画上にオーバーレイ
ASR字幕の翻訳にAI大規模言語モデルを強く推奨する理由
ASRで生成された字幕はリアルタイム音声転写であり、文の区切りが不完全だったり、口語的な表現が多かったりします。AI大規模言語モデル翻訳(DeepSeek、GPT、Claude等)は、ASR字幕の翻訳において従来の機械翻訳(Google、Microsoft)を大幅に上回ります:
| 比較項目 | 従来の機械翻訳 | AI大規模言語モデル翻訳 |
|---|---|---|
| 文脈理解 | 一文ずつ翻訳、前後文なし | DualPiPが直近N件の字幕を会話履歴として送信 |
| 口語処理 | 口語を直訳、不自然 | 会話の文脈を理解し、自然な訳文を出力 |
| 不完全な文の補完 | ASRの区切りが不完全だと翻訳が崩れる | 文脈から意味を補完して正確に翻訳 |
| 固有名詞 | 人名・用語の誤訳が頻発 | DualPiPの映画情報連携で認識を強化 |
DualPiPのAI翻訳エンジンはスライディングウィンドウコンテキストメカニズムを使用し、翻訳結果の前後一貫性を確保します。これはASRシーンで特に重要です——音声認識の文区切りは従来の字幕と異なるため、AIは前文の文脈がなければ正確に翻訳できません。
DualPiPは30以上のAI翻訳プロバイダーに対応しています。ASR字幕にはDeepSeek V4 Flash(コスパ最良)またはGroq Llama(無料枠あり、最速レスポンス)がおすすめです。詳しくはAI字幕翻訳設定ガイドをご覧ください。
DualPiP ASRはどの動画サイトに対応している?
DualPiP ASRはブラウザのAudio Capture APIで音声をキャプチャするため、Chromeで再生可能なあらゆる動画に字幕を自動生成できます:
| プラットフォーム | 対応サイト |
|---|---|
| 動画プラットフォーム | YouTube、Netflix、Disney+、Bilibili、Crunchyroll、HiAnime |
| 学習プラットフォーム | Coursera、Udemy、TED、edX、Khan Academy |
| ライブ配信 | Twitch、YouTube Live |
| 会議ツール | Zoom(ウェブ版)、Google Meet |
| その他 | HTML5 <video>タグを使用するすべてのサイト |
ネイティブ字幕のない動画には、ASRが字幕を取得する唯一の方法です。DualPiPのAI大規模言語モデル翻訳と組み合わせれば、あらゆる言語のオンライン動画にリアルタイム二言語字幕を生成できます。ASR字幕はリアルタイム音声認識の産物であるため、従来の機械翻訳よりもAI大規模言語モデル翻訳の使用を強く推奨します。
よくある質問
Q:ASRリアルタイム音声認識の精度は? Deepgram nova-3モデルは英語の単語誤り率(WER)が8%未満で、2026年時点で最も精度の高いリアルタイム音声認識モデルの一つです。日本語、中国語などの認識精度も優れています。
Q:Deepgramの$200無料クレジットを使い切ったら? 従量課金(Pay As You Go)に自動移行します。nova-3は$0.007/分、2時間の映画で約$0.84です。ローカルWhisperバックエンドに切り替えれば完全無料ですが、ローカルGPUが必要です。
Q:ASR字幕と従来の字幕は同時表示できる? できません。DualPiPでは排他的な設計です。動画に高品質なネイティブ字幕がある場合は、従来の字幕を優先して使用してください。
Q:ASRは無料機能?Premium機能? ASRリアルタイム字幕はPremium機能です。YouTubeウェブ内の二言語字幕と基本PiPプレーヤーは無料です。
Q:ローカルWhisperバックエンドに必要なハードウェアは?
NVIDIA GPU(VRAM 6GB以上)推奨。CPUでも動作しますが速度は遅くなります。hwdsl2/whisper-serverをDockerでデプロイするのが最も簡単です。
Q:動画内の複数言語を認識できる? Deepgramの多言語モードは同じ音声内の言語を自動検出・切替できます。多言語が混在するインタビューやポッドキャストに最適です。
DualPiP ASRリアルタイム字幕を今すぐ体験
4ステップであらゆるオンライン動画にAIリアルタイム字幕を生成:
- DualPiPをインストール:Chrome Web Store | Edge Add-ons
- Deepgramで無料$200クレジットを取得:deepgram.com(クレジットカード不要)
- DualPiP設定でDeepgramプロバイダーを追加し、APIキーを入力
- 任意の動画のPiPウィンドウを開き、ASRボタンでライブキャプションを有効化
字幕のないライブ配信や外国語学習コンテンツなど、DualPiP ASRがリアルタイムでAI字幕を生成します。AI二言語翻訳と学習モードを組み合わせれば、すべての動画が効果的な語学学習教材になります。