Вернуться к списку
guide··Rabbitpair

Как автоматически генерировать ИИ-субтитры для онлайн-видео в реальном времени – Руководство DualPiP + Deepgram

#ASR#живые субтитры#распознавание речи#Deepgram#расширение Chrome#картинка в картинке#изучение языков#автосубтитры

Как автоматически генерировать ИИ-субтитры для видео без субтитров?

Многие онлайн-видео не имеют субтитров или имеют только автоматически сгенерированные субтитры низкого качества. DualPiP 1.7.0 добавляет функцию ASR (автоматическое распознавание речи) для генерации высокоточных ИИ-субтитров в реальном времени для любого веб-видео, отображаемых в окне «картинка в картинке» и полностью интегрированных с режимом обучения и ИИ-переводом.

DualPiP ASR захватывает аудиопоток видео в браузере, отправляет его в сервис распознавания речи (Deepgram) для транскрипции в реальном времени и накладывает субтитры с временными метками на видео.


Чем DualPiP ASR отличается от встроенных субтитров Chrome?

Chrome имеет встроенную функцию Live Caption в Настройки → Специальные возможности. Однако субтитры исчезают в режиме «картинка в картинке».

СравнениеChrome Live CaptionDualPiP ASR
Картинка в картинкеСубтитры исчезаютПолные субтитры в окне PiP
ТочностьСредняяDeepgram nova-3, автопунктуация
Двуязычный переводОтдельная функцияИнтегрировано с 12 движками перевода, рекомендуется ИИ LLM-перевод
Режим обученияНе поддерживаетсяПанель субтитров, AB-петля
СтильФиксированныйПолностью настраиваемый
ПозицияПузырь внизу браузера, перекрывает контентНаложен на видео, следует за окном
Языки~20 языков22 языка + мультиязычное определение
РежимыТолько стримингWebSocket в реальном времени + предзагрузка пакетами

Главное преимущество — полноценные субтитры в режиме «картинка в картинке». Как только вы открываете видео в плавающем окне, встроенные субтитры Chrome исчезают, а ASR-субтитры DualPiP всегда остаются видимыми — идеально для многозадачности при изучении языков.


Какие сервисы распознавания речи поддерживает DualPiP ASR?

DualPiP ASR использует архитектуру BYOK (Bring Your Own Key). Запросы идут напрямую из браузера к провайдеру.

Облачный ASR: Deepgram

Deepgram использует модель nova-3 — одну из самых точных моделей распознавания речи в реальном времени:

  • WebSocket-стриминг в реальном времени: задержка менее 300мс
  • Умная пунктуация: автоматические знаки препинания и границы предложений
  • 22 языка: русский, английский, немецкий, французский, японский и др.
  • Мультиязычное определение: уникальный мультирежим Deepgram
  • Низкая стоимость: $0,007/минута, ~$0,84 за фильм 2 часа

Локальный ASR: Whisper

Поддерживает также локально развёрнутые OpenAI-совместимые серверы Whisper:

РешениеОписание
SpeachesВысокопроизводительный Whisper API сервер с GPU
whisper.cppЛёгкая реализация на C++
hwdsl2/whisper-serverРазвёртывание Docker одной командой
Любой OpenAI-совместимый серверЛюбой сервис с эндпоинтом /v1/audio/transcriptions

Локальные бэкенды используют HTTP-пакетное распознавание — полностью бесплатно и работает офлайн.


Как получить бесплатные $200 кредита Deepgram и API-ключ?

Банковская карта не нужна. Deepgram предоставляет $200 бесплатного кредита новым пользователям. При цене nova-3 $0,007/мин, $200 хватит примерно на 476 часов аудио — около 238 фильмов.

Пошаговая регистрация и создание API-ключа

  1. Перейдите на deepgram.com и нажмите Sign Up Free
  2. Зарегистрируйтесь через Google или email (без банковской карты)
  3. После входа откроется Console с автоматически созданным проектом
  4. Перейдите в Settings → API Keys
  5. Нажмите Create a New API Key
  6. Введите имя (например, «DualPiP»), выберите Member, нажмите Create Key
  7. Немедленно скопируйте и сохраните API-ключ — после закрытия страницы он не будет доступен
ИнформацияДетали
Бесплатный кредит$200 (при регистрации)
Нужна ли картаНет
Срок действияБез ограничений
После использованияОплата по факту (Pay As You Go)
Цена nova-3$0,007/минута
$200 покрывает~476 часов (~238 фильмов)

Как настроить ASR-субтитры в DualPiP?

Шаг 1: Добавить провайдера ASR

  1. Откройте Настройки расширения DualPiP → вкладка ASR Settings
  2. Нажмите Add Provider
  3. Выберите Deepgram (облако) или Custom Local Backend (локально)
  4. Введите API-ключ Deepgram или адрес локального Whisper-сервера
  5. Выберите язык распознавания (рекомендуется Multilingual) → Сохранить

Шаг 2: Включить субтитры в окне PiP

  1. Откройте режим PiP DualPiP (Ctrl+Shift+E)
  2. Нажмите кнопку ASR (значок микрофона)
  3. Включите Live Caption
  4. Субтитры начнут отображаться мгновенно

Горячая клавиша Shift+A для быстрого включения/выключения ASR в окне PiP. Также можно настроить глобальную горячую клавишу через chrome://extensions/shortcuts для команды «Toggle Live Captions» — управление ASR без открытия меню PiP.


В чём разница между потоковым режимом и режимом предварительной загрузки?

DualPiP ASR предлагает два режима захвата и распознавания аудио:

Потоковый режим (WebSocket Streaming)

Аудио через WebSocket отправляется на серверы Deepgram в реальном времени. Субтитры появляются с задержкой менее 300мс, практически синхронно с речью. Функция Interim Results от Deepgram показывает предварительные результаты распознавания ещё до получения окончательного результата. Подходит для прямых эфиров, видеоконференций и контента, требующего мгновенной обратной связи.

Режим предзагрузки (Pre-download + HTTP Batch)

DualPiP предварительно загружает аудио видео и разбивает его на сегменты, которые затем пакетно отправляются в ASR-сервис через HTTP-запросы. Подходит для опубликованных видео — можно заранее сгенерировать полные субтитры до просмотра, чтобы при воспроизведении не было задержки. Предзагрузка поддерживает как Deepgram, так и локальные бэкенды Whisper.

СравнениеПотоковый режимПредзагрузка пакетами
Задержка< 300мсНулевая после загрузки
Подходит дляПрямые эфиры, реальное времяОпубликованные видео
БэкендыDeepgram (WebSocket)Deepgram + локальный Whisper
ПолнотаВ реальном времени, изредка пропускиПолное покрытие всего аудио

DualPiP по умолчанию использует режим Auto: сначала пробует WebSocket-стриминг, при отсутствии поддержки автоматически переключается на предзагрузку.


Как использовать ASR-субтитры с режимом обучения?

ASR-субтитры DualPiP имеют временные метки и полностью совместимы с режимом обучения:

  • Панель субтитров: каждое распознанное предложение в хронологическом порядке, клик для навигации
  • AB-петля: повторное воспроизведение выбранных фраз для тренировки слуха
  • Автопауза: пауза после каждого предложения для повторения
  • Двуязычное отображение: ASR-субтитры в сочетании с ИИ-переводом

ASR-субтитры и традиционные субтитры в DualPiP взаимоисключающие: включение ASR автоматически отключает традиционные субтитры и наоборот. Если у видео есть качественные встроенные субтитры, используйте их или загрузите через поиск субтитров.


Как сочетать ASR с ИИ-переводом для двуязычных субтитров в реальном времени?

ASR и ИИ-перевод DualPiP работают вместе — идеально, когда видео не имеет встроенных субтитров, но нужны двуязычные субтитры для изучения языка.

Рабочий процесс ASR + ИИ-перевод

  1. ASR распознаёт оригинальный язык: Deepgram транскрибирует аудио в текстовые субтитры на исходном языке
  2. ИИ LLM переводит в реальном времени: движок ИИ-перевода DualPiP переводит ASR-субтитры на целевой язык
  3. Двуязычные субтитры отображаются вместе: оригинал и перевод как двуязычные субтитры на видео

Почему ИИ LLM-перевод настоятельно рекомендуется для ASR-субтитров

ИИ LLM-перевод (DeepSeek, GPT, Claude) настоятельно рекомендуется для ASR-субтитров — в отличие от традиционного машинного перевода, ИИ-модели понимают контекст разговора и создают естественный перевод даже при неидеальной сегментации ASR.

АспектТрадиционный МПИИ LLM-перевод
КонтекстПредложение за предложениемDualPiP отправляет последние N субтитров как историю
Разговорная речьБуквальный переводПонимает разговорный контекст
Имена собственныеЧастые ошибкиУлучшено интеграцией с инфо о фильме

Подходящие сценарии использования

СценарийОписание
Изучение языка с видео без субтитровASR распознаёт оригинал + ИИ переводит на ваш язык
Просмотр прямых эфировНет готовых субтитров — ASR + ИИ генерируют в реальном времени
Лекции и онлайн-курсыКурсы без субтитров — ASR + ИИ создают перевод
Подкасты и интервьюАудио визуализируется как текст через ASR и переводится

DualPiP поддерживает 30+ провайдеров ИИ-перевода. Рекомендуем DeepSeek V4 Flash (лучшее соотношение цена/качество) или Groq Llama (бесплатная квота, самый быстрый ответ).


Какие видеосайты работают с DualPiP ASR?

Тип платформыПоддерживаемые сайты
ВидеоYouTube, Netflix, Disney+, Bilibili, Crunchyroll, HiAnime
ОбучениеCoursera, Udemy, TED, edX, Khan Academy
Прямые эфирыTwitch, YouTube Live
СовещанияZoom (веб), Google Meet
ПрочееЛюбой сайт с HTML5 <video>-элементом

Для видео без встроенных субтитров (прямые эфиры, нишевые платформы, пользовательский контент без субтитров) ASR — единственный способ получить субтитры. В сочетании с ИИ-переводом DualPiP генерирует двуязычные субтитры в реальном времени для видео на любом языке — ASR создаёт оригинальный текст, ИИ переводит на целевой язык. Поскольку ASR-субтитры — это продукт распознавания речи в реальном времени, настоятельно рекомендуется использовать ИИ LLM-перевод вместо традиционного машинного — ИИ понимает контекст разговора и создаёт более точные переводы.


Часто задаваемые вопросы

В: Какова точность распознавания речи ASR? Deepgram nova-3 достигает коэффициента ошибок слов (WER) менее 8% для английского. Русский и другие языки также показывают отличные результаты.

В: Что происходит после использования $200 кредита? Автоматический переход на оплату по факту. Nova-3 стоит $0,007/минута. Можно переключиться на локальный Whisper — полностью бесплатно.

В: Можно ли отображать ASR и традиционные субтитры одновременно? Нет. В DualPiP они взаимоисключающие. Если у видео есть качественные встроенные субтитры, используйте их.

В: ASR — бесплатная функция или Premium? ASR-субтитры — функция Premium. YouTube двуязычные субтитры на странице и базовый PiP-плеер бесплатны.

В: Какое оборудование нужно для локального Whisper? Рекомендуется GPU NVIDIA с 6+ ГБ VRAM. CPU тоже работает, но медленнее. hwdsl2/whisper-server через Docker — самый простой способ.

В: Может ли распознавать несколько языков в одном видео? Мультиязычный режим Deepgram автоматически определяет и переключает языки в одном аудиопотоке.


Начните использовать ASR-субтитры DualPiP

  1. Установите DualPiP: Chrome Web Store | Edge Add-ons
  2. Бесплатный кредит Deepgram: deepgram.com (без карты)
  3. Добавьте Deepgram в настройках DualPiP
  4. Откройте PiP-окно и активируйте ASR

С ИИ двуязычным переводом и режимом обучения каждое видео становится эффективным материалом для изучения языка.