Как автоматически генерировать ИИ-субтитры для онлайн-видео в реальном времени – Руководство DualPiP + Deepgram
Как автоматически генерировать ИИ-субтитры для видео без субтитров?
Многие онлайн-видео не имеют субтитров или имеют только автоматически сгенерированные субтитры низкого качества. DualPiP 1.7.0 добавляет функцию ASR (автоматическое распознавание речи) для генерации высокоточных ИИ-субтитров в реальном времени для любого веб-видео, отображаемых в окне «картинка в картинке» и полностью интегрированных с режимом обучения и ИИ-переводом.
DualPiP ASR захватывает аудиопоток видео в браузере, отправляет его в сервис распознавания речи (Deepgram) для транскрипции в реальном времени и накладывает субтитры с временными метками на видео.
Чем DualPiP ASR отличается от встроенных субтитров Chrome?
Chrome имеет встроенную функцию Live Caption в Настройки → Специальные возможности. Однако субтитры исчезают в режиме «картинка в картинке».
| Сравнение | Chrome Live Caption | DualPiP ASR |
|---|---|---|
| Картинка в картинке | Субтитры исчезают | Полные субтитры в окне PiP |
| Точность | Средняя | Deepgram nova-3, автопунктуация |
| Двуязычный перевод | Отдельная функция | Интегрировано с 12 движками перевода, рекомендуется ИИ LLM-перевод |
| Режим обучения | Не поддерживается | Панель субтитров, AB-петля |
| Стиль | Фиксированный | Полностью настраиваемый |
| Позиция | Пузырь внизу браузера, перекрывает контент | Наложен на видео, следует за окном |
| Языки | ~20 языков | 22 языка + мультиязычное определение |
| Режимы | Только стриминг | WebSocket в реальном времени + предзагрузка пакетами |
Главное преимущество — полноценные субтитры в режиме «картинка в картинке». Как только вы открываете видео в плавающем окне, встроенные субтитры Chrome исчезают, а ASR-субтитры DualPiP всегда остаются видимыми — идеально для многозадачности при изучении языков.
Какие сервисы распознавания речи поддерживает DualPiP ASR?
DualPiP ASR использует архитектуру BYOK (Bring Your Own Key). Запросы идут напрямую из браузера к провайдеру.
Облачный ASR: Deepgram
Deepgram использует модель nova-3 — одну из самых точных моделей распознавания речи в реальном времени:
- WebSocket-стриминг в реальном времени: задержка менее 300мс
- Умная пунктуация: автоматические знаки препинания и границы предложений
- 22 языка: русский, английский, немецкий, французский, японский и др.
- Мультиязычное определение: уникальный мультирежим Deepgram
- Низкая стоимость: $0,007/минута, ~$0,84 за фильм 2 часа
Локальный ASR: Whisper
Поддерживает также локально развёрнутые OpenAI-совместимые серверы Whisper:
| Решение | Описание |
|---|---|
| Speaches | Высокопроизводительный Whisper API сервер с GPU |
| whisper.cpp | Лёгкая реализация на C++ |
| hwdsl2/whisper-server | Развёртывание Docker одной командой |
| Любой OpenAI-совместимый сервер | Любой сервис с эндпоинтом /v1/audio/transcriptions |
Локальные бэкенды используют HTTP-пакетное распознавание — полностью бесплатно и работает офлайн.
Как получить бесплатные $200 кредита Deepgram и API-ключ?
Банковская карта не нужна. Deepgram предоставляет $200 бесплатного кредита новым пользователям. При цене nova-3 $0,007/мин, $200 хватит примерно на 476 часов аудио — около 238 фильмов.
Пошаговая регистрация и создание API-ключа
- Перейдите на deepgram.com и нажмите Sign Up Free
- Зарегистрируйтесь через Google или email (без банковской карты)
- После входа откроется Console с автоматически созданным проектом
- Перейдите в Settings → API Keys
- Нажмите Create a New API Key
- Введите имя (например, «DualPiP»), выберите Member, нажмите Create Key
- Немедленно скопируйте и сохраните API-ключ — после закрытия страницы он не будет доступен
| Информация | Детали |
|---|---|
| Бесплатный кредит | $200 (при регистрации) |
| Нужна ли карта | Нет |
| Срок действия | Без ограничений |
| После использования | Оплата по факту (Pay As You Go) |
| Цена nova-3 | $0,007/минута |
| $200 покрывает | ~476 часов (~238 фильмов) |
Как настроить ASR-субтитры в DualPiP?
Шаг 1: Добавить провайдера ASR
- Откройте Настройки расширения DualPiP → вкладка ASR Settings
- Нажмите Add Provider
- Выберите Deepgram (облако) или Custom Local Backend (локально)
- Введите API-ключ Deepgram или адрес локального Whisper-сервера
- Выберите язык распознавания (рекомендуется Multilingual) → Сохранить
Шаг 2: Включить субтитры в окне PiP
- Откройте режим PiP DualPiP (
Ctrl+Shift+E) - Нажмите кнопку ASR (значок микрофона)
- Включите Live Caption
- Субтитры начнут отображаться мгновенно
Горячая клавиша Shift+A для быстрого включения/выключения ASR в окне PiP. Также можно настроить глобальную горячую клавишу через chrome://extensions/shortcuts для команды «Toggle Live Captions» — управление ASR без открытия меню PiP.
В чём разница между потоковым режимом и режимом предварительной загрузки?
DualPiP ASR предлагает два режима захвата и распознавания аудио:
Потоковый режим (WebSocket Streaming)
Аудио через WebSocket отправляется на серверы Deepgram в реальном времени. Субтитры появляются с задержкой менее 300мс, практически синхронно с речью. Функция Interim Results от Deepgram показывает предварительные результаты распознавания ещё до получения окончательного результата. Подходит для прямых эфиров, видеоконференций и контента, требующего мгновенной обратной связи.
Режим предзагрузки (Pre-download + HTTP Batch)
DualPiP предварительно загружает аудио видео и разбивает его на сегменты, которые затем пакетно отправляются в ASR-сервис через HTTP-запросы. Подходит для опубликованных видео — можно заранее сгенерировать полные субтитры до просмотра, чтобы при воспроизведении не было задержки. Предзагрузка поддерживает как Deepgram, так и локальные бэкенды Whisper.
| Сравнение | Потоковый режим | Предзагрузка пакетами |
|---|---|---|
| Задержка | < 300мс | Нулевая после загрузки |
| Подходит для | Прямые эфиры, реальное время | Опубликованные видео |
| Бэкенды | Deepgram (WebSocket) | Deepgram + локальный Whisper |
| Полнота | В реальном времени, изредка пропуски | Полное покрытие всего аудио |
DualPiP по умолчанию использует режим Auto: сначала пробует WebSocket-стриминг, при отсутствии поддержки автоматически переключается на предзагрузку.
Как использовать ASR-субтитры с режимом обучения?
ASR-субтитры DualPiP имеют временные метки и полностью совместимы с режимом обучения:
- Панель субтитров: каждое распознанное предложение в хронологическом порядке, клик для навигации
- AB-петля: повторное воспроизведение выбранных фраз для тренировки слуха
- Автопауза: пауза после каждого предложения для повторения
- Двуязычное отображение: ASR-субтитры в сочетании с ИИ-переводом
ASR-субтитры и традиционные субтитры в DualPiP взаимоисключающие: включение ASR автоматически отключает традиционные субтитры и наоборот. Если у видео есть качественные встроенные субтитры, используйте их или загрузите через поиск субтитров.
Как сочетать ASR с ИИ-переводом для двуязычных субтитров в реальном времени?
ASR и ИИ-перевод DualPiP работают вместе — идеально, когда видео не имеет встроенных субтитров, но нужны двуязычные субтитры для изучения языка.
Рабочий процесс ASR + ИИ-перевод
- ASR распознаёт оригинальный язык: Deepgram транскрибирует аудио в текстовые субтитры на исходном языке
- ИИ LLM переводит в реальном времени: движок ИИ-перевода DualPiP переводит ASR-субтитры на целевой язык
- Двуязычные субтитры отображаются вместе: оригинал и перевод как двуязычные субтитры на видео
Почему ИИ LLM-перевод настоятельно рекомендуется для ASR-субтитров
ИИ LLM-перевод (DeepSeek, GPT, Claude) настоятельно рекомендуется для ASR-субтитров — в отличие от традиционного машинного перевода, ИИ-модели понимают контекст разговора и создают естественный перевод даже при неидеальной сегментации ASR.
| Аспект | Традиционный МП | ИИ LLM-перевод |
|---|---|---|
| Контекст | Предложение за предложением | DualPiP отправляет последние N субтитров как историю |
| Разговорная речь | Буквальный перевод | Понимает разговорный контекст |
| Имена собственные | Частые ошибки | Улучшено интеграцией с инфо о фильме |
Подходящие сценарии использования
| Сценарий | Описание |
|---|---|
| Изучение языка с видео без субтитров | ASR распознаёт оригинал + ИИ переводит на ваш язык |
| Просмотр прямых эфиров | Нет готовых субтитров — ASR + ИИ генерируют в реальном времени |
| Лекции и онлайн-курсы | Курсы без субтитров — ASR + ИИ создают перевод |
| Подкасты и интервью | Аудио визуализируется как текст через ASR и переводится |
DualPiP поддерживает 30+ провайдеров ИИ-перевода. Рекомендуем DeepSeek V4 Flash (лучшее соотношение цена/качество) или Groq Llama (бесплатная квота, самый быстрый ответ).
Какие видеосайты работают с DualPiP ASR?
| Тип платформы | Поддерживаемые сайты |
|---|---|
| Видео | YouTube, Netflix, Disney+, Bilibili, Crunchyroll, HiAnime |
| Обучение | Coursera, Udemy, TED, edX, Khan Academy |
| Прямые эфиры | Twitch, YouTube Live |
| Совещания | Zoom (веб), Google Meet |
| Прочее | Любой сайт с HTML5 <video>-элементом |
Для видео без встроенных субтитров (прямые эфиры, нишевые платформы, пользовательский контент без субтитров) ASR — единственный способ получить субтитры. В сочетании с ИИ-переводом DualPiP генерирует двуязычные субтитры в реальном времени для видео на любом языке — ASR создаёт оригинальный текст, ИИ переводит на целевой язык. Поскольку ASR-субтитры — это продукт распознавания речи в реальном времени, настоятельно рекомендуется использовать ИИ LLM-перевод вместо традиционного машинного — ИИ понимает контекст разговора и создаёт более точные переводы.
Часто задаваемые вопросы
В: Какова точность распознавания речи ASR? Deepgram nova-3 достигает коэффициента ошибок слов (WER) менее 8% для английского. Русский и другие языки также показывают отличные результаты.
В: Что происходит после использования $200 кредита? Автоматический переход на оплату по факту. Nova-3 стоит $0,007/минута. Можно переключиться на локальный Whisper — полностью бесплатно.
В: Можно ли отображать ASR и традиционные субтитры одновременно? Нет. В DualPiP они взаимоисключающие. Если у видео есть качественные встроенные субтитры, используйте их.
В: ASR — бесплатная функция или Premium? ASR-субтитры — функция Premium. YouTube двуязычные субтитры на странице и базовый PiP-плеер бесплатны.
В: Какое оборудование нужно для локального Whisper?
Рекомендуется GPU NVIDIA с 6+ ГБ VRAM. CPU тоже работает, но медленнее. hwdsl2/whisper-server через Docker — самый простой способ.
В: Может ли распознавать несколько языков в одном видео? Мультиязычный режим Deepgram автоматически определяет и переключает языки в одном аудиопотоке.
Начните использовать ASR-субтитры DualPiP
- Установите DualPiP: Chrome Web Store | Edge Add-ons
- Бесплатный кредит Deepgram: deepgram.com (без карты)
- Добавьте Deepgram в настройках DualPiP
- Откройте PiP-окно и активируйте ASR
С ИИ двуязычным переводом и режимом обучения каждое видео становится эффективным материалом для изучения языка.