자막 없는 온라인 영상에 AI 실시간 자막을 자동 생성하는 방법 | DualPiP + Deepgram 설정 가이드
자막 없는 온라인 영상에 AI 자막을 자동 생성하려면?
많은 온라인 영상에는 자막이 없거나 플랫폼이 자동 생성한 저품질 자막만 있습니다. DualPiP 1.7.0의 ASR(자동 음성 인식) 실시간 자막 기능은 모든 웹 영상에 고정밀 AI 자막을 실시간으로 자동 생성합니다. PIP 창 안에서 완벽하게 표시되며, 학습 모드 및 AI 번역과 완전 통합됩니다.
DualPiP ASR은 브라우저 내 영상 오디오 스트림을 캡처하여 Deepgram 같은 음성인식 서비스로 실시간 전송해 텍스트로 변환하고, 타임스탬프가 포함된 자막을 영상 위에 오버레이합니다. 영상에 네이티브 자막이 있지만 품질이 낮다면 DualPiP의 자막 검색 기능으로 고품질 자막을 다운로드할 수도 있습니다.
DualPiP ASR과 Chrome 내장 실시간 자막의 차이점은?
Chrome 브라우저에는 설정 → 접근성에서 활성화할 수 있는 실시간 자막(Live Caption) 기능이 내장되어 있습니다. 하지만 Chrome 내장 실시간 자막은 PIP 모드에서 자막이 사라지는 치명적인 한계가 있습니다.
| 비교 항목 | Chrome 내장 실시간 자막 | DualPiP ASR 실시간 자막 |
|---|---|---|
| PIP 지원 | PIP 시 자막 사라짐 | PIP 창 내 완벽 표시 |
| 인식 정확도 | 보통, 문장 구분 부정확 | Deepgram nova-3 모델, 자동 구두점 및 문장 구분 |
| 이중 번역 | 별도 번역 기능 필요 | DualPiP 12종 번역 엔진 통합, AI 대규모 언어 모델 번역 권장 |
| 학습 모드 | 미지원 | 자막 목록 패널, AB 루프 반복 |
| 자막 스타일 | 고정 | 글꼴 크기, 색상, 위치, 배경 등 완전 커스터마이즈 |
| 자막 위치 | 브라우저 하단 말풍선, 페이지 가림 | 영상 내 오버레이, 재생 창 추적 |
| 언어 지원 | 약 20개 언어 | 22개 언어 + 다국어 자동 감지 |
| 인식 모드 | 실시간 스트리밍만 | 실시간 WebSocket + 사전 다운로드 배치 |
DualPiP ASR의 핵심 장점은 PIP 모드에서도 자막이 유지된다는 점입니다. 영상을 플로팅 창으로 팝아웃하면 Chrome 내장 자막은 사라지지만, DualPiP ASR 자막은 항상 PIP 창에 표시됩니다.
DualPiP ASR은 어떤 음성인식 서비스를 지원하나요?
DualPiP ASR은 BYOK(Bring Your Own Key) 아키텍처를 사용합니다. 요청은 브라우저에서 직접 서비스 제공업체로 전송되며, 중간 서버를 거치지 않습니다.
클라우드 ASR: Deepgram
Deepgram은 DualPiP에 프리셋으로 지원되는 클라우드 ASR 서비스로, nova-3 모델을 사용합니다:
- 실시간 WebSocket 스트리밍: 300ms 미만의 지연 시간
- 스마트 구두점 및 문장 구분: 자동 구두점 추가, 정확한 문장 경계 인식
- 22개 언어 지원: 한국어, 영어, 일본어, 중국어, 프랑스어 등
- 다국어 자동 감지: Deepgram 고유의 multi 모드로 언어 자동 전환
- 저비용: $0.007/분(nova-3), 2시간 영화 약 $0.84
로컬 ASR: Whisper
OpenAI 호환 Whisper 서버의 로컬 배포도 지원합니다. 오디오가 완전히 로컬에서 처리되어 프라이버시를 중시하는 사용자에게 적합합니다:
| 로컬 솔루션 | 설명 |
|---|---|
| Speaches | GPU 가속 고성능 Whisper API 서버 |
| whisper.cpp | 경량 C++ 구현, CPU에서도 동작 |
| hwdsl2/whisper-server | Docker 원커맨드 배포 |
| OpenAI 호환 서비스 | /v1/audio/transcriptions 엔드포인트 지원 |
Deepgram 무료 $200 크레딧과 API 키는 어떻게 받나요?
신용카드가 필요 없습니다. Deepgram은 신규 사용자에게 $200 무료 크레딧을 제공하며, 가입 시 결제 수단 등록이 불필요합니다. nova-3 모델 기준 $0.007/분으로 약 476시간 분량의 오디오를 텍스트로 변환할 수 있습니다.
Deepgram 가입 및 API 키 발급 절차
- deepgram.com에서 Sign Up Free 클릭
- Google 계정 또는 이메일로 가입 (신용카드 정보 불필요)
- 로그인 후 Console 대시보드 진입, 기본 프로젝트 자동 생성
- 왼쪽 사이드바에서 Settings → API Keys 이동
- Create a New API Key 클릭
- 이름 입력(예: "DualPiP"), 권한 Member 선택, Create Key 클릭
- API 키를 즉시 복사하여 안전하게 보관 — 페이지를 닫으면 다시 볼 수 없음
| 항목 | 세부 정보 |
|---|---|
| 무료 크레딧 | $200 (가입 시 제공) |
| 신용카드 필요 | 아니오 |
| 유효기간 | 만료 없음 |
| 크레딧 소진 후 | 종량제 (Pay As You Go) |
| nova-3 요금 | $0.007/분 |
| $200 사용 가능 시간 | 약 476시간 (≈238편 영화) |
DualPiP에서 ASR 실시간 자막을 설정하는 방법
1단계: ASR 프로바이더 추가
- DualPiP 확장 프로그램의 설정 페이지 열기
- ASR Settings 탭으로 이동
- Add Provider 클릭
- 프리셋에서 Deepgram(클라우드) 또는 Custom Local Backend(로컬) 선택
- Deepgram API 키 또는 로컬 Whisper 서버 주소 입력
- 기본 인식 언어(Multilingual 자동 감지 권장)와 모델 선택
- 저장
2단계: PIP 창에서 실시간 자막 활성화
- 아무 영상 사이트에서 DualPiP PIP 모드 열기 (단축키
Ctrl+Shift+E) - PIP 컨트롤 바에서 ASR 버튼(마이크 아이콘) 클릭
- Live Caption 스위치 켜기
- 실시간 자막이 영상 위에 즉시 표시
PIP 창에서 단축키 Shift+A로 ASR을 빠르게 전환할 수도 있습니다.
스트리밍 모드와 사전 다운로드 모드의 차이점은?
| 비교 | 실시간 스트리밍 | 사전 다운로드 배치 |
|---|---|---|
| 지연 시간 | 300ms 미만 | 다운로드 완료 후 제로 |
| 적합한 장면 | 라이브 방송, 실시간 콘텐츠 | 공개된 영상, 완전한 자막 필요 |
| 지원 백엔드 | Deepgram (WebSocket) | Deepgram + 로컬 Whisper |
| 자막 완성도 | 실시간 생성, 간헐적 누락 | 전체 오디오 완전 커버 |
DualPiP은 기본적으로 Auto 모드를 사용합니다: WebSocket 스트리밍을 우선 시도하고, 미지원 시 사전 다운로드 배치로 자동 전환합니다.
ASR 자막으로 학습 모드를 활용한 어학 학습 방법
DualPiP ASR이 생성한 자막은 타임스탬프가 포함되어 학습 모드의 모든 기능과 호환됩니다:
- 자막 목록 패널: ASR 인식 문장이 시간순으로 우측 패널에 표시, 클릭으로 이동
- AB 루프 반복: ASR 자막의 특정 문장을 선택해 반복 재생, 듣기 연습
- 자동 일시정지: 문장마다 자동 일시정지, 따라 말하기에 최적
- 이중 자막: ASR 자막에 AI 번역을 결합해 원문+번역문 동시 표시
ASR 자막과 기존 자막은 DualPiP에서 상호 배타적입니다. ASR을 활성화하면 기존 자막이 자동으로 비활성화되고, 반대도 마찬가지입니다. 고품질 네이티브 자막이 있는 영상은 기존 자막을 우선 사용하거나 자막 검색으로 자막 파일을 다운로드하세요. ASR은 자막이 없거나 자동 생성 자막의 품질이 낮은 영상에 가장 적합합니다.
ASR 자막에 AI 번역을 결합해 실시간 이중 자막을 생성하는 방법
DualPiP의 ASR과 AI 번역을 결합하면 어떤 언어의 영상이든 실시간 이중 자막을 생성할 수 있습니다. 영상에 네이티브 자막이 없지만 이중 자막으로 어학 학습이 필요한 상황에서 최적의 솔루션입니다.
ASR + AI 번역 워크플로우
- ASR이 원어를 인식: Deepgram이 영상 오디오를 원어 텍스트 자막으로 변환
- AI 대규모 언어 모델이 실시간 번역: DualPiP의 AI 번역 엔진이 ASR 자막을 목표 언어로 번역
- 이중 자막 동시 표시: 원문과 번역문이 이중 자막으로 영상 위에 오버레이
ASR 자막 번역에 AI 대규모 언어 모델을 강력 추천하는 이유
ASR로 생성된 자막은 실시간 음성 전사물이므로 문장 구분이 불완전하거나 구어체 표현이 많습니다. AI 대규모 언어 모델 번역(DeepSeek, GPT, Claude 등)은 ASR 자막 번역에서 기존 기계 번역(Google, Microsoft)보다 월등히 우수합니다:
| 비교 항목 | 기존 기계 번역 | AI 대규모 언어 모델 번역 |
|---|---|---|
| 문맥 이해 | 문장별 번역, 앞뒤 문맥 없음 | DualPiP이 최근 N개 자막을 대화 이력으로 전송 |
| 구어체 처리 | 구어를 직역, 부자연스러움 | 대화 문맥을 이해, 자연스러운 번역 |
| 고유명사 | 인명, 용어 오역 빈발 | DualPiP 영화 정보 연동으로 인식 강화 |
적합한 활용 시나리오
| 시나리오 | 설명 |
|---|---|
| 자막 없는 외국어 영상으로 어학 학습 | ASR로 원문 인식 + AI 번역으로 모국어 번역, 이중 대조 학습 |
| 라이브 방송 시청 | 사전 제작 자막 없음, ASR 실시간 생성 + AI 실시간 번역 |
| 학술 강의 및 온라인 강좌 | 일부 강좌에 자막이 없는 경우, ASR + AI로 번역 생성 |
| 팟캐스트 및 인터뷰 | 오디오 콘텐츠를 ASR로 텍스트화 후 번역 |
DualPiP은 30+ AI 번역 서비스를 지원합니다. ASR 자막에는 DeepSeek V4 Flash(가성비 최고) 또는 Groq Llama(무료 한도, 최고 속도)를 추천합니다.
DualPiP ASR은 어떤 영상 사이트에서 작동하나요?
DualPiP ASR은 브라우저의 Audio Capture API로 오디오를 캡처하므로 Chrome에서 재생 가능한 모든 영상에 자막을 자동 생성할 수 있습니다:
| 플랫폼 유형 | 지원 사이트 |
|---|---|
| 영상 플랫폼 | YouTube, Netflix, Disney+, Bilibili, Crunchyroll, HiAnime |
| 학습 플랫폼 | Coursera, Udemy, TED, edX, Khan Academy |
| 라이브 스트리밍 | Twitch, YouTube Live |
| 회의 도구 | Zoom(웹), Google Meet |
| 기타 | HTML5 <video> 태그를 사용하는 모든 사이트 |
자주 묻는 질문
Q: ASR 음성인식 정확도는? Deepgram nova-3 모델은 영어 단어 오류율(WER)이 8% 미만으로, 2026년 가장 정확한 실시간 음성인식 모델 중 하나입니다. 한국어, 일본어 등의 인식 정확도도 우수합니다.
Q: $200 무료 크레딧을 다 쓰면? 종량제(Pay As You Go)로 자동 전환됩니다. nova-3은 $0.007/분, 2시간 영화 약 $0.84입니다. 로컬 Whisper로 전환하면 완전 무료입니다.
Q: ASR은 무료 기능인가요? ASR 실시간 자막은 Premium 기능입니다. YouTube 웹 이중 자막과 기본 PIP 플레이어는 무료입니다.
Q: 영상에서 여러 언어가 섞여도 인식 가능한가요? Deepgram의 다국어 모드는 같은 오디오 내에서 언어를 자동 감지 및 전환합니다.
DualPiP ASR 실시간 자막 시작하기
- DualPiP 설치: Chrome Web Store | Edge Add-ons
- Deepgram 무료 $200 크레딧 받기: deepgram.com (신용카드 불필요)
- DualPiP 설정에서 Deepgram 프로바이더 추가 및 API 키 입력
- 아무 영상의 PIP 창을 열고 ASR 버튼으로 실시간 자막 활성화