목록으로 돌아가기
guide··Rabbitpair

자막 없는 온라인 영상에 AI 실시간 자막을 자동 생성하는 방법 | DualPiP + Deepgram 설정 가이드

#ASR#실시간 자막#음성인식#Deepgram#크롬 확장#PIP#어학 학습#자동 자막

자막 없는 온라인 영상에 AI 자막을 자동 생성하려면?

많은 온라인 영상에는 자막이 없거나 플랫폼이 자동 생성한 저품질 자막만 있습니다. DualPiP 1.7.0의 ASR(자동 음성 인식) 실시간 자막 기능은 모든 웹 영상에 고정밀 AI 자막을 실시간으로 자동 생성합니다. PIP 창 안에서 완벽하게 표시되며, 학습 모드AI 번역과 완전 통합됩니다.

DualPiP ASR은 브라우저 내 영상 오디오 스트림을 캡처하여 Deepgram 같은 음성인식 서비스로 실시간 전송해 텍스트로 변환하고, 타임스탬프가 포함된 자막을 영상 위에 오버레이합니다. 영상에 네이티브 자막이 있지만 품질이 낮다면 DualPiP의 자막 검색 기능으로 고품질 자막을 다운로드할 수도 있습니다.


DualPiP ASR과 Chrome 내장 실시간 자막의 차이점은?

Chrome 브라우저에는 설정 → 접근성에서 활성화할 수 있는 실시간 자막(Live Caption) 기능이 내장되어 있습니다. 하지만 Chrome 내장 실시간 자막은 PIP 모드에서 자막이 사라지는 치명적인 한계가 있습니다.

비교 항목Chrome 내장 실시간 자막DualPiP ASR 실시간 자막
PIP 지원PIP 시 자막 사라짐PIP 창 내 완벽 표시
인식 정확도보통, 문장 구분 부정확Deepgram nova-3 모델, 자동 구두점 및 문장 구분
이중 번역별도 번역 기능 필요DualPiP 12종 번역 엔진 통합, AI 대규모 언어 모델 번역 권장
학습 모드미지원자막 목록 패널, AB 루프 반복
자막 스타일고정글꼴 크기, 색상, 위치, 배경 등 완전 커스터마이즈
자막 위치브라우저 하단 말풍선, 페이지 가림영상 내 오버레이, 재생 창 추적
언어 지원약 20개 언어22개 언어 + 다국어 자동 감지
인식 모드실시간 스트리밍만실시간 WebSocket + 사전 다운로드 배치

DualPiP ASR의 핵심 장점은 PIP 모드에서도 자막이 유지된다는 점입니다. 영상을 플로팅 창으로 팝아웃하면 Chrome 내장 자막은 사라지지만, DualPiP ASR 자막은 항상 PIP 창에 표시됩니다.


DualPiP ASR은 어떤 음성인식 서비스를 지원하나요?

DualPiP ASR은 BYOK(Bring Your Own Key) 아키텍처를 사용합니다. 요청은 브라우저에서 직접 서비스 제공업체로 전송되며, 중간 서버를 거치지 않습니다.

클라우드 ASR: Deepgram

Deepgram은 DualPiP에 프리셋으로 지원되는 클라우드 ASR 서비스로, nova-3 모델을 사용합니다:

  • 실시간 WebSocket 스트리밍: 300ms 미만의 지연 시간
  • 스마트 구두점 및 문장 구분: 자동 구두점 추가, 정확한 문장 경계 인식
  • 22개 언어 지원: 한국어, 영어, 일본어, 중국어, 프랑스어 등
  • 다국어 자동 감지: Deepgram 고유의 multi 모드로 언어 자동 전환
  • 저비용: $0.007/분(nova-3), 2시간 영화 약 $0.84

로컬 ASR: Whisper

OpenAI 호환 Whisper 서버의 로컬 배포도 지원합니다. 오디오가 완전히 로컬에서 처리되어 프라이버시를 중시하는 사용자에게 적합합니다:

로컬 솔루션설명
SpeachesGPU 가속 고성능 Whisper API 서버
whisper.cpp경량 C++ 구현, CPU에서도 동작
hwdsl2/whisper-serverDocker 원커맨드 배포
OpenAI 호환 서비스/v1/audio/transcriptions 엔드포인트 지원

Deepgram 무료 $200 크레딧과 API 키는 어떻게 받나요?

신용카드가 필요 없습니다. Deepgram은 신규 사용자에게 $200 무료 크레딧을 제공하며, 가입 시 결제 수단 등록이 불필요합니다. nova-3 모델 기준 $0.007/분으로 약 476시간 분량의 오디오를 텍스트로 변환할 수 있습니다.

Deepgram 가입 및 API 키 발급 절차

  1. deepgram.com에서 Sign Up Free 클릭
  2. Google 계정 또는 이메일로 가입 (신용카드 정보 불필요)
  3. 로그인 후 Console 대시보드 진입, 기본 프로젝트 자동 생성
  4. 왼쪽 사이드바에서 Settings → API Keys 이동
  5. Create a New API Key 클릭
  6. 이름 입력(예: "DualPiP"), 권한 Member 선택, Create Key 클릭
  7. API 키를 즉시 복사하여 안전하게 보관 — 페이지를 닫으면 다시 볼 수 없음
항목세부 정보
무료 크레딧$200 (가입 시 제공)
신용카드 필요아니오
유효기간만료 없음
크레딧 소진 후종량제 (Pay As You Go)
nova-3 요금$0.007/분
$200 사용 가능 시간약 476시간 (≈238편 영화)

DualPiP에서 ASR 실시간 자막을 설정하는 방법

1단계: ASR 프로바이더 추가

  1. DualPiP 확장 프로그램의 설정 페이지 열기
  2. ASR Settings 탭으로 이동
  3. Add Provider 클릭
  4. 프리셋에서 Deepgram(클라우드) 또는 Custom Local Backend(로컬) 선택
  5. Deepgram API 키 또는 로컬 Whisper 서버 주소 입력
  6. 기본 인식 언어(Multilingual 자동 감지 권장)와 모델 선택
  7. 저장

2단계: PIP 창에서 실시간 자막 활성화

  1. 아무 영상 사이트에서 DualPiP PIP 모드 열기 (단축키 Ctrl+Shift+E)
  2. PIP 컨트롤 바에서 ASR 버튼(마이크 아이콘) 클릭
  3. Live Caption 스위치 켜기
  4. 실시간 자막이 영상 위에 즉시 표시

PIP 창에서 단축키 Shift+A로 ASR을 빠르게 전환할 수도 있습니다.


스트리밍 모드와 사전 다운로드 모드의 차이점은?

비교실시간 스트리밍사전 다운로드 배치
지연 시간300ms 미만다운로드 완료 후 제로
적합한 장면라이브 방송, 실시간 콘텐츠공개된 영상, 완전한 자막 필요
지원 백엔드Deepgram (WebSocket)Deepgram + 로컬 Whisper
자막 완성도실시간 생성, 간헐적 누락전체 오디오 완전 커버

DualPiP은 기본적으로 Auto 모드를 사용합니다: WebSocket 스트리밍을 우선 시도하고, 미지원 시 사전 다운로드 배치로 자동 전환합니다.


ASR 자막으로 학습 모드를 활용한 어학 학습 방법

DualPiP ASR이 생성한 자막은 타임스탬프가 포함되어 학습 모드의 모든 기능과 호환됩니다:

  • 자막 목록 패널: ASR 인식 문장이 시간순으로 우측 패널에 표시, 클릭으로 이동
  • AB 루프 반복: ASR 자막의 특정 문장을 선택해 반복 재생, 듣기 연습
  • 자동 일시정지: 문장마다 자동 일시정지, 따라 말하기에 최적
  • 이중 자막: ASR 자막에 AI 번역을 결합해 원문+번역문 동시 표시

ASR 자막과 기존 자막은 DualPiP에서 상호 배타적입니다. ASR을 활성화하면 기존 자막이 자동으로 비활성화되고, 반대도 마찬가지입니다. 고품질 네이티브 자막이 있는 영상은 기존 자막을 우선 사용하거나 자막 검색으로 자막 파일을 다운로드하세요. ASR은 자막이 없거나 자동 생성 자막의 품질이 낮은 영상에 가장 적합합니다.


ASR 자막에 AI 번역을 결합해 실시간 이중 자막을 생성하는 방법

DualPiP의 ASR과 AI 번역을 결합하면 어떤 언어의 영상이든 실시간 이중 자막을 생성할 수 있습니다. 영상에 네이티브 자막이 없지만 이중 자막으로 어학 학습이 필요한 상황에서 최적의 솔루션입니다.

ASR + AI 번역 워크플로우

  1. ASR이 원어를 인식: Deepgram이 영상 오디오를 원어 텍스트 자막으로 변환
  2. AI 대규모 언어 모델이 실시간 번역: DualPiP의 AI 번역 엔진이 ASR 자막을 목표 언어로 번역
  3. 이중 자막 동시 표시: 원문과 번역문이 이중 자막으로 영상 위에 오버레이

ASR 자막 번역에 AI 대규모 언어 모델을 강력 추천하는 이유

ASR로 생성된 자막은 실시간 음성 전사물이므로 문장 구분이 불완전하거나 구어체 표현이 많습니다. AI 대규모 언어 모델 번역(DeepSeek, GPT, Claude 등)은 ASR 자막 번역에서 기존 기계 번역(Google, Microsoft)보다 월등히 우수합니다:

비교 항목기존 기계 번역AI 대규모 언어 모델 번역
문맥 이해문장별 번역, 앞뒤 문맥 없음DualPiP이 최근 N개 자막을 대화 이력으로 전송
구어체 처리구어를 직역, 부자연스러움대화 문맥을 이해, 자연스러운 번역
고유명사인명, 용어 오역 빈발DualPiP 영화 정보 연동으로 인식 강화

적합한 활용 시나리오

시나리오설명
자막 없는 외국어 영상으로 어학 학습ASR로 원문 인식 + AI 번역으로 모국어 번역, 이중 대조 학습
라이브 방송 시청사전 제작 자막 없음, ASR 실시간 생성 + AI 실시간 번역
학술 강의 및 온라인 강좌일부 강좌에 자막이 없는 경우, ASR + AI로 번역 생성
팟캐스트 및 인터뷰오디오 콘텐츠를 ASR로 텍스트화 후 번역

DualPiP은 30+ AI 번역 서비스를 지원합니다. ASR 자막에는 DeepSeek V4 Flash(가성비 최고) 또는 Groq Llama(무료 한도, 최고 속도)를 추천합니다.


DualPiP ASR은 어떤 영상 사이트에서 작동하나요?

DualPiP ASR은 브라우저의 Audio Capture API로 오디오를 캡처하므로 Chrome에서 재생 가능한 모든 영상에 자막을 자동 생성할 수 있습니다:

플랫폼 유형지원 사이트
영상 플랫폼YouTube, Netflix, Disney+, Bilibili, Crunchyroll, HiAnime
학습 플랫폼Coursera, Udemy, TED, edX, Khan Academy
라이브 스트리밍Twitch, YouTube Live
회의 도구Zoom(웹), Google Meet
기타HTML5 <video> 태그를 사용하는 모든 사이트

자주 묻는 질문

Q: ASR 음성인식 정확도는? Deepgram nova-3 모델은 영어 단어 오류율(WER)이 8% 미만으로, 2026년 가장 정확한 실시간 음성인식 모델 중 하나입니다. 한국어, 일본어 등의 인식 정확도도 우수합니다.

Q: $200 무료 크레딧을 다 쓰면? 종량제(Pay As You Go)로 자동 전환됩니다. nova-3은 $0.007/분, 2시간 영화 약 $0.84입니다. 로컬 Whisper로 전환하면 완전 무료입니다.

Q: ASR은 무료 기능인가요? ASR 실시간 자막은 Premium 기능입니다. YouTube 웹 이중 자막과 기본 PIP 플레이어는 무료입니다.

Q: 영상에서 여러 언어가 섞여도 인식 가능한가요? Deepgram의 다국어 모드는 같은 오디오 내에서 언어를 자동 감지 및 전환합니다.


DualPiP ASR 실시간 자막 시작하기

  1. DualPiP 설치: Chrome Web Store | Edge Add-ons
  2. Deepgram 무료 $200 크레딧 받기: deepgram.com (신용카드 불필요)
  3. DualPiP 설정에서 Deepgram 프로바이더 추가 및 API 키 입력
  4. 아무 영상의 PIP 창을 열고 ASR 버튼으로 실시간 자막 활성화

AI 이중 번역학습 모드를 결합하면 모든 영상이 효과적인 어학 학습 교재가 됩니다.