Zurück zur Liste
guide··Rabbitpair

Wie man automatisch KI-Untertitel für Online-Videos generiert – DualPiP + Deepgram Anleitung

#ASR#Live-Untertitel#Spracherkennung#Deepgram#Chrome-Erweiterung#Bild-in-Bild#Sprachenlernen#automatische Untertitel

Wie generiert man automatisch KI-Untertitel für Videos ohne Untertitel?

Viele Online-Videos haben keine Untertitel oder nur automatisch generierte Untertitel von schlechter Qualität. DualPiP 1.7.0 bietet ASR-Live-Untertitel (automatische Spracherkennung), die für jedes Web-Video in Echtzeit hochpräzise KI-Untertitel generieren. Die Untertitel werden im Bild-in-Bild-Fenster vollständig angezeigt und sind mit dem Lernmodus und der KI-Übersetzung vollständig integriert.

DualPiP ASR erfasst den Audiostream des Videos im Browser, sendet ihn an einen Spracherkennungsdienst wie Deepgram zur Echtzeit-Transkription und blendet zeitgestempelte Untertitel über dem Video ein. Falls das Video native Untertitel hat, die aber schlecht sind, können Sie auch DualPiPs Untertitel-Suche nutzen, um bessere Untertiteldateien zu finden.


Was ist der Unterschied zwischen DualPiP ASR und Chromes integrierter Live-Untertitelung?

Chrome hat eine eingebaute Live-Caption-Funktion unter Einstellungen → Bedienungshilfen. Allerdings hat Chromes integrierte Untertitelung erhebliche Einschränkungen – insbesondere verschwinden die Untertitel im Bild-in-Bild-Modus.

VergleichChrome Live CaptionDualPiP ASR Live-Untertitel
Bild-in-BildUntertitel verschwinden in PiPVollständige Untertitel im PiP-Fenster
GenauigkeitDurchschnittlichDeepgram nova-3, automatische Interpunktion
ZweisprachigSeparate ÜbersetzungsfunktionIntegriert mit 12 Übersetzungs-Engines, KI-LLM empfohlen
LernmodusNicht unterstütztUntertitel-Panel, AB-Schleife
Untertitel-StilFestVollständig anpassbar
Untertitel-PositionBrowser-Blase unten, verdeckt SeiteninhaltAuf dem Video eingeblendet, folgt dem Wiedergabefenster
Sprachen~20 Sprachen22 Sprachen + mehrsprachige Erkennung
ErkennungsmodiNur Echtzeit-StreamingEchtzeit-WebSocket + Pre-Download-Batch

Welche Spracherkennungsdienste unterstützt DualPiP ASR?

DualPiP ASR nutzt eine BYOK-Architektur (Bring Your Own Key). Anfragen gehen direkt vom Browser zum Anbieter.

Cloud-ASR: Deepgram

Deepgram verwendet das nova-3-Modell – eines der genauesten Echtzeit-Spracherkennungsmodelle:

  • Echtzeit-WebSocket-Streaming: Latenz unter 300ms
  • Intelligente Interpunktion: Automatische Satzzeichen und Satzerkennung
  • 22 Sprachen: Deutsch, Englisch, Französisch, Japanisch, Koreanisch und mehr
  • Mehrsprachige Erkennung: Automatische Spracherkennung und -umschaltung
  • Günstig: $0,007/Minute, ~$0,84 für einen 2-Stunden-Film

Lokales ASR: Whisper

DualPiP unterstützt auch lokal betriebene OpenAI-kompatible Whisper-Server – Audio wird vollständig lokal verarbeitet:

LösungBeschreibung
SpeachesGPU-beschleunigter Whisper-API-Server
whisper.cppLeichtgewichtige C++-Implementierung
hwdsl2/whisper-serverDocker-Ein-Befehl-Deployment
Jeder OpenAI-kompatible ServerJeder Dienst mit /v1/audio/transcriptions-Endpunkt

Lokale Backends verwenden den HTTP-Batch-Erkennungsmodus – DualPiP sendet Audiosegmente (Standard: 5 Sekunden) zur Transkription. Komplett kostenlos und offline nutzbar.


Wie bekommt man Deepgrams kostenloses $200-Guthaben und den API Key?

Keine Kreditkarte erforderlich. Deepgram bietet neuen Nutzern $200 Gratis-Guthaben – bei der Registrierung ist keine Zahlungsmethode nötig. Mit dem nova-3-Modell ($0,007/Min.) reichen $200 für etwa 476 Stunden Audio – rund 238 Spielfilme.

Registrierung und API-Key-Erstellung

  1. Besuchen Sie deepgram.com und klicken Sie auf Sign Up Free
  2. Registrieren Sie sich mit Google-Konto oder E-Mail (keine Kreditkarte nötig)
  3. Nach dem Login gelangen Sie ins Console-Dashboard mit automatisch erstelltem Projekt
  4. Navigieren Sie zu Settings → API Keys
  5. Klicken Sie auf Create a New API Key
  6. Geben Sie einen Namen ein (z.B. „DualPiP"), wählen Sie Member und klicken Sie Create Key
  7. Kopieren und speichern Sie den API Key sofort – er kann nach Schließen der Seite nicht erneut angezeigt werden
InfoDetails
Gratis-Guthaben$200 (bei Registrierung)
Kreditkarte nötigNein
AblaufdatumKeins
Nach VerbrauchPay As You Go
Nova-3-Preis$0,007/Minute

Wie richtet man ASR-Live-Untertitel in DualPiP ein?

Schritt 1: ASR-Provider hinzufügen

  1. Öffnen Sie die Einstellungsseite der DualPiP-Erweiterung
  2. Wechseln Sie zum Tab ASR Settings
  3. Klicken Sie auf Add Provider
  4. Wählen Sie Deepgram (Cloud) oder Custom Local Backend (Lokal)
  5. Geben Sie Ihren Deepgram API Key oder die lokale Whisper-Serveradresse ein
  6. Wählen Sie die Standard-Erkennungssprache (Multilingual empfohlen)
  7. Speichern

Schritt 2: Live-Untertitel im PiP-Fenster aktivieren

  1. Öffnen Sie den DualPiP Bild-in-Bild-Modus auf einer Video-Website (Ctrl+Shift+E)
  2. Klicken Sie auf die ASR-Schaltfläche (Mikrofon-Symbol)
  3. Aktivieren Sie Live Caption
  4. Echtzeit-Untertitel erscheinen sofort

Tastenkürzel Shift+A schaltet ASR im PiP-Fenster schnell ein/aus.


Was ist der Unterschied zwischen Streaming- und Pre-Download-Modus?

VergleichEchtzeit-StreamingPre-Download-Batch
Latenz< 300msNull nach Download
Geeignet fürLivestreams, Echtzeit-InhalteVeröffentlichte Videos
BackendsDeepgram (WebSocket)Deepgram + lokales Whisper
VollständigkeitEchtzeit, gelegentliche LückenVollständige Audio-Abdeckung

Wie nutzt man ASR-Untertitel mit dem Lernmodus?

DualPiP ASR-Untertitel sind mit Lernmodus vollständig kompatibel:

  • Untertitel-Panel: Jeder erkannte Satz chronologisch aufgelistet
  • AB-Schleife: Einzelne Sätze wiederholt abspielen
  • Auto-Pause: Automatische Pause nach jedem Satz zum Nachsprechen
  • Zweisprachige Anzeige: ASR-Untertitel mit KI-Übersetzung kombinieren

ASR-Untertitel und traditionelle Untertitel sind in DualPiP gegenseitig exklusiv: Beim Aktivieren von ASR werden traditionelle Untertitel automatisch deaktiviert und umgekehrt. Wenn ein Video hochwertige native Untertitel hat, verwenden Sie diese zuerst oder laden Sie über die Untertitel-Suche Untertiteldateien herunter. ASR eignet sich am besten für Videos ohne Untertitel oder mit minderwertigen automatischen Untertiteln.


Wie kombiniert man ASR mit KI-Übersetzung für zweisprachige Echtzeit-Untertitel?

DualPiPs ASR und KI-Übersetzung arbeiten zusammen, um für jedes Video in jeder Sprache zweisprachige Echtzeit-Untertitel zu generieren – ideal wenn das Video keine nativen Untertitel hat, Sie aber zweisprachige Untertitel zum Sprachenlernen benötigen.

ASR + KI-Übersetzung Workflow

  1. ASR erkennt die Originalsprache: Deepgram transkribiert das Audio in Quellsprache-Textuntertitel
  2. KI-LLM übersetzt in Echtzeit: DualPiPs KI-Übersetzungs-Engine übersetzt die ASR-Untertitel in Ihre Zielsprache
  3. Zweisprachige Untertitel gleichzeitig: Original und Übersetzung als zweisprachige Untertitel auf dem Video

Warum KI-LLM-Übersetzung für ASR-Untertitel empfohlen wird

ASR-generierte Untertitel sind Echtzeit-Sprachtranskriptionen mit möglicherweise unvollständigen Satzgrenzen. KI-LLM-Übersetzung (DeepSeek, GPT, Claude) übertrifft traditionelle maschinelle Übersetzung bei ASR-Untertiteln deutlich:

AspektTraditionelle MTKI-LLM-Übersetzung
KontextverständnisSatz für Satz, kein KontextDualPiP sendet die letzten N Untertitel als Gesprächsverlauf
UmgangsspracheWörtliche ÜbersetzungVersteht gesprochene Sprache natürlich
EigennamenHäufige FehlerDurch DualPiPs Film-Info-Integration verbessert

Geeignete Anwendungsszenarien

SzenarioBeschreibung
Fremdsprachenvideos ohne UntertitelASR erkennt Original + KI übersetzt in Muttersprache
Livestreams schauenKeine vorgefertigten Untertitel – ASR + KI generieren in Echtzeit
Vorlesungen und Online-KurseKurse ohne Untertitel – ASR + KI erzeugen Übersetzungen
Podcasts und InterviewsAudio-Inhalte per ASR als Text visualisiert und übersetzt

DualPiP unterstützt 30+ KI-Übersetzungsanbieter. Für ASR-Untertitel empfehlen wir DeepSeek V4 Flash (bestes Preis-Leistungs-Verhältnis) oder Groq Llama (kostenloses Kontingent, schnellste Antwortzeit).


Welche Video-Websites unterstützt DualPiP ASR?

DualPiP ASR nutzt die Audio Capture API des Browsers und kann theoretisch für jedes in Chrome abgespielte Video Untertitel generieren:

PlattformtypUnterstützte Websites
Video-PlattformenYouTube, Netflix, Disney+, Bilibili, Crunchyroll, HiAnime
Lern-PlattformenCoursera, Udemy, TED, edX, Khan Academy
LivestreamingTwitch, YouTube Live
Meeting-ToolsZoom (Web), Google Meet

Häufig gestellte Fragen

F: Wie genau ist die ASR-Spracherkennung? Deepgram nova-3 erreicht eine Wortfehlerrate (WER) unter 8% für Englisch. Deutsch und andere Sprachen liefern ebenfalls ausgezeichnete Ergebnisse.

F: Was passiert nach Verbrauch des $200-Guthabens? Es wird automatisch auf Pay-as-you-go umgestellt. Nova-3 kostet $0,007/Minute. Alternativ kann man auf lokales Whisper umstellen – komplett kostenlos.

F: Können ASR-Untertitel und traditionelle Untertitel gleichzeitig angezeigt werden? Nein. DualPiP behandelt sie als gegenseitig exklusiv. Wenn das Video hochwertige native Untertitel hat, verwenden Sie diese zuerst.

F: Ist ASR eine kostenlose oder Premium-Funktion? ASR-Live-Untertitel sind eine Premium-Funktion. YouTubes In-Page zweisprachige Untertitel und der Basis-PiP-Player sind kostenlos.

F: Welche Hardware braucht man für ein lokales Whisper-Backend? Empfohlen wird eine NVIDIA GPU mit 6+ GB VRAM. CPU funktioniert auch, ist aber langsamer. hwdsl2/whisper-server via Docker ist die einfachste Methode.

F: Kann es gemischte Sprachen in einem Video erkennen? Deepgrams Multilingual-Modus erkennt und wechselt automatisch zwischen Sprachen im selben Audiostream – ideal für mehrsprachige Interviews und Podcasts.


DualPiP ASR Live-Untertitel jetzt ausprobieren

  1. DualPiP installieren: Chrome Web Store | Edge Add-ons
  2. Deepgram-Gratis-Guthaben holen: deepgram.com (keine Kreditkarte nötig)
  3. Deepgram-Provider in DualPiP hinzufügen und API Key eingeben
  4. PiP-Fenster öffnen und ASR-Schaltfläche klicken

Mit KI-Übersetzung und Lernmodus wird jedes Video zum effektiven Sprachlern-Material.