Wie man Untertitel für Videos ohne Text erstellt und übersetzt: Eine komplette Von-Null-Lösung

Erfahren Sie, wie Sie die lokale KI-Transkription von SubEnvoy nutzen, um Sprache in Text umzuwandeln, ohne Ihre Videodateien ins Internet hochzuladen.

Übersicht

Dieser Leitfaden bietet Ihnen die ultimative Lösung für Videos ohne Untertitel. Mit der Funktion Transkribieren (Transcribe) von SubEnvoy können Sie jedes Video oder jede Audiodatei in synchronisierte Textuntertitel umwandeln.

SubEnvoy nutzt das weltweit führende Spracherkennungsmodell Whisper, das speziell für Apple-Chips (Core ML) optimiert wurde. Der gesamte Prozess läuft lokal auf Ihrem Gerät ab, was höchste Privatsphäre für Ihre persönlichen oder geschäftlichen Inhalte garantiert.

Hinweis: SubEnvoy ist vollständig auf Deutsch lokalisiert. Zur Wahrung der Konsistenz der Dokumentation werden in diesem Leitfaden Screenshots der englischen Version zur Veranschaulichung verwendet. Die UI-Begriffe sind unten im Format Deutsch (Englisch) aufgeführt.

Schritt-für-Schritt-Anleitung (Beispiel Mac-Version)

Schritt 1: KI-Modell vorbereiten

Bei der ersten Nutzung müssen Sie ein optimiertes KI-Modell herunterladen. Es stehen zwei Größen zur Auswahl:

KI-Modell herunterladen

Modell-Download: Wählen Sie das passende Modell für Ihre Hardware

Lite-Modell (482 MB): Schnell, leichtgewichtig, ideal für eine schnelle Vorschau oder weniger leistungsstarke Geräte.
Pro-Modell (1,51 GB): Basiert auf der Whisper Large V3 Architektur. Empfohlen für höchste Genauigkeit, auch bei komplexen Akzenten oder Hintergrundgeräuschen.

Schritt 2: Videodatei importieren

Ziehen Sie das Video per Drag-and-Drop in das Fenster oder nutzen Sie die Schaltfläche Datei öffnen (Open File).

Bereit zum Import

Bereitschaftsanzeige: Unterstützt MP4, MOV, MKV, AVI usw.

Schritt 3: Audiotonspur auswählen

Falls das Video mehrere Tonspuren enthält (z. B. Originalton und Synchronisation), wählen Sie die gewünschte Spur aus.

Audiotonspur auswählen

Tonspur-Wahl: SubEnvoy erkennt Sprache und Format automatisch

Schritt 4: KI-Engine initialisieren

Das System extrahiert den Ton und bereitet die Hardwarebeschleunigung vor.

Initialisierung

Initialisierungsphase: Vorbereitung der Neural Engine

Modell-Aufwärmphase (Model Warming Up…): Beim ersten Start wird das Modell spezifisch für Ihren Prozessor kompiliert.
Zeitaufwand: 2-5 Min. bei neuen Chips, bis zu 15 Min. bei älteren Modellen. Nachfolgende Nutzungen starten sofort.

Schritt 5: Echtzeit-Transkription

Verfolgen Sie den Fortschritt der Spracherkennung.

Transkriptionsfortschritt

Transkription: Die KI arbeitet lokal über die Neural Engine

Schritt 6: Fertigstellung und Speichern

Nach Abschluss haben Sie zwei Hauptoptionen:

Transkription abgeschlossen

Abgeschlossen: Lokal speichern oder direkt übersetzen

Untertitel speichern (Save Subtitle): Erstellt eine Standard-.srt-Datei.
Übersetzung starten (Start Translation): Falls Sie die Untertitel in eine andere Sprache übersetzen möchten, können Sie direkt den Cloud-Prozess starten.

Unterschiede bei iOS/iPadOS

Nur Lite-Modell: Auf iPhone und iPad wird einheitlich das Lite-Modell verwendet.
- Grund: Dies bietet die beste Balance zwischen Speicherplatz, Verarbeitungsgeschwindigkeit und Akkulaufzeit auf mobilen Geräten.
WiFi-Übertragung: Nutzen Sie den Netzwerkdienst, um Videos kabellos von einem Windows-PC zu übertragen.

FAQ

Q: Wird nach der Transkription direkt ins Deutsche übersetzt?
A: Nein. Die Transkription wandelt Sprache in Text der gleichen Sprache um (z. B. Englisch zu Englisch). Klicken Sie danach auf Übersetzung starten, um Deutsch zu erhalten.

Q: Ist eine Internetverbindung erforderlich?
A: Nein. Abgesehen vom ersten Download des Modells läuft der Prozess komplett offline ab.

Q: Kann ich die App während der Transkription schließen?
A: Nein. Da der Prozess Ihre lokale Hardware nutzt, würde das Schließen der App die Bearbeitung abbrechen.