Comment créer et traduire des sous-titres pour des vidéos sans texte : une solution complète à partir de zéro

Apprenez à utiliser la transcription IA locale de SubEnvoy pour convertir la parole en texte sans envoyer vos fichiers vidéo sur internet.

Aperçu

Ce guide vous offre la solution ultime pour les vidéos “sans sous-titres”. Grâce à la fonction Transcription (Transcribe) de SubEnvoy, transformez n’importe quelle vidéo ou fichier audio en sous-titres textuels synchronisés.

SubEnvoy intègre le modèle de reconnaissance vocale Whisper, optimisé pour les puces Apple (Core ML). Le processus est entièrement local, garantissant une confidentialité absolue pour vos contenus personnels ou professionnels (conférences, formations, films).

Remarque : SubEnvoy est entièrement traduit en français. Pour assurer la cohérence de la documentation, les captures d’écran de ce guide utilisent la version anglaise à titre d’illustration. Les termes de l’interface sont indiqués ci-dessous avec leur correspondance français (anglais).

Guide étape par étape (exemple sur Mac)

Étape 1 : Préparer le modèle IA

Lors de la première utilisation, vous devez télécharger un modèle optimisé. Deux tailles sont disponibles :

Téléchargement du modèle IA

Sélection du modèle : Choisissez celui adapté à votre matériel

Modèle Lite (482 Mo) : Rapide, léger, idéal pour les aperçus ou les appareils moins puissants.
Modèle Pro (1,51 Go) : Basé sur l’architecture Whisper Large V3. Recommandé pour une précision maximale, même avec des accents complexes ou du bruit de fond.

Étape 2 : Importer le fichier vidéo

Faites glisser votre vidéo ou utilisez le bouton Ouvrir le fichier (Open File).

Prêt pour l'import

Interface de prêt : Supporte MP4, MOV, MKV, AVI, etc.

Étape 3 : Sélectionner la piste audio

Si la vidéo possède plusieurs langues (ex: version originale et doublage), choisissez la piste à traiter.

Sélection de la piste audio

Choix de l'audio : SubEnvoy détecte la langue et le format

Étape 4 : Initialisation du moteur IA

Le système extrait l’audio et prépare la puce Apple.

Initialisation

Phase d'initialisation : Préparation du Neural Engine

Préchauffage du modèle (Model Warming Up…) : Lors de la première exécution, SubEnvoy compile le modèle spécifiquement pour votre processeur.
Temps estimé : 2 à 5 min sur les puces récentes, jusqu’à 15 min sur les modèles plus anciens. Les utilisations suivantes seront instantanées.

Étape 5 : Transcription en temps réel

Suivez la progression de la reconnaissance vocale.

Progression

Transcription : L'IA travaille localement via le Neural Engine

Étape 6 : Finalisation et sauvegarde

Une fois terminé, vous avez deux options principales :

Transcription terminée

Terminé : Sauvegardez localement ou passez à la traduction

Sauvegarder les sous-titres (Save Subtitle) : Génère un fichier .srt.
Démarrer la traduction (Start Translation) : Traduisez immédiatement vos nouveaux sous-titres dans d’autres langues via le cloud.

Différences sur iOS/iPadOS

Modèle Lite uniquement : Sur iPhone et iPad, seul le modèle Lite est disponible.
- Pourquoi ? Pour économiser l’espace de stockage et garantir un équilibre optimal entre vitesse, chaleur de l’appareil et autonomie.
Transfert WiFi : Utilisez le service réseau pour uploader des vidéos depuis un PC Windows.

FAQ

Q : La transcription traduit-elle directement en français ?
R : Non. Elle transcrit ce qui est dit (ex: de l’anglais vers de l’anglais). Cliquez ensuite sur Démarrer la traduction pour obtenir du français.

Q : Est-ce qu’une connexion internet est requise ?
R : Non. Hormis le téléchargement initial du modèle, tout se fait hors-ligne.

Q : Puis-je fermer l’application pendant la transcription ?
R : Non. La transcription utilise la puissance locale de votre appareil. Si vous fermez l’application, le processus s’arrête.