Comment créer et traduire des sous-titres pour des vidéos sans texte : une solution complète à partir de zéro
Apprenez à utiliser la transcription IA locale de SubEnvoy pour convertir la parole en texte sans envoyer vos fichiers vidéo sur internet.
Aperçu
Ce guide vous offre la solution ultime pour les vidéos “sans sous-titres”. Grâce à la fonction Transcription (Transcribe) de SubEnvoy, transformez n’importe quelle vidéo ou fichier audio en sous-titres textuels synchronisés.
SubEnvoy intègre le modèle de reconnaissance vocale Whisper, optimisé pour les puces Apple (Core ML). Le processus est entièrement local, garantissant une confidentialité absolue pour vos contenus personnels ou professionnels (conférences, formations, films).
Remarque : SubEnvoy est entièrement traduit en français. Pour assurer la cohérence de la documentation, les captures d’écran de ce guide utilisent la version anglaise à titre d’illustration. Les termes de l’interface sont indiqués ci-dessous avec leur correspondance français (anglais).
Guide étape par étape (exemple sur Mac)
Étape 1 : Préparer le modèle IA
Lors de la première utilisation, vous devez télécharger un modèle optimisé. Deux tailles sont disponibles :

Sélection du modèle : Choisissez celui adapté à votre matériel
- Modèle Lite (482 Mo) : Rapide, léger, idéal pour les aperçus ou les appareils moins puissants.
- Modèle Pro (1,51 Go) : Basé sur l’architecture Whisper Large V3. Recommandé pour une précision maximale, même avec des accents complexes ou du bruit de fond.
Étape 2 : Importer le fichier vidéo
Faites glisser votre vidéo ou utilisez le bouton Ouvrir le fichier (Open File).

Interface de prêt : Supporte MP4, MOV, MKV, AVI, etc.
Étape 3 : Sélectionner la piste audio
Si la vidéo possède plusieurs langues (ex: version originale et doublage), choisissez la piste à traiter.

Choix de l'audio : SubEnvoy détecte la langue et le format
Étape 4 : Initialisation du moteur IA
Le système extrait l’audio et prépare la puce Apple.

Phase d'initialisation : Préparation du Neural Engine
- Préchauffage du modèle (Model Warming Up…) : Lors de la première exécution, SubEnvoy compile le modèle spécifiquement pour votre processeur.
- Temps estimé : 2 à 5 min sur les puces récentes, jusqu’à 15 min sur les modèles plus anciens. Les utilisations suivantes seront instantanées.
Étape 5 : Transcription en temps réel
Suivez la progression de la reconnaissance vocale.

Transcription : L'IA travaille localement via le Neural Engine
Étape 6 : Finalisation et sauvegarde
Une fois terminé, vous avez deux options principales :

Terminé : Sauvegardez localement ou passez à la traduction
- Sauvegarder les sous-titres (Save Subtitle) : Génère un fichier .srt.
- Démarrer la traduction (Start Translation) : Traduisez immédiatement vos nouveaux sous-titres dans d’autres langues via le cloud.
Différences sur iOS/iPadOS
- Modèle Lite uniquement : Sur iPhone et iPad, seul le modèle Lite est disponible.
- Pourquoi ? Pour économiser l’espace de stockage et garantir un équilibre optimal entre vitesse, chaleur de l’appareil et autonomie.
- Transfert WiFi : Utilisez le service réseau pour uploader des vidéos depuis un PC Windows.
FAQ
Q : La transcription traduit-elle directement en français ?
R : Non. Elle transcrit ce qui est dit (ex: de l’anglais vers de l’anglais). Cliquez ensuite sur Démarrer la traduction pour obtenir du français.
Q : Est-ce qu’une connexion internet est requise ?
R : Non. Hormis le téléchargement initial du modèle, tout se fait hors-ligne.
Q : Puis-je fermer l’application pendant la transcription ?
R : Non. La transcription utilise la puissance locale de votre appareil. Si vous fermez l’application, le processus s’arrête.