Cómo crear y traducir subtítulos para vídeos sin texto: una solución completa desde cero
Aprenda a utilizar la transcripción por IA local de SubEnvoy para convertir el habla en texto sin subir sus archivos de vídeo a Internet.
Resumen
Esta guía le ofrece la solución definitiva para vídeos “sin subtítulos”. Gracias a la función Transcribir (Transcribe) de SubEnvoy, transforme cualquier vídeo o archivo de audio en subtítulos de texto sincronizados.
SubEnvoy integra el modelo de reconocimiento de voz Whisper, optimizado para los chips de Apple (Core ML). El proceso es completamente local, lo que garantiza una privacidad absoluta para sus contenidos personales o profesionales (conferencias, formación, películas).
Nota: SubEnvoy está totalmente traducido al español. Para mantener la coherencia de la documentación, las capturas de pantalla de esta guía utilizan la versión en inglés con fines ilustrativos. Los términos de la interfaz se indican a continuación con su correspondencia español (inglés).
Guía paso a paso (ejemplo en versión Mac)
Paso 1: Preparar el modelo de IA
Al usar la función por primera vez, debe descargar un modelo optimizado. Hay dos tamaños disponibles:

Descarga del modelo: Elija el más adecuado para su hardware
- Modelo Lite (482 MB): Rápido, ligero, ideal para una vista previa rápida o dispositivos menos potentes.
- Modelo Pro (1,51 GB): Basado en la arquitectura Whisper Large V3. Recomendado para una precisión máxima, incluso con acentos complejos o ruido de fondo.
Paso 2: Importar el archivo de vídeo
Arrastre su vídeo a la ventana o utilice el botón Abrir archivo (Open File).

Interfaz lista: Soporta MP4, MOV, MKV, AVI, etc.
Paso 3: Seleccionar la pista de audio
Si el vídeo tiene varios idiomas (ej. versión original y doblaje), elija la pista que desea procesar.

Elección de audio: SubEnvoy detecta el idioma y el formato automáticamente
Paso 4: Inicialización del motor de IA
El sistema extrae el audio y prepara la aceleración de hardware.

Fase de inicialización: Preparación del Neural Engine
- Calentamiento del modelo (Model Warming Up…): En la primera ejecución, SubEnvoy compila el modelo específicamente para su procesador.
- Tiempo estimado: 2-5 min en chips recientes, hasta 15 min en modelos más antiguos. Los usos posteriores serán instantáneos.
Paso 5: Transcripción en tiempo real
Siga el progreso del reconocimiento de voz en directo.

Transcripción: La IA trabaja localmente mediante el Neural Engine
Paso 6: Finalización y guardado
Una vez completado, tiene dos opciones principales:

Completado: Guarde localmente o pase directamente a la traducción
- Guardar subtítulos (Save Subtitle): Genera un archivo estándar .srt.
- Iniciar traducción (Start Translation): Si desea traducir los subtítulos a otro idioma, puede iniciar el proceso en la nube directamente.
Diferencias en iOS/iPadOS
- Solo modelo Lite: En iPhone y iPad, se utiliza uniformemente el modelo Lite.
- Razón: Ofrece el mejor equilibrio entre espacio de almacenamiento, velocidad de procesamiento y duración de la batería en dispositivos móviles.
- Transferencia WiFi: Utilice el servicio de red para subir vídeos de forma inalámbrica desde un PC con Windows.
Preguntas frecuentes (FAQ)
P: ¿La transcripción traduce directamente al español?
R: No. La transcripción convierte el habla en texto del mismo idioma (ej. de inglés a inglés). Haga clic después en Iniciar traducción para obtener español.
P: ¿Se requiere conexión a Internet?
R: No. A excepción de la descarga inicial del modelo, todo el proceso se realiza sin conexión.
P: ¿Puedo cerrar la aplicación durante la transcripción?
R: No. Dado que el proceso utiliza su hardware local, cerrar la aplicación interrumpiría el progreso.