Cómo crear y traducir subtítulos para vídeos sin texto: una solución completa desde cero

Aprenda a utilizar la transcripción por IA local de SubEnvoy para convertir el habla en texto sin subir sus archivos de vídeo a Internet.

Resumen

Esta guía le ofrece la solución definitiva para vídeos “sin subtítulos”. Gracias a la función Transcribir (Transcribe) de SubEnvoy, transforme cualquier vídeo o archivo de audio en subtítulos de texto sincronizados.

SubEnvoy integra el modelo de reconocimiento de voz Whisper, optimizado para los chips de Apple (Core ML). El proceso es completamente local, lo que garantiza una privacidad absoluta para sus contenidos personales o profesionales (conferencias, formación, películas).

Nota: SubEnvoy está totalmente traducido al español. Para mantener la coherencia de la documentación, las capturas de pantalla de esta guía utilizan la versión en inglés con fines ilustrativos. Los términos de la interfaz se indican a continuación con su correspondencia español (inglés).

Guía paso a paso (ejemplo en versión Mac)

Paso 1: Preparar el modelo de IA

Al usar la función por primera vez, debe descargar un modelo optimizado. Hay dos tamaños disponibles:

Descargar modelo de IA

Descarga del modelo: Elija el más adecuado para su hardware

Modelo Lite (482 MB): Rápido, ligero, ideal para una vista previa rápida o dispositivos menos potentes.
Modelo Pro (1,51 GB): Basado en la arquitectura Whisper Large V3. Recomendado para una precisión máxima, incluso con acentos complejos o ruido de fondo.

Paso 2: Importar el archivo de vídeo

Arrastre su vídeo a la ventana o utilice el botón Abrir archivo (Open File).

Listo para importar

Interfaz lista: Soporta MP4, MOV, MKV, AVI, etc.

Paso 3: Seleccionar la pista de audio

Si el vídeo tiene varios idiomas (ej. versión original y doblaje), elija la pista que desea procesar.

Seleccionar pista de audio

Elección de audio: SubEnvoy detecta el idioma y el formato automáticamente

Paso 4: Inicialización del motor de IA

El sistema extrae el audio y prepara la aceleración de hardware.

Inicialización

Fase de inicialización: Preparación del Neural Engine

Calentamiento del modelo (Model Warming Up…): En la primera ejecución, SubEnvoy compila el modelo específicamente para su procesador.
Tiempo estimado: 2-5 min en chips recientes, hasta 15 min en modelos más antiguos. Los usos posteriores serán instantáneos.

Paso 5: Transcripción en tiempo real

Siga el progreso del reconocimiento de voz en directo.

Progreso de la transcripción

Transcripción: La IA trabaja localmente mediante el Neural Engine

Paso 6: Finalización y guardado

Una vez completado, tiene dos opciones principales:

Transcripción completada

Completado: Guarde localmente o pase directamente a la traducción

Guardar subtítulos (Save Subtitle): Genera un archivo estándar .srt.
Iniciar traducción (Start Translation): Si desea traducir los subtítulos a otro idioma, puede iniciar el proceso en la nube directamente.

Diferencias en iOS/iPadOS

Solo modelo Lite: En iPhone y iPad, se utiliza uniformemente el modelo Lite.
- Razón: Ofrece el mejor equilibrio entre espacio de almacenamiento, velocidad de procesamiento y duración de la batería en dispositivos móviles.
Transferencia WiFi: Utilice el servicio de red para subir vídeos de forma inalámbrica desde un PC con Windows.

Preguntas frecuentes (FAQ)

P: ¿La transcripción traduce directamente al español?
R: No. La transcripción convierte el habla en texto del mismo idioma (ej. de inglés a inglés). Haga clic después en Iniciar traducción para obtener español.

P: ¿Se requiere conexión a Internet?
R: No. A excepción de la descarga inicial del modelo, todo el proceso se realiza sin conexión.

P: ¿Puedo cerrar la aplicación durante la transcripción?
R: No. Dado que el proceso utiliza su hardware local, cerrar la aplicación interrumpiría el progreso.