Como criar e traduzir legendas para vídeos sem texto: uma solução completa do zero
Aprenda a utilizar a transcrição por IA local do SubEnvoy para converter a fala em texto sem carregar os seus ficheiros de vídeo para a Internet.
Visão Geral
Este guia oferece-lhe a solução definitiva para vídeos “sem legendas”. Graças à função Transcrição (Transcribe) do SubEnvoy, transforme qualquer vídeo ou ficheiro de áudio em legendas de texto sincronizadas.
O SubEnvoy integra o modelo de reconhecimento de fala Whisper, otimizado para os chips da Apple (Core ML). O processo é completamente local, garantindo uma privacidade absoluta para os seus conteúdos pessoais ou profissionais (conferências, formação, filmes).
Nota: O SubEnvoy está totalmente traduzido para português. Para manter a consistência da documentação, as capturas de ecrã neste guia utilizam a versão em inglês para fins ilustrativos. Os termos da interface são indicados abaixo com a sua correspondência português (inglês).
Guia Passo a Passo (exemplo na versão Mac)
Passo 1: Preparar o modelo de IA
Ao utilizar a função pela primeira vez, deve descarregar um modelo otimizado. Estão disponíveis dois tamanhos:

Download do modelo: Escolha o mais adequado para o seu hardware
- Modelo Lite (482 MB): Rápido, leve, ideal para uma pré-visualização rápida ou dispositivos menos potentes.
- Modelo Pro (1,51 GB): Baseado na arquitetura Whisper Large V3. Recomendado para uma precisão máxima, mesmo com sotaques complexos ou ruído de fundo.
Passo 2: Importar o ficheiro de vídeo
Arraste o seu vídeo para a janela ou utilize o botão Abrir Ficheiro (Open File).

Interface pronta: Suporta MP4, MOV, MKV, AVI, etc.
Passo 3: Selecionar a faixa de áudio
Se o vídeo tiver vários idiomas (ex: versão original e dobragem), escolha a faixa que deseja processar.

Escolha de áudio: O SubEnvoy deteta o idioma e o formato automaticamente
Passo 4: Inicialização do motor de IA
O sistema extrai o áudio e prepara a aceleração de hardware.

Fase de inicialização: Preparação do Neural Engine
- Aquecimento do modelo (Model Warming Up…): Na primeira execução, o SubEnvoy compila o modelo especificamente para o seu processador.
- Tempo estimado: 2-5 min em chips recentes, até 15 min em modelos mais antigos. As utilizações posteriores serão instantâneas.
Passo 5: Transcrição em tempo real
Acompanhe o progresso do reconhecimento de fala em direto.

Transcrição: A IA trabalha localmente através do Neural Engine
Passo 6: Finalização e gravação
Uma vez concluído, tem duas opções principais:

Concluído: Guarde localmente ou passe diretamente para a tradução
- Guardar Legendas (Save Subtitle): Gera um ficheiro padrão .srt.
- Iniciar Tradução (Start Translation): Se desejar traduzir as legendas para outro idioma, pode iniciar o processo na nuvem diretamente.
Diferenças no iOS/iPadOS
- Apenas modelo Lite: No iPhone e iPad, é utilizado uniformemente o modelo Lite.
- Razão: Oferece o melhor equilíbrio entre espaço de armazenamento, velocidade de processamento e duração da bateria em dispositivos móveis.
- Transferência WiFi: Utilize o serviço de rede para carregar vídeos sem fios a partir de um PC com Windows.
FAQ
P: A transcrição traduz diretamente para português?
R: Não. A transcrição converte a fala em texto do mesmo idioma (ex: de inglês para inglês). Clique depois em Iniciar Tradução para obter português.
P: É necessária uma ligação à Internet?
R: Não. À exceção do download inicial do modelo, todo o processo é realizado offline.
P: Posso fechar a aplicação durante a transcrição?
R: No. Uma vez que o processo utiliza o seu hardware local, fechar a aplicação interromperia o progresso.