Como criar e traduzir legendas para vídeos sem texto: uma solução completa do zero

Aprenda a utilizar a transcrição por IA local do SubEnvoy para converter a fala em texto sem carregar os seus ficheiros de vídeo para a Internet.

Visão Geral

Este guia oferece-lhe a solução definitiva para vídeos “sem legendas”. Graças à função Transcrição (Transcribe) do SubEnvoy, transforme qualquer vídeo ou ficheiro de áudio em legendas de texto sincronizadas.

O SubEnvoy integra o modelo de reconhecimento de fala Whisper, otimizado para os chips da Apple (Core ML). O processo é completamente local, garantindo uma privacidade absoluta para os seus conteúdos pessoais ou profissionais (conferências, formação, filmes).

Nota: O SubEnvoy está totalmente traduzido para português. Para manter a consistência da documentação, as capturas de ecrã neste guia utilizam a versão em inglês para fins ilustrativos. Os termos da interface são indicados abaixo com a sua correspondência português (inglês).

Guia Passo a Passo (exemplo na versão Mac)

Passo 1: Preparar o modelo de IA

Ao utilizar a função pela primeira vez, deve descarregar um modelo otimizado. Estão disponíveis dois tamanhos:

Descarregar modelo de IA

Download do modelo: Escolha o mais adequado para o seu hardware

Modelo Lite (482 MB): Rápido, leve, ideal para uma pré-visualização rápida ou dispositivos menos potentes.
Modelo Pro (1,51 GB): Baseado na arquitetura Whisper Large V3. Recomendado para uma precisão máxima, mesmo com sotaques complexos ou ruído de fundo.

Passo 2: Importar o ficheiro de vídeo

Arraste o seu vídeo para a janela ou utilize o botão Abrir Ficheiro (Open File).

Pronto para importar

Interface pronta: Suporta MP4, MOV, MKV, AVI, etc.

Passo 3: Selecionar a faixa de áudio

Se o vídeo tiver vários idiomas (ex: versão original e dobragem), escolha a faixa que deseja processar.

Selecionar faixa de áudio

Escolha de áudio: O SubEnvoy deteta o idioma e o formato automaticamente

Passo 4: Inicialização do motor de IA

O sistema extrai o áudio e prepara a aceleração de hardware.

Inicialização

Fase de inicialização: Preparação do Neural Engine

Aquecimento do modelo (Model Warming Up…): Na primeira execução, o SubEnvoy compila o modelo especificamente para o seu processador.
Tempo estimado: 2-5 min em chips recentes, até 15 min em modelos mais antigos. As utilizações posteriores serão instantâneas.

Passo 5: Transcrição em tempo real

Acompanhe o progresso do reconhecimento de fala em direto.

Progresso da transcrição

Transcrição: A IA trabalha localmente através do Neural Engine

Passo 6: Finalização e gravação

Uma vez concluído, tem duas opções principais:

Transcrição concluída

Concluído: Guarde localmente ou passe diretamente para a tradução

Guardar Legendas (Save Subtitle): Gera um ficheiro padrão .srt.
Iniciar Tradução (Start Translation): Se desejar traduzir as legendas para outro idioma, pode iniciar o processo na nuvem diretamente.

Diferenças no iOS/iPadOS

Apenas modelo Lite: No iPhone e iPad, é utilizado uniformemente o modelo Lite.
- Razão: Oferece o melhor equilíbrio entre espaço de armazenamento, velocidade de processamento e duração da bateria em dispositivos móveis.
Transferência WiFi: Utilize o serviço de rede para carregar vídeos sem fios a partir de um PC com Windows.

FAQ

P: A transcrição traduz diretamente para português?
R: Não. A transcrição converte a fala em texto do mesmo idioma (ex: de inglês para inglês). Clique depois em Iniciar Tradução para obter português.

P: É necessária uma ligação à Internet?
R: Não. À exceção do download inicial do modelo, todo o processo é realizado offline.

P: Posso fechar a aplicação durante a transcrição?
R: No. Uma vez que o processo utiliza o seu hardware local, fechar a aplicação interromperia o progresso.