자막 없는 동영상에 자막 생성 및 번역하는 방법: 처음부터 끝까지 한 번에 해결하기

SubEnvoy의 AI 로컬 받아쓰기 기능을 사용하여 Apple 실리콘의 하드웨어 가속으로 동영상 음성을 원래 언어의 텍스트 자막으로 변환하는 방법을 안내합니다. 파일 업로드가 필요 없습니다.

개요

본 가이드는 ‘자막이 전혀 없는 동영상’을 처리하기 위한 궁극적인 해결책을 제시합니다. 지막(SubEnvoy)의 받아쓰기 (Transcribe) 기능을 사용하면 자막 트랙이 없는 동영상이나 오디오 파일을 해당 언어의 정확한 텍스트 자막으로 변환할 수 있습니다.

SubEnvoy는 세계 최고의 오픈 소스 음성 인식 모델인 Whisper를 통합하고 Apple 실리콘에 최적화(Core ML)하였습니다. 모든 과정은 기기 로컬에서 실행되어 개인정보를 완벽하게 보호하며, ‘자막 없음’에서 ‘전 세계 언어 번역’까지의 여정을 지원합니다.

참고: SubEnvoy는 한국어를 완벽하게 지원합니다. 문서의 일관성을 위해 가이드 내 스크린샷은 영어 버전으로 제공되지만, 주요 조작 항목에 대해서는 한글과 영어를 병기하여 설명합니다.

단계별 조작 가이드 (Mac 버전 기준)

기본 플랫폼인 Mac 버전에서는 가장 강력한 성능을 경험할 수 있습니다.

1단계: AI 모델 준비

처음 받아쓰기 기능을 사용할 때는 Apple 실리콘에 최적화된 AI 언어 모델을 다운로드해야 합니다. SubEnvoy는 하드웨어 성능에 맞춰 선택할 수 있는 두 가지 규모의 Whisper 모델을 제공합니다:

AI 모델 다운로드

모델 다운로드: 우측 상단에서 하드웨어 성능에 맞는 모델을 선택하십시오

Lite 모델 (482 MB):
- 특징: 모델이 가볍고 로딩이 매우 빠르며 메모리 점유율이 낮습니다.
- 추천 상황: 빠른 미리보기, 이전 세대 Apple 실리콘 기기(예: 초기 M1) 또는 오디오가 매우 선명한 동영상에 적합합니다.
Pro 모델 (1.51 GB):
- 특징: Whisper Large V3 아키텍처를 채택하여 방대한 파라미터 규모로 최고의 인식 정확도를 제공합니다.
- 권장 사항: Pro (Recommended) 모델 다운로드를 권장합니다. 복잡한 억양, 전문 용어 및 배경 소음이 있는 경우에도 더 정확하게 인식하며 문장 끊기 및 문장 부호 로직이 뛰어납니다.

2단계: 동영상 파일 가져오기

모델 다운로드 및 로드가 완료되면 인터페이스가 준비 상태가 됩니다.

동영상 가져오기 준비

준비 완료 화면: 동영상을 직접 드래그하거나 버튼을 통해 열 수 있습니다

동영상 파일을 창으로 직접 드래그 앤 드롭하거나 파일 열기 (Open File…) 버튼을 클릭하여 선택합니다.
지원 형식: MP4, MOV, MKV, AVI 등 주요 동영상 컨테이너와 호환됩니다.

3단계: 오디오 트랙 선택

동영상에 여러 오디오 트랙(예: 원본 음성과 해설 트랙 등)이 포함된 경우 선택 대화 상자가 나타납니다.

오디오 트랙 선택 화면

트랙 선택: 동영상 내의 모든 오디오 트랙 정보를 자동 인식합니다

SubEnvoy는 오디오 언어 (Audio Language), 코덱 (Codec), 샘플링 레이트 (Sample Rate)를 자동 식별합니다.
받아쓰기를 원하는 트랙을 선택하고 우측 하단의 받아쓰기 (Transcribe)를 클릭합니다.

4단계: AI 엔진 초기화

작업이 시작되면 시스템이 전처리를 수행합니다.

AI 엔진 초기화

초기화 단계: 오디오 추출 및 AI 연산 리소스 준비

시스템은 오디오 추출 (Extract audio) -> 오디오 받아쓰기 (Transcribe audio) -> 자막 생성 (Generate subtitles) 순으로 실행합니다.
모델 예열 (Model Warming Up…) 안내: 처음 실행하거나 모델을 변경할 때, SubEnvoy는 Apple 실리콘의 Neural Engine(신경망 엔진) 성능을 극대화하기 위해 기기의 프로세서에 맞춰 AI 모델을 일회성으로 컴파일(맞춤형 엔진 구축)합니다.
- 이후 속도 향상: 컴파일이 완료되면 시스템에 캐싱됩니다. 다음 사용 시에는 초기화 시간이 몇 분에서 몇 초로 단축됩니다.
- 소요 시간: 최신 기기는 보통 2~~5분, 이전 기기는 8~~15분 정도 소요될 수 있습니다.
- 최적화 팁: 예열 중에는 전원을 연결하고 사용하지 않는 앱을 종료하여 메모리를 확보하십시오. ‘저전력 모드’는 피하는 것이 좋습니다.

5단계: 실시간 받아쓰기 진행

받아쓰기 단계에 진입하면 실시간으로 처리 진행률을 확인할 수 있습니다.

받아쓰기 진행률

받아쓰기 실행: AI가 신경망 엔진을 통해 음성을 인식하고 있습니다

6단계: 완료 및 결과 저장

받아쓰기가 완료되면 성공 메시지가 표시됩니다.

받아쓰기 작업 완료

받아쓰기 완료: 로컬 자막 저장 또는 즉시 클라우드 번역 진행 중 선택 가능

자막 저장 (Save Subtitle): 인식 결과를 표준 .srt 파일로 저장합니다.
번역 시작 (Start Translation): 받아쓰기된 원본 자막을 다른 언어로 번역하려면 이 버튼을 클릭하여 클라우드 번역 프로세스로 바로 이동할 수 있습니다.

iOS / iPadOS 조작 차이점

기능 로직은 동일하지만, 모바일 기기에서는 몇 가지 차이점이 있습니다:

Lite 모델만 지원: Mac 버전과 달리 iOS 앱은 현재 성능을 고려하여 Lite 모델만 사용합니다.
WiFi 전송 (로컬 네트워크 서비스): Windows 사용자인 경우 내장된 ‘네트워크 서비스’를 활성화하여 PC 브라우저로 동영상을 무선 업로드할 수 있습니다.
파일 앱: iOS 내장 ‘파일’ 앱에서 동영상을 직접 선택합니다.

자주 묻는 질문 (FAQ)

Q: 받아쓰기 후 자동으로 한국어로 번역되나요?
A: 아니요, 직접 번역되지 않습니다. 받아쓰기는 ‘음성을 텍스트로 변환’하는 기능이며, 오디오의 언어 그대로 텍스트화됩니다. 한국어 번역 자막이 필요한 경우 완료 후 번역 시작 (Start Translation)을 클릭하여 클라우드 AI 번역 기능을 이용하십시오.

Q: 받아쓰기에 인터넷 연결이 필요한가요?
A: 아니요. 처음 모델을 다운로드할 때를 제외하고 모든 과정은 기기에서 오프라인으로 진행됩니다.

Q: 처리 중에 앱을 닫아도 되나요?
A: 아니요. 받아쓰기는 로컬 기기의 연산 자원을 소모하므로 앱을 닫거나 기기가 잠자기 상태가 되면 중단됩니다.