字幕のない動画に字幕を生成・翻訳する方法:ゼロからのフルプロセス・ソリューション
SubEnvoy(字幕工房)のAIローカル文字起こし機能を使用して、Appleシリコンのハードウェア加速により動画の音声を元の言語の字幕に変換する方法を解説します。動画のアップロードは不要です。
概要
本ガイドは、「字幕が全くない動画」を処理するための究極のソリューションを提供します。字幕工房 (SubEnvoy)のTranscribe (文字起こし)機能を使用すると、字幕トラックのない動画や音声ファイルを、その言語に対応した正確なテキスト字幕に変換できます。
字幕工房は、世界をリードするオープンソース音声認識モデル Whisper を統合し、Appleシリコン向けに高度に最適化(Core ML)されています。すべてのプロセスはデバイス上でローカルに実行されるため、プライバシーが完全に守られた状態で「字幕なし」から「全言語翻訳」へのステップアップを実現できます。
注記:字幕工房は日本語に完全対応しています。ドキュメントの整合性を保つため、ガイド内のスクリーンショットは英語表示となっていますが、主要な操作項目については日本語と英語を併記して解説します。
ステップバイステップガイド(Mac版を例に)
メインプラットフォームであるMac版では、最高のパフォーマンスを体験できます。
ステップ 1:AIモデルの準備
初めて文字起こし機能を使用する際は、Appleシリコンに最適化されたAI言語モデルをダウンロードする必要があります。字幕工房では、ハードウェア性能に合わせて2種類の規模の Whisper モデルを選択できます:

モデルのダウンロード:右上からお使いの環境に適したモデルを選択してください
- Liteモデル (482 MB):
- 特徴:軽量で読み込みが極めて速く、メモリ消費も最小限です。
- 推奨環境:クイックプレビュー、初期のM1チップ搭載機、または音声が非常にクリアな動画に適しています。
- Proモデル (1.51 GB):
- 特徴:Whisper Large V3 アーキテクチャを採用し、大規模なパラメータにより最高精度の認識を実現します。
- 推奨事項:Pro (Recommended)モデルのダウンロードを推奨します。複雑なアクセントや専門用語、背景ノイズがある場合でも、より正確な認識と優れた句読点・セグメント化が可能です。
ステップ 2:動画ファイルのインポート
モデルのダウンロードと読み込みが完了すると、準備完了(Ready)状態になります。

準備完了画面:動画を直接ドラッグするかボタンから開くことができます
- 動画ファイルをウィンドウにドラッグ&ドロップするか、Open File (ファイルを開く)ボタンをクリックして選択します。
- 対応形式:MP4、MOV、MKV、AVIなど、主要な動画コンテナをサポートしています。
ステップ 3:音軌(オーディオトラック)の選択
動画に複数の音声トラック(例:オリジナル音声と解説音声など)が含まれている場合、選択ダイアログが表示されます。

音軌選択:動画内のすべての音声トラック情報を自動認識します
- 字幕工房は、Audio Language (音声言語)、Codec (コーデック)、Sample Rate (サンプリングレート)を自動判別します。
- 文字起こししたいトラックを選択し、右下のTranscribe (文字起こし開始)をクリックします。
ステップ 4:AIエンジンの初期化
タスクが開始されると、システムが前処理を実行します。

初期化フェーズ:音声の抽出とAIリソースの準備
- モデルの準備 (Model Warming Up…) について:
初回実行時やモデル変更時には、Appleシリコンの Neural Engine の性能を最大限に引き出すため、デバイスのプロセッサに合わせたAIモデルのコンパイル(カスタムエンジンの構築)が行われます。
- 次回以降の高速化:コンパイル結果はキャッシュされます。次回からは初期化が分単位から数秒に短縮されます。
- 所要時間:最新デバイスで2〜5分、旧モデルで8〜15分程度です。
- ヒント:コンパイル中は電源を接続し、不要なアプリを閉じてメモリを解放することをお勧めします。
ステップ 5:リアルタイム文字起こし
文字起こしが開始されると、進捗をリアルタイムで確認できます。

文字起こし実行中:Neural Engine を使用して音声をテキスト化しています
ステップ 6:完了と結果の保存
処理が完了すると、成功メッセージが表示されます。

完了画面:字幕の保存またはクラウド翻訳への移行が選択できます
- Save Subtitle (字幕を保存):結果を標準的な**.srt**形式で保存します。
- Start Translation (翻訳開始):生成された字幕を多言語に翻訳したい場合は、このボタンからクラウド翻訳ワークフローに直接進めます。
iOS/iPadOS版での操作の違い
機能は同じですが、モバイル版では以下の点が異なります:
- Liteモデルのみサポート:iOS版では、パフォーマンスを考慮してLiteレベルのモデルのみを使用します。
- WiFi転送 (ネットワークサービス):Windowsユーザーの方は、内蔵の「ネットワークサービス」をオンにしてPCブラウザから動画をワイヤレスでアップロードできます。
- 「ファイル」アプリ:iOS標準の「ファイル」アプリから直接動画を選択できます。
よくある質問 (FAQ)
Q:文字起こし後、自動的に日本語になりますか?
A:いいえ、直接は翻訳されません。文字起こしは「音声を文字にする」機能であり、元の言語(英語なら英語)でテキスト化されます。日本語字幕が必要な場合は、完了後にStart Translation (翻訳開始)をクリックしてください。
Q:オフラインでも使えますか?
A:はい。モデルの初回ダウンロード時を除き、文字起こしプロセス全体がデバイス上で完結するため、インターネット接続は不要です。
Q:処理中にアプリを閉じてもいいですか?
A:いいえ、いけません。文字起こしはローカルの計算資源を使用するため、アプリを閉じたりスリープ状態になると中断されます。