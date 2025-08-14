2025年08月14日 11時15分 ソフトウェア

FFmpegに「OpenAIのWhisperを用いた文字起こし機能」が追加される予定



マルチメディアツールの「FFmpeg」にOpenAIの文字起こしAI「Whisper」を用いた文字起こし機能が追加されることが明らかになりました。記事作成時点ではFFmpeg 8.0のリリースが準備中の段階で、文字起こし機能もFFmpeg 8.0に含まれる予定です。



[FFmpeg-devel] [PATCH] Whisper audio filter

https://ffmpeg.org/pipermail/ffmpeg-devel/2025-July/346391.html



FFmpeg 8.0 Merges OpenAI Whisper Filter For Automatic Speech Recognition - Phoronix

https://www.phoronix.com/news/FFmpeg-Lands-Whisper



FFmpegはオープンソースで開発されているマルチメディアツールで、「動画や音声のエンコード・デコード」「動画から指定範囲を切り出し」「連番画像から動画を作成」といった多種多様な機能を備えています。FFmpegは単体のコマンドラインツールとして利用できるほか、各種アプリやウェブサービスの内部でも動作しており、多くの人が直接的もしくは間接的にFFmpegの恩恵を受けています。





そんなFFmpegにOpenAIのWhisperを用いた文字起こし機能が追加されることが明らかになりました。Whisperは日本語にも対応した文字起こしAIで、録音ファイルを読み込ませるだけでかなり高精度な文字起こしが可能。Whisperのモデルデータは無料で公開されており、PCにダウンロードしてローカル実行することもできます。



無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ - GIGAZINE





FFmpegに追加される文字起こし機能は、「--enable-whisper」というオプションを指定してビルドすることで利用可能になります。この際、Whisperを各種アプリで使えるようにするライブラリ「whisper.cpp」をPC内に準備しておく必要があります。



文字起こし機能はJSONファイルやSRTファイルへの出力に対応しているほか、GPUアクセラレーションにも対応しています。FFmpegの文字起こし機能に関するコードは以下のリンク先で確認できます。



git.ffmpeg.org Git - ffmpeg.git/commit

https://git.ffmpeg.org/gitweb/ffmpeg.git/commit/13ce36fef98a3f4e6d8360c24d6b8434cbb8869b





また、文字起こし機能のパッチ制作者であるVittorio Palmisano氏による使い方解説記事が以下のリンク先で公開されています。



Run Whisper audio transcriptions with one FFmpeg command | by Vittorio Palmisano | Jun, 2025 | Medium

https://medium.com/@vpalmisano/run-whisper-audio-transcriptions-with-one-ffmpeg-command-c6ecda51901f





記事作成時点ではFFmpeg 8.0のリリースに向けた準備が進んでいる段階で、準備が計画通りに進めば2025年8月中にリリースされます。

