Gemma 4をMacBookで実行して「大量の動画ファイルの説明文」を実行したAI開発者の記録が興味深い

カメラやスマートフォンで撮影した動画には「P1013593.MP4」とか「IMG_0034.MOV」といったように連番形式のファイル名がつきます。このため、大量に動画を撮影していると「どの動画に何が映っているのか分からない」という事態に陥りがちです。そんなときに参考になりそうな「Gemma 4などのAIモデルをMacBookで実行して動画の説明文を含むインデックスファイルを大量生成する」という作業の記録がAI企業のSimbaStackの公式ブログに掲載されています。
While I slept, my 5-year-old MacBook ran Gemma 4 locally and indexed a year of video — simbastack
https://blog.simbastack.com/indexed-a-year-of-video-locally/
ブログ執筆者は1年の半分をケニアのマサイマラで過ごし、「Nikon Z8」「DJI Pocket」「Ray-Ban Meta」といったデバイスを用いて動画を大量に撮影しているとのこと。動画編集に割く時間が減ってきたことを受けて「AIで動画クリップをつなぎ合わせる」というシステムを試そうとした際に「動画を説明するインデックスファイルが必要」という問題にぶち当たったそうです。
ブログ執筆者は2021年に登場したM1 Max搭載MacBookを使ってインデックスを作成しました。インデックスは動画のメタデータや「何が映っているか」を記録したMarkdown形式のファイルで、AIが動画を探す際の足掛かりとなるものです。

インデックス作成に用いたソフトウェアと用途は以下の通り。
・ffprobe:動画のメタデータの読み取り
・ffmpeg: 動画内の5フレームを切り出す
・exiftool:GPS情報の読み取り
・Nominatim:GPS情報を住所情報に変換
・WhisperX:音声を文字起こし
・insightface:顔認識
・視覚言語モデル:動画に映っているものの説明文を作成
視覚言語モデルはGemma 4 31B Q4を採用し、LMStudioで実行しました。

M1 Max搭載MacBookには64GBのメモリが備わっていましたが、メモリだけでは足りず、ピーク時は50.89GBのスワップファイルが作成されたそうです。

M1 Max搭載MacBookで1日かけてインデックスを作成した結果、すべての動画ファイルに同名のインデックスを付与することに成功しました。

ブログ執筆者はインデックス作成に使った環境をクローンできるようにGitHubリポジトリを公開しています。
GitHub - Simbastack-hq/framedex: Framedex — a queryable knowledge base for your video archive · GitHub
https://github.com/Simbastack-hq/framedex
・関連記事
無料でGoogleのローカルAI「Gemma 4」の威力がGoogle公式アプリ「AI Edge Gallery」で誰でも試せるように、iPhoneでもローカル動作可能 - GIGAZINE
リアルタイム動画生成AI「LongLive-2.0」をNVIDIAが公開、FP4量子化を想定した学習により軽量かつ高品質な生成を実現 - GIGAZINE
Google DeepMindがマルチモーダル生成モデル「Gemini Omni」を発表、自然言語による対話と推論能力による動画生成・編集が可能に - GIGAZINE
Metaが動画内の物体を切り抜くAIモデル「SAM 3」の複数オブジェクトの追跡能力を向上した「SAM 3.1」をリリース - GIGAZINE
・関連コンテンツ
in AI, ソフトウェア, Posted by log1o_hf
You can read the machine translated English article The record of an AI developer running Ge….






