キーワードを入力するだけで動画から該当箇所を切り抜くセマンティック検索「SentrySearch」

キーワードにマッチする動画を検索するのは容易ですが、動画の中からキーワードにマッチするワンシーンを切り出すのは非常に困難です。この処理をAIで行うプロセスが公開されています。
GitHub - ssrajadh/sentrysearch: Semantic search over videos using Gemini Embedding 2. · GitHub
https://github.com/ssrajadh/sentrysearch
「SentrySearch」が行うのは、キーワードの文脈を考慮して詳しい検索を行うセマンティック検索です。動画を指定した秒数ごとに分割し、それぞれのシーンをGoogleのGemini Embedding APIまたはローカルのQwen3-VL-Embeddingモデルを使用してインデックス化。検索処理を行い、キーワードにマッチするシーンを返します。
デモ映像が以下。「サイクルキャリア付きの車が割り込んできた」という検索ワードにマッチするシーンを表示しています。
自然言語で動画のワンシーンを検索して切り抜く「SentrySearch」 - YouTube

上に挙げた2つのモデルはキャプションや文字起こしといった中間処理を挟まず直接動画を処理できるモデルです。この処理により、何時間にも及ぶ映像に対して1秒未満で検索を実行できるとのこと。Geminiは1秒あたり正確に1フレームを抽出してトークン化して処理します。
Gemini Embedding APIで1時間の動画をインデックス化するには2.84ドル(約450円)のコストが必要。Qwen3-VL-Embeddingだと無料です。
デフォルトでは30秒ごとに分割され、それぞれ前後のシーンと5秒間の重複があるよう設定されています。検索したいシーンが前後2つのシーンにまたがる場合は検索がうまくいかず、開発者は「もっと高度なシーン検出などで改善できるかも」としています。
・関連記事
グリーンバックでのVFX合成がイマイチになる問題を解決できる「CorridorKey」爆誕 - GIGAZINE
ローカルで動作する動画生成AI「LTX-2.3」が登場&無料のPCアプリ「LTX Desktop」も公開される - GIGAZINE
FLUXのBlack Forest Labsが高効率&高精度で画像・動画・音声を生成するマルチモーダルAIの学習手法「Self-Flow」を発表 - GIGAZINE
無料でスマホから切り抜き・描画からフィルター・OCR・幅広い画像処理オプションまでありとあらゆる写真を加工する機能が山ほど使えるオープンソースAndroidアプリ「Image Toolbox」レビュー - GIGAZINE
・関連コンテンツ
You can read the machine translated English article SentrySearch is a semantic search tool t….







