高速かつ高精度なオブジェクト検出AIモデル「LocateAnything」をNVIDIAが公開、写真だけでなくアプリUIや文字の検出にも対応

NVIDIAが高速かつ高精度なオブジェクト検出が可能なAIモデル「LocateAnything」を公開しました。LocateAnythingは写真やスクリーンショットに含まれるオブジェクトを高速検出することが可能で、ロボットやPC自動操作などの分野で活用されることが期待されています。
LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
https://research.nvidia.com/labs/lpr/locate-anything/?linkId=100000424057485
LocateAnythingはオブジェクト検出の速さを特徴とするモデルです。以下のポストに埋め込まれた動画を再生すると非常に高速に処理を実行できることが分かります。
This #CVPR2026 paper from our research team is trending #1 on @HuggingFace 🤗
— NVIDIA AI (@NVIDIAAI) May 28, 2026
Meet LocateAnything: a vision-language detection model that rethinks bounding box prediction. For AI agents and robots, “seeing” is only useful if a model can pinpoint where something is fast enough to… pic.twitter.com/2OGaQnUCnX
LocateAnythingの学習データには写真だけでなく「アプリケーションのスクリーンショット」や「文書」も含まれており、アプリケーションのUI要素検出や文字検出能力も有しています。

LocateAnythingの性能をQwen3-VLやRex-Omniと比較した結果が以下。Qwen3-VLとRex-Omniは「建物の窓の1つずつ個別に認識する」「木材を1つずつ認識する」といった処理が苦手ですが、LocateAnythingは正確に実行できています。

文字認識もQwen3-VLとRex-Omniとくらべて高精度に実行可能。

実際にLocateAnythingを使えるデモアプリが用意されているので使ってみます。
LocateAnything - a Hugging Face Space by nvidia
https://huggingface.co/spaces/nvidia/LocateAnything

デモアプリに画像を入力して、検出したいオブジェクトの名前を入力してから「Run Inference」をクリック。今回は「video-game(ゲーム)」と入力しました。

検出結果が以下。写真内に含まれるすべてのゲームソフトパッケージが認識されています。

同時に複数の要素を検出することもできます。メモ帳のスクリーンショットを入力して「ファイル」「編集」「表示」の3つを検出するように指示してみました。

結果が以下。正しく検出できています。

LocateAnythingはオープンモデルとして公開されており、以下のリンク先からダウンロード可能です。
nvidia/LocateAnything-3B · Hugging Face
https://huggingface.co/nvidia/LocateAnything-3B
・関連記事
画像生成AIの潜在表現を高解像度画像へ直接変換する新技術「PiD」をNVIDIAが開発 - GIGAZINE
リアルタイム動画生成AI「LongLive-2.0」をNVIDIAが公開、FP4量子化を想定した学習により軽量かつ高品質な生成を実現 - GIGAZINE
Metaが動画内の物体を切り抜くAIモデル「SAM 3」の複数オブジェクトの追跡能力を向上した「SAM 3.1」をリリース - GIGAZINE
いろんな音が混ざった動画や音声から目的の音だけを分離できるAI「SAM Audio」をMetaが公開 - GIGAZINE
AI自作レビュー、「USBケーブルの種類を見分けるAIモデル」をトレーニングしてAIカメラを作ってみた【Raspberry Pi AI Camera】 - GIGAZINE
・関連コンテンツ
in AI, Posted by log1o_hf
You can read the machine translated English article NVIDIA has unveiled 'LocateAnything,' a ….







