大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか?

多くの人々は幼少期から地図の読み取り方を身につけており、地下鉄構内の地図を見て目指す出口を探したり、遊園地の地図を見て乗りたいアトラクションへの行き方を調べたり、ロードマップを見て高速道路の入り口を見つけたりすることができます。「大規模視覚言語モデル(LVLM)も人間のように地図を読み取って適切なルートを見つけられるのか」という疑問に取り組むため、研究者らが「MapBench」という新たなベンチマークを考案しました。
[2503.14607] Can Large Vision Language Models Read Maps Like a Human?
https://arxiv.org/abs/2503.14607

LVLMはユーザーが入力した画像と指示に基づいて文章を生成する大規模言語モデルであり、医療画像の分析や自律走行車の操縦、ロボット工学における映像認識といった分野での活躍が期待されています。LVLMが人間に匹敵するパフォーマンスを持っている場合、出発地点および到着地点の指示および必要な地図が与えられれば、地図を読み取って出発地点から到着地点までのルートをナビゲートできるはずです。
そこで、アメリカのテキサスA&M大学やカリフォルニア大学バークレー校などの研究チームは、未査読論文のプレプリントサーバーであるarXivに発表した論文で、LVLMの地図読み取り能力を測定するための新たなベンチマーク「MapBench」について紹介しました。
研究チームは、LVLMによる地図の読み取りとナビゲートには、「地図に記された色やテキスト、領域、アイコンなどの視覚的シンボルを認識する能力」「シンボルを物理的な環境に適応させ、向き・視点・行き止まりの処理・スケーリングなどに対処する空間的理解」「ランドマークと交差点を通るエンドポイント間のルートを計画する能力」などが必要だと説明しています。

MapBenchはLVLMによる地図の読み取りとナビゲートタスクを測定するため、地図の視覚的な象徴的空間と幾何学的空間を構造化した「Map Space Scene Graph(MSSG)」という表現に基づいて設計されています。
MapBenchの地図は「動物園」「博物館」「国立公園」「大学」「Googleマップ」「テーマパーク」「山道」「都市」「ショッピングモール」という9つのシナリオに分類され、合計100の異なる地図から作られた1600以上の地図読み取り・ナビゲートタスクが含まれています。各地図には手動で注釈が施されており、タスクのクエリには始点と終点について指示されているとのこと。

MapBenchに含まれている地図の一例が以下。動物園の園内図であり、クエリには「Please provide me a navigation from Carousel to Safari Camp Classroom.(メリーゴーラウンドからサファリキャンプ教室へのナビゲーションをお願いします)」といった内容が記されています。この場合、右の注釈を見るとメリーゴーラウンド(Carousel)は数字の「7」で、Safari Camp Classroom(サファリキャンプ教室)は数字の「18」で表されているので、地図の中央部にある「7」から地図の左上にある「18」までのルートを指示すればOK。

また、都市エリアの地図である以下の例では、「Please provide me a navigation from Pinner Park to Harrow on the Hill.(ピナー・パークからハロー・オン・ザ・ヒルまでナビゲーションしてください)」といったタスクが与えられます。始点である「Pinner Park(ピナー・パーク)」は地図中央のやや上あたり、終点の「Harrow on the Hill(ハロー・オン・ザ・ヒル)」は右下にあるので、この経路をナビゲーションできればOKです。

研究チームはMapBenchを使い、Metaの「Llama-3.2」、Alibabaの「Qwen2-VL」、OpenAIの「GPT-4o mini」および「GPT-4o」といったモデルをテストしました。テストは事前学習のないゼロショットプロンプトと、タスクを論理的ステップに分解する思考の連鎖(CoT)フレームワークの両方で行われました。
テストの結果を地図の分類ごとに示した表が以下。実際の最短距離を正しくナビゲーションできた場合のスコアが「1」となり、スコアが「1」に近いほど高い精度でナビゲーションできたことを示しています。

研究チームは、「注目すべきはLVLMの性能が理論的に最適なナビゲーションを大きく下回っていることです。これは、マルチモーダルな情報理解、空間推論、複雑な長期的計画下での意思決定における重要な限界を露呈しています」と述べ、まだLVLMの地図読み取り能力は人間に追いついていないとの見解を示しました。
・関連記事
Googleマップに「AIでスポット提案」「入るべき車線の表示」「冠水報告」などの便利な機能が追加される - GIGAZINE
Googleマップに生成AI利用で場所を探す機能が新登場 - GIGAZINE
Googleが狭い道路を回避できるように設計したインドの道路専用AIモデルを作成 - GIGAZINE
地図作成速度を3倍以上にするFacebook製AIが実用化へ - GIGAZINE
Googleが単一のGPUで実行できる中では過去最高の大規模言語モデル「Gemma 3」を発表 - GIGAZINE
ChatGPTなどの大規模言語モデルはどんな理論で成立したのか?重要論文24個まとめ - GIGAZINE
Metaの大規模言語モデル「Llama」の累計ダウンロード数が3億5000万回に迫る - GIGAZINE
・関連コンテンツ
in ソフトウェア, ネットサービス, サイエンス, Posted by log1h_ik
You can read the machine translated English article Can large-scale visual language models '….