AIに「洗車場まで歩いていくべきか車に乗っていくべきか」を尋ねると高性能モデルでも誤った解答をしてしまう



近年の生成AIは非常に難しい質問に答えたり自然な会話をしたりできますが、人間とは違う意外な部分で弱点が露呈することもあります。生成AIに関するセキュリティプラットフォーム・Prompt SecurityのCEOを務めるイタマール・ゴラン氏が、さまざまなAIに「洗車場まで歩いていくべきか、それとも車に乗っていくべきか」と尋ねた結果を報告しています。





ゴラン氏はOpenAIのGPTやGoogleのGemini、AnthropicのClaude、xAIのGrokといった主要なAIに「The car wash is 40 m from my home. I want to wash my car. Should I walk or drive there?(洗車場は家から40mのところです。私は車を洗いたいと思っています。歩いていくべきでしょうか、それとも運転していくべきでしょうか？)」と尋ねました。



当然ながら、ゴラン氏は洗車場で車を洗いたいわけなので、答えは「車を運転していく」が正解です。ところが、このテストに正解したAIは「GPT-5.2 Thinking」「Claude Opus 4.6」「Gemini 3 Pro」のみで、「GPT-5.2 Instant」「GPT-4o」「Claude Haiku 4.5」「Claude Sonnet 4.5」「Gemini 3 Fast」「Gemini 3 Thinking」「Grok 4.1 Fast」「Grok 4.1 Thinking」「Grok 4.1 Expert」といったモデルは正しく答えられませんでした。



GPT-5.2 Thinkingに尋ねた場合、「目標は車を洗うことであり、そのためには洗車場に車がなければいけない」という点に気付き、正しく「運転するべき」と答えました。





Gemini 3 Proも同様に正解しました。





しかし、Grok 4.1 Thinkingは「40mは運転していくには短すぎる距離で、歩いた方が早く、ちょっとした運動にもなる」といった理由から、「歩いていくべき」と誤った答えを導き出しました。





これらの結果についてゴラン氏は、各モデルについて1回試してみた結果を報告しただけであり、場合によっては正解することもあるだろうと補足しています。その上で、多くのAIは人間が簡単に答えられるような問題にも失敗することがあり、依然として信頼できる世界モデルを有していないと指摘しました。



似たようなテストをした人は複数現れており、いずれも多くのAIが「車を洗いたいのですが、数十m先の洗車場まで歩いていくべきか、それとも運転していくべきでしょうか？」という質問にうまく答えられないとの結果を報告しています。



実際にさまざまなAIに「洗車場は家から40mのところです。私は車を洗いたいと思っています。歩いていくべきでしょうか、それとも運転していくべきでしょうか？」と尋ねてみたところ、「Grok 4.1 Fast」は「(車で行くのは)現実的に見て笑いものレベル」と言って歩いて洗車場に行くように指示してきました。





一方で「Grok 4.1 Thinking」「Grok 4.1 Expert」「Gemini 3 Flash」「Gemini 3 Flash」「Gemini 3 Flash Thinking」「Gemini 3 Pro」「Google検索のAIモード」は車で向かうように指示してくれました。

