AIを無能にすると思われていた「屋内トレーニング」で逆にAIが賢くなったとの研究結果

余計なノイズがないテスト環境と、雑然とした現実世界は異なるため、多くのエンジニアはAIが動作する本番環境に近い設定でトレーニングを行います。ところが、ノイズのないシミュレーション環境でトレーニングされたAIエージェントは、ノイズが多い設定でトレーニングされたAIエージェントよりも優れたパフォーマンスを発揮することが多いという「屋内トレーニング効果」が、マサチューセッツ工科大学(MIT)の研究者らによって発見されました。
[2401.15856] The Indoor-Training Effect: unexpected gains from distribution shifts in the transition function
https://www.arxiv.org/abs/2401.15856
New training approach could help AI agents perform better in uncertain conditions | MIT News | Massachusetts Institute of Technology
https://news.mit.edu/2025/new-training-approach-could-help-ai-perform-better-0129
MIT、ハーバード大学、イェール大学の研究チームは、まずAIエージェントにパックマンやポン、ブロック崩しといったAtariのゲームをプレイするようトレーニングしました。
AIエージェントがプレイするゲームは、余計な要素のない「クリーン」なバージョンと「ノイズあり」のバージョンの2つがありました。例えばパックマンの場合、クリーンな環境では敵キャラクターの「ゴースト(モンスター)」が常に同じ方向に移動しますが、ノイズありでは上下左右に移動するという具合です。

研究者らが、強化学習問題の要素の1つである「遷移関数」に一定量のノイズを追加する手法を開発し、AIエージェントのゲーム環境にノイズを加えると、予想通りAIのパフォーマンスは低下しました。しかし、クリーンなバージョンで訓練を積んだAIにノイズのあるバージョンをプレイさせると、最初からノイズのあるバージョンでトレーニングさせたAIよりゲームがうまかったとのこと。
これは、本番に近い環境でトレーニングさせたほうがAIの精度が高くなるという従来の常識に反するため、ハーバード大学の大学院生で共著者のスパンダン・マダン氏は「経験則では、トレーニングの際は本番のデプロイ環境をできるだけうまく再現することで、効果を最大限にするべきです。それに反する結果は私たちにも信じられなかったので、徹底的にテストしました」と話しています。
研究チームは、テストを繰り返すうちに、AIエージェントのパフォーマンスとトレーニング環境の関係にはいくつかの法則があることがわかりました。まず、クリーンな環境でトレーニングしたAIと、ノイズのある環境でトレーニングしたAIが同じエリアを探索する場合、前者の方がパフォーマンスがよかったとのこと。これは、ノイズがない方がゲームのルールを理解しやすいからだと考えられています。
これについて、MITの研究助手で論文の筆頭著者であるセレナ・ボノ氏は「風がない屋内でテニスを練習した方が、さまざまなショットを習得しやすいと思います。それから風が吹くテニスコートで練習をすれば、最初から風が吹いている場所でテニスを習い始めた人よりテニスが上達する可能性が高くなるかもしれません」と説明しています。

一方、2つのAIが異なるエリアを探索する場合、ノイズの多い環境でトレーニングしたエージェントの方がパフォーマンスが高い傾向がありました。これは、ノイズが多い環境でトレーニングしたAIエージェントは、クリーンな環境では学習できないパターンを学習する必要があったからだと推測されています。
ボノ氏は「風が吹いていないところでフォアハンドだけをひたすら練習した人が、風が吹いているところでバックハンドも使わなければならないと言われたら、うまくプレーできないのではないでしょうか」と話しました。
研究チームは、今回得られた知見がより優れたAIエージェントのトレーニング方法の開発につながるのではないかと期待しています。また、研究チームは今後、より複雑な強化学習環境や、コンピュータービジョンや自然言語処理などゲーム以外の技術で「屋内トレーニング効果」がどのように現れるのかを調べる予定とのことです。
・関連記事
AIモデルのトレーニングにAI生成データを使用するとAIが物事を忘却してしまう「モデル崩壊」が起きるという指摘 - GIGAZINE
「AIのトレーニングにかかるコストはわずか3年で1000億ドルに上昇するかもしれない」とAnthropicのCEOが予想 - GIGAZINE
AIを開発するために必要なデータが急速に枯渇、たった1年で高品質データの4分の1が使用不可に - GIGAZINE
・関連コンテンツ
in ソフトウェア, サイエンス, Posted by log1l_ks
You can read the machine translated English article Research results show that 'indoor train….