2021年07月28日 17時00分ソフトウェア

さまざまなゲームを人間のようにプレイ可能なAIをDeepMindが開発、マルチプレイにも対応

世界最強の棋士を打ち負かした囲碁AI「AlphaGo」やタンパク質構造解析アルゴリズム「AlphaFold」を開発したことで知られるAI開発企業のDeepMindが、「まったくルールの異なるゲームにも対応できるAI」を開発したことを発表しました。

Open-Ended Learning Leads to Generally Capable Agents | DeepMind
https://deepmind.com/research/publications/open-ended-learning-leads-to-generally-capable-agents

Generally capable agents emerge from open-ended play | DeepMind
https://deepmind.com/blog/article/generally-capable-agents-emerge-from-open-ended-play

DeepMindが開発した囲碁AI「AlphaGo」は、世界最強の棋士を打ち負かした後も進歩を続け、2017年には囲碁だけでなく将棋やチェスの対局にも対応した「AlphaZero」が登場。このAlphaZeroを用いて「変則的なルールを学習させることで、新たなチェスのルールを作り出す」といった試みも行われています。

人間を倒してチェスのあり方を一変させたAIが「チェスの新たな可能性を広げる」ために使われている - GIGAZINE

しかし、DeepMindよるとAlphaZeroは囲碁・将棋・チェスといった複数のゲームの対応しているものの、それぞれのゲームごとに異なる学習が必要になるとのこと。DeepMindは「私たちは、AlphaZeroの限界を克服して、適応力の高いAIエージェントを開発する方法を模索しました」「新たに開発したAIは、特定のタスクに特化するのではなく、多くのタスクに広く適用できる動作を習得できます。これは、変化し続ける状況に素早く対応できるAIを開発するための重大な一歩です」と述べ、あらゆるゲームに対応可能なAIを開発したことを発表しました。

今回開発されたAIは、一人称視点のキャラクターを操作するように設計され、「旗取りゲーム」「かくれんぼ」「色合わせゲーム」といったマルチプレイゲームで比較的単純な目標を達成する方法を学習しました。AIに与えられた目標は、旗取りゲームでは「黄色い立方体を定められたエリアへ運ぶ」、かくれんぼでは「敵プレイヤーの視界に入らない」、色合わせゲームでは「同じ色の物体を近づける」というように学習するゲームごとに異なります。さらに、ゲームのステージはプログラムによってランダムに変更可能となっており、AIは自分が操作するキャラクターの周囲の色情報からステージのマップを把握する方法も学習しました。

上記の方法でAIに2000億回の学習を施した結果、AIが「特定のタスクに対して高度に最適化された動作」ではなく、「人間のように経験則で判断しているかのような動作」を示すようになったとのこと。また、AIは「マップ内の物体を用いて、他のプレイヤーの視界をさえぎる」といったマルチプレイならではの動きも習得しました。

以下のムービーでは、実際に今回開発されたAIがゲームをプレイする様子を確認できます。

Open-Ended Learning Leads to Generally Capable Agents | Results Showreel - YouTube