2018年07月06日 11時23分ソフトウェア

世界最強の囲碁AIを開発したDeepMindが「人間を超越したFPSプレイヤー」のAIを開発

Googleと同じAlphabetを母体に持ち、世界最強の囲碁AI「AlphaGo Zero」を開発した人工知能(AI)開発企業・DeepMindが、ファーストパーソン・シューティング・ゲーム(FPS)で人間を超えた勝率をたたき出すAI「For the Win(FTW)」を開発しました。ただ敵を倒すだけではなく、人間のチームメイトとも協力して有利にゲームをプレイすることができるとのことです。

Capture the Flag: the emergence of complex cooperative agents | DeepMind
https://deepmind.com/blog/capture-the-flag/

人間とゲームをプレイするAIの研究は、2017年にもOpenAI開発のAIが「Dota 2」で人間に勝利するという結果を残し、話題になりました。また、DeepMindも「StarCraft 2」をプレイするAIを研究していたことがあります。

今回、GoogleのDeepMindが開発した「FTW」は、1999年に発売された「Quake III Arena」をプレイ。「Quake III Arena」はマルチプレイヤー向けのFPSで、今でも大会が開かれるほど人気があるタイトルです。この「Quake III Arena」での対戦ルール「Capture the Frag(CTF)」という旗取りゲームを行い、人間と一緒にチームで遊べることを目指して学習を行ったとのこと。

by gamebouille

CTFは2つのチームに分かれて対戦するゲームで、相手チームの陣地にある旗を奪って自陣に戻るとポイントが加算されるというもの。単純なルールに見えますが、相手チームに旗を取られた場合は旗を持っているプレイヤーを倒さなければならないなど、状況に応じて狙う相手や動きを変更しなくてはならず、CTFで要求される動きは複雑だと研究チームは評価しています。

戦いの舞台となるマップは同じものを使い続けるのではなく、マッチごとにマップを変更していたとのこと。これによって、FTWはマップのレイアウトを記憶するのではなく、汎用的な戦略を学習していかなければなりません。さらに、AIを人間と同じように成長させるため、従来のゲーム用AIのようにゲーム内でのパラメータを直接読み取ってプレイするのではなく、人間と同じように画面上のピクセルを認識させてエミュレートしたコントローラーで操作をさせています。

DeepMindの研究チームは、40人の人間プレイヤーと30のFTWのエージェントをランダムにマッチさせ、45万回以上CTFをプレイさせました。各エージェント間ではリカレント(回帰型)ニューラルネットワークが形成され、さらにゲームポイントから内発的動機付けを行うように学びます。これによってCTFを高いレベルでプレイするようになります。

以下のムービーで、実際にFTWのエージェントが人間も交えながらCTFをプレイする様子が見られます。

Human-level in first-person multiplayer games with population-based deep RL - YouTube

以下のグラフはFTWの成長具合を表したもの。横軸がゲーム回数、縦軸はEloレートと呼ばれるプレイヤーの強さを示す数字で、高いほど強いプレイヤーであることを示します。水色線がFTWのEloレートを示していますが、FTWのエージェントがCTFを15万回プレイした段階で既に「平均的な人間プレイヤーのEloレート(Average Humanと書かれた点線)」を超えていて、20万回へ到達しないうちに「強い人間プレイヤーのEloレート(Strong Humanと書かれた点線)」を超えています。CTFを45万回プレイする頃にはトップスコアを記録しています。

また、以下のムービーの右上に表示される「Agent population」というグラフ部分から、FTWの各エージェントが回数に応じてEloレートをぐんぐんとあげていく様子がよくわかります。

Capture the Flag: FTW agents training progression - YouTube

FTWは大量にCTFをこなす上で、「自チームの陣地を守る」「相手の陣地を制圧する」という部分だけではなく「チームの仲間に追随してサポートをする」という、人間と協力するような行動の習得にも成功していたとのこと。お互いをサポートするように協働するこれらの行動は、強化学習と集団レベルでの進化の過程で得られるとFTW開発チームは述べていて、現在強化学習を集団レベルの訓練方法をさらに改善し、最終的に安定して人間とチームを組むことができるAIエージェントの開発を目指すとコメントしています。