2019年01月25日 11時24分ソフトウェア

DeepMindのAI「AlphaStar」が世界トッププレイヤーを相手に「スタークラフト2」で10-1の大勝

人工知能(AI)企業のDeepMindが開発しているAI「AlphaStar」が、Blizzard Entertainmentのリアルタイムストラテジー(RTS)「スタークラフト2」でプロのトッププレイヤーであるTLO氏とMaNa氏と対戦し、10連勝を達成しました。

AlphaStar: Mastering the Real-Time Strategy Game StarCraft II | DeepMind
https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

これまでAIの性能をテストし評価するための方法の1つとして将棋や囲碁が使われてきましたが、AIの性能が高くなるにつれて、AIが挑戦するゲームはより複雑化。近年ではゲームの中でも特に複雑な操作と情報処理が必要となるRTSに挑戦するAIも登場していて、2018年6月には非営利の研究機関であるOpenAIのAI「OpenAI Five」が、ValveのRTS「Dota 2」で人間のプロチームに勝利を収めて話題となりました。

OpenAIの人工知能「OpenAI Five」がDota 2の5対5バトルで人間チームに勝利 - GIGAZINE

Googleが抱えるAI企業のDeepMindは2016年に開催された「Blizzcon 2016」で、「スタークラフト2」とコラボレーションしてオープンなAI研究環境を構築するという計画を発表しました。DeepMindはBlizzard Entertainmentと協力して、教師あり学習によって生のゲームデータから直接訓練されるディープニューラルネットワークを使用して「スタークラフト2」をプレイするAI「AlphaStar」の開発を進めていました。

囲碁AI「AlphaGo」や「DQN」の開発元DeepMindが「スタークラフト2」で最強のAI構築に挑戦中 - GIGAZINE
i

ロンドンにあるDeepMind本社で2018年12月19日、世界42位のプロプレイヤーであるTLOことDario Wünsch氏と、世界13位であるMaNaことGrzegorz Komincz氏を相手に、AlphaStarは5戦ずつの勝負を行いました。結果はTLO氏とMaNa氏が共に5-0で敗北、AlphaStarは人間のトッププレイヤー相手に10連勝を決めてしまいました。

AlphaStarは「Protoss」という種族の部隊を展開する戦略を使用。TLO氏に対してはやや有利な戦略だったとはいえ、AlphaStarが1分間あたりに行ったアクション数は277回で、TLO氏やMaNa氏を含めた平均的なプロプレイヤーよりもはるかに少なかったとのこと。また、AIの反応時間もおよそ350ミリ秒で、ほとんどのプロプレイヤーよりも遅いタイムになっています。AlphaStarは人間に不可能なレベルでの行動回数や反応速度に頼ったのではなく、戦略を練ってしっかり考えながらよりスマートな戦術を展開することで勝利をもぎとったといえます。

ただし、AlphaStarはコンピューター上で動作するAIなので、さまざまなゲームの情報を目で追っている人間とは異なり、直接スタークラフト2のゲームエンジンから情報を受け取っていました。そこで、2018年12月に行われた試合の後、データを生で受け取るのではなく、カメラを使って人間と同じように画面上から情報を得るようにバージョンアップしたそうです。

訓練日数によるAlphaStarのMMR(ゲーム内で示されるプレイヤーランク)を表したのが以下のグラフ。赤い線がデータを生で受け取っていた時のもので、青い線がカメラで情報を受け取るようになってからのものです。バージョンアップ前に比べてバージョンアップ後の方がMMRは下がってしまいましたが、それでも訓練を行って3日目にはTLO氏の、5日目にはMaNa氏のMMRを抜いていることがわかります。

2019年1月25日、バージョンアップしたAlphaStarとMaNa氏によるエキシビジョンマッチがYouTubeとTwitchでライブ配信されました。AlphaStarはバージョンアップ後に人間とプレイしておらず、MaNa氏はその穴を突く形でAlphaStarに勝利。AlphaStarは11戦目でプロプレイヤーに初めて敗北を喫しました。

This is it, ladies and gentlemen! For the first time in history a pro concedes to an Artificial Intelligence! GG WP @DeepMindAI! #AlphaStar https://t.co/5VE3QQNqiw pic.twitter.com/0iQKT13dEA
— StarCraft (@StarCraft) 2019年1月24日

AlphaStarと同じProtoss戦術を用いるTLO氏は「AlphaStarの強さに驚きました。AlphaStarは私が使っているようなよく知られた戦略を採用して、頭にたたき込んでいます。その上で私が今まで考えたことのない戦術を示しました。これは人間が『スタークラフト2』をまだ完全に研究できておらず、新しい戦略が存在する可能性を意味しています」と語っています。

また、AlphaStarから初の人類側勝利をもぎ取ったMaNa氏は「AlphaStarが、私が予想していなかったような非常に人間的なプレイスタイルを使っていて、ゲームの中で高度な動きやいろんな戦略をやめていたことに感銘を受けました。AlphaStarとの対戦を通じて、私は自分のゲームプレイが相手のミスを強いることや人間の反応を悪用することにいかに頼っているのか気づかされました。今回の戦いは私にとってゲームを全く新しい光で照らすこととなりました」とコメントしています。

DeepMindは、「AlphaStarのニューラルネットワークは、不完全な情報に基づいて長時間にわたって何万回も行動を選択するという一連のアクションをモデル化することができる」と述べ、長期間にわたって一連のデータに対して複雑な予測を行うモデルは天気予報や気候モデリング、言語理解など、現実世界のさまざまな課題に対して応用ができるかもしれないと述べています。

なお、AlphaStarとLTO氏・MaNa氏の対戦の様子は以下のムービーで視聴可能。MaNa氏が勝利をおさめた11戦目は2時間31分20秒あたりから見ることができます。

DeepMind StarCraft II Demonstration - YouTube