ソフトウェア

AIにシンプルな「かくれんぼ」を繰り返し実行させることで複雑な戦略とその対抗策を生み出す試み


OpenAIが、機械学習エージェントにシンプルなかくれんぼを遊ばせることで、徐々に複雑なツールを使用できるように進化していく様子を観察しています。AIはかくれんぼを繰り返し遊ぶことで、独学で6つの異なる戦略とそれに対する対抗策を練り上げたそうで、「AIが独自にこれほど複雑な協調適応をみせたことは、将来的により複雑で知的な動作を生み出す可能性があることを示唆している」と記しています。

Emergent Tool Use from Multi-Agent Interaction
https://openai.com/blog/emergent-tool-use/

Clever hide-and-seek AIs learn to use tools and break the rules | TechCrunch
https://techcrunch.com/2019/09/17/clever-hide-and-seek-ais-learn-to-use-tools-and-break-the-rules/

かくれんぼではAIが隠れる役と、鬼役の両方を担当。隠れる役は青色、鬼役は赤色で示されています。隠れる役は鬼役の視野から隠れるように動き、鬼役は視野の中に隠れる役を捉えるように動くそうですが、かくれんぼに関する詳細などは一切インプットされておらず、何度も繰り返しおにごっこを遊ぶ中で、各エージェントが独自にかくれんぼに関する戦略を編み出していったそうです。なお、AIによるかくれんぼが行われるエリアには、隠れるのに使えそうなオブジェクトがいくつか配置されており、実際のかくれんぼの環境がリアルに再現されています。

Multi-Agent Hide and Seek - YouTube


エージェントがかくれんぼを行う空間はこんな感じ。壁や動かすことが可能な黄色のオブジェクトが配置されており、この中を隠れる役(青)と鬼役(赤)が動き回ります。なお、隠れる役および鬼役は周囲のオブジェクトとの距離感を測ることが可能。


鬼役が隠れる役を見つけると、視線がビームのように表示されます。


エージェントにインプットなしでかくれんぼさせると、はじめは完全にランダムに動き回るのですが、かくれんぼの回数が269万回に到達するまでに、隠れる役はオブジェクトの影に隠れるようになり、鬼役は隠れる役を追いかけるようになります。


そして860万回までに、オブジェクトを動かす方法を学び、入り口にオブジェクトを固定するようになります。なお、オブジェクトは隠れる役のみが固定可能で、一度固定したブロックは隠れる役が動かすまでその場にロックされます。


複数の入り口部分にオブジェクトを配置することも可能。


入り口部分にオブジェクトを固定すると鬼役は隠れる役を見つけることができなくなります。しかし、862万回から1450万回目までのかくれんぼで、鬼役が三角柱型のオブジェクトを動かし……


壁際に配置し、スロープとして使用。部屋の中に隠れた隠れる役を発見することができるようになった模様。


これに対して、1450万回目から4340万回目までの間に、隠れる役は鬼役にスロープを利用されないように、自分たちが隠れる部屋の中にスロープを隠すことを学びます。


壁が少ししかない環境では、2200万回までに鬼役が隠れる役を追いかけることを学びます。


2200万回から8800万回までに板を巧みに使ってシェルターを形成する方法を学習。それに対して、8800万回から1億1500万回までに鬼役がスロープを利用する方法を、さらなる対抗策であるスロープを固定する方法は1億1500万回から3億8800万回までの間に編み出されます。


スロープも固定されてしまい絶体絶命かと思いきや、次は鬼役が立方体を動かして……


スロープの側へ移動。


そして、スロープから立方体の上に乗ります。


立方体の上に乗ったまま移動して……


シェルターの中の隠れる役を発見。この立方体に乗ってサーフィンする方法は、かくれんぼを3億8800万回から4億5800万回繰り返す間に生み出されたそうです。


さらに、4億5800万回から4億8100万回までの施行で、隠れる役はすべてのオブジェクトを固定して……


シェルターを形成。こんな具合に隠れる役が新しい方法を編み出せば、鬼役がそれに対する攻略法を生み出し、これが繰り返し続いていくことでより高度なかくれんぼが生まれていくわけです。


複雑な環境をナビゲートするようなタスクの場合、人間がAIの行動を設計しても、設定すべき条件が多すぎるためエージェントが洗練された動きを生み出すことは非常に難しいものです。しかし、実験のように、AIモデルを教師なし学習で学習させながら、異なる役割を分担させて競合させることで、AIが独自に有用なスキルを生み出す可能性があることがわかります。


OpenAIは「今回の結果はより自由で多様な環境において、複数エージェントを用いた方法は、非常に複雑で人間に関連した行動を導き出す可能性があるという自信を抱かせます」と記しています。

この記事のタイトルとURLをコピーする

・関連記事
「危険すぎる」と言われたAIの自動文章作成ツール「GPT-2」のモデルが新たに公開へ - GIGAZINE

OpenAIの人工知能「OpenAI Five」が人間の世界王者を撃破、誰でもオンラインでOpenAI Fiveと戦えるキャンペーンも期間限定で開催予定 - GIGAZINE

OpenAIが「危険すぎる」として文章作成AIの論文公開を延期したのは間違いだったと研究者が指摘 - GIGAZINE

誰でも深層強化学習のスキルを身に付けて活用できるための教育リソース「Spinning Up」をOpenAIが発表 - GIGAZINE

世界のトッププロゲーマーたちに挑むニューラルネットワーク「OpenAI Five」とは? - GIGAZINE

in ソフトウェア,   動画, Posted by logu_ii

You can read the machine translated English article here.