2017年10月12日 19時00分動画

AIを競わせることで独自のスキルを身につけさせる奇妙なムービー

スキルを念頭に置いた環境を明示的に設計しなくても、人工知能(AI)は自己で物理的なスキルを身につけることができるということが発見されました。このAIが独自に生み出した「物理的なスキル」には、ボールに対してタックルしたりフェイクをかけたりキックしたりキャッチしたり飛び込んだりと、さまざまなアクションが含まれています。このようなAIによるセルフプレイは、AIを改良していくための環境が常に正しいことを保証するものであり、将来的には強力なAIシステムの中核になるとOpenAIは考えているそうです。

Competitive Self-Play
https://blog.openai.com/competitive-self-play/

AIをオープンソース化するための非営利の研究機関として設立されたOpenAIは、シミュレーターの中で2つの3Dロボットに対して簡単な競争を促し、AIがどのように競争内容を改善していくのかを解析しました。設定された競争は、「相撲」や「サッカーのPK」のようなもので、ひとつはリングの中から相手を押し出せば勝利、もうひとつはネットにボールが触れれば勝利というわかりやすいルールのものです。

エージェントは、「起立して前進」といった探査を支援する行動を行うと、それに対する報酬を得られます。そういった簡単な報酬を繰り返し受け取りながら競争を繰り返すことで、エージェントは「タックル」「ダッキング」「フェイク」「キック」「キャッチ」「ダイビング」といった動作を学習しました。なお、各エージェントのニューラルネットワークポリシーは、独立したポリシー最適化で個別に訓練されているそうです。

実際にAIが独自に編み出したスキルは以下のムービーで確認できます。

Competitive Self-Play - YouTube

ムービーがスタートしたと同時に画面上に謎の3Dモデルが登場

これは相撲で、相手をリング上から落とした方が勝ちというルール

メチャクチャ奇妙な動きで相手を押し出す緑色のモデル

AIを競わせることでどんなスキルを取得していったのかというと、相手へのタックルや……

闘牛のように相手をひらりとかわしたり……

安定したスタンスをとったりと、さまざま。

他にも、ボールを蹴って赤色のエリアに蹴り込めば勝ちとなるサッカーのPKのような対決。

この対決では、足を使ってボールをブロックしたり……

ボールを相手のいない方向にキックしたり……

相手の動きに合わせて立ち位置を調整したり、といったスキルをAIが独自に習得しました。

相手をくぐり抜けて奥のラインに到達したら勝ち、という勝負では……

ダッキングすることで相手をかいくぐるスキルをAIが編み出しました。

それぞれのスキルが必要とするタスクや環境を整備することは可能ですが、人間のデザイナーの努力と工夫が必要であり、AIがどのようなスキルを編み出すかはそれぞれの場合により異なります。しかし、何度も繰り返し反復試行することでAIのパフォーマンスを向上させることは可能であり、実際、Dota 2のプロジェクトではAIを競わせてセルフプレイさせることで人間のトップレベルのeスポーツ選手を打ち負かすことができるAIエージェントを作成することに成功しています。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2017年10月12日 19時00分00秒 in 動画, Posted by logu_ii

You can read the machine translated English article here.