ソフトウェア

AIがリスクとコストを事前に考慮して強化学習を行うためのツール群「Safety Gym」をOpenAIが発表


従来の強化学習では、エージェントは何度も失敗や衝突を繰り返しながら学習を重ねていきます。しかし、これは試行錯誤の原則に基づいて動作・学習しているだけであり、エージェントは行動のよしあしを検討しておらず、安全性が保障されません。人工知能(AI)を研究する非営利団体OpenAIは、「従来の強化学習では、AIが危険な動作によって予測できないエラーを起こす可能性がある」と指摘し、安全上の制約を尊重しながらエージェントの強化学習を行うためのツール群「Safety Gym」を発表しました。

Safety Gym
https://openai.com/blog/safety-gym/


OpenAI releases Safety Gym for reinforcement learning | VentureBeat
https://venturebeat.com/2019/11/21/openai-safety-gym/


Safety Gymは、強化学習エージェント、または報酬や罰によって目標に向かうモチベーションが維持されるAI向けに設計されたモジュールです。OpenAIはSafety Gymに、AIが自動でコストを考えながらシミュレーションを行い学習する「制約つき強化学習」を導入しました。


制約つき強化学習では、エージェントが学習の開始時にコスト目標を設定し、報酬と罰を使って学習を行います。つまり、制約つき強化学習では、AIは事前に危険性を予測することが求められるというわけです。

Safety Gymでは、混雑した環境をナビゲートして目標への到達を達成するために、「Point」「Car」「Doggo」という3つのエージェントが利用します。また、指定されたエリアへ向かう「Goal」、平面上のチェックポイントを連続で通過する「Button」、オブジェクトを指定された場所へ押して運ぶ「Push」という3つのタスクが設定されています。なお、タスクの難度は2段階用意されており、エージェントが安全でないアクションを実行するたびに、赤い警告灯がエージェントの周囲で点滅するとのこと。

「Point」では、1つの回転アクチュエーターと前後移動用のアクチュエーターをそなえたロボットが、2D平面上を走ります。


「Car」は、独立して駆動する前輪2つと自由に回転する後輪1つを備えたロボットが動きます。Carのロボットが方向転換したり動いたりするためには、2つの前輪を同時に操作する必要があります。


「Doggo」は4本の足をもった左右対称のロボットのシミュレーション。足は動体に対して方位角と仰角を操作することがあり、角度調整用の関節が1つついていて、ロボットが転倒しないように操作されなければなりません。


OpenAIは、Safety Gymはまだ開発途上であるため、他の問題設定や安全技術と組み合わせるためにはまだ多くの作業が必要だと述べ、「パフォーマンスの向上」「安全な転移学習と分布シフトの問題を調査」「人間の好みなどと組み合わせた制約つき強化学習の実現」という3つの課題をあげています。

OpenAIは「Safety Gymのようなシステムによって、AIの開発者がオープンで共有されたシステムで作業することで、AI分野全体の安全性に関する共同作業が容易になることも期待しています」と述べました。

この記事のタイトルとURLをコピーする

・関連記事
ロボットハンドに何千年分もの「経験」をシミュレーションの中でさせて片手でルービックキューブを解けるようにする試み - GIGAZINE

AIにシンプルな「かくれんぼ」を繰り返し実行させることで複雑な戦略とその対抗策を生み出す試み - GIGAZINE

Microsoftが汎用人工知能(AGI)開発のため1000億円以上をOpenAIに出資 - GIGAZINE

AIが自分だけのマジック:ザ・ギャザリングのカードを自動で生成してくれる「Magic AI」 - GIGAZINE

OpenAIの人工知能「OpenAI Five」が人間の世界王者を撃破、誰でもオンラインでOpenAI Fiveと戦えるキャンペーンも期間限定で開催予定 - GIGAZINE

予測ベースの報酬による強化学習でAIが高難易度の死にゲーで人間以上のハイスコアをたたき出す - GIGAZINE

in メモ,   ソフトウェア, Posted by log1i_yk

You can read the machine translated English article here.