Google DeepMindから「自己改善型AI」が登場、あらゆる場面でのロボットアームの使い方を勝手に身につけることが可能

GoogleのAI開発チーム・Google DeepMindが、わずか100回のデモンストレーションでさまざまなロボットアームの操作を習得し、自己生成データを用いてさらに能力を洗練させていくことが可能な自己改善型AIエージェント「RoboCat」を発表しました。
RoboCat: A self-improving robotic agent
https://www.deepmind.com/blog/robocat-a-self-improving-robotic-agent
RoboCatがどのようにしてロボットアームを動かすのかは、以下のムービーを見るとよくわかります。
RoboCat: A self-improving robotic agent - YouTube

まず、人間が目標となる完成図を画像で提示して、これを再現するようRoboCatに指示します。ここでは、3本のペグが刺さった板に歯車がひとつはめられている模型が示されました。

歯車を外して、模型をバラバラにしてからタスクを開始します。

最初のお手本通りに、AIがロボットアームを動かして歯車をセットしました。

同じタスクの別の目標を設定しても対応できます。今回は、歯車がふたつになりました。

持ち上げた歯車を落としてしまうなど、少しやきもきさせられるところもありましたが、見事にクリアしました。

RoboCatは、学習外の目標にも柔軟に対応します。次の実験では、人間が手でフルーツの模型を動かしている状態を示しました。

RoboCatは人間の手が映り込んだデータでトレーニングしたことがありませんでしたが、手でオレンジを持ち上げればいいということを理解しました。

異なる機種のロボットアームにも対応します。これまでは「パンダ」という名称の白いロボットアームでしたが、次にテストを行う赤いロボットアームは「ソーヤー」という別の機種。RoboCatはこのロボットアームでトレーニングをしたことがありません。

しばらくアームを左右に動かしていましたが、その後きちんとオレンジをつかんで持ち上げました。

状況の変化にも素早く対応します。最後のテストでは、青い積み木の上に赤い積み木を載せるよう指示しました。

完了と思いきや、人間が出てきて積み木を崩し、配置をバラバラにしてしまいました。

その後、RoboCatは素早く赤い積み木を拾って再度積み上げました。

しつこく積み木を崩されても、何度でも積み直しています。

RoboCatは、Google DeepMindが開発したマルチモーダルモデル「Gato(スペイン語で猫の意)」をベースにしています。
DeepMindが人間レベルにかなり近づいたAI「Gato」を構築、ゲームプレイ・チャット・ロボットアーム操作などが可能 - GIGAZINE

RoboCatの開発にあたり、Google DeepMindは言葉や画像、動作を処理できるGatoのアーキテクチャと、さまざまな機種のロボットアームで何百回もの異なるタスクを解決する画像、そしてそれにつながるアクションシーケンスから成る膨大なトレーニングデータセットを使用しました。
その後、Google DeepMindはRoboCatで「自己改善トレーニングサイクル」を開始させ、未経験のタスクを習得させました。
新しいタスクの習得は、次の5つのステップに分かれます。
・人間が操作するロボットアームにより、新しいタスクのデモンストレーションを100~1000回行う。
・RoboCatを新しいタスクやロボットアームでファインチューニングし、新タスクに特化したスピンオフエージェントを作成する。
・スピンオフエージェントは、新しいタスクとアームを平均1万回トレーニングし、より多くのトレーニングデータを自己生成する。
・デモデータと自己生成データをRoboCatの既存のトレーニングデータセットに組み入れる。
・新しいトレーニングデータセットで新バージョンのRoboCatをトレーニングする。

RoboCatは、タスクを学習すればするほど新しいタスクの習得能力が向上するというサイクルを実現させています。RoboCatの初期バージョンでは、1つのタスクを500回のデモンストレーションで学習した後のテストで36%の成功率を示しました。しかし、多様なタスクで学習した後では、同じタスクの成功率を2倍以上に向上させることができました。

Google DeepMindは「人間がある分野の学習を深めていくうちにより多様なスキルを身につけていくのと同じように、RoboCatは経験を重ねて能力を向上させていくことができます。独自にスキルを学習して迅速に自己改善するこの能力は、異なるロボットに適用することができる有用な新世代の汎用(はんよう)ロボットエージェントへの足がかりとなるでしょう」と述べました。
・関連記事
「ハサミを箱に入れる」「布を折る」など言葉で指示した多様なタスクをロボットアームで遂行するAIが登場 - GIGAZINE
AIが人間の行動を観察するだけで同じ行動を模倣する技術をNVIDIAが公開 - GIGAZINE
Googleが機械学習を用いて「物を投げること」を理解するロボット「TossingBot」を開発 - GIGAZINE
人間の指示なしにロボットが自分で動いて学習できるアルゴリズム「Grasp2Vec」をGoogleが発表 - GIGAZINE
電極つき帽子をかぶって思い通りにロボットアームを3次元的に動かすことに成功 - GIGAZINE
・関連コンテンツ
in ソフトウェア, ハードウェア, 動画, Posted by log1l_ks
You can read the machine translated English article ``Self-improvement AI'' has appe….