人型ロボットを家庭で動かすのに特化したAI言語モデル「Helix」をFigureが発表

ロボット企業のFigureが、ヒューマノイド(人型ロボット)の制御・知覚・言語理解を統合した汎用(はんよう)型のVision-Language-Action(VLA)モデル「Helix」を発表しました。Helixはわずか500時間の学習データでロボットの上半身全体を精密に制御できる点が特徴的で、家庭用ロボットの実用化に向けた重要な進展として注目されています。
Helix: A Vision-Language-Action Model for Generalist Humanoid Control
https://www.figure.ai/news/helix
実際にHelixで2体のヒューマノイドが動作するところが以下のムービー。人間が買い物を渡して食料品を冷蔵庫やカゴに収納するように指示し、ロボットがその通りに作業を行います。
人型ロボットを家庭で動かすのに特化したAI言語モデル「Helix」で2体のロボットが動作するところ - YouTube

工場のような管理された環境とは異なり、家庭にはガラス製品や衣類、散らばったおもちゃなど、予測不可能な形状、サイズ、色、質感を持つ物体が多数存在します。ロボットが家庭で有用であるためには、特に見たことのない物体に対して、オンデマンドで新しい知的な行動を生成できる能力が必要となります。
Figureによれば、現在のロボット工学では、家庭環境に対応するためのスケーリングは困難だとのこと。ロボットに新しい行動を1つ教えるだけでも、博士レベルの専門家による何時間もの手作業プログラミングや何千もの実演データが必要となり、コストは家庭用のロボットとして非現実なレベルになってしまいます。
そこで、画像や映像を学習できる視覚言語モデルを応用して直接ロボットの動作に変換することで、これまで無数の実演が必要だった新しい動きを、自然言語で話しかけるだけで即座に獲得できるようになるというのがHelixのコンセプトです。
実際に、自然言語による指示にしたがって、ロボットが指定したアイテムを拾い上げるところが以下のムービー。
AI言語モデル「Helix」で動くロボットが自然言語のプロンプトにしたがって物を拾うところ - YouTube

また、以下では動くサボテンのオモチャをさまざまな表現に言い換えながら、自然言語による指示でロボットに拾わせています。
「Helix」搭載のヒューマノイドは言葉によるプロンプトを理解して認識したアイテムから的確に指示されたものを拾い上げる - YouTube

Helixは、ヒューマノイドの上半身全体を高速かつ器用に制御する初の「System 1・System 2」型VLAモデルとして開発されました。VLMは汎用的である一方で速度が遅く、ロボットの視覚運動制御は高速である一方で汎用性に欠けるという問題を、Helixは相互に通信する2つの補完的なシステムを通じて解決しています。
System 2はパラメータ数70億のオープンソース・オープンウェイトVLMをベースとし、単眼ロボット画像とロボットの手首の姿勢と指の位置を処理します。シーン理解と言語理解を担当し、物体やコンテキストに対する幅広い汎用化を可能にします。
一方、System 1はパラメータ800億のTransformerモデルで、シミュレーションで事前学習された完全畳み込み型ニューラルネットワークを使用します。S2と同じ入力を受け取りますが、より応答性の高い制御を実現するため、より高い頻度で処理を行います。
System 2は高レベルの目標についてゆっくり考え、System 1は実時間で動作を実行し調整する速い思考を行います。たとえば、他のロボットと協調する動作の際、System 1はパートナーロボットの変化する動きに素早く適応し、System 2が設定した目標を達成します。
たとえば上記のデモンストレーションで、冷蔵庫に近い方のロボットは机の上にあるケチャップを認識し、冷蔵庫の棚にしまいます。
FigureのAI言語モデル「Helix」で動作するロボットがケチャップを冷蔵庫にしまうところ - YouTube

また、冷蔵庫に収納するべきではないクッキーを発見すると、もう1体のロボットに手渡ししました。
FigureのAI言語モデル「Helix」で動作するロボットがクッキーを認識してもう1体のロボットに渡すところ - YouTube

データセットについては、約500時間の高品質な遠隔操作行動データを収集しているとのこと。自然言語による条件付けを行うため、オンボードカメラの映像クリップに対して自動ラベリングVLMを使用し、「このビデオで見られる動作を実現するために、ロボットにどのような指示を与えただろうか?」という形で事後的な指示を生成します。
Figureは、Helixは記事作成時点であくまでもプロジェクトの初期段階であるものの、Figureのヒューマノイドロボットの行動をスケールさせる上で革新的な一歩となり、日常的な家庭環境でロボットが支援を行う未来への重要な一歩であると位置付けています。
・関連記事
MetaがAI搭載人型ロボット開発を本格的にスタートか、主に「家事」に焦点を当ててReality Labs内で基盤技術開発チームを編成 - GIGAZINE
ボストン・ダイナミクスが強化学習による人型ロボット「Atlas」進化のために元CEO設立の研究機関と提携 - GIGAZINE
自作のヒト型ロボットを操縦してレスキュー能力を競う「ヒト型レスキューロボットコンテスト」を観戦してきた、要救護者への衝撃を抑えるモーションや操作技術が光る - GIGAZINE
トヨタとボストン・ダイナミクスが提携、ヒューマノイドロボット研究開発のさらなる加速を目指す - GIGAZINE
テスラがロボタクシー発表会で披露した人型ロボットOptimusは遠隔操作されていた疑い - GIGAZINE
AI搭載の自律型ヒューマノイドロボット「Figure 02」が登場 - GIGAZINE
・関連コンテンツ
in ソフトウェア, ハードウェア, 動画, Posted by log1i_yk
You can read the machine translated English article Figure announces 'Helix,' an AI language….