Googleがロボット工学用のAIモデル「Gemini Robotics」をリリース、口頭で指示するだけでロボットがタスクをやってくれる
GoogleがGemini 2.0をベースに「動作を出力する機能」を追加し、ロボットを操作できるようにしたAIモデル「Gemini Robotics」を開発したと発表しました。同時に高度な空間理解機能を持つ「Gemini Robotics-ER」モデルも発表されています。
Gemini Robotics brings AI into the physical world - Google DeepMind
https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/
Gemini Robotics: Bringing AI into the Physical World
(PDFファイル)https://storage.googleapis.com/deepmind-media/gemini-robotics/gemini_robotics_report.pdf
これまでのGeminiファミリーのモデルでは、テキスト・画像・音声・動画というマルチモーダルな入力に対応していましたが、出力はデジタル領域に限られていました。今回開発されたGemini Roboticsは新たな出力方法として「物理的な動作」が追加されており、ロボットを直接操作することが可能です。
GoogleはGemini Roboticsを「視覚・言語・動作モデル(VLAモデル)」とカテゴライズし、「幅広い現実世界のタスクを実行できるようになる」と述べています。
実際にGemini Roboticsがタスクをこなす様子は以下のムービーで確認できます。
Gemini Robotics: Bringing AI to the physical world - YouTube

オペレーターが「バナナを透明な容器に入れて」と口頭で指示するとロボットが指示通りに動作。
途中で容器の場所を変更するという意地悪をしてもすぐに対応しています。
元となったGemini 2.0モデルの世界知識のおかげで、「バスケットボールを拾ってダンクを決めて」のように全くトレーニングで登場しなかった指示にも従えるとのこと。
Gemini Roboticsは新しいオブジェクト、多様な指示、新しい環境への対応が得意とのことで、Googleは「他の最先端の視覚言語アクションモデルと比較して、包括的な一般化ベンチマークで平均2倍以上のパフォーマンスを発揮する」と述べました。
また、バナナのタスクで容器の場所を変更しても問題なくタスクが行えたように、周囲を継続的に監視して環境や指示の変化を検出し、変化に応じて動作を調整するようになっているとのこと。物体が手から滑り落ちたり、誰かが物を動かしたりするような予期せぬ事が当たり前の現実世界では変化に対応する能力は重要です。
手先の器用さが必要な動作も実行可能で、以下のムービーでは折り紙を折る様子が確認できます。
Gemini Robotics: Dexterous skills - YouTube

トレーニングの大部分はAloha2アームを使用して行われましたが、ApolloやBi-arm Frankaなど他のアームでもタスクを遂行できるとのこと。
GoogleはGemini Roboticsと同時に、高度な視覚言語モデルである「Gemini Robotics-ER」をリリースしました。Gemini Robotics-ERはGemini 2.0のポインティングや3D検出などの機能が大幅に改善されており、マグカップを見て「どうすれば適切につかむことができるのか」を理解できるとのこと。
Googleはロボットの開発において安全性にも注意しており、ApptronikやAgile Robots、Agility Robots、Boston Dynamics、Enchanted Toolsなどの信頼できるテスターと協力して今後もAI開発を継続していくと述べられています。
・関連記事
Googleが単一のGPUで実行できる中では過去最高の大規模言語モデル「Gemma 3」を発表 - GIGAZINE
ChatGPTの「Deep research」とGeminiの「Deep Research」は何が違うのか? - GIGAZINE
Googleが複数画像をミックスして新しいイメージを生み出す画像生成AI「Whisk」を日本含む100カ国以上で利用可能に、モデル・背景・スタイルの3つを画像orテキストで入力するとImagen 3がフュージョンしてくれる - GIGAZINE
Googleが人間の代わりに情報収集してくれるAI機能「Deep Research」をリリース、ウェブ上の膨大な情報をまとめてレポートを提出してくれる - GIGAZINE
GoogleがAIを活用した天気予報モデル「WeatherNext」を企業向けに提供すると発表 - GIGAZINE
・関連コンテンツ
in ソフトウェア, ハードウェア, 動画, Posted by log1d_ts
You can read the machine translated English article Google releases Gemini Robotics, an AI m….