GoogleがAIアルゴリズムの「DreamerV3」を開発、「人間のデータなしでマインクラフトのダイヤモンドを採掘できる最初のAI」

Google DeepMindの研究チームが、人気ゲームソフト「マインクラフト」でダイヤモンドを採掘することも可能なAIアルゴリズム「DreamerV3」を開発したと発表しました。周囲の環境から特定の知識を得て、その知識を応用できるという点で優れていると開発者は話しています。
Mastering diverse control tasks through world models | Nature
https://www.nature.com/articles/s41586-025-08744-2
AI masters Minecraft: DeepMind program finds diamonds without being taught
https://www.nature.com/articles/d41586-025-01019-w
開発者の1人であるダニヤル・ハフナー氏いわく、DreamerV3は周囲の環境を学習し、将来のシナリオを想像して動作を改善するアルゴリズムになっているとのこと。人間の行動を後から学習させずとも、AI自らが周囲の環境に応じた行動を取れるようになっています。
ハフナー氏は「マインクラフトでダイヤモンドを採掘させたのは後付けです。特にマインクラフトを念頭に置いて開発したわけではありませんが、テスト環境として使うには理想的だと考えたんです」と語りました。
マインクラフトでは、プレイヤーは森、山、砂漠、沼地などさまざまな地形の中を探索することになります。この中で手に入るアイテムの1つが「ダイヤモンド」です。ダイヤモンドを手に入れるためには、木材や石などの素材を集めて道具を作り、その道具を使ってさらに上位の素材を集めてまた道具を作り……といった作業を繰り返さなければなりません。

ハフナー氏らは、ゲーム開始からダイヤモンドを獲得するまで12のマイルストーンを設定し、「1つのマイルストーンに到達するたびにプラス1の報酬を与える」というプロトコルを設定。この設定でDreamerV3に基づいて構築したAIにゲームをプレイさせた上で、プレイヤーが死亡したとき、または3万6000ステップ後(約30分)ごとにゲームをリセットし、AIが1つの特定の動作に慣れるのではなく、報酬を得るための基本的な動作を学ぶように誘導しました。
この設定だと、ダイヤモンドを初めて採掘できるまでにAIは約9日間プレイし続ける必要があるそうです。非常に長い時間がかかっていますが、「未知の環境に置かれたAIが自ら動作を学び、タスクを解決する」という処理ができる点で優れています。
これまでにも、AIにマインクラフトのダイヤモンドを採掘させようとする試みは存在しましたが、人間のプレイ動画を学習させたり、人間が段階的にアシストしたりするのが一般的で、新しい領域の知識をゼロから学習させる形でAIにダイヤモンドを採掘させることはできませんでした。このことから、ハフナー氏はDreamerV3を「人間のデータなしでマインクラフトのダイヤモンドをゼロから見つけられる、世界初のエージェント」と評価しています。
Excited to share that DreamerV3 has been published in Nature!
— Danijar Hafner (@danijarh) April 2, 2025
Dreamer solves control tasks by imagining the future outcomes of its actions inside of a continuously learned world model 🌏
It's the first agent to find diamonds in Minecraft from scratch without human data! 💎
👇 pic.twitter.com/EGNLmBTmAE
なお、ハフナー氏らはAtariのゲームなどでもDreamerV3を動作させ、それぞれの環境に応じたタスク解決能力を示すことを実証しています。

ハフナー氏は「DreamerV3の能力は、ビデオゲームよりも試行錯誤のコストがはるかに高い、現実世界でのやり取りを学習するロボットにも応用できるでしょう」と語りました。
なお、今後はマインクラフトのボス「エンダードラゴン」を倒すことを目標とするとのことです。
・関連記事
「Factorio」でAIモデルの性能を評価する学習環境「Factorio Learning Environment(FLE)」が登場 - GIGAZINE
Claude 3.7 Sonnetにポケモンをプレイさせる「ClaudePlaysPokemon」をAnthropicがTwitchで配信開始、推論しながらの超ゆっくりプレイを皆が見守る - GIGAZINE
機械学習で「ポケモン」を攻略する「Pokémon RL Edition」、DeepSeek-V3の6万分の1のパラメーター規模でクリアを実現 - GIGAZINE
Robloxが3Dオブジェクトを自動生成するAIモデル「Cube 3D」をオープンソースで公開 - GIGAZINE
MicrosoftのXboxチームがゲームをアシストするAI「Copilot for Gaming」を発表、「ゲームで負けた理由の解説」や「マイクラ初心者向けのアドバイス」などをリアルタイムで実行可能 - GIGAZINE
・関連コンテンツ
in ソフトウェア, ゲーム, Posted by log1p_kr
You can read the machine translated English article Google develops AI algorithm 'DreamerV3,….