ソフトウェア

Googleの研究チームがゲームエンジンとして機能するAIモデル「GameNGen」を発表、入力に合わせて20fpsでDOOMを描画可能で実際のプレイムービーもあり


Googleの研究者4名のチームが、ゲームエンジンとして機能するAIモデル「GameNGen」の論文を発表するとともに実際にFPSゲームのDoomをプレイするムービーを公開しました。

GameNGen
https://gamengen.github.io/


[2408.14837] Diffusion Models Are Real-Time Game Engines
https://arxiv.org/abs/2408.14837


研究チームによると、GameNGenは単一のTPUでDoomをシミュレートでき、毎秒20フレーム以上のフレームレートを達成したとのこと。プレイの様子は以下のムービーで確認できます。

GameNGen - YouTube


何もないところから敵や弾が出現したり、壊したオブジェクトが復活したりするなど生成AIっぽさを感じるシーンがあるものの、銃を撃ったら残弾数が減ったり、マップに置いてあるアーマーを取得したらアーマー値が上昇したりするなどちゃんとゲームとして遊べています。


モデルの構造はこんな感じ。基本は強化学習エージェントにゲームをプレイさせて大量の「入力&ゲームプレイ」のデータを集め、Stable Diffusion v1.4をベースに入力とフレームのシーケンスに基づいて条件付けを行うというものです。


トレーニング中にエンコードされたフレームにガウスノイズを追加してあえてコンテキストフレームを破損させることで、モデルは前のフレームでサンプリングされた情報を修正して視覚的な安定性を長期的に維持できるようになったとのこと。

こうしてトレーニングされたGameNGenモデルは「次のフレーム」の予測において画像間の相違度を示すPSNRという指標で非可逆JPEG圧縮と同等の数字である29.4を達成しました。また、GameNGenを使用したプレイムービーと実際のゲームのプレイムービーをそれぞれランダムに3.2秒分だけ切り出し、人間の評価者が「どちらが実際のゲームなのか」を推測したときの正答率は60%にとどまっており、GameNGenが精度の高い映像を生成できていることが分かります。

GameNGenのプロジェクトページには5本のフルゲームプレイムービーがアップロードされているので、気になる人は確認してみてください。

この記事のタイトルとURLをコピーする

・関連記事
AIの仕組みや開発手法についてイラスト付きで分かりやすく解説するAmazonの無料教材「MLU-Explain」 - GIGAZINE

Googleが超高品質な動画生成AI「Lumiere」を発表、フレーム同士のつながりが自然で「テキストや画像から動画生成」「写真の一部を動画化」「動画の一部分を指定して加工」などなど機能てんこもり - GIGAZINE

たった数秒の音声データから音声合成が可能な「VoiceCraft」 - GIGAZINE

Googleが開発したPythonのUIフレームワーク「Mesop」の特徴を開発チームが解説 - GIGAZINE

GoogleがAIの力でファイル形式を正確に識別するツール「Magika」をオープンソースで公開 - GIGAZINE

in ソフトウェア,   動画, Posted by log1d_ts

You can read the machine translated English article here.