AI

NVIDIAが高性能画像生成モデル&動画生成モデルを含むフィジカルAI基盤モデル群「Cosmos 3」を公開


NVIDIAが日本時間の2026年6月1日にフィジカルAIの基盤モデル群「Cosmos 3」を発表しました。Cosmos 3はロボットや自動運転での活用を目的としたモデル群で、画像生成モデル「Cosmos3-Super-Text2Image」と動画生成モデル「Cosmos3-Super-Image2Video」はオープンモデルとして最高性能を達成しています。

Cosmos 3 — Cosmos Lab
https://research.nvidia.com/labs/cosmos-lab/cosmos3/

NVIDIA Launches Cosmos 3, the Open Frontier Foundation Model for Physical AI | NVIDIA Newsroom
https://nvidianews.nvidia.com/news/nvidia-launches-cosmos-3-the-open-frontier-foundation-model-for-physical-ai

How Cosmos 3 Helps Physical AI Think Before It Acts | NVIDIA Blog
https://blogs.nvidia.com/blog/cosmos-3-physical-ai-open-world-foundation-model/

Cosmos 3はフィジカルAIの基盤モデル群で、記事作成時点では以下の5種類がオープンモデルとして公開されています。

Cosmos3-Nano:160億パラメーターのマルチモーダルモデル。テキスト・画像・動画・音声・動作の入出力に対応。
Cosmos3-Super:650億パラメーターのマルチモーダルモデル。テキスト・画像・動画・音声・動作の入出力に対応。
Cosmos3-Nano-Policy-DROID:160億パラメーターのマルチモーダルモデル。ロボットの動作制御が可能。
Cosmos3-Super-Text2Image:650億パラメーターの画像生成モデル。テキストから画像を生成する。
Cosmos3-Super-Image2Video:650億パラメーターの動画生成モデル。画像から動画を生成する。

研究者はCosmos 3シリーズのモデルを活用することで、現実世界で動作するロボットや自動運転車などを開発することができます。


Cosmos3-Super-Text2Imageの生成例が以下。


第三者機関のArtificial Analysisが実施したテストでは、2026年5月28日時点でCosmos3-Super-Text2Imageがオープンモデルの中で最も高性能なモデルと評価されています。Artificial Analysisのテストは「AIの名前を伏せた状態で生成画像の品質を人間に評価させる」という形式で実施されており、Cosmos3-Super-Text2Imageが「機械的なベンチマークテストではなく人間の審美眼で高品質と評価された」ということを示しています。


クローズドモデルを含むランキングでもNano Banana Proを超えて4位にランクインしました。


動画生成モデルのCosmos3-Super-Image2Videoもオープンモデルの中で最高性能と評価されています。


クローズドモデルも含めたランキングでは22位でした。


「Cosmos3-Nano」「Cosmos3-Super」「Cosmos3-Nano-Policy-DROID」「Cosmos3-Super-Text2Image」「Cosmos3-Super-Image2Video」の5種類は以下のリンク先で配布されています。また、リアルタイム処理を重視した「Cosmos3-Edge」が近日中に公開される予定です。

nvidia/Cosmos3-Nano · Hugging Face
https://huggingface.co/nvidia/Cosmos3-Nano

nvidia/Cosmos3-Super · Hugging Face
https://huggingface.co/nvidia/Cosmos3-Super

nvidia/Cosmos3-Nano-Policy-DROID · Hugging Face
https://huggingface.co/nvidia/Cosmos3-Nano-Policy-DROID

nvidia/Cosmos3-Super-Text2Image · Hugging Face
https://huggingface.co/nvidia/Cosmos3-Super-Text2Image

nvidia/Cosmos3-Super-Image2Video · Hugging Face
https://huggingface.co/nvidia/Cosmos3-Super-Image2Video

なお、NVIDIAのCosmosシリーズはロボットや自動運転車などでの活用を目的として開発されていますが、フィジカルAI以外の分野でも活用されています。例えば、高品質なイラストを生成できる「Anima」は「Cosmos-Predict2-2B-Text2Image」をベースに開発されています。

アニメ・イラストに強い画像生成AI「Anima」の正式版がついに登場、タグ・自然言語両対応でSDXLやIllustrious系モデルが動作するPCなら余裕でローカル実行可能 - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
ついにNVIDIAがノートPC向けSoC「NVIDIA RTX Spark」を発表、128GBメモリ&NVIDIA製GPU&ArmベースCPU搭載で高性能AIをローカル実行 - GIGAZINE

NVIDIAがGB300を内蔵したモンスター級WindowsデスクトップPC「DGX Station」を発表、メモリは最大748GBで最大1兆パラメーターのAIを実行可能 - GIGAZINE

NVIDIAがアメリカ最強オープンモデル「Nemotron 3 Ultra」を発表&AIサーバー「Vera Rubin」の量産開始を報告 - GIGAZINE

高速かつ高精度なオブジェクト検出AIモデル「LocateAnything」をNVIDIAが公開、写真だけでなくアプリUIや文字の検出にも対応 - GIGAZINE

リアルタイム動画生成AI「LongLive-2.0」をNVIDIAが公開、FP4量子化を想定した学習により軽量かつ高品質な生成を実現 - GIGAZINE

NVIDIAが拡散言語モデル「Nemotron-Labs-Diffusion」を公開、拡散モードと自己回帰モードを切り替え可能で画像を処理できるVLMもあり - GIGAZINE

in AI, Posted by log1o_hf

You can read the machine translated English article NVIDIA unveils 'Cosmos 3,' a suite of ph….