2026年03月12日 12時11分 AI

NVIDIAが1200億パラメータ規模の日本語対応ハイブリッドMoEオープンウェイトAIモデル「Nemotron 3 Super」を発表

NVIDIAがエージェント型AIの推論に特化した新しいオープンモデル「Nemotron 3 Super」を発表しました。Nemotron 3 Superは高い計算効率と精度を両立させた1200億(120B)の総パラメータと、120億(12B)の有効パラメータを持つMoEアーキテクチャを採用しています。

Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning | NVIDIA Technical Blog
https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/

NVIDIA Nemotron 3 Super - NVIDIA Nemotron
https://research.nvidia.com/labs/nemotron/Nemotron-3-Super/

New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI | NVIDIA Blog
https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/

nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-Base-BF16 · Hugging Face
https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-Base-BF16

Nemotron 3 Superはマルチエージェントシステムにおいて課題となる、履歴や推論ステップの再送によるコンテキストの爆発や、複雑な推論に伴う計算コストの増大を解決するために設計されました。対応言語は英語、日本語、スペイン語、フランス語、ドイツ語、イタリア語、中国語、アラビア語、ヘブライ語、ヒンディー語、韓国語など20言語。

たとえば、同じ推論コストで4倍のエキスパート(専門家)を呼び出すことが可能なLatent MoEや、一度のパスで複数の将来トークンを同時に予測して生成時間を短縮するマルチトークン予測(MTP)が導入されています。加えて、Nemotron 3シリーズで初めてLatent MoE、MTP、NVFP4での事前学習を採用したモデルでもあります。

さらに、シーケンス効率に優れたMamba層と精密な推論を行うTransformer層を統合したハイブリッドバックボーンにより、メモリと計算の効率が4倍向上したとのこと。Nemotron 3 SuperはNVIDIA Blackwellプラットフォーム向けに最適化されたNVFP4形式でネイティブに事前学習されており、Hopper上のFP8と比較して、精度を維持したまま推論速度が4倍に高まっているそうです。

This latest addition to the Nemotron family isn't just a bigger Nano.

✅ Up to 5x higher throughput and 2x accuracy than the previous version
✅ Latent MoE that calls 4x as many expert specialists for the same inference cost⁰
✅ Multi-token prediction that dramatically reduces… pic.twitter.com/18KgqdN0H4
— NVIDIA AI Developer (@NVIDIAAIDev) March 11, 2026

学習プロセスは事前学習、教師あり微調整(SFT)、マルチ環境強化学習の3つの段階で構成されています。事前学習では、推論やコーディングに重点を置いた10兆個のユニークなトークンを含む、合計25兆トークンが使用されました。

さらに推論、指示追従、コーディング、安全性、マルチステップのエージェントタスクを含む4000万件のポストトレーニング用サンプル群のうち、約700万件を用いて教師あり微調整が行われました。最終的には21種類の環境構成と37のデータセットにまたがる強化学習が実施され、学習中には約120万件のenvironment rolloutsが生成されています。これにより、100万(1M)トークンのネイティブなコンテキストウィンドウが実現し、エージェントは長期記憶を保持しながら目標を見失わずに一貫した推論を継続できるようになりました。

性能面では、以前のNemotron Superと比較して最大5倍のスループットと最大2倍の精度を達成しています。ベンチマークでは同様のサイズのオープンモデルと比較して優れた精度を示しており、NVIDIA AI-Q research agentに組み込まれた構成ではDeepResearch BenchおよびDeepResearch Bench IIで1位を獲得しています。また、GPT-OSS-120BやQwen3.5-122Bといった他社のモデルに対しても、特定の条件下で2.2倍から7.5倍高い推論スループットを記録しています。

Announcing NVIDIA Nemotron 3 Super!

????120B-12A Hybrid SSM Latent MoE, designed for Blackwell
????36 on AAIndex v4
????up to 2.2X faster than GPT-OSS-120B in FP4
????Open data, open recipe, open weights

Models, Tech report, etc. here:https://t.co/CAYpP1iK3i

And yes, Ultra is coming! pic.twitter.com/QuguMQaC8S
— Bryan Catanzaro (@ctnzr) March 11, 2026

AIネイティブの投資企業であるInference Researchのサム・ホーガンCEOはNemotron 3 Superを数週間テストした上で「間違いなく最高のオープンソースのアメリカ製モデルです。超高速。エージェントやツール呼び出しのユースケースに最適です」と評価しました。

We’ve been testing Nemotron 3 Super for the last few weeks.

TL;DR: it’s easily the best Open Source American model for its size. Super fast. Great for agents and tool-calling use cases.

We’ll be shipping a series of post-trained Nemtron models in the coming weeks. https://t.co/AwVi2ueQLZ
— Sam Hogan ???????? (@samhogan) March 11, 2026

Nemotron 3 Superはベースモデルと重み(パラメータ)、データセット、トレーニングレシピがすべて公開されており、開発者は自身のインフラ上で自由にカスタマイズや展開を行うことが可能です。利用可能なチェックポイントにはNVFP4、FP8、BF16の各形式が含まれ、Hugging FaceやNVIDIA NIM、OpenRouterを通じてアクセスできます。GPUの最小要件はNVFP4版がH100×1、FP8版がH100×2、BF16版がH100×8です。

また、build.nvidia.comでNemotron 3 Super 120B(A12B)モデルのデモが公開されています。

nemotron-3-super-120b-a12b Model by NVIDIA | NVIDIA NIM
https://build.nvidia.com/nvidia/nemotron-3-super-120b-a12b