2026年06月25日 14時10分 AI

7種類の実行環境を再現するAIモデル「Qwen-AgentWorld」が登場、実環境不要でAIエージェントが行動結果を事前予測できるよう訓練可能

中国の大手テクノロジー企業「Alibaba」のAI研究チームであるQwenが、「Qwen-AgentWorld」を2026年6月23日にリリースしました。QwenによるとQwen-AgentWorldは言語モデルに基づいて構築された世界モデルであり、このアプローチが汎用(はんよう)エージェント能力の限界を押し上げる方法である可能性があるそうです。

Qwen-AgentWorld: Language World Models for General Agents
https://qwen.ai/blog?id=qwen-agentworld

Qwen-AgentWorldは単一モデル内で7つのエージェント環境をシミュレートする「ネイティブ言語ワールドモデル」です。7つのエージェント環境には、AIアプリケーションを外部に接続するための標準プロトコルである「MCP」、検索エンジン環境、Linuxなどのコマンドライン環境(Terminal)、ソフトウェア開発環境(SWE)、ウェブブラウザ環境、デスクトップOS環境、Androidスマートフォン環境が含まれています。これら7種類のエージェント実行環境を、単一モデル内で再現できる初のモデルだとされています。

📣📣 Meet Qwen-AgentWorld — a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SWE, Web, OS, Android) within a single model. Environment modeling is the training objective from day one, not a post-hoc adaptation.

🤔 LLMs are trained to be… pic.twitter.com/ahvxH66uxT
— Qwen (@Alibaba_Qwen) 2026年6月24日

Qwenによると、言語エージェントは対話型環境で動作するように訓練されていますが、現在の状態とエージェントの行動に基づいて次に何が起こるかを予測するなど、環境自体をモデル化するように明示的に訓練された言語モデルは存在しないとのこと。Qwen-AgentWorldは、1000万件以上の実際のエージェント操作ログを基に、継続事前学習(CPT)・教師ありファインチューニング(SFT)・強化学習(RL)の3段階で学習した言語ワールドモデルです。シミュレーター内で環境を自由に変更したり、実環境では再現しにくい状況を構築したりできるため、実環境では難しい条件で大量のシミュレーションを実行でき、より効率的にエージェントを訓練できるとしています。

Qwenは、言語ワールドモデルの有効性を2つの方法で検証しました。1つ目は、実際の環境の代わりにワールドモデルをシミュレーターとして利用してAIエージェントを強化学習させる方法です。この方法では環境を自由に制御できるため、実環境だけで学習した場合よりも高い性能を達成しました。2つ目は、言語ワールドモデルをエージェントの事前学習モデルとして利用する方法です。この場合、各エージェント向けの追加の強化学習を行わなくても、7種類のベンチマークへ能力を転移でき、言語ワールドモデルが高性能なAIエージェントの基盤となり得ることが示されました。

Qwenは、実際の環境とのインタラクションは依然としてAIエージェントを学習させる上で最も重要な手法であり、言語ワールドモデルはそれを置き換えるものでも、単なるコスト削減のためのものでもないと説明しています。その代わりに、実環境を補完する新たな手法として、言語ワールドモデルには2つの利点があるとしています。1つ目は、実環境では難しい大規模かつ制御可能な学習が可能になることです。2つ目に、従来のAIエージェントが「現在の状態から次の行動を決める」ことに重点が置かれていたのに対し、言語ワールドモデルでは「世界を予測する能力」そのものをエージェントに身につけさせ、まず予測してから行動させることができます。

Qwenは、汎用的な言語ワールドモデルを実現するには「多様な環境で学習すること」「異なる分野間で能力が転移すること」「継続事前学習(CPT)で現実世界の知識を獲得すること」の3つが重要だと説明しています。法律や医療、金融、サイバーセキュリティなど専門分野の知識を継続事前学習で取り込むことで、実際の環境に近いシミュレーションを可能にしたとしています。

Qwenは合わせて、実際の環境で取得した応答を正解データとしてシミュレーション品質を評価する7ドメイン対応ベンチマーク「AgentWorldBench」も公開しました。AgentWorldBenchに基づくと、「Qwen-AgentWorld-397B-A17B」はGPT-5.4、Claude Opus 4.8、Gemini 3.1 Proを上回る総合シミュレーション品質を達成しています。

今回公開されたのは総パラメータ数350億・推論時に有効化されるパラメータ数30億の「Qwen-AgentWorld-35B-A3B」と、総パラメータ数3970億・推論時に有効化されるパラメータ数170億のQwen-AgentWorld-397B-A17B」の2種類で、Hugging FaceやModelScopeで公開されています。一般的な推論フレームワークのAPIを介して利用でき、Hugging FaceではOpenAI互換APIサーバーを起動するためのコマンド例も示されています。

Qwen-AgentWorld - a Qwen Collection
https://huggingface.co/collections/Qwen/qwen-agentworld

Qwen-AgentWorld合集详情-来自Qwen · 魔搭社区
https://modelscope.cn/collections/Qwen/Qwen-AgentWorld

この記事のタイトルとURLをコピーする