2026年05月21日 17時55分 AI

AlibabaがAIエージェント向け新モデル「Qwen3.7-Max」を発表、35時間の自律作業と1000回超のツール呼び出しに対応

AlibabaのQwenチームがAIエージェント向けの新モデル「Qwen3.7-Max」を発表しました。Qwen3.7-Maxは質問に答えるチャットAIというより、コードを書いてデバッグし、オフィス業務を自動化し、数百から数千ステップに及ぶ作業を継続して進めるための基盤モデルとのこと。Qwenチームは、Qwen3.7-Maxを「AIエージェント時代に向けた最新の独自モデル」と説明しています。

Qwen3.7: The Agent Frontier
https://qwen.ai/blog?id=qwen3.7

Qwen3.7: The Agent Frontier - Alibaba Cloud Community
https://www.alibabacloud.com/blog/qwen3-7-the-agent-frontier_603154

AIエージェントとは、人間の指示を受けて作業手順を考え、必要に応じて外部ツールを呼び出しながらタスクを進めるAIシステムを指します。例えば「コードベースを調査してバグを直す」「表計算ファイルを読み込んで資料を作る」「複数のツールを使って業務フローを完了させる」といった作業では、AIがファイル編集、コマンド実行、検証、再修正を何度も繰り返す必要があります。Qwen3.7-Maxは、長時間・多段階の作業を止まらずに進める能力を前面に出したモデルというわけです。

Qwenチームによると、Qwen3.7-Maxはフロントエンドの試作から複数ファイルにまたがるソフトウェア開発までをこなす「コーディングAIエージェント」として機能し、MCP連携や複数AIエージェントの協調によってオフィス業務の自動化にも対応します。MCPは、AIが外部ツールやサービスへアクセスするための接続方式として使われる仕組みで、AIエージェントにブラウザ操作、ファイル操作、業務ツール操作などを行わせる際に重要になります。

下図はQwen3.7-MaxとQwen3.6-Plus、DeepSeek-V4-Pro Max、GLM-5.1、Kimi K2.6、Claude Opus-4.6 Maxを複数のベンチマークで比較したもの。コーディングAIエージェント、AIエージェント実行、指示追従、知識テストなど、幅広い項目でQwen3.7-Maxが高いスコアを示しています。

コーディングAIエージェント関連の評価では、Terminal-Bench 2.0 Terminus-2で69.7となり、DeepSeek-V4-Pro Maxの67.9を上回ったとのこと。またSWE-bench Verifiedでは80.4で、Claude Opus-4.6 Maxの80.8やDeepSeek-V4-Pro Maxの80.6と近い結果になっています。

一般的なAIエージェント性能では、MCP-Markで60.8を記録してGLM-5.1の57.5を上回り、MCP-Atlasで76.4を記録してClaude Opus-4.6 Maxの75.8を上回りました。AIがGPU向けの計算プログラムをどれだけうまく最適化できるかを見る評価であるKernel Bench L3では、PyTorchの参照実装に対して中央値で1.98倍の高速化を達成し、96％のケースでtorch.compileより高速なコードを生成したとのこと。

Qwen3.7-Maxで特に強調されているのが「特定のAIエージェント実行環境だけに強いわけではない」という点です。AIエージェント実行環境とは、AIにツール操作、コード実行、ファイル編集、検証などを行わせるための土台となるソフトウェアのこと。Qwenチームは、Claude Code、OpenClaw、Qwen Code、その他の実行環境で一貫した性能を発揮すると述べています。

下図はQwenClawBenchとCoWorkBenchで、Qwen3.7-Maxを複数のAIエージェント実行環境に載せ替えた際のスコアを比較したもの。Qwen3.7-MaxはOpenClaw、Claude Code、Hermesの各環境で大きく崩れず、Qwen3.6-Plusより高いスコアを維持しています。

QwenチームはAIモデルに対し、特定のツールの癖ではなく、どの実行環境でも通用する問題解決の進め方を学ばせるため、学習時に「タスク」「実行環境」「検証器」を分離し、組み合わせを変えながら訓練する設計を採用したと説明しています。QwenチームはQwenClawBenchとCoWorkBenchで一貫した性能が出たことについて、Qwen3.7-Maxが特定環境の抜け道ではなく、タスクそのものを解く能力を学習したことを示すと述べています。

長時間の自律実行を示すデモとして、Qwenチームはカーネル最適化タスクを公開しています。対象になったのはSGLangのExtend Attention Kernelで、Qwen3.7-Maxは学習時に見ていないT-Head ZW-M890 PPU搭載ECSインスタンス上で、ハードウェアの事前資料やサンプルカーネルなしに作業を開始。約35時間にわたって432回のカーネル評価と1158回のツール呼び出しを行い、コード作成、コンパイル、性能計測、バグ修正、再設計を自律的に繰り返したとのことです。

下図はQwen3.7-Maxがカーネル最適化を進める過程で、ツール呼び出し回数に応じて高速化率を伸ばしていく様子を示したもの。最終的にSGLangのTriton参照実装に対して幾何平均で10倍の高速化を達成しています。比較対象として同じ条件で試した場合、GLM 5.1は7.3倍、Kimi K2.6は5.0倍、DeepSeek V4 Proは3.3倍、Qwen3.6-Plusは1.1倍だったとのこと。Qwenチームは、Qwen3.7-Maxが1000回を超えるツール呼び出しの間も最適化方針を保ち、30時間を超えた後も意味のある改善を見つけ続けたと説明しています。

長時間・多段階の計画能力を測る例として、スタートアップ経営を1年分シミュレーションするYC-Benchの結果も紹介されています。YC-Benchでは、人材管理、契約審査、悪意ある顧客の見分け、売上と人件費のバランス維持など、数百ラウンドにわたる意思決定が求められます。Qwen3.7-Maxは総収益208万ドル(約3億3000万円)を達成し、Qwen3.6-Plusの105万ドル(約1億6700万円)の約2倍、Qwen3.5-Plusの35万2000ドル(約5600万円)の約5.9倍に達したとのこと。完了タスク数は237件です。

下図は、YC-BenchでQwen3.7-Max、Qwen3.6-Plus、Qwen3.5-Plusの資金推移を比較したもの。Qwen3.7-Maxは悪意ある顧客をブロックしつつ、信頼できる顧客へ注力して成長を維持したことが注釈で示されています。

Qwen3.7-Maxは開発者向けにAlibaba Cloud Model Studio経由で提供予定です。記事作成時点では「近日提供」とされており、Model StudioはOpenAI仕様と互換性のあるAPIに加え、Anthropic互換のAPIインターフェースにも対応すると説明されています。また、Qwen3.7-Maxは「preserve_thinking」機能をサポートし、前のやり取りに含まれる推論内容を保持できるため、長いAIエージェント作業での利用が推奨されています。

AlibabaはQwen3.7-Maxの発表に合わせて、AIチップやクラウド基盤も強化しています。T-Headの新AIプロセッサ「Zhenwu M890」は前世代のZhenwu 810E比で3倍の性能を持ち、144GBのGPUメモリ、毎秒800GBのチップ間帯域幅、FP32からFP4までの数値精度をサポートします。さらに、128基のAIアクセラレーターを1ラックに統合する「Panjiu AL128 Supernode Server」も発表され、大量のAIエージェント推論や大規模モデル学習を支える構成になっています。

QwenチームはQwen3.7-Maxについて、コーディング、オフィス業務自動化、長時間の自律タスクを対象に、推論能力、実行環境をまたいで通用する性能、長時間にわたる生産的な実行能力を組み合わせたモデルだと説明しています。Qwenチームは、Qwen3.7-Maxが次世代AIエージェントを構築するための強力な基盤になると述べています。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2026年05月21日 17時55分00秒 in AI, Posted by log1d_ts

You can read the machine translated English article Alibaba has announced a new model for it….