2026年06月30日 23時00分 AI

中国のオープンウェイトモデル「GLM-5.2」が脆弱性検出ベンチマークでClaude Codeを上回る

中国のAI企業であるZ.aiが2026年6月に発表したオープンウェイトのAIモデル「GLM-5.2」が、脆弱(ぜいじゃく)性の検出精度を測定するベンチマークにおいて、AnthropicのClaude Codeを上回ったと報告されました。

We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks | Semgrep
https://semgrep.dev/blog/2026/we-have-mythos-at-home-glm-52-beats-claude-in-our-cyber-benchmarks/

GLM-5.2は6月13日にZ.aiが発表したAIモデルであり、6月17日に正式発表されました。Z.aiの創業者であるJie Tang氏は発表に際し、「特定のフロンティアモデルに対する突然の制限を深く遺憾に思います」と述べ、アメリカ政府の命令によってClaude Fableのサービス提供が停止された件に触れています。

GLM-5.2は各種ベンチマークでClaude Opus 4.7を上回るスコアを記録しており、人間によるブラインドテストではClaude Fable 5を上回った例もあることが報告されています。

Claude Opus 4.7超えの中華モデル「GLM-5.2」が正式発表される、一部テストではClaude Fable 5を上回りオープンモデルとして誰でもダウンロード可能に - GIGAZINE

サイバーセキュリティ企業のSemgrepは6月22日、「Insecure Direct Object Reference(IDOR：インセキュア・ダイレクト・オブジェクト・リファレンス)」の検出精度を測定するベンチマークを用いて、GLM-5.2やClaude Code(Opus 4.6/4.7/4.8)、GPT-5.5などのAIモデルをテストした結果を報告しました。

IDORはアプリケーションがユーザーIDなどの内部識別子をリクエストで参照する際、呼び出し元のアクセス権限を確認しないという脆弱性の一種です。この脆弱性がある場合、攻撃者がURLやAPIリクエストの数値やIDを書き換えるだけで、本来アクセスできないはずのデータにアクセスできてしまいます。

今回Semgrepは、AIモデルのタスク実行をサポートする「ハーネス」という実行基盤がパフォーマンスに与える影響を調べるため、さまざまなAIモデルおよびハーネスを対象にIDORベンチマークを実行しました。このテストに用いられたAIモデルのひとつがGLM-5.2でした。

SemgrepはGLM-5.2の興味深い点として、「オープンウェイトのためAIモデルのパラメータが公開されており、ユーザーが自分のハードウェアで実行・検証できる」「約7500億個のパラメータを持つエキスパート混合モデル(MoE)であり、コーディング面で競争力がある」「必要なコストが同等の最先端AIモデルの約6分の1だと報告されている」といったことを挙げています。

今回のテストでは、どれほど正しく脆弱性を検出したかを示す検出精度と、データセットに存在する脆弱性のうちどれほどの割合を検出したかを示す再現率に基づき、「F1」というスコアが算出されました。

以下は「F1」の順にテストしたAIモデル(構成)およびハーネスを示した表で、1位と2位はSemgrepのマルチモーダルハーネスを用いた構成でした。そして、3位にランクインしたのは意外にもオープンウェイトモデルのGLM-5.2であり、4位のClaude Code(Opus 4.6)や5位のClaude Code(Opus 4.7/4.8)を上回りました。GLM-5.2はIDORプロンプトのみを含むシンプルなPydantic AIハーネスで実行され、Claude CodeはClaude Code SDKを通じて実行されていました。

Semgrepは「最大のサプライズは3位にありました。GLM-5.2は何のサポートもなしにClaude Codeを7パーセントポイント(39％対32％)上回りました。シンプルなプロンプトで実行されたオープンウェイトモデルが、推論を多用するセキュリティタスクにおいて、最先端のコーディングエージェントを上回ったのです」と述べています。また、GLM-5.2はコスト面でも優れており、発見された脆弱性1件あたりの費用は約0.17ドル(約28円)にとどまりました。

今回の一件はソーシャルニュースサイトのHacker Newsでも話題となっています。あるユーザーはGLM-5.2が日常的なプログラミングにおいて本当に優れたAIモデルであり、OpusやGPTよりもはるかに安価だとコメントしました。

GLM 5.2 beats Claude in our benchmarks | Hacker News
https://news.ycombinator.com/item?id=48709670

GLM-5.2はオープンウェイトであり、ダウンロードしてローカルで使用することが可能。しかし、ベースモデルは1.51TBという非常に大きなメモリを要求するため家庭での使用は非現実的です。すでに有志によってGLM-5.2の量子化版が複数公開されていますが、1ビットに量子化したバージョンでも233GBのメモリが必要です。

Claude Opus級のGLM-5.2をローカルで動かすガイドが公開される、最小構成の目安はメモリ223GB - GIGAZINE

なお、ローカルでの実行が比較的容易な「Qwen 3.6 27B」についても、非常に高いパフォーマンスを発揮することが報告されています。

Qwen 3.6 27B is the sweet spot for local development - Quesma Blog
https://quesma.com/blog/qwen-36-is-awesome/

・関連コンテンツ

2026年06月30日 23時00分00秒 in AI, Posted by log1h_ik

You can read the machine translated English article China's open-weight model 'GLM-5.2' ….