2026年05月28日 08時00分 AI

コーディングAIによるカンニングを防いでより正確なプログラミング性能が測定可能なベンチマーク「DeepSWE」

近年はソフトウェア開発にコーディングAIを使用する開発者が一般的になっており、コーディングAIの性能を測るさまざまなベンチマークが存在します。そんなコーディングAI向けベンチマークの欠点を改善したという新たなベンチマーク「DeepSWE」が登場しました。

DeepSWE
https://deepswe.datacurve.ai/blog

DeepSWE blows up the AI coding leaderboard, crowns GPT-5.5, and finds Claude Opus exploiting a benchmark loophole | VentureBeat
https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

コーディングAIのベンチマークは、AIにさまざまなソフトウェア開発に関するタスクを与え、それを解決できるかどうかでプログラミング能力を測定します。しかし、多くのベンチマークはGitHubで公開されているイシューやプルリクエストなどからタスクが作成されているため、そもそもAIのトレーニングデータに該当するリポジトリが含まれていたり、AIがウェブ上から答えを探すことができたりするケースがあります。

実際にOpenAIの調査では、最先端モデルがベンチマークの問題文や実際の修正コードを再現できてしまうケースが確認されました。これを受けてOpenAIは、ベンチマークの改善がAIモデルの改善ではなく、「トレーニング時にベンチマークをどれだけ参照していたか」を反映している可能性が高いと指摘しています。

また、AIエージェント開発企業のPoolsideも、既存のコーディングAIがベンチマークの際にカンニングしている場合があると報告しています。

AIエージェントが試験で一生懸命「カンニング」していることが発覚 - GIGAZINE

そこでAIスタートアップのDatacurveは、既存の欠点を改善した新たなコーディングAIのベンチマーク「DeepSWE」を開発しました。DeepSWEが優れている点として挙げられている項目は以下の通り。

◆1：長期的な視点での作業や現実的かつ簡潔な指示を反映
DeepSWEのプロンプトは開発者がAIエージェントと対話するやり方にあわせて設計されており、過度に冗長的で説明的なものではなく、動作に焦点を当てた短いものになっているとのこと。大規模なインターフェース定義ブロックを含まないため、コーディングAIはどのような変更をどこで実装するのかを自らで判断する必要があります。この設計により、詳細まで指定されたエンジニアリングタスクだけでなく、エンドツーエンドの探索性能も評価することが可能です。

◆2：幅広いリポジトリを網羅
DeepSWEは合計111個のタスク、91個の活発なオープンソースリポジトリ、5つの言語(TypeScript・Go・Python・JavaScript・Rust)を網羅しています。なお、他のベンチマークであるSWE-Bench Pro Publicは11個のリポジトリ、SWE-Bench Verifiedは12個のリポジトリを対象としており、その多くが著名で頻繁にメンテナンスされるプロジェクトです。

Datacurveは、「この規模でのサンプリングによりDeepSWEはコーディングエージェントの実用性、つまり構造・ドキュメント・メンテナンスのレベルが異なる多様なコードベースに対して、有用で適切な範囲の変更を実行できるかどうかをより強力に反映する指標となります」と述べています。

◆3：記憶力ではなく問題解決能力を試すタスク
DeepSWEのタスクはすべてオリジナルであり、解答として参照されるソリューションは既存のプルリクエストやコミット、公開パッチなどをコピーまたは改変するのではなく、ゼロから作成されます。一部のタスクは未解決のGitHubイシューに触発されているものの、修正内容自体は新規のものだとのこと。また、DeepSWEのタスクは上流リポジトリにマージされることはないため、GitHubの公開記録に含まれることもなく、将来の事前学習コーパスにも含まれない可能性が高いそうです。

Datacurveは、「これによりDeepSWEは公開されている修正プログラムを思い出したり、取得したり、再発見したりする能力ではなく、AIエージェントが新しいソフトウェアエンジニアリングの問題を解決できるかどうかをより明確にテストするツールとなります」と述べました。

◆4：検証ツールの改善
コーディングベンチマークでは、AIが提出したコードを評価する検証ツールの精度が重要です。Datacurveのテストによると、既存のベンチマークであるSWE-Bench Proは誤った実装を受け入れてしまう偽陽性率が8.5％、正しい実装を拒否してしまう偽陰性率が24％もあったとのこと。DeepSWEは検証ツールの精度を向上させ、偽陽性率を0.3％、偽陰性率を1.1％まで抑えたとしています。

以下は、実際にDeepSWEでさまざまなAIモデルのプログラミング性能をテストした結果です。トップはgpt-5.5の70％、2位はgpt-5.4の56％、3位はclaude-opus-4.7の54％、4位はclaude-sonnet-4.6の32％、5位はgemini-3.5-flashの28％となっています。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2026年05月28日 08時00分00秒 in AI, ソフトウェア, Posted by log1h_ik

You can read the machine translated English article DeepSWE is a benchmark that prevents che….