OpenAIがAIの仮想通貨に対する攻撃・防御能力を測定できるベンチマークテスト「EVMbench」を発表



OpenAIがAIエージェントの性能を測定するベンチマークテスト「EVMbench」を発表しました。EVMbenchは仮想通貨ブロックチェーンのスマートコントラクトに存在する脆弱(ぜいじゃく)性の「検知能力」「修正能力」「悪用能力」を測定するテストで、すでにOpenAIやGoogleやAnthropicのAIでの測定結果が公開されています。



Introducing EVMbench | OpenAI

https://openai.com/index/introducing-evmbench/



仮想通貨のブロックチェーンではスマートコントラクトと呼ばれるプログラムを用いて資産の取引が実行されています。取引される資金の総量は数十億ドル(数千億円)規模にのぼり、脆弱性を悪用されると大規模な被害が生じる可能性があります。





EVMbenchは実在した120件の脆弱性に基づいて構築されたベンチマークテストで、「detect(検知)」「patch(修正)」「exploit(悪用)」という3つのタスクでAIエージェントの能力を測定することができます。各タスクの概要は以下のとおり。



検知：スマートコントラクトのコード全体を監査して脆弱性を探す

修正：脆弱性を排除しつつ機能は維持する

悪用：ブロックチェーンのサンドボックス環境内で資金流出攻撃を実行する





EVMbenchを用いて「OpenAI o3」「GPT-5」「Gemini 3 Pro」「Claude Opus 4.5」「OC-GPT-5.2(OpenCodeスキャフォールド版)」「GPT-5.2」「Claude Opus 4.6」「GPT-5.3-Codex」の性能を測定した結果が以下。検知タスクではClaude Opus 4.6が最高スコアを記録し、修正と悪用ではGPT-5.3-Codexがトップとなりました。





全体的に、AIエージェントは脆弱性の検出や修正より悪用の方が得意な傾向が確認されました。OpenAIによると、検出タスクでは「コードベース全体の監査が必要なのに、単一の問題を特定した時点で停止してしまう」という問題が発生したとのこと。また、修正タスクでは「脆弱性を除去しつつ機能は維持する」というタスクがAIエージェントにとって難しいものであることが明確になりました。



なお、EVMbenchのテストはCode4renaの監査コンペティションで報告された情報に基づいて作成されており、本番環境で動作しているスマートコントラクトははるかに厳しい精査を乗り切ったものであるため既存のAIでは悪用が困難だとOpenAIは指摘しています。



また、EVMbenchの検出タスクでは、AIが「想定外の脆弱性」を見つけた場合、それが「人間が見逃していた真の脆弱性」なのか「単なる誤検知」なのか判断できないという問題も残っています。

