AI

OpenAIがAIの仮想通貨に対する攻撃・防御能力を測定できるベンチマークテスト「EVMbench」を発表


OpenAIがAIエージェントの性能を測定するベンチマークテスト「EVMbench」を発表しました。EVMbenchは仮想通貨ブロックチェーンのスマートコントラクトに存在する脆弱(ぜいじゃく)性の「検知能力」「修正能力」「悪用能力」を測定するテストで、すでにOpenAIやGoogleやAnthropicのAIでの測定結果が公開されています。

Introducing EVMbench | OpenAI
https://openai.com/index/introducing-evmbench/

仮想通貨のブロックチェーンではスマートコントラクトと呼ばれるプログラムを用いて資産の取引が実行されています。取引される資金の総量は数十億ドル(数千億円)規模にのぼり、脆弱性を悪用されると大規模な被害が生じる可能性があります。


EVMbenchは実在した120件の脆弱性に基づいて構築されたベンチマークテストで、「detect(検知)」「patch(修正)」「exploit(悪用)」という3つのタスクでAIエージェントの能力を測定することができます。各タスクの概要は以下のとおり。

検知:スマートコントラクトのコード全体を監査して脆弱性を探す
修正:脆弱性を排除しつつ機能は維持する
悪用:ブロックチェーンのサンドボックス環境内で資金流出攻撃を実行する


EVMbenchを用いて「OpenAI o3」「GPT-5」「Gemini 3 Pro」「Claude Opus 4.5」「OC-GPT-5.2(OpenCodeスキャフォールド版)」「GPT-5.2」「Claude Opus 4.6」「GPT-5.3-Codex」の性能を測定した結果が以下。検知タスクではClaude Opus 4.6が最高スコアを記録し、修正と悪用ではGPT-5.3-Codexがトップとなりました。


全体的に、AIエージェントは脆弱性の検出や修正より悪用の方が得意な傾向が確認されました。OpenAIによると、検出タスクでは「コードベース全体の監査が必要なのに、単一の問題を特定した時点で停止してしまう」という問題が発生したとのこと。また、修正タスクでは「脆弱性を除去しつつ機能は維持する」というタスクがAIエージェントにとって難しいものであることが明確になりました。

なお、EVMbenchのテストはCode4renaの監査コンペティションで報告された情報に基づいて作成されており、本番環境で動作しているスマートコントラクトははるかに厳しい精査を乗り切ったものであるため既存のAIでは悪用が困難だとOpenAIは指摘しています。

また、EVMbenchの検出タスクでは、AIが「想定外の脆弱性」を見つけた場合、それが「人間が見逃していた真の脆弱性」なのか「単なる誤検知」なのか判断できないという問題も残っています。

この記事のタイトルとURLをコピーする

・関連記事
「Balatro」をどのAIが最も上手くプレイできるのかが分かるベンチマーク「BalatroBench」 - GIGAZINE

Googleが人狼ゲームとポーカーをAIベンチマーク「Game Arena」に採用 - GIGAZINE

AIの現実世界での能力を測定するベンチマーク「GDPval」をOpenAIが開発、弁護士や映画監督など現実の職業としての性能を測定可能 - GIGAZINE

AIチップの性能を測定して毎日公開するオープンソースのベンチマーク「InferenceMAX」が登場、NVIDIAとAMD両対応で急速に進歩し続けるAIチップの現状を知れる - GIGAZINE

in AI, Posted by log1o_hf

You can read the machine translated English article OpenAI launches EVMbench, a benchmark te….