AIの現実世界での能力を測定するベンチマーク「GDPval」をOpenAIが開発、弁護士や映画監督など現実の職業としての性能を測定可能

「人間の専門家ならどう処理するのか」という想定を元に、専門家の仕事を模倣させることでAIの性能を測るベンチマーク「GDPval」の開発に取り組んでいることをOpenAIが明かしました。
GDPval.pdf
(PDFファイル)https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf
Measuring the performance of our models on real-world tasks | OpenAI
https://openai.com/index/gdpval/
AIが数学の問題やコーディングのタスクで高得点をたたき出したとしても、その能力を人間の日々の営みにどれほど活用できるのかまでは分かりません。こうした能力を検証するために、実生活を基準としたベンチマークが求められています。
OpenAIは新たに、人間が実際に行っている仕事でAIが性能をどれくらい発揮できるのかを測るベンチマーク「GDPval」を発表しました。
OpenAIは、アメリカのGDPに大きく貢献している上位9産業から44の職種を選び出し、それぞれの職で実際に行われる専門的なタスク1320個を抜粋。これらのタスクをGDPvalのテストとして組み込みました。
職種の内訳は、不動産管理業者や政府のコンプライアンス担当、製造業の機械エンジニアやバイヤー、ソフトウェア開発者、弁護士、看護師、薬剤師、金融アナリスト、私立探偵、映画監督など。
タスクは、法律文書、設計図、カスタマーサポートの会話、看護ケア計画といった実際の業務成果物を参考に設計され、当該分野で平均14年以上の経験を持つ専門家によって綿密に作成・検証されています。

例えば、製造業の製造エンジニアのタスクを検証する場合、以下のようなプロンプトや資料が与えられることになります。
「あなたは自動車組立ラインの製造エンジニアです。製品は地下鉱山作業用ケーブル巻き取りトラックであり、製品の最終テストを実施しなければなりません。最終テストでは、ケーブル巻き取りが要求通り機能することをチェックするため、大型ケーブルスプールを2回巻き取り・巻き戻す必要があります。現行の作業では、このテストに2名の作業員が必要です。1人目はスプールを試験装置近くに運んで位置決めし、2人目はケーブルスプールの開放端を試験装置に接続し、巻き取りを開始します。ケーブルがスプールから巻き出されトラックに巻き取られる間、1人目は巻き出しを円滑にするためスプールを回転させる必要があります。ケーブルがトラックへ完全に巻き取られた後、次のステップでは逆順で操作を行い、ケーブルをトラックから巻き戻して元のリールに戻します。このテストは2回実施されます。作業は複雑で、リスクが想定され、労力を必要とします。ここで、上司から、ケーブルの巻き取り・巻き出しを簡素化し、テストを1人で実施できるようにする器具の開発が指示されました。この指示には、器具のサイズ、設計情報、成果物の構成に関する情報文書が付属しています。あなたは、3Dモデリングソフトで器具を設計し、Microsoft PowerPointでプレゼンテーションを作成してください。成果物として、作成した3D設計のスナップショットを用いた設計概要PDF文書のみをアップロードする必要があり、3D設計ファイルの提出は不要です」

OpenAIは「従来のベンチマークとは異なり、GDPvalのタスクは単純なテキストプロンプトだけで実施するものではありません。添付ファイルや、タスクに関する文脈が付属し、AIに期待する成果物は文書、スライド、図表、スプレッドシートなど多岐にわたります」と説明しています。
初期のテストで、GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro、Grok 4の成果物と、人間が生成した成果物を比較するブラインド評価が実施されています。
AIが人間に勝ったと見なされた成果物の割合(濃い青)と、引き分けと見なされた成果物の割合(薄い青)がモデル別に示されています。ほとんどのモデルは人間に負けたということですが、Claude Opus 4.1など一部の最先端モデルは人間に迫る成果物を生成していました。

Claude Opus 4.1は、文書のフォーマットやスライドのレイアウトといった美的要素で特に優れており、GPT‑5は正確性で優れているなど、モデルによって得意な要素が異なったとのことです。
性能面では、2024年春リリースのGPT-4oと2025年夏リリースのGPT-5を比較して2倍以上の差があることから、たった数年で記録が塗り替えられる可能性も期待できるとされています。
OpenAIは、「最先端モデルは専門家と比べて約100倍高速かつ100倍低コストで完了できる」という点を強調しました。ただし、実際の環境で成果物を活用する際に必要な人間の監視、再現といった処理はAIの速度および価格に含んでいないとも付け加えられています。OpenAIは「それでも、各モデルが得意とするタスクにおいては、人間が試す前にAIへ任せることで、時間と費用を節約できると予想されます」と述べました。
GDPvalは初期段階の取り組みで、職種やタスクの拡大と結果の意義向上に向けて改良を進めていくとのことです。
・関連記事
月締めの会計業務をAIモデルにやらせてみるベンチマーク「AccountingBench」の結果とは? - GIGAZINE
「Factorio」でAIモデルの性能を評価する学習環境「Factorio Learning Environment(FLE)」が登場 - GIGAZINE
AIのゲーム性能を測定するベンチマークプラットフォーム「Game Arena」をGoogleが公開 - GIGAZINE
AIベンチマーク「自転車に乗ったペリカンを描く」をLLama 3.3 70BやGPT 4.1にやってもらうとこうなる - GIGAZINE
AIがソフトウェアを実際に構築できない理由 - GIGAZINE
・関連コンテンツ
in AI, ソフトウェア, Posted by log1p_kr
You can read the machine translated English article OpenAI develops GDPval, a benchmark that….







