ソフトウェア

OpenAIがAIベンチマーク「SWE-Lancer」を公開、フリーランスエンジニアに100万ドルで依頼するレベルのタスクをこなせるか測定


OpenAIが2025年2月18日に、AIモデルのコーディング性能を評価するためのオープンソースのベンチマーク「SWE-Lancer」を公開しました。

[2502.12115] SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?
https://arxiv.org/abs/2502.12115

Introducing the SWE-Lancer benchmark | OpenAI
https://openai.com/index/swe-lancer/



SWE-Lancerは、フリーランスのソフトウェアエンジニアが総額約100万ドル(約1億5000万円)で受けるタスクをAIが実行できるかどうか測定するベンチマークツールで、50ドル(約7500円)相当のバグ修正から3万2000ドル(約480万円)相当の機能実装まで、独立したエンジニアリングタスクと、モデルが技術的な実装案を選択する管理タスクの両方をテストすることが可能です。


SWE-Lancerで測定されるタスク価格は、実際の市場価値を反映しておりタスクが難しければ難しいほど価格も上昇します。


OpenAIは「SWE-Lancerを用いてAIモデルのパフォーマンスを測定したところ、現在のAIモデルはまだ大部分のタスクを解決することができませんでした」と報告しています。実際にOpenAIが掲載した論文では、100万ドル相当のタスクに対し、GPT-4o・o1・Claude 3.5 Sonnetが遂行できたタスクは約30万ドル(約4500万円)~40万ドル(約6000万円)相当だったことが示されています。


OpenAIは「モデルのパフォーマンスを金銭的価値にマッピングすることで、SWE-LancerがAIモデル開発の経済的影響に関するより多くの研究を可能にすることを願っています」と述べています。


また、OpenAIは将来的な研究に役立てるためにSWE-Lancerをオープンソース化しています。SWE-LancerのソースコードはGitHubで確認可能です。

GitHub - openai/SWELancer-Benchmark: This repo contains the dataset and code for the paper "SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?"
https://github.com/openai/SWELancer-Benchmark

この記事のタイトルとURLをコピーする

・関連記事
OpenAIのAIエージェント「Deep research」のオープン版をHugging Faceが開発中 - GIGAZINE

これまでで最も難しいAIテスト「人類最後の試験」リリース、3000の多肢選択問題と短答式の質問で構成 - GIGAZINE

OpenAIが多様性・公平性・包括性のページを削除 - GIGAZINE

ChatGPTがアダルト小説を書けるようになる、OpenAIによるセンシティブなコンテンツの規制緩和で - GIGAZINE

「古いAIモデルは軽度認知機能障害の兆候を示した」という論文がメディアに取り上げられて困惑の声が上がる - GIGAZINE

in ソフトウェア, Posted by log1r_ut

You can read the machine translated English article OpenAI releases AI benchmark 'SWE-Lancer….