ソフトウェア

最先端の大規模言語モデル(LLM)が難解なコーディング問題を1発で正解する確率はゼロ%、競技プログラマーなどの熟練スキルを持つ人間には依然として歯が立たないことが明らかに


テクノロジー企業のトップから「AIがコードを書くのでもうプログラミングを学ぶ必要はない」や「コーディングを学ぶのは時間の無駄」といった言葉が飛び出すほど、大規模言語モデル(LLM)のコーディング能力は高く、既にMicrosoft製品のコードの30%がAIにより書かれていることが明らかになっています。しかし、LLMは競技プログラミングなどで出題される難解な問題においては、依然として熟練のスキルを持った人間の専門家には歯が立たないことが明らかになりました。

Paper page - LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?
https://huggingface.co/papers/2506.11928

[2506.11928] LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?
https://arxiv.org/abs/2506.11928

LLMが競技プログラミングにおいて人間の競技プログラマーよりも優れているという報告があります。これに疑問を抱いたAI研究者たちが、「LiveCodeBench Pro」と呼ばれるベンチマークを構築しました。LiveCodeBench Proは世界的に有名な競技プログラミングサイトのCodeforces、国際大学対抗プログラミングコンテストであるICPC、競技プログラマーの世界一を決めるIOI(国際情報オリンピック)の問題で構成されたベンチマークで、データ汚染の可能性を減らすために継続的な更新が予定されています。

LiveCodeBench Pro
https://livecodebenchpro.com/


LiveCodeBench Proでは国際情報オリンピックのメダリストから成るチームが、アルゴリズムのカテゴリについてすべての問題に注釈付けを行いました。さらに、LLMが回答に失敗した場合は、メダリストチームが行単位でLLMが出力したコードを分析しています。

LiveCodeBench Proで複数の最先端のLLMをテストしたところ、外部ツールがない場合は最高のLLMであっても中難度の問題では「pass@1」(1回目に生成したコード(最初の解答)で正解する確率)が53%であることが明らかになりました。さらに、高難度の問題の場合はpass@1はゼロ%となっており、熟練したスキルを持つプログラマーの方が、高難度の問題においては優れたパフォーマンスを発揮していることが明らかになっています。

以下の表は、LiveCodeBench Proにおいて各LLMが「高難度(Hard)」「中難度(Medium)」「低難度(Easy)」の問題を解く際の正答率をまとめたもの。高難度の問題ではどのLLMも正しい回答を出せていないため、「0.0%」と表示されています。なお、LiveCodeBench ProではチェスのイロレーティングをベースにLLMのパフォーマンスをスコア形式(Rating)で評価しており、OpenAIの最先端のLLMであるo4-mini-highでさえ、スコアは「約2100」です。スコア「2700」以降が優れたスキルを持つ人間の競技プログラマーであると評価されています。


以下のグラフは各LLMのスコア(縦軸:Elo rating)と、回答にかかるコスト(横軸:Average cost per problem)を示したもの。


一方、LLMはインプリメンテーション重視の問題では正しく回答できるものの、ニュアンスに富んだアルゴリズム推論や複雑な事例分析には苦戦し、しばしば自信過剰で誤った回答を生成することが明らかになりました。

このことから、研究チームは「高いパフォーマンスは優れた推論ではなく、実装精度とツールの拡張によって大きく左右されるようです。LiveCodeBench Proは、人間の専門家との大きな差を浮き彫りにすると同時に、コード中心のLLM推論の将来的な改善を導くためのきめ細かな診断機能を提供します」と指摘しました。

AIエンジニアのロハン・ポール氏は「LLMのコーディングスキルに関する非常に悪いニュースです。最先端のLLMは専門家が依然として優れている領域である、現実のプログラミングコンテストの難しい問題において正答率がゼロ%でした」と述べ、LLMがまだまだ高難度のプログラミングにおいて熟練スキルを持った人間にはかなわないと指摘しています。

この記事のタイトルとURLをコピーする

・関連記事
NVIDIAのCEOが「AIがコードを書くのでもうプログラミングを学ぶ必要はない」と発言して議論を巻き起こす - GIGAZINE

AIがすべてのプログラミングコードを生成するようになるので「コーディングを学ぶのは時間の無駄」とReplitのCEOが答える - GIGAZINE

Microsoft製品のコードの30%程度はAIで書かれている - GIGAZINE

AIベンチマーク「自転車に乗ったペリカンを描く」をLLama 3.3 70BやGPT 4.1にやってもらうとこうなる - GIGAZINE

OpenAIがAIの論文理解&再現能力を評価するベンチマーク「PaperBench」を発表、人間とAIのどちらが研究開発力が高いのか? - GIGAZINE

OpenAIがAIベンチマーク「SWE-Lancer」を公開、フリーランスエンジニアに100万ドルで依頼するレベルのタスクをこなせるか測定 - GIGAZINE

in ソフトウェア, Posted by logu_ii

You can read the machine translated English article It is clear that the state-of-the-art la….