2025年01月30日 20時00分ソフトウェア

DeepSeekの推論モデル「DeepSeek-R1」をOpenAIのo1＆o3と比較することで明らかになったこととは？

ほとんどのAIベンチマークはAIの出力精度(スキル)を測定するものですが、スキルはAIの知能を表すものではありません。スキルではなくAIの知能を測定するため、AIがスキルを効率的に習得する能力を測定するベンチマークが「ARC-AGI」です。そんなARC-AGIの開発者であるフランソワ・ショレ氏が立ち上げた「ARC Prize」が、話題の中国AI企業DeepSeekの最新推論モデルである「DeepSeek-R1」ファミリーについて分析しています。

R1-Zero and R1 Results and Analysis
https://arcprize.org/blog/r1-zero-r1-results-analysis

ARC Prizeの目標は汎用人工知能(AGI)に向けた新しいアイデアを定義・評価することです。そのため、ARC Prizeは可能な限り最強のグローバルイノベーション環境の構築に努めています。ARC Prizeによると、「記事作成時点でAGIは存在しておらず、イノベーションは依然として制約されている」というのがAI業界の支配的な見解だそうです。

そんな中、DeepSeekはOpenAIの推論モデルであるo1と同等のパフォーマンスを実現した、独自の推論モデルであるDeepSeek-R1ファミリーを発表しました。DeepSeek-R1、DeepSeek-R1-Zero、o1のARC-AGIでのスコアはすべて約15～20％でありながら、DeepSeek-R1の運用コストはo1のわずか3.6％です。なお、従来の大規模言語モデル(LLM)のARC-AGIでのスコアは高くても5％程度だったため、DeepSeek-R1はARC Prize目線でも非常に優れたAIモデルとなっているとのこと。

DeepSeekはどのようにしてOpenAIの3％のコストでo1を超えたのか？ - GIGAZINE

ただし、OpenAIが2024年12月に発表した推論モデルの「o3」は、ARC-AGIにおいて低コンピューティングモードで76％、高コンピューティングモードで88％と非常に高いスコアを獲得しており、「未知の問題に適応するコンピューターとしては、初めて実用的かつ一般的なスコアを示しました」「o3がARC-AGIで非常に優れたスコアを獲得していることは、主流メディアではほとんど注目されておらず、報道もされていません」とARC Prizeは評しています。

以下の表はR1、R1-Zero、o1(低・中・高コンピューティングモード)、o3(低・高コンピューティングモード)のARC-AGIでのスコアをまとめたもの。各モデルの平均トークンと、平均運用コストもまとめてあります。

モデル名	ARC-AGIスコア	平均トークン	平均コスト
R1-Zero	14％	11K	0.11ドル(約1.7円)
R1	15.8％	6K	0.06ドル(約9.3円)
o1(低)	20.5％	7K	0.43ドル(約66円)
o1(中)	31％	13K	0.79ドル(約120円)
o1(高)	35％	22K	1.31ドル(約200円)
o3(低)	75.7％	335K	20ドル(約3100円)
o3(高)	87.5％	57M	3400ドル(約53万円)

ARC PrizeはOpenAIのo1およびo3の推論システムが、以下のように機能すると推測しています。なお、なぜ「推測」なのかというと、OpenAIのo1およびo3はクローズドモデルであり回答出力までの処理プロセスが不明なため。

1：問題領域の思考連鎖(CoT)を生成
2：人間の専門家(教師あり微調整あるいはSFT)と自動化されたマシン(強化学習など)を組み合わせ、中間のCoTステップにラベル付け
3：2のステップを使用してベースモデルをトレーニング
4：テスト時にプロセスモデルから反復的に推論

これに対して、DeepSeekのR1ファミリーはオープンソースであるため、推論システムがどのように機能しているのかが明らかになっています。ARC Prizeによると、DeepSeekの推論システムにおける重要な洞察は、新規性適応度(および信頼性)が3つの側面に沿って向上するという点にあるそうです。

1：CoTプロセスモデルトレーニングに人間のラベル(SFT)を追加
2：線形推論の代わりにCoT検索(ステップごとの並列CoT推論)を実施
3：CoT全体のサンプリング(並列軌道推定)

ARC Prizeは「DeepSeekが行った最も興味深いことは、R1とR1-Zeroを別々に公開したことです。R1-Zeroは、(1)の項目にあるSFTを使用しないモデルで、代わりに強化学習に依存しています。R1-ZeroとR1は、ARC-AGIでそれぞれ14％と15.8％という高いスコアを記録しており、DeepSeekが独自に報告したベンチマークスコアでも優れたスコアを記録しています。例えば、MATH AIME 2024のスコアはそれぞれ71％(R1-Zero)と76％(R1)で、DeepSeek-V3の約40％から大幅に増加しています」と記述しています。

ただし、R1の開発者は論文の中で「DeepSeek-R1-Zeroは、読みにくさや言語の混在などの課題に直面しています」と記しており、インターネット上でも同様の指摘が挙がっています。しかし、ARC Prizeは「我々独自のテストでは、強化学習に依存するR1-Zeroで数学およびコーディング領域に類似したARC-AGIにおいて、矛盾の根拠は全く見つかりませんでした」とも記しました。

この結果を受け、ARC Prizeは以下の3点が示唆されると記しています。

1：SFT(例：人間の専門家によるラベル付け)は強力な検証が必要なドメインでの正確で判読可能なCoT推論には必要ない
2：R1-Zeroのトレーニングプロセスは、強化学習の最適化を介してトークン空間内に独自の内部ドメイン固有言語(DSL)を作成する
3：SFTはCoT推論ドメインの一般性を高めるために必要

これについてARC Prizeは、「これは直感的に理解できます。言語自体が実質的に推論DSLだからです。プログラムのように、まったく同じ『単語』をひとつのドメインで学習し、別のドメインに適用することができます。純粋な強化学習アプローチでは、まだ幅広い共通語彙を発見することはできませんが、これが今後の研究の重点となると予想しています」と記しました。

さらに、ARC Prizeは「DeepSeekがOpenAIのo3に狙いを定めていることはほぼ間違いありません。CoT検索とサンプリングを追加するためにSFTが必須になるのか、それとも同じ対数精度対推論スケーリング曲線に沿って『R2-Zero』(次期推論モデル)が登場するのかを見守ることが重要です。R1-Zeroの結果に基づくと、次期モデルがARC-AGIでハイスコアを出すのに、SFTは必要ではないと考えています」とも記しています。

これらの洞察をベースに、ARC Prizeは「経済的にはAIには2つの大きな変化が起こっています。ひとつは『より高い精度と信頼性を得るために、より多くのお金を費やすことができる』ということで、もうひとつが『トレーニングは推論に移行している』ということです。どちらも推論に対する膨大な需要を生み出すでしょうが、どちらもコンピューティングに対する需要を減らすことはありません。実際、コンピューティングに対する需要は増加するでしょう。AI推論システムはベンチマークでの精度向上よりもはるかに大きな利益を約束します。AIオートメーションのさらなる利用を阻む最大の問題は信頼性です。私はビジネスにAIエージェントを導入しようとしている何百人ものZapierユーザーと話をしましたが、そのフィードバックは一貫しています。『信頼性がないため、まだ信頼していません』というものです」と記しています。

さらに、「R1がオープンかつ再現可能であるため、より多くの人々やチームがCoTと検索を限界まで押し進めることになるでしょう。これにより、実際にフロンティアがどこにあるかがより早くわかり、AGIに素早く到達する可能性を高めるイノベーションの波が促進されます。すでに何人かから、ARC Prize 2025にR1スタイルのシステムを使用する予定だと聞いており、その結果を見るのが楽しみです。R1がオープンであるという事実は世界にとって素晴らしいことです。DeepSeekは科学の最先端を前進させました」と記し、DeepSeekを称賛しています。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2025年01月30日 20時00分00秒 in ソフトウェア, Posted by logu_ii

You can read the machine translated English article What was revealed by comparing DeepSeek&….