ソフトウェア

わずか26分間の学習と1000円以下の計算コストでOpenAI o1-preview相当のAIモデルを構築する方法が発表される


2025年1月31日、スタンフォード大学で大規模言語モデルを研究するニクラス・ミュニホフ氏らの研究チームが、少ないデータサンプルと簡単な方法でOpenAI o1-previewとほぼ同等のスケーリングとパフォーマンスを再現する手法を、未査読論文リポジトリのarXivに発表しました。AIアーキテクトでソフトウェアエンジニアのティム・ケロッグ氏が、この論文について解説しています。

[2501.19393] s1: Simple test-time scaling
https://arxiv.org/abs/2501.19393


S1: The $6 R1 Competitor? - Tim Kellogg
https://timkellogg.me/blog/2025/02/03/s1

ミュニホフ氏らが発表した論文は、テスト時の計算リソースを増やすことで言語モデルの推論性能を向上させる「Simple Test-Time Scaling」をまとめたものです。


従来の言語モデルの性能向上は、大規模な事前学習やデータセットの拡張によって実現されてきました。しかし、近年の研究では、テスト時にモデルの計算リソースを増やせば、追加の学習なしに性能を向上できることが示されつつあります。OpenAIのo1モデルがこの手法を採用していると考えられるものの、具体的な方法は公開されていませんでした。

そこで、ミュニホフ氏らが提案したのが、数万件のデータセットから、品質・難易度・多様性の観点で厳選した1000件(s1K)を用いる学習方法です。実際に、ミュニホフ氏らはこのs1Kで、Alibabaが開発した大規模言語モデル・Qwen2.5を教師ありファインチューニング(SFT)することで、OpenAI o1-previewとほぼ同等のパフォーマンスを持つモデル・s1-32Bを作成したと報告しています。


ミュニホフ氏らによれば、s1-32Bの学習コストは非常に低く、16基のNVIDIA H100 GPUをわずか26分間使用するだけでトレーニングが完了し、推定コストはわずか6ドル(約910円)に抑えられたとのこと。これにより、従来の大規模な計算資源を用いたアプローチとは異なり、安価な環境でも高性能なAIモデルを構築できる可能性が示されたといえます。

また、ケロッグ氏は、推論時間を調整するシンプルな手法である「Waitトリック」に注目しています。

Waitトリックは、モデルが「考え終えた」と判断した際に通常は終了するところを、強制的に「Wait」というトークンを挿入することで再考を促し、精度向上を図るという手法です。この方法は極めて単純でありながら効果的で、従来の手法と比べてコストをかけずに推論性能を向上させられる点が評価されています。


ケロッグ氏は、AIの開発スピードとコスト削減の観点から、s1のようなアプローチが今後のAI研究に与える影響について考察しています。

従来のAI開発では、多額の資金と大規模なデータセンターが不可欠と考えられてきましたが、s1の成果はそれを覆すものであり、より少ないリソースで高度な研究を行う道を開いたといえます。その結果、AI開発の門戸がさらに広がり、多くの研究者が参入しやすくなる可能性があると、ケロッグ氏は指摘しました。

また、ケロッグ氏は、OpenAIがDeepSeekに対してo1の蒸留によるモデル開発を批判していることに触れ、今後このような手法の検出や規制は難しくなるだろうと論じています。わずか1000件のデータで高性能なモデルが構築可能であることが示された以上、一個人でも同様のことができる可能性があり、従来のAI開発の在り方そのものが変わるかもしれないという見方をケロッグ氏は示しました。


ケロッグ氏は、s1はOpenAI o1やDeepSeek-R1を完全に再現しているのではなく、むしろ異なる手法によって同等の成果を達成している点が興味深いと評価。AIの進化には複数のアプローチがあり、それぞれの手法がさらなる発展を遂げることで、2025年にはさらに大きな技術革新が起こるのではないかと、ケロッグ氏は結論づけました。

この記事のタイトルとURLをコピーする

・関連記事
DeepSeek-R1の出現は「スプートニクショック」というよりも「Google登場に等しい」との評価 - GIGAZINE

DeepSeekの推論モデル「DeepSeek-R1」をOpenAIのo1&o3と比較することで明らかになったこととは? - GIGAZINE

DeepSeek-R1がオープンソースでなければならなかった理由、そしてなぜOpenAIを倒せないのか - GIGAZINE

DeepSeekのAIモデルをジェイルブレイクしてシステムプロンプトを抽出することに成功したという報告 - GIGAZINE

最高でも回答精度9%程度だった「人類最後の試験」でOpenAIのDeep researchが26%以上を記録 - GIGAZINE

「DeepSeekが禁輸対象のNVIDIA製高性能GPUをシンガポール経由で輸入した可能性」についてアメリカが捜査中 - GIGAZINE

OpenAIがChatGPTにオンライン上の情報を収集させる「Deep research」機能を搭載すると発表 - GIGAZINE

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article A method to build an AI model equivalent….