AlibabaのQwenチームがOpenAI o1に匹敵する推論モデル「QwQ-32B-Preview」を発表、数学や科学的推論において優れた性能を発揮
Alibabaの大規模言語モデル「Qwen」の研究チームが、推論機能の向上に焦点を当てた実験的な研究モデル「QwQ-32B-Preview」を発表しました。研究チームは、QwQ-32B-Previewの推論能力はOpenAI o1に匹敵すると主張しています。
QwQ: Reflect Deeply on the Boundaries of the Unknown | Qwen
https://qwenlm.github.io/blog/qwq-32b-preview/
Qwen/QwQ-32B-Preview · Hugging Face
https://huggingface.co/Qwen/QwQ-32B-Preview
Alibaba releases an 'open' challenger to OpenAI's o1 reasoning model | TechCrunch
https://techcrunch.com/2024/11/27/alibaba-releases-an-open-challenger-to-openais-o1-reasoning-model/
QwQ-32B-Previewは、Qwen 2.5-32Bをベースに開発された実験的な研究用モデルで、AIの推論能力の向上に焦点が当てられています。研究チームによると、このモデルは深い内省と探求を重視する哲学的なアプローチを採用しており、数学やコーディング、世界の知識などのあらゆる問題に対して、本質的な疑問と驚きをもって取り組むとのこと。
QwQ-32B-Previewの主な特徴として、数学や科学的推論において優れた性能を発揮し、大学院レベルの問題解決能力評価ベンチマークであるGPQAで65.2%、中学レベルの数学問題解決ベンチマークであるAIMEで50.0%、数学問題の解決をテストする包括的なデータセットであるMATH-500で90.6%、プログラミングコード生成と問題解決能力を測るLiveCodeBenchで50.0%というスコアを達成していると報告されています。これらのスコアはOpenAI o1-previewやOpenAI o1-miniとほぼ同等レベルで、研究チームは「特に深い推論を必要とする技術分野において、このベンチマーク結果は、QwQ-32B-Previewの分析および問題解決能力の大幅な進歩を強調しています」と論じました。
ただし、研究チームは、QwQ-32B-Previewがあくまでも実験的な研究段階にあるモデルであり、実用的な応用については制限を理解した上で適切に使用する方法を模索する必要があるとしています。
例えば、QwQ-32B-Previewは数学やコーディングなどの技術的な分野では優れた成果を示していますが、研究チームは「日常的な常識的推論や言語の微妙なニュアンスの理解においては課題が残されている」と述べています。特に、文脈依存的な解釈や感情的な要素を含むコミュニケーションにおいては、人間のような自然な理解と応答が難しい場合があるとのこと。
また、モデルが予期せず異なる言語を混ぜたり、会話の途中で言語を切り替えたりする現象が発生するそう。さらに、再帰的な推論のループに関してはモデルが同じ論理的パターンを繰り返して結論に到達できない状態に陥ることがあり、応答が必要以上に長くなって本質的な問題解決から逸れてしまう傾向があると研究チームは述べています。
加えて、研究チームは安全性と倫理的な考慮事項について、モデルの出力の信頼性と安全性を確保するための追加的な対策が必要だとしています。現状では、潜在的に有害な内容や誤解を招く情報を生成するリスクが存在するため、実際の運用においては慎重な監視と制御が求められるとのこと。
研究チームは「大規模言語モデルの推論に関する理解は、多岐にわたる研究分野へと広がっています。プロセス報酬モデルによる学習パターンの形成、大規模言語モデル批評による深い分析、複雑な思考を構築する多段階推論、そしてシステムフィードバックによる実世界での成長を可能にする強化学習など、さまざまなアプローチが存在します。目的地は明確ではありませんが、真理と知性を追求する道のりを、揺るぎない決意をもって進んでいます」とコメントしました。
なお、QwQ-32B-PreviewのモデルはHugging Faceで公開されており、以下のページでデモに触れることができます。
QwQ-32B-Preview - a Hugging Face Space by Qwen
https://huggingface.co/spaces/Qwen/QwQ-32B-preview
・関連記事
オープンソースのコーディング支援AI「Qwen2.5-Coder」シリーズの性能はGPT-4oに匹敵、64GBのRAM&M2搭載MacBook Proでもローカル実行可能 - GIGAZINE
Alibabaが新AIモデル「Qwen2-VL」をリリース、20分を超えるビデオを分析し内容についての質問に要約して回答可能 - GIGAZINE
数学を解ける言語モデル「Qwen2-Math」が登場、GPT-4o超えの数学性能 - GIGAZINE
中国アリババがチャットAI「Qwen-72B」とローカルで音声入力に対応する「Qwen-Audio」をオープンソースで公開 - GIGAZINE
・関連コンテンツ