AIを最大9.64倍高速化する投機的デコーディング手法「JetSpec」が開発される

カリフォルニア大学サンディエゴ校のAIラボであるHao AI Labが「JetSpec」と呼ばれる投機的デコーディング手法を開発しました。
JetSpec: Parallel Tree Drafting
https://jetspec-project.github.io/jetspec-web/
JetSpec: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting | Hao AI Lab @ UCSD
https://haoailab.com/blogs/parallel-tree-decoding/
主流の大規模言語モデルは「次のトークンを予測し続ける」という方法で長い文章を出力しています。投機的デコーディングは「小型のドラフト担当AIモデルを用いて次の単語を複数予測し、そのうちの1つを採用する」という仕組みの高速化手法で、AIモデルの品質を保ったまま高速化することができます。
既存の投機的デコーディング手法は大きく分けて「自己回帰型」と「ブロック拡散型」の2種類があります。Hao AI Labによると自己回帰型の手法には「長い予測で無駄が生じる」という問題が存在し、ブロック拡散型には「矛盾する予測ツリーによって無駄が生じる」という問題が存在するとのこと。JetSpecはこれらの問題を解決する手法で、既存の手法と比べてさらなる高速化を可能とします。
Qwen3-8BをNVIDIA H100で実行する場合の投機的デコーディング手法ごとの速度向上率を比べたグラフが以下。JetSpecは数学推論ベンチマークのMATH-500において9.64倍の高速化を実現し、既存手法より高速な処理を実現しています。また、複雑なチャット能力を測定するMT-Benchでも4.58倍の高速化に成功しています。

Hao AI LabはAI推論エンジンのvLLMにJetSpecの実行機能を追加したバージョンを開発し、NVIDIA B200を用いてQwen3-8Bを実行。その結果、毎秒1000トークン以上という非常に高速な出力を実現しました。

以下の画像をクリックすると「通常のQwen3-8B」「DFlashで高速化したQwen3-8B」「JetSpecで高速化したQwen3-8B」の推論速度イメージを確認できます。

Hao AI Labは「Qwen3-8B」「Qwen3 30B A3B」「Qwen3.6 35B A3B」「gpt-oss-20b」「Gemma 4 26B A4B IT」「Step 3.7 Flash」用のJetSpecドラフトモデルを以下のリンク先で公開しています。
JetSpec (JetSpec)
https://huggingface.co/JetSpec

また、JetSpecに関する論文や関連コードも公開されています。
[2606.18394] JetSpec: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting
https://arxiv.org/abs/2606.18394
GitHub - hao-ai-lab/JetSpec: JetSpec: Breaking the Scaling Ceiling of Speculative Decoding with Causal Parallel Tree Drafting · GitHub
https://github.com/hao-ai-lab/JetSpec
・関連記事
RTX 5090を使って1.8秒で動画を生成できる動画生成AIモデル「FastWan-QAD」が登場、Wan2.1を量子化&蒸留して95.6倍に高速化 - GIGAZINE
小型AIで下書きを生成して大型AIを爆速化する「マルチトークン予測」という技術をGoogleが発表 - GIGAZINE
GoogleがスマホやノートPCでAIをローカル実行するための省メモリ化技術「QAT」をGemma 4に導入、Gemma 4 E2Bがわずか0.84GBのメモリで動作 - GIGAZINE
OpenAIがBroadcomと共同開発したLLM最適推論チップ「Jalapeño」を発表 - GIGAZINE
AmazonがNVIDIA対抗AIチップ「Trainium」の外販に向け交渉開始、AWS専用から他社データセンターへ - GIGAZINE
AMDがAIのメモリ不足を解決するべく「MEXT」を買収、フラッシュメモリをDRAMとして扱う技術 - GIGAZINE
AIを高速実行するためのx86拡張命令「ACE」の仕様が発表される - GIGAZINE
・関連コンテンツ
in AI, Posted by log1o_hf
You can read the machine translated English article A speculative decoding method called 'Je….







