2025年05月21日 12時40分ソフトウェア

Google DeepMindが爆速でテキストを生成する拡散モデル「Gemini Diffusion」を発表

Googleが、1秒間に1479トークンを処理できる拡散モデル「Gemini Diffusion」を発表しました。「これまでで最も速いモデル」よりも高速にコンテンツを生成するとのことです。

Gemini Diffusion - Google DeepMind
https://deepmind.google/models/gemini-diffusion/

Gemini Diffusion: Google DeepMind’s experimental research model
https://blog.google/technology/google-deepmind/gemini-diffusion/

Gemini Diffusionは、主に画像生成AIに使われる「拡散モデル」を利用して文章の生成を行うものです。

Googleによると、従来の自己回帰型言語モデルはテキストを1単語(トークン)ごとに生成するため時間がかかり、出力の質と一貫性が制限されることがあるとのこと。

拡散モデルはこれとは異なり、テキストを直接予測する代わりに、ノイズを段階的に改良することで出力を生成するように学習します。これにより、迅速に出力を処理することが可能になり、出力プロセス中にエラーを修正することもできるようになります。Googleによると、プロンプトの入力から生成開始までのオーバーヘッドは0.84秒しかかからず、オーバーヘッドを除いたサンプリング速度は毎秒1479トークンに達するそうです。

Googleは「Gemini Diffusionは、数学問題の解答やコードの生成といったタスクを得意とするのに役立ちます」と伝えました。

Gemini Diffusionの処理のイメージ映像が公開されています。

ベンチマークでは、Gemini DiffusionはGoogleの低コストモデル「Gemini 2.0 Flash-Lite」に匹敵する性能を示しました。