ソフトウェア

Google DeepMindが爆速でテキストを生成する拡散モデル「Gemini Diffusion」を発表


Googleが、1秒間に1479トークンを処理できる拡散モデル「Gemini Diffusion」を発表しました。「これまでで最も速いモデル」よりも高速にコンテンツを生成するとのことです。

Gemini Diffusion - Google DeepMind
https://deepmind.google/models/gemini-diffusion/


Gemini Diffusion: Google DeepMind’s experimental research model
https://blog.google/technology/google-deepmind/gemini-diffusion/

Gemini Diffusionは、主に画像生成AIに使われる「拡散モデル」を利用して文章の生成を行うものです。

Googleによると、従来の自己回帰型言語モデルはテキストを1単語(トークン)ごとに生成するため時間がかかり、出力の質と一貫性が制限されることがあるとのこと。

拡散モデルはこれとは異なり、テキストを直接予測する代わりに、ノイズを段階的に改良することで出力を生成するように学習します。これにより、迅速に出力を処理することが可能になり、出力プロセス中にエラーを修正することもできるようになります。Googleによると、プロンプトの入力から生成開始までのオーバーヘッドは0.84秒しかかからず、オーバーヘッドを除いたサンプリング速度は毎秒1479トークンに達するそうです。


Googleは「Gemini Diffusionは、数学問題の解答やコードの生成といったタスクを得意とするのに役立ちます」と伝えました。

Gemini Diffusionの処理のイメージ映像が公開されています。


ベンチマークでは、Gemini DiffusionはGoogleの低コストモデル「Gemini 2.0 Flash-Lite」に匹敵する性能を示しました。


GoogleはGemini Diffusionのデモを公開していますが、アクセスするにはウェイティングリストに登録する必要があります。

また、より高速なGemini 2.0 Flash-Liteを近々発表する予定とのことです。

この記事のタイトルとURLをコピーする

・関連記事
Googleが月額約3万6000円のAIサブスクプラン「Google AI Ultra」を発表 - GIGAZINE

Googleが画像生成AI「Imagen 4」を発表、最大2Kの画像を生成可能でImagen 3より10倍高速なハイスピード版も登場予定 - GIGAZINE

Googleが動画生成AI「Veo 3」を発表、4K出力可能で音声も同時に生成できる - GIGAZINE

in ソフトウェア,   動画, Posted by log1p_kr

You can read the machine translated English article Google DeepMind announces Gemini Diffusi….