ノートPCで動くGoogle製「Gemma 4 12B」がエンコーダー不要で画像&音声を処理する仕組みとは?

Googleは16GBのVRAMもしくはユニファイドメモリで動作する軽量AIモデル「Gemma 4 12B」を2026年6月3日に公開しました。Gemma 4 12Bは「画像と音声をエンコーダーなしで処理できるマルチモーダルモデル」としてアピールされており、この「エンコーダーなし」の仕組みや意義についてGoogle DeepMindの社員であるマールテン・グルーテンドルスト氏が詳細な解説記事を公開しています。
A Visual Guide to Gemma 4 12B - by Maarten Grootendorst
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b
Gemma 4 12Bは120パラメーターのマルチモーダルモデルで、16GBのメモリで動作する軽量さを備えつつ総パラメーター数の多いGemma 4 26B A4Bに近い性能を発揮します。Gemma 4 12Bの詳細や配布場所は以下の記事に詳しくまとめています。
GoogleがノートPCで実行可能なAIモデル「Gemma 4 12B」を無料公開、16GBのVRAMがあれば実行可能 - GIGAZINE

Gemma 4 12Bは軽量なだけでなく、「エンコーダー不要で音声と画像を処理できる」という珍しい特徴を備えています。一般的なマルチモーダルモデルの画像と音声の処理フローを示した図が以下。一般的なモデルの場合、入力された画像や音声をエンコーダーを用いてAIモデルにとって理解しやすい「埋め込み」と呼ばれる形式に変換し、さらに「コネクター」によってLLMで処理できるデータへと整形する必要があります。エンコーダー自体も小さなAIモデルであるため、マルチモーダルモデルではエンコーダーでの処理を実行するためにメモリ使用量が増えたり出力を生成するまでの遅延時間が長くなったりしていました。Gemma 4 12Bはエンコーダーを省くことで省メモリ化と遅延低減を実現したというわけです。

画像エンコーダーのパラメーター数はGemma 4 31BとGemma 4 26B A4Bでは5億5000万、Gemma 4 E2BとGemma 4 E4Bでは1億5000万でした。Gemma 4 12Bではエンコーダーを使わずパラメーター数3500万の埋め込みモジュールのみを使う構成を採用しています。

「パラメーター数3500万の埋め込みモジュール」と聞くと「エンコーダーをパラメーター数3500万まで小型化したもの」とイメージしそうになりますが、実際には「画像を48ピクセル四方に分割して埋め込み形式に変換する」というデータ変換経路としての機能だけを備えた仕組みで、エンコーダーとはまったく異なるものです。グルーテンドルスト氏は「パラメーター数が3500万にまで膨れあがっているのは、単純にLLMに投影するピクセル数が多いから」と説明しています。Gemma 4 12Bは画像を48×48ピクセルのパッチに分割して処理し、各パッチをGemma 4 12Bの3840次元に投影する必要があり、投影だけでも48(縦)×48(横)×3(RGB)×3840=2654万2080パラメーターが必要となるというわけです。

画像の場合は埋め込みモジュールが必要ですが、音声の場合はもっと単純で、音声を40ミリ秒ごとに区切って音の高低をトークン化し、そのままLLMに処理させています。グルーテンドルスト氏によると「音声はもともと2次元シーケンスであり、テキストと同様にLLMで処理可能」とのこと。

Gemma 4 E2BとGemma 4 E4Bの場合、音声を処理するためにパラメーター数3億500万の音声エンコーダーを内蔵していました。Gemma 4 12Bでは音声エンコーダーがまったく不要となったため、その分メモリ使用量を削減できたというわけです。

・関連記事
GoogleがノートPCで実行可能なAIモデル「Gemma 4 12B」を無料公開、16GBのVRAMがあれば実行可能 - GIGAZINE
GoogleがオープンAIモデル「Gemma 4」を発表、ライセンスをApache 2.0に変更 - GIGAZINE
無料でGoogleのローカルAI「Gemma 4」の威力がGoogle公式アプリ「AI Edge Gallery」で誰でも試せるように、iPhoneでもローカル動作可能 - GIGAZINE
小型AIで下書きを生成して大型AIを爆速化する「マルチトークン予測」という技術をGoogleが発表 - GIGAZINE
Google DeepMindがマルチモーダル生成モデル「Gemini Omni」を発表、自然言語による対話と推論能力による動画生成・編集が可能に - GIGAZINE
・関連コンテンツ
in AI, Posted by log1o_hf
You can read the machine translated English article How does Google's 'Gemma 4 12B,' whi….







