2026年06月04日 17時53分 AI

ノートPCで動くGoogle製「Gemma 4 12B」がエンコーダー不要で画像＆音声を処理する仕組みとは？

Googleは16GBのVRAMもしくはユニファイドメモリで動作する軽量AIモデル「Gemma 4 12B」を2026年6月3日に公開しました。Gemma 4 12Bは「画像と音声をエンコーダーなしで処理できるマルチモーダルモデル」としてアピールされており、この「エンコーダーなし」の仕組みや意義についてGoogle DeepMindの社員であるマールテン・グルーテンドルスト氏が詳細な解説記事を公開しています。

A Visual Guide to Gemma 4 12B - by Maarten Grootendorst
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b

Gemma 4 12Bは120パラメーターのマルチモーダルモデルで、16GBのメモリで動作する軽量さを備えつつ総パラメーター数の多いGemma 4 26B A4Bに近い性能を発揮します。Gemma 4 12Bの詳細や配布場所は以下の記事に詳しくまとめています。

GoogleがノートPCで実行可能なAIモデル「Gemma 4 12B」を無料公開、16GBのVRAMがあれば実行可能 - GIGAZINE

Gemma 4 12Bは軽量なだけでなく、「エンコーダー不要で音声と画像を処理できる」という珍しい特徴を備えています。一般的なマルチモーダルモデルの画像と音声の処理フローを示した図が以下。一般的なモデルの場合、入力された画像や音声をエンコーダーを用いてAIモデルにとって理解しやすい「埋め込み」と呼ばれる形式に変換し、さらに「コネクター」によってLLMで処理できるデータへと整形する必要があります。エンコーダー自体も小さなAIモデルであるため、マルチモーダルモデルではエンコーダーでの処理を実行するためにメモリ使用量が増えたり出力を生成するまでの遅延時間が長くなったりしていました。Gemma 4 12Bはエンコーダーを省くことで省メモリ化と遅延低減を実現したというわけです。

画像エンコーダーのパラメーター数はGemma 4 31BとGemma 4 26B A4Bでは5億5000万、Gemma 4 E2BとGemma 4 E4Bでは1億5000万でした。Gemma 4 12Bではエンコーダーを使わずパラメーター数3500万の埋め込みモジュールのみを使う構成を採用しています。

「パラメーター数3500万の埋め込みモジュール」と聞くと「エンコーダーをパラメーター数3500万まで小型化したもの」とイメージしそうになりますが、実際には「画像を48ピクセル四方に分割して埋め込み形式に変換する」というデータ変換経路としての機能だけを備えた仕組みで、エンコーダーとはまったく異なるものです。グルーテンドルスト氏は「パラメーター数が3500万にまで膨れあがっているのは、単純にLLMに投影するピクセル数が多いから」と説明しています。Gemma 4 12Bは画像を48×48ピクセルのパッチに分割して処理し、各パッチをGemma 4 12Bの3840次元に投影する必要があり、投影だけでも48(縦)×48(横)×3(RGB)×3840＝2654万2080パラメーターが必要となるというわけです。