2026年06月11日 17時49分 AI

高速かつ高精度な視覚言語モデル「Zamba2-VL」が登場、Transformerより高速なアーキテクチャで開発

AI開発企業のZyphraが視覚言語モデル(VLM)の「Zamba2-VL」を公開しました。Zamba2-VLは同規模モデルと比べて高速な画像認識処理が可能です。

Zamba2-VL: Hybrid SSM Vision-Language Models
https://www.zyphra.com/our-work/zamba2-vl

Zyphra Research continues to explore architecture innovations beyond standard transformers.

Today we’re releasing Zamba2-VL, extending our prior Zamba2 hybrid SSM-Transformer work into vision-language modeling. 🧵 pic.twitter.com/q7R9GdnaIh
— Zyphra (@ZyphraAI) June 10, 2026

Zamba2-VLは主流のAIアーキテクチャである「Transformer」と2024年に発表されたAIアーキテクチャ「Mamba2」を組み合わせたハイブリッドアーキテクチャ「SSM-Transformer」をベースに構築されたVLMです。SSM-Transformerを採用することで同規模のTransformerベースモデルと同等品質で高速な処理が可能とされています。

See the model in action with these examples below. pic.twitter.com/vZ7TvhHc86
— Zyphra (@ZyphraAI) June 10, 2026

Zamba2-VLは20億パラメーターの「Zamba2-VL-1.2B」、27億パラメーターの「Zamba2-VL-2.7B」、70億パラメーターの「Zamba2-VL-7B」に分かれて公開されています。以下のグラフは横軸が最初のトークンを出力するまでの時間、縦軸が平均ベンチマークスコアを示しており、Zamba2-VLが同等速度のモデルと比べて高精度な画像認識処理を実行できることが分かります。

「Zamba2-VL-1.2B」「Zamba2-VL-2.7B」「Zamba2-VL-7B」はオープンモデルとして公開されており、以下のリンク先からダウンロード可能です。ライセンスはApache License 2.0です。

Zyphra/Zamba2-VL-1.2B · Hugging Face
https://huggingface.co/Zyphra/Zamba2-VL-1.2B

Zyphra/Zamba2-VL-2.7B · Hugging Face
https://huggingface.co/Zyphra/Zamba2-VL-2.7B

Zyphra/Zamba2-VL-7B · Hugging Face
https://huggingface.co/Zyphra/Zamba2-VL-7B