AI

高速かつ高精度な視覚言語モデル「Zamba2-VL」が登場、Transformerより高速なアーキテクチャで開発


AI開発企業のZyphraが視覚言語モデル(VLM)の「Zamba2-VL」を公開しました。Zamba2-VLは同規模モデルと比べて高速な画像認識処理が可能です。

Zamba2-VL: Hybrid SSM Vision-Language Models
https://www.zyphra.com/our-work/zamba2-vl


Zamba2-VLは主流のAIアーキテクチャである「Transformer」と2024年に発表されたAIアーキテクチャ「Mamba2」を組み合わせたハイブリッドアーキテクチャ「SSM-Transformer」をベースに構築されたVLMです。SSM-Transformerを採用することで同規模のTransformerベースモデルと同等品質で高速な処理が可能とされています。


Zamba2-VLは20億パラメーターの「Zamba2-VL-1.2B」、27億パラメーターの「Zamba2-VL-2.7B」、70億パラメーターの「Zamba2-VL-7B」に分かれて公開されています。以下のグラフは横軸が最初のトークンを出力するまでの時間、縦軸が平均ベンチマークスコアを示しており、Zamba2-VLが同等速度のモデルと比べて高精度な画像認識処理を実行できることが分かります。


「Zamba2-VL-1.2B」「Zamba2-VL-2.7B」「Zamba2-VL-7B」はオープンモデルとして公開されており、以下のリンク先からダウンロード可能です。ライセンスはApache License 2.0です。

Zyphra/Zamba2-VL-1.2B · Hugging Face
https://huggingface.co/Zyphra/Zamba2-VL-1.2B

Zyphra/Zamba2-VL-2.7B · Hugging Face
https://huggingface.co/Zyphra/Zamba2-VL-2.7B

Zyphra/Zamba2-VL-7B · Hugging Face
https://huggingface.co/Zyphra/Zamba2-VL-7B

この記事のタイトルとURLをコピーする

・関連記事
TransformerとMamba2のハイブリッドとなる小規模言語モデル「Zamba2-7B」が公開される - GIGAZINE

約7億パラメータで大規模AIに迫る「ZAYA1-8B」が登場、AMD環境でトレーニングされ数学・コード推論で大規模モデル級の性能を実現 - GIGAZINE

AMD製AIチップで開発された拡散言語モデル「ZAYA1-8B-Diffusion-Preview」が登場、自己回帰モデルを拡散モデルに変換 - GIGAZINE

SSM-Transformerアーキテクチャ採用で従来の約3倍のスループットを実現した大規模言語モデル「Jamba」をAI21 Labsが発表 - GIGAZINE

in AI, Posted by log1o_hf

You can read the machine translated English article A high-speed and high-precision visual l….