2024年12月06日 10時44分ソフトウェア

Googleがファインチューニングしやすいビジュアル言語モデル「PaliGemma 2」をリリース

Googleが2024年12月5日に、オープンかつ軽量な言語モデル「Gemma 2」をベースに視覚機能を追加したビジュアル言語モデルの「PaliGemma 2」を発表しました。

Introducing PaliGemma 2: Powerful Vision-Language Models, Simple Fine-Tuning - Google Developers Blog
https://developers.googleblog.com/en/introducing-paligemma-2-powerful-vision-language-models-simple-fine-tuning/

Welcome PaliGemma 2 – New vision language models by Google
https://huggingface.co/blog/paligemma2

PaliGemmaはGemmaファミリー初のビジュアル言語モデルで、GitHubやHugging Faceなどを通じて広く入手可能でありながら、画像を認識して画像の内容を言葉で説明したり、画像内のテキストを理解したりする機能を持っています。

以下の記事を読むと、実際にPaliGemmaを使うとどうなるのかがわかります。

Googleがオープンソースのビジュアル言語モデル「PaliGemma」を公開＆Llama 3と同等性能の大規模言語モデル「Gemma 2」を発表 - GIGAZINE

今回リリースされた後継モデルのPaliGemma 2は、複数のモデルサイズ(3B、10B、28B)と解像度(224×224、448×448、896×896ピクセル)が展開されており、あらゆるタスクのパフォーマンスを最適化します。

また、キャプションの長さもセールスポイントの1つで、単にオブジェクトを認識するだけでなく、動きや感情、シーン全体の背景を説明できるような詳細でコンテキストに沿ったキャプションを生成したり、化学式や楽譜の認識、空間推論、胸部X線画像のレポートで優れたパフォーマンスを示したりできるとのこと。

デモサイトも用意されています。

Paligemma2 Vqav2 - a Hugging Face Space by merve
https://huggingface.co/spaces/merve/paligemma2-vqav2