Googleがファインチューニングしやすいビジュアル言語モデル「PaliGemma 2」をリリース
Googleが2024年12月5日に、オープンかつ軽量な言語モデル「Gemma 2」をベースに視覚機能を追加したビジュアル言語モデルの「PaliGemma 2」を発表しました。
Introducing PaliGemma 2: Powerful Vision-Language Models, Simple Fine-Tuning - Google Developers Blog
https://developers.googleblog.com/en/introducing-paligemma-2-powerful-vision-language-models-simple-fine-tuning/
Welcome PaliGemma 2 – New vision language models by Google
https://huggingface.co/blog/paligemma2
PaliGemmaはGemmaファミリー初のビジュアル言語モデルで、GitHubやHugging Faceなどを通じて広く入手可能でありながら、画像を認識して画像の内容を言葉で説明したり、画像内のテキストを理解したりする機能を持っています。
以下の記事を読むと、実際にPaliGemmaを使うとどうなるのかがわかります。
Googleがオープンソースのビジュアル言語モデル「PaliGemma」を公開&Llama 3と同等性能の大規模言語モデル「Gemma 2」を発表 - GIGAZINE
今回リリースされた後継モデルのPaliGemma 2は、複数のモデルサイズ(3B、10B、28B)と解像度(224×224、448×448、896×896ピクセル)が展開されており、あらゆるタスクのパフォーマンスを最適化します。
また、キャプションの長さもセールスポイントの1つで、単にオブジェクトを認識するだけでなく、動きや感情、シーン全体の背景を説明できるような詳細でコンテキストに沿ったキャプションを生成したり、化学式や楽譜の認識、空間推論、胸部X線画像のレポートで優れたパフォーマンスを示したりできるとのこと。
デモサイトも用意されています。
Paligemma2 Vqav2 - a Hugging Face Space by merve
https://huggingface.co/spaces/merve/paligemma2-vqav2
試しに、グラフを入力して何のグラフなのかを尋ねるサンプルをクリックしてみます。
すると、モデルは「ファイン・チューニング後の精度」と回答しました。
Googleは「PaliGemma 2で皆さんがどのような作品を作るのか、とても楽しみです。活気あふれるGemmaコミュニティに参加し、プロジェクトをGemmaverseで共有して、AIの無限の可能性を一緒に探求し続けましょう」と述べました。
・関連記事
Googleがオープンソースのビジュアル言語モデル「PaliGemma」を公開&Llama 3と同等性能の大規模言語モデル「Gemma 2」を発表 - GIGAZINE
Googleが大規模言語モデル「Gemma 2」のコンパクトバージョン「Gemma 2 2B」の日本語版をリリース - GIGAZINE
大規模言語モデルの仕組みが目で見てわかる「Transformer Explainer」 - GIGAZINE
大規模言語モデルの構造を3Dで視覚化してどんな計算が行われているのかを見やすく表示してくれるサイト「LLM Visualization」 - GIGAZINE
Googleがオープンかつ商用利用可能で軽量な大規模言語モデル「Gemma」を公開 - GIGAZINE
・関連コンテンツ