Googleがオープンソースのビジュアル言語モデル「PaliGemma」を公開&Llama 3と同等性能の大規模言語モデル「Gemma 2」を発表
Googleが2024年5月15日にビジュアル言語モデル(VLM)の「PaliGemma」と、大規模言語モデル(LLM)の「Gemma 2」を発表しました。PaliGemmaはすでにリリースされており、簡単に試せるデモも公開されています。
Introducing PaliGemma, Gemma 2, and an Upgraded Responsible AI Toolkit - Google Developers Blog
https://developers.googleblog.com/en/gemma-family-and-toolkit-expansion-io-2024/
PaliGemma – Google's Cutting-Edge Open Vision Language Model
https://huggingface.co/blog/paligemma
◆ビジュアル言語モデル「PaliGemma」
PaliGemmaは画像を認識して「画像の内容を説明する」「画像内のテキストを理解する」「画像内のオブジェクトと背景を分離する」といった操作が可能なビジュアル言語モデルです。
PaliGemmaはGitHub、Hugging Face、Kaggle、Vertex AI Model Gardenで入手可能なほか、NVIDIAも自社製GPUに最適化したPaliGemmaを開発しています。また、PaliGemmaの機能を試せるデモページも以下のリンク先で公開されています。
PaliGemma Demo - a Hugging Face Space by google
https://huggingface.co/spaces/google/paligemma
実際に、デモページでPaliGemmaの機能を試してみました。ティッシュ箱が写る画像と「これは何?」というテキストを入力して「Run」をクリック。
すると、「グレーのカーペットの上に座ってる白いティッシュボックス」という回答が返ってきました。
◆大規模言語モデル「Gemma 2」
Googleは2024年2月にGeminiの研究資源を活用したオープンソースのLLM「Gemma」を公開していました。新たに、GoogleはGemmaの強化版であるGemma 2を発表しました。
Googleがオープンかつ商用利用可能で軽量な大規模言語モデル「Gemma」を公開 - GIGAZINE
Gemma 2のパラメータ数は270億で、パラメータ数700億のLlama 3 70Bに匹敵する性能を発揮するとのこと。また、Gemma 2はNVIDIA製GPUやGoogleのAIプラットフォーム「Vertex AI」に最適化されており、同等クラスのモデルと比べて半分未満のリソースで動作させられます。
記事作成時点ではGemma 2は事前トレーニングの最中ですが、すでに各種ベンチマークテストでGrokを上回るスコアを示しています。
なお、Gemma 2は今後数週間以内に公開される予定です。
・関連記事
GoogleがGemini 1.5 Proのアップデートを実施、コンテキストウィンドウを従来の100万トークンから200万トークンに拡張 - GIGAZINE
Googleが高速かつ高性能な軽量AIモデル「Gemini Flash」を発表、Gemini Proの10分の1の価格で性能は同等クラス - GIGAZINE
Googleが映像と音声を理解して質問に答えるGPT-4oっぽいAIエージェント「Project Astra」を発表 - GIGAZINE
ChromeがGoogleのAI「Gemini Nano」内蔵へ、2024年6月リリースのバージョン126から - GIGAZINE
Googleが第6世代TPU「Trillium」発表、TPU v5eよりも1チップ当たり4.7倍優れたパフォーマンスと67%優れたエネルギー効率でGoogle CloudのAIを支える - GIGAZINE
・関連コンテンツ