2024年04月15日 11時14分ソフトウェア

イーロン・マスクのAI企業が画像を理解可能なマルチモーダルAI「Grok-1.5」を発表、「GPT-4V」や「Gemini Pro 1.5」に匹敵する性能

イーロン・マスク氏が設立したAI企業「xAI」が、同社初のマルチモーダルAIモデル「Grok-1.5」を発表しました。Grok-1.5は画像の理解が可能で、「フローチャートを認識してコードを書く」「栄養成分表示を見てカロリーを計算する」といった操作が可能です。

Grok-1.5 Vision Preview
https://x.ai/blog/grok-1.5v

Grok-1.5は1つのモデルで「文章生成」と「画像認識」に対応するマルチモーダルAIモデルです。Grok-1.5は既存のGrokユーザーと一部のテスターを対象に、近日中にテストが始まる予定です。

xAIはGrok-1.5の性能を示す例を複数公開しています。例えば、以下の例ではフローチャートを見せつつ「このフローチャートをPythonコードに変換して」と頼むだけでPythonのコードを出力できています。

また、栄養成分表示を見せて「5枚で何カロリー？」と尋ねると、途中式を解説しつつ正しいカロリーを答えてくれました。

さらに、表のスクリーンショットを見せてCSV形式に変換させることも可能です。

xAIは、Grok-1.5の発表に合わせてマルチモーダルAI向けのベンチマーク「RealWorldQA」も発表しました。RealWorldQAの初期バージョンには765枚の画像と画像に沿った質問文が含まれており、マルチモーダルAIの現実世界での空間認識能力を測定できるとのこと。

「Grok-1.5V」「GPT-4V」「Claude 3 Sonnet」「Claude 3 Opus」「Gemini Pro 1.5」の各種ベンチマーク結果を並べた表が以下。Grok-1.5Vは複数のベンチマークでGPT-4VやGemini Pro 1.5を上回るスコアを記録しています。また、RealWorldQAを含む一部のテストでは比較対象の中で最も高いスコアを記録しています。

ベンチマーク	Grok-1.5V	GPT-4V	Claude 3 Sonnet	Claude 3 Opus	Gemini Pro 1.5
MMMU	53.6%	56.8%	53.1%	59.4%	58.5%
Mathvista	52.8%	49.9%	47.9%	50.5%	52.1%
AI2D	88.3%	78.2%	88.7%	88.1%	80.3%
TextVQA	78.1%	78.0%	-	-	73.5%
ChartQA	76.1%	78.5%	81.1%	80.8%	81.3%
DocVQA	85.6%	88.4%	89.5%	89.3%	86.5%
RealWorldQA	68.7%	61.4%	51.9%	49.8%	67.5%