2024年11月19日 15時00分ソフトウェア

Mistral AIが124BサイズのマルチモーダルAIモデル「Pixtral Large」リリース、GPT-4oやGemini-1.5 Proなどを上回るパフォーマンス

フランスのAIスタートアップであるMistral AIが、既存のMistral Large 2モデルにドキュメント・グラフ・画像の認識能力を加えたマルチモーダルAIモデル「Pixtral Large」をリリースしました。

Pixtral Large | Mistral AI | Frontier AI in your hands
https://mistral.ai/news/pixtral-large/

今回リリースされた「Pixtral Large」モデルは、2024年7月24日に発表された多様な言語を扱える大規模言語モデル「Mistral Large 2」をベースに画像を理解できるように調整したもので、パラメーター数は1240億とのこと。Mistralが展開するマルチモーダルAIモデルとしてはPixtral 12Bに続き2番目のものとなります。

Pixtral Largeとその他のモデルの比較はこんな感じ。比較対象として「Llama-3.2 90B」「GPT-4o」「Claude-3.5 Sonnet」「Gemini-1.5 Pro」が並んでいます。標準的なマルチモーダルAI用ベンチマークでは最高レベルの性能を発揮することが分かります。

具体的な数字はこんな感じ。マルチモーダルモデルの実際の使用例を反映させる「MM-MT-Bench」ではPixtral Largeが最高スコアを獲得しました。

Mistralは実際の応答のサンプルも紹介しています。最初のタスクは下の写真をモデルに入力して「コーヒーとソーセージを買いました。いくら払う必要がありますか？18％のチップを追加してください」と自分の分の支払い額の計算を依頼するというもの。

Pixtral Largeの応答は下記のようになりました。読みやすいよう、編集部で日本語に翻訳しています。レシートはドイツ語で書かれていましたがPixtral Largeはどれがコーヒーでどれがソーセージなのかを認識できています。ただし、確認なしにコーヒー2杯を1人で飲んだものとして計算しているため、完璧とはいえません。

18％のチップを含めた合計支払額を計算するには、次の手順に従ってください。

コーヒーとソーセージのコストを計算します。

2x Latte Macchiato: 2 * 4.50 CHF = 9.00 CHF
1x Schweinschnitzel: 22.00 CHF
コーヒーとソーセージの合計金額: 9.00 CHF + 22.00 CHF = 31.00 CHF
18％のチップを計算します。

チップ: 31.00 CHF * 0.18 = 5.58 CHF
合計金額にチップを追加します:

合計支払額: 31.00 CHF + 5.58 CHF = 36.58 CHF
つまり、合計 36.58 CHF を支払う必要があります。

2例目は複数のモデルのトレーニングの様子を収めたグラフの読解タスク。質問は「dark dragonの状況が悪化し始めたのはいつですか？」です。

Pixtral Largeの応答はこんな感じ。どのグラフが「dark dragon」なのかを正しく認識できており、グラフの読み取りにも成功しています。

「dark-dragon-50」モデルのトレーニング損失は、1万ステップあたりで著しい不安定性を示し始めます。この時点で損失値に顕著なスパイクがあり、不安定性は続き、2万ステップあたりで別の大きなスパイクが発生します。これらのスパイクは、「dark-dragon-50」モデルのトレーニングプロセスで、1万ステップあたりから問題が発生し始めたことを示しています。

3例目では以下の画像を入力し、「Mistral AIが作成したモデルを使用している企業はどれですか？」と質問しています。

画像が示すように、Mistral AIが作成したモデルを使用している企業は次のとおりです。

1. BNPパリバ
2. brave
3. Cloudflare
4. CMA CGM
5. Front

Pixtral Largeのリリースとともに、テキスト用モデルであるMistral Largeモデルもアップグレードされているとのこと。ともにMistral Research Licenseでリリースされており、研究目的の利用であれば無料となっています。

また、Pixtral LargeはMistral AI製チャットAI「Le Chat」でも使われています。

Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に - GIGAZINE