ソフトウェア

Mistral AIが124BサイズのマルチモーダルAIモデル「Pixtral Large」リリース、GPT-4oやGemini-1.5 Proなどを上回るパフォーマンス



フランスのAIスタートアップであるMistral AIが、既存のMistral Large 2モデルにドキュメント・グラフ・画像の認識能力を加えたマルチモーダルAIモデル「Pixtral Large」をリリースしました。

Pixtral Large | Mistral AI | Frontier AI in your hands
https://mistral.ai/news/pixtral-large/


今回リリースされた「Pixtral Large」モデルは、2024年7月24日に発表された多様な言語を扱える大規模言語モデル「Mistral Large 2」をベースに画像を理解できるように調整したもので、パラメーター数は1240億とのこと。Mistralが展開するマルチモーダルAIモデルとしてはPixtral 12Bに続き2番目のものとなります。

Pixtral Largeとその他のモデルの比較はこんな感じ。比較対象として「Llama-3.2 90B」「GPT-4o」「Claude-3.5 Sonnet」「Gemini-1.5 Pro」が並んでいます。標準的なマルチモーダルAI用ベンチマークでは最高レベルの性能を発揮することが分かります。


具体的な数字はこんな感じ。マルチモーダルモデルの実際の使用例を反映させる「MM-MT-Bench」ではPixtral Largeが最高スコアを獲得しました。


Mistralは実際の応答のサンプルも紹介しています。最初のタスクは下の写真をモデルに入力して「コーヒーとソーセージを買いました。いくら払う必要がありますか?18%のチップを追加してください」と自分の分の支払い額の計算を依頼するというもの。


Pixtral Largeの応答は下記のようになりました。読みやすいよう、編集部で日本語に翻訳しています。レシートはドイツ語で書かれていましたがPixtral Largeはどれがコーヒーでどれがソーセージなのかを認識できています。ただし、確認なしにコーヒー2杯を1人で飲んだものとして計算しているため、完璧とはいえません。

18%のチップを含めた合計支払額を計算するには、次の手順に従ってください。

コーヒーとソーセージのコストを計算します。

2x Latte Macchiato: 2 * 4.50 CHF = 9.00 CHF
1x Schweinschnitzel: 22.00 CHF
コーヒーとソーセージの合計金額: 9.00 CHF + 22.00 CHF = 31.00 CHF
18%のチップを計算します。

チップ: 31.00 CHF * 0.18 = 5.58 CHF
合計金額にチップを追加します:

合計支払額: 31.00 CHF + 5.58 CHF = 36.58 CHF
つまり、合計 36.58 CHF を支払う必要があります。


2例目は複数のモデルのトレーニングの様子を収めたグラフの読解タスク。質問は「dark dragonの状況が悪化し始めたのはいつですか?」です。


Pixtral Largeの応答はこんな感じ。どのグラフが「dark dragon」なのかを正しく認識できており、グラフの読み取りにも成功しています。

「dark-dragon-50」モデルのトレーニング損失は、1万ステップあたりで著しい不安定性を示し始めます。この時点で損失値に顕著なスパイクがあり、不安定性は続き、2万ステップあたりで別の大きなスパイクが発生します。これらのスパイクは、「dark-dragon-50」モデルのトレーニング プロセスで、1万ステップあたりから問題が発生し始めたことを示しています。


3例目では以下の画像を入力し、「Mistral AIが作成したモデルを使用している企業はどれですか?」と質問しています。


画像が示すように、Mistral AIが作成したモデルを使用している企業は次のとおりです。

1. BNPパリバ
2. brave
3. Cloudflare
4. CMA CGM
5. Front


Pixtral Largeのリリースとともに、テキスト用モデルであるMistral Largeモデルもアップグレードされているとのこと。ともにMistral Research Licenseでリリースされており、研究目的の利用であれば無料となっています。

また、Pixtral LargeはMistral AI製チャットAI「Le Chat」でも使われています。

Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
GPT-4やClaudeなどの大規模言語モデルが抱える「ストロベリー問題」とは? - GIGAZINE

大規模言語モデルとチェスAIで対決させるとほとんどの大規模言語モデルがズタボロに負ける中なぜか「gpt-3.5-turbo-instruct」だけが圧倒的勝利 - GIGAZINE

Mistral AIが日本語など11言語で潜在的に有害なコンテンツを検出できるコンテンツモデレーションAPIを開始 - GIGAZINE

Mistral AIがデバイス向け小規模モデル「Ministral 3B」「Ministral 8B」をリリース - GIGAZINE

in ソフトウェア, Posted by log1d_ts

You can read the machine translated English article here.