MetaのAIモデル「Llama 4」にベンチマーク不正疑惑が浮上、Metaは「事実無根」と真っ向否定

2025年4月5日にMetaが発表した次世代AIモデル「Llama 4」は、リソースの無駄を省きながら高性能を維持する設計となっており、170億のアクティブパラメーターを持つLlama 4 MaverickではOpenAIのGPT-4oやDeepSeek-V3と同等以上の精度を、より少ない計算資源で達成することがアピールされています。一方で、Llama 4が記録した高いベンチマークスコアに対して一部の開発者は「会話用に調整された実験用バージョン」と指摘しています。これに対しMetaは「真実ではない」と反論しました。
Meta's benchmarks for its new AI models are a bit misleading | TechCrunch
https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/

Meta exec denies the company artificially boosted Llama 4's benchmark scores | TechCrunch
https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores/
Meta defends Llama 4 release against 'reports of mixed quality,' blames bugs | VentureBeat
https://venturebeat.com/ai/meta-defends-llama-4-release-against-reports-of-mixed-quality-blames-bugs/
Llama 4: Did Meta just push the panic button?
https://www.interconnects.ai/p/llama-4
Metaが2025年4月5日に発表した「Llama 4」は、ネイティブなマルチモーダルモデルで、テキストだけでなく画像や動画といった複数の情報形式を最初から統合的に扱えるように設計されています。また、MoEアーキテクチャにより、「エキスパート」と呼ばれる各タスクに最適な専門モデルのみを選択的に動作させることで、リソースの無駄を省きながら高性能を維持する設計であるほか、長文コンテキスト処理における精度劣化の緩和を目的とした「iRoPE(Improved Rotary Position Embeddings)」と呼ばれる新たな位置埋め込み手法も用いられています。
特に、170億のアクティブパラメーターを持つ「Llama 4 Scout」や「Llama 4 Maverick」は、Gemma 3やGemini 2.0 Flash-Lite、Mistral 3.1ならびにGPT-4oやDeepSeek-V3といった競合モデルと同等の精度をより少ない計算資源で達成することができると報告されています。
Metaが次世代マルチモーダルAI「Llama 4」をリリース、MoEアーキテクチャ採用で競合モデルに匹敵する高性能を誇る - GIGAZINE

一方で、これらのモデルには「AI評価プラットフォームのLM Arenaでより良いスコアを獲得するために、公開されるLlama 4とは異なるテストセットでトレーニングした」という疑惑がかけられています。
“Serious issues in Llama 4 training. I Have Submitted My Resignation to GenAI“
byu/rrryougi inLocalLLaMA
AI研究者で作家のアンドリュー・ブルコフ氏は「『1000万トークンという非常に長いコンテキストウィンドウをサポート』とアピールするLlama 4 Scoutに25万6000以上のトークンを送信すると、出力は非常に低品質なものとなる」と批判しています。
I will save you reading time about Llama 4.
— Andriy Burkov (@burkov) April 5, 2025
The declared 10M context is virtual because no model was trained on prompts longer than 256k tokens. This means that if you send more than 256k tokens to it, you will get low-quality output most of the time.
And even if your problem…
また、掲示板サイトのRedditでは「回転する七角形の中を弾むボールのシミュレーション」のコーディングタスクをLlama 4で実行した結果、DeepSeek-V3と比べてパフォーマンスが低いことが報告されています。
さらに、元Metaの研究者で、アレン人工知能研究所のシニアリサーチサイエンティストであるネイサン・ランバート氏は「Metaがマーケティング上のセールスポイントを作成するために使用したモデルを公開しないことは大きな問題です」と語りました。
一方でMetaのジェネレーティブAI担当バイスプレジデントのアフマド・アル・ダーレ氏は「Llama 4をテストセットでトレーニングしたという主張を耳にしましたが、これは全くの事実無根です。一部のユーザーが報告している品質のバラつきは、実装を安定させるための方法です」と報告しています。
We're glad to start getting Llama 4 in all your hands. We're already hearing lots of great results people are getting with these models.
— Ahmad Al-Dahle (@Ahmad_Al_Dahle) April 7, 2025
That said, we're also hearing some reports of mixed quality across different services. Since we dropped the models as soon as they were…
また、ダーレ氏は「一部のユーザーが、モデルをホストしているさまざまなクラウドプロバイダー間で、Llama 4 MarverickとLlama 4 Scoutを混同している」と主張するとともに、「一度公開されているモデルを取り下げました。数日かけてモデルの調整を行い、準備が整い次第再度公開実装します。私たちは今後もLlama 4のバグ修正とパートナーのオンボーディングを通じて開発に取り組んでいきます」と述べました。
・関連記事
Metaが次世代マルチモーダルAI「Llama 4」をリリース、MoEアーキテクチャ採用で競合モデルに匹敵する高性能を誇る - GIGAZINE
Llama 3.3 70BベースでGPT-4o超えの満足度を達成するAIをPerplexityが発表 - GIGAZINE
さまざまなAIをWindowsのローカルPCで動かせる「Run llama.cpp Portable Zip on Intel GPU with IPEX-LLM」がDeepSeekにも対応したことをIntelが発表 - GIGAZINE
Metaは10万台以上のNVIDIA H100を使用してLlama-4をトレーニングしている - GIGAZINE
Mistral AIが多言語&240億パラメータのマルチモーダル・オープンソースAIモデル「Mistral Small 3.1」発表、32GBのRAMで動作しGemma 3やGPT-4o miniよりも優れているとアピール - GIGAZINE
・関連コンテンツ
in ソフトウェア, Posted by log1r_ut
You can read the machine translated English article Suspicion of benchmark fraud emerges in ….