ソフトウェア

MetaのAIモデル「Llama 4」にベンチマーク不正疑惑が浮上、Metaは「事実無根」と真っ向否定


2025年4月5日にMetaが発表した次世代AIモデル「Llama 4」は、リソースの無駄を省きながら高性能を維持する設計となっており、170億のアクティブパラメーターを持つLlama 4 MaverickではOpenAIのGPT-4oやDeepSeek-V3と同等以上の精度を、より少ない計算資源で達成することがアピールされています。一方で、Llama 4が記録した高いベンチマークスコアに対して一部の開発者は「会話用に調整された実験用バージョン」と指摘しています。これに対しMetaは「真実ではない」と反論しました。

Meta's benchmarks for its new AI models are a bit misleading | TechCrunch
https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/


Meta exec denies the company artificially boosted Llama 4's benchmark scores | TechCrunch
https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores/

Meta defends Llama 4 release against 'reports of mixed quality,' blames bugs | VentureBeat
https://venturebeat.com/ai/meta-defends-llama-4-release-against-reports-of-mixed-quality-blames-bugs/

Llama 4: Did Meta just push the panic button?
https://www.interconnects.ai/p/llama-4

Metaが2025年4月5日に発表した「Llama 4」は、ネイティブなマルチモーダルモデルで、テキストだけでなく画像や動画といった複数の情報形式を最初から統合的に扱えるように設計されています。また、MoEアーキテクチャにより、「エキスパート」と呼ばれる各タスクに最適な専門モデルのみを選択的に動作させることで、リソースの無駄を省きながら高性能を維持する設計であるほか、長文コンテキスト処理における精度劣化の緩和を目的とした「iRoPE(Improved Rotary Position Embeddings)」と呼ばれる新たな位置埋め込み手法も用いられています。


特に、170億のアクティブパラメーターを持つ「Llama 4 Scout」や「Llama 4 Maverick」は、Gemma 3やGemini 2.0 Flash-Lite、Mistral 3.1ならびにGPT-4oやDeepSeek-V3といった競合モデルと同等の精度をより少ない計算資源で達成することができると報告されています。

Metaが次世代マルチモーダルAI「Llama 4」をリリース、MoEアーキテクチャ採用で競合モデルに匹敵する高性能を誇る - GIGAZINE


一方で、これらのモデルには「AI評価プラットフォームのLM Arenaでより良いスコアを獲得するために、公開されるLlama 4とは異なるテストセットでトレーニングした」という疑惑がかけられています。

“Serious issues in Llama 4 training. I Have Submitted My Resignation to GenAI“
byu/rrryougi inLocalLLaMA


AI研究者で作家のアンドリュー・ブルコフ氏は「『1000万トークンという非常に長いコンテキストウィンドウをサポート』とアピールするLlama 4 Scoutに25万6000以上のトークンを送信すると、出力は非常に低品質なものとなる」と批判しています。


また、掲示板サイトのRedditでは「回転する七角形の中を弾むボールのシミュレーション」のコーディングタスクをLlama 4で実行した結果、DeepSeek-V3と比べてパフォーマンスが低いことが報告されています。

I'm incredibly disappointed with Llama-4
byu/Dr_Karminski inLocalLLaMA


さらに、元Metaの研究者で、アレン人工知能研究所のシニアリサーチサイエンティストであるネイサン・ランバート氏は「Metaがマーケティング上のセールスポイントを作成するために使用したモデルを公開しないことは大きな問題です」と語りました。

一方でMetaのジェネレーティブAI担当バイスプレジデントのアフマド・アル・ダーレ氏は「Llama 4をテストセットでトレーニングしたという主張を耳にしましたが、これは全くの事実無根です。一部のユーザーが報告している品質のバラつきは、実装を安定させるための方法です」と報告しています。


また、ダーレ氏は「一部のユーザーが、モデルをホストしているさまざまなクラウドプロバイダー間で、Llama 4 MarverickとLlama 4 Scoutを混同している」と主張するとともに、「一度公開されているモデルを取り下げました。数日かけてモデルの調整を行い、準備が整い次第再度公開実装します。私たちは今後もLlama 4のバグ修正とパートナーのオンボーディングを通じて開発に取り組んでいきます」と述べました。

この記事のタイトルとURLをコピーする

・関連記事
Metaが次世代マルチモーダルAI「Llama 4」をリリース、MoEアーキテクチャ採用で競合モデルに匹敵する高性能を誇る - GIGAZINE

Llama 3.3 70BベースでGPT-4o超えの満足度を達成するAIをPerplexityが発表 - GIGAZINE

さまざまなAIをWindowsのローカルPCで動かせる「Run llama.cpp Portable Zip on Intel GPU with IPEX-LLM」がDeepSeekにも対応したことをIntelが発表 - GIGAZINE

Metaは10万台以上のNVIDIA H100を使用してLlama-4をトレーニングしている - GIGAZINE

Mistral AIが多言語&240億パラメータのマルチモーダル・オープンソースAIモデル「Mistral Small 3.1」発表、32GBのRAMで動作しGemma 3やGPT-4o miniよりも優れているとアピール - GIGAZINE

in ソフトウェア, Posted by log1r_ut

You can read the machine translated English article Suspicion of benchmark fraud emerges in ….