ソフトウェア

Sakana AIの「100倍高速化できる」という発表がネット上で検証され逆に「3倍遅くなる」と指摘される


日本のAI企業・Sakana AIは、PyTorchで記述された処理をより高速に実行するためのCUDAカーネルに自動最適化する「AI CUDA Engineer」を2025年2月20日に発表しました。しかし、実際にAI CUDA Engineerを検証したところ、高速化どころか速度が3分の1に低下したという報告がX(旧Twitter)に挙がっています。

Sakana walks back claims that its AI can dramatically speed up model training | TechCrunch
https://techcrunch.com/2025/02/21/sakana-walks-back-claims-that-its-ai-can-dramatically-speed-up-model-training/

検証したユーザーは「Sakana AIのAI CUDA Engineerは魅力的ですが、高速化を検証することができません」と述べています。


また、別のユーザーは「Sakana AIは論文で『150倍の高速化を達成した』と主張していますが、実際にベンチマークをしてみたところ、3倍遅くなります……」と報告しました。


このユーザーはコードの一部に問題があり、正確性のチェックをバイパスしているのではないかと指摘しています。


OpenAIの技術スタッフであるルーカス・ベイヤー氏によると、AI CUDA Engineerのコードをo3-mini-highで検証したところ、元のコードにバグがあったとのこと。その後、o3-mini-highによる修正を反映したところ、コードは修正されたものの、ベンチマークの結果はやはり「3倍遅い」となったそうです。


さらにベイヤー氏は、Sakana AIがベンチマークを実行した2回分の結果が全く異なるものだった点を指摘し、「非常に簡素なCUDAコードが、最適化されたcuBLASカーネルよりも高速になる可能性は全くありません。高速になる場合は何かが間違っています」「ベンチマーク結果が不可解で一貫性がない場合は何か問題があります」「o3-mini-highは本当に優れています。問題を見つけるのに文字度通り11秒しかかかりませんでした。そして、私が一連の内容をまとめるのに10分かかりました」と述べています。つまり、LLMが生成したコードにミスがあり、正しく計算が行われていなかったにもかかわらず、高速化を目標として実行時間に注目していたため、結果の正確性は無視されていた可能性があるというわけです。


2月22日、Sakana AIは事後分析レポートを発表。このレポートで、Sakana AIは「AIが評価コードの脆弱(ぜいじゃく)性に気付き、正確性のチェックを回避するようなコードを生成していた」と述べ、AIが高く評価されるために不正を働いていたことがわかったと認めました。Sakana AIはすでにこの問題に対処しており、論文を修正する予定だと述べています。

この記事のタイトルとURLをコピーする

・関連記事
iPhoneでも動作する日本語AIモデル「TinySwallow-1.5B」を日本に拠点を置くSakana AIがリリース、大規模言語モデルから知識蒸留して小規模かつ高性能なAIモデルを実現 - GIGAZINE

日本に拠点を置くAI企業「Sakana AI」がキャッシュメモリの使用量を最大75%削減する技術「NAMM」を開発 - GIGAZINE

日本に拠点を置くAI企業「Sakana AI」がNVIDIAなどから合計140億円以上の出資を受ける - GIGAZINE

実験と論文執筆だけでなく査読まですべてAIが行う「AIサイエンティスト」を日本のAI企業「Sakana AI」がリリース - GIGAZINE

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article Sakana AI's claim that it can 'make ….