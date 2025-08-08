2025年08月08日 12時35分 ソフトウェア

GPT-5発表時のチャートがむちゃくちゃすぎてAIによるバイブコーディングにちなんで「VIBECHART」と言われて炎上



OpenAIはフラッグシップAIモデルとなる「GPT-5」を日本時間の2025年8月8日に発表しました。新しいAIモデルの発表時には、そのAIの性能を示すベンチマーク結果をグラフで視覚化してアピールされるのが常ですが、今回のGPT-5の発表で使われたグラフが明らかに数値と矛盾していたことが判明し、総ツッコミを食らっています。



たとえば、以下はGPT-5・o3・GPT-4oによるSWE-benchのベンチマーク結果を並べたグラフで、記事作成時点でOpenAIのリリースページで公開されているものです。





そして発表直後に公開されたベンチマーク結果のグラフがこれ。GPT-5の通常モデル(薄いピンク)が52.8％、推論モデル(濃いピンク)が74.9％という結果に対して、o3が69.1％、GPT-4oが30.8％なのに、なぜか棒グラフでは後者2つの結果が同じ高さで、さらに通常モデルはo3よりも結果が低かったのにもかかわらず、なぜか通常モデルのグラフの方が高くなっています。



GPT-5



さらにGPT-5とo3で実行不可能なタスクに対してどのように応答するかの違いを比較したグラフが以下。モデルが事実でないことを事実のように述べてしまう「欺瞞率」を示しているので、グラフが低ければ低いほど優秀ということになります。正しいグラフはこれ。





そして、発表直後に公開されたグラフがこれで、OpenAIのGPT-5発表配信でも公開されたもの。明らかにおかしいのが一番左の「Coding deception」で、GPT-5はo3の47.4％よりも低いグラフにもかかわらず、表示されている数字が「50.0％」となっています。





ソーシャルニュースサイトのHacker Newsでは、「なぜあんなにいい加減なのでしょうか？面白くて下手なグラフで拡散したいから？Excel文書のテスト結果を視覚的なグラフに変換するくらいならAIでもできるはずなのに」「OpenAIは間違いなく、ChatGPTに自社のスライドをレビューしてもらうべきでした」「これは単にずさんなだけで、意図的に誤解を招くようなものではないのかもしれません。しかし、数十億ドルもの資金を浪費し、人類のあらゆる活動に革命を起こすと約束している企業が、まともなパワーポイントを作成できないというのは、やはり見栄えが悪いです」などのツッコミコメントがたくさんポストされていました。