AIベンチマーク「自転車に乗ったペリカンを描く」をGemini 3.1 ProやQwen3.6-35B-A3Bにやってもらうとこうなる

AIの性能を測るベンチマークにはさまざまなものがありますが、その中でも少し変わっているのがソフトウェア開発者のサイモン・ウィリソン氏が使っている「自転車に乗ったペリカンを描かせる」というテスト。PyCon US 2026の5分間ライトニングトークで、ウィリソン氏はGemini 3.1 ProやQwen3.6-35B-A3Bなどによる「自転車に乗ったペリカン」の生成結果を報告しています。
The last six months in LLMs in five minutes
https://simonwillison.net/2026/May/19/5-minute-llms/

ウィリソン氏が2025年6月にまとめた「自転車に乗ったペリカン」ベンチマークの内容は以下。
AIベンチマーク「自転車に乗ったペリカンを描く」をLlama 3.3 70BやGPT 4.1にやってもらうとこうなる - GIGAZINE

2025年6月以降もウィリソン氏は新しいモデルが登場するたびに「自転車に乗ったペリカン」を描かせるテストを個別に試していますが、今回の講演では特に2025年11月を「変曲点」と位置づけ、そこから2026年5月までの半年間に起きた変化を振り返っています。
2025年11月初めの時点で「最も優れている」と広く見なされていたのは、Anthropicが2025年9月29日にリリースしたClaude Sonnet 4.5でした。その後、OpenAIのGPT-5.1、GoogleのGemini 3、コーディング向けのGPT-5.1 Codex Max、AnthropicのClaude Opus 4.5が相次いで注目を集めました。
以下の画像は、これらのモデルに「自転車に乗ったペリカン」のSVGを生成させた結果です。Claude Sonnet 4.5やGPT-5.1ではペリカンと自転車の関係がやや崩れていますが、Gemini 3はかなり自然に自転車へ乗ったペリカンを描いており、ウィリソン氏は「この中ではGemini 3が最も良いペリカンを描いた」と述べています。

2026年2月にはGemini 3 Proを改良したGemini 3.1 Proが登場。ウィリソン氏が自転車に乗ったペリカンを描かせたところ、ペリカンと自転車の関係はかなり自然になりました。一方で、この出力例では自転車のかごに指示していない魚も描かれていました。

2026年4月にGoogleがリリースしたGemma 4シリーズは、オープンウェイトモデルとして提供されたモデル群です。ウィリソン氏はGemma 4について「アメリカ企業が公開したオープンウェイトモデルとしては自分が見た中で最も高性能」と評価しています。Gemma 4 26B-A4Bは17.99GBのモデルで、自転車に乗ったペリカンをある程度描けています。ただし、自転車の形がやや崩れており、ペリカンも自転車にまたがっているというよりも車体の上に立っているように見えます。

中国のAI研究所であるGLMからは、GLM-5.1がリリースされました。GLM-5.1は7540億パラメーター、1.51TBという巨大なオープンウェイトモデルで、ウィリソン氏は高性能なモデルだと評価しつつ、動かすには相応のハードウェアが必要だと述べています。GLM-5.1が生成したペリカンは自転車の上にきちんと乗っており、背景や車輪も含めてかなり自然な仕上がりになっています。

一方でその画像をアニメーション化しようとすると、自転車が跳ね上がり、形も崩れてしまいました。静止画としてはよくできていても、動きまで含めると不安定な部分が残っていることが分かります。

Qwenから登場したQwen3.6-35B-A3Bも印象的な例として挙げられています。Qwen3.6-35B-A3Bは35Bクラスのオープンウェイトモデルで、ファイルサイズが20.9GBと小さいため自身のノートPC上で動作したとウィリソン氏は語っています。
Qwen3.6-35B-A3Bに自転車に乗ったペリカンを描かせると、2026年4月に登場したAnthropicの上位モデルであるClaude Opus 4.7よりも自然な画像が生成されました。以下の比較画像では、Qwen3.6-35B-A3Bの方がペリカンと自転車の関係をうまく描けており、Claude Opus 4.7の方は自転車のフレームが崩れているのが分かります。

さらにClaude Sonnet 4.5が2025年9月に描いたペリカン画像と比較したのが以下。Claude Sonnet 4.5ではペリカンと自転車がまだかなりぎこちない一方で、Qwen3.6-35B-A3Bではクオリティーが格段に上がっています。

ただし、ウィリソン氏はこの結果について「Qwen3.6-35B-A3BがClaude Opus 4.7より総合的に優れていることを示すものではなく、自転車に乗ったペリカンを描くテストが有用なベンチマークとしての限界を超えたことを示しているのだと思う」と補足しています。
・関連記事
「Gemini 3.1 Pro」が登場、Gemini 3 Proと比べて推論性能が2倍でOpenAIやAnthropicのモデルを上回る - GIGAZINE
2025年11月リリースのAIモデル「GPT-5.1」と「Opus 4.5」がコーディングの転換点、ソフトウェアエンジニアリングを永遠に変えた - GIGAZINE
中国製AIモデル「GLM-5.1」が無料公開される、一部のテストでClaude Opus 4.6を打ち負かし数時間のエージェントタスクで威力を発揮 - GIGAZINE
Gemma4より高性能な中華AI「Qwen3.6-35B-A3B」がオープンモデルとして公開される - GIGAZINE
・関連コンテンツ
in AI, Posted by log1b_ok
You can read the machine translated English article This is what happens when you have the G….






