GPT-4oやGoogle Geminiに「自転車に乗ったペリカン」をSVG形式で描かせるベンチマークを試すとこんな感じ
OpenAIやGoogle、Anthropic、Metaなど、さまざまな企業が大規模言語モデルを開発しており、各社の開発するモデルの性能差はベンチマークを使って比較されます。エンジニアのサイモン・ウィリソン氏が、「自転車に乗ったペリカン」を描かせるという独自のベンチマークを考案したと報告しています。
Pelicans on a bicycle
https://simonwillison.net/2024/Oct/25/pelicans-on-a-bicycle/
pelican-bicycle/README.md at main · simonw/pelican-bicycle · GitHub
https://github.com/simonw/pelican-bicycle/blob/main/README.md
ウィリソン氏は自転車に乗ったペリカンをベンチマークとして描かせる理由として、「ペリカンが好きだから」「自転車に乗ったペリカンのSVGファイルはおそらくまだ出回っておらず、トレーニングデータに取り込まれている可能性がほぼないと確信できるから」と述べています。
ベンチマークはシンプルで、「Generate an SVG of a pelican riding a bicycle(自転車に乗っているペリカンをSVG形式で生成してください)」というプロンプトを入力するだけ。
以下は実際にウィリソン氏がAnthropicのClaude 3.5 Sonnetに入力して得られた、自転車に乗っているペリカンの画像。左は2024年6月20日、右は2024年10月22日に出力したものです。
GoogleのGemini 1.5 Flash 001(左)とGemini 1.5 Flash 002(右)
GPT-4o mini(左)とGPT-4o(右)
OpenAIのo1-mini(左)とo1-preview(右)
Cerebras Llama 3.1の70Bモデル(左)と8Bモデル(右)
Amazon NovaのMicroモデル(左)・Liteモデル(中)・Proモデル(右)
また、ウィリソン氏はGoogleの動画生成AIであるVeo 2で「自転車に乗ったペリカン」の動画を生成した結果をX(旧Twitter)にポストしています。これまでの大規模言語モデルはSVG形式で出力するように命令されていたために幾何学的なデザインとなっていましたが、Veo 2の場合はほとんど実写にしか見えないレベルの動画が生成されています。
Veo 2 did pretty well at "A pelican riding a bicycle along a coastal path overlooking a harbor" - two of these videos have the pelican actually cycling! https://t.co/h9BaOWKbsa pic.twitter.com/Bx1ThtiHzn
— Simon Willison (@simonw) December 16, 2024
・関連記事
OpenAIが「OpenAI o1のAPIリリース」「音声会話APIの値下げ」「JavaとGoのライブラリ公開」など新情報を大量公開 - GIGAZINE
Microsoftが軽量なのにGPT-4oを圧倒的に上回る数学性能を発揮するAIモデル「Phi-4」をリリース - GIGAZINE
Googleが「Gemini 2.0」を発表、高速な軽量モデルで前世代上位モデルを圧倒的に上回る性能 - GIGAZINE
科学論文の調査に特化したAIモデル「OpenScholar」がベンチマークでGPT-4oを上回る、科学研究の大幅な効率化に期待 - GIGAZINE
NVIDIA B200とGoogle TrilliumがMLPerfベンチマークチャートに出現、B200はH100と比較し2倍のパフォーマンス - GIGAZINE
オープンソースのコーディング支援AI「Qwen2.5-Coder」シリーズの性能はGPT-4oに匹敵、64GBのRAM&M2搭載MacBook Proでもローカル実行可能 - GIGAZINE
・関連コンテンツ