2022年08月25日 19時00分ソフトウェア

文字列から画像を生成するAI「DALL・E 2」でイメージ通りの画像を生成するまで試行錯誤してみた記録

OpenAI開発の入力したテキストから画像を生成するAI「DALL・E 2」は2022年4月に研究者・専門家向けに公開され、2022年7月に一般向けに公開されました。AIプログラミングコンテスト・Coder Oneの共同創設者であるジョイ・チャン氏が、自身が出力したい画像をDALL・E2に生成してもらうまでの試行錯誤をブログで公開しています。

I spent $15 in DALL·E 2 credits creating this AI image, and here’s what I learned | by Joy Zhang | Aug, 2022 | Towards AI
https://pub.towardsai.net/i-spent-15-in-dall-e-2-credits-creating-this-ai-image-and-heres-what-i-learned-52f352912025

DALL・E 2がどういうAIなのかは以下の記事を読むとよくわかります。

入力した文字情報から画像を生み出す「DALL・E」の高解像度・低レイテンシ版「DALL・E 2」登場 - GIGAZINE

DALL・E 2は一般向けに提供が開始されていますが、記事作成時点ではクローズドベータ版として公開されており、2022年5月上旬に順番待ちリストに登録した人が順次利用可能になっています。1回の使用で3～4枚の画像が生成されますが、使用ごとに1クレジットが必要になるとのこと。このクレジットは初月に50クレジット、その後は毎月15クレジット配布され、15ドル(約2050円)で115クレジットを購入することも可能だそうです。なお、無料で誰でも利用できるDALL・E miniも公開されていますが、生成に時間がかかる上に画質も低くなります。

チャン氏はDALL・E2の仕様を知るべく、「llama playing basketball(バスケットボールをするラマ)」という文字列を入力しました。その出力結果が以下の通りで、チャン氏は「なぜこの入力に対して漫画の画像が生成されるのでしょうか。これは、トレーニング中にバスケットボールをしているラマの実写画像がないことに関係があると思います」と推察しています。

次にチャン氏は「realistic photo of(～の実写画像)」というキーワードも追加して、再度生成しました。その結果、ラマは「イラストそのもの」という感じではなくなったものの、Photoshopで切り抜いた画像のような感じになってしまいました。

もちろん何度も入力と出力を繰り返していくことも重要なのですが、DALL・E 2の使用にはクレジットが必要なので、無制限に生成できるわけではありません。そこで、チャン氏はDALL・E 2の入力文字列とその結果をまとめた以下のページを参考にしたとのこと。

The DALL·E 2 Prompt Book – DALL·Ery GALL·Ery
https://dallery.gallery/the-dalle-2-prompt-book/

このページを参考にする中で、特に効果的な文字列が「dramatic backlighting(ドラマチックな逆光)」だとチャン氏は述べています。以下の画像は「Film still of a llama dunking a basketball, low angle, extreme long shot, indoors, dramatic backlighting(バスケットボールをダンクするラマの静止画、ローアングル、極端なロングショット、屋内、ドラマチックな逆光)」で生成されたもの。Photoshopの切り抜きのようだったラマの画像に背景と逆光が足され、かなり実写に近づいたように見えます。

また、チャン氏は「DALL・E 2にはあなたの望みを正確に伝えることが重要です」と述べています。例えばラマがバスケットボール選手の服を着せたい場合は、そのように入力しなければなりません。「film still of an alpaca wearing a jersey, dunking a basketball, low angle, long shot, indoors, dramatic backlighting, high detail(ジャージを着てバスケットボールをダンクするアルパカの静止画、ローアングル、ロングショット、屋内、ドラマチックな逆光、高精度)」で出力した画像が以下。

そして、さらにラマの動きも細かく指定するとこんな感じ。この画像で入力した文字列は「film still of a llama in a jersey dunking a basketball like Michael Jordan, low angle, show from below, tilted frame, 35°, Dutch angle, extreme long shot, high detail, indoors, dramatic backlighting(ジャージを着てマイケル・ジョーダンのようにバスケットボールをダンクするラマの静止画、ローアングル、下から見る、斜めの構図、35度、ダッチアングル、極端なロングショット、高精度、屋内、ドラマチックな逆光)」です。

ここまで出力を重ねてきて、チャン氏は「DALL・E 2は構図を作り出すことが得意ではありません。『バスケットボールをダンクする』という文脈からラマとボールとゴールの相対的な位置関係をどうするべきかは(人間には)明らかだと思いますが、実際にDALL・E 2が出力した画像ではラマのダンクする方向が間違っていたり、ボールの位置がずれていたりしていました」と述べています。以下の画像は上の画像と同じ「film still of a llama in a jersey dunking a basketball like Michael Jordan, low angle, show from below, tilted frame, 35°, Dutch angle, extreme long shot, high detail, indoors, dramatic backlighting(ジャージを着てマイケル・ジョーダンのようにバスケットボールをダンクするラマの静止画、ローアングル、下から見る、斜めの構図、35度、ダッチアングル、極端なロングショット、高精度、屋内、ドラマチックな逆光)」で出力したものですが、確かにラマとボールとゴールの位置がめちゃくちゃになっています。

「極端なロングショット」や「ローアングル」はラマの全身を映すためのキーワードでしたが、この指定が完全に無視されてしまい、ラマの首から上だけが写っている画像もかなり生成されてしまったそうです。

さらに、AIが「バスケットボール」を正しく理解していないことで変な画像が生成されてしまうことも。以下の画像の左上に写っているゴールネットを見ると、なぜか毛皮製になっています。

DALL・E 2はディープフェイクの生成を回避するために、意図的にリアルな顔を生成しないように設計されているといわれており、顔がゆがんでいたりつぶされたりしたような感じに出力されます。この機能はラマにも有効なようで、かなり不気味なラマが生成された、とチャン氏。

さらに、DALL・E 2はあくまでもアルゴリズムとして文字列を認識していますが、言語そのものを理解しているわけではありません。そのため、例えばラマが着るジャージには意味のない文字列が書かれていることもあったそうです。

一方で、DALL・E 2が優れているのは「画風による画像の生成分け」だそうです。例えば「Abstract painting(抽象画)」というキーワードで出力された画像が以下。

「Vaporwave(ヴェイパーウェイヴ)」

「Screenshots from the Miyazaki anime movie(宮崎駿アニメ映画の一場面)」

そんなわけでおよそ13ドル(約1800円)分に当たる100クレジットを使って何度も出力し、チャン氏が最終的にたどり着いた画像が以下。入力した文字列は「Film still of a llama in a jersey dunking a basketball like Michael Jordan, low angle, show from below, tilted frame, 35°, Dutch angle, extreme long shot, high detail, indoors, dramatic backlighting.(ジャージを着てマイケル・ジョーダンのようにバスケットボールをダンクするラマの静止画、ローアングル、下から見る、斜めの構図、35度、ダッチアングル、極端なロングショット、高精度、屋内、ドラマチックな逆光)」です。チャン氏は「完璧な画像ではありませんが、希望の約80％は満たされました」と述べています。