2023年07月16日 15時00分ソフトウェア

ジェネレーティブAIが抱える問題を浮き彫りにする「1本のバナナ問題」とは？

Stable DiffusionやChatGPTなどのジェネレーティブAIが登場したことによって、誰でも簡単に文章や画像を作成できるようになりました。IT系ニュースサイト・Digital Scienceのダニエル・フックCEOが、画像生成AIを使用した時に遭遇した「1本のバナナ問題」から、ジェネレーティブAIが抱える問題に言及しています。

The Lone Banana Problem. Or, the new programming: “speaking” AI - TL;DR - Digital Science
https://www.digital-science.com/tldr/article/the-lone-banana-problem-or-the-new-programming-speaking-ai/

バナナが好物だというフック氏は、以前から友人と「バナナのブランディングにもっとバナナを活用すべきだ」と冗談っぽく話していたとのこと。そして、自動生成AIのMidjourneyが登場したタイミングで「理想的なバナナの画像を生成する絶好の機会じゃないか？」と考えたそうです。

フック氏はMidjourneyで「A single banana casting a shadow on a grey background(灰色の背景に影を落としている1本のバナナ)」というプロンプトで、画像を生成しました。その結果が以下の4枚の画像。

画像を見ると、確かに「灰色の背景に影を落としている」という点は反映されており、実写と見間違える精度でバナナが描かれています。しかし、バナナは2本1セットで描かれており、1本ではありません。そこで、フック氏は「a perfect ripe banana on a pure grey background casting a light shadow, hyperrealistic(純粋に灰色の背景に完熟したバナナが薄い影を落としている、超現実的に)」「a single perfect ripe banana alone on a pure grey background casting a light shadow, hyperrealistic photographic(純粋に灰色の背景に完熟した1本だけのバナナが光の影を落としている、超現実的な写真っぽく)」など、プロンプトを変えて生成したそうですが、結局バナナが1本だけ描かれた写真は生成されなかったとのこと。

どうしてもバナナ1本の画像を生成したかったフック氏はプログラミングに詳しい友人に相談しました。すると、「バナナを持っている猿」を出力して、なおかつプロンプトで猿を透明にするように指定すれば可能ではないかと提案されたとのこと。そこで、実際にその通りに指定して出力した結果が以下。

本来であれば見えなくなるはずの猿はばっちり生成されており、なぜか恥ずかしそうにバナナを抱えてるだけ。しかも抱えているバナナは1本ではなく2本でした。その後、フック氏が何度試しても、バナナは必ず2本以上描かれたそうです。

「写真の中に写るバナナは2本である」というバイアスは、AIが持つ小さなバイアスの一例である、とフック氏。Midjourneyなどの画像生成AIが学習するために用いるデータセットにはバナナが写った画像が含まれ、そこには「バナナ」とラベル付けされています。しかし、たとえ「バナナ」とラベル付けされていても、「○本のバナナ」とはラベル付けされていない可能性が高く、バナナを見たことがないMidjourneyがバナナの姿形を学習しても、バナナの本数は学習できないことになります。

フック氏は「ジェネレーティブAIの問題のひとつとして、AIの内部で何が起こっているかを理解することはほとんど不可能ということです。TCAVのように、より深く洞察しようとするアプローチもありますが、人間の脳と同様に深層学習アルゴリズムの内部で起こっているプロセスを完全に理解することはできません」と述べています。

AIの技術は急速に発展しており、その成果には目を見張るものがありますが、それでもまだ現実とは少なからずギャップが存在しているとフック氏は指摘しています。人間のスキルは常識や文脈、そして周囲を取り巻く物理的な現実世界によって補強されていますが、AIにそういった機能はなく、人間が学習用に用意したデータセット以上の能力を発揮できません。

もちろんこの考え方は、「人間の知性とは、物理的な現実世界と密接に関わる中でのパターンマッチングの結果に過ぎないのではないか」という、人間にとってあまり好ましくない疑問を生みます。フック氏は「人間の想像力には限界があります。そして、おそらく年齢とともに多くの経験に触れるにつれて、より想像力は制限されるように思います」と述べ、人間が認識して処理できるデータの量には限界があるとしています。これと同様に、AIの創造性にも想像力の限界があるとフック氏は主張しています。

フック氏は「ChatGPTやMidjourneyなどのジェネレーティブAIの出力結果はまるで現実を理解しているような印象を与えますが、物理的な世界の感覚を有していないため、バナナ1本という概念を持っていません。現代の開発レベルでは、AIは私たち人間と同じように物体を認識しません。AIは物理的な世界ではなく、論理の世界に生まれているのです」と述べました。

なお、フック氏が1本のバナナの画像を出力するチャレンジを2週間続けた結果、「A single banana on its own casting a shadow on a grey background(灰色の背景に影を落とす1本のバナナ)」というプロンプトで、ようやく以下の画像を出力することに成功したとのこと。しかし、その成功したプロンプトをもう一度Midjourneyに入力しても、やはり2本のバナナが出力されたり、1本のバナナが2本に割れようとしている画像が出力されたりすることがあったそうです。