2024年03月24日 21時00分ソフトウェア

画像生成AIで「文字の出力」が難しいのは「外国人の謎漢字タトゥー」と似た原因という指摘

Stable DiffusionやDALL-E 3などの画像生成AIを使っていると「文字の代わりに謎の模様が出力される」「短い単語なのにスペルが違う」といった問題に遭遇しがちです。画像生成AIが「文字の出力」を苦手とする理由について、ソーシャルニュースサイトのHacker Newsで激論が交わされています。

Ask HN: Why can't image generation models spell? | Hacker News
https://news.ycombinator.com/item?id=39727376

画像生成AIで文字を含む画像を生成する例が以下。DALL-E 3を搭載した「Image Creator」で「『ラーメンファンタジー』という店名が記されたラーメン屋の外観写真」というプロンプトで画像を生成した結果、「ラーメンファンタジー」という語句は出力されず、「RAIMEN」という誤ったスペルの単語や謎の漢字風模様が出力されました。

日本語の文字は英語に変換されて処理されているようなので、英単語を含む画像を生成するようにプロンプトを「『Ramen Eater』という店名が記されたラーメン屋の外観写真」へ変更して生成した結果が以下。「Eater」が「EEATER」になってしまいました。

画像生成AIで文章をうまく出力できないという問題は世界中のユーザーを悩ませているようで、ソーシャルニュースサイトのHacker Newsには「息子の名前を含む画像を生成したいのに、スペルの誤った画像が生成されます。たった5文字の名前なのに。どうして画像生成AIはスペルミスするのですか？」という質問が投稿されて多くのコメントを集めています。

AIに詳しいグワーン・ブランウェン氏はAIが文字生成を苦手とする現象「多くの画像生成AIモデルがテキストを十分に学習できていないため」「プロンプトをトークン化する際に文字の出力を考慮していないため」といった理由を挙げています。

また、barkingcat氏は「画像生成AIの学習データにテキスト情報が十分に含まれていない」という状況を、「日本語をまったく知らない英語アーティストが漢字を含むタトゥーを掘る場合、漢字の形は知っていても漢字の書き方はしらないため笑えるタトゥーが出来上がる」という例を示して説明しています。

by Pablo Manriquez

なお、「文章をうまく出力できない」という問題は画像生成AIモデルの開発者も認識しており、生成精度を高めるための研究開発が進んでいます。例えば、2024年2月に発表された「Stable Diffusion 3」では文章を正確に出力できることがアピールされています。

高画質画像生成AI「Stable Diffusion 3」発表、画像生成AIが苦手とする「指定した文字の描写」「複数の被写体の描写」などを高精度に実現可能 - GIGAZINE