アート

なぜAIは「手」を描くことを苦手としているのかをアートと工学の専門家が解説


カリフォルニアのスタートアップであるStability AIによる「Stable Diffusion」や、Discordのコマンドを利用する「Midjourney」、アニメなどのイラストに特化した「NovelAI」のほか、Adobeが発表した著作権的にクリアな「Adobe Firefly」など、さまざまな画像生成AIが普及しています。画像生成AIはプロンプトを入力するだけでかなりリアルな人物や高クオリティなキャラクターイラストを生成できますが、AIが苦手としている表現やパーツもあり、中でも「人間の手」を描くのに失敗するケースが多くなっています。なぜAIは手を正しく描くことが得意ではないのかというメカニズムを、オンラインメディアのVoxが解説しています。

Why AI art struggles with hands - YouTube


画像生成AIによる人物やキャラクターはかなり高クオリティになっており、顔写真が「実在する本物の人間」か「AIが生成した偽物」かを当てる「Which Face is Real?」といったサイトや、イラストの作者が人間なのかAIなのか当てるクイズ「Human or AI」なども公開されています。人間の画像は「瞳孔の形」で区別できるという研究結果や、AIのイラストは前後関係のほかデフォルメ描写が苦手という指摘もありますが、人間の画像とイラストのキャラクターで共通して、AIは「手」を描くのが苦手だとしばしば指摘されています。

イラストの作者が人間かAIか当てる激ムズクイズが登場、画像生成AI熟練編集部員による見分けポイントとは? - GIGAZINE


Voxによると、画像生成AIが手の表現に失敗するという事実は、AIアートがどのように機能するかということを教えてくれるとのこと。


アーティストで美術教師も務めるスタン・プロコペンコ氏は、アーティストになるための訓練として「パターン認識」が大事だと指摘しています。たくさんの手の形や動きを観察するだけではなく、私たちは自分や誰かの手を認識して生きてきたことで、手がどのようなものかを理解することができます。


パターンを学習するという意味ではAIも同様ですが、AIのトレーニングでは言うなれば「博物館に捕らえられたまま、写真もしくは絵とそれに付随するプラカードだけを見ている」ような状態となっています。


例えば、リンゴを詳しく観察したい場合は、手に持って回転させながらじっくりと見るのが望ましいです。


しかし、AIが見るのはリンゴの写真と「茶色のテーブルの上にあるリンゴ」という説明文だけです。


また、観察した物の学び方も人間とAIとで大きく異なっています。人間のアーティストは一般的に、トレーニングを始めると何かしらのルールを理解しようとし、手のような複雑なものを描く時には、基本的な形に単純化する傾向があります。


手のひらと手の甲を厚みのある四角形のように考えそこに手の形と指の位置を配置する、というように形を単純化して捉えた後に、質感やディティールを追加していって、高クオリティの絵にしていくことができます。


一方でAIは、以下の画像のように基本的な形をかなり奇妙に作ってしまいます。しかし、拡大して見た時に光や肌の質感などはかなり細かく描かれています。


AIはピクセル単位でのパターンは理解しやすいため、色味や質感といった要素はかなり再現できますが、見えている物がどのように機能するかは理解していないため、「指はそのように曲がらない」というようなことは学ぶことができていません。


要するに、AIはキャンバスの中の手を観察し続けているため、手のピクセル単位の配置を理解することはできても、手がどのように動くかは理解できないというわけ。


「AIは人間ではないから手を描くことができない」と結論付けることができますが、しかし、AIは建築について何も理解できていないにもかかわらず、立派な高層ビルを建造することはできます。


画像生成AIの学習モデルについてさらによく理解するために、Voxはマサチューセッツ工科大学(MIT)でロボット工学を研究する大学院生であるイルン・ドゥ氏と、MITの主席研究員であり2018年からジェネレーティブアートについて教えているロイ・シルクロット氏に話を聞いています。結果として、画像生成AIにとって手を描くことが難しい「大きな3つの理由」を発見したとVoxは語っています。


VoxはAIが抱える3つの問題点として、「データのサイズと品質」、「人の手の動き」、「エラーの許容値の低さ」を挙げています。「データのサイズと品質」は、単純に人の顔よりも手の方が学習できる写真や絵の量が多くないという点にあります。


また、スケッチの参考などを目的とした手のデータセットを公開しているサイトもありますが、これらは画像生成AIをトレーニングするために作られていないため、手の写真や絵に「どのような形で、どのような動きをする手か」といった注釈が付いていない場合が多くなっています。


シルクロット氏によると、「傘を持っている人」を学習する際に、「人が傘を持っている」という以上の手がかりを機械に与えることはほとんどないそうです。しかし実際には、「親指が傘の持ち手の一方から出ている」「持ち手を持つ指は折り曲げている」「親指が人さし指を覆っている」という細かい動きがあります。


人なら誰しも自然と理解している傘の持ち方を、大まかな情報でしか理解できない結果、AIは傘と手が結合したような画像を生成してしまいます。


2つ目の「人の手の動き」については、手が顔よりもかなり複雑な動きをすることが原因として挙げられています。ポートレート写真における顔の場合は「一般的な状態」というものが大まかにあり、どのあたりに目があって、それぞれのパーツがどのような距離で配置されていて、というルールもある程度定まっています。しかし手は表と裏、それぞれの指の動きなど、簡単なルールがない点をドゥ氏は指摘しています。


プロコペンコ氏も同様の複雑さを指摘しており、手の動きや向きによっては「指が何本見えているか」ということが変化しますが、AIは「手の指は5本ある」ということを理解していないため、見たままの本数を学習してしまいます。同じことは「走っている馬の足」のようなケースでも起こっており、素早い動きにより5本以上に見えていたり、重なって3本以下に見えていたりすることで、AIは馬の足の本数を誤解してしまいます。


AIが見たままの状態で認識してしまうことを、ドゥ氏は「AIは私たちほど偏見を持っていません」と表現しています。これはAIが手を苦手とする3つ目の理由である「エラーの許容値の低さ」にも関連しています。以下の画像は「リンゴを持つ男」をMidjourneyで作成したもので、4つの画像はそれぞれ、男性の口元や着ている服、リンゴの見た目が異なっています。この時、男性の顔の印象や服、リンゴの質感が想定しているものと完全一致していない場合は違和感が生まれることもなく許容されるとしても、手の見た目がわずかに違っていた場合、私たちはそれを「絶対にあり得ない形」として認識してしまうとVoxは指摘しています。


このようなAIの苦手を解決するために、大きく分けて2種類のトレーニングが考えられます。シルクロット氏はより大量の写真をAIに学習させることで、ある程度の解決が見込めると述べている一方で、そのためには大量の画像処理とモデルの再トレーニングに用いる膨大なリソースが必要だと語っています。またドゥ氏は、「ユーザーがAIによる回答の良しあしを評価する」というフィードバックをChatGPTが行っているように、AIによって生成された画像を大量のユーザーがランク付けし続けることで、学習データにラベル付けしていくことができると話しています。

この記事のタイトルとURLをコピーする

・関連記事
現実の人間とAI製の顔画像を見抜けるかどうかテストする「Which Face is Real?」レビュー - GIGAZINE

イラストの作者が人間かAIか当てる激ムズクイズが登場、画像生成AI熟練編集部員による見分けポイントとは? - GIGAZINE

AIによって生成された人間の画像は「瞳孔の形」で区別できる - GIGAZINE

ジェネレーティブAIの「Adobe Firefly」では「マリオ」「ピカチュウ」などの著作権で保護されたコンテンツが回避されるというのがよく分かる「Midjourney」との比較画像 - GIGAZINE

AI成果物が急増したことで「AI生成コンテンツをAIが学習するループ」が発生し「モデルの崩壊」が起きつつあると研究者が警告 - GIGAZINE

コンピューターはアルゴリズムで「クリエイティブな芸術作品」を見分けて格付けできるのか? - GIGAZINE

in ソフトウェア,   ネットサービス,   動画,   アート, Posted by log1e_dh

You can read the machine translated English article Art and engineering experts explain why ….