2018年01月19日 13時00分ソフトウェア

Microsoftがテキストから本物と見間違うレベルの架空のイメージを自動生成する新AI技術「AttnGAN」を開発

Microsoftが文章からイメージを自動生成できるAI技術を開発しました。「黄色い体で、黒い翼を持ち、短いくちばしの鳥」と入力すれば、まるで実在する鳥であるかのような自然な画像を自動生成できます。

[1711.10485] AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks
https://arxiv.org/abs/1711.10485

Microsoft researchers build an AI that draws what you tell it to
https://blogs.microsoft.com/ai/drawing-ai/

写真や画像から説明文(キャプション)を自動生成するAIはGoogleなどによって開発されてきました。Microsoftも同様の技術を開発しており、すでにOfficeに導入されている技術もあります。

自動的に画像を分析して言葉で説明するMicrosoftの画像認知機能を体験できる「CaptionBot」 - GIGAZINE

MicrosoftのOfficeツールにAIが画像を自動で認識して説明文を作成する新機能を追加 - GIGAZINE

「イメージ→キャプション」という方向で開発されてきたAI技術に対して、新たにMicrosoft研究所が発表した技術は「キャプション→イメージ」という方向で活用されるものです。つまり、欲しいイメージの説明をテキストで入力すると、それ見合ったイメージをAIが自動生成してくれるというわけです。このAI技術を開発した研究者たちはシンプルに「drawing bot」と呼んでいるとのこと。

以下の画像生成プロセスは、「黄色い体で、黒い翼を持ち、短いくちばしの鳥」というテキストを入力してdrawing botにイメージに合った画像を生成させたもの。驚くべきことに最終的にできあがった鳥(右下)の画像は、本物の鳥の写真から選んできたものではなく、ピクセル単位で一から作り出された「コンピューターが想像する鳥を描いたもの」だとのこと。つまり、今後、「Bingでフレーズを組み合わせて検索して現れた画像イメージは、実在の鳥ではないかもしれない」ということが起こりえると、Microsoft研究所ディープラーニング技術センターの主任研究者のXiaodong He氏は述べています。

従来の「イメージ→キャプション」のAI技術は、数ある特徴の中から確実な情報を厳選してくれば良いのに対して、「キャプション→イメージ」のAI技術であるdrawing botは、いくつかの情報をもとに、足りない情報を自分で補って構成し直すというプロセスを経るため、技術的な難度は格段に上がります。このdrawing botを実現するための技術の核心は、「Generative Adversarial Network」(GAN)という技術だとのこと。GANで生成されたイメージは、「discriminator」と呼ばれる品質を判断するモデルによって洗練されます。

「キャプション→イメージ」のプロセスでは、「青い鳥」や「常緑樹」というような単純なテキスト入力から画像を生成する作業はそれほど難しいものではありませんが、「黄色の羽」「赤い腹部」などの複雑な条件が加わると、文章全体を単一の情報としてとらえるため説明文の詳細情報が失われるという問題点があったとのこと。そこで、drawing botでは人間が絵を描くときに、繰り返し説明文を参考にして、イメージを表現する言葉に最新の注意を払うという行動を参考にして、「注意」の概念を数学的に表現する「AttnGAN」と呼ばれるパラメータを作成しました。これにより、入力されたテキストを個々の単語に分割し、画像の詳細な内容を構築していきます。

さらにAttnGANでは、人間が持つ「常識」の概念を機械学習によってAIに学ばせています。ここではイメージとキャプションのペアについて機械学習のトレーニングが行われるのですが、鳥の画像の多くは「木の枝にとまっている」ことから、「鳥」が属する「常識」について学ぶとのこと。

以上のようにdrawing botでは、「注意」と「常識」の2つの機械学習プロセスを組み合わせたAttnGANによって説明文にあったイメージを生成し、生成されたイメージの品質を判断するモデル「discriminator」にかけることで、まるで本物の写真と見間違うようなクオリティの画像の生成が可能になったというわけです。なお、AttnGANで生成した画像の品質は、従来のGAN技術で作る画像品質の3倍に到達しているそうです。

「AIが作り出す人工物」としては違和感のほとんどない驚異的なレベルに到達しているdrawing botですが、Microsoftによると技術的にいくつかの小さな欠陥が見られ、まだ未完成の技術だとのこと。改良を加えることで、将来的にはスケッチの補助としたり、音声認識で作った写真を洗練させたり、人間が一切手を加えることなくテキストベースの脚本からアニメーション映画を作ったりといった用途での活用が目指されています。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2018年01月19日 13時00分00秒 in ソフトウェア, デザイン, Posted by darkhorse_log

You can read the machine translated English article here.