2020年06月18日 15時00分サイエンス

「あまりにも危険過ぎる」と危険視された文章生成ツール「GPT-2」の技術で画像を自動で生成することに成功

人工知能を研究する非営利組織のOpenAIが開発したAIによる文章生成ツール「GPT-2」は高精度の文章が自動生成できるため、開発陣が「あまりにも危険過ぎる」と危惧して論文公開を延期する事態に発展しました。このGPT-2のトレーニングに使用されるアーキテクチャを直接適用し、自動で画像を生成する技術が開発されています。

Image GPT
https://openai.com/blog/image-gpt/

ある領域で学習させたモデルを、ほかの領域に転用する技術を転移学習(トランスファーラーニング)と呼びますが、GPT-2はこの転移学習モデルによって大きな成功を得ました。人間が関わらない教師なし学習は、GPT-2の他にも、Googleの「BERT」やFacebookの「RoBERTa」などで、目覚ましい進歩を遂げています。一方、自然言語の分野では転移学習モデルの成功は目覚ましいものの、これまで画像において教師なし・転移学習モデルで強力な機能は生成されてきませんでした。

そこで、OpenAIは新たに「GPT-2と同じ転移学習モデルで、サンプルと完成品で画像に一貫性を持つよう、ピクセルシークエンスを訓練する」という試みを行いました。

これにより、人間が「半分の画像」を与えるだけで、モデルが画像を完成させる技術が開発されたとのこと。以下の画像は、左端が入力画像、右端がオリジナル画像、真ん中4つがモデルの生成した画像となっています。なお、左から2列目の画像は、研究者が選んだ「お気に入り」となっています。

このほか、モデルが生成した画像はこんな感じ。うまくいった画像生成だけを取り上げているわけでなく、全てにおいてこのレベルの画像が作成されています。

OpenAIは7600万のパラメーターを持つ「iGPT-S」、4億5500万のパラメータを持つ「iGPT-M」、14億のパラメータを持つ「iGPT-L」という3つのバージョンのGPT-2モデルをImageNetで訓練。また同時に、68億のパラメータを持つ「iGPT-XL」を、ImageNetとインターネット上の画像を使って訓練しました。すると、それぞれのモデルは画像の解像度を減らし、ピクセルを表現する9ビットの独自パレットを作って、正確性を損なわせることなく標準的なRGBスペクトル標準よりも3倍短い入力シークエンスを生成しました。

OpenAIによると、生成される画像の質は深度が増すと共に急激に上がり、その後、緩やかに落ちていったとのこと。これは、転移学習モデルが「画像の特徴を作り出すために環境から情報を集める」というフェーズと、「文脈にあう特徴が次のピクセルの予測に使われる」という2つのフェーズによって構成されているためだと研究者は説明しています。

またモデルの規模を拡大してより多くの反復訓練を行うことで画像の質は向上し、他の教師ありモデル・教師なしモデルよりもベンチマークでいい結果を出すことも示されています。