サイエンス

「あまりにも危険過ぎる」と危険視された文章生成ツール「GPT-2」の技術で画像を自動で生成することに成功


人工知能を研究する非営利組織のOpenAIが開発したAIによる文章生成ツール「GPT-2」は高精度の文章が自動生成できるため、開発陣が「あまりにも危険過ぎる」と危惧して論文公開を延期する事態に発展しました。このGPT-2のトレーニングに使用されるアーキテクチャを直接適用し、自動で画像を生成する技術が開発されています。

Image GPT
https://openai.com/blog/image-gpt/

ある領域で学習させたモデルを、ほかの領域に転用する技術を転移学習(トランスファーラーニング)と呼びますが、GPT-2はこの転移学習モデルによって大きな成功を得ました。人間が関わらない教師なし学習は、GPT-2の他にも、Googleの「BERT」やFacebookの「RoBERTa」などで、目覚ましい進歩を遂げています。一方、自然言語の分野では転移学習モデルの成功は目覚ましいものの、これまで画像において教師なし・転移学習モデルで強力な機能は生成されてきませんでした。

そこで、OpenAIは新たに「GPT-2と同じ転移学習モデルで、サンプルと完成品で画像に一貫性を持つよう、ピクセルシークエンスを訓練する」という試みを行いました。

これにより、人間が「半分の画像」を与えるだけで、モデルが画像を完成させる技術が開発されたとのこと。以下の画像は、左端が入力画像、右端がオリジナル画像、真ん中4つがモデルの生成した画像となっています。なお、左から2列目の画像は、研究者が選んだ「お気に入り」となっています。


このほか、モデルが生成した画像はこんな感じ。うまくいった画像生成だけを取り上げているわけでなく、全てにおいてこのレベルの画像が作成されています。


OpenAIは7600万のパラメーターを持つ「iGPT-S」、4億5500万のパラメータを持つ「iGPT-M」、14億のパラメータを持つ「iGPT-L」という3つのバージョンのGPT-2モデルをImageNetで訓練。また同時に、68億のパラメータを持つ「iGPT-XL」を、ImageNetとインターネット上の画像を使って訓練しました。すると、それぞれのモデルは画像の解像度を減らし、ピクセルを表現する9ビットの独自パレットを作って、正確性を損なわせることなく標準的なRGBスペクトル標準よりも3倍短い入力シークエンスを生成しました。

OpenAIによると、生成される画像の質は深度が増すと共に急激に上がり、その後、緩やかに落ちていったとのこと。これは、転移学習モデルが「画像の特徴を作り出すために環境から情報を集める」というフェーズと、「文脈にあう特徴が次のピクセルの予測に使われる」という2つのフェーズによって構成されているためだと研究者は説明しています。

またモデルの規模を拡大してより多くの反復訓練を行うことで画像の質は向上し、他の教師ありモデル・教師なしモデルよりもベンチマークでいい結果を出すことも示されています。


ただし、このiGPTモデルは「低画質の画像生成となる」「訓練データの偏見を受けつぐ」といった点に制限があり、あくまで概念実証のデモとして機能するに留まるとのこと。一方で、研究結果は「コンピュータービジョン」と「言語理解技術」の間にあるギャップを埋める「小さいが重要な一歩」だと研究者は述べました。

この記事のタイトルとURLをコピーする

・関連記事
1枚の写真から「存在しないそっくりさん」をAIが自動的に作り出してくれる「Artbreeder」を使ってみた - GIGAZINE

画像から簡単に精巧な3D写真が作成できる論文が公開される、実際に3D写真を生成することも可能 - GIGAZINE

この世界に存在しない人物の画像をワンタッチで簡単に生成できる「This person does not exist」 - GIGAZINE

「声」から話者の顔画像を生成するAIが開発される - GIGAZINE

AIが自分好みのアニメ美少女を自動生成してくれる「Waifu Labs」で「俺の嫁」を作ってみた - GIGAZINE

落書きをリアルな風景写真にリアルタイムで変換できる驚異的なお絵かき技術「GauGAN」をNVIDIAが発表 - GIGAZINE

in ソフトウェア,   サイエンス, Posted by darkhorse_log

You can read the machine translated English article here.