ソフトウェア

OpenAIが開発した画像認識AI「CLIP」の思考の特徴とは?


高精度な文章を生成するAI「GPT-3」や、文章から画像を生成するAI「DALL・E」などを開発している非営利団体のOpenAIが、新たに開発している画像認識AI「CLIP」の思考の特徴を解説しています。

Multimodal Neurons in Artificial Neural Networks
https://openai.com/blog/multimodal-neurons/

人間には、「女優のハル・ベリーの顔写真を見ても、ハル・ベリーのイラストを見ても、『ハル・ベリー』という文字列を見ても反応するニューロン」のように、異なる種類の情報に対して一様に反応するニューロンが存在することが知られています。OpenAIによると、CLIPは人間と同じようにさまざまな形態の情報を同じものとして扱うことができます。

人間の顔を「人間の顔」として認識する従来の画像認識モデルは、人間の顔のイラストや、テキストで「人間の顔」と書かれた文には反応しません。しかし、CLIPはスパイダーマンのコスプレ画像やイラスト、「SPIDER」という文字列を同じものとして処理することができます。


また、CLIPは、異なる画像の特徴を掛け合わせることで、画像を認識しているとのこと。例えば、「貯金箱(piggy bank)」を認識する際、CLIPは、「finance(経済)」と「人形、おもちゃ(doll,toys)」などの異なる要素を掛け合わせることで認識しています。


さらに、CLIPは要素の引き算も行っています。例えば、「驚き(surprised)」という表情は、「祝福、抱擁(celebration,hug)」「ショック(shock)」「笑顔、ニヤリ(smile,grin)」といった表情を組み合わせて認識されていますが、「親密(intimate)」という表情は、「柔らかい笑顔(soft smile」と「ハート(heart)」といった表情の組み合わせから、「病気(ilness)」の要素を引いて認識されています。


OpenAIは、CLIPの思考の弱点も解説しています。例えば、CLIPは以下のスタンダードプードルの画像を、「スタンダードプードル」と正確に認識できますが、画像の上に「$」マークを複数重ねると、貯金箱(piggy bank)と認識してしまいます。


また、「iPod」と書いた紙を貼り付けたリンゴを、「iPod」と認識してしまうこともあり、CLIPが手書き文字の認識にも優れていることが裏目に出ているとのこと。


OpenAIは、CLIPの思考を分析するのに用いたツールを公開。今後もCLIPに関する研究を進め、問題の解決に取り組むと述べています。

この記事のタイトルとURLをコピーする

・関連記事
ディープラーニングの手法「CNN」の画像識別処理がアニメーションで理解できる「CNN Explainer」 - GIGAZINE

「バイクに乗るピカチュウ」「アボカドの椅子」など言葉から自動でイラストや写真を生成するAI「DALL・E」 - GIGAZINE

「危険すぎる」と言われたAIの自動文章作成ツール「GPT-2」のモデルが新たに公開へ - GIGAZINE

OpenAIの人工知能「OpenAI Five」が人間の世界王者を撃破、誰でもオンラインでOpenAI Fiveと戦えるキャンペーンも期間限定で開催予定 - GIGAZINE

OpenAIが超高精度な言語モデル「GPT-3」用いたAIモデルをAPIとして利用可能に、Wikipediaの内容を「質問」で検索するデモムービーも - GIGAZINE

Microsoftが世界トップクラスの言語モデル「GPT-3」の独占的ライセンスを取得 - GIGAZINE

指定されたジャンルやアーティストから歌詞入りの楽曲を自動生成するAI「Jukebox」をOpenAIが開発 - GIGAZINE

「GPT-3はビットコイン以来の破壊的な可能性を秘めている」というブログ記事が大反響を呼ぶ理由とは? - GIGAZINE

in ソフトウェア,   サイエンス, Posted by log1o_hf

You can read the machine translated English article here.