取材

「画像検索はここまで来たのか」とすさまじさを実感するAdobeのAI「Adobe Sensei」の秘密を開発者が解説


近年はソフトウェア開発の場の多くで人工知能(AI)が利用されており、その活用の場は1日1000個のA/Bテストを行う「Booking.com」や配車アプリLyftのマーケティングを自動化までさまざまです。Photoshopの開発元であるAdobeのAI「Adobe Sensei」も機械学習を利用していますが、「他とは違う独特のデータ」を持っているがゆえに、画像検索や動画編集などのレベルがすさまじいことになっています。

Adobe Sensei
https://www.adobe.com/jp/sensei.html

左側の男性がAdobe Senseiのエンジニアリング担当ヴァイスプレジデントであるスコット・プレボスト氏で、右側の男性がアメリカPRチームのクレッグ・カリーカ氏。


Adobe Senseiは、いわゆる「一般的なAI」とは目的が異なります。Adobeは画像・映像の処理という専門分野については何十年もの経験を持っており、Adobe Senseiはこの「専門分野」に特化したAIです。

「どんなAIモデルでも、具体的なユースケースを念頭に置かなければなりません」と語るプレボスト氏。Adobeはこれまでの経験から、他の企業が持たない、「人がどのように作品を作っているのか」というユニークなデータを持っています。他企業は「結果」としての画像データを持っているかもしれませんが、Adobeは「過程」がどのように行われているというデータを持っているため、他の企業が行えない形でAIを訓練することが可能だそうです。


「十分に発達した科学技術は、魔法と見分けがつかない」とSF作家のアーサー・C・クラークは語りましたが、専門分野に特化したAdobe Senseiの技術はもはや「ハリー・ポッターの魔法のようだ」とプレボスト氏は述べました。

Adobe SenseiはAdobe製ソフトウェアにおけるAIの総称であり、大きく分けると「クリエイティブ・インテリジェンス」「コンテンツ・インテリジェンス」「エクスペリエンス・インテリジェンス」という3つの分野で活躍しています。


「クリエイティブ・インテリジェンス」はクリエイティビティの支援を行うことを目的としています。これまでの調査から、人がクリエイティブな作業を行う時間の半分は、実はノンクリエイティブなタスクに費やされていることが示されました。この「ノンクリエイティブなタスク」にあたる重複作業や単純作業などを手伝うのがクリエイティブ・インテリジェンスにあたるわけです。

また「コンテンツ・インテリジェンス」はコンテンツを概念レベルで深く理解し、タグ付け、評価、アセットへの追加などを自動的に行います。そして3つ目の「エクスペリエンス・インテリジェンス」は顧客体験のパーソナライゼーションを最適化するもの。マーケティング施策が目標の達成にどのように貢献しているかを見極め、顧客体験の質を向上させるとのこと。

Adobe Senseiの技術は何十ものAdobeのソフトウェアに搭載されています。例えば画像編集ソフト「Photoshop」で採用されている「コンテンツに応じた塗りつぶし」、ストックフォトサービス「Adobe Stock」に搭載されている「絞り込みフィルター」、動画編集ソフト「Adobe Premiere Pro CC」の「オートリフレーム」などがAIを組み込まれている機能の代表例です。


これまでAdobeはイメージ(画像)AIに注力してきましたが、近年はビデオ(動画)AIに注力しています。特にプレボスト氏らが多くの時間を割いたのは、Adobe Premiere Pro CCにおけるオートリフレーム機能。16:9前提で作ったコンテンツを正方形や縦長の映像に編集するとき、単純に中央を切り取ると被写体の映り込みが不自然になってしまいますが、オートリフレームは動く被写体を検知し、自然な形でリフレームしてくれるというもの。たとえば以下の横長画像の場合、まずは女性の周囲だけを切り取って縦長の画像にしています。


女性が画面からフレームアウトすると、今度は駆け回る犬を追跡して画面を切り取ります。


犬の動きとともに画面のうち切り取るところが変化します。


またコンテンツに応じた塗りつぶしが動画編集でも利用できるようになりました。1つ1つのフレームを手動で編集すると膨大な時間がかかりますが、コンテンツに応じた塗りつぶしを使うと、不要な部分をフレームから削除し……


塗りつぶしレイヤーを追加することで、あっという間に不要なものを消すことができました。このような、クリエティブな作業の中にある「時間がかかるつまらない、重複的なタスク」をボタン1つで瞬時に解決してくれるのが、Adobe Senseiの「クリエイティブ・インテリジェンス」というわけです。ノンクリエイティブな作業にあてる時間を短縮することで、より多くの時間を、クリエイティビティを要するタスクに割けるようになるとのこと。


さらに、Adobe Stockでも機械学習が使用されています。以下の画像に写る「Auto Tagging」という画面はAdobeの製品ではなく、自動タグ付けがどのように行われているのかを可視化したもの。


Adobe Stockでは1億点を超える素材が利用可能ですが、利用には「検索」というプロセスが必要です。このため、素材となる画像には検索キーワードをタグ付けする必要があります。そして、このような「自動タグ付け」を行うには、前提として、ソフトウェアが4万以上もあるコンセプトを理解することが必要です。

例えば、野球のグローブ、バット、ボールが写っている写真をアップロードすると、すぐさま「Tagging」の下に「baseball:98.74%」「ボール:86.87%」「globe:79.12%」などが表示されました。このほか、スポーツ・プレイ・夏・チームといった、オブジェクト以外の高度な「コンセプト」も理解し、タグ付けが行われていることがわかります。


さらに「Aesthetic」(美的感覚)の分析では、要素のバランス、色の調和、コンテンツ、被写界深度、ライト、三分割法、シンメトリーといったものも数値化されています。AIは写っているオブジェクトだけでなくコンテンツの内容やスタイルを理解しているわけです。


Adobe Stockではこれらの分析結果を利用。実際のAdobe Stockでチューリップを検索すると、こんな感じで検索結果が表示されますが……


より細かな条件付けをして検索を行うことが可能。パネルから画像の向き、被写界深度、彩度、人物を含めるかどうかなどが選べます。


被写界深度を指定し、よりボケの多い画像だけを検索結果に並べるとこんな感じ。機械学習がなければこのような技術は実現できませんでした。


夕焼けの写真も……


よりビビッドな色合いなものや、逆に柔らかな色合いなものなど、細かく指定できます。


さらに、人物が教科書を使ってる画像を素材として使いたいときに、「教室」「教師」で検索すると、このような感じに。しかし、これらはイメージ画像としては使えますが、余白が少ないため素材としては使いづらいもの。


そこで「Copy Space」を使って検索すると、このようにテキストを入れる余白のある画像が検索結果に表示されます。Adobe Senseiは、データにラベルをつけて学習させる「教師あり学習」の訓練により、「テキスト用のスペースがある画像とはどのようなものか」を理解させられています。


また、類似画像の検索では、さまざまな「類似性」を認識できるようにしています。一言で「類似性」といっても、人によっては構図の類似性が大切だったり、色の類似性が大切だったりします。たとえば、ガゼルの画像を「色の類似性」に基づいて検索するとこんな感じ。


構図の類似性を選択すると、色はさまざまですが、1匹のガゼルが画面の真ん中にいる画像がずらっと並びます。


さらに、同じ構図のまま、被写体をガゼルから「シカ」に変更することも可能。


ちょっと分かりづらいですが、プレボスト氏とカリーカ氏の背後にあるスクリーンには、黄色と水色の鮮やかな家の写真が並んでいます。


ここから色だけを抽出し、「ocean sunset」(海 日没)というキーワードで、同じ色合いのサンセット画像を見つけ出すことも可能。このように、さまざまな類似性をもって、パワフルな画像検索が可能になります。


さらに、テントが写った画像が欲しい時に、構図を細かく指定することも可能。画面左側のスペースで、テントの大きさや位置を調整すれば、その通りの画像が検索結果に表れます。例えば、以下の画像では、画面の右下にテントがやや小さめに写った画像を指定しています。


画面の左下にテントが写る画像が欲しい時はドラッグ&ドロップで動かすだけでOK。


さらに、画面を占めるテントのサイズを変更することも可能。リアルタイムで、より細かい部分まで指定して、画像を絞り込むことが可能になります。


上記のような形でAdobe製品の多くにAdobe Senseiが利用されているわけですが、Adobe Senseiをどのように使っていくかは、プロダクトチームと応用リサーチチームの双方のアプローチがあるとのこと。いずれのスタッフもそれぞれの知見に基づいたアイデアを持っています。会社としてしっかりとした枠組みを作ることで、みんながコラボレーションを行える場所を作成し、開発からリリースまで、テクノロジーのサイクルをうまく回せるようにしているとプレボスト氏は語りました。

この記事のタイトルとURLをコピーする

・関連記事
全世界から1万5000人以上が集まる「つくる人」のお祭り「Adobe MAX 2019」イベントまとめ - GIGAZINE

「AI」と「機械学習」は何がどのように違うのか?をわかりやすく解説するとこうなる - GIGAZINE

ディープラーニングで翻訳プログラムを0から作った人がその仕組みを複雑な数式ではなく図で解説するとこうなる - GIGAZINE

初心者向け「機械学習とディープラーニングの違い」をシンプルに解説 - GIGAZINE

成功した機械学習モデル150個を分析してわかったことまとめ、Booking.comの場合 - GIGAZINE

研究者でない一般人がAIについて本当に考えるべきこととは? - GIGAZINE

in 取材,   インタビュー,   ソフトウェア, Posted by logq_fa

You can read the machine translated English article here.