Appleが言語で指示するだけで写真を編集してくれる画像編集AIモデル「MGIE」をリリース、デモも公開されたので使ってみた



Appleがカリフォルニア大学サンタバーバラ校と協力し、言葉で指示するだけで写真を編集してくれるAIモデル「MGIE」をリリースしました。



MGIEはMLLM-Guided Image Editingの略称で、画像内の物体の形状を変更したり、明度を編集したりするなどさまざまな画像編集タスクを行う事が可能です。MGIEは画像と自然言語の両方を扱うマルチモーダル大規模言語モデルであり、ユーザーは自然言語で指示するだけで良いとのこと。ユーザーの入力をベースに「表現豊かな指示」を生成することで、実際に編集を行うAIが適切な画像編集を行えるようになるという仕組みです。





MGIEを使用した編集の例は下図の通り。それぞれの画像ペアにおいて左が元の画像、右がMGIEの出力結果となっています。左上のピザの例では「make it more healthy(もっとヘルシーに)」と曖昧な指示をすると「The pizza includes vegetable toppings, such as tomatoes and herbs(トマトやハーブなどの野菜がトッピングされたピザ)」という詳細な指示が生成され、野菜のトッピングが追加されました。右上の画像編集の例では「remove the woman in the background(後ろの女性を削除して)」と指示するとその通りになっています。そのほか、画像の明度を上げたり画像内のPCの表示内容を変更したりすることも可能とのこと。





従来の手法である「InsPix2Pix」「LGIE」との比較はこんな感じ。左端の「Input Image」が入力データであり、右端の「Ground Truth」は正解データとなっています。ちゃんと雷を表示したり、クリスマスツリーを消したりするなどMGIEが一番指示通りに編集できていることが一目瞭然です。





MGIEモデルはLLaVAからの差分ウェイトとして商用利用不可のCC-BY-NCライセンスで配布されています。そのため、MGIEモデルを使用するにはLLaVAのライセンスにも従う必要があるとのこと。LLaVAのトレーニングにはCLIP、LLaMA、Vicuna、GPT-4が使用されているためこれらの規約にも従う必要があります。



以下のリンク先ではMGIEのデモが公開されており、実際にMGIEを使った画像編集を試すことができます。



今回はロールケーキの写真を編集してみます。





「Input Image」の欄に画像をドラッグ&ドロップし、Instructionに「use strawberry as topping(トッピングとしてイチゴを使用)」と記入後「送信」をクリック。





使っている人数が多いと順番待ちが発生します。記事作成時には約50人が並んでおり、待機時間の目安は700秒となっていました。





しばらく待機すると下図のように出力されました。「Place a round of cake on a plate with a strawberries on top.Place the cake in the center of the plate, with the strawbiberries spread out around it.(プレートにイチゴをのせたケーキを置いて。プレートの真ん中にケーキをおいてイチゴを周りに敷いて)」という詳細な指示が生成されています。





カレーライスの写真を入力して「Add some vegetables.(野菜を追加して)」と指示したところ、ブロッコリーらしきものが追加されました。





なお、Appleは生成AI分野への注力を表明しており、2月1日に行われた2024年第1四半期決算発表では同社がAIに膨大な時間と労力を投資していることを強調しました。



