2024年02月08日 13時10分レビュー

Appleが言語で指示するだけで写真を編集してくれる画像編集AIモデル「MGIE」をリリース、デモも公開されたので使ってみた

Appleがカリフォルニア大学サンタバーバラ校と協力し、言葉で指示するだけで写真を編集してくれるAIモデル「MGIE」をリリースしました。

[2309.17102] Guiding Instruction-based Image Editing via Multimodal Large Language Models
https://arxiv.org/abs/2309.17102

apple/ml-mgie
https://github.com/apple/ml-mgie

MGIEはMLLM-Guided Image Editingの略称で、画像内の物体の形状を変更したり、明度を編集したりするなどさまざまな画像編集タスクを行う事が可能です。MGIEは画像と自然言語の両方を扱うマルチモーダル大規模言語モデルであり、ユーザーは自然言語で指示するだけで良いとのこと。ユーザーの入力をベースに「表現豊かな指示」を生成することで、実際に編集を行うAIが適切な画像編集を行えるようになるという仕組みです。

MGIEを使用した編集の例は下図の通り。それぞれの画像ペアにおいて左が元の画像、右がMGIEの出力結果となっています。左上のピザの例では「make it more healthy(もっとヘルシーに)」と曖昧な指示をすると「The pizza includes vegetable toppings, such as tomatoes and herbs(トマトやハーブなどの野菜がトッピングされたピザ)」という詳細な指示が生成され、野菜のトッピングが追加されました。右上の画像編集の例では「remove the woman in the background(後ろの女性を削除して)」と指示するとその通りになっています。そのほか、画像の明度を上げたり画像内のPCの表示内容を変更したりすることも可能とのこと。

従来の手法である「InsPix2Pix」「LGIE」との比較はこんな感じ。左端の「Input Image」が入力データであり、右端の「Ground Truth」は正解データとなっています。ちゃんと雷を表示したり、クリスマスツリーを消したりするなどMGIEが一番指示通りに編集できていることが一目瞭然です。

MGIEモデルはLLaVAからの差分ウェイトとして商用利用不可のCC-BY-NCライセンスで配布されています。そのため、MGIEモデルを使用するにはLLaVAのライセンスにも従う必要があるとのこと。LLaVAのトレーニングにはCLIP、LLaMA、Vicuna、GPT-4が使用されているためこれらの規約にも従う必要があります。

以下のリンク先ではMGIEのデモが公開されており、実際にMGIEを使った画像編集を試すことができます。

MLLM-guided Image Editing (MGIE) - a Hugging Face Space by tsujuifu
https://huggingface.co/spaces/tsujuifu/ml-mgie

今回はロールケーキの写真を編集してみます。

「Input Image」の欄に画像をドラッグ＆ドロップし、Instructionに「use strawberry as topping(トッピングとしてイチゴを使用)」と記入後「送信」をクリック。

使っている人数が多いと順番待ちが発生します。記事作成時には約50人が並んでおり、待機時間の目安は700秒となっていました。

しばらく待機すると下図のように出力されました。「Place a round of cake on a plate with a strawberries on top.Place the cake in the center of the plate, with the strawbiberries spread out around it.(プレートにイチゴをのせたケーキを置いて。プレートの真ん中にケーキをおいてイチゴを周りに敷いて)」という詳細な指示が生成されています。