レビュー

Appleが言語で指示するだけで写真を編集してくれる画像編集AIモデル「MGIE」をリリース、デモも公開されたので使ってみた


Appleがカリフォルニア大学サンタバーバラ校と協力し、言葉で指示するだけで写真を編集してくれるAIモデル「MGIE」をリリースしました。

[2309.17102] Guiding Instruction-based Image Editing via Multimodal Large Language Models
https://arxiv.org/abs/2309.17102


apple/ml-mgie
https://github.com/apple/ml-mgie


MGIEはMLLM-Guided Image Editingの略称で、画像内の物体の形状を変更したり、明度を編集したりするなどさまざまな画像編集タスクを行う事が可能です。MGIEは画像と自然言語の両方を扱うマルチモーダル大規模言語モデルであり、ユーザーは自然言語で指示するだけで良いとのこと。ユーザーの入力をベースに「表現豊かな指示」を生成することで、実際に編集を行うAIが適切な画像編集を行えるようになるという仕組みです。


MGIEを使用した編集の例は下図の通り。それぞれの画像ペアにおいて左が元の画像、右がMGIEの出力結果となっています。左上のピザの例では「make it more healthy(もっとヘルシーに)」と曖昧な指示をすると「The pizza includes vegetable toppings, such as tomatoes and herbs(トマトやハーブなどの野菜がトッピングされたピザ)」という詳細な指示が生成され、野菜のトッピングが追加されました。右上の画像編集の例では「remove the woman in the background(後ろの女性を削除して)」と指示するとその通りになっています。そのほか、画像の明度を上げたり画像内のPCの表示内容を変更したりすることも可能とのこと。


従来の手法である「InsPix2Pix」「LGIE」との比較はこんな感じ。左端の「Input Image」が入力データであり、右端の「Ground Truth」は正解データとなっています。ちゃんと雷を表示したり、クリスマスツリーを消したりするなどMGIEが一番指示通りに編集できていることが一目瞭然です。


MGIEモデルはLLaVAからの差分ウェイトとして商用利用不可のCC-BY-NCライセンス配布されています。そのため、MGIEモデルを使用するにはLLaVAのライセンスにも従う必要があるとのこと。LLaVAのトレーニングにはCLIPLLaMAVicunaGPT-4が使用されているためこれらの規約にも従う必要があります。

以下のリンク先ではMGIEのデモが公開されており、実際にMGIEを使った画像編集を試すことができます。

MLLM-guided Image Editing (MGIE) - a Hugging Face Space by tsujuifu
https://huggingface.co/spaces/tsujuifu/ml-mgie


今回はロールケーキの写真を編集してみます。


「Input Image」の欄に画像をドラッグ&ドロップし、Instructionに「use strawberry as topping(トッピングとしてイチゴを使用)」と記入後「送信」をクリック。


使っている人数が多いと順番待ちが発生します。記事作成時には約50人が並んでおり、待機時間の目安は700秒となっていました。


しばらく待機すると下図のように出力されました。「Place a round of cake on a plate with a strawberries on top.Place the cake in the center of the plate, with the strawbiberries spread out around it.(プレートにイチゴをのせたケーキを置いて。プレートの真ん中にケーキをおいてイチゴを周りに敷いて)」という詳細な指示が生成されています。


カレーライスの写真を入力して「Add some vegetables.(野菜を追加して)」と指示したところ、ブロッコリーらしきものが追加されました。


なお、Appleは生成AI分野への注力を表明しており、2月1日に行われた2024年第1四半期決算発表では同社がAIに膨大な時間と労力を投資していることを強調しました。

Appleのティム・クックCEOが「生成AI機能の詳細を2024年後半に発表予定」と2024年第1四半期決算発表で明かす - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
Appleは2年で7500億円を投資してAI開発競争に追いつくことを計画している - GIGAZINE

OpenAIの画像生成AI「DALL-E 3」にAI生成作品であることを示す技術標準「C2PA」を使った電子透かしの埋め込みがスタート - GIGAZINE

Googleが超高品質な動画生成AI「Lumiere」を発表、フレーム同士のつながりが自然で「テキストや画像から動画生成」「写真の一部を動画化」「動画の一部分を指定して加工」などなど機能てんこもり - GIGAZINE

Googleマップに生成AI利用で場所を探す機能が新登場 - GIGAZINE

Googleが無料で簡単に使える画像生成AI「Imagen 2」を公開したので使ってみた - GIGAZINE

in レビュー,   ソフトウェア,   ウェブアプリ, Posted by log1d_ts

You can read the machine translated English article here.