2024年12月17日 10時52分ソフトウェア

Googleが画像をリミックスして新たな画像を生成できる画像生成AIアプリ「Whisk」を発表

Googleが2024年12月16日に、画像を入力することでさまざまな画像を生成できる新たな画像生成AI「Whisk」を発表しました。

Whisk
https://labs.google/fx/tools/whisk/unsupported-country

Introducing Whisk: Prompt Less, Play More | Google Labs - YouTube

Whisk: Visualize and remix ideas using images and AI
https://blog.google/technology/google-labs/whisk/

従来の画像生成AIでは「90年代のアニメ風の○○」「サイバーパンク風の○○」といったテキストプロンプトを入力する必要がありました。しかし、今回発表されたWhiskは、テキストプロンプトを入力する必要がないことが特徴です。

Whiskを使って画像を生成するには、まずメインの被写体となる「Subject」に画像をアップロードします。なお、従来の画像生成AIと同様、テキストプロンプトを入力することも可能。

続く「Scene」では、生成される画像の風景を選択します。その際、好きな画像をアップロードすることも可能ですが、ランダムに提示される選択肢の中から1つをピックアップすることもできます。

さらに、「90年代のアニメ風の」など、生成される画像のスタイルを決定する画像をアップロードします。「Style」も「Subject」と同様、テキストプロンプトの入力にも対応しています。

最後に、生成される画像の詳細をテキストで入力します。

すると、アップロードした画像をリミックスした画像が生成されます。

生成された画像に気に入らない点がある場合「REFINE」ボタンをクリック。

現れたテキスト入力欄に「ピンクのストライプの入ったスーツ」と入力。

入力したテキストを元に修正を行った画像が生成されました。

Googleによると、Whiskは、Googleの生成AIであるGeminiを用いてアップロードされた画像の詳細なキャプションを自動的に記述し、それを画像生成モデルのImagen 3に入力することで手軽な画像生成が可能とのこと。

Whisk is a really fun and compelling new way to prompt our Imagen 3 model. You upload images that have subject, scene or style of interest, and then it composes these together to generate a new image based on these elements. Less wordsmithing, and fun results! https://t.co/0obgoTy7Zw
— Jason Baldridge (@jasonbaldridge) December 16, 2024

以下はWhiskを用いた実際の画像生成の例です。

ドーナツの画像とピンバッジの画像を組み合わせて生成された画像が以下。

Googleは「Whiskは画像からいくつかの主要な特性しか抽出しないため、被写体の身長や体重、髪型、肌の色など、期待とは異なる画像が生成される可能性があります。そのため、Whiskではいつでもプロンプトの確認ならびに編集が可能です」と述べています。また、Googleのバイスプレジデントであるジョシュ・ウッドワード氏は「Whiskは映画制作者やクリエイティブさを重視する広告主、ファッションデザイナーの方々との会話に基づいて構築されました」と語りました。

It’s time to Whisk! What makes it unique? No more long, detailed text prompts. Whisk lets you prompt with images and easily blend them together. It’s so fast and fun. Just drag in your images and start creating.

We created Whisk based on conversations with filmmakers working on… https://t.co/44FzQVDxzr
— Josh Woodward (@joshtwoodward) December 16, 2024