ソフトウェア

Googleが画像をリミックスして新たな画像を生成できる画像生成AIアプリ「Whisk」を発表


Googleが2024年12月16日に、画像を入力することでさまざまな画像を生成できる新たな画像生成AI「Whisk」を発表しました。

Whisk
https://labs.google/fx/tools/whisk/unsupported-country

Introducing Whisk: Prompt Less, Play More | Google Labs - YouTube


Whisk: Visualize and remix ideas using images and AI
https://blog.google/technology/google-labs/whisk/

従来の画像生成AIでは「90年代のアニメ風の○○」「サイバーパンク風の○○」といったテキストプロンプトを入力する必要がありました。しかし、今回発表されたWhiskは、テキストプロンプトを入力する必要がないことが特徴です。

Whiskを使って画像を生成するには、まずメインの被写体となる「Subject」に画像をアップロードします。なお、従来の画像生成AIと同様、テキストプロンプトを入力することも可能。


続く「Scene」では、生成される画像の風景を選択します。その際、好きな画像をアップロードすることも可能ですが、ランダムに提示される選択肢の中から1つをピックアップすることもできます。


さらに、「90年代のアニメ風の」など、生成される画像のスタイルを決定する画像をアップロードします。「Style」も「Subject」と同様、テキストプロンプトの入力にも対応しています。


最後に、生成される画像の詳細をテキストで入力します。


すると、アップロードした画像をリミックスした画像が生成されます。


生成された画像に気に入らない点がある場合「REFINE」ボタンをクリック。


現れたテキスト入力欄に「ピンクのストライプの入ったスーツ」と入力。


入力したテキストを元に修正を行った画像が生成されました。


Googleによると、Whiskは、Googleの生成AIであるGeminiを用いてアップロードされた画像の詳細なキャプションを自動的に記述し、それを画像生成モデルのImagen 3に入力することで手軽な画像生成が可能とのこと。


以下はWhiskを用いた実際の画像生成の例です。


ドーナツの画像とピンバッジの画像を組み合わせて生成された画像が以下。


Googleは「Whiskは画像からいくつかの主要な特性しか抽出しないため、被写体の身長や体重、髪型、肌の色など、期待とは異なる画像が生成される可能性があります。そのため、Whiskではいつでもプロンプトの確認ならびに編集が可能です」と述べています。また、Googleのバイスプレジデントであるジョシュ・ウッドワード氏は「Whiskは映画制作者やクリエイティブさを重視する広告主、ファッションデザイナーの方々との会話に基づいて構築されました」と語りました。


なお、記事作成時点でWhiskはアメリカのユーザーのみ使用可能で、日本からは使用できませんでした。

この記事のタイトルとURLをコピーする

・関連記事
Googleの最先端動画生成モデル「Veo」と最高品質の画像生成モデル「Imagen 3」のプレビュー提供がAI開発プラットフォーム「Vertex AI」でスタート - GIGAZINE

Google DeepMindが1枚の画像からプレイ可能な3D世界を生成できるAIモデル「Genie 2」を発表 - GIGAZINE

YouTubeショートで6秒間のAI生成動画を作成可能に、Google DeepMindの動画生成モデル「Veo」を採用 - GIGAZINE

Googleの生成AI「Gemini」と「Imagen 3」でオリジナルなチェスの駒を生成できるサイト「GenChess」 - GIGAZINE

Googleが高品質で文字のレンダリングも可能な画像生成モデル「Imagen 3」をリリースしたので使ってみた - GIGAZINE

in ソフトウェア,   ウェブアプリ,   動画, Posted by log1r_ut

You can read the machine translated English article here.