2024年08月29日 16時00分ネットサービス

Googleが人物のAI画像生成機能をGeminiの有料ユーザー向けに公開再開へ、人種的描写に対する批判を受けて2024年2月に一時停止していたもの

Googleが2024年8月28日に、マルチモーダルAI「Gemini」の画像生成機能に対し、画像生成モデルの「Imagen 3」を導入することを発表しました。同時に、人種的描写の問題から一時停止させられていた人物の画像生成機能も再開する見込みであることを伝えています。

Google Gemini updates: Custom Gems and improved image generation with Imagen 3
https://blog.google/products/gemini/google-gemini-update-august-2024/

Google to Let Some Users Generate Images of People After Scandal - Bloomberg
https://www.bloomberg.com/news/articles/2024-08-28/google-to-let-some-users-generate-images-of-people-after-scandal

Google AI reintroduces human image generation after historical accuracy outcry | Ars Technica
https://arstechnica.com/ai/2024/08/months-after-controversy-google-ai-can-generate-images-of-humans-again/

Google takes aim at custom GPTs with the launch of Gemini Gems
https://www.androidpolice.com/embargo-aug-28-1200-et-google-geminis-new-gems-let-you-create-your-own-personal-ai-expert-for-any-topic/

Googleは2024年8月28日の発表で「Geminiのクリエイティブな画像生成機能をアップグレードし、今後数日間で最新の画像生成モデルであるImagen 3をGeminiに導入し、すべての言語のユーザー向けに利用できるようにします」と発表。2024年8月16日にリリースされたImagen 3は、従来のImagen 2よりもプロンプトの理解力が向上しているほか、テキストのレンダリング能力が大幅に向上していることなどが特徴です。Imagen 3については以下の記事で詳しくまとめられています。

Googleが高品質で文字のレンダリングも可能な画像生成モデル「Imagen 3」をリリースしたので使ってみた - GIGAZINE

GoogleはImagen 3について「わずか数語のプロンプトで画像を生成することが可能かつ、生成される画像は新たな基準を打ち立てます。Geminiにチャットすることで、写実的な風景や質感の高い油絵など、さまざまな画像を生成することができます」と述べています。

さらにGoogleは今後数日間で、有料版であるGemini Advanced、Business、Enterpriseユーザー向けに人物の画像の生成も再開することを発表しています。Geminiによる画像生成をめぐっては、Googleは2024年2月に「歴史的な画像の描写に不正確さがある」として非難を受け、「幅広い結果を生成しようとした試みが的外れな結果につながりました」と謝罪する事態が発生しています。

Geminiが「人種的に多様なナチス」を生成したことをGoogleが謝罪 - GIGAZINE

その後Googleは、「Geminiがさまざまな人々を描写するようにチューニングした結果、明らかにそうすべきではないケースを説明できませんでした」「時間が経つにつれて、Geminiは私たちが意図していたよりもずっと慎重になり、特定のプロンプトに答えることを完全に拒否するようになりました」と説明し、広範なテストを含む大幅な改善を行うために人物の画像生成機能をオフにしたことを報告していました。

そしてGoogleは今回「私たちは、製品の技術的な改善や評価セットの改善、レッドチーム演習、明確な製品に関する原則の作成に取り組んできました」と述べ、人物の画像生成機能を再開することを伝えています。Googleは「Imagen 3では、人物の画像を生成する際のユーザーエクスペリエンスを向上させることで、大きな進歩を遂げました。一方で、写実的で識別可能な個人の生成や未成年者の描写、過度に残虐、暴力的、性的なシーンの生成はサポートしていません。もちろん、他の生成AIと同様に、Geminiが生成するすべての画像が完璧というわけではありませんが、ユーザーからのフィードバックに耳を傾け続け、改善を続けていきます。私たちは、人物画像の生成機能をより多くのユーザーと言語に提供できるようにすることを目指しています」と語りました。

さらにGoogleは、Geminiをカスタマイズしてオリジナルのチャットボットを作成できる新機能である「Gem」をGemini Advanced、Business、Enterpriseユーザー向けに公開したことを発表しました。Gemは2024年5月に開催された「Google I/O」で発表された機能で、OpenAIのChatGPTで提供されている「GPTs」のように、自分好みのチャットAIを作成できるというものです。

Googleは「Gemは詳細な一連の指示を記憶できるため、退屈で反復的なタスクや難しいタスクにかかる時間を節約できます」と述べています。また、Gemsでは誕生日プレゼントのアイデアなどのインスピレーションを提供する「アイデア出しのプロ」やスキルを磨き、キャリア目標を達成するための計画を立案できる「キャリアアドバイザー」などのサンプルが提供されています。