ソフトウェア

GoogleがマルチモーダルAI「Gemini」の画像生成で間違いが起こった理由を説明


GoogleのマルチモーダルAI「Gemini」が「歴史的な画像の描写に不正確さがある」と指摘された件について、Googleが公式ブログで問題の原因を説明しています。

What happened with Gemini image generation
https://blog.google/products/gemini/gemini-image-generation-issue/


Google explains how it got Gemini image generation ‘wrong’
https://9to5google.com/2024/02/23/gemini-image-generation-google-statement/

Geminiでは「1924年のドイツ兵」というプロンプトで黒人やアジア人の画像を生成したことが問題視され、Googleは「幅広い結果を生成しようとした試みが的外れな結果につながった」と謝罪し、Geminiを修正すると発表しました。

Geminiが「人種的に多様なナチス」を生成したことをGoogleが謝罪 - GIGAZINE


Googleは上記の問題が生じた原因について、「Geminiがさまざまな人々を描写するようにチューニングした結果、明らかにそうすべきではないケースを説明できませんでした」「時間が経つにつれて、Geminiは私たちが意図していたよりもずっと慎重になり、特定のプロンプトに答えることを完全に拒否するようになりました」という2点を説明しています。この2点により、Imagen 2を利用したGeminiの画像生成機能が出力結果を過剰に補正したり、あるいは過度に保守的になったりして、誤った画像が生成されてしまったとのこと。

そこで、Googleは人物の画像生成機能をいったんオフにし、広範なテストを含む大幅な改善を行うとしています。


Googleは「Geminiは創造性と生産性のツールとして構築されており、時事問題や日々変化するニュース、注目されるトピックに関する画像やテキストについては、常に信頼できるとは限らず、間違いを犯します。元から述べていたように、『幻覚』はすべての大規模言語モデルにとって既知の課題です」と述べています。

また、Googleは「Geminiはプロンプトに対して事実に基づいた回答をしようとします。また、Geminiのダブルチェック機能は回答を裏付けるコンテンツがウェブ上に存在するかどうかを評価します。しかし、Google検索は時事問題や日々変化するニュースについて新鮮で質の高い情報が別のシステムによって表示されるため、Google検索に頼ることをおすすめします」と語りました。


加えて、Googleは「Geminiが不正確で恥ずべき、あるいは攻撃的な結果を生成しないとは約束できませんが、問題が特定されるたびに我々は行動を起こし続けることを約束します。AIは非常に多くの点で役立ち、大きな可能性を秘めた新しいテクノロジーであり、私たちはそれを安全かつ責任を持って展開するために最善を尽くします」とコメントしました。

なお、GoogleはGeminiの画像生成機能を修正するほかに、生成AI機能の「Help me write」をウェブブラウザのChromeに搭載することを明らかにしています。この機能は生成AIがウェブページのコンテンツをもとにレビュー投稿用の文章を作成したり問い合わせのテキストや返信を生成したりしてくれるというもので、記事作成時点で、アメリカのChromeユーザー向けに試験的に提供されています。

さらに、ブランドの商品の説明や広告の画像やテキストを生成するAIツールをGoogle広告のP-MAXキャンペーンに追加することも発表されました。

この記事のタイトルとURLをコピーする

・関連記事
Gemini 1.5 Proを実際に使ってみたエンジニアが「特にムービーの処理がすごい」と絶賛するレビューを投稿 - GIGAZINE

Google ChromeにGeminiを統合するオプションが開発者向けのChrome Canaryに登場 - GIGAZINE

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - GIGAZINE

Googleがチャットボット「Bard」をマルチモーダルAI「Gemini」に統合してアプリ化も計画していることが明らかに - GIGAZINE

Samsungが「Galaxy S24」シリーズを発表、GoogleのAI「Gemini」を搭載 - GIGAZINE

GoogleのマルチモーダルAI「Gemini Pro」を開発者や企業がAPI経由で利用可能に、1分あたり60クエリまで無料 - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by log1i_yk

You can read the machine translated English article here.