ソフトウェア

ChatGPTに高精度な画像生成機能「4o Image Generation」が追加される、GPT-4oの知識を活用しつつ画像を生成可能で著名人を含む画像も可


OpenAIがGPT-4oに高精度な画像生成機能「4o Image Generation」を組み込んだことを発表しました。4o Image GenerationはChatGPTやSoraで利用可能になっており、GPT-4oの知識を活用した画像生成や対話しながら成果物のクオリティを向上させる操作などが可能です。

Introducing 4o Image Generation | OpenAI
https://openai.com/index/introducing-4o-image-generation/


4o Image Generationを用いた画像生成の例が以下。「ガラス質のホワイトボードをスマートフォンで撮影した横長の写真。ベイブリッジが見える部屋で撮影。大きなOpenAIのロゴマークの付いたTシャツを着た女性が何かを書いている様子を撮影。自然な手書きで少し乱雑。撮影者が反射して写っている」という複雑な指示をすべて反映しつつ高品質な画像を生成できています。


さらに、「自撮り構図にして、彼女と彼がハイタッチしている」と追加の指示をすると、「彼女」が「ホワイトボードに何かを書いている女性」で「彼」が「撮影者」であることを正しく認識して指示通りの画像を生成してくれました。


OpenAIは4o Image Generationの特徴として「文字列を正確に描画できる」「対話しながら画像を作り替えられる」「複数の指示に従う」「画像の文脈を維持して作り替えられる」「GPT-4oの知識を活用して画像を生成できる」という点を挙げています。それぞれの具体例は以下の通り。

◆文字列を正確に描画できる
以下の画像は「通行可能な車両区分や駐車許可証の必要性を示す道路標識」や「2人の魔女」を描画するように指示しつつ「奥から順に、『道路と車と建物→道路標識→魔女』という順番で描画する」という構図指定もして生成した画像です。構図の指示を守りつつ、道路標識には破綻のない文字列を描画できています。


◆対話しながら画像を作り替えられる
「イチゴを食べているアライグマのかわいいステッカーを作ってくれますか?白い枠線で囲んで、背景は透過してください」という指示を与えて生成した画像が以下。


「アライグマをグレーにしたミニマリストスタイルも試して」と指示すると、画像の全体像はそのままに色合いが変化しました。


さらに「イチゴにかんだ跡を付けて、口の周りを赤く汚して」と指示した結果が以下。アライグマの色が暗くなっているものの、おおむね指示通りの画像を作ってくれました。


◆複数の指示に従う
既存の画像生成AIは複数の被写体やオブジェクトを含む画像を生成するのが苦手です。一方で、4o Image Generationは大量の被写体やオブジェクトを一度に描画させることができます。例えば、以下のように「青い星」「赤い三角形」「黒いベースボールキャップをかぶったオレンジ色の猫」といった16種の図形を縦4個、横4個に並べて描画するように指示。


生成された画像が以下。16個とも指示通りに描画できています。


◆画像の文脈を維持して作り替えられる
画像を入力しつつ「この画像を一眼レフカメラで撮影した感じに変えて」と指示。


生成結果はこんな感じ。元の画像に含まれる被写体は維持しつつスタイルを変更できています。


◆GPT-4oの知識を活用して画像を生成できる
4o Image GenerationはGPT-4oの知識を活用できるため、あいまいな指示から具体的な成果物を作り出せます。「ニュートンのプリズム実験について詳しく説明するインフォグラフィックを作成して」という指示で作った画像が以下。ユーザーはプリズムの効果について説明していませんが、GPT-4oの知識をもとに詳細な説明画像を生成してくれました。


さらに、「ワシントンスクエアパークにあるカフェのテーブルでこの画像をノートに書いている様子を示した一人称画像を生成して」といったように追加の指示をすることもできます。


4o Image Generationは無料版を含むChatGPTの各プランで使えるほか、動画生成AIのSoraでも利用可能です。ただし、編集部のPCで試したところ、記事作成時点では既存の画像生成AI「DALL・E」を使って画像が生成され、生成画像の下部に「DALL・EはOpenAIの古い画像生成モデルです。新しいモデルが近日中に使用可能になります」という通知が表示されました。


なお、OpenAIは「4o Image Generationによる公人を含む画像の生成」をブロックしておらず、政治的な言論や風刺画像の作成に4o Image Generationを使うことを認めています。4o Image Generationの設計やリスクについてまとめたシステムカードは、以下のリンク先で確認できます。

Native_Image_Generation_System_Card.pdf
(PDFファイル)https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

この記事のタイトルとURLをコピーする

・関連記事
GoogleのAIモデル「Gemini 2.0 Flash」の画像生成機能で画像からウォーターマーク(透かし)を削除できると話題に - GIGAZINE

Googleが複数画像をミックスして新しいイメージを生み出す画像生成AI「Whisk」を日本含む100カ国以上で利用可能に、モデル・背景・スタイルの3つを画像orテキストで入力するとImagen 3がフュージョンしてくれる - GIGAZINE

Googleの画像編集AI「イマジネーション」に生成AIを利用したことを示す電子透かし「SynthID」を埋め込む仕組みが追加される - GIGAZINE

Windowsの「ペイント」にCopilotボタンが追加、AIによる画像生成や背景の削除などが手軽に - GIGAZINE

画像生成AIのFlux Pro 1.1を使用したAIロゴジェネレーター「Logo-creator.io」が登場、ハイクオリティなロゴが数秒でザクザク生成可能 - GIGAZINE

in ソフトウェア,   ネットサービス,   ウェブアプリ, Posted by log1o_hf

You can read the machine translated English article ChatGPT adds high-precision image genera….