2026年01月02日 20時40分レビュー

AIっぽくない実写風画像を作れる画像生成AI「Qwen-Image-2512」が登場、無料で使えて日本語での指示も可能

AlibabaのAI研究チームであるQwenが画像生成AIモデル「Qwen-Image-2512」を2025年12月31日に公開しました。Qwen-Image-2512はAI生成画像っぽくない実写風画像を生成できることを大きな特長としています。すでにモデルをダウンロードしてローカルで実行可能になっていたので、実際に使ってみました。

Qwen-Image-2512: Finer Details, Greater Realism
https://qwen.ai/blog?id=qwen-image-2512

従来のQwen-Image(左)とQwen-Image-2512(右)で同じプロンプトから生成した画像が以下。従来のQwen-Imageだと美顔フィルターを適用したような見た目になってAIっぽさがにじみ出していましたが、Qwen-Image-2512では顔も照明の当たり具合もリアルになっています。

Qwen-Image-2512は細部の描写も向上。

文章を含む画像の品質も向上しました。

Qwen-Image-2512はモデルデータがHugging Faceで公開されており、ダウンロードしてローカルで実行することができます。また、ComfyUIの開発チームがQwen-Image-2512を使う生成ワークフローを公開しているので、ワークフローを使って実際に画像を生成してみることにしました。

Get started (Local ComfyUI):

1. Use the Qwen Image workflow in Template Library or open this Qwen Image 2512 workflow: https://t.co/603dqeUdYo
2. Download the models: https://t.co/ZCGllKmr3I
3. Edit your prompt and run!
— ComfyUI (@ComfyUI) January 1, 2026

ComfyUIでワークフローを開くとこんな感じ。

Qwen-Imageシリーズは日本語プロンプトにもある程度対応可能なので、日本語で「カメラで撮影したスナップ写真。ちょっとゴチャゴチャした部屋で日本人のおじいちゃんとおばあちゃんがクッキーを食べている。晴れた日の昼で、窓の外には畑が見える。」と入力して生成してみました。

生成結果が以下。日本語での指示にしっかり対応してくれました。

他にもいろいろ生成してみました。プロンプトと生成結果は以下の通り。細かい指示にもしっかり対応して高品質な画像を生成できますが、日本語の文章を含む画像を生成するのは苦手なことが分かります。

日本人の20歳くらいの女性が電話ボックスの中で電話している。電話ボックスの外は雨が降っている。電話ボックスの中には「GIGAZINE」と記されたステッカーが貼られている。

カメラで撮影したスナップ写真。夜の路地裏で瓶入りのコーラを飲むメイドさん。メイドさんは20歳くらいの日本人女性。ツインテールで髪の毛は青色。室外機の横に座り込んでいる。上からのアングルで撮影。カメラ目線。メイドさんの周囲には雑誌が散らばっていて、雑誌の表紙には「GIGAZINE」と書かれている。

カメラで撮影したスナップ写真。日本人の20歳くらいの男性がプラカードを掲げている。プラカードには「2026年もよろしくお願いします」と書かれている。場所は駅前で、天気は晴れ、時間は夕方。

なお、ComfyUIが配布しているワークフローでは50ステップかけて生成する設定になっており、GeForce RTX 5070 Tiを搭載したPCでは1枚当たり200～205秒で生成できました。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2026年01月02日 20時40分00秒 in AI, ソフトウェア, レビュー, Posted by log1o_hf

You can read the machine translated English article Introducing the image generation AI 'Qwe….