ついに画像生成AI「Z-Image」のベースモデルが登場、「イラストに強い」「いろんな顔や構図が出る」「追加学習にも最適」などなど



AlibabaのAI開発チームであるTongyi-MAIが画像生成AI「Z-Image」を2026年1月28日に公開しました。Z-Imageは2025年11月に登場したZ-Image-Turboのベースモデルで、ファインチューニングによって多様なモデルが生み出されることが期待されています。また、Z-Image-Turboと比べてイラスト風の画像を高品質に出力できることや構図やキャラクターの多様性が高いことも特徴としています。





Z-Imageシリーズは「Z-Image」「Z-Image-Turbo」「Z-Image-Omni-Base」「Z-Image-Edit」からなる画像生成AIシリーズです。このうちZ-Image-Turboだけが2025年11月に公開されていました。



Z-Image-Turboは「Z-Image-Omni-Baseにファインチューニングを施してZ-Imageを作成し、さらにZ-Imageを蒸留してから人間のフィードバック込みの強化学習を施す」という手順で開発されたモデルで、「高速かつ高品質な画像生成が可能」という特徴を持ちつつ「出力画像の多様性が低く、追加学習して独自のモデルを作る用途にも不向き」というデメリットも抱えていました。今回公開されたZ-Imageは蒸留前のモデルであり、多様性の高さやファインチューニングの容易さを特徴としています。





Z-ImageとZ-Image-Turboの比較表が以下。Z-Imageは「ファインチューニングが容易」「ネガティブプロンプトに対応」「多様性が高い」という特徴を備えています。一方で生成処理に必要なステップ数が28～50へと増加し、画像の全体的な品質は「Very High」から「High」へと一段階下がっています。





Z-Imageの作例は以下の通り。仕様上はZ-Image-Turboより品質が下がっていることになっていますが、十分に高品質な画像を生成できることが分かります。





特にイラスト風の画像では品質が顕著に向上しています。





Z-Image-Turboではシード値を変更しても同じ構図で生成されたり、複数の人物を含む画像を生成しても全員同じ顔になったりする問題がありましたが、Z-Imageでは多様性のある画像生成が可能となりました。





さらにネガティブプロンプトにも対応しており、「画像に含みたくない要素」を明示的に指定できるようになっています。





Z-Imageのモデルデータは以下のリンク先で公開されています。



Tongyi-MAI/Z-Image · Hugging Face

https://huggingface.co/Tongyi-MAI/Z-Image





また、ComfyUIもすでにZ-Imageでの画像生成に対応しています。



