AI

オープンソースの画像生成AI「GLM-Image」を中国企業のZ.aiが発表、自己回帰モデルと拡散モデルのハイブリッド


中国のAI企業であるZ.aiが、オープンソースでありながら産業グレードのパフォーマンスを発揮する離散自己回帰画像生成モデルの「GLM-Image」を発表しました。GLM-Imageは自己回帰モデル拡散モデルのハイブリッドとなっています。

GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation
https://z.ai/blog/glm-image


Z.aiが現地時間の2026年1月14日に発表した画像生成モデルのGLM-Imageは、自己回帰モデルと拡散モデルを組み合わせたハイブリッドモデルです。自己回帰モデルは、90億のパラメーターを持つ「GLM-4-9B-041」に基づいて初期化されています。拡散モデルは「CogView4」に従い、70億のパラメーターを持つシングルストリームDiT構造を採用しているそうです。

GLM-Imageのハイブリッドモデルは、テキストレンダリングや知識集約型生成で大きな利点を発揮します。特に、正確な意味理解と複雑な情報表現を必要とするタスクで優れたパフォーマンスを発揮すると同時に、プロンプトに忠実な生成を可能とします。

GLM-Imageによる画像生成の一例をまとめたものが以下。


拡散モデルはトレーニングの安定性と強力な一般化能力から、画像生成モデルの主流となっています。拡散モデルや変分オートエンコーダ(VAE)は年々改良されていますが、拡散モデルは依然として複雑な指示や知識集約型シナリオを苦手としています。

一方で、近年はプロンプトに忠実な出力を可能とする自己回帰モデルを採用した画像生成AIも増えていますが、自己回帰モデルには実行が遅いという欠点があります。GLM-Imageは拡散モデルと自己回帰モデルの優れた点を組み合わせたハイブリッドモデルとして開発されました。


GLM-Imageでは、自己回帰ジェネレーターが低周波の意味信号を持つトークンを生成し、拡散デコーダーは高周波の詳細を精製して最終画像を提供します。このハイブリッドアーキテクチャにより、一般的な画像生成タスクが確実に機能するだけでなく、複雑な知識表現を必要とするクリエイティブな作業でも顕著な利点がもたらされています。

GLM-Imageの画像生成メカニズムを示した図が以下。


画像生成モデルのテキストレンダリング精度を比較した表が以下。GLM-Imageはオープンソースモデルでありながら、圧倒的なテキストレンダリング精度の高さを実現しています。

モデルオープンソースNEDCLIPScoreWord Accuracy 2 regionsWord Accuracy 3 regionsWord Accuracy 4 regionsWord Accuracy 5 regionsWord Accuracy average
GLM-Image0.95570.78770.91030.92090.91690.89750.9116
Seedream 4.5    ×0.94830.80690.87780.89520.90830.90080.899
Z-Image0.93670.79690.90060.87220.86520.85120.8671
Qwen-Image-25120.9290.78190.8630.85710.8610.86180.8604
Z-Image-Turbo0.92810.80480.88720.86620.86280.83470.8585
GPT Image 1[High]×0.94780.79820.87790.86590.87310.82180.8569
Seedream 4.0    ×0.92240.79750.85850.84840.85380.82690.8451
Qwen-Image0.91160.80170.8370.83640.83130.81580.8288
Nano Banana 2.0×0.87540.73720.73680.77480.78630.79260.7788
TextCrafter0.86790.78680.76280.76280.74060.69770.737
SD3.5 Large0.8470.77970.72930.68250.65740.5940.6548
Seedream 3.0    ×0.85370.78210.62820.59620.60430.5610.5924
FLUX.1 [dev]0.68790.74010.60890.55310.46610.43160.4965
3DIS0.65050.77670.44950.39590.3880.33030.3813
RAG-Diffusion0.44980.77970.43880.33160.21160.1910.2648
TextDiffuser-20.43530.67650.53220.32550.17870.08090.2326
AnyText0.46750.74320.05130.17390.19480.22490.1804


なお、GLM-Imageはオープンソースの画像生成モデルであるため、GitHubおよびHugging Faceでコードやモデルデータが公開されています。

GitHub - zai-org/GLM-Image: GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation.
https://github.com/zai-org/GLM-Image


zai-org/GLM-Image · Hugging Face
https://huggingface.co/zai-org/GLM-Image

この記事のタイトルとURLをコピーする

・関連記事
コーディングに強い中国産AI「GLM-4.7」が登場、一部テストでGemini 3.0 Proを超えるオープンモデル - GIGAZINE

無料のチャットAIをブラウザで開きまくってコーディング補助をさせる方法、提案者はCursorなどのAIエージェントより便利と語る - GIGAZINE

DeepSeekよりも安価に高性能のAIを使用できるオープンソースモデル「GLM-4.5」を中国のAI企業がリリース - GIGAZINE

高速かつ高品質な画像生成AI「Z-Image」をAlibabaが公開 - GIGAZINE

in AI, Posted by logu_ii

You can read the machine translated English article Chinese company Z.ai announces open-sour….