Luma AIの新型画像生成モデル「Uni-1」がベンチマークでNano Banana 2・GPT Image 1.5を凌駕する性能を発揮



AIプラットフォームのLuma AIが、同社初の統合理解生成モデルとなる「Uni-1」を発表しました。



汎用知能には、推論と想像、記号の操作、そして世界をシミュレートする能力が必要です。人間の場合、言語・論理・空間認識・創造性といった多岐にわたる能力が、左脳および右脳の機能として提供されます。





人間の左脳と右脳はそれぞれ独立して機能しているわけではありません。言語・知覚・想像力は深く絡み合い、密集した神経経路によって結びついており、思考とイメージが共進化していきます。



一方で既存のAIシステムは、言語関連は大規模言語モデル(LLM)、画像生成は画像生成モデル、現実世界のシミュレーションは世界モデルといった具合に、人間の能力の一部を個別に習得しています。



そこで、Luma AIは独創的なアプローチを採用。論理的な脳から心の目を育み、デジタル領域と物理領域の両方で推論・想像・計画・反復・実行するシステムの構築を目指し「Uni-1」を開発しました。Luma AIはUni-1について、「時間・空間・ロジックを単一のアーキテクチャで統合的にモデル化し、断片化されたパイプラインでは実現できない問題解決を可能にしている」と説明しています。



なお、Uni-1はGoogleのNano Banana ProやOpenAIのGPT Image 1.5と同じ自己回帰型Transformerモデルを基盤としています。



Uni-1は生成前と生成中にプロンプ​​トを推論し、複雑な指示を分解してシーンを計画することができます。このアプローチは通常、プロンプトへの対応精度を大幅に向上させます。これにより、Uni-1は複数の写真を生成し、それらを全く新しい構図に合成することが可能です。



以下の画像は甲冑、サイバーパンクな雰囲気の部屋、ピザ、ドリンクの写真をソースとして、Uni-1に「中世の宴を現代の料理で再現」させた写真。





Luma AIによると、Uni-1は基本的な生成機能に加え、複数の会話のターンを通して文脈を維持しながら話題を洗練させ、画像を76種類以上のアートスタイルに変換し、スケッチや視覚的な指示を入力として受け取り、参照画像から人物、ポーズ、構図を別の画像に転送することもできます。



1枚の参照画像からピアニストの幼少期から老年期までを再現した動画を生成することにも成功しています。





Uni-1はAIの推論に基づく視覚的編集能力を評価するベンチマークテストであるRISEBenchで、GoogleのNano Banana 2やOpenAIのGPT Image 1.5を僅差で上回っています。





なお、Uni-1はクリエイティブアシスタントのLuma AgentsおよびLuma APIを通じて間もなく利用可能になるとのことですが、詳細な価格は発表されていません。

