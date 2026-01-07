2026年01月07日 15時00分 AI

動画生成AI「LTX-2」登場、ローカル動作するオープンモデルでNVIDIAによる「4K動画生成パイプライン」もあり



AI開発企業のLightricksがオープンソースのオーディオ・ビデオ生成モデル「LTX-2」をリリースしました。LTX-2ではハイエンドな個人用PCでローカル実行することが可能で、環境音や会話音声を含む動画を生成できます。



LTX-2 Overview | LTX Documentation

https://docs.ltx.video/open-source-model/getting-started/overview







LTX-2 is now open source.



The first truly open audio-video generation model with open weights and full training code, designed to run locally on @NVIDIA_AI_PC RTX consumer GPUs.



Details below 🧵 pic.twitter.com/V8jkQwxjV8 — LTX-2 (@ltx_model) 2026年1月6日



NVIDIA RTX Accelerates 4K AI Video Generation on PC | NVIDIA Blog

https://blogs.nvidia.com/blog/rtx-ai-garage-ces-2026-open-models-video-generation/



LTX-2の主な特徴は以下の通り。LTX-2アーキテクチャについては、論文(PDFファイル)で詳細が公開されています。



・高忠実度生成

最大約20秒の音声と映像を同期させた動画を生成可能。構成やハードウェアに応じて高解像度と高フレームレートにも対応しており、試行錯誤を重ねる高速生成から品質を重視した高品質出力まで柔軟にスケールできるように設計されています。



・音声と映像を1つのモデルで同時生成

会話、唇の動き、環境音などを1回の生成処理でまとめて生成するため、後処理による音ずれ調整などが不要。自然な会話のタイミングや表情を演出し、表現力豊かなパフォーマンスを実現します。





・モーションリアリズム

フレーム間の一貫性を保ちつつ、安定した動きや人物・キャラクターの整合性を維持したダイナミックなシーン作成が可能。人物やキャラクターが不自然に崩れにくい設計となっています。



・きめ細かな制御

LoRAベースのカスタマイズに対応するほか、カメラ動作を考慮したモーション制御や、テキスト・画像・動画・音声・深度情報などのマルチモーダル入力を組み合わせることで、意図に沿ったクリエイティブな映像表現を細かく指定できます。



・効率的な設計

コンパクトな潜在空間と改良されたアーキテクチャにより、LTX-2はハイエンドなコンシューマー向けGPU上で効率的に動作します。専用の大規模インフラを必要とせず、高品質な音声および動画生成をローカル環境で実行できます。



LTX-2の使用手順はクイックスタートガイドから確認できます。LTX-2を使用する方法は複数ありますが、パワーと使いやすさのバランスが最適なオープンソースのGUIツールであるComfyUIから始めることをLightricksは推奨しています。



Quick Start | LTX Documentation

https://docs.ltx.video/open-source-model/getting-started/quick-start



NVIDIAはCES 2026にあわせて開催したイベント「RTX AI Garage」の中で、GeForce RTX、NVIDIA RTX PRO、NVIDIA DGX Sparkデバイス向けの一連のAIアップグレードを発表しました。その目玉の1つが、従来はローカルPCでは難しかった「4K動画の生成」を可能にする動画生成アップスケールパイプラインであり、そのパイプラインを実現するモデルとしてLTX-2が採用されています。





クリップが生成されると、ComfyUIの新しいRTX Videoノードを使用して、動画がわずか数秒で4Kにアップスケールされます。このアップスケーラーはリアルタイムで動作し、エッジをシャープにしたり圧縮アーティファクトを除去したりしてクリアな映像を実現します。これによりLTX-2は、主要なクラウドベースモデルにひけをとらない生成結果を提供しながら、最大20秒間の4K動画を生成できます。NVIDIAはLTX-2を「ローカルAI動画制作における大きなマイルストーンとなります」と表現しました。



ComfyUIブログでは、LTX-2のテキストから動画生成、画像から動画生成、制御情報から動画生成の例をそれぞれ見ることができます。



LTX-2: Open-Source Audio-Video AI Model Now Available in ComfyUI

https://blog.comfy.org/p/ltx-2-open-source-audio-video-ai

