2026年08月03日 10時56分 AI

動画生成AI「MiniMax H3」が登場、世界2位の実力でオープンモデルとして公開予定

中国のAI開発企業であるMiniMaxが動画生成AI「MiniMax H3」を発表しました。MiniMax H3は最大15秒の音声付き動画を生成可能でテキスト・動画・画像・音声の入力に対応しています。また、近日中にモデルそのものが無料公開される予定です。

MiniMax H3: An Open Model Breaking the Boundaries Between Tasks and Modalities - MiniMax Research | MiniMax
https://www.minimax.io/blog/minimax-h3

MiniMax H3はテキスト・動画・画像・音声の入力に対応しており、「画像を入力して登場人物を指定する」「歌声を入力してリップシンク動画を作成する」といった操作が可能。複数のメディアを同時に入力して1本の動画を生成することもできます。動画の解像度は768pもしくは2Kで、最大15秒の動画を生成できます。

MiniMaxの公式ページに掲載されているMiniMax H3の生成例が以下。

動画生成AI「MiniMax H3」の生成例その1 - YouTube

ゲーム画面風の動画もあります。

動画生成AI「MiniMax H3」の生成例その2 - YouTube

第三者機関のArtificial Analysisによるテスト結果もすでに公開されています。「AIモデルの名前を伏せた状態で同じプロンプトから動画を生成して優劣を決める」という方法で「テキストから音声付きの動画を生成する」というタスクの品質をランキング化したものが以下。MiniMax H3はGemini Omni Flashに続いて2位にランクインしました。高品質なことで知られているSeedance 2.0を超えています。

「画像から音声付きの動画を生成する」というタスクの場合、1位はSeedance 2.0、2位はGemini Omni Flashで、3位がMiniMax H3でした。

MiniMax H3は記事作成時点ではAPI経由で利用可能となっており、近日中にモデルがオープンウェイトとして公開される予定です。APIのドキュメントは以下のリンク先で確認できます。

Create Video Generation Task - MiniMax API Docs
https://platform.minimax.io/docs/api-reference/video-generation-v2-create

また、ComfyUIなどのサードパーティーサービスでもMiniMax H3のAPIを用いた動画生成が可能です。

MiniMax H3 is now available in ComfyUI via Partner Nodes.

→ Multimodal I/O: T2V, First/Last Frame, Omni Reference

→ Native stereo audio on every clip

→Up to 2K, 5-15s at 24 FPS

→ Edit characters, scenes, dialogue, and voice in place

API access is live today. Native… pic.twitter.com/lRrgrIEvFN
— ComfyUI (@ComfyUI) July 31, 2026

・関連コンテンツ

2026年08月03日 10時56分00秒 in AI, 動画, Posted by log1o_hf