AI

動画生成AI「Grok Imagine 1.5 Preview」が動画生成AIベンチマークで世界1位と2位を獲得


2026年6月3日、xAIは画像から動画を生成することができるAIモデルの「Grok Imagine 1.5 Preview」を発表しました。このGrok Imagine 1.5 Previewは、複数のAIベンチマークで世界1位と2位を記録したことが明らかになっています。

Grok Imagine 1.5 Preview | xAI
https://x.ai/news/grok-imagine-1-5


Grok Imagine 1.5 Previewは、1枚の静止画を映画のような動画に変換することができるという動画生成AIです。開始フレームと動きを説明するプロンプトを指定するだけで、カメラワーク・雰囲気・物理法則などを含め、元の画像に忠実に続くシーンを生成することが可能。Grok Imagine 1.5 Previewで生成できる動画の解像度は最大720p(1280×720ピクセル)で、動画の長さは最大15秒です。

Grok Imagine 1.5 Previewで生成した動画の事例は以下の通り。


Grok Imagine 1.5 Previewは自然言語による指示に従って動画を生成します。Grok Imagine 1.5 Previewは入力フレームのディテールとライティングを保持するため、結果は元の画像を再解釈するのではなく、そのまま引き継ぐものとなります。


なお、Grok Imagine 1.5 PreviewはxAI APIを通じてプレビュー版として利用可能です。

そんなGrok Imagine 1.5 Previewが、Artificial Analysisの画像から動画を生成する動画生成AIのクオリティを評価するベンチマークであるVideo Arena(音声あり)で、Seedance 2.0に次ぐ世界2位のスコアを獲得しました。なお、Grok Imagine 1.5 Previewは1分の動画を生成するのに8.40ドル(約1350円)かかります。


音声なし版のVideo Arenaでは、Grok Imagine 1.5 Previewは3位にランクイン。


「ジャケットのジッパーがスムーズに上方向に引かれます。ジッパーの音は連続しており、スライダーの動きにぴったりと同期し、トップで即座に止まります」というプロンプトで生成した動画を、Grok Imagine 1.5 Preview・Seedance 2.0・HappyHorse 1.0・Veo 3.1と比較したのが以下。Grok Imagine 1.5 Previewが生成した動画では、ジャケットのジッパーをスムーズに上方向に引くことができていますが、GoogleのVeo 3.1はジッパーを引く表現ができません。


「女性は化粧を終え、唇の油分を拭き取り、鏡をチェックし、バッグを手に取り、投げキッスをして、歩き出す。口紅のキャップがカチッと閉まる音、鏡をちらりと見る音、バッグが擦れる音、キスをする音、ヒールの音がカツカツと鳴る」というプロンプトで生成した動画が以下。ここでもVeo 3.1は鏡に映る女性の服と、実際の服の色が異なっています。


「宙返りが完璧に決まり、彼女は着地を成功させ、観客は大興奮。着地、両手を上げて歓声を上げる」というプロンプトで生成した動画が以下。


「街が鮮やかな色彩と大胆な線でアニメスタイルに変身する。人々がアニメーションのような動きで動く。柔らかな街の音とローファイ音楽」というプロンプトで生成した動画が以下。


なお、Grok Imagine Video 1.5 Previewはクラウドソーシング型ベンチマーク・Design ArenaのImage to Video(画像から動画を生成)部門で「Elo 1357」を記録し、Seedance 2.0を上回り1位に輝きました。

この記事のタイトルとURLをコピーする

・関連記事
xAIが動画生成AI「Grok Imagine 1.0」をリリース、GoogleのVeo 3.1を超える性能 - GIGAZINE

xAIが動画生成AI「Imagine v0.9」を発表、規制の緩さで話題の「Grokの動画生成機能」がアップデートされる - GIGAZINE

Grokの生成AI「Imagine」にはポルノなど規制対象のコンテンツを積極的に生成できる「スパイシー」機能が存在、早速有名人のディープフェイクが作成されて問題に - GIGAZINE

Grokに動画生成機能「Imagine」が追加される&短編動画アプリ「Vine」の消えたはずのアーカイブが見つかったとイーロン・マスクが表明 - GIGAZINE

in AI,   動画, Posted by logu_ii

You can read the machine translated English article The video generation AI 'Grok Imagine 1.….