動画生成AI「Grok Imagine 1.5 Preview」が動画生成AIベンチマークで世界1位と2位を獲得

2026年6月3日、xAIは画像から動画を生成することができるAIモデルの「Grok Imagine 1.5 Preview」を発表しました。このGrok Imagine 1.5 Previewは、複数のAIベンチマークで世界1位と2位を記録したことが明らかになっています。
Grok Imagine 1.5 Preview | xAI
https://x.ai/news/grok-imagine-1-5

Grok Imagine 1.5 Previewは、1枚の静止画を映画のような動画に変換することができるという動画生成AIです。開始フレームと動きを説明するプロンプトを指定するだけで、カメラワーク・雰囲気・物理法則などを含め、元の画像に忠実に続くシーンを生成することが可能。Grok Imagine 1.5 Previewで生成できる動画の解像度は最大720p(1280×720ピクセル)で、動画の長さは最大15秒です。
Grok Imagine 1.5 Previewで生成した動画の事例は以下の通り。
Grok @Imagine 1.5 Preview is here
— Grok (@grok) June 3, 2026
Try it today in the API: https://t.co/x4Yt13xRu7 pic.twitter.com/L5RDsSZyVP
Grok Imagine 1.5 Previewは自然言語による指示に従って動画を生成します。Grok Imagine 1.5 Previewは入力フレームのディテールとライティングを保持するため、結果は元の画像を再解釈するのではなく、そのまま引き継ぐものとなります。

なお、Grok Imagine 1.5 PreviewはxAI APIを通じてプレビュー版として利用可能です。
そんなGrok Imagine 1.5 Previewが、Artificial Analysisの画像から動画を生成する動画生成AIのクオリティを評価するベンチマークであるVideo Arena(音声あり)で、Seedance 2.0に次ぐ世界2位のスコアを獲得しました。なお、Grok Imagine 1.5 Previewは1分の動画を生成するのに8.40ドル(約1350円)かかります。
Grok debuts grok-imagine-video-1.5-preview, achieving #2 in Image to Video (With Audio) in the Artificial Analysis Video Arena, behind only ByteDance's Seedance 2.0!
— Artificial Analysis (@ArtificialAnlys) June 8, 2026
grok-imagine-video-1.5-preview is @xAI's latest video generation model, currently supporting only Image to Video… pic.twitter.com/VOIFbxMjXz
音声なし版のVideo Arenaでは、Grok Imagine 1.5 Previewは3位にランクイン。
On the Artificial Analysis Image to Video (No Audio) Leaderboard, xAI takes the #2 and #3 spots pic.twitter.com/gfNYkzBwr4
— Artificial Analysis (@ArtificialAnlys) June 8, 2026
「ジャケットのジッパーがスムーズに上方向に引かれます。ジッパーの音は連続しており、スライダーの動きにぴったりと同期し、トップで即座に止まります」というプロンプトで生成した動画を、Grok Imagine 1.5 Preview・Seedance 2.0・HappyHorse 1.0・Veo 3.1と比較したのが以下。Grok Imagine 1.5 Previewが生成した動画では、ジャケットのジッパーをスムーズに上方向に引くことができていますが、GoogleのVeo 3.1はジッパーを引く表現ができません。
Prompt 1/4: A jacket zipper is pulled upwards smoothly. The zipper sound remains continuous and aligned with the slider’s motion, stopping instantly at the top. pic.twitter.com/JfLNDHPSiu
— Artificial Analysis (@ArtificialAnlys) June 8, 2026
「女性は化粧を終え、唇の油分を拭き取り、鏡をチェックし、バッグを手に取り、投げキッスをして、歩き出す。口紅のキャップがカチッと閉まる音、鏡をちらりと見る音、バッグが擦れる音、キスをする音、ヒールの音がカツカツと鳴る」というプロンプトで生成した動画が以下。ここでもVeo 3.1は鏡に映る女性の服と、実際の服の色が異なっています。
Prompt 2/4: She finishes her makeup > blots her lips > checks the mirror > grabs her bag > blows a kiss > walks out. Lipstick cap click, mirror glance, bag rustling, kiss sound, and heels clicking. pic.twitter.com/VQhkJczuA2
— Artificial Analysis (@ArtificialAnlys) June 8, 2026
「宙返りが完璧に決まり、彼女は着地を成功させ、観客は大興奮。着地、両手を上げて歓声を上げる」というプロンプトで生成した動画が以下。
Prompt 3/4: Flip lands perfect, she sticks it, crowd goes wild. Landing, arms up, cheering. pic.twitter.com/o8wUkN0YR4
— Artificial Analysis (@ArtificialAnlys) June 8, 2026
「街が鮮やかな色彩と大胆な線でアニメスタイルに変身する。人々がアニメーションのような動きで動く。柔らかな街の音とローファイ音楽」というプロンプトで生成した動画が以下。
Prompt 4/4: City transforms into anime style with vibrant colors and bold lines. People move with animated motion. Soft city sounds and lo-fi music. pic.twitter.com/RB8HQ8bcAk
— Artificial Analysis (@ArtificialAnlys) June 8, 2026
なお、Grok Imagine Video 1.5 Previewはクラウドソーシング型ベンチマーク・Design ArenaのImage to Video(画像から動画を生成)部門で「Elo 1357」を記録し、Seedance 2.0を上回り1位に輝きました。
Grok Imagine Video 1.5 Preview by @xAI reclaims 1st in Image to Video with an Elo of 1357 on Design Arena.
— Design Arena (@Designarena) June 8, 2026
With this model, @xAI establishes new Pareto frontiers in both Speed and Price, with an average generation time of 41.2 seconds and $0.01/img and $0.08/sec for the 480p… pic.twitter.com/3AyS89mNtk
・関連記事
xAIが動画生成AI「Grok Imagine 1.0」をリリース、GoogleのVeo 3.1を超える性能 - GIGAZINE
xAIが動画生成AI「Imagine v0.9」を発表、規制の緩さで話題の「Grokの動画生成機能」がアップデートされる - GIGAZINE
Grokの生成AI「Imagine」にはポルノなど規制対象のコンテンツを積極的に生成できる「スパイシー」機能が存在、早速有名人のディープフェイクが作成されて問題に - GIGAZINE
Grokに動画生成機能「Imagine」が追加される&短編動画アプリ「Vine」の消えたはずのアーカイブが見つかったとイーロン・マスクが表明 - GIGAZINE
・関連コンテンツ
You can read the machine translated English article The video generation AI 'Grok Imagine 1.….







