ソフトウェア

テキストや画像から動画を生成するAI「Stable Video Diffusion」をStability AIが公開へ


画像生成AI「Stable Diffusion」を開発するStability AIが、テキストや画像から高解像度の動画を生成できる潜在動画拡散モデル「Stable Video Diffusion」を公開しました。

Stable Video Diffusion のご紹介 — Stability AI Japan
https://ja.stability.ai/blog/stable-video-diffusion


Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets — Stability AI
https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets


Stable Video Diffusionは研究プレビューとして公開されており、ソースコードがGitHubリポジトリで公開されています。

GitHub - Stability-AI/generative-models: Generative Models by Stability AI
https://github.com/Stability-AI/generative-models

また、ローカルでモデルを実行するために必要なウェイトはHuggingFaceで確認できます。

stabilityai/stable-video-diffusion-img2vid-xt · Hugging Face
https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

Stable Video Diffusionは、14フレームおよび25フレームを生成できる2種類のImage to Videoモデルとしてリリースされており、3fps~30fpsでカスタマイズ可能なフレームレートで動画を生成が可能です。

「Ice dragon in the mountains(山にいる氷の龍)」と入力するとその通りのアニメーションが生成されます。


「Astronaut walking on the moon(月を歩く宇宙飛行士)」


「Two blue jays on the top of building(建物のてっぺんに留まる2羽の青いカケス)」


Stability AIは、runway ResearchのGEN-2やpika.artのPikaLabsとユーザーによる映像品質の評価(縦軸)を比べた結果として、以下の棒グラフを公開しています。14フレーム生成できるStable Video Diffusion(紫)の場合はこんな感じ。


25フレーム生成できるStable Video Diffusion XT(紫)の場合が以下。


Stability AIは「Stable Video Diffusionを、私たちの多様なモデルに加えられたことを嬉しく思います。画像、言語、音声、3D、コードなどのモダリティにまたがるStability AI のポートフォリオは、人間の想像力を最大化させるという Stability AI のミッションの証です」とコメントしています。

◆フォーラム開設中
本記事に関連するフォーラムをGIGAZINE公式Discordサーバーに設置しました。誰でも自由に書き込めるので、どしどしコメントしてください!Discordアカウントを持っていない場合は、アカウント作成手順解説記事を参考にアカウントを作成してみてください!

• Discord | "動画生成AIは画像生成AIみたいに盛り上がると思う?" | GIGAZINE(ギガジン)
https://discord.com/channels/1037961069903216680/1176823847232741376

この記事のタイトルとURLをコピーする

・関連記事
ムービーとテキストからフレーム間の一貫性を維持して実用性の高いムービーを生成するAI「StableVideo」 - GIGAZINE

テキストに加えてメロディやテンポなど時間的変化がある要素もコントロール可能な音楽生成モデル「Music ControlNet」が開発される - GIGAZINE

イラスト作品や写真作品を毒化して画像生成AIの学習を阻害できる学習防止ツール「Nightshade」 - GIGAZINE

テキストで指定した音楽を自動で生成するAI「Stable Audio」が登場 - GIGAZINE

画像生成AI「Stable Diffusion」に「悪い例を集めたLoRA」を組み合わせて高品質な画像を生成する手法が登場、簡単に試せるデモも公開されたので試してみた - GIGAZINE

Metaがコーディング補助AI「Code Llama」の無料公開を計画中か - GIGAZINE

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article here.