2023年11月22日 10時44分ソフトウェア

テキストや画像から動画を生成するAI「Stable Video Diffusion」をStability AIが公開へ

画像生成AI「Stable Diffusion」を開発するStability AIが、テキストや画像から高解像度の動画を生成できる潜在動画拡散モデル「Stable Video Diffusion」を公開しました。

Stable Video Diffusion のご紹介 — Stability AI Japan
https://ja.stability.ai/blog/stable-video-diffusion

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets — Stability AI
https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

Stable Video Diffusionは研究プレビューとして公開されており、ソースコードがGitHubリポジトリで公開されています。

GitHub - Stability-AI/generative-models: Generative Models by Stability AI
https://github.com/Stability-AI/generative-models

また、ローカルでモデルを実行するために必要なウェイトはHuggingFaceで確認できます。

stabilityai/stable-video-diffusion-img2vid-xt · Hugging Face
https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

Stable Video Diffusionは、14フレームおよび25フレームを生成できる2種類のImage to Videoモデルとしてリリースされており、3fps～30fpsでカスタマイズ可能なフレームレートで動画を生成が可能です。

「Ice dragon in the mountains(山にいる氷の龍)」と入力するとその通りのアニメーションが生成されます。

「Astronaut walking on the moon(月を歩く宇宙飛行士)」

「Two blue jays on the top of building(建物のてっぺんに留まる2羽の青いカケス)」

Stability AIは、runway ResearchのGEN-2やpika.artのPikaLabsとユーザーによる映像品質の評価(縦軸)を比べた結果として、以下の棒グラフを公開しています。14フレーム生成できるStable Video Diffusion(紫)の場合はこんな感じ。

25フレーム生成できるStable Video Diffusion XT(紫)の場合が以下。

Stability AIは「Stable Video Diffusionを、私たちの多様なモデルに加えられたことを嬉しく思います。画像、言語、音声、3D、コードなどのモダリティにまたがるStability AI のポートフォリオは、人間の想像力を最大化させるという Stability AI のミッションの証です」とコメントしています。

◆フォーラム開設中
本記事に関連するフォーラムをGIGAZINE公式Discordサーバーに設置しました。誰でも自由に書き込めるので、どしどしコメントしてください！Discordアカウントを持っていない場合は、アカウント作成手順解説記事を参考にアカウントを作成してみてください！

• Discord | "動画生成AIは画像生成AIみたいに盛り上がると思う？" | GIGAZINE(ギガジン)
https://discord.com/channels/1037961069903216680/1176823847232741376

この記事のタイトルとURLをコピーする

・関連コンテンツ

2023年11月22日 10時44分00秒 in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article Stability AI releases “Stable Video Di….