2022年12月16日 12時00分レビュー

文章に沿った楽曲を自動生成してくれるAI「Riffusion」登場、画像生成AI「Stable Diffusion」ベースで誰でも自由に利用可能

入力した文章(プロンプト)に沿って画像を生成してくれるAI「Stable Diffusion」は、モデルデータが一般公開されていることから多くの人にカスタマイズを施されています。そんなStable Diffusionのモデルを調整して、文章を入力するだけで楽曲を生成してくれるAI「Riffusion」が開発されました。

Riffusion
https://www.riffusion.com/

Riffusionの開発チームは、誰でも簡単にRiffusionを利用できるようにしたウェブアプリを公開しています。ウェブアプリにアクセスすると、画面右側に「post-teen pop talent show winner(賞を勝ち取った10代のアーティスト)」というプロンプトが表示されます。楽曲を再生するには、画面右上の再生ボタンをクリックすればOK。

再生ボタンをクリックすると、画面左側の図形が上方向にスクロールされ始め、楽曲の再生が始まります。楽曲は、確かに10代のアーティストっぽい仕上がり。

画面下部にはプロンプトの入力欄が表示されており、自由にプロンプトを入力して楽曲を生成できるようになっています。試しに、「japanese pop(J-POP)」と入力してEnterキーを押してみました。

プロンプトを入力すると、入力欄の上部に配置された「次に再生する楽曲欄」にプロンプトが表示されます。しかし、記事作成時点ではサーバーが負荷に対応できていないようで、画面左上に負荷が高すぎることを示す通知が表示されて楽曲を生成することはできませんでした。

画面上部には、あらかじめ生成済みの楽曲のプロンプトが並んでいます。試しに、「classical italian tenor operatic pop(古典イタリア風テノールオペラポップ)」というプロントをクリックしてみます。

すると、画面が切り替わるので、画面右上の再生ボタンをクリック。

楽曲が再生され始めました。言われてみればオペラ風かつポップな曲調に思えます。

上記の例ではプロンプトが難解だったのでAIの力を実感しにくかったのですが、「typing」というプロンプトで生成された楽曲を再生してみたところ、タイピング音をサンプリングして構成したように聞こえる楽曲が生成されました。たった1単語で狙い通りの楽曲を生成できるのは驚異的です。

Riffusionの解説ページによると、Stable Diffusionではプロンプトから画像を生成していますが、RiffusionではStable Diffusionに調整を加えることで「プロンプトに関連する楽曲をスペクトログラムに変換した画像」を出力できるようにしたとのこと。

そして、生成したスペクトログラムを音声データに変換することで「プロンプトに沿った楽曲を生成」という動作を実現しています。例えば、上記の画像下部に示されたスペクトログラムを音声データに変換すると、以下のようになります。

・楽曲の例

Stable Diffusionには、画像を入力して入力画像と似た画像を生成する「img2img」と呼ばれる機能が搭載されています。Riffusionでもimg2imgのような機能を利用可能で、楽曲を入力して似た楽曲を出力できるとのこと。「似た楽曲を出力する機能」の例は、以下の音声データを生成すると良く分かります。

・元となった楽曲

・元の楽曲をピアノ風に変換した楽曲

また、Riffusionでは生成した複数の短い楽曲をつなぎ合わせて長い楽曲にするための補間機能も搭載されています。この補間機能では、似た楽曲同士だけでなく、異なる雰囲気の楽曲同士も違和感なくつなぎ合わせることが可能。例えば、以下の例ではタイピング音からジャズへとスムーズに移行する様子を確認できます。

・タイピング音からジャズにスムーズに移行

Riffusionのソースコードやモデルデータの情報は、以下のリンク先で公開されています。

GitHub - hmartiro/riffusion-app: Stable diffusion for real-time music generation
https://github.com/hmartiro/riffusion-app