レビュー

Metaが音楽生成AIモデルをオープンソースで公開、テキスト&音声入力で誰でも高品質な音楽を作成できるように


Metaの研究チームが音楽を生成するAIモデル「MusicGen」を公開しました。オープンソースでの公開となっているため誰でも無料でモデルを利用できるほか、作例やデモが公開されており、その品質を実際に確かめることが可能になっています。

[2306.05284] Simple and Controllable Music Generation
https://doi.org/10.48550/arXiv.2306.05284


MusicGen: Simple and Controllable Music Generation
https://ai.honu.io/papers/musicgen/


MusicGenはChatGPTなどの大規模言語モデルと同様にTransformerを利用したモデルです。言語モデルは文の次の言葉を予測しますが、MusicGenは音楽の次のセクションを予測する仕組み。トレーニングには2万時間分のライセンスされた音楽が利用されており、具体的には1万個の内部データセットのほか、ShutterstockPond5のデータを利用したと述べられています。また、MusicGenを実行するには16GB以上のVRAMを搭載したグラフィックボードが必要です。

生成できる音楽の品質を確かめられるように作例やデモが用意されています。例えば下の音楽は「Pop dance track with catchy melodies, tropical percussion, and upbeat rhythms, perfect for the beach(キャッチーなメロディー、トロピカルなパーカッション、アップビートなリズムのポップダンストラック、ビーチに最適)」という入力を元に生成されています。まさに南国のビーチを想像させる雰囲気に仕上がっており、なかなかの品質と言えそうです。


また、「A grand orchestral arrangement with thunderous percussion, epic brass fanfares, and soaring strings, creating a cinematic atmosphere fit for a heroic battle.(轟音のパーカッション、壮大な金管のファンファーレ、高揚するストリングスを備えた壮大なオーケストラアレンジメント、英雄的な戦いにふさわしい映画的雰囲気を醸し出す)」という入力で生成するとこんな感じに。ゲームのラスボス戦などで流れていても違和感がなさそうな音楽になっています。


そのほか多数の作例がMusicGenの紹介ページに掲載されているので、気になった人は確認してみてください。紹介ページでは別のモデルとの違いも比較可能となっています。


実際にモデルを動かせるデモがHugging Faceにて公開されています。左の入力欄にテキストを入れて「Generate」をクリックすれば12秒の音楽が生成される仕組み。生成した音楽は再生したりダウンロードして保存したりすることが可能です。


いろいろ試してみたところ、自分で考えたオリジナルのプロンプトではどう頑張っても聞くと体調が悪くなるような音楽しか生成できませんでしたが、作例ページからコピーしてきた「a light and cheerly EDM track, with syncopated drums, aery pads, and strong emotions」というプロンプトで生成すると一発でちゃんとした音楽が生成されました。


AIが音楽を生成する時代になっても、プロンプトの入力の仕方には音楽的センスが必要ということのようです。

この記事のタイトルとURLをコピーする

・関連記事
Googleがテキストから音楽を自動生成するAIモデル「MusicLM」を公開へ、学習用データセットの倫理的課題もクリア - GIGAZINE

文章に沿った楽曲を自動生成してくれるAI「Riffusion」登場、画像生成AI「Stable Diffusion」ベースで誰でも自由に利用可能 - GIGAZINE

「好きな曲と似た雰囲気の曲」をAIが1億2000万曲の中から見つけ出してくれる「Maroofy」 - GIGAZINE

AIで作った「AI音楽」が流行、Discord上には2万人超が集まる人気サーバーも - GIGAZINE

人気歌手が「AIで自分の声から曲を作ってもOKでペナルティなし」と発表 - GIGAZINE

in レビュー,   ソフトウェア,   ウェブアプリ, Posted by log1d_ts

You can read the machine translated English article here.