2023年01月30日 10時50分ソフトウェア

Googleが入力したテキストから自動で作曲するAI「MusicLM」を開発

テキストから画像を自動で生成する「Stable Diffusion」や「DALL・E」のように、入力したテキストの通りに音楽を作曲する自動作曲AI「MusicLM」をGoogleの研究チームが開発しました。

[2301.11325] MusicLM: Generating Music From Text
https://doi.org/10.48550/arXiv.2301.11325

MusicLM
https://google-research.github.io/seanet/musiclm/examples/

Google created an AI that can generate music from text descriptions, but won’t release it | TechCrunch
https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/

MusicLMはのべ28万時間もの音楽で構成されたデータセットでトレーニングされており、「印象的なサックスのソロと歌声」「90年代のベルリンテクノ」など、テキストで指示した通りに作曲するAIとなっています。

Ok now (restrospectively, on high-level) it's kinda simple.

given an training item:
- extract MuLan tokens (M), extract w2v-BERT (S), SS tokens (A)
- train model for M → S.
- train model for [M;S] → A

both done by decoder-only transformers. pic.twitter.com/d1BEsu6ZCx
— Keunwoo Choi (@keunwoochoi)

Googleが発表した論文では、実際にMusicLMが作成した曲が例示されています。以下はプロンプトに「The main soundtrack of an arcade game. It is fast-paced and upbeat, with a catchy electric guitar riff. The music is repetitive and easy to remember, but with unexpected sounds, like cymbal crashes or drum rolls.(アーケードゲームのサウンドトラック。キャッチーなエレキギターのリフがあり、ペースが速くアップビート。音楽は反復的で覚えやすいが、シンバルのクラッシュやドラムロールなどの予想外の音を含む)」と入力した場合。

「A rising synth is playing an arpeggio with a lot of reverb. It is backed by pads, sub bass line and soft drums. This song is full of synth sounds creating a soothing and adventurous atmosphere. It may be playing at a festival during two songs for a buildup.(ライジングシンセがリバーブたっぷりのアルペジオを奏でる。パッドやサブベースライン、ソフトなドラムに支えられている。落ち着いて冒険的な雰囲気を作り出すシンセサウンドでいっぱい。フェスで盛り上げるために曲間に演奏している感じ)」

「Slow tempo, bass-and-drums-led reggae song. Sustained electric guitar. High-pitched bongos with ringing tones. Vocals are relaxed with a laid-back feel, very expressive(スローテンポ、ベース＆ドラム主導のレゲエソング。サステインの効いたエレキギター。鳴りのある甲高いボンゴ。ボーカルはゆったりとした感じでリラックスしており、非常に表現力豊か)」

シンプルに「relaxing jazz(落ち着くジャズ)」と入力すると、こんな感じ。

また、再生時間を指定することで複数の曲調をまとめて1つの曲につなげることができます。例えば、「jazz song (0:00-0:15) pop song (0:15-0:30) rock song(0:30-0:45) death metal song (0:45-1:00) rap song (1:00-1:15) string quartet with violins (1:15-1:30) epic movie soundtrack with drums (1:30-1:45) scottish folk song with traditional instruments (1:45-2:00)」と指定して出力した曲が以下。

また、テキストだけではなく画像とその説明文から音楽を作曲することも可能。以下はサルバトール・ダリの「記憶の固執」の画像と、ブリタニカ百科事典における同作品の説明文をMusicLMに入力して作成された楽曲です。

楽曲にはボーカルやコーラスを付けることも可能。ただし、あくまでも「ボーカルやコーラスっぽく聞こえる」程度であり、その歌詞はかろうじて英語に聞こえるだけでまったく意味を持たない言葉になっています。

Yesterday, Google published a paper on a new AI model called MusicLM.

The model generates 24 kHz music from rich captions like "A fusion of reggaeton and electronic dance music, with a spacey, otherworldly sound. Induces the experience of being lost in space." pic.twitter.com/XPv0PEQbUh
— Product Hunt ???? (@ProductHunt)

Googleの研究チームはMusicLMのようなシステムがもたらす多くの倫理的課題を理由に、MusicLMを一般公開していません。研究チームによると、MusicLMではデータセットに含まれる曲が生成された楽曲にそのまま取り込まれる傾向があるとのこと。ある実験では、システムが生成した楽曲の約1％がデータセットから直接コピーされたものであると判明したそうです。研究チームは、「私たちは、このユースケースに関連する創造的なコンテンツの潜在的な不正利用のリスクを認識しています。私たちは、これらのリスクに取り組む上で、将来的にもっと研究が必要であることを強く主張します」と述べています。

なお、MusicLM自体は一般公開されていませんが、MusicLMの評価に使用されたデータセット「MusicCaps」は以下で公開されています。

MusicCaps | Kaggle
https://www.kaggle.com/datasets/googleai/musiccaps

この記事のタイトルとURLをコピーする

・関連コンテンツ

2023年01月30日 10時50分00秒 in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article here.