×
ソフトウェア

深層学習を用いて歌からボーカルや楽器だけを抽出する技術が開発される


既存の曲からボーカルや特定の楽器だけをきれいに抽出できる新しい技術を、「End-to-End学習」によるニューラルネットワークを用いて開発したという論文が発表されています。

[1810.12187] End-to-end music source separation: is it possible in the waveform domain?
https://arxiv.org/abs/1810.12187


楽曲からボーカルやギター、ドラムなど、特定のパートを分離して抽出できるニューラルネットワークとして、「DeepConvSep」と呼ばれる畳み込みニューラルネットワークが存在していました。これは、楽曲の周波数に応じてどの音がどれぐらい強くなっているかを示す「マグニチュードスペクトログラム」を分析してから抜き出すという手法もの。しかし、DeepConvSepでは、抜き出したパートの精度が低く、十分に分離できていなかったり、ノイズが多く混じってしまったりしていました。

そこで、Xavier Serra氏率いる研究チームは、「End-to-End学習」によってノイズを除去する畳み込みニューラルネットワーク「Wavenet」と、Wavenetをベースとしてオーディオ波形を直接編集する「Wave-U-Net」を用いて、楽曲から特定のパートを分離・抽出する技術を新たに開発しました。End-to-End学習とは、入力と出力だけをネットワークに渡すことで、その途中で行う処理全てを学習させるという手法です。

実際にWavenetとWave-U-Netを使った例が、以下のウェブサイトで公開されています。

End-to-end Music Source Separation - Audio samples
http://jordipons.me/apps/end-to-end-music-source-separation/


このサイトでは、WavenetとWave-U-Netを使ってボーカルを抽出した例、そしてDeepConvSep・Wavenetによるボーカル、ドラム、ベースの抽出例を、サイトに埋め込まれているプレイヤーの再生ボタンを押すことで試聴することができます。


ボーカルを試聴して比べてみると、DeepConvSepはその他のパート部分がかなり残ってしまっているのに対し、Wavenetではノイズが増しているものの、他パートの除去ができています。また、Wave-U-NetではWavenetよりもさらにノイズが減り、よりスムーズにパート抽出ができていることがはっきりとわかります。

研究チームによると、Wavenetではパート以外を除去し過ぎてぶつ切りになってしまうのに対して、Wave-U-Netはボーカルがない部分で無音を作るのがシステム上難しいため、結果としてよりノイズの少ない編集が可能になっているとのこと。

研究チームは今回の結果を受けて、End-to-End学習によるディープラーニングが楽曲のパート分離技術にとって大きな可能性を秘めていると論じています。

・関連記事
ザトウクジラの生態把握のためAIでクジラの「声」を聴くGoogleの取り組みが進行中 - GIGAZINE

「演奏してみた」ムービーをクリックするだけで特定の楽器の音を抜き出すAIシステムをMITが開発 - GIGAZINE

「複数の音が混ざった音声から特定の1人の声だけを抜き出す技術」をディープラーニングを用いてGoogleが開発 - GIGAZINE

ネット上の画像・ムービーから機械学習アルゴリズムが全自動で3Dモデルを作る恐るべきプロジェクト「VarCity」 - GIGAZINE

フェイクニュースやエセメディアの見抜き方をChromebookアプリで教育するGoogleの試み - GIGAZINE

in ソフトウェア, Posted by log1i_yk