2018年11月05日 07時00分ソフトウェア

深層学習を用いて歌からボーカルや楽器だけを抽出する技術が開発される

既存の曲からボーカルや特定の楽器だけをきれいに抽出できる新しい技術を、「End-to-End学習」によるニューラルネットワークを用いて開発したという論文が発表されています。

[1810.12187] End-to-end music source separation: is it possible in the waveform domain?
https://arxiv.org/abs/1810.12187

楽曲からボーカルやギター、ドラムなど、特定のパートを分離して抽出できるニューラルネットワークとして、「DeepConvSep」と呼ばれる畳み込みニューラルネットワークが存在していました。これは、楽曲の周波数に応じてどの音がどれぐらい強くなっているかを示す「マグニチュードスペクトログラム」を分析してから抜き出すという手法もの。しかし、DeepConvSepでは、抜き出したパートの精度が低く、十分に分離できていなかったり、ノイズが多く混じってしまったりしていました。

そこで、Xavier Serra氏率いる研究チームは、「End-to-End学習」によってノイズを除去する畳み込みニューラルネットワーク「Wavenet」と、Wavenetをベースとしてオーディオ波形を直接編集する「Wave-U-Net」を用いて、楽曲から特定のパートを分離・抽出する技術を新たに開発しました。End-to-End学習とは、入力と出力だけをネットワークに渡すことで、その途中で行う処理全てを学習させるという手法です。

実際にWavenetとWave-U-Netを使った例が、以下のウェブサイトで公開されています。

End-to-end Music Source Separation - Audio samples
http://jordipons.me/apps/end-to-end-music-source-separation/

このサイトでは、WavenetとWave-U-Netを使ってボーカルを抽出した例、そしてDeepConvSep・Wavenetによるボーカル、ドラム、ベースの抽出例を、サイトに埋め込まれているプレイヤーの再生ボタンを押すことで試聴することができます。

ボーカルを試聴して比べてみると、DeepConvSepはその他のパート部分がかなり残ってしまっているのに対し、Wavenetではノイズが増しているものの、他パートの除去ができています。また、Wave-U-NetではWavenetよりもさらにノイズが減り、よりスムーズにパート抽出ができていることがはっきりとわかります。

研究チームによると、Wavenetではパート以外を除去し過ぎてぶつ切りになってしまうのに対して、Wave-U-Netはボーカルがない部分で無音を作るのがシステム上難しいため、結果としてよりノイズの少ない編集が可能になっているとのこと。

研究チームは今回の結果を受けて、End-to-End学習によるディープラーニングが楽曲のパート分離技術にとって大きな可能性を秘めていると論じています。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2018年11月05日 07時00分00秒 in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article Technology to extract only vocals and mu….