ソフトウェア

まるで本物の人間のように表現力豊かに発話できるAIをNVIDIAが開発中


半導体メーカーであり人工知能(AI)技術の開発も行うNVIDIAが、人間の声と聞き間違うレベルで自然に発話可能なAIを開発中であることを、音声処理関連の技術カンファレンスであるINTERSPEECH 2021で発表しました。

NVIDIA Shares Speech Synthesis Research at Interspeech | NVIDIA Blog
https://blogs.nvidia.com/blog/2021/08/31/conversational-ai-research-speech-synthesis-interspeech/


合成音声は、自動案内サービスの音声や昔のカーナビの案内では機械的だったのが、スマートフォンやスマートスピーカーに搭載されたバーチャルアシスタントではかなり人間らしく洗練されたものに進化しました。


それでも、依然として実際の人間による会話の音声と合成音声との間には大きな差があり、本物の人間の声なのかAIの合成音声なのかを聞き分けることは簡単にできます。NVIDIAによれば、AIが人間の声に含まれる複雑なリズムやイントネーションを完全に模倣するのは難しいとのこと。

NVIDIAが新製品や新技術を紹介する時の映像では、これまで人間がナレーションを務めていました。これまでの音声合成モデルでは、合成できる音声のテンポや音程のコントロールに限りがあったため、人間のナレーターのように視聴者の感情を刺激するような話し方は不可能だったためです。


しかし、NVIDIAの音声合成研究チームがテキスト読み上げ合成技術の「(PDFファイル)RAD-TTS」を開発してから、NVIDIAの音声合成技術が大きく進歩したとのこと。そして、NVIDIAが自動音声認識・自然言語処理・テキスト読み上げ合成に取り組む研究者向けにオープンソースで開発する会話型AIツールキットが「NVIDIA NeMo」です。人間の声を楽器と見立てることで、合成された声のピッチや持続時間、強さをフレームレベルで細かくコントロールすることができます。

「NVIDIA NeMo」による音声合成が実際にどんな感じなのかは、以下のムービーを見るとよくわかります。

All the Feels: NVIDIA Shares Expressive Speech Synthesis Research at Interspeech - YouTube


NVIDIA所属の映像クリエイターであるデヴィッド・ワイスマン氏がマイクに向かってセリフを読み上げます。


エンジニアがAIモデルを使って音声を変換。


ワイスマン氏のナレーションが女性ナレーターの声に変換されました。通常、機械音声には独特の抑揚があって違和感を覚えることがよくありますが、この女性ナレーターに変換された音声には全く違和感がなく、非常になめらかに再生されています。また、AI側で合成された音声を調整して特定の単語を強調したり、ナレーションの速度を変更することで映像と合わせたりすることも可能になります。NVIDIAが最近公開したムービーのナレーションにも、基本的にはこのNVIDIA NeMoによって合成あるいは変換された音声が使われているそうです。


音声合成はナレーション以外にも、音楽制作の場面で活躍します。例えば楽曲を制作する時、コーラスパートはどうしても複数人の歌声を録音して重ねる必要があります。しかし、合成音声を使うことで複数の人間を集めなくてもコーラスパートを収録することが可能になります。


NVIDIA NeMoに収録されているAIモデルはNVIDIA DGX システム上で何万時間もの音声データを使って学習済みで、NVIDIA製GPUのTensorコアを使って動作します。また、NVIDIA NeMoでは、76言語・約1万4000時間の音声データを含むデータセットであるMozilla Common Voiceで学習したモデルも提供されているとのこと。NVIDIAは「世界最大のオープンな音声データセットを用いて、私たちは音声技術の民主化を目指しています」とコメントしています。

なお、NVIDIA NeMoはGitHubでソースが公開されています。

GitHub - NVIDIA/NeMo: NeMo: a toolkit for conversational AI
https://github.com/NVIDIA/NeMo/tree/main/docs

この記事のタイトルとURLをコピーする

・関連記事
NVIDIAが基調講演に使った「キッチンでしゃべるCEOの映像」が自社製ツールで作ったCGであることが明らかに - GIGAZINE

NVIDIAの低消費電力&超高性能なスーパーコンピューター「Cambridge-1」が正式稼働 - GIGAZINE

ライブ配信ソフト「OBS Studio」でNVIDIAのノイズ除去フィルタが利用可能に、実際に使ってみるとこんな感じ - GIGAZINE

イラストを線画に変換する「Anime2Sketch」が登場 - GIGAZINE

NVIDIAが対話型AIのフレームワーク「Jarvis」の提供を開始 - GIGAZINE

NVIDIAがセキュリティ上の脅威を検出・防止するためのAIフレームワーク「Morpheus」を発表 - GIGAZINE

in ソフトウェア,   動画, Posted by log1i_yk

You can read the machine translated English article here.