ソフトウェア

声に含まれる「感情」を分析して話者の顔をアニメーションで自動生成するAIが開発される

by pxhere

話している人の声には、性別、年齢、民族など、話者のアイデンティティが表れます。人工知能(AI)技術の進歩によって、人の声から話している人の顔を予想して画像を生成するAIも登場していますが、Microsoftは音声をさらに細かく分析することによって、話者の感情だけでなく顔の表情までアニメーション映像で再現可能なAIを開発しました。

Animating Face using Disentangled Audio Representations
https://arxiv.org/pdf/1910.00726.pdf


Microsoft's AI generates high-quality talking heads from audio | VentureBeat
https://venturebeat.com/2019/10/07/microsofts-ai-generates-high-quality-talking-heads-from-audio/


これまで会話音声をAIで分析する研究で使われるデータセットには、「非常に聞き取りやすく冷静にハキハキと話す会話音声」が多く使われています。しかし、人間が実際に会話を行う状況は、周りに雑音が多く、声にも話者の感情やさまざまなクセが乗るもの。

by pixabay

Microsoftの研究チームは「私たちみんなが知っているように、会話音声は多様性に満ちています。異なる人々が異なる文脈で同じ単語を発声すれば、そのスピードや音程、トーンは変わってきます。また、話者の感情的な状態や性別、年齢、民族、個性を表す抱負な情報が会話の音声には含まれています」と述べ、変分型オートエンコーダー(VAE)を使って会話音声の分析を行いました。

研究チームは、34人の話者から提供された1000件以上の録音や、民族的に多様な91人が会話する7442本の映像、さらにスピーチムービーから取得した10万件を超える音声をデータセットに使い、VAEを学習させました。

VAEは入力された会話音声の波形を、音声の内容、話者の感情、その他さまざまな変動要因を分析します。


そして、入力された顔画像と分析結果を映像ジェネレーターに送り、アニメーションを作成するとのこと。


研究チームは、「私たちの研究は音声表現学習の観点からAIの性能を改善するという最初のアプローチです」「ノイズが多く感情的な会話音声でテストしてこのモデルを検証し、私たちのアプローチが最先端技術を大きくしのぐ精度が出ることを示した」と主張しました。

この記事のタイトルとURLをコピーする

・関連記事
「声」から話者の顔画像を生成するAIが開発される - GIGAZINE

Amazonが「声」からあなたの感情を読み取るウェアラブル端末を開発中 - GIGAZINE

テキストを修正するだけでムービー中の言い間違いを簡単に修正可能な技術が開発される - GIGAZINE

GoogleのAIが「ムービーの最初と最後のコマ」から途中のコマを生成することに成功 - GIGAZINE

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article here.