ソフトウェア

「声」から話者の顔画像を生成するAIが開発される


話している人の「」だけでも、性別・年齢や、ときには出身地などの情報が判別できます。「Speech2Face」は人の声と話し方から話者の顔を予想して画像を生成するというAIで、音声から人の身体的特徴を導き出すために開発されています。

Speech2Face: Learning the Face Behind a Voice
https://speech2face.github.io/

[1905.09773] Speech2Face: Learning the Face Behind a Voice
(PDF)https://arxiv.org/pdf/1905.09773.pdf

AI Listened to People's Voices. Then It Generated Their Faces.
https://www.livescience.com/65689-ai-human-voice-face.html

Speech2FaceはYouTubeに投稿されたムービーから話者の「年齢」「性別」「人種」「話し方」と「声」の関係性についての機械学習を行って、声から話者の顔の画像を予想して生成するというものです。学習に使用されたムービーは何百万にものぼり、Speech2Faceは10万人以上の声と顔を学習したそうです。

Speech2Faceが実際に声から生成した「顔の画像」がこれ。左側の列の写真はオリジナルの顔、真ん中の列は顔を正面に向けメガネなどを外すようにオリジナルの画像を加工したもの、右側の列がSpeech2Faceが声から生成した顔の写真です。実際の顔とSpeech2Faceによる顔では細かい造形は異なりますが、人種・性別・年齢などは合致しているように見えます。なお、Speech2Faceが生み出す顔画像はすべて無表情になります。


研究によると、Speech2Faceによって生み出された顔画像は年齢・人種・性別を大半のケースで正解させ、入力する音声が長くなるほど精度が上昇するものの、「完璧」とは言いがたい精度とのこと。同じ人でも、「中国語を話している音声」と「英語を話している音声」それぞれから顔画像を生成させると、英語を話している場合には白人の顔画像(画像左)を、中国語を話している場合にはアジア人の顔画像(画像右)を生成してしまうケースもみられています。下の画像をクリックしたリンク先では、入力した音声を実際に聞くことも可能です。


また、低音の声は男性、高音の声は女性の顔画像を生成するという傾向もあるようです。

この記事のタイトルとURLをコピーする

・関連記事
この世に存在しない「架空の猫」の写真を自動生成しまくれる「This cat does not exist」 - GIGAZINE

赤ちゃんの泣き声の意味をAIで聞き分けることが可能に - GIGAZINE

ビル・ゲイツそっくりの声で話すAIをFacebookのエンジニアが開発 - GIGAZINE

GoogleのAIが「ムービーの最初と最後のコマ」から途中のコマを生成することに成功 - GIGAZINE

Amazonが「声」からあなたの感情を読み取るウェアラブル端末を開発中 - GIGAZINE

テキストを修正するだけでムービー中の言い間違いを簡単に修正可能な技術が開発される - GIGAZINE

in ソフトウェア, Posted by log1k_iy

You can read the machine translated English article here.