2019年04月25日 12時15分サイエンス

AIを活用して「言葉を話せない人の声を作り出す」ことができるようになるかもしれない

脳の信号と声帯などの動きをAIに学習させて、実際の音声を使用せずに音声を合成することに成功したとの研究結果が科学誌Natureに掲載されました。この技術を応用すれば、脳神経の疾患などにより、これまで言葉を話すことができなかった人が、声でリアルタイムにコミュニケーションを取ることができるようになると期待されています。

Brain signals translated into speech using artificial intelligence
https://www.nature.com/articles/d41586-019-01328-x

Synthetic Speech Generated from Brain Recordings | UC San Francisco
https://www.ucsf.edu/news/2019/04/414296/synthetic-speech-generated-brain-recordings

脳からの信号を読み取って自分の手のように動かせる義手はこれまで多くの成功例があり、3Dプリンターなどの技術の発展なども相まって、かなり実用的な義手が作られるようになってきました。しかし、脳の信号を言葉にする技術は2019年現在のところ確立されておらず、脳卒中や外傷性脳損傷、筋萎縮性側索硬化症(ALS)の患者らは目や顔の筋肉の妙な動きを使ってテキストを作成したり、それを合成音声に変換したりしてコミュニケーションを取っているのが現状です。代表的な例は、筋萎縮性側索硬化症(ALS)を患いながらも物理学研究に多大な功績を残したスティーブン・ホーキング博士です。

スティーブン・ホーキング博士が失った「声」を再び得るようになるまでの物語

しかし、この方法は誤操作が多い上に入力速度も遅く、普通の人が平均して1分間に100～150個の単語を使って話すのに対して、1分間にわずか10個の単語を入力するのが限界です。そこで、新しいアプローチとして脳の信号から直接音声を合成する試みが行われてきました。

脳の信号を読み取り「耳で聞いて理解可能な会話音声」に変換するシステムが誕生

今回、カリフォルニア大学サンフランシスコ校の脳神経外科医エドワード・チャン氏らの研究グループが開発したのは、これらの先行する研究よりもさらに高い精度で音声を合成する、「脳信号を直接音声にするのではなく、脳信号と発声中の口と喉の動きをAIに学習させて合成音声を作成する技術」です。

チャン氏らは、てんかん治療の一環として既に脳の表面に電極を埋め込んでいる患者5名の協力を得て、言葉の生成に関与している脳の領域を測定する実験を行いました。実験では、被験者に何百語もの言葉を話してもらい、脳の活動に加え唇・声帯・舌などの動きも記録。これらのデータをディープラーニングを使用してプログラムに学習させました。すると、脳の活動から直接音声を合成するよりもはるかに聞き取りやすい音声を合成することができるようになったとのこと。

以下のムービーでは、実際に被験者が話した音声と、AIを活用して合成した音声を聞き比べることができます。

Speech synthesis from neural decoding of spoken sentences - YouTube

この技術で合成された音声を第三者に聞いてもらったところ、約70％の確率で単語を識別することができました。長い文章となると約43％にまで精度が落ちますが、それでもリアルタイムで合成された音声としては格段に正確性が高いものになっています。

また、被験者に発声せず口だけ動かしてもらう実験でも、精度はかなり落ちるものの同様に音声を合成することに成功しました。チャン氏らは目下、より高密度な電極を使用して音声合成アルゴリズムを改善させる実験を行っているとのこと。共同研究者であるジョッシュ・シャルティエ氏はこの研究の将来について「発話障害を持つ人々が人工声道を使って再び話すことができるようになることを願っています」と語っています。

・関連コンテンツ

2019年04月25日 12時15分00秒 in 動画, サイエンス, Posted by darkhorse_log

You can read the machine translated English article You may be able to use AI to 'create the….