2019年01月30日 20時00分サイエンス

脳の信号を読み取り「耳で聞いて理解可能な会話音声」に変換するシステムが誕生

by rawpixel

コロンビア大学でニューロエンジニアリングについて研究するニマ・メスガラニ准教授が、脳の信号を「耳で聞いて理解可能な会話音声」に変換するシステムを作成しました。このシステムを用いれば口に出さなくても脳の信号を読み取るだけで、何を考え話そうとしているかが理解できるようになります。

Towards reconstructing intelligible speech from the human auditory cortex | Scientific Reports
https://www.nature.com/articles/s41598-018-37359-z

Columbia Engineers Translate Brain Signals Directly into Speech | Zuckerman Institute
https://zuckermaninstitute.columbia.edu/columbia-engineers-translate-brain-signals-directly-speech

メスガラニ准教授がコンピューターを用いて脳波を直接理解可能な会話音声に変換するシステムを開発しました。このシステムは、これまでに前例のないレベルで脳波から人の話し言葉を生成することが可能です。システムは音声合成器と人工知能を活用したものとなっており、コンピューターが脳と直接通信するための新しい方法につながる技術として期待が集まっています。

メスガラニ准教授のシステムは、筋萎縮性側索硬化症(ALS)患者や脳卒中から回復した人など、脳は機能しているものの上手く話すことができない人が外界とのコミュニケーション能力を取り戻すための大きな助けとなる可能性があります。なお、メスガラニ准教授の研究結果は科学誌のScientific Reportsで公開されています。

by Daniel Sandvik

脳波を直接理解可能な会話音声に変換するための研究でリーダーを務めたメスガラニ准教授は、「我々の声は、周囲の友人や家族および世界中の人々とつながるための役に立つものです。よって、怪我や病気で自分の声が出せなくなってしまうということは、とても悲しいことです。しかし今回の研究により、我々はその力(声を出すということ)を取り戻すための方法を見つけたということになります。正しい技術を使えば、1度声が出せなくなってしまった人であっても、再び聞き手に理解してもらうことが可能な会話が行えるようになるということを示すことができました」と、研究の意義について語っています。

過去数十年にわたる研究から、人間が言葉を発する際、もしくは何か話すことをイメージする時でさえ、人間の脳には明らかな活動パターンが現れることが明らかになっています。また、反対に誰かの話を聞く時、もしくは聞くことを想像する時にも、脳でははっきりと認識可能な信号パターンが現れます。これらのパターンを記録し、その内容を解読するという研究はこれまでにも行われてきました。

メスガラニ准教授も同じように脳の信号から話そうとしていた内容を解読するという研究を行ってきた人物で、同分野における初期の研究では脳の一次聴覚野から記録した信号を分析して会話内容を再構成しようとするコンピューターモデルの作成を行っています。しかし、このアプローチでは理解しやすい会話音声を生成することが困難であったため、メスガラニ准教授ら研究チームは別の手法に挑戦することとなります。その方法とは、「人間の会話音声を用いて訓練したコンピューターアルゴリズムで信号から会話の内容を分析し、合成音声で会話音声を表現する」というヴォコーダーを用いたアプローチでした。

by rawpixel

メスガラニ准教授ら研究チームは、ヴォコーダーに脳の活動パターンを教えるために、グレートネック神経科学研究所で働く神経外科医であり、研究論文の共同著者にもなっているAshesh Dinesh Mehta氏らとチームを組んでいます。Mehta氏はてんかん患者の治療を行ってきた人物で、患者の何人かは定期的に手術を受けなければいけないという問題を抱えていたそうです。

研究チームは既に脳外科手術を受けているてんかん患者に対して、会話を聞かせながら脳活動のパターンを測定するという調査を行いました。この際に記録した脳活動パターンをヴォコーダーに学習させることで、脳活動から「どのような会話内容をイメージしているのか？」を予測できるように訓練したわけです。

続いて、研究者らは被験者に対して「0から9までの数字を数える声」を聞かせ、その際に記録された脳活動のパターンをヴォコーダーにインプットしました。すると、ヴォコーダーは「0から9までの数字を数える声」を聞いた際に発生した脳活動のパターンから、独自の合成音声を出力することに成功します。この音声を、生物学的に脳内のニューロン構造を模倣した一種の人工知能であるニューラルネットワークで分析し、人間でも聞き取り可能なレベルに処理したのが以下の音声です。

以下の画像をクリックすると、メスガラニ准教授らが開発したシステムによる、「脳の活動パターンを分析して生成した音声」が再生できます。少し聞き取りづらいものの、英語で0から9までの数字を読み上げていることがわかります。

実験の結果、システムが正しく脳波から会話内容を生成できる確率は75％だったそうです。これは過去の同様の試みの中では格段に優れた精度であり、メスガラニ准教授の以前の研究結果と比較しても、生成された音声の理解しやすさは段違いでした。実験結果について、メスガラニ准教授は「敏感なヴォコーダーと、強力なニューラルネットワークの組み合わせにより、驚くべき正確さで患者が聴いていた音を生成することができました」と語っています。

今後、研究チームはより複雑な単語や文章で同様のテストを行うことを計画しています。また、「話を聞いた際の脳信号」から会話音声を生成するのではなく、「話をしようとした際の脳信号」から会話音声を生成する実験を行うことも視野に入れているようです。研究チームは最終目標として、てんかん患者が自身の考えを直接言葉として発するためのインプラント技術の開発を挙げています。

なお、メスガラニ准教授は「このシステムは大きな変革をもたらしてくれるでしょう。なぜなら、怪我であろうと病気であろうと、話す能力を失ってしまった人に、再び世界とつながる新しい機会を与えてくれるのですから」と語っています。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2019年01月30日 20時00分00秒 in ソフトウェア, サイエンス, Posted by logu_ii

You can read the machine translated English article A system that reads the signal of the br….