メモ

Siriの機械音声はどのように作られて会話を可能にしているのか?

By Yogesh Mhatre

iOS向け秘書機能アプリケーションソフトウェアであるSiriは、話しかけるだけでiPhoneの機能を起動してくれる発話解析・認識インターフェースです。そんな簡単な会話も可能なSiriの音声がどのようにして生まれたのかがまとめられています。

Machine language: how Siri found its voice | The Verge
http://www.theverge.com/2013/9/17/4596374/machine-language-how-siri-found-its-voice

2011年のある日、MTV、ドミノ・ピザやニコロデオンなどの、有名なCMへの出演経験を持つ37歳の女優であるデイさんは、仕事のためNUANCE社を訪れました。彼女は「Text-to-Speech(テキスト読み上げシステム)」製品の仕事とだけしか知らされていませんでしたが、彼女は以前のCMで10代~20代前半の声を出すことができたため、Text-to-Speechの仕事に関しても期待されていました。


そして彼女は、小さな防音室で1日に6~7時間、8日間に渡って彼女が座っていられる限り、「不思議の国のアリス」を一節ずつを読んだり、AP Wire(ニュースサイト)のニュースからランダムに文章を朗読し、「One! One。One? 」と同じ単語を異なるアクセントで読み続けました。

彼女は機械音声を作るための仕事がこれほどまで厳しいことは予想しておらず、4日目には声がすっかり枯れてしまい、休憩をとらなければならないほどで、並大抵ではない声優の努力がSiriの音声の基となっているようです。


Googleはイギリスの音声合成の製作会社を購入し、AmazonはKindle Fireのためにivona社を購入するなど、各社が巨額の投資を行っており、もともと身障者のために開発されたシステムが、今ではデバイスや車のナビに話しかけるだけでスターバックスに行くことができるほど一般的なシステムに。


音声認識とText-to-Speech産業から独立し、世界で最も大きな会社となったNUANCE社の最新音声デザイン・開発部門上級職であるブラント・ウォード氏は、「コンピューターに話しかけている、と思わないでください」と述べています。

言葉には強弱によって意味合いが変わるものがあるため、映画などで見られる棒読みのようなロボットの声は聞きとり辛く、認知的不協和を感じます。コンピューターに話しかけていると思わせてしまうことによって、ユーザーの話し方にも変化が表れてしまうと認識できないことがあるとのこと。


機械音声を自然に聞こえるように合成するのは困難な作業でした。単純に辞書の単語をつなぐだけでは実用的な合成音声にならず、ピッツバーグのText-to-Speechを製作するCepstral社のエンジニアであるアダム・ウェイメント氏は「振動が声帯を通り、鼻から漏れたり、舌のまわりで反響して声と聞こえます。

声自身がきれいな矩形波(くけいは)なのではなく、柔らかい組織で振動することが重要なのです」と述べています。シンセサイザーによる合成では人間的な音声の合成はできず、子どもさえ、Speak & Spellのオモチャが、実際に考えて話しているとは思いません。


コンピューターは即座に言葉の正しい組み合わせを巨大なデータベースから隅々まで検索できる速度を得て、合成音声の技術はますます飛躍しています。もともと「2001年宇宙の旅」の話すコンピューターHAL9000からのインスピレーションからボコーダーが使われていました。

Siriの合成音声には声優などベースとなる人間の音声が必要。ウォード氏は、「人の音声に少しのシンセサイザー音声を合成することで自然な合成音声になりますが、今に、シンセサイザーだけで自然な合成音声ができるでしょう」と言います。また、ミネソタ大学の音声言語および聴覚科学の教授であるベンジャミン・マンソン氏の目標は、Siriに「パラ言語学」と言われる通常の音声に重要な、感情や社会特性と洞察力を備えることです。


デイさんやアリソン・ダフティさんのようにナレーターの仕事もこなす女優もいますが、機械言語のために受けた仕事を喜んで公に話す人はわずかとのこと。

声優タレント会社Voices.comのマーケティング最高責任者であるCiccarelli氏は「私たちの業界で、Text-to-Speechは脅威と見なされており、今はまだお粗末なものと思っていますが、機械言語の発達は人間の声優にうって代わるかもしれません」と声優業界が萎縮する可能性について述べています。

この記事のタイトルとURLをコピーする

・関連記事
Siriに話しかけて部屋のライトを付けたり消したりすることができるようになる「SiriProxy-iRemocon」 - GIGAZINE

Siri関連機能を強化した「iOS 6」リリース、iPadでもSiriが利用可能に - GIGAZINE

iPhoneを盗まれてもSiriががっちり秘密を守ってくれる新機能ムービー - GIGAZINE

日本の電子書籍の来るべき未来、AmazonのKindle戦略を徹底解説 - GIGAZINE

「ロボダンボー」を調教していろいろな動きをさせてみました - GIGAZINE

in メモ,   ソフトウェア, Posted by darkhorse_log

You can read the machine translated English article here.