2024年06月06日 07時00分サイエンス

18世紀に作られた人間の音声をシミュレートする機械たちの知られざる歴史

近年では、AI技術や合成音声技術の進歩に伴って、まるで人間の声のような音声シミュレーションは目覚ましい発展を遂げています。しかし、18世紀のヨーロッパでも、人間の声をシミュレートするような技術や機械が数多く開発されていました。

“You Are My Friend”: Early Androids and Artificial Speech — The Public Domain Review
https://publicdomainreview.org/essay/early-androids-and-artificial-speech/

最初の「人間の機能を模した」アンドロイドが誕生したのは、1738年2月のこと。エンジニアのジャック・ヴォーカンソンがアントワーヌ・コワズヴォーの「フルートを演奏する羊飼い」をモデルに製作し、パリのサンジェルマン見本市で展示されたアンドロイドは、これまでの音楽用オートマタなどとは異なり、フルートを演奏することが可能でした。

見本市を訪れた多くの参加者は「内部に自律的な機構が付いており、アンドロイドは演奏するふりをしているだけに違いない」と懐疑的な目を向けましたが、このアンドロイドは3組のふいごや唇、舌、パッド入りの指を搭載することで、実際にフルートを演奏することが可能で、当時の見本市参加者を驚かせました。

ヴォーカンソンによると、このアンドロイドは2組の歯車に取り付けられた重りによって動作していたとのこと。下段の歯車はクランク付きの車軸を回転させることで、3組のふいごに動力を供給し、異なる3種類の強さの息を発生させていました。また、上段の歯車はカム付きのシリンダーを回転させ、アンドロイドの指や舌、唇の制御を担うレバーを稼働させていました。

フルートを実際に演奏できる機械を設計するために、ヴォーカンソンは人間のフルート奏者の詳細な研究や観察を行ったそう。この結果、人間のフルート奏者の技術をアンドロイドに反映させることに成功しました。

また、ヴォーカンソンは1739年に、左手に持ったパイプで20種類のメヌエットなどを演奏できるマシンや、肩にかけた太鼓を演奏するマシンを開発しています。

18世紀半ばになると、実験哲学者や機械学者らは「発話は呼吸や消化と同様の身体機能」と仮定し、「話すことは本質的に有機的なプロセスであり、機械では再現不可能」と予言しました。哲学者で作家のアントワーヌ・コート・ド・ジェブランは「声帯の震えや筋肉の揺れ、空気が口の側面に与える影響など、これらの現象は生体内でしか起こり得ません」と指摘。一方で唯物論者のジュリアン・オフレイ・ド・ラ・メトリーはヴォーカンソンのマシンを基に「話す機械の開発はもはや不可能なことではない」と主張しました。

そして、チャールズ・ダーウィンの祖父であるエラスムス・ダーウィンは1771年に「柔らかい革の唇と、鼻孔用のバルブを取り付けた木製の口を考案した」と発表。絹のリボンでできた咽頭を持っていたこの機械は「ママ」「パパ」「マップ」「パム」といった幼児語を話すことが可能でした。

さらにフランスのミカル修道院長は1778年に、2つの人工声帯を取り付けた機械をパリ科学アカデミーに寄贈しています。この機械には異なる2つの人形の頭が取り付けられており、「王はヨーロッパに平和を与える」「平和は王に栄光の冠をかぶせる」「そして、平和は人々の幸福を作る」「おお、王よ、あなたの民の愛すべき父よ、彼らの幸福はヨーロッパにあなたの玉座の栄光を示しています」といったルイ16世を賛美する掛け合いが可能だったとのこと。なお、作家のルイ・プティ・ド・バショーモンは「かすれ声で、非常にゆっくりとした会話だった」と指摘しています。

それでも、ミカル修道院長の機械を調査した学者たちは「人間を模倣して作られており、人間の発声メカニズムに非常に近いものとなっています」と評価。その後、ミカル修道院長はアカデミー・デ・サイエンスの手引きを受け、ルイ16世への謁見(えっけん)を果たしたそうです。

人間の声をシミュレートするような機械は「トーキングヘッズ」と呼ばれ、オルガンパイプを使用して作られた人工声帯を構築したC.G.クラッツェンシュタインや、エンジニアのヴォルフガング・フォン・ケンペレンなどが独自のトーキングヘッズを開発しています。

1800年代に入ると、トーキングヘッズの開発は陰りを見せ、「実際の音声器官や音声の生理学的プロセスを再現しようとするのではなく、他の手段で人間の音声を再現しよう」という風潮が強まりました。

しかし、1840年代後半にドイツ系移民のジョセフ・ウェイバーは「ユーフォニア」と呼ばれるトーキングヘッズを開発しています。ユーフォニアにはリアルな顔面が取り付けられているほか、ふいごや声帯、舌、可変共鳴室、ゴム製の口蓋、下顎、頬を持つ口腔(こうくう)が内蔵されていました。ユーフォニアは全ての母音と子音を発音することが可能で、レバーに接続された17鍵の鍵盤を操作することで声に抑揚を付けることが可能でした。

1844年にユーフォニアはニューヨーク市で初めて展示され、その後フィラデルフィアでも展示、1870年代後半にはパリで展示されましたが、大きな関心を生むことはなく、静かに忘れ去られていったとのこと。

20世紀に入ると、科学技術の発展に伴って機械的な音声シミュレートから電気的な音声合成技術の開発に移行し、声帯の震えや気道、しなやかな舌や口など、発話の器官と発話プロセスのシミュレーションは科学の表舞台から姿を消すことになりました。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2024年06月06日 07時00分00秒 in サイエンス, Posted by log1r_ut

You can read the machine translated English article The untold history of 18th-century machi….