ソフトウェア

まったく新しい合成音声をユーザーが独自設計できる生成モデル「Design Voice」


画像・文章生成AIが活気づくなか、人工知能と機械学習を使って吹き替えツールを製作するソフトウェア企業・Eleven Labsが、ゼロから新しい合成音声を設計できる音声合成モデル「Design Voice」を作成していることを明らかにしました。

This Voice Doesn't Exist - Generative Voice AI
https://blog.elevenlabs.io/enter-the-new-year-with-a-bang/

Eleven Labsは映画やオーディオブック向けの吹き替えツールを開発している企業。このツールは元の話者の声の性質を維持しながら、自動的に別の言語で読み直すことができるという特徴があります。

Eleven Labsによると、吹き替えツールに使用する音声合成・音声複製手法をひもとくことで、新たな音声合成AIのアイデアが浮かんできたとのこと。実際に開発に移ったEleven Labsは専用のモデルを学習させ、無限に新しい音声を作り出す手法を追求しているそうです。


記事作成時点で開発中のモデルは、性別や年齢、アクセント、ピッチ、話し方など、新しい声のアイデンティティを確立するために基本パラメータを設定することができるとのこと。あらゆる音声を生成できるので、同じ基本パラメータを設定したとしても、それまで存在しなかったまったく新しい音声が得られるとしています。

以下のリンクをクリックすると、Design Voiceが生成したサンプルボイスを再生できます。
・語り口
・ニュース
・会話

ゼロから生成できるという特性から、ニュースやコマーシャルの音声収録といった「独自の音声」を用意する必要があるものや、ストーリーテリングやビデオゲームのような長い音声を必要とするものに有用だとEleven Labsはアピール。


さらに、声優がライセンス契約を結んで独自に音声モデルを訓練し、その対価として料金を受け取ることができるようになる未来もEleven Labsは見据えているとのこと。知的財産権を尊重し、技術が悪用されることのないよう安全策を講じることに全力を注いでいるほか、すべての音声に電子透かしを入れ、瞬時にDesign Voiceだと分かるようにすることにも取り組んでいるそうです。

将来的にはユーザーが自分の声を複製し、自由にしゃべらせるようにできるようにすることも検討中であり、自分の声が単調だと感じている人、録音されるのが嫌な人にとって、自分の声を必要とする作品の制作がより簡単になるとしています。


Eleven Labsは「AIを利用することにより、ゲームであれば開発の初期段階から柔軟な発想と自由な設計が可能になり、ニュース・オーディオブックなどであれば、これまで収録費用を捻出できなかった多くのコンテンツがより多くのプロジェクトに自由に参加できるようになります。自分の声を不滅のものにすることができるようになるのです」と述べました。

この記事のタイトルとURLをコピーする

・関連記事
Microsoftがたった3秒のサンプルから人の声を再現できる音声合成AI「VALL-E」を発表 - GIGAZINE

録音した音声を一発でプロっぽく仕上げてくれる「Enhance Speech from Adobe」を使ってみたレビュー - GIGAZINE

Amazonが音声からアニメーションを作成するAI「Create with Alexa」を発表、子どもたちが音声プロンプトを介して物語を作れるように - GIGAZINE

AIを駆使した音声翻訳システムをMetaが公開、テキストデータの収集が困難なマイナー言語にも対応 - GIGAZINE

in ソフトウェア, Posted by log1p_kr

You can read the machine translated English article here.