NVIDIAが「これまでに聞いたことのない音」をテキストや音声から作り出せるAIオーディオジェネレーター「Fugatto」を発表
NVIDIAが、テキストと音声から音声を生成するAI「Fugatto(Foundational Generative Audio Transformer Opus 1)」を発表しました。楽曲を生成するAIはこれまでにも存在しましたが、Fugattoは入力したテキストや音声を基に既存の曲から1パートを抽出したり、声のアクセントや感情を変更したり、これまで聞いたことのない音を生成したりできるのが特徴です。
fugatto.github.io
https://fugatto.github.io/
Fugatto 1 Foundational Generative Audio Transformer Opus 1
(PDFファイル)https://openreview.net/pdf?id=B2Fqu7Y2cd
Fugatto, World’s Most Flexible Sound Machine, Debuts | NVIDIA Blog
https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
FugattoがどんなAIなのかは以下のムービーを見ると一発でわかります。
Audio AI Fugatto Generates Sound from Text | NVIDIA Research - YouTube
ムービーでは、「深い、轟くようなベース音のパルスと、断続的な高音のデジタルなチャープ音が組み合わさっており、まるで巨大な知的機械が目覚めるような音」とテキストプロンプトで指定した場合の音を聞くことができます。「巨大な知的機械が目覚めるような音」というかなり独創的な表現ですが、Fugattoはそれらしい音を生成しています。
また、入力した音声からボーカルだけを抽出することも可能。
「アメリカ英語のアクセントで『子どもたちがドアの近くで話している』という落ち着いた声」と指定すると、かなり自然な発話音声が生成されました。
さらに、「落ち着いた声から怒った声に」と指定すると、声の感情ががらりと変わり、男性のやや荒い声に変換されます。
自分の作成した楽曲を入力して「ドラムとシンセサイザーを足して」とお願いすると、自動でパートを追加してくれます。
また、MIDI音声を入力してから「オペラ風スキャットで歌っているような感じに」と指定したところ、ちゃんと女性のオペラ歌手がスキャットで歌っているように変換されました。
「サックスの遠吠えのような音から始まり、その後犬の吠え声と電子音楽を組み合わせた音を作成してください」という指示でも音声が生成されました。サックス、犬の鳴き声、電子音楽という通常は組み合わせない要素で新しい音響体験を作り出すことができるというのは、Fugattoの柔軟性と創造性を示す特徴であるとNVIDIAはアピールしています。
FugattoはT5ベースのTransformerアーキテクチャを基盤として採用し、テキストエンコーダーとオーディオエンコーダーを組み合わせた構造を持っています。テキストエンコーダーにはByT5言語モデルを使用し、オーディオ処理には比較的浅い学習可能なTransformerエンコーダーを採用しています。
Fugattoのモデルサイズは25億パラメータまで拡張可能で、5万時間以上の音声データで構成される大規模なデータセットで学習しています。これにより、単一のモデルで多様な音声合成タスクに対応できる汎用(はんよう)性を実現しているとのこと。また、音声の品質を保つため、BigVGAN V2という事前学習済みのユニバーサルボコーダーを使用してメルスペクトログラムから波形を生成しています。
中核となる特徴は「最適輸送条件付きフローマッチング」という手法を採用していることです。この技術により、音声の生成過程をスムーズに制御することができ、高品質な音声合成が可能となっているとNVIDIAの研究チームは述べました。また、複数の指示を組み合わせたり、補間したり、否定したりすることを可能にする「ComposableART」もFugattoの大きな特徴。これは推論時に使用される技術で、例えば異なる音声効果を徐々に変化させたり、特定の要素を除外したりといった細かな制御が可能になっているそうです。
NVIDIAの応用オーディオ研究マネージャーであるラファエル・ヴァッレ氏は「人間と同じように音を理解し、生成するモデルを作りたかったのです。Fugattoはデータとモデルの規模から音声合成と変換における教師なしマルチタスク学習を可能にする未来への第一歩です」と述べています。
・関連記事
NVIDIAとMistral AIがAIモデル「Mistral NeMo」を発表、新型トークナイザ「Tekken」を採用し日本語を含む多言語性能が強み - GIGAZINE
NVIDIAが2025年第3四半期の業績を発表、次世代AIチップ「Blackwell」の人気で収益は前年同期比94%増の5兆4400億円 - GIGAZINE
NVIDIA B200とGoogle TrilliumがMLPerfベンチマークチャートに出現、B200はH100と比較し2倍のパフォーマンス - GIGAZINE
最大4096×4096の解像度の画像を数秒以内に自動生成できるAIモデル「Sana」をNVIDIAなどの研究チームがリリース - GIGAZINE
NVIDIAがAI普及に向けた新事業グループ設立を発表、「次世代AIチップBlackwellの需要は狂気的」とジェンスン・フアンCEO - GIGAZINE
CerebrasがNVIDIA H100の22倍高速な爆速AI推論サービスを発表、デモページも公開されたので使ってみた - GIGAZINE
・関連コンテンツ