2025年03月04日 10時58分ソフトウェア

Stability AIがArmと提携してスマホ上で音楽生成AIを直接動かす技術を開発

画像生成AI「Stable Diffusion」を開発するAI企業のStability AIは半導体企業のArmと提携し、音楽生成モデル「Stable Audio Open」をArmのCPUで直接実行できるように最適化したと発表しました。ArmのKleidiAIライブラリとStability AIの最先端技術を組み合わせることで、スマートフォン上での音楽生成時間を従来の数分から数秒へと30倍高速化しています。

Stability AI and Arm Bring On-Device Generative Audio to Smartphones — Stability AI
https://stability.ai/news/stability-ai-and-arm-bring-on-device-generative-audio-to-smartphones

On-device Audio Generation Accelerated by 30x with Arm Kleidi - Arm Newsroom
https://newsroom.arm.com/blog/stability-ai-arm-kleidi-text-to-audio-generation

Stable Audio Openは2024年6月に公開されたオープンソースの音楽生成AIモデルで、文章で指示するだけで最長47秒の音楽を生成できます。

無料で使える音楽生成AI「Stable Audio Open」をStable Diffusion開発元が公開、テキストから最長47秒のサウンドトラックを生成可能 - GIGAZINE

このStable Audio Openを従来のスマートフォンのCPU上で直接実行しても、1回の音楽生成に240秒(4分)以上の時間がかかり、実用的なレベルではなかったとのこと。そこで、Stability AIは、Stable Audio Openのモデルを蒸留し、モバイルデバイス向けを想定してより小さなパラメーター数にまで圧縮しました。

さらにArmによれば、ArmのCPUに特化した「マイクロカーネル」と呼ばれるパフォーマンス重視のルーチンを提供するKleidiAIライブラリを、XNNPackやExecuTorchと統合したとのこと。XNNPackはモバイルデバイス向けに最適化された深層学習演算ライブラリ、ExecuTorchはモバイルデバイス上でのモデル実行を効率化するフレームワークで、この統合により8ビット整数行列乗算が大幅に高速化されたとArmは報告しています。

加えて、Armv9アーキテクチャのCPUコアが持つ特性を活かした最適化も行われました。Armv9は機械学習ワークロード向けの拡張命令セットを備えており、これらを活用することでより効率的な実行が可能になります。

これらの最適化技術を組み合わせた結果、オンライン環境にないスマートフォン上でも、Stable Audio Openを直接動作させることが可能になりました。たとえば、同じArmベースのCPUで実行した場合、音楽の生成時間が240秒から8秒未満へと30倍の高速化を達成したとのこと。また、11秒の音声クリップ生成で特に劇的なパフォーマンス向上が実現されたとArmはアピールしています。

スマートフォン上のローカル環境で動作するStable Audio Openで音楽を生成するところが以下のムービー。

Arm and Stability AI Audio Generation Demo - YouTube

Stability AIのプレム・アッカラジューCEOは、「より多くのプロフェッショナルでクリエイティブな人々やビジネスが、生成AIを制作パイプラインに取り入れるようになればなるほど、私たちのモデルとワークフローがクリエイターが創造できるあらゆる場所で構築され、利用可能であることが重要になります。Stability AIがArmとパートナーシップを組むのはまさにこの理由からです。Armはサーバーからスマートフォンまでエコシステム全体に広く普及しており、また人気のあるすべてのフレームワークにおいてKleidiAIライブラリをソフトウェアスタックに統合することでAIモデルを加速する取り組みを行っていることから、今回の取り組みは当然の選択でした」とコメントしています。